Herramientas analíticas basadas en la aplicación de machine learning sobre datos espectroscópicos

  1. Pérez Calle, José Luis
Supervised by:
  1. Miguel Palma Lovillo Director
  2. Marta Ferreiro Gonzalez Co-director

Defence university: Universidad de Cádiz

Fecha de defensa: 11 December 2024

Committee:
  1. Ricard Boqué Martí Chair
  2. Ceferino Carrera Secretary
  3. Widiastuti Setyaningsih Committee member
Department:
  1. Química Analítica

Type: Thesis

Teseo: 859150 DIALNET lock_openRODIN editor
RODIN. Repositorio de Objetos de Docencia e Investigación de la Universidad de Cádiz: lock_openOpen access Externo

Abstract

La automatización y el avance de los equipos instrumentales en los laboratorios analíticos han permitido la adquisición de grandes volúmenes de datos en tiempos muy reducidos. Sin embargo, estos datos no siempre se traducen en información útil de manera directa, sino que requieren una interpretación compleja. En este contexto, la Quimiometría se ha consolidado como una disciplina esencial, empleando métodos matemáticos y estadísticos para diseñar y optimizar experiencias y para interpretar los resultados, extrayendo así la máxima información útil posible. Con el avance de la inteligencia artificial y, en particular, del machine learning (ML), la Quimiometría ha experimentado una revolución. Estas herramientas permiten a los sistemas aprender de los datos, identificar patrones y tomar decisiones con mínima intervención humana. Este enfoque es particularmente relevante en diferentes ámbitos dentro de la industria agroalimentaria, como en la autentificación de alimentos y en la investigación de acelerantes en incendios, que requieren soluciones cada vez más eficientes ante la complejidad de los retos que abordan. La detección y cuantificación de adulterantes en alimentos, así como la detección de trazas de residuos de líquidos inflamables (ILRs) en restos de incendios, representan tareas particularmente complejas. Entre otros motivos, esta complejidad se debe a la variedad de matrices en las que deben realizarse estas determinaciones. En este sentido, la adulteración de productos como zumos o mieles puede involucrar una amplia gama de compuestos que se encuentran en bajas concentraciones, y por ello resulta difícil de cuantificar e incluso de identificar con la fiabilidad adecuada. De manera similar, en la investigación de incendios presuntamente intencionados, uno de los puntos claves para establecer la causa del fuego es determinar la presencia de ILRs entre los restos de incendios. En la mayoría de los casos, los ILRs se encuentran a nivel de trazas y mezclados con una multitud de compuestos derivados de la combustión o del propio material quemado, que pueden enmascarar las señales clave para su determinación. Los métodos convencionales para abordar estos desafíos se centran en la identificación de compuestos diana o marcadores, generalmente a través de técnicas de separación, como la cromatografía líquida o gaseosa acoplada a detectores de masas. Sin embargo, este enfoque presenta desventajas como la necesidad de una larga preparación de la muestra, que pueden incluir etapas previas de tratamientos de separación o concentración, el elevado costo de mantenimiento y de operación de los instrumentos o la necesidad de un alto nivel de especialización del analista. En este contexto, las técnicas espectroscópicas como FTIR (Fourier Transform Infrared), Vis-NIR (Visible - Near Infrared) o los sistemas de narices electrónicas ofrecen una alternativa eficiente y versátil. En particular, dentro de los sistemas de narices electrónicas, bien con sistemas previos de separación o bien con sistema de cromatografía ultrarrápida, se destacan aquellos que emplean el análisis de espacio de cabeza, como el HS-GC-IMS (Headspace - Gas Chromatography - Ion Mobility Spectrometry) o los sistemas basados en arrays de sensores. Todas estas técnicas permiten determinar compuestos individuales, pero también generar perfiles globales o fingerprints características de cada tipo de muestras, lo que agiliza el proceso de análisis. Además, presentan numerosas ventajas como la rapidez del análisis, el bajo coste, la sencillez de uso, la escasa preparación de la muestra y no generan residuos ni utilizan disolventes, lo que las encuadra dentro de los principios de la Química Verde. Otra de las grandes ventajas es su alta portabilidad, lo cual permite realizar análisis in situ, minimizando posibles errores o contaminaciones asociadas al almacenamiento y/o transporte de las muestras. Por otra parte, estas técnicas espectroscópicas, generan grandes volúmenes de datos, lo que hace esencial la integración de algoritmos de ML para extraer y analizar las fingerprints características de cada tipo de muestra. Esta integración no solo permite interpretar los resultados de manera más eficiente, sino que también automatiza el proceso, reduciendo tanto el tiempo como los costos operativos. Aunque en ocasiones, las técnicas lineales de ML como el análisis de componentes principales (PCA) o el análisis discriminante lineal (LDA) suelen ser suficientes, en el caso de muestras químicamente complejas, técnicas no lineales más avanzadas, como bosques aleatorios (RF) o máquinas de vectores de soporte (SVM) están resultando ser especialmente útiles. Estas técnicas no solo amplían las posibilidades de crear modelos con los resultados, sino que también permiten identificar patrones y desarrollar modelos predictivos para tomar decisiones de manera rápida y automatizada. En base a todo lo anterior, la presente Tesis Doctoral tiene como objetivo la aplicación de herramientas basadas en ML, para el desarrollo de modelos descriptivos o predictivos que permitan así la caracterización rápida y automatizada de muestras de interés en el campo agroalimentario, mediante el uso de técnicas espectroscópicas de generación de perfiles globales. En particular, se emplea la espectroscopía Vis-NIR, FTIR y HS-GC-IMS en combinación con algoritmos de ML, para la autentificación de muestras de zumos y la espectroscopia Vis-NIR para muestras de mieles. Asimismo, se han creado modelos para la detección de ILRs en restos de incendios mediante el empleo de datos generados con una nariz electrónica compuesta por un array de sensores, así como mediante el uso de HS-GC-IMS. Además, se ha desarrollado una página web de acceso libre que permite compartir los mejores modelos obtenidos, facilitando así la caracterización de estas muestras a otros investigadores y productores. Entre los modelos disponibles para la detección de adulteraciones en zumos y mieles, se incluyen modelos basados en LDA, SVM y RF, los cuales lograron identificar correctamente más del 95% de las adulteraciones, dependiendo de la técnica espectroscópica utilizada y la muestra analizada. Para la cuantificación del porcentaje de adulteración, el modelo basado en SVM presentó los mejores resultados, con coeficientes de determinación (R²) superiores a 0.98 y con raíz de error cuadrático medio (RMSE) inferiores a 1.85 para todos los casos. En cuanto a la detección de ILRs, los modelos disponibles lograron clasificar correctamente las muestras en más del 95% de los casos, independientemente de la técnica espectroscópica utilizada (nariz electrónica basada en array de sensores y HS-GC-IMS). Además de las ventajas asociadas a las propias técnicas espectroscópicas utilizadas, la metodología propuesta en la presente Tesis Doctoral aporta una mayor rapidez y eficiencia mediante la automatización en la obtención de resultados. Así, se plantea una alternativa innovadora, accesible y eficiente para el análisis y control de calidad en los procesos agroalimentarios, promoviendo prácticas sostenibles y avanzadas en laboratorios analíticos de la industria, centros de investigación y/o administraciones involucradas en estos análisis.