miércoles, 10 de agosto de 2011

Métodos supervisados y no supervisados


Primero comenzaremos por hablar por los métodos no supervisados. Estos se basan en descubrir agrupaciones de pautas en un espacio de N-dimensiones sin saber a priori a qué clase pertenece cada muestra.
Entre los métodos más comunes de este tipo incluyen el
1- Análisis de Categorías (en inglés, CA, Cluster Analysis) [1]


2- Árbol de Mínimo Desarrollo (en inglés, MST,Minimal Spanning Tree) [2]


3- Mapas Auto-organizables (en inglés, SOM, Self-Organizing Maps) de Kohonen. [3]

Por otro lado en los métodos supervisados, la clasificación se basa  en un aprendizaje previo del sistema, con conjuntos de calibración o entrenamiento de objetos que permiten definir cada clase, ya que estos objetos son de conocida
pertenencia a una de las clases. La calidad de los resultados de la clasificación vendrá influenciada por la calidad de los conjuntos de entrenamiento.  Estos métodos pueden ser divididos a su vez en dos subgrupos: métodos discriminantes y métodos de modelado. [4]
Los métodos discriminantes dividen el espacio en  tantas regiones como clases haya en el conjunto de entrenamiento, creando límites compartidos por los espacios; por ello, toda muestra desconocida siempre podrá ser clasificada como perteneciente a una de las clases. Los más comunes son: Análisis Discriminante (en inglés, DA, Discriminant Analysis) y Vecino k más Cercano (en inglés, KNN, k-Nearest Neighbour).[5, 6]
Por su parte, los métodos de modelado se basan en la creación de volúmenes en el espacio, cada uno de los cuales  presenta límites para cada una  de las clases. Por ello, una muestra puede clasificarse como perteneciente  a alguna de las clases  o a ninguna de ellas. Entre estos métodos se cuentan el Reconocimiento de Pautas mediante Análisis Independiente Multicategórico (en inglés, PRIMA,  Pattern Recognition by Independent Multicategory Analysis), [7]  las Clases Desigualmente Dispersas (en inglés, UNEQ,  Unequal Dispersed Classes),[8] el Modelado Blando Independiente de Analogías de Clases (en inglés, SIMCA, Soft Independent Modelling of Class Analogy),[9] que es probablemente el más conocido y las Redes Neuronales Artificiales Supervisadas (en inglés, SANN,  Supervised Artificial Neural Networks).[9]
Mas adelante trataremos de desarrollar uno a uno estos métodos con algún ejemplo para clarificar su aplicación.


[1]  a) Xu, D.; Redman-Furey, N. (2007) “Statistical cluster analysis of pharmaceutical solvents”.  Int. J. Pharm.  339:175-188; b) Bratchell, N. (1989) “Cluster analysis”. Chemom. Intell. Lab. Syst. 6:105-125. 
[2]  Strouf, O. (1986)  Chemical Pattern Recognition. Research Studies Press LTD, Letchworth, Hertfordshire, Inglaterra. 

[3]  a) Bianchi, D.; Calogero, R.; Tirozzi, B. (2007) “Kohonen neural networks and genetic classification”. Math. Computer Mod. 45:34-60; b) Capitán-Vallvey, L. F.; Navas, N.; del Olmo, M.; Consonni, V.; Todeschini, R.  (2000) “Resolution of mixtures of three nonsteroidal anti-inflammatory drugs by fluorescence using partial least squares multivariate calibration with previous wavelength selection by Kohonen artificial neural networks”. Talanta 52:1069-1079. 
[4] Derde, M. P.; Massart, D. L. (1986)  “Supervised pattern recognition: The ideal method?”. Anal. Chim. Acta 191:1-16. 
[5] Massart, D. L.; Vandeginste, B. G. M.;  Deming, S. N.; Michotte, Y.; Kaufman, L. (1988). Chemometrics: A Textbook. Elsevier, Amsterdam, Holanda.
[6]  a) Coomans, D.; Massart, D. L. (1982)  “Alternative K-nearest neighbour rules in supervised pattern recognition. Part 1: K-nearest neighbour classification by using alternative voting rules”. Anal. Chim. Acta 136:15-27; b) Coomans, D.; Massart, D. L. (1982) “Alternative K-nearest neighbour rules in supervised pattern recognition. Part 2. Probabilistic classification on  the basis of the kNN method modified for direct density estimation”. Anal. Chim. Acta 138:153-165. 
[7]  Jurickskay, I.; Veress, G. E. (1981) “PRIMA: A new pattern recognition method”. Anal. Chim. Acta 171:61-76. 
[8]  a) Derde, M. P.; Massart, D. L. (1986) “UNEQ: A disjoint modelling technique for pattern recognition based on normal distribution”. Anal Chim. Acta 184:33-51; b) Ortiz Fernández, M. C.; Herrero Gutiérrez, A.; Sánchez Pastor, M. S.; Sarabia, L. A.; Íñiguez Crespo, M. (1995) “The UNEQ, PLS and  MLF neural network methods in the modelling and prediction of the colour of young red wines from the denomination of 
origin `Rioja´”. Chemom. Intell. Lab. Syst. 28:273-285. 
[9]  a) Gemperline, P. J.; Webber, L. D.  (1989) “Raw materials testing using soft independent modeling of class analogy analysis of near infrared  reflectance spectra”. Anal. Chem. 61:138-144; b) Candolfi, A.; De Maesschalck, R.; Massart, D. L.; Hailey, P. A.; Harrington, A. C. E. (1999) “Identification of pharmaceutical excipients using NIR spectroscopy and SIMCA”. J. Pharm. Biomed. Anal. 19:923-935.
[10]  a) Bertran, E.; Blanco, M.; Coello, J.; Iturriaga, H.; Maspoch, S.; Montoliu, I. (2000) “Near infrared spectrometry and pattern  recognition as screening methods for the authentication of virgin olive oils of very close geographical origins”. J. Near Infrared Spectrosc. 8:45-52; b) Agatonovic-Kustrin, S.; Beresford, R. (2000) “Basic concepts of artificial neural network (ANN) modeling and its application in pharmaceutical research”. J. Pharm. Biomed. Anal. 22:717-727. 


martes, 9 de agosto de 2011

Técnicas Quimiométricas de Clasificación


Las técnicas quimiométricas utilizadas en problemas de análisis cualitativo se conocen de forma general con el nombre de Métodos de Reconocimiento de Pautas (MRP). [1]
Este conjunto de herramientas permite establecer  agrupaciones de muestras en función de características comunes o relaciones que existan entre ellas o bien definir criterios para clasificar muestras desconocidas. [2]

Estas técnicas quimiométricas han sido ampliamente aplicadas a la resolución de distintos problemas de clasificación, empleando ya sea características o magnitudes físicas de las muestras. 
La mayoría de los MRP se fundamenta en la determinación de la similitud y la manera más común de expresar la similitud es a través de medidas de correlación o distancias. Las medidas de correlación se basan en el cálculo del coeficiente de  correlación entre dos muestras, que oscila entre –1 y 1. En este caso, los valores unitarios indican coincidencia total entre los dos vectores (espectros en el IR, perfiles de disolución, voltamperogramas, etc). [3]
 Por su parte, las medidas de distancia se  basan en el cálculo  de una variable que representa cuán diferente es una muestra de otra o bien cuál es la diferencia entre la muestra y puntos en el espacio que representan los modelos de una clase. El cálculo de la distancia D entre una muestra  xi  y el centroide de una clase cuya  matriz de dispersión de los datos alrededor del centroide es Φ, depende del valor que adopte esta matriz de dispersión. [4]
En un caso particular, cuando Φ-1 representa la inversa de la matriz de variancia-covariancia, la distancia es conocida como Distancia de Mahalanobis (MD). La morfología de estas clases es elipsoidal, con elipsoides que presentan formas, tamaños y orientaciones diferentes.  Por su parte, los MRP se clasifican  en métodos supervisados y métodos no supervisados, según se conozca o no la pertenencia de los objetos a clases determinadas.  


[1] Piao, X.-L.; Park, J. H.; Cui, J.; Kim, D.-H.; Yoo, H. H. (2007) “Development of gas chromatographic/mass spectrometry-pattern recognition method for the quality control of Korean Angelica”. J. Pharm. Biomed. Anal 44:1163-1167; b) Urbano, M.; Luque de Castro, M. D.; Pérez, P. M.; García-Olmo, J.; Gómez-Nieto, M. A. (2006) “Ultraviolet-visible spectroscopy and pattern recognition methods for differentiation and classification of wines”. Food Chem. 97:166-175; c) Realpe, A.; Velázquez, C. (2006) “Pattern recognition for characterization of pharmaceutical powders”. Powder Technol. 169:108-113; d) Scott, D. R. (1994) “Pattern recognition/expert system for identification of toxic compounds from low resolution mass spectra”. Chemom. Intell. Lab. Syst. 23:351-364.

[2] Rosenfeld, A. (1969) “Pictorial pattern recognition”. Biosystems 3:211-220. 

[3] Blanco, M.; Coello, J.; Iturriaga, H.; Maspoch, S.; De la Pezuela, C. (1994) “Control analysis of a pharmaceutical preparation by near-infrared reflectance spectroscopy : A comparative study of a spinning module and fibre optic probe”. Anal. Chim. Acta 
298:183-191. 

[4] Mark, H. (2002). Qualitative Discriminant Analysis en Burns, D. A.; Ciurczac, E. (Eds.) Handbook of Near Infrared Analysis, Marcel Dekker, Nueva York, EEUU, Capítulo 13.  


lunes, 8 de agosto de 2011

Muestreo de espectros para calibración por PLS - Algoritmos de Kennard-Stone

Kennard y Stone propusieron un método secuencial que debe cubrir la región experimental de manera uniforme que es lo que se pretende al utilizar un diseño de experimentos. El procedimiento consiste en seleccionar como siguiente muestra (objeto candidato) aquel que se encuentra a mayor distancia de los objetos previamente seleccionados (objetos de calibración). La distancia utilizada normalmente es la distancia Euclidea aunque es también posible, y probablemente es mejor, utilizar la distancia de Mahalanobis. En un primer  momento, se seleccionan los dos objetos que se encuentran a mayor distancia dentro del espacio experimental. De todos los puntos candidatos, se selecciona  aquel que esté más alejado de los dos primeros previamente seleccionados y se añade al conjunto de las muestras de calibración. Para ello, se determina la distancia entre cada punto candidato i0 y cada punto i que ha sido ya seleccionado y se determina cuál es la menor distancia:
 

 De entre estos valores se selecciona aquel para el que la distancia sea máxima.


En ausencia de fuertes irregularidades en el factor espacio, el procedimiento comienza con  la selección del conjunto de puntos próximos a aquellos seleccionados mediante el método D-optimal, i.e., en los límites del conjunto de datos (más el punto central). Entonces se procede a rellenar el espacio de calibración. Kennard y  Stone denominaron a su procedimiento “algoritmo de trazado uniforme”; proporciona una distribución plana de datos que, como se explicó antes, es la más adecuada para el modelo de regresión.[1]

[1] http://www.uco.es/dptos/ing-quimica/ing-q/unid-quimica/docencia/doctorado/enologia/rioja/Teoria_Quimiometria.pdf