Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
QUIMIOMETRÍA Educació. Materials 82 UNIVERSITAT DE VALÈNCIA 2005 QUIMIOMETRÍA Carlos Mongay Fernández Colección: Educació. Materials Director de la colección: Guillermo Quintás Alonso Esta publicación no puede ser reproducida, ni total ni parcialmente, ni registrada en, o transmitida por, un sistema de recuperación de información, en ninguna forma ni por ningún medio, ya sea fotomecánico, foto químico, electrónico, por fotocopia o por cualquier otro, sin el per miso previo de la editorial. © El autor, 2005 © De esta edición: Universitat de València, 2005 Producció editorial: Juli Capilla Fotocomposición y maquetación: Celso Hernández de la Figuera Cubierta: Diseño: Pere Fuster (Borràs i Talens Assessors SL) Tratamiento gráfico: Sonia Navvab Akbar Corrección: Josep M. Martínez Polo ISBN: 978-84-370-8644-6 7 Índice Introducción ............................................................................................ 15 Capítulo 1. Principios de quimiometría ................................................. 19 1.1 La química analítica como ciencia metrológica ........................... 19 1.1.1 Variables ............................................................................ 19 1.1.2 Estadística básica .............................................................. 21 1.1.3 Métodos univariantes y multivariantes ............................. 23 1.1.4 Control de calidad ............................................................. 24 1.1.5 Diseño de experiencias ..................................................... 25 1.2 Errores experimentales ................................................................. 26 1.3 Exactitud y precisión .................................................................... 27 1.4 Errores sistemáticos ...................................................................... 28 1.4.1 Clasificación ...................................................................... 30 1.4.2 El error sistemático en los métodos analíticos .................. 31 1.5 Errores aleatorios .......................................................................... 32 1.5.1 Cifras significativas ........................................................... 32 1.5.2 Cálculo de errores aleatorios ............................................. 34 Capítulo 2. Estadística básica .................................................................. 37 2.1 Ayudando a la experimentación ................................................... 37 2.2 El método estadístico ................................................................... 38 2.2.1 Tendencia central .............................................................. 40 2.2.2 Dispersión ......................................................................... 40 2.2.3 Asimetría ........................................................................... 42 2.3 Distribución muestral de la media ................................................ 42 2.4 Integración de la curva de distribución normal ............................ 43 2.5 Límites de confianza ..................................................................... 44 8 2.6 Propagación del error en los cálculos ........................................... 45 2.6.1 Errores sistemáticos .......................................................... 46 2.6.2 Errores aleatorios .............................................................. 47 Capítulo 3. Tratamiento estadístico de grupos de pocos datos ............. 49 3.1 Una aproximación a la realidad .................................................... 49 3.2 Inferencia estadística. Pruebas de significación ........................... 50 3.3 Distribución t de Student .............................................................. 52 3.3.1 Detección de errores sistemáticos ..................................... 53 3.3.2 Test de error ...................................................................... 54 3.3.3 Pruebas de una y de dos colas ........................................... 54 3.4 Comparación de dos varianzas ..................................................... 56 3.5 Comparación de dos medias ......................................................... 57 3.5.1 Muestras independientes ................................................... 59 3.5.2 Muestras relacionadas ....................................................... 61 3.6 Rechazo de observaciones ............................................................ 62 3.6.1 Test de Student .................................................................. 63 3.6.2 Criterio Q de Dixon .......................................................... 64 3.6.3 Recomendaciones ............................................................. 65 Capítulo 4. La distribución chi-cuadrado (χ 2) ....................................... 67 4.1 Distribuciones de frecuencia ........................................................ 67 4.2 La función chi-cuadrado ............................................................... 68 4.3 Distribución chi-cuadrado para una muestra ................................ 69 4.4 Comparación de distribuciones: tablas de clasificación ............... 71 4.4.1 Tablas de clasificación simple y tablas 2 × k ...................... 71 4.4.2 Tablas de contingencia (n × k) ........................................... 74 4.5 Normalidad de una distribución ................................................... 76 Capítulo 5. Métodos no paramétricos ..................................................... 81 5.1 Se dispone de poca información ................................................... 81 5.1.1 Tendencia central .............................................................. 82 5.1.2 Dispersión ......................................................................... 83 5.2 La prueba de signos ...................................................................... 84 5.2.1 Contraste de valores centrales ........................................... 84 5.2.1.1 Comparación de la mediana con un valor de prueba.- 5.2.1.2 Comparación de dos muestras relacionadas. 5.2.2 Otros contrastes de la prueba de signos ............................ 87 5.2.2.1 Prueba de rachas: aleatoriedad de una muestra.- 5.2.2.2 Prueba de rachas de Wald-Wolfowitz: ajuste a modelos. 5.3 Prueba de rangos con signo de Wilcoxon ..................................... 90 5.3.1 Comparación de la mediana con un valor de prueba ........ 91 5.3.2 Comparación de dos muestras relacionadas ..................... 93 9 5.4 Suma de rangos: dos muestras independientes ............................ 94 5.4.1 Prueba de suma de rangos de Wilcoxon-Mann-Whitney .. 95 5.4.2 Simplificación U de Mann-Whitney ................................. 96 5.4.3 Prueba rápida de Tukey ..................................................... 97 5.5 Comparación de dispersiones ....................................................... 98 5.5.1 Contraste del recorrido para dos muestras ........................ 98 5.5.2 Método de Siegel y Tukey ................................................ 98 5.6 Prueba de ajuste de Kolmogorov ................................................. 100 5.6.1 Prueba de aleatoriedad ...................................................... 100 5.6.2 Prueba de normalidad ....................................................... 101 5.7 Observaciones aberrantes ............................................................. 102 5.7.1 Rechazo de valores ........................................................... 102 5.7.2 Criterio del recorrido ......................................................... 103 Capítulo 6. Estadística avanzada ............................................................. 105 6.1 Análisis multivariante .................................................................. 105 6.2 Técnicas estadísticas ....................................................................108 6.2.1 Métodos de dispersión ...................................................... 108 6.2.2 Métodos de reconocimiento de pautas .............................. 109 6.2.3 Modelización de series temporales ................................... 111 6.3 Generalidades sobre matrices ....................................................... 112 6.3.1 Operaciones con matrices ................................................. 112 6.3.2 Vectores ............................................................................. 113 6.3.3 Estructura (valores propios) de una matriz cuadrada ........ 114 6.4 Medida de distancias .................................................................... 115 6.5 Matrices estadísticas básicas ........................................................ 119 6.5.1 La matriz de datos ............................................................. 119 6.5.2 La matriz de covarianzas .................................................. 124 6.5.3 La matriz de correlaciones ................................................ 127 6.5.4 Paquetes estadísticos ......................................................... 128 Capítulo 7. Análisis de la varianza .......................................................... 129 7.1 El método ANOVA ....................................................................... 129 7.2 Homocedasticidad de las variables .............................................. 130 7.2.1 Test de Cochran ................................................................. 131 7.2.2 Criterio de Bartlett ............................................................ 131 7.2.3 Prueba de Levene .............................................................. 133 7.2.4 Transformaciones de potencia .......................................... 133 7.3 ANOVA de un factor .................................................................... 134 7.3.1 Muestras de igual tamaño ................................................. 134 7.3.2 Muestras de distinto tamaño ............................................. 137 7.3.3 Observaciones combinadas ............................................... 138 7.4 Factores de efectos fijo y aleatorio ............................................... 138 7.4.1 Factor de efecto fijo .......................................................... 139 7.4.2 Factor de efecto aleatorio .................................................. 141 10 7.5 Análisis factorial de la varianza ................................................... 143 7.5.1 ANOVA de dos factores .................................................... 144 7.5.1.1 Planteamiento formal del cálculo.- 7.5.1.2 Hipótesis nulas y estadísticos de contraste.- 7.5.1.3 Aplicaciones.- 7.5.1.4 Algunas consideraciones sobre el modelo. 7.5.2 ANOVA de tres factores .................................................... 154 Capítulo 8. Análisis multivariante de la varianza .................................. 159 8.1 MANOVA ..................................................................................... 159 8.2 Planteamiento geométrico del MANOVA .................................... 160 8.2.1 Una variable dependiente (P =1) y un factor (Q =1) .......... 161 8.2.2 Varias variables dependientes (P ≥ 2) y un factor (Q =1) .. 162 8.2.3 Caso general: P-variables dependientes y Q-factores ....... 166 8.3 Estudio del modelo MANOVA ..................................................... 168 8.3.1 Fuentes de variación ......................................................... 168 8.3.2 Justificación geométrica de la interacción ........................ 169 8.3.3 El coeficiente eta cuadrado ............................................... 172 Capítulo 9. Análisis de componentes principales ................................... 175 9.1 Modelo descriptivo ....................................................................... 175 9.1.1 Geometría del análisis de componentes principales ......... 176 9.1.2 Matriz de vectores propios ................................................ 180 9.2 Planteamiento analítico ................................................................ 181 9.2.1 Matriz factorial o de componentes: saturaciones .............. 183 9.2.2 Matriz de cargas: cargas factoriales .................................. 185 9.3 El ACP como reductor de dimensiones ........................................ 186 9.4 Problemas relacionados con el ACP ............................................. 189 9.4.1 Efecto del tipo de datos ..................................................... 190 9.4.2 Consideraciones sobre la matriz de covarianzas ............... 191 9.4.3 Número de componentes principales que deben retenerse 191 9.4.4 Interpretación de las componentes principales ................. 194 Capítulo 10. Análisis factorial .................................................................. 197 10.1 Las variables ocultas .................................................................... 197 10.1.1 Relación entre el análisis factorial y el ACP ..................... 198 10.1.2 Matriz factorial .................................................................. 199 10.1.3 Factorización por componentes principales y por ejes principales .................................................................................... 201 10.1.4 Conceptos básicos ............................................................. 202 10.2 Modelo de un único factor común ................................................ 204 10.3 Modelo de dos factores comunes ................................................. 206 10.3.1 Significado de los factores comunes ................................. 208 10.3.2 Indeterminación factorial .................................................. 209 10.4 Aplicación de un análisis factorial ............................................... 210 11 10.4.1 Número de factores ........................................................... 211 10.4.2 Factorización de la matriz de correlaciones ...................... 212 10.4.3 Extracción de factores ....................................................... 214 10.4.4 Rotación factorial .............................................................. 215 10.4.5 La resolución de un análisis factorial ................................ 215 Capítulo 11. Análisis de conglomerados .................................................. 221 11.1 Modelo descriptivo ....................................................................... 221 11.2 Visión geométrica ......................................................................... 222 11.2.1 Medidas de asociación ...................................................... 223 11.2.2 Métodos de enlace ............................................................. 224 11.2.3 Comparación entre los métodos de enlace ........................ 231 11.3 Clasificación de los métodos ........................................................ 233 11.3.1 Métodos jerárquicos .......................................................... 234 11.3.2 Agrupaciones no jerárquicas ............................................. 236 11.3.2.1 Método de las K-medias. 11.3.3 Plan de trabajo ................................................................... 239 11.4 Conglomeración de variables ....................................................... 241 Capítulo 12. Análisis discriminante lineal .............................................. 245 12.1 Modelo explicativo ....................................................................... 245 12.1.1 Análisis discriminante univariante y multivariante .......... 246 12.1.2 Grupos de observaciones .................................................. 247 12.2 Análisis discriminante entre dos grupos (Q =1) ........................... 248 12.2.1 Lambda de Wilks en el espacio unidimensional ............... 250 12.2.2 Correlacióncanónica ........................................................ 251 12.2.3 Función discriminante: normalización .............................. 253 12.3 Análisis discriminante entre dos grupos (Q ≥ 2) ........................... 254 12.3.1 Identificación de la función discriminante ........................ 255 12.3.2 Puntuaciones discriminantes: normalización de la función 257 12.3.3 Valor de corte .................................................................... 259 12.3.4 Coeficientes estandarizados: importancia relativa de las variables ....................................................................................... 260 12.4 Análisis discriminante multivariante multigrupo ......................... 261 12.4.1 Funciones discriminantes .................................................. 261 12.4.2 Alternativas para obtener las funciones discriminantes .... 264 12.4.3 Eficacia de las sucesivas funciones discriminantes .......... 267 12.4.4 Matriz de estructura y cargas ............................................ 269 12.5 Comparación del ADL con otras técnicas .................................... 271 12.6 Clasificación ................................................................................. 273 12.6.1 Valor de corte .................................................................... 273 12.6.2 Teoría estadística de la decisión ........................................ 274 12.6.3 Funciones de clasificación ................................................ 277 12.6.4 Distancias de Mahalanobis ............................................... 277 12 Capítulo 13. Regresión lineal simple ....................................................... 279 13.1 Relación entre las variables .......................................................... 279 13.1.1 Análisis de regresión ......................................................... 280 13.1.2 Distribución de los residuales ........................................... 282 13.2 Homocedasticidad: recta de mínimos cuadrados ......................... 283 13.2.1 Análisis de la varianza ...................................................... 284 13.2.2 Varianza de la regresión, de la pendiente y de la ordenada 285 13.2.3 Comparación de la pendiente con un valor dado .............. 287 13.3 Heterocedasticidad: factores de ponderación ............................... 290 13.4 Evaluación conjunta de los parámetros de regresión ................... 292 13.5 Modelos polinomiales .................................................................. 295 Capítulo 14. Calibración .......................................................................... 299 14.1 La calibración en análisis instrumental ........................................ 299 14.2 Límite de detección ...................................................................... 300 14.2.1 Falso positivo: estudio del blanco ..................................... 301 14.2.2 Falso negativo: estudio de las muestras ............................ 302 14.3 Interpolación de datos .................................................................. 304 14.3.1 Predicción de observaciones: residuales homocedásticos 306 14.3.1.1 Las dispersiones de muestras y patrones son iguales.- 14.3.1.2 La dispersión de muestras y patrones no es la misma. 14.3.2 Predicción de observaciones: residuales heterocedásticos 310 14.4 Comprobación de un punto externo a la recta .............................. 310 14.4.1 Comprobación de un punto aislado ................................... 311 14.4.2 Comprobación de un punto promediado ........................... 312 14.5 Predicción en análisis químico. Interpolación inversa ................. 313 14.6 Métodos de calibración ................................................................ 315 14.6.1 Método de dos patrones .................................................... 315 14.6.2 Método de adición estándar .............................................. 316 14.6.3 Método de ajustes múltiples .............................................. 316 Capítulo 15. Regresión lineal múltiple .................................................... 319 15.1 El modelo lineal ........................................................................... 319 15.1.1 Modelos univariantes ........................................................ 320 15.1.2 Modelos multivariantes ..................................................... 321 15.2 Regresión lineal múltiple ............................................................. 322 15.2.1 Ajuste de las observaciones .............................................. 324 15.2.2 Análisis de la varianza ...................................................... 325 15.2.3 Coeficiente de correlación múltiple .................................. 326 15.3 Selección de las variables ............................................................. 328 15.3.1 Estadísticos para los coeficientes ...................................... 328 15.3.2 Coeficiente de determinación corregido ........................... 329 15.3.3 Modelización por pasos .................................................... 330 13 15.4 Problemas en el ajuste del modelo ............................................... 333 15.4.1 Análisis de los residuos ..................................................... 333 15.4.2 Multicolinealidad .............................................................. 334 15.5 Predicción en regresión lineal múltiple ........................................ 337 15.6 Regresión lineal en absorciometría .............................................. 339 15.6.1 Regresión lineal simple y regresión lineal múltiple .......... 339 15.6.2 Regresión en componentes principales ............................. 344 Capítulo 16. Análisis de series de tiempo ................................................ 347 16.1 Procesos estocásticos y series de tiempo ...................................... 347 16.1.1 Tipos de series de tiempo .................................................. 348 16.1.2 Suavizado de series de tiempo .......................................... 349 16.1.3 Movimientos de las series de tiempo ................................ 350 16.1.4 Análisis de series de tiempo .............................................. 352 16.2 Modelos ARIMA .......................................................................... 353 16.3 Componentes determinísticos ...................................................... 354 16.3.1 Etapa de integración: proceso estacionario ....................... 354 16.4 Componentes estocásticos ............................................................ 357 16.4.1 Autocorrelación ................................................................. 357 16.4.2 Proceso Auto-regresivo AR(p) .......................................... 360 16.4.3 Proceso de Media Móvil MA(q) ....................................... 363 16.4.4 Proceso auto-regresivo integrado de media móvil ARIMA (p,d,q) ........................................................................................... 365 16.5 Procesos estacionales ................................................................... 366 16.6 Identificación del modelo ARIMA ............................................... 367 16.6.1 Modelización del componente determinístico .................. 367 16.6.2 Modelización de los componentes estocásticos ................ 369 16.7 Construcción del ARIMA ............................................................. 374 16.7.1 Estimación de los parámetros ........................................... 374 16.7.2 Conformidad de los parámetros y comparación de modelos 375 16.7.3 Diagnóstico del modelo .................................................... 376 16.7.4 Raíz unidad ....................................................................... 377 16.8 Resolución de un problema.......................................................... 379 Capítulo 17. El control en un laboratorio analítico ............................... 385 17.1 Diagramas de control ................................................................... 385 17.1.1 Diagrama de control de Shewhart ..................................... 386 17.1.2 Diagrama de sumas acumuladas ....................................... 387 17.1.3 Consideraciones analíticas ................................................ 389 17.2 Ejercicios interlaboratorios .......................................................... 389 17.2.1 Ensayos de suficiencia ...................................................... 390 17.2.2 Detección de errores sistemáticos: diagramas de Youden 392 17.2.3 Ensayos de colaboración ................................................... 394 17.2.4 Estimación y separación de varianzas ............................... 397 14 Capítulo 18. Estadística del muestreo ..................................................... 399 18.1 El muestreo analítico .................................................................... 399 18.1.1 Errores de muestreo .......................................................... 400 18.1.2 Criterios estadísticos para la toma de muestra .................. 401 18.1.3 Origen de la dispersión en el muestreo ............................. 402 18.2 Muestras reales ............................................................................. 405 18.2.1 Materiales homogéneos y heterogéneos ........................... 407 18.2.2 Unidades de muestreo ....................................................... 409 18.2.3 Análisis en unidades de muestreo ..................................... 411 18.2.4 Toma de muestra estratificada ........................................... 413 Bibliografía ................................................................................................ 415 Índice analítico .......................................................................................... 417 15 No deja de ser sorprendente que, siendo la química en general y la quí- mica analítica en particular, una ciencia metrológica que se ocupa de todos los elementos que participan en el proceso global de la medida, se ignoren de forma sistemática los métodos estadísticos, sin considerar ni aplicar las oportunas correcciones a los errores residuales, con las cuales se podría conseguir una in- formación más ambiciosa y adecuada. El objetivo de este manual es fundamentar los aspectos estadísticos de algunas herramientas empleadas en quimiometría, sin olvidar su parte de enfoque eminentemente práctico, y mostrar cómo estas herramientas se aplican en química analítica y en otras disciplinas experimentales relacionadas. Para ello se intenta presentar los conocimientos de forma sencilla pero con rigor, sin perder nunca de vista su aplicación inmediata, recurriendo a numerosos ejemplos que aclaren los distintos aspectos considerados. Es importante recalcar el contexto en el que se hace uso de la quimiometría como disciplina que trata de la adquisición y aprovechamiento de la información en las aplicaciones analíticas. Todo proceso de obtención de información está constituido por tres etapas bien diferenciadas: – obtención de los datos químico-analíticos; – presentación condensada de la información; – análisis estadístico de la información y conclusiones que de ella derivan. La quimiometría está presente en cada etapa, aunque de forma un tanto diferente. Antes de iniciar la obtención de datos se plantea el problema a resolver (composición cualitativa y cuantitativa de la muestra como referentes clásicos, pero también estudio de parámetros y variables analíticas, agrupación de com- Introducción 16 ponentes, reducción del número de variables, etc.). A continuación se inicia el muestreo, siendo ésta una parte del análisis químico cuyo tratamiento estadístico es de vital importancia, recurriendo en su origen a la distribución binomial (frente a la distribución normal a la que se recurre en el tratamiento de errores), y que sin embargo es de tal complejidad que su aplicación sigue siendo empírica en gran medida. Para comprenderlo basta considerar que si se tratase de una mues- tra formada por dos clases de partículas, ambas homogéneas y de igual tamaño, y tales que unas estén formadas por el componente analítico de interés y otras no, el número total de partículas de la muestra analítica controlaría el error de muestreo. Sin embargo las muestras reales distan de tener una composición tan simple; normalmente son mezclas complejas de diversos componentes, consti- tuidas por partículas de distintos tamaños y donde la concentración del consti- tuyente buscado varía dentro de un abanico considerable de posibilidades. En estas condiciones la evaluación estadística rigurosa del error no es viable, aunque algunas simplificaciones permiten extraer ciertas conclusiones orientadoras sobre el problema del muestreo. Un aspecto fundamental de esta etapa de obtención de datos químico-analí- ticos, y que condicionará la validez de las conclusiones que puedan extraerse de ellos, es que la información que contengan los datos sea relevante en el contexto analítico planteado, pues en caso contrario pueden derivarse conclusiones absur- das. Así, seguramente se encontrará un alto coeficiente de correlación (o incluso un muy elevado coeficiente de correlación) entre el número de trabajos publicados en cualquier Departamento de Química Analítica y el número de nacimientos en China y, sin embargo, no existirá ninguna relación entre ellos. La segunda etapa del proceso implica la presentación condensada de la información para plasmar los datos en forma de tablas, gráficos o resúmenes numéricos que permita comunicar la información obtenida de manera breve y concisa, pero a su vez de forma clara e inteligible. Este aspecto incide de lleno en el contexto de la estadística descriptiva que muestra estadísticos de resumen univariantes. Por último, el análisis de los datos analíticos tiene como meta extraer de ellos la mayor cantidad posible de información y con el rigor exigible a todo planteamiento científico. Esta etapa es el objeto principal de la quimiometría que se trata en el presente manual y, en contraposición con las etapas anteriores, especialmente con la segunda, requiere del auxilio de modelos estadísticos más sofisticados que exigen a menudo usar potentes mecanismos de cálculo. Éste es el motivo por el cual se recuerdan de forma sucinta, antes de entrar en esta parte de la materia, algunos conceptos y operaciones con matrices, necesarios para el desarrollo de algunos temas posteriores. A este respecto cabe considerar que, aunque la aritmética involucrada en el cálculo de matrices es sencilla y resoluble con herramientas tan extendidas como la hoja de cálculo Excel, lo que se pretende es tener el concepto claro de qué es lo que implica cada operación entre matrices; así, por ejemplo, no gozan de la propiedad conmutativa, y no es lo mismo multiplicar Α × Β que Β × Α (a veces, atendiendo a sus dimensiones, incluso un producto es posible y el otro resulta imposible). 17 Por otra parte, la proliferación de ordenadores personales y la facilidad de acceder a diversos paquetes estadísticos equipados con sofisticados métodos de cálculo, faculta a realizar análisis con nombres grandilocuentes, y es preciso conocer realmente lo que se está haciendo. Si la ignorancia del proceso que subyace en cada caso es de por sí bastante deplorable, peor es enfrentarse a la posibilidad de extraer conclusiones erróneas o extender los resultados más allá de lo estadísticamente permitido. He oído explicar cómo sobre las funciones discriminantes de un análisis discriminante lineal con el que se han separado conjuntos de muestras químicas definidas, se interpolan mezclas como si de una regresión se tratase. O cómo para separar el ruidode fondo de una señal analítica se definen las componentes principales y se seleccionan las primeras de ellas, argumentando que sobre ellas es donde se distribuye la información significativa, mientras que el ruido se acumula entre las últimas componentes. ¡Y es que resulta tan sencillo pulsar la tecla Enter! El manual se ha escrito de forma que sea didácticamente sencillo, ayudado en lo posible por una visión geométrica que visualice el modelo que subyace en cada herramienta estadística considerada. Se recurre a numerosos ejemplos sencillos desarrollados con un número reducido de datos, que no tienen ninguna validez estadística porque no se pueden extraer conclusiones válidas con pocos datos. Si se hace así es porque lo que se busca es entender el mecanismo de trabajo y aclarar los cálculos, que de esta forma se pueden realizar a mano con ayuda de una simple calculadora, y esto se visualiza igual con 3 puntos que con 300 (aunque resolver a mano este último caso puede resultar un poco tedioso). Lo que realmente se pretende es enfatizar la forma de alcanzar las conclusiones y no las conclusiones mismas. 19 Existen mentiras, existen colosales mentiras y existen estadísticas. 1. Principios de quimiometría 1.1 La química analítica como ciencia metrológica La quimiometría, a caballo entre la química y las matemáticas, es una disciplina metrológica que aplica conocimientos matemáticos, especialmente estadísticos, a procesos químicos, para extraer de los datos experimentales la mayor cantidad posible de información y extender el conocimiento del sistema químico. Además, para que este conocimiento sea óptimo se deberá discriminar entre la información relevante y aquella otra de menos interés, siendo ésta otra faceta de la quimiometría. En el campo de la química analítica su objeto es optimizar cada fase del análisis para potenciar e incrementar el conocimiento de todo el proceso analítico en su conjunto. En este campo la quimiometría nace como disciplina científica en la década de los años 70 del siglo pasado, con el desarrollo de la instrumentación y el gran auge de la microinformática que permite almacenar y tratar a altas velocidades un elevado número de datos analíticos. La base conceptual de la quimiometría no es complicada y se sustenta en modelos matemáticos sencillos (quizás algo más complejos para los sistemas multivariantes que hacen un mayor uso del álgebra matricial), pero no conviene verla como una «caja negra» de la que sólo se conoce el requisito de entrada de los datos y los valores de salida, siendo preciso conocer –ni que sea someramen- te– lo que ocurre en su interior para sacar el máximo provecho de la información aportada en la experimentación. 1.1.1 Variables Existen dos tipos de variables: las discretas que sólo pueden adquirir un número finito de valores, como sería la variable sexo en Química Clínica o el 20 Carlos Mongay Fernández conteo de fotones en fluorescencia de rayos X (sólo puede tomar valores ente- ros), y las continuas que pueden adquirir cualquier valor cuando menos dentro de un intervalo, como el olor con todos sus aromas, el color, con todas sus tonalidades y matices, o la medida de una masa. Sin embargo, en la práctica estas variables continuas deberán experimentar un redondeo o truncamiento para poder definirlas. La característica fundamental de toda variable es suministrar un cierto nivel de información, que puede expresarse o no en términos numéricos. En este sentido cabe distinguir entre: a) variables cuantitativas o numéricas, que se mueven dentro de una es- cala numérica de valores, siendo posible verificar cálculos y establecer relaciones entre ellas. Las variables numéricas se subdividen en: variables numéricas de razón, cuando parten de un origen abso- luto, el cero, que tiene un significado de «carencia de» como es el caso de la edad, de la masa o del volumen; por ello la relación entre las variables tiene un sentido exacto (10 ml es cinco veces más que 2 ml). Estas variables son las que aportan un mayor nivel de información. variables numéricas de intervalo, cuando su origen sólo es relativo, por lo que el cero no indica «carencia de»; es el caso de la temperatura centígrada, donde 0º C no indica ausencia de temperatura y por lo tanto 20º C no es «un nivel térmico doble» que 10º C. Sin embargo la distancia entre los valores tiene sentido (el intervalo 3-5 es igual al 10-12). El nivel de información de estas variables es algo menor, por lo que se intenta transformarlas en variables numéricas de razón (en el caso de la temperatura, pasando los grados centígrados a kelvin). b) variables cualitativas o categóricas, cuando su información no se mueve en un dominio de valores numéricos, y por lo tanto no se pueden estable- cer relaciones entre ellas. Para manejar más fácilmente estas variables, usualmente se les asigna un código de clasificación. Las variables cate- góricas se subdividen en: variables categóricas nominales, cuando su información no es cuantificable, siendo imposible establecer un orden de prioridad o categoría entre las variables. Sería el caso ya mencionado del sexo en química clínica, el de los posibles detectores utilizados en cromatografía de gases (ionización de llama, conductividad, termoiónico, de captura electrónica, etc) o el de los colores en análisis cualitativo (azul, rojo, verde, pardo). En este caso el código asignado a las variables (a menudo de tipo numérico) no representa ningún orden de prioridad; sólo tiene un sentido de agrupación, pero no de ordenación. 21 Principios de quimiometría variables categóricas ordinales, cuando se puede establecer un orden natural jerárquico de las variables. Sería el caso del impacto ambiental de una serie de productos químicos (no contaminante, inapreciable, bajo, medio, alto, peligroso), de la calidad de un agua (no potable, aceptable, buena, excelente) o de la aceptación de un producto por su olor (muy desagradable, desagradable, inodoro, agradable, muy agradable). En este caso tiene sentido el ordenamiento por códigos en función del nivel categórico de la variable; sin embargo ello no implica que la variable se trans- forme en numérica, pues los valores relativos entre ellas carecen de significado, tal como se observa en la tabla: Código Impacto ambiental Nivel de impacto Código relativo 1 no contaminante nulo 0 2 inapreciable muy débil 5 3 bajo notorio, aunque no preocupante 15 4 medio preocupante, debiendo controlarse 25 5 alto tomar medidas oportunas de riesgo 50 6 peligroso desalojo de la población 100 Es importante destacar que aunque no se puede sacar de un dato más infor- mación de la que realmente posee, al asignar un orden de clasificación se puede intentar una aproximación a la realidad matizando objetivamente la codificación, tal como se muestra en la misma tabla en la columna de código relativo. 1.1.2 Estadística básica La primera fase de cualquier análisis estadístico para resumir la información contenida en la muestra será su descripción. La Estadística descriptiva sintetiza la información aportada por los datos, sin plantear objetivo alguno de naturaleza inductiva. Para ello estudia determinados caracteres o aspectos (variables) de una entidad concreta, resumiendo la información en forma de tablas, gráficos o valores según la naturaleza de las variables: 22 Carlos Mongay Fernández Variable Escala Descripción Estadísticos y gráficos Cualitativa (discreta o continua) nominal Valores no numéricos, sin orden entre ellos – Distribución de frecuencias – Moda – Diagrama de barras ordinal Valores no numéricos pero ordenados – Máximo y mínimo – Mediana – Cuartiles y percentiles – Intervalo intercuartílico Cuantitativa (discreta o continua) de intervalo Sólo tienen sentido las diferencias entre los valores de las variables – Media e intervalo – Varianza, desviación estándar y coeficiente de variación – Coeficiente de asimetría– Coeficiente de curtosis de razón Si, además de las diferencias, también tiene sentido la razón entre sus valores Inferir conclusiones posteriores sobre la población a partir de la muestra y proporcionar medidas que cuantifiquen el grado de confianza puesto en tales conclusiones es misión de la Inferencia estadística; por Estadística básica se entienden estos dos grandes apartados: la Estadística descriptiva y la Inferencia estadística. Así para determinar la riqueza en hierro de un yacimiento se debería analizar todo el yacimiento. Ante tal imposibilidad se analizan n muestras con nʼ replicados (estadística descriptiva), de manera que con la información obte- nida se pueda estimar el contenido en Fe del yacimiento y su margen de error (inferencia estadística). Dentro de la inferencia estadística se distinguen dos vertientes: la paramétri- ca y la no paramétrica. La primera presupone un modelo matemático que descansa sobre hipótesis específicas relativas al tipo de distribución de la población, siendo su objetivo determinar los parámetros del modelo a partir de los datos muestrales. Pero, a menudo, comprobar las hipótesis planteadas choca con ciertos aspectos prácticos como que la información relevante de que se dispone es insuficiente, que el tamaño muestral es demasiado pequeño o que la experiencia con datos similares es muy limitada. En tales situaciones se prefiere inferir conclusiones recurriendo a métodos no paramétricos. La inferencia paramétrica permite extrapolar los resultados muestrales a la población y determinar el valor de los parámetros; se puede actuar por estima- ción o por contraste de hipótesis. En la estimación por intervalos de confianza se calcula el valor del parámetro a partir de los datos muestrales y se determina un intervalo de longitud mínima que contenga el verdadero valor del parámetro buscado, con una probabilidad o nivel de confianza fijado a priori. En contraste de hipótesis se decide si el valor de un parámetro atribuido a la población se confirma por la observación de la muestra; para ello se establece 23 Principios de quimiometría una conjetura sobre el valor del parámetro (la hipótesis nula, H0) y se decide su validez de acuerdo con alguna regla de decisión. Cabe señalar que, en función de los datos obtenidos, se puede rechazar la hipótesis nula, pero nunca se puede considerar firmemente probada mas que estudiando y verificando todos los ele- mentos de la población. 1.1.3 Métodos univariantes y multivariantes En los métodos univariantes se define una única variable experimental a partir de una serie de características relativas a una única muestra. Antes del desarrollo de la quimiometría, a lo máximo que se solía recurrir era a aplicar pruebas univariantes para extraer información de los datos mediante aplicaciones muy elementales, aunque la incidencia quimiométrica actual ha permitido nuevos enfoques en la extracción de información. Actualmente los sistemas univariantes siguen siendo fundamentales en muchas actuaciones. De este modo la calidad del agua (variable dependiente) en una instalación de agua desionizada se regula a través de la conductividad (variable independiente), que es la que controla la concentración salina máxima permitida antes de cortar la acción de las resinas de intercambio. En este caso el problema se describe por una información univariante simple (de una sola variable independiente). El siguiente paso en la estructura de los datos implica considerar dos va- riables (sistema bivariante). Aquí las variables pueden determinarse sobre una misma muestra o sobre muestras distintas y, aunque desde el punto de vista qui- miométrico la aplicación sigue siendo muy simple, se pueden abordar situaciones de enorme trascendencia para los métodos analíticos. Baste pensar en detectar diferencias entre los valores medios de una variable cuantitativa en función de los distintos niveles establecidos por una variable cualitativa (métodos ANOVA), o en la definición de las rectas de calibrado en los procedimientos analíticos (regresión lineal simple). En otros casos se requiere el conocimiento de varias variables para definir el problema y tornarlo apto para una determinada aplicación. En general para visualizar el problema, los datos se ordenan en una tabla o matriz de datos, donde cada columna corresponde a una variable y cada fila a una muestra, un caso o un objeto. En los métodos de regresión, donde se distinguen las variables en depen- dientes e independientes, los métodos se consideran univariantes si únicamente existe una variable dependiente, mientras que serán multivariantes cuando existe más de una variable dependiente. En la fabricación de un cierto producto se evalúa su impacto comercial (variable dependiente) controlando una serie de parámetros analíticos como el rendimiento del proceso, la naturaleza y la concentración de las distintas especies presentes; pero a ellas deben añadirse otras variables que pueden repercutir en la viabilidad económica como los costes de fabricación o el tiempo invertido, y aún cabe añadir aquellas otras variables comerciales como son el grado de aceptación del producto en el mercado, los canales de distribución, etc. En este caso se trataría de una regresión univariante con múltiples variables independientes. 24 Carlos Mongay Fernández Por su parte, la tabla muestra algunos parámetros de un suelo agrícola, antes de la siembra. Se pretende dilucidar si a través del contenido analítico de los cuatro componentes estudiados (variables independientes) se puede estimar la producción y su coste (variables dependientes). En este caso se tratará de una regresión lineal multivariante donde se presentan cuatro casos en un espacio de seis dimensiones (2 variables dependientes y 4 independientes) puesto que cada variable define una dimensión. Tratamiento de un campo con distintos fertilizantes Parámetros analíticos Parámetros de Producción Fertilizante Cl– P2O5 K2O N2 kg / Ha Coste / Ha estiércol 68 110 62 116 450 32,50 guano 63 135 70 139 300 50,00 turba 48 50 48 68 265 78,70 químico 36 127 32 80 490 96,40 1.1.4 Control de calidad La calidad es «aptitud para el uso», de forma que el consumidor se sienta satisfecho con el producto adquirido, lo que se conseguirá siempre y cuando sa- tisfaga sus expectativas. Sería el caso del comprador de una resina (consumidor) destinada a la fabricación de barnices que espera que el procesamiento de esa resina se produzca a bajo coste, con un trabajo mínimo y a su vez que el barniz final tenga una aceptación máxima por parte de otros consumidores. Existen dos aspectos generales de la calidad: calidad de diseño y calidad de conformidad. La calidad de diseño implica plantear procesos que permitan alcanzar varios grados o niveles de calidad, introduciendo variantes intencio- nales para conseguirlo, y con la finalidad de satisfacer a un amplio abanico de consumidores. Estas diferencias incluyen los métodos empleados, las tolerancias establecidas, los medios de trabajo, la confiabilidad esperada y otras variables. La calidad de conformidad indica el nivel de ajuste entre el resultado obtenido y las especificaciones y tolerancias definidas en el diseño; aquí influyen muchos factores, no sólo de métodos, ensayos y pruebas, sino también la calibración de la instrumentación, destreza de los analistas e incluso su motivación personal para lograr el nivel óptimo de calidad dentro del diseño establecido. Este doble aspecto lleva sin embargo asociada una gran dosis de ambigüedad al no aclarar muchas veces si se trata de calidad de diseño o de conformidad, y métodos bien diseñados (aunque con bajas prestaciones) se consideran métodos no demasiado eficientes. Esta dualidad es muy frecuente en química analítica: al plantear la determinación de hierro en agua de mar con una exactitud del 3%, se puede precipitar el Fe(OH)3 con amoniaco y determinarlo por gravimetría. Claro que la presencia de Alconduce a un error por exceso, pero al diseñar el 25 Principios de quimiometría procedimiento ya se ha tenido en cuenta este hecho, considerando que el error aceptado permite ignorar su presencia, por lo que la determinación está perfec- tamente diseñada y la omisión del Al en absoluto representa una forma errónea de trabajo. Si, por el contrario, se exigiese un error inferior al 0,5% lógicamente se debería rediseñar la determinación, considerando la presencia del Al para corregir su efecto. 1.1.5 Diseño de experiencias Antes de establecer y aplicar un método analítico de forma continua y ruti- naria se requerirá un planteamiento integral del problema, destacando de forma relevante la optimización de las variables que puedan afectar a los parámetros ana- líticos (sensibilidad, selectividad, concentración de reactivos, coste, tiempo, etc.) para aumentar el rendimiento y la eficacia de las determinaciones. Supongamos una nueva determinación espectrofotométrica con un reacti- vo orgánico. Sobre la determinación influirán factores como el pH, disolvente, concentración de reactivos, orden de adición, temperatura, tiempo de espera antes de la lectura, etc. Si cada variable actuase de forma independiente frente a las demás el problema sería fácil de abordar y de resolver: manteniendo todas las variables fijas menos una (por ejemplo el pH) se varía éste hasta obtener el valor para el cual la respuesta analítica es máxima. Fijando el pH a ese valor y manteniendo las restantes variables, se modifica otra (por ejemplo la temperatura) hasta maximizar su respuesta. Se sigue así secuencial y sucesivamente con todas y cada una de las variables, teniéndose al final el mejor valor para cada variable de forma que el proceso sea óptimo. Pero lo usual es que las variables no actúen independientes unas de otras sino que lo hagan de forma interactiva, de manera que cuando pretendamos maximizar la respuesta de la temperatura, el valor obtenido sólo responda de forma óptima para el valor predeterminado del pH, pero nadie asegura que para otro valor de la acidez la temperatura óptima sea distinta y mejore la respuesta analítica en su conjunto. Ello sugiere que el estudio deberá planificarse de forma que las variables se modifiquen todas simultáneamente para optimizar las con- diciones del método de trabajo. La planificación y el diseño de experiencias antes de iniciar el trabajo experimental es un proceso de optimización, y el estudio del modelo matemático que debe seguirse para lograrlo es un problema que entra de lleno en el campo de la Quimiometría. El diseño quimiométrico permite obtener una estimación del error que sirva de pauta para interpretar la medida posterior de los resultados obtenidos. Toda experiencia correctamente diseñada y planificada debe responder a una serie de cuestiones elementales de carácter general: 1. Finalidad de la experiencia y factores básicos que deben considerarse. 2. Tiempo previsto, disponibilidad del equipo y métodos necesarios. 3. Información bibliográfica previa sobre experiencias similares. 26 Carlos Mongay Fernández Y otras condiciones que deben definirse a priori para permitir su diseño quimio- métrico son: 4. Cuál puede ser la variabilidad permitida de los factores básicos y cómo puede afectar ésta sobre la determinación final. 5. Si existe interacción entre los factores básicos, qué importancia puede tener y cuál podría ser su magnitud. 6. A qué nivel se pueden considerar significativas las diferentes interac- ciones. Quizás la última cuestión sea la característica más distintiva entre el diseño quimiométrico de una experiencia y su diseño clásico: el diseño quimiométrico proporciona una prueba estadística o test de significación para dilucidar si existe o no diferencia significativa entre los factores medidos o entre sus interaccio- nes. De esta forma, y a la vista de los resultados, podrán emitirse hipótesis y confrontar su adecuación a los datos experimentales. Esta confrontación para aceptar o rechazar la hipótesis siempre será un juicio crítico que deberá abordarse objetivamente y para ello será básico el conocimiento del error y las pautas de significación. Actualmente resulta indispensable que cualquier método analítico sea va- lidado, esto es, se compruebe que dicho procedimiento cumple con los criterios de calidad recomendados por distintos organismos internacionales: IUPAC: International Union of Pure and Applied Chemistry ASTM: American Society for Testing Materials AOAC: Association of Official Agricultural Chemists ISO: International Organization for Standardization Entre estos criterios están la exactitud y precisión de las medidas analíticas, el límite de detección y determinación así como la repetibilidad y reproducibi- lidad del procedimiento analítico, la robustez (insensibilidad frente a pequeñas variaciones de las condiciones experimentales de trabajo), etc. 1.2 Errores experimentales Toda medida experimental lleva asociada un error, no existiendo forma de conocer el verdadero valor μ de la magnitud medida; como toda determinación analítica parte de unos valores experimentales y del error que les afecta, el ver- dadero problema de interpretación es un problema de cálculo de errores. Existen dos clases de errores: los debidos únicamente al azar (errores aleatorios), y los que no dependen del azar (errores sistemáticos). A ellos cabría añadir los errores evidentes, que son consecuencia de falta de cuidado, ineptitud, indolencia o mala suerte: 27 Principios de quimiometría – utilización de una escala inadecuada del instrumento de medida – introducción de contaminación en la muestra o en las disoluciones – manipulación poco cuidadosa Un error evidente dentro de un conjunto de medidas aparece como resultado aberrante (que es muy diferente del resto). Si el valor real de una magnitud es μ y el resultado de una medida cual- quiera es x, su error se define por e = x-μ (con este criterio, para que el error sea positivo si la medida es por exceso y negativo en caso contrario). Para interpretar adecuadamente el resultado analítico se precisa conocer por separado la parte debida al error experimental m (sistemático, de tipo no aleatorio) y la que depende realmente del fenómeno en estudio ε (accidental, de tipo aleatorio), de modo que el error se compone de dos sumandos: e = m+ε. 1.3 Exactitud y precisión La noción de errores sistemáticos y aleatorios permite definir sin ambigüe- dad las dos cualidades esenciales de los resultados experimentales: la exactitud y la precisión. La exactitud depende de los errores sistemáticos que intervienen en la determinación, denotando la proximidad de una medida al verdadero valor y, en consecuencia, la validez de la medida. Como que la exactitud condiciona el tiempo y el esfuerzo dedicados a obtener la medida, se deberá llegar a una situación de compromiso. Por su parte la precisión refleja la proximidad de diversas medidas entre sí, y es función exclusiva de los errores accidentales (en la figura 1.1 se observa que el método A es más exacto y menos preciso que el B). Esta dispersión de valores siempre es calculable y, en ausencia de mayor información, es el único indicio de un análisis bien hecho, aunque ello no siempre es garantía de la bondad de una determinación. A este respecto cabe decir que la IUPAC establece la repetibilidad como la precisión de un método en función de análisis independientes realizados por un mismo analista, en el mismo laboratorio, con la misma técnica y el mismo instrumento en un intervalo corto de tiempo (precisión dentro de rachas), mientras que reproducibilidad se refiere a la precisión de un método con datos obtenidos a partir de deter- minaciones independientes efectuadas en condiciones diferentes, en distintos laboratorios y con distintos equipos Fig. 1.1 Exactitud y precisión. � ��� ��� ��� ��� � � � � � ���������� � � 28 Carlos Mongay Fernández u operadores (precisiónfuera de rachas). La repetibilidad se acepta como una medida de varianza interna y representa la máxima precisión que puede lograrse en unas condiciones de trabajo determinadas. 1.4 Errores sistemáticos Los errores sistemáticos, de tipo no aleatorio, se pueden estimar con patrones adecuados, pero no son directamente calculables, y deben eliminarse de la experimentación para que no superpongan su acción a la de los errores aleatorios. Se originan en cualquiera de los tres pilares implica- dos en todo análisis (analista, método e instrumentación), bien sea por si mismos, por sus interacciones mutuas o por su interacción con el entorno, como se esquematiza en la figura 1.2. En muchos casos, por ejemplo en la puesta a punto de un método analíti- co, el principal factor a estudiar es el error sistemático, con miras a eliminarlo o corregirlo. Los errores sistemáticos pueden ser: a) Personales: debido a los juicios que hace el experimentador. Aparecen en la mayoría de casos en que se presenta un error importante en métodos firmemente establecidos: – Estimar la posición de una aguja sobre una escala (al interpolar la lectura de una bureta existe una tendencia innata a redondear preferentemente a 0 o a 5, dar prioridad a los valores pares sobre los impares, preferir los valores bajos a los altos). – Definir el color en el punto final de una valoración (sin entrar en problemas de daltonismo). – Error de paralaje al enrasar las disoluciones en el material volu- métrico (buretas, aforados, etc.). – Prejuicios (tendencia subjetiva a escoger los valores más favo- rables). Estos errores se minimizan trabajando con cuidado y autodisciplina. Los robots y los sistemas automatizados de recogida de datos minimizan o excluyen estos errores. b) Del método: son muy serios y afectan a todas las determinaciones. Se deben básicamente al comportamiento químico y/o físico no ideal de los reactivos y de las reacciones: Fig. 1.2 Pilares implicados en el análisis. 29 Principios de quimiometría – Solubilidad finita de toda sustancia (un exceso de lavado tiende a disolver parcialmente un precipitado). – Contaminaciones por coprecipitación (un mal lavado puede mantener contaminado el precipitado). – Reacción lenta (determinar el índice de I2 en las grasas requiere dejar reposar de ½ a 1 hora). – Volatilidad de los reactivos (iodimetrías). – Mala elección del indicador (valorar HAcO con NaOH frente al rojo de metilo) o por viraje lento del mismo (valorar Zn2+ con Fe(CN)64- en presencia de difenilamina). Muchos errores del método se deben a las interferencias químicas, y su eliminación exige un conocimiento profundo de la muestra y del com- portamiento físico-químico del analito. c) Instrumentales: debidos a la discrepancia entre el valor nominal y el real. Se corrigen procediendo periódicamente al contraste y aforo del material (calibración de los instrumentos): – Contenido y vertido del material volumétrico (especialmente cuando ha estado sometido a variaciones térmicas: calentar ma- traces aforados o guardarlos en la nevera) – Deriva de las señales en la instrumentación (desajuste del cero por calentamiento, aparición de radiación parásita, etc.) – Reactivos conteniendo impurezas – Efecto de memoria por la retención accidental de restos de muestra en el instrumento (dificultad de eliminar vestigios de compuestos poco volátiles en espectrometría de masas, elución muy lenta de componentes en cromatografía de gases, etc.). En general los errores sistemáticos son los más importantes en magnitud dentro del análisis, y aun así difíciles de revelar. La mejor forma de detectarlos y corregirlos es validando el método, siendo tres las formas más usuales de hacerlo: – determinando la misma muestra por algún método de referencia – recurriendo a dos o más métodos analíticos independientes de garantía probada – procediendo al análisis en laboratorios colaboradores, técnicamente competentes y de reconocida solvencia para ese tipo de muestras. Según la fase en que se produzcan pueden afectar a un solo resultado o a toda una serie. Así, un error en la pesada de la muestra conduce a un resultado erróneo sólo para esa muestra, pero cometido al preparar una disolución valorada falsea todos los análisis en que se la emplee. 30 Carlos Mongay Fernández Los errores sistemáticos, no aleatorios, tienen siempre lugar en el mismo sentido y pueden minimizarse e incluso anularse empleando factores de corrección, modificando el método o realizando ensayos en blanco que permitan corregir los resultados obtenidos. A veces puede no ser tan intuitivo que el error sistemático afecte siempre en el mismo sentido: una bureta ordinaria puede conducir unas veces a medidas por defecto y otras por exceso. Pesando la cantidad vertida de agua se puede estimar el error, que podrá aparecer indistintamente como positivo o negativo a lo largo de la caña de la bureta, pero para un vertido determinado siempre tendrá el mismo signo (partiendo del enrase en cero, siempre que se viertan 12,0 ml el error sistemático tendrá una tendencia que puede ser de signo distinto a la que tenga cuando se viertan 12,5 ml). 1.4.1 Clasificación Los errores sistemáticos se clasifican en aditivos o constantes, cuando tienen el mismo valor absoluto independientemente de la cantidad de muestra que se determine, y proporcionales cuando su magnitud depende de la cantidad de sustancia. Constantes – Un pH-metro que por estar calibrado con un tampón mal preparado mide siempre 0,1 unidad de pH por defecto. – El Al2O3 precipitado a partir de diversas cantidades de una sal de Al3+ con un mismo volumen de NH3 que al estar guardado en una botella de vidrio común se encuentra impurificado por SiO2. – Consumo adicional de valorante en el error de indicador, independiente de cual sea el volumen de equivalencia. Sería la precipitación de di- versas cantidades de un patrón de Al3+ empleando siempre 25 ml de NH3 impurificado con un 0,02% de SiO2, valor que se sumará al peso de Al2O3 dando un error absoluto cons- tante. La disminución del error relativo permite descubrir la presencia de un error aditivo. Para minimizar los errores constantes se emplea una muestra tan grande como sea posible, compatible con el método a utilizar. Proporcionales – En gravimetría, una desviación negativa que aumenta con el volumen de líquido de lavado y disminuye al aumentar el tamaño de muestra, puede indicar pérdidas por solubilidad. Real Hallado Absoluto Relativo 0,100 0,105 0,005 5,0% 0,200 0,205 0,005 2,5% 0,300 0,305 0,005 1,7% 0,400 0,405 0,005 1,2% 31 Principios de quimiometría – Asimismo en gravimetría, desviaciones positivas ligadas al tamaño de muestra puede indicar la retención de algún componente por parte del precipitado. Tal es el caso de un precipitado higroscópico que se mantiene en una atmósfera algo húmeda antes de la pesada. La cantidad retenida de humedad (supongamos un 1% de su peso) será proporcional a la cantidad de pre- cipitado. En este caso como que el error relativo permanece constante, es difícil descubrir su presencia; si no se tiene en cuenta la higroscopicidad del precipitado el error puede pasar desapercibido. 1.4.2 El error sistemático en los métodos analíticos El error sistemático sólo se puede evaluar si se dispone del valor verda- dero, esto es, si se tienen patrones de referencia que cubran todo el campo de aplicación del método analítico, para poder determinarlo en cualquier punto del intervalo en el que se aplique el método. Bajo este aspecto los métodos analíticos implican: a) En los métodos absolutos, que no emplean patrones por no requerir comparación alguna, no podrán detectarse los errores sistemáticos (sólo pueden ponerse de manifiesto con el empleo de patrones). Es el caso de la gravimetría o de la cromatografía de ga- ses empleando el método de normalización interna como se muestra en la figura 1.3 (el error pasaría desaperci-bido si algún componente quedase retenido dentro de la columna). b) Para los métodos relativos se compara directamente la muestra con pa- trones muy semejantes en cuanto a composición y características físicas. En principio la exactitud del resultado dependerá de la exactitud de los patrones. En la mayoría de métodos relativos se presentan errores sistemáti- cos adicionales, debidos en particular a las diferencias de efecto matriz Real Hallado Absoluto Relativo 0,100 0,101 0,001 1,0% 0,200 0,202 0,002 1,0% 0,300 0,303 0,003 1,0% 0,400 0,404 0,004 1,0% A B C A B C a . fA + b . fB + c . fC = 100% Fig. 1.3 Normalización interna de picos croma- tográficos. 32 Carlos Mongay Fernández entre muestras y patrones, y por el hecho de que ambos no se determi- nan simultáneamente, pudiendo estar sujetos los aparatos de medida a derivas lentas. c) En los métodos que podríamos llamar semi-relativos, la técnica opera- toria comporta una fase previa de preparación de la muestra (puesta en solución, separación de ciertos constituyentes, etc.) destinada a obtener un producto comparable al de los patrones con los que se obtiene la curva de calibrado. En estos métodos los errores pueden separarse en dos grupos: los cometidos en la fase de preparación y los cometidos en la fase final de la determinación; sólo para estos últimos es válido lo dicho antes para los métodos relativos. Así, si para determinar Mg2+ por espectrofotometría de llama se di- suelve la muestra en agua regia, existirá un desplazamiento de la curva de calibrado en presencia de iones Cl-, por lo que se puede producir un error sistemático si éstos no han sido bien eliminados. 1.5 Errores aleatorios Los errores indeterminados, accidentales o aleatorios, son directamente calculables y aparecen por causas incontroladas de naturaleza errática e impre- visible (oscilaciones erráticas que provocan las vibraciones sobre las balanzas, presencia de campos magnéticos en RMN), originándose al pretender forzar la medida hasta sus últimas consecuencias: – lectura digital de la escala de la balanza al oscilar la última cifra – interpolación en las divisiones de una escala (material volumétrico gra- duado) – determinación del enrase en el material aforado (material volumétrico calibrado). Pueden tener lugar en los dos sentidos (por exceso y por defecto) con igual probabilidad y reducirse hasta límites aceptables, pero jamás anularse, sea cual fuere el operador o el método empleado. Su valor establece la máxima bondad que puede alcanzarse en una medida, y que nunca superará a la reproducibilidad del instrumento utilizado (el límite de reproducibilidad de un instrumento es su sensibilidad; por ejemplo, la sensibilidad de la balanza analítica común es ± 0,1 mg). 1.5.1 Cifras significativas Los errores aleatorios se consignan por el número de cifras significativas con que se expresa la magnitud, cifras que reflejan el número de dígitos necesario para describir el valor de la magnitud sin alterar la precisión (son significativos 33 Principios de quimiometría todos los dígitos exactos más el primero incierto). Cuando no se indica la pre- cisión se presupone que la última cifra significativa oscila entre más y menos una unidad. Si la media de cuatro determinaciones de Ni2+ (23,48, 23,45, 23,51 y 23,46) es 23,475 y la desviación media es ± 0,02, la segunda decimal está sujeta a incer- tidumbre, debiéndose redondear a 2 cifras decimales. Tanto da 23,47 como 23,48 pues ambos distan igual de 23,475 pero como se sigue el criterio de redondear siempre al número par más próximo, el resultado será: 23,48 ± 0,02. Indicar sólo 23,48 equivaldría a suponer una precisión de ± 0,01, mejor que la real. La representación exponencial facilita la ubicación de la coma decimal sin alterar la precisión, de forma que el factor exponencial sólo localiza la parte decimal, no contando en cuanto al número de cifras significativas: – Un volumen de 3000 ml si se quiere representar con 4 cifras significativas se puede expresar como 3,000 × 103 ml, y para expresarlo con 2 cifras significativas se deberá escribir 3,0 × 103 ml. – El número de Avogadro representando con 4 cifras significativas será NA = 6,023 × 1023. Este concepto de cifras significativas permite mostrar los resultados intro- duciendo el error o incertidumbre con que se ha realizado una medida. Existen dos formas de indicarlo: Absoluto: se expresa en las mismas unidades que la cantidad medida 10,2 g ± 0,1 g pH = 7,14 ± 0,02 unidades de pH 45,45 ml ± 0,01 ml C = 0,25 M ± 0,03 M Todo el material volumétrico de clase A tiene establecidas las máximas tolerancias permitidas. Relativo: se formula en términos de la magnitud medida y es adimensional, Se acostumbra a expresar en tanto por uno o en %, aunque a veces se expresa en ‰ o en ppm. (10,2 ± 0,1) g (εr = 9,8 × 10-3) pH = (7,14 ± 0,02) (εr = 2,8 × 10-3) (45,45 ± 0,01) ml (εr = 2,2 × 10-4) C = (0,25 ± 0,03) M (εr = 0,12) En la práctica, cuando se indica un resultado analítico, también suele acep- tarse el uso de dos cifras inciertas, lo que permite apreciar mejor su precisión y es más útil con fines comparativos. Asimismo, no es aconsejable redondear los valores intermedios en los cálculos parciales, pues las cifras rechazadas pueden ir alterando los valores finales de la media y de la precisión. 34 Carlos Mongay Fernández 1.5.2 Cálculo de errores aleatorios Para calcular los errores aleatorios existen dos métodos: el ordinario basado en el principio del error máximo, y el estadístico basado en el cálculo de proba- bilidades. El método ordinario establece que en una serie de medidas los errores se suman en todo momento, mientras que el método estadístico considera que por sucesivas repeticiones los errores tienden a compensarse. Método ordinario: El método ordinario es poco realista. En efecto, si suponemos la lectura de una bureta en la que el resultado se determina por la diferencia entre el volumen vertido y el enrase inicial, existe en cada lectura la misma probabilidad de que el error sea positivo o negativo. Consecuentemente los errores que afectan al resultado se combinan de forma cualitativa: (+ , +) (+ , -) (- , +) (- , -) y la probabilidad de que los errores se sumen (que es lo que propone el método ordinario) es sólo de 1 sobre 2. Si el resultado final se calcula hallando la media de dos determinaciones con dos lecturas por determinación, la probabilidad de que los errores se sumen será de 1/8; igualmente para tres determinaciones (con dos lecturas por determinación) será de 1/32. La adición de errores se minimiza al aumentar el número de análisis o el de medidas repetidas llevadas a cabo en cada determinación. Pero, mientras au- mentar el número de análisis siempre mejora la precisión, no ocurre lo mismo al aumentar el número de réplicas dentro de cada determinación, ya que los errores en cada medida raramente son del mismo orden de magnitud y la posibilidad de compensación es menos eficaz. De ahí el interés de simplificar en lo posible la técnica operatoria de un método analítico. Además, calcular el error por el método ordinario exige conocer su magnitud en cada etapa del proceso, lo que puede ser sencillo en el instrumento de medida, pero es inviable en las etapas de preparación (filtraciones, lavados, etc.), por lo que sólo pueden considerarse los errores en la instrumentación y admitiendo que los errores parciales se presenten siempre con su valor máximo. Método estadístico: El método estadístico tiene la ventaja de suministrar cifras calculadas a partir de valores experimentales y no de consideraciones más o menos reales y a menudo arbitrarias. Además es un método completo, pues no se limita sólo a errores accidentales de tipo instrumental, sino que engloba todos los errores accidentales (del operador, de muestreo, de la etapa de preparación); facilita también el establecimiento de leyes experimentales y el estudio de fenó- menoscomplejos con presencia simultánea de muchas variables. Por último, el método estadístico permite normalizar las conclusiones en el sentido de que la interpretación de los resultados no se traduce por apreciaciones subjetivas sino que viene dada en términos de probabilidad. Prácticamente el método estadístico permite: a) Precisión absoluta: Evaluar la precisión de un resultado y, por ende, el número de cifras significativas a otorgarle; así se puede indicar el grado 35 Principios de quimiometría de precisión de la toma de muestra, de los instrumentos de medida, del método analítico, etc. b) Precisión relativa: Comparar precisiones para justificar la elección de un método analítico determinado o de un instrumento dado. c) Distribución: Determinar cómo se reparten los errores en un estudio complejo. d) Número de muestras o réplicas: Calcular el número de muestras a tomar o el de replicados a efectuar para tener un resultado con una precisión dada. e) Rechazo de valores: Considerar si un resultado desviado es significativo o debido sólo al azar, y poder realizar una estimación de la exactitud. Así, se puede estudiar una determinada variable experimental o comparar operadores y métodos, eliminando los resultados aberrantes de una serie para no hacerlos intervenir en el cálculo final. f) Porcentaje de confianza: Evaluar en términos de probabilidad la con- fianza que se pueda dar a un resultado. El método estadístico no ofrece dificultad alguna, pues los parámetros se obtienen fácilmente, los cálculos resultan muy reducidos con el empleo de una sencilla calculadora, y las conclusiones se deducen directamente examinando tablas de criterios de significación. Por ello los métodos estadísticos son amplia- mente utilizados para la planificación de experiencias en química analítica, en la toma, presentación y discusión de datos analíticos y en la valoración de las conclusiones resultantes. 37 2.1 Ayudando a la experimentación Hace más de cuatro siglos que se establecieron las bases del cálculo de pro- babilidades pero, mientras que hasta principios del siglo pasado sus aplicaciones en el campo científico se limitaban a explicar con una base estadística la teoría cinética de los gases, actualmente desempeña un importante papel en todas las ramas de la ciencia. El analista sólo tiene algunos contactos con la estadística cuando aplica la teoría de errores en el análisis cuantitativo; y sin embargo la quimiometría le ofrece amplias potencialidades para tratar los datos de una forma más útil y deducir resultados más seguros, con un mayor número de conclusiones. Tal es el caso por ejemplo cuando se establecen criterios objetivos de rechazo de resulta- dos anómalos de una serie de n de ellos y se calcula la media con los restantes, pues la estadística permite calcular la probabilidad de que tales datos sean o no miembros legítimos del grupo. Al sondear la naturaleza se plantean experiencias que se traducen en un amasijo de cifras. Ante ello se abren dos interrogantes: ¿cómo interpretar las series de números que presentan, a veces, un aspecto anárquico?; ¿es posible universalizar los resultados obtenidos cuando se efectúa un número reducido de experiencias? Los métodos estadísticos permiten responder a estas cuestiones analizando los resultados y asegurando la validez de ciertas hipótesis, provocando experiencias complementarias. Sin embargo, las conclusiones a las que se llegue, ¿serán ciertas? No, al admitirlas se corren ciertos riesgos, pero estos riesgos a su vez podrán ser cuantificados. Ahora bien, incluso aceptando el riesgo corrido, las conclusiones resultantes deberán ser contrastadas, cuestionándose la veracidad de las hipótesis que per- mitieron la elaboración de las teorías estadísticas y meditando las conclusiones 2. Estadística básica Los conceptos estadísticos deben considerarse como un medio de poner el sentido común sobre bases cuantitativas pero nunca como substitutivos del propio sentido común. 38 Carlos Mongay Fernández con un claro sentido común y un pensamiento lúcido. Las teorías estadísticas no pueden responder con exactitud a muchas cuestiones, pero permiten a menudo clarificarlas. Además de aplicar criterios estadísticos, una respuesta constructiva requiere tener una visión clara de la evolución del fenómeno estudiado. Por ello la aplicación de la quimiometría será rigurosa en la medida en que se ajusten los modelos matemáticos planteados y se cumplan las hipótesis de partida. El uso indiscriminado de fórmulas matemáticas aisladas de su contexto experimental sólo puede conducir a falsas interpretaciones. 2.2 El método estadístico Se basa en la teoría del cálculo de probabilidades y muy especialmente sobre la función de errores de Laplace-Gauss, representada por la conocida curva de campana: f x e x ( ) = × → − −( )1 2 2 2 2 σ π µ σ Se expresa poor N ( , 2µ σ ) → f x e x ( ) = × → − −( )1 2 2 2 2 σ π µ σ Se expresa poor N ( , 2µ σ ) que representa la distribución de errores en una población (frecuencia de las desviaciones entre el valor verdadero μ y los distintos resultados obtenidos). Como se muestra en la figura 2.1 la curva de distribución normal es simétrica, con desviaciones positivas y negativas, y con una frecuencia que disminuye rápidamente al ale- jarse del valor central. El máximo y los puntos de inflexión de la curva se pueden hallar anulando respec- tivamente la primera y la segunda derivadas, resultando los valores x = μ y x = μ ± σ. En forma diferencial la curva muestra la fracción de observaciones dN/N existentes entre x y x + dx: dN N e dx x = × × − −( )1 2 2 2 2 σ π µ σ Si se expresa como desviaciones a la media en una escala de desviaciones estándar, esto es, mediante el cambio de variables z = (x - μ) /σ resulta la curva normal tipificada, con una única variable z (puesto que dz = dx/σ): dN N e dz= × × →−1 2π 12 z 2 Se expresa porr N (0, 1) → dN N e dz= × × →−1 2π 12 z 2 Se expresa porr N (0, 1) 0 2 4 6 8 0 0,2 0,4 0,6 0,8 1 (2) (1) f(x) µ − σ µ µ + σ f(x) µ − σ µ µ + σ 0, 34 13 0, 13 60 0, 02 14 µ − 3σ µ − 2σ µ + 2σ µ + 3σ Fig. 2.1 Curva de distribución normal. 39 Estadística básica Las leyes de la estadística sólo se aplican estrictamente a las poblaciones; toda muestra deberá ser representativa de la población y, ante la inseguridad de este aserto, las conclusiones se expresarán en términos de probabilidad. Además el tratamiento estadístico sólo es válido bajo ciertas condiciones que se definen considerando las nociones de población, muestra, independencia y distribución, y que deben respetarse estrictamente durante la experimentación. La población es un conjunto ilimitado de resultados de características comunes. A veces se considera que una población puede ser finita (la población formada por todos los análisis de agua realizados por un laboratorio en un mes determinado); pero es preferible considerar este conjunto como una muestra del «ilimitado» número de análisis que el laboratorio puede realizar. En la práctica nos debemos contentar con una muestra de la población, un pequeño número de resultados que, no obstante, debe ser representativo de la población y por consiguiente extraídas de ella al azar. La condición para que una muestra represente a la población es que todos los elementos de ésta deben tener la misma probabilidad de formar parte de aquella. Precisamente la meta del análisis químico es el conocimiento de la población a través del estudio de la muestra. La independencia estadística es primordial y exige que ningún resultado se vea afectado por la determinación de los demás. El cálculo estadístico sólo es aplicable si se respeta estrictamente la independencia. Así, no existe inde- pendencia cuando el ojo del analista se fatiga en el transcurso de una serie de medidas volumétricas o cuando el experimentador elige los resultados
Compartir