preview-9788437086446_A42736877

•

Biológicas / Saúde

pinangoe7

26/3/2024

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Quimiometría

219 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

QUIMIOMETRÍA
Educació. Materials 82
UNIVERSITAT DE VALÈNCIA
2005
QUIMIOMETRÍA
Carlos Mongay Fernández
Colección: Educació. Materials
Director de la colección: Guillermo Quintás Alonso
Esta publicación no puede ser reproducida, ni total ni parcialmente, ni registrada en, o
transmitida por, un sistema de recuperación de información, en ninguna forma ni por ningún
medio, ya sea fotomecánico, foto químico, electrónico, por fotocopia o por cualquier otro,
sin el per miso previo de la editorial.
© El autor, 2005
© De esta edición: Universitat de València, 2005
Producció editorial: Juli Capilla
Fotocomposición y maquetación: Celso Hernández de la Figuera
Cubierta:
Diseño: Pere Fuster (Borràs i Talens Assessors SL)
Tratamiento gráfico: Sonia Navvab Akbar
Corrección: Josep M. Martínez Polo
ISBN: 978-84-370-8644-6
7
Índice
Introducción ............................................................................................ 15
Capítulo 1. Principios de quimiometría ................................................. 19
1.1 La química analítica como ciencia metrológica ........................... 19
1.1.1 Variables ............................................................................ 19
1.1.2 Estadística básica .............................................................. 21
1.1.3 Métodos univariantes y multivariantes ............................. 23
1.1.4 Control de calidad ............................................................. 24
1.1.5 Diseño de experiencias ..................................................... 25
1.2 Errores experimentales ................................................................. 26
1.3 Exactitud y precisión .................................................................... 27
1.4 Errores sistemáticos ...................................................................... 28
1.4.1 Clasificación ...................................................................... 30
1.4.2 El error sistemático en los métodos analíticos .................. 31
1.5 Errores aleatorios .......................................................................... 32
1.5.1 Cifras significativas ........................................................... 32
1.5.2 Cálculo de errores aleatorios ............................................. 34
Capítulo 2. Estadística básica .................................................................. 37
2.1 Ayudando a la experimentación ................................................... 37
2.2 El método estadístico ................................................................... 38
2.2.1 Tendencia central .............................................................. 40
2.2.2 Dispersión ......................................................................... 40
2.2.3 Asimetría ........................................................................... 42
2.3 Distribución muestral de la media ................................................ 42
2.4 Integración de la curva de distribución normal ............................ 43
2.5 Límites de confianza ..................................................................... 44
8
2.6 Propagación del error en los cálculos ........................................... 45
2.6.1 Errores sistemáticos .......................................................... 46
2.6.2 Errores aleatorios .............................................................. 47
Capítulo 3. Tratamiento estadístico de grupos de pocos datos ............. 49
3.1 Una aproximación a la realidad .................................................... 49
3.2 Inferencia estadística. Pruebas de significación ........................... 50
3.3 Distribución t de Student .............................................................. 52
3.3.1 Detección de errores sistemáticos ..................................... 53
3.3.2 Test de error ...................................................................... 54
3.3.3 Pruebas de una y de dos colas ........................................... 54
3.4 Comparación de dos varianzas ..................................................... 56
3.5 Comparación de dos medias ......................................................... 57
3.5.1 Muestras independientes ................................................... 59
3.5.2 Muestras relacionadas ....................................................... 61
3.6 Rechazo de observaciones ............................................................ 62
3.6.1 Test de Student .................................................................. 63
3.6.2 Criterio Q de Dixon .......................................................... 64
3.6.3 Recomendaciones ............................................................. 65
Capítulo 4. La distribución chi-cuadrado (χ 2) ....................................... 67
4.1 Distribuciones de frecuencia ........................................................ 67
4.2 La función chi-cuadrado ............................................................... 68
4.3 Distribución chi-cuadrado para una muestra ................................ 69
4.4 Comparación de distribuciones: tablas de clasificación ............... 71
4.4.1 Tablas de clasificación simple y tablas 2 × k ...................... 71
4.4.2 Tablas de contingencia (n × k) ........................................... 74
4.5 Normalidad de una distribución ................................................... 76
Capítulo 5. Métodos no paramétricos ..................................................... 81
5.1 Se dispone de poca información ................................................... 81
5.1.1 Tendencia central .............................................................. 82
5.1.2 Dispersión ......................................................................... 83
5.2 La prueba de signos ...................................................................... 84
5.2.1 Contraste de valores centrales ........................................... 84
5.2.1.1 Comparación de la mediana con un valor de prueba.-
5.2.1.2 Comparación de dos muestras relacionadas.
5.2.2 Otros contrastes de la prueba de signos ............................ 87
5.2.2.1 Prueba de rachas: aleatoriedad de una muestra.-
5.2.2.2 Prueba de rachas de Wald-Wolfowitz: ajuste a
modelos.
5.3 Prueba de rangos con signo de Wilcoxon ..................................... 90
5.3.1 Comparación de la mediana con un valor de prueba ........ 91
5.3.2 Comparación de dos muestras relacionadas ..................... 93
9
5.4 Suma de rangos: dos muestras independientes ............................ 94
5.4.1 Prueba de suma de rangos de Wilcoxon-Mann-Whitney .. 95
5.4.2 Simplificación U de Mann-Whitney ................................. 96
5.4.3 Prueba rápida de Tukey ..................................................... 97
5.5 Comparación de dispersiones ....................................................... 98
5.5.1 Contraste del recorrido para dos muestras ........................ 98
5.5.2 Método de Siegel y Tukey ................................................ 98
5.6 Prueba de ajuste de Kolmogorov ................................................. 100
5.6.1 Prueba de aleatoriedad ...................................................... 100
5.6.2 Prueba de normalidad ....................................................... 101
5.7 Observaciones aberrantes ............................................................. 102
5.7.1 Rechazo de valores ........................................................... 102
5.7.2 Criterio del recorrido ......................................................... 103
Capítulo 6. Estadística avanzada ............................................................. 105
6.1 Análisis multivariante .................................................................. 105
6.2 Técnicas estadísticas ....................................................................108
6.2.1 Métodos de dispersión ...................................................... 108
6.2.2 Métodos de reconocimiento de pautas .............................. 109
6.2.3 Modelización de series temporales ................................... 111
6.3 Generalidades sobre matrices ....................................................... 112
6.3.1 Operaciones con matrices ................................................. 112
6.3.2 Vectores ............................................................................. 113
6.3.3 Estructura (valores propios) de una matriz cuadrada ........ 114
6.4 Medida de distancias .................................................................... 115
6.5 Matrices estadísticas básicas ........................................................ 119
6.5.1 La matriz de datos ............................................................. 119
6.5.2 La matriz de covarianzas .................................................. 124
6.5.3 La matriz de correlaciones ................................................ 127
6.5.4 Paquetes estadísticos ......................................................... 128
Capítulo 7. Análisis de la varianza .......................................................... 129
7.1 El método ANOVA ....................................................................... 129
7.2 Homocedasticidad de las variables .............................................. 130
7.2.1 Test de Cochran ................................................................. 131
7.2.2 Criterio de Bartlett ............................................................ 131
7.2.3 Prueba de Levene .............................................................. 133
7.2.4 Transformaciones de potencia .......................................... 133
7.3 ANOVA de un factor .................................................................... 134
7.3.1 Muestras de igual tamaño ................................................. 134
7.3.2 Muestras de distinto tamaño ............................................. 137
7.3.3 Observaciones combinadas ............................................... 138
7.4 Factores de efectos fijo y aleatorio ............................................... 138
7.4.1 Factor de efecto fijo .......................................................... 139
7.4.2 Factor de efecto aleatorio .................................................. 141
10
7.5 Análisis factorial de la varianza ................................................... 143
7.5.1 ANOVA de dos factores .................................................... 144
7.5.1.1 Planteamiento formal del cálculo.- 7.5.1.2 Hipótesis
nulas y estadísticos de contraste.- 7.5.1.3 Aplicaciones.-
7.5.1.4 Algunas consideraciones sobre el modelo.
7.5.2 ANOVA de tres factores .................................................... 154
Capítulo 8. Análisis multivariante de la varianza .................................. 159
8.1 MANOVA ..................................................................................... 159
8.2 Planteamiento geométrico del MANOVA .................................... 160
8.2.1 Una variable dependiente (P =1) y un factor (Q =1) .......... 161
8.2.2 Varias variables dependientes (P ≥ 2) y un factor (Q =1) .. 162
8.2.3 Caso general: P-variables dependientes y Q-factores ....... 166
8.3 Estudio del modelo MANOVA ..................................................... 168
8.3.1 Fuentes de variación ......................................................... 168
8.3.2 Justificación geométrica de la interacción ........................ 169
8.3.3 El coeficiente eta cuadrado ............................................... 172
Capítulo 9. Análisis de componentes principales ................................... 175
9.1 Modelo descriptivo ....................................................................... 175
9.1.1 Geometría del análisis de componentes principales ......... 176
9.1.2 Matriz de vectores propios ................................................ 180
9.2 Planteamiento analítico ................................................................ 181
9.2.1 Matriz factorial o de componentes: saturaciones .............. 183
9.2.2 Matriz de cargas: cargas factoriales .................................. 185
9.3 El ACP como reductor de dimensiones ........................................ 186
9.4 Problemas relacionados con el ACP ............................................. 189
9.4.1 Efecto del tipo de datos ..................................................... 190
9.4.2 Consideraciones sobre la matriz de covarianzas ............... 191
9.4.3 Número de componentes principales que deben retenerse 191
9.4.4 Interpretación de las componentes principales ................. 194
Capítulo 10. Análisis factorial .................................................................. 197
10.1 Las variables ocultas .................................................................... 197
10.1.1 Relación entre el análisis factorial y el ACP ..................... 198
10.1.2 Matriz factorial .................................................................. 199
10.1.3 Factorización por componentes principales y por ejes
principales .................................................................................... 201
10.1.4 Conceptos básicos ............................................................. 202
10.2 Modelo de un único factor común ................................................ 204
10.3 Modelo de dos factores comunes ................................................. 206
10.3.1 Significado de los factores comunes ................................. 208
10.3.2 Indeterminación factorial .................................................. 209
10.4 Aplicación de un análisis factorial ............................................... 210
11
10.4.1 Número de factores ........................................................... 211
10.4.2 Factorización de la matriz de correlaciones ...................... 212
10.4.3 Extracción de factores ....................................................... 214
10.4.4 Rotación factorial .............................................................. 215
10.4.5 La resolución de un análisis factorial ................................ 215
Capítulo 11. Análisis de conglomerados .................................................. 221
11.1 Modelo descriptivo ....................................................................... 221
11.2 Visión geométrica ......................................................................... 222
11.2.1 Medidas de asociación ...................................................... 223
11.2.2 Métodos de enlace ............................................................. 224
11.2.3 Comparación entre los métodos de enlace ........................ 231
11.3 Clasificación de los métodos ........................................................ 233
11.3.1 Métodos jerárquicos .......................................................... 234
11.3.2 Agrupaciones no jerárquicas ............................................. 236
11.3.2.1 Método de las K-medias.
11.3.3 Plan de trabajo ................................................................... 239
11.4 Conglomeración de variables ....................................................... 241
Capítulo 12. Análisis discriminante lineal .............................................. 245
12.1 Modelo explicativo ....................................................................... 245
12.1.1 Análisis discriminante univariante y multivariante .......... 246
12.1.2 Grupos de observaciones .................................................. 247
12.2 Análisis discriminante entre dos grupos (Q =1) ........................... 248
12.2.1 Lambda de Wilks en el espacio unidimensional ............... 250
12.2.2 Correlacióncanónica ........................................................ 251
12.2.3 Función discriminante: normalización .............................. 253
12.3 Análisis discriminante entre dos grupos (Q ≥ 2) ........................... 254
12.3.1 Identificación de la función discriminante ........................ 255
12.3.2 Puntuaciones discriminantes: normalización de la función 257
12.3.3 Valor de corte .................................................................... 259
12.3.4 Coeficientes estandarizados: importancia relativa de las
variables ....................................................................................... 260
12.4 Análisis discriminante multivariante multigrupo ......................... 261
12.4.1 Funciones discriminantes .................................................. 261
12.4.2 Alternativas para obtener las funciones discriminantes .... 264
12.4.3 Eficacia de las sucesivas funciones discriminantes .......... 267
12.4.4 Matriz de estructura y cargas ............................................ 269
12.5 Comparación del ADL con otras técnicas .................................... 271
12.6 Clasificación ................................................................................. 273
12.6.1 Valor de corte .................................................................... 273
12.6.2 Teoría estadística de la decisión ........................................ 274
12.6.3 Funciones de clasificación ................................................ 277
12.6.4 Distancias de Mahalanobis ............................................... 277
12
Capítulo 13. Regresión lineal simple ....................................................... 279
13.1 Relación entre las variables .......................................................... 279
13.1.1 Análisis de regresión ......................................................... 280
13.1.2 Distribución de los residuales ........................................... 282
13.2 Homocedasticidad: recta de mínimos cuadrados ......................... 283
13.2.1 Análisis de la varianza ...................................................... 284
13.2.2 Varianza de la regresión, de la pendiente y de la ordenada 285
13.2.3 Comparación de la pendiente con un valor dado .............. 287
13.3 Heterocedasticidad: factores de ponderación ............................... 290
13.4 Evaluación conjunta de los parámetros de regresión ................... 292
13.5 Modelos polinomiales .................................................................. 295
Capítulo 14. Calibración .......................................................................... 299
14.1 La calibración en análisis instrumental ........................................ 299
14.2 Límite de detección ...................................................................... 300
14.2.1 Falso positivo: estudio del blanco ..................................... 301
14.2.2 Falso negativo: estudio de las muestras ............................ 302
14.3 Interpolación de datos .................................................................. 304
14.3.1 Predicción de observaciones: residuales homocedásticos 306
14.3.1.1 Las dispersiones de muestras y patrones son
iguales.- 14.3.1.2 La dispersión de muestras y patrones no
es la misma.
14.3.2 Predicción de observaciones: residuales heterocedásticos 310
14.4 Comprobación de un punto externo a la recta .............................. 310
14.4.1 Comprobación de un punto aislado ................................... 311
14.4.2 Comprobación de un punto promediado ........................... 312
14.5 Predicción en análisis químico. Interpolación inversa ................. 313
14.6 Métodos de calibración ................................................................ 315
14.6.1 Método de dos patrones .................................................... 315
14.6.2 Método de adición estándar .............................................. 316
14.6.3 Método de ajustes múltiples .............................................. 316
Capítulo 15. Regresión lineal múltiple .................................................... 319
15.1 El modelo lineal ........................................................................... 319
15.1.1 Modelos univariantes ........................................................ 320
15.1.2 Modelos multivariantes ..................................................... 321
15.2 Regresión lineal múltiple ............................................................. 322
15.2.1 Ajuste de las observaciones .............................................. 324
15.2.2 Análisis de la varianza ...................................................... 325
15.2.3 Coeficiente de correlación múltiple .................................. 326
15.3 Selección de las variables ............................................................. 328
15.3.1 Estadísticos para los coeficientes ...................................... 328
15.3.2 Coeficiente de determinación corregido ........................... 329
15.3.3 Modelización por pasos .................................................... 330
13
15.4 Problemas en el ajuste del modelo ............................................... 333
15.4.1 Análisis de los residuos ..................................................... 333
15.4.2 Multicolinealidad .............................................................. 334
15.5 Predicción en regresión lineal múltiple ........................................ 337
15.6 Regresión lineal en absorciometría .............................................. 339
15.6.1 Regresión lineal simple y regresión lineal múltiple .......... 339
15.6.2 Regresión en componentes principales ............................. 344
Capítulo 16. Análisis de series de tiempo ................................................ 347
16.1 Procesos estocásticos y series de tiempo ...................................... 347
16.1.1 Tipos de series de tiempo .................................................. 348
16.1.2 Suavizado de series de tiempo .......................................... 349
16.1.3 Movimientos de las series de tiempo ................................ 350
16.1.4 Análisis de series de tiempo .............................................. 352
16.2 Modelos ARIMA .......................................................................... 353
16.3 Componentes determinísticos ...................................................... 354
16.3.1 Etapa de integración: proceso estacionario ....................... 354
16.4 Componentes estocásticos ............................................................ 357
16.4.1 Autocorrelación ................................................................. 357
16.4.2 Proceso Auto-regresivo AR(p) .......................................... 360
16.4.3 Proceso de Media Móvil MA(q) ....................................... 363
16.4.4 Proceso auto-regresivo integrado de media móvil ARIMA
(p,d,q) ........................................................................................... 365
16.5 Procesos estacionales ................................................................... 366
16.6 Identificación del modelo ARIMA ............................................... 367
16.6.1 Modelización del componente determinístico .................. 367
16.6.2 Modelización de los componentes estocásticos ................ 369
16.7 Construcción del ARIMA ............................................................. 374
16.7.1 Estimación de los parámetros ........................................... 374
16.7.2 Conformidad de los parámetros y comparación de modelos 375
16.7.3 Diagnóstico del modelo .................................................... 376
16.7.4 Raíz unidad ....................................................................... 377
16.8 Resolución de un problema.......................................................... 379
Capítulo 17. El control en un laboratorio analítico ............................... 385
17.1 Diagramas de control ................................................................... 385
17.1.1 Diagrama de control de Shewhart ..................................... 386
17.1.2 Diagrama de sumas acumuladas ....................................... 387
17.1.3 Consideraciones analíticas ................................................ 389
17.2 Ejercicios interlaboratorios .......................................................... 389
17.2.1 Ensayos de suficiencia ...................................................... 390
17.2.2 Detección de errores sistemáticos: diagramas de Youden 392
17.2.3 Ensayos de colaboración ................................................... 394
17.2.4 Estimación y separación de varianzas ............................... 397
14
Capítulo 18. Estadística del muestreo ..................................................... 399
18.1 El muestreo analítico .................................................................... 399
18.1.1 Errores de muestreo .......................................................... 400
18.1.2 Criterios estadísticos para la toma de muestra .................. 401
18.1.3 Origen de la dispersión en el muestreo ............................. 402
18.2 Muestras reales ............................................................................. 405
18.2.1 Materiales homogéneos y heterogéneos ........................... 407
18.2.2 Unidades de muestreo ....................................................... 409
18.2.3 Análisis en unidades de muestreo ..................................... 411
18.2.4 Toma de muestra estratificada ........................................... 413
Bibliografía ................................................................................................ 415
Índice analítico .......................................................................................... 417
15
No deja de ser sorprendente que, siendo la química en general y la quí-
mica analítica en particular, una ciencia metrológica que se ocupa de todos los
elementos que participan en el proceso global de la medida, se ignoren de forma
sistemática los métodos estadísticos, sin considerar ni aplicar las oportunas
correcciones a los errores residuales, con las cuales se podría conseguir una in-
formación más ambiciosa y adecuada. El objetivo de este manual es fundamentar
los aspectos estadísticos de algunas herramientas empleadas en quimiometría,
sin olvidar su parte de enfoque eminentemente práctico, y mostrar cómo estas
herramientas se aplican en química analítica y en otras disciplinas experimentales
relacionadas. Para ello se intenta presentar los conocimientos de forma sencilla
pero con rigor, sin perder nunca de vista su aplicación inmediata, recurriendo a
numerosos ejemplos que aclaren los distintos aspectos considerados.
Es importante recalcar el contexto en el que se hace uso de la quimiometría
como disciplina que trata de la adquisición y aprovechamiento de la información
en las aplicaciones analíticas. Todo proceso de obtención de información está
constituido por tres etapas bien diferenciadas:
– obtención de los datos químico-analíticos;
– presentación condensada de la información;
– análisis estadístico de la información y conclusiones que de ella
derivan.
La quimiometría está presente en cada etapa, aunque de forma un tanto
diferente. Antes de iniciar la obtención de datos se plantea el problema a resolver
(composición cualitativa y cuantitativa de la muestra como referentes clásicos,
pero también estudio de parámetros y variables analíticas, agrupación de com-
Introducción
16
ponentes, reducción del número de variables, etc.). A continuación se inicia el
muestreo, siendo ésta una parte del análisis químico cuyo tratamiento estadístico
es de vital importancia, recurriendo en su origen a la distribución binomial (frente
a la distribución normal a la que se recurre en el tratamiento de errores), y que
sin embargo es de tal complejidad que su aplicación sigue siendo empírica en
gran medida. Para comprenderlo basta considerar que si se tratase de una mues-
tra formada por dos clases de partículas, ambas homogéneas y de igual tamaño,
y tales que unas estén formadas por el componente analítico de interés y otras
no, el número total de partículas de la muestra analítica controlaría el error de
muestreo. Sin embargo las muestras reales distan de tener una composición tan
simple; normalmente son mezclas complejas de diversos componentes, consti-
tuidas por partículas de distintos tamaños y donde la concentración del consti-
tuyente buscado varía dentro de un abanico considerable de posibilidades. En
estas condiciones la evaluación estadística rigurosa del error no es viable, aunque
algunas simplificaciones permiten extraer ciertas conclusiones orientadoras sobre
el problema del muestreo.
Un aspecto fundamental de esta etapa de obtención de datos químico-analí-
ticos, y que condicionará la validez de las conclusiones que puedan extraerse de
ellos, es que la información que contengan los datos sea relevante en el contexto
analítico planteado, pues en caso contrario pueden derivarse conclusiones absur-
das. Así, seguramente se encontrará un alto coeficiente de correlación (o incluso
un muy elevado coeficiente de correlación) entre el número de trabajos publicados
en cualquier Departamento de Química Analítica y el número de nacimientos en
China y, sin embargo, no existirá ninguna relación entre ellos.
La segunda etapa del proceso implica la presentación condensada de la
información para plasmar los datos en forma de tablas, gráficos o resúmenes
numéricos que permita comunicar la información obtenida de manera breve y
concisa, pero a su vez de forma clara e inteligible. Este aspecto incide de lleno
en el contexto de la estadística descriptiva que muestra estadísticos de resumen
univariantes.
Por último, el análisis de los datos analíticos tiene como meta extraer de
ellos la mayor cantidad posible de información y con el rigor exigible a todo
planteamiento científico. Esta etapa es el objeto principal de la quimiometría
que se trata en el presente manual y, en contraposición con las etapas anteriores,
especialmente con la segunda, requiere del auxilio de modelos estadísticos más
sofisticados que exigen a menudo usar potentes mecanismos de cálculo. Éste
es el motivo por el cual se recuerdan de forma sucinta, antes de entrar en esta
parte de la materia, algunos conceptos y operaciones con matrices, necesarios
para el desarrollo de algunos temas posteriores. A este respecto cabe considerar
que, aunque la aritmética involucrada en el cálculo de matrices es sencilla y
resoluble con herramientas tan extendidas como la hoja de cálculo Excel, lo que
se pretende es tener el concepto claro de qué es lo que implica cada operación
entre matrices; así, por ejemplo, no gozan de la propiedad conmutativa, y no es
lo mismo multiplicar Α × Β que Β × Α (a veces, atendiendo a sus dimensiones,
incluso un producto es posible y el otro resulta imposible).
17
Por otra parte, la proliferación de ordenadores personales y la facilidad de
acceder a diversos paquetes estadísticos equipados con sofisticados métodos
de cálculo, faculta a realizar análisis con nombres grandilocuentes, y es preciso
conocer realmente lo que se está haciendo. Si la ignorancia del proceso que
subyace en cada caso es de por sí bastante deplorable, peor es enfrentarse a la
posibilidad de extraer conclusiones erróneas o extender los resultados más allá
de lo estadísticamente permitido. He oído explicar cómo sobre las funciones
discriminantes de un análisis discriminante lineal con el que se han separado
conjuntos de muestras químicas definidas, se interpolan mezclas como si de una
regresión se tratase. O cómo para separar el ruidode fondo de una señal analítica
se definen las componentes principales y se seleccionan las primeras de ellas,
argumentando que sobre ellas es donde se distribuye la información significativa,
mientras que el ruido se acumula entre las últimas componentes. ¡Y es que resulta
tan sencillo pulsar la tecla Enter!
El manual se ha escrito de forma que sea didácticamente sencillo, ayudado
en lo posible por una visión geométrica que visualice el modelo que subyace en
cada herramienta estadística considerada. Se recurre a numerosos ejemplos
sencillos desarrollados con un número reducido de datos, que no tienen ninguna
validez estadística porque no se pueden extraer conclusiones válidas con pocos
datos. Si se hace así es porque lo que se busca es entender el mecanismo de
trabajo y aclarar los cálculos, que de esta forma se pueden realizar a mano con
ayuda de una simple calculadora, y esto se visualiza igual con 3 puntos que
con 300 (aunque resolver a mano este último caso puede resultar un poco tedioso).
Lo que realmente se pretende es enfatizar la forma de alcanzar las conclusiones
y no las conclusiones mismas.
19
Existen mentiras,
existen colosales mentiras
y existen estadísticas.
1. Principios de quimiometría
1.1 La química analítica como ciencia metrológica
La quimiometría, a caballo entre la química y las matemáticas, es una
disciplina metrológica que aplica conocimientos matemáticos, especialmente
estadísticos, a procesos químicos, para extraer de los datos experimentales la
mayor cantidad posible de información y extender el conocimiento del sistema
químico. Además, para que este conocimiento sea óptimo se deberá discriminar
entre la información relevante y aquella otra de menos interés, siendo ésta otra
faceta de la quimiometría.
En el campo de la química analítica su objeto es optimizar cada fase del
análisis para potenciar e incrementar el conocimiento de todo el proceso analítico
en su conjunto. En este campo la quimiometría nace como disciplina científica en
la década de los años 70 del siglo pasado, con el desarrollo de la instrumentación
y el gran auge de la microinformática que permite almacenar y tratar a altas
velocidades un elevado número de datos analíticos.
La base conceptual de la quimiometría no es complicada y se sustenta en
modelos matemáticos sencillos (quizás algo más complejos para los sistemas
multivariantes que hacen un mayor uso del álgebra matricial), pero no conviene
verla como una «caja negra» de la que sólo se conoce el requisito de entrada de
los datos y los valores de salida, siendo preciso conocer –ni que sea someramen-
te– lo que ocurre en su interior para sacar el máximo provecho de la información
aportada en la experimentación.
1.1.1 Variables
Existen dos tipos de variables: las discretas que sólo pueden adquirir un
número finito de valores, como sería la variable sexo en Química Clínica o el
20
Carlos Mongay Fernández
conteo de fotones en fluorescencia de rayos X (sólo puede tomar valores ente-
ros), y las continuas que pueden adquirir cualquier valor cuando menos dentro
de un intervalo, como el olor con todos sus aromas, el color, con todas sus
tonalidades y matices, o la medida de una masa. Sin embargo, en la práctica
estas variables continuas deberán experimentar un redondeo o truncamiento
para poder definirlas.
La característica fundamental de toda variable es suministrar un cierto
nivel de información, que puede expresarse o no en términos numéricos. En este
sentido cabe distinguir entre:
a) variables cuantitativas o numéricas, que se mueven dentro de una es-
cala numérica de valores, siendo posible verificar cálculos y establecer
relaciones entre ellas. Las variables numéricas se subdividen en:
variables numéricas de razón, cuando parten de un origen abso-
luto, el cero, que tiene un significado de «carencia de» como es
el caso de la edad, de la masa o del volumen; por ello la relación
entre las variables tiene un sentido exacto (10 ml es cinco veces
más que 2 ml). Estas variables son las que aportan un mayor
nivel de información.
variables numéricas de intervalo, cuando su origen sólo es
relativo, por lo que el cero no indica «carencia de»; es el caso
de la temperatura centígrada, donde 0º C no indica ausencia de
temperatura y por lo tanto 20º C no es «un nivel térmico doble»
que 10º C. Sin embargo la distancia entre los valores tiene sentido
(el intervalo 3-5 es igual al 10-12). El nivel de información de
estas variables es algo menor, por lo que se intenta transformarlas
en variables numéricas de razón (en el caso de la temperatura,
pasando los grados centígrados a kelvin).
b) variables cualitativas o categóricas, cuando su información no se mueve
en un dominio de valores numéricos, y por lo tanto no se pueden estable-
cer relaciones entre ellas. Para manejar más fácilmente estas variables,
usualmente se les asigna un código de clasificación. Las variables cate-
góricas se subdividen en:
variables categóricas nominales, cuando su información no es
cuantificable, siendo imposible establecer un orden de prioridad
o categoría entre las variables. Sería el caso ya mencionado del
sexo en química clínica, el de los posibles detectores utilizados
en cromatografía de gases (ionización de llama, conductividad,
termoiónico, de captura electrónica, etc) o el de los colores en
análisis cualitativo (azul, rojo, verde, pardo). En este caso el
código asignado a las variables (a menudo de tipo numérico) no
representa ningún orden de prioridad; sólo tiene un sentido de
agrupación, pero no de ordenación.
21
Principios de quimiometría
variables categóricas ordinales, cuando se puede establecer un
orden natural jerárquico de las variables. Sería el caso del impacto
ambiental de una serie de productos químicos (no contaminante,
inapreciable, bajo, medio, alto, peligroso), de la calidad de un
agua (no potable, aceptable, buena, excelente) o de la aceptación
de un producto por su olor (muy desagradable, desagradable,
inodoro, agradable, muy agradable). En este caso tiene sentido
el ordenamiento por códigos en función del nivel categórico de
la variable; sin embargo ello no implica que la variable se trans-
forme en numérica, pues los valores relativos entre ellas carecen
de significado, tal como se observa en la tabla:
Código Impacto ambiental Nivel de impacto Código relativo
1 no contaminante nulo 0
2 inapreciable muy débil 5
3 bajo notorio, aunque no preocupante 15
4 medio preocupante, debiendo controlarse 25
5 alto tomar medidas oportunas de riesgo 50
6 peligroso desalojo de la población 100
Es importante destacar que aunque no se puede sacar de un dato más infor-
mación de la que realmente posee, al asignar un orden de clasificación se puede
intentar una aproximación a la realidad matizando objetivamente la codificación,
tal como se muestra en la misma tabla en la columna de código relativo.
1.1.2 Estadística básica
La primera fase de cualquier análisis estadístico para resumir la información
contenida en la muestra será su descripción. La Estadística descriptiva sintetiza
la información aportada por los datos, sin plantear objetivo alguno de naturaleza
inductiva. Para ello estudia determinados caracteres o aspectos (variables) de
una entidad concreta, resumiendo la información en forma de tablas, gráficos o
valores según la naturaleza de las variables:
22
Carlos Mongay Fernández
Variable Escala Descripción Estadísticos y gráficos
Cualitativa
(discreta
o continua)
nominal Valores no numéricos, sin
orden entre ellos
– Distribución de frecuencias
– Moda
– Diagrama de barras
ordinal Valores no numéricos pero
ordenados
– Máximo y mínimo
– Mediana
– Cuartiles y percentiles
– Intervalo intercuartílico
Cuantitativa
(discreta
o continua)
de intervalo Sólo tienen sentido las
diferencias entre los valores
de las variables
– Media e intervalo
– Varianza, desviación
estándar y coeficiente de
variación
– Coeficiente de asimetría– Coeficiente de curtosis
de razón Si, además de las diferencias,
también tiene sentido la razón
entre sus valores
Inferir conclusiones posteriores sobre la población a partir de la muestra
y proporcionar medidas que cuantifiquen el grado de confianza puesto en tales
conclusiones es misión de la Inferencia estadística; por Estadística básica se
entienden estos dos grandes apartados: la Estadística descriptiva y la Inferencia
estadística. Así para determinar la riqueza en hierro de un yacimiento se debería
analizar todo el yacimiento. Ante tal imposibilidad se analizan n muestras con
nʼ replicados (estadística descriptiva), de manera que con la información obte-
nida se pueda estimar el contenido en Fe del yacimiento y su margen de error
(inferencia estadística).
Dentro de la inferencia estadística se distinguen dos vertientes: la paramétri-
ca y la no paramétrica. La primera presupone un modelo matemático que descansa
sobre hipótesis específicas relativas al tipo de distribución de la población, siendo
su objetivo determinar los parámetros del modelo a partir de los datos muestrales.
Pero, a menudo, comprobar las hipótesis planteadas choca con ciertos aspectos
prácticos como que la información relevante de que se dispone es insuficiente,
que el tamaño muestral es demasiado pequeño o que la experiencia con datos
similares es muy limitada. En tales situaciones se prefiere inferir conclusiones
recurriendo a métodos no paramétricos.
La inferencia paramétrica permite extrapolar los resultados muestrales a la
población y determinar el valor de los parámetros; se puede actuar por estima-
ción o por contraste de hipótesis. En la estimación por intervalos de confianza
se calcula el valor del parámetro a partir de los datos muestrales y se determina
un intervalo de longitud mínima que contenga el verdadero valor del parámetro
buscado, con una probabilidad o nivel de confianza fijado a priori.
En contraste de hipótesis se decide si el valor de un parámetro atribuido a
la población se confirma por la observación de la muestra; para ello se establece
23
Principios de quimiometría
una conjetura sobre el valor del parámetro (la hipótesis nula, H0) y se decide su
validez de acuerdo con alguna regla de decisión. Cabe señalar que, en función
de los datos obtenidos, se puede rechazar la hipótesis nula, pero nunca se puede
considerar firmemente probada mas que estudiando y verificando todos los ele-
mentos de la población.
1.1.3 Métodos univariantes y multivariantes
En los métodos univariantes se define una única variable experimental a
partir de una serie de características relativas a una única muestra. Antes del
desarrollo de la quimiometría, a lo máximo que se solía recurrir era a aplicar
pruebas univariantes para extraer información de los datos mediante aplicaciones
muy elementales, aunque la incidencia quimiométrica actual ha permitido nuevos
enfoques en la extracción de información. Actualmente los sistemas univariantes
siguen siendo fundamentales en muchas actuaciones. De este modo la calidad
del agua (variable dependiente) en una instalación de agua desionizada se regula
a través de la conductividad (variable independiente), que es la que controla la
concentración salina máxima permitida antes de cortar la acción de las resinas de
intercambio. En este caso el problema se describe por una información univariante
simple (de una sola variable independiente).
El siguiente paso en la estructura de los datos implica considerar dos va-
riables (sistema bivariante). Aquí las variables pueden determinarse sobre una
misma muestra o sobre muestras distintas y, aunque desde el punto de vista qui-
miométrico la aplicación sigue siendo muy simple, se pueden abordar situaciones
de enorme trascendencia para los métodos analíticos. Baste pensar en detectar
diferencias entre los valores medios de una variable cuantitativa en función de
los distintos niveles establecidos por una variable cualitativa (métodos ANOVA),
o en la definición de las rectas de calibrado en los procedimientos analíticos
(regresión lineal simple).
En otros casos se requiere el conocimiento de varias variables para definir
el problema y tornarlo apto para una determinada aplicación. En general para
visualizar el problema, los datos se ordenan en una tabla o matriz de datos, donde
cada columna corresponde a una variable y cada fila a una muestra, un caso o un
objeto. En los métodos de regresión, donde se distinguen las variables en depen-
dientes e independientes, los métodos se consideran univariantes si únicamente
existe una variable dependiente, mientras que serán multivariantes cuando existe
más de una variable dependiente.
En la fabricación de un cierto producto se evalúa su impacto comercial
(variable dependiente) controlando una serie de parámetros analíticos como el
rendimiento del proceso, la naturaleza y la concentración de las distintas especies
presentes; pero a ellas deben añadirse otras variables que pueden repercutir en la
viabilidad económica como los costes de fabricación o el tiempo invertido, y aún
cabe añadir aquellas otras variables comerciales como son el grado de aceptación
del producto en el mercado, los canales de distribución, etc. En este caso se trataría
de una regresión univariante con múltiples variables independientes.
24
Carlos Mongay Fernández
Por su parte, la tabla muestra algunos parámetros de un suelo agrícola,
antes de la siembra. Se pretende dilucidar si a través del contenido analítico de
los cuatro componentes estudiados (variables independientes) se puede estimar
la producción y su coste (variables dependientes). En este caso se tratará de una
regresión lineal multivariante donde se presentan cuatro casos en un espacio de
seis dimensiones (2 variables dependientes y 4 independientes) puesto que cada
variable define una dimensión.
Tratamiento de un campo con distintos fertilizantes
Parámetros analíticos Parámetros de Producción
Fertilizante Cl– P2O5 K2O N2 kg / Ha Coste / Ha
estiércol 68 110 62 116 450 32,50
guano 63 135 70 139 300 50,00
turba 48 50 48 68 265 78,70
químico 36 127 32 80 490 96,40
1.1.4 Control de calidad
La calidad es «aptitud para el uso», de forma que el consumidor se sienta
satisfecho con el producto adquirido, lo que se conseguirá siempre y cuando sa-
tisfaga sus expectativas. Sería el caso del comprador de una resina (consumidor)
destinada a la fabricación de barnices que espera que el procesamiento de esa
resina se produzca a bajo coste, con un trabajo mínimo y a su vez que el barniz
final tenga una aceptación máxima por parte de otros consumidores.
Existen dos aspectos generales de la calidad: calidad de diseño y calidad
de conformidad. La calidad de diseño implica plantear procesos que permitan
alcanzar varios grados o niveles de calidad, introduciendo variantes intencio-
nales para conseguirlo, y con la finalidad de satisfacer a un amplio abanico de
consumidores. Estas diferencias incluyen los métodos empleados, las tolerancias
establecidas, los medios de trabajo, la confiabilidad esperada y otras variables.
La calidad de conformidad indica el nivel de ajuste entre el resultado obtenido
y las especificaciones y tolerancias definidas en el diseño; aquí influyen muchos
factores, no sólo de métodos, ensayos y pruebas, sino también la calibración de la
instrumentación, destreza de los analistas e incluso su motivación personal para
lograr el nivel óptimo de calidad dentro del diseño establecido.
Este doble aspecto lleva sin embargo asociada una gran dosis de ambigüedad
al no aclarar muchas veces si se trata de calidad de diseño o de conformidad, y
métodos bien diseñados (aunque con bajas prestaciones) se consideran métodos
no demasiado eficientes. Esta dualidad es muy frecuente en química analítica:
al plantear la determinación de hierro en agua de mar con una exactitud del 3%,
se puede precipitar el Fe(OH)3 con amoniaco y determinarlo por gravimetría.
Claro que la presencia de Alconduce a un error por exceso, pero al diseñar el
25
Principios de quimiometría
procedimiento ya se ha tenido en cuenta este hecho, considerando que el error
aceptado permite ignorar su presencia, por lo que la determinación está perfec-
tamente diseñada y la omisión del Al en absoluto representa una forma errónea
de trabajo. Si, por el contrario, se exigiese un error inferior al 0,5% lógicamente
se debería rediseñar la determinación, considerando la presencia del Al para
corregir su efecto.
1.1.5 Diseño de experiencias
Antes de establecer y aplicar un método analítico de forma continua y ruti-
naria se requerirá un planteamiento integral del problema, destacando de forma
relevante la optimización de las variables que puedan afectar a los parámetros ana-
líticos (sensibilidad, selectividad, concentración de reactivos, coste, tiempo, etc.)
para aumentar el rendimiento y la eficacia de las determinaciones.
Supongamos una nueva determinación espectrofotométrica con un reacti-
vo orgánico. Sobre la determinación influirán factores como el pH, disolvente,
concentración de reactivos, orden de adición, temperatura, tiempo de espera
antes de la lectura, etc. Si cada variable actuase de forma independiente frente
a las demás el problema sería fácil de abordar y de resolver: manteniendo todas
las variables fijas menos una (por ejemplo el pH) se varía éste hasta obtener el
valor para el cual la respuesta analítica es máxima. Fijando el pH a ese valor y
manteniendo las restantes variables, se modifica otra (por ejemplo la temperatura)
hasta maximizar su respuesta. Se sigue así secuencial y sucesivamente con todas
y cada una de las variables, teniéndose al final el mejor valor para cada variable
de forma que el proceso sea óptimo.
Pero lo usual es que las variables no actúen independientes unas de otras
sino que lo hagan de forma interactiva, de manera que cuando pretendamos
maximizar la respuesta de la temperatura, el valor obtenido sólo responda de
forma óptima para el valor predeterminado del pH, pero nadie asegura que para
otro valor de la acidez la temperatura óptima sea distinta y mejore la respuesta
analítica en su conjunto. Ello sugiere que el estudio deberá planificarse de forma
que las variables se modifiquen todas simultáneamente para optimizar las con-
diciones del método de trabajo.
La planificación y el diseño de experiencias antes de iniciar el trabajo
experimental es un proceso de optimización, y el estudio del modelo matemático
que debe seguirse para lograrlo es un problema que entra de lleno en el campo
de la Quimiometría. El diseño quimiométrico permite obtener una estimación
del error que sirva de pauta para interpretar la medida posterior de los resultados
obtenidos. Toda experiencia correctamente diseñada y planificada debe responder
a una serie de cuestiones elementales de carácter general:
1. Finalidad de la experiencia y factores básicos que deben considerarse.
2. Tiempo previsto, disponibilidad del equipo y métodos necesarios.
3. Información bibliográfica previa sobre experiencias similares.
26
Carlos Mongay Fernández
Y otras condiciones que deben definirse a priori para permitir su diseño quimio-
métrico son:
4. Cuál puede ser la variabilidad permitida de los factores básicos y cómo
puede afectar ésta sobre la determinación final.
5. Si existe interacción entre los factores básicos, qué importancia puede
tener y cuál podría ser su magnitud.
6. A qué nivel se pueden considerar significativas las diferentes interac-
ciones.
Quizás la última cuestión sea la característica más distintiva entre el diseño
quimiométrico de una experiencia y su diseño clásico: el diseño quimiométrico
proporciona una prueba estadística o test de significación para dilucidar si existe
o no diferencia significativa entre los factores medidos o entre sus interaccio-
nes. De esta forma, y a la vista de los resultados, podrán emitirse hipótesis y
confrontar su adecuación a los datos experimentales. Esta confrontación para
aceptar o rechazar la hipótesis siempre será un juicio crítico que deberá abordarse
objetivamente y para ello será básico el conocimiento del error y las pautas de
significación.
Actualmente resulta indispensable que cualquier método analítico sea va-
lidado, esto es, se compruebe que dicho procedimiento cumple con los criterios
de calidad recomendados por distintos organismos internacionales:
IUPAC: International Union of Pure and Applied Chemistry
ASTM: American Society for Testing Materials
AOAC: Association of Official Agricultural Chemists
ISO: International Organization for Standardization
Entre estos criterios están la exactitud y precisión de las medidas analíticas,
el límite de detección y determinación así como la repetibilidad y reproducibi-
lidad del procedimiento analítico, la robustez (insensibilidad frente a pequeñas
variaciones de las condiciones experimentales de trabajo), etc.
1.2 Errores experimentales
Toda medida experimental lleva asociada un error, no existiendo forma de
conocer el verdadero valor μ de la magnitud medida; como toda determinación
analítica parte de unos valores experimentales y del error que les afecta, el ver-
dadero problema de interpretación es un problema de cálculo de errores. Existen
dos clases de errores: los debidos únicamente al azar (errores aleatorios), y los
que no dependen del azar (errores sistemáticos).
A ellos cabría añadir los errores evidentes, que son consecuencia de falta
de cuidado, ineptitud, indolencia o mala suerte:
27
Principios de quimiometría
– utilización de una escala inadecuada del instrumento de medida
– introducción de contaminación en la muestra o en las disoluciones
– manipulación poco cuidadosa
Un error evidente dentro de un conjunto de medidas aparece como resultado
aberrante (que es muy diferente del resto).
Si el valor real de una magnitud es μ y el resultado de una medida cual-
quiera es x, su error se define por e = x-μ (con este criterio, para que el error sea
positivo si la medida es por exceso y negativo en caso contrario). Para interpretar
adecuadamente el resultado analítico se precisa conocer por separado la parte
debida al error experimental m (sistemático, de tipo no aleatorio) y la que depende
realmente del fenómeno en estudio ε (accidental, de tipo aleatorio), de modo que
el error se compone de dos sumandos: e = m+ε.
1.3 Exactitud y precisión
La noción de errores sistemáticos y aleatorios permite definir sin ambigüe-
dad las dos cualidades esenciales de los resultados experimentales: la exactitud
y la precisión. La exactitud depende de los errores sistemáticos que intervienen
en la determinación, denotando la proximidad de una medida al verdadero valor
y, en consecuencia, la validez de la medida. Como que la exactitud condiciona
el tiempo y el esfuerzo dedicados a obtener la medida, se deberá llegar a una
situación de compromiso.
Por su parte la precisión refleja la proximidad de diversas medidas entre sí,
y es función exclusiva de los errores accidentales (en la figura 1.1 se observa que
el método A es más exacto y menos preciso que el B). Esta dispersión de valores
siempre es calculable y, en ausencia de mayor información, es el único indicio
de un análisis bien hecho, aunque ello no siempre es garantía de la bondad de
una determinación.
A este respecto cabe decir que la
IUPAC establece la repetibilidad como
la precisión de un método en función
de análisis independientes realizados
por un mismo analista, en el mismo
laboratorio, con la misma técnica y
el mismo instrumento en un intervalo
corto de tiempo (precisión dentro de
rachas), mientras que reproducibilidad
se refiere a la precisión de un método
con datos obtenidos a partir de deter-
minaciones independientes efectuadas
en condiciones diferentes, en distintos
laboratorios y con distintos equipos
Fig. 1.1 Exactitud y precisión.
�
���
���
���
���
� � � � �
����������
�
�
28
Carlos Mongay Fernández
u operadores (precisiónfuera de rachas). La repetibilidad se acepta como una
medida de varianza interna y representa la máxima precisión que puede lograrse
en unas condiciones de trabajo determinadas.
1.4 Errores sistemáticos
Los errores sistemáticos, de
tipo no aleatorio, se pueden estimar
con patrones adecuados, pero no son
directamente calculables, y deben
eliminarse de la experimentación para
que no superpongan su acción a la de
los errores aleatorios. Se originan en
cualquiera de los tres pilares implica-
dos en todo análisis (analista, método
e instrumentación), bien sea por si
mismos, por sus interacciones mutuas o
por su interacción con el entorno, como
se esquematiza en la figura 1.2.
En muchos casos, por ejemplo en la puesta a punto de un método analíti-
co, el principal factor a estudiar es el error sistemático, con miras a eliminarlo
o corregirlo.
Los errores sistemáticos pueden ser:
a) Personales: debido a los juicios que hace el experimentador. Aparecen en
la mayoría de casos en que se presenta un error importante en métodos
firmemente establecidos:
– Estimar la posición de una aguja sobre una escala (al interpolar
la lectura de una bureta existe una tendencia innata a redondear
preferentemente a 0 o a 5, dar prioridad a los valores pares sobre
los impares, preferir los valores bajos a los altos).
– Definir el color en el punto final de una valoración (sin entrar en
problemas de daltonismo).
– Error de paralaje al enrasar las disoluciones en el material volu-
métrico (buretas, aforados, etc.).
– Prejuicios (tendencia subjetiva a escoger los valores más favo-
rables).
Estos errores se minimizan trabajando con cuidado y autodisciplina. Los
robots y los sistemas automatizados de recogida de datos minimizan o
excluyen estos errores.
b) Del método: son muy serios y afectan a todas las determinaciones. Se
deben básicamente al comportamiento químico y/o físico no ideal de los
reactivos y de las reacciones:
Fig. 1.2 Pilares implicados en el análisis.
29
Principios de quimiometría
– Solubilidad finita de toda sustancia (un exceso de lavado tiende
a disolver parcialmente un precipitado).
– Contaminaciones por coprecipitación (un mal lavado puede
mantener contaminado el precipitado).
– Reacción lenta (determinar el índice de I2 en las grasas requiere
dejar reposar de ½ a 1 hora).
– Volatilidad de los reactivos (iodimetrías).
– Mala elección del indicador (valorar HAcO con NaOH frente al
rojo de metilo) o por viraje lento del mismo (valorar Zn2+ con
Fe(CN)64- en presencia de difenilamina).
Muchos errores del método se deben a las interferencias químicas, y su
eliminación exige un conocimiento profundo de la muestra y del com-
portamiento físico-químico del analito.
c) Instrumentales: debidos a la discrepancia entre el valor nominal y el real.
Se corrigen procediendo periódicamente al contraste y aforo del material
(calibración de los instrumentos):
– Contenido y vertido del material volumétrico (especialmente
cuando ha estado sometido a variaciones térmicas: calentar ma-
traces aforados o guardarlos en la nevera)
– Deriva de las señales en la instrumentación (desajuste del cero
por calentamiento, aparición de radiación parásita, etc.)
– Reactivos conteniendo impurezas
– Efecto de memoria por la retención accidental de restos de muestra
en el instrumento (dificultad de eliminar vestigios de compuestos
poco volátiles en espectrometría de masas, elución muy lenta de
componentes en cromatografía de gases, etc.).
En general los errores sistemáticos son los más importantes en magnitud
dentro del análisis, y aun así difíciles de revelar. La mejor forma de detectarlos
y corregirlos es validando el método, siendo tres las formas más usuales de
hacerlo:
– determinando la misma muestra por algún método de referencia
– recurriendo a dos o más métodos analíticos independientes de garantía
probada
– procediendo al análisis en laboratorios colaboradores, técnicamente
competentes y de reconocida solvencia para ese tipo de muestras.
Según la fase en que se produzcan pueden afectar a un solo resultado o a
toda una serie. Así, un error en la pesada de la muestra conduce a un resultado
erróneo sólo para esa muestra, pero cometido al preparar una disolución valorada
falsea todos los análisis en que se la emplee.
30
Carlos Mongay Fernández
Los errores sistemáticos, no aleatorios, tienen siempre lugar en el mismo
sentido y pueden minimizarse e incluso anularse empleando factores de corrección,
modificando el método o realizando ensayos en blanco que permitan corregir los
resultados obtenidos. A veces puede no ser tan intuitivo que el error sistemático
afecte siempre en el mismo sentido: una bureta ordinaria puede conducir unas
veces a medidas por defecto y otras por exceso. Pesando la cantidad vertida de
agua se puede estimar el error, que podrá aparecer indistintamente como positivo
o negativo a lo largo de la caña de la bureta, pero para un vertido determinado
siempre tendrá el mismo signo (partiendo del enrase en cero, siempre que se
viertan 12,0 ml el error sistemático tendrá una tendencia que puede ser de signo
distinto a la que tenga cuando se viertan 12,5 ml).
1.4.1 Clasificación
Los errores sistemáticos se clasifican en aditivos o constantes, cuando
tienen el mismo valor absoluto independientemente de la cantidad de muestra
que se determine, y proporcionales cuando su magnitud depende de la cantidad
de sustancia.
Constantes
– Un pH-metro que por estar calibrado con un tampón mal preparado mide
siempre 0,1 unidad de pH por defecto.
– El Al2O3 precipitado a partir de diversas cantidades de una sal de Al3+
con un mismo volumen de NH3 que al estar guardado en una botella de
vidrio común se encuentra impurificado por SiO2.
– Consumo adicional de valorante en el error de indicador, independiente
de cual sea el volumen de equivalencia.
Sería la precipitación de di-
versas cantidades de un patrón
de Al3+ empleando siempre 25 ml
de NH3 impurificado con un 0,02% de
SiO2, valor que se sumará al peso de
Al2O3 dando un error absoluto cons-
tante. La disminución del error relativo
permite descubrir la presencia de un
error aditivo.
Para minimizar los errores constantes se emplea una muestra tan grande
como sea posible, compatible con el método a utilizar.
Proporcionales
– En gravimetría, una desviación negativa que aumenta con el volumen de
líquido de lavado y disminuye al aumentar el tamaño de muestra, puede
indicar pérdidas por solubilidad.
Real Hallado Absoluto Relativo
0,100 0,105 0,005 5,0%
0,200 0,205 0,005 2,5%
0,300 0,305 0,005 1,7%
0,400 0,405 0,005 1,2%
31
Principios de quimiometría
– Asimismo en gravimetría, desviaciones positivas ligadas al tamaño de
muestra puede indicar la retención de algún componente por parte del
precipitado.
Tal es el caso de un precipitado higroscópico que se mantiene en una
atmósfera algo húmeda antes de la pesada. La cantidad retenida de humedad
(supongamos un 1% de su peso) será
proporcional a la cantidad de pre-
cipitado. En este caso como que el
error relativo permanece constante,
es difícil descubrir su presencia; si no
se tiene en cuenta la higroscopicidad
del precipitado el error puede pasar
desapercibido.
1.4.2 El error sistemático en los métodos analíticos
El error sistemático sólo se puede evaluar si se dispone del valor verda-
dero, esto es, si se tienen patrones de referencia que cubran todo el campo de
aplicación del método analítico, para poder determinarlo en cualquier punto
del intervalo en el que se aplique el método. Bajo este aspecto los métodos
analíticos implican:
a) En los métodos absolutos,
que no emplean patrones
por no requerir comparación
alguna, no podrán detectarse
los errores sistemáticos (sólo
pueden ponerse de manifiesto
con el empleo de patrones).
Es el caso de la gravimetría
o de la cromatografía de ga-
ses empleando el método de
normalización interna como
se muestra en la figura 1.3
(el error pasaría desaperci-bido si algún componente
quedase retenido dentro de la
columna).
b) Para los métodos relativos se compara directamente la muestra con pa-
trones muy semejantes en cuanto a composición y características físicas.
En principio la exactitud del resultado dependerá de la exactitud de los
patrones.
En la mayoría de métodos relativos se presentan errores sistemáti-
cos adicionales, debidos en particular a las diferencias de efecto matriz
Real Hallado Absoluto Relativo
0,100 0,101 0,001 1,0%
0,200 0,202 0,002 1,0%
0,300 0,303 0,003 1,0%
0,400 0,404 0,004 1,0%
A
B
C
A
B C
a . fA + b . fB + c . fC = 100%
Fig. 1.3 Normalización interna de picos croma-
tográficos.
32
Carlos Mongay Fernández
entre muestras y patrones, y por el hecho de que ambos no se determi-
nan simultáneamente, pudiendo estar sujetos los aparatos de medida a
derivas lentas.
c) En los métodos que podríamos llamar semi-relativos, la técnica opera-
toria comporta una fase previa de preparación de la muestra (puesta en
solución, separación de ciertos constituyentes, etc.) destinada a obtener
un producto comparable al de los patrones con los que se obtiene la
curva de calibrado. En estos métodos los errores pueden separarse
en dos grupos: los cometidos en la fase de preparación y los cometidos en
la fase final de la determinación; sólo para estos últimos es válido lo
dicho antes para los métodos relativos.
Así, si para determinar Mg2+ por espectrofotometría de llama se di-
suelve la muestra en agua regia, existirá un desplazamiento de la curva
de calibrado en presencia de iones Cl-, por lo que se puede producir un
error sistemático si éstos no han sido bien eliminados.
1.5 Errores aleatorios
Los errores indeterminados, accidentales o aleatorios, son directamente
calculables y aparecen por causas incontroladas de naturaleza errática e impre-
visible (oscilaciones erráticas que provocan las vibraciones sobre las balanzas,
presencia de campos magnéticos en RMN), originándose al pretender forzar la
medida hasta sus últimas consecuencias:
– lectura digital de la escala de la balanza al oscilar la última cifra
– interpolación en las divisiones de una escala (material volumétrico gra-
duado)
– determinación del enrase en el material aforado (material volumétrico
calibrado).
Pueden tener lugar en los dos sentidos (por exceso y por defecto) con igual
probabilidad y reducirse hasta límites aceptables, pero jamás anularse, sea cual
fuere el operador o el método empleado. Su valor establece la máxima bondad
que puede alcanzarse en una medida, y que nunca superará a la reproducibilidad
del instrumento utilizado (el límite de reproducibilidad de un instrumento es
su sensibilidad; por ejemplo, la sensibilidad de la balanza analítica común
es ± 0,1 mg).
1.5.1 Cifras significativas
Los errores aleatorios se consignan por el número de cifras significativas
con que se expresa la magnitud, cifras que reflejan el número de dígitos necesario
para describir el valor de la magnitud sin alterar la precisión (son significativos
33
Principios de quimiometría
todos los dígitos exactos más el primero incierto). Cuando no se indica la pre-
cisión se presupone que la última cifra significativa oscila entre más y menos
una unidad.
Si la media de cuatro determinaciones de Ni2+ (23,48, 23,45, 23,51 y 23,46)
es 23,475 y la desviación media es ± 0,02, la segunda decimal está sujeta a incer-
tidumbre, debiéndose redondear a 2 cifras decimales. Tanto da 23,47 como 23,48
pues ambos distan igual de 23,475 pero como se sigue el criterio de redondear
siempre al número par más próximo, el resultado será: 23,48 ± 0,02. Indicar sólo
23,48 equivaldría a suponer una precisión de ± 0,01, mejor que la real.
La representación exponencial facilita la ubicación de la coma decimal
sin alterar la precisión, de forma que el factor exponencial sólo localiza la parte
decimal, no contando en cuanto al número de cifras significativas:
– Un volumen de 3000 ml si se quiere representar con 4 cifras significativas
se puede expresar como 3,000 × 103 ml, y para expresarlo con 2 cifras
significativas se deberá escribir 3,0 × 103 ml.
– El número de Avogadro representando con 4 cifras significativas será
NA = 6,023 × 1023.
Este concepto de cifras significativas permite mostrar los resultados intro-
duciendo el error o incertidumbre con que se ha realizado una medida. Existen
dos formas de indicarlo:
Absoluto:
se expresa en las mismas unidades que la cantidad medida
10,2 g ± 0,1 g pH = 7,14 ± 0,02 unidades de pH
45,45 ml ± 0,01 ml C = 0,25 M ± 0,03 M
Todo el material volumétrico de clase A tiene establecidas las máximas
tolerancias permitidas.
Relativo:
se formula en términos de la magnitud medida y es adimensional, Se
acostumbra a expresar en tanto por uno o en %, aunque a veces se expresa
en ‰ o en ppm.
(10,2 ± 0,1) g (εr = 9,8 × 10-3) pH = (7,14 ± 0,02) (εr = 2,8 × 10-3)
(45,45 ± 0,01) ml (εr = 2,2 × 10-4) C = (0,25 ± 0,03) M (εr = 0,12)
En la práctica, cuando se indica un resultado analítico, también suele acep-
tarse el uso de dos cifras inciertas, lo que permite apreciar mejor su precisión y
es más útil con fines comparativos. Asimismo, no es aconsejable redondear los
valores intermedios en los cálculos parciales, pues las cifras rechazadas pueden
ir alterando los valores finales de la media y de la precisión.
34
Carlos Mongay Fernández
1.5.2 Cálculo de errores aleatorios
Para calcular los errores aleatorios existen dos métodos: el ordinario basado
en el principio del error máximo, y el estadístico basado en el cálculo de proba-
bilidades. El método ordinario establece que en una serie de medidas los errores
se suman en todo momento, mientras que el método estadístico considera que
por sucesivas repeticiones los errores tienden a compensarse.
Método ordinario: El método ordinario es poco realista. En efecto, si
suponemos la lectura de una bureta en la que el resultado se determina por la
diferencia entre el volumen vertido y el enrase inicial, existe en cada lectura la
misma probabilidad de que el error sea positivo o negativo. Consecuentemente
los errores que afectan al resultado se combinan de forma cualitativa:
(+ , +) (+ , -) (- , +) (- , -)
y la probabilidad de que los errores se sumen (que es lo que propone el método
ordinario) es sólo de 1 sobre 2. Si el resultado final se calcula hallando la media
de dos determinaciones con dos lecturas por determinación, la probabilidad de
que los errores se sumen será de 1/8; igualmente para tres determinaciones (con
dos lecturas por determinación) será de 1/32.
La adición de errores se minimiza al aumentar el número de análisis o el
de medidas repetidas llevadas a cabo en cada determinación. Pero, mientras au-
mentar el número de análisis siempre mejora la precisión, no ocurre lo mismo al
aumentar el número de réplicas dentro de cada determinación, ya que los errores
en cada medida raramente son del mismo orden de magnitud y la posibilidad de
compensación es menos eficaz. De ahí el interés de simplificar en lo posible la
técnica operatoria de un método analítico.
Además, calcular el error por el método ordinario exige conocer su magnitud
en cada etapa del proceso, lo que puede ser sencillo en el instrumento de medida,
pero es inviable en las etapas de preparación (filtraciones, lavados, etc.), por lo
que sólo pueden considerarse los errores en la instrumentación y admitiendo que
los errores parciales se presenten siempre con su valor máximo.
Método estadístico: El método estadístico tiene la ventaja de suministrar
cifras calculadas a partir de valores experimentales y no de consideraciones más
o menos reales y a menudo arbitrarias. Además es un método completo, pues no
se limita sólo a errores accidentales de tipo instrumental, sino que engloba todos
los errores accidentales (del operador, de muestreo, de la etapa de preparación);
facilita también el establecimiento de leyes experimentales y el estudio de fenó-
menoscomplejos con presencia simultánea de muchas variables. Por último, el
método estadístico permite normalizar las conclusiones en el sentido de que la
interpretación de los resultados no se traduce por apreciaciones subjetivas sino
que viene dada en términos de probabilidad.
Prácticamente el método estadístico permite:
a) Precisión absoluta: Evaluar la precisión de un resultado y, por ende, el
número de cifras significativas a otorgarle; así se puede indicar el grado
35
Principios de quimiometría
de precisión de la toma de muestra, de los instrumentos de medida, del
método analítico, etc.
b) Precisión relativa: Comparar precisiones para justificar la elección de
un método analítico determinado o de un instrumento dado.
c) Distribución: Determinar cómo se reparten los errores en un estudio
complejo.
d) Número de muestras o réplicas: Calcular el número de muestras a tomar
o el de replicados a efectuar para tener un resultado con una precisión
dada.
e) Rechazo de valores: Considerar si un resultado desviado es significativo
o debido sólo al azar, y poder realizar una estimación de la exactitud.
Así, se puede estudiar una determinada variable experimental o comparar
operadores y métodos, eliminando los resultados aberrantes de una serie
para no hacerlos intervenir en el cálculo final.
f) Porcentaje de confianza: Evaluar en términos de probabilidad la con-
fianza que se pueda dar a un resultado.
El método estadístico no ofrece dificultad alguna, pues los parámetros se
obtienen fácilmente, los cálculos resultan muy reducidos con el empleo de una
sencilla calculadora, y las conclusiones se deducen directamente examinando
tablas de criterios de significación. Por ello los métodos estadísticos son amplia-
mente utilizados para la planificación de experiencias en química analítica, en
la toma, presentación y discusión de datos analíticos y en la valoración de las
conclusiones resultantes.
37
2.1 Ayudando a la experimentación
Hace más de cuatro siglos que se establecieron las bases del cálculo de pro-
babilidades pero, mientras que hasta principios del siglo pasado sus aplicaciones
en el campo científico se limitaban a explicar con una base estadística la teoría
cinética de los gases, actualmente desempeña un importante papel en todas las
ramas de la ciencia.
El analista sólo tiene algunos contactos con la estadística cuando aplica
la teoría de errores en el análisis cuantitativo; y sin embargo la quimiometría
le ofrece amplias potencialidades para tratar los datos de una forma más útil y
deducir resultados más seguros, con un mayor número de conclusiones. Tal es el
caso por ejemplo cuando se establecen criterios objetivos de rechazo de resulta-
dos anómalos de una serie de n de ellos y se calcula la media con los restantes,
pues la estadística permite calcular la probabilidad de que tales datos sean o no
miembros legítimos del grupo.
Al sondear la naturaleza se plantean experiencias que se traducen en un
amasijo de cifras. Ante ello se abren dos interrogantes: ¿cómo interpretar las
series de números que presentan, a veces, un aspecto anárquico?; ¿es posible
universalizar los resultados obtenidos cuando se efectúa un número reducido de
experiencias? Los métodos estadísticos permiten responder a estas cuestiones
analizando los resultados y asegurando la validez de ciertas hipótesis, provocando
experiencias complementarias. Sin embargo, las conclusiones a las que se llegue,
¿serán ciertas? No, al admitirlas se corren ciertos riesgos, pero estos riesgos a su
vez podrán ser cuantificados.
Ahora bien, incluso aceptando el riesgo corrido, las conclusiones resultantes
deberán ser contrastadas, cuestionándose la veracidad de las hipótesis que per-
mitieron la elaboración de las teorías estadísticas y meditando las conclusiones
2. Estadística básica
Los conceptos estadísticos deben considerarse
como un medio de poner el sentido común
sobre bases cuantitativas pero nunca
como substitutivos del propio sentido común.
38
Carlos Mongay Fernández
con un claro sentido común y un pensamiento lúcido. Las teorías estadísticas no
pueden responder con exactitud a muchas cuestiones, pero permiten a menudo
clarificarlas. Además de aplicar criterios estadísticos, una respuesta constructiva
requiere tener una visión clara de la evolución del fenómeno estudiado.
Por ello la aplicación de la quimiometría será rigurosa en la medida en que
se ajusten los modelos matemáticos planteados y se cumplan las hipótesis de
partida. El uso indiscriminado de fórmulas matemáticas aisladas de su contexto
experimental sólo puede conducir a falsas interpretaciones.
2.2 El método estadístico
Se basa en la teoría del cálculo de probabilidades y muy especialmente
sobre la función de errores de Laplace-Gauss, representada por la conocida curva
de campana:
f x e
x
( ) = × →
− −( )1
2
2
2 2
σ π
µ
σ

Se expresa poor N ( , 2µ σ ) → f x e
x
( ) = × →
− −( )1
2
2
2 2
σ π
µ
σ

Se expresa poor N ( , 2µ σ )
que representa la distribución de errores en una población (frecuencia de las
desviaciones entre el valor verdadero μ y los distintos resultados obtenidos).
Como se muestra en la figura
2.1 la curva de distribución normal es
simétrica, con desviaciones positivas
y negativas, y con una frecuencia
que disminuye rápidamente al ale-
jarse del valor central. El máximo y
los puntos de inflexión de la curva
se pueden hallar anulando respec-
tivamente la primera y la segunda
derivadas, resultando los valores
x = μ y x = μ ± σ.
En forma diferencial la curva
muestra la fracción de observaciones
dN/N existentes entre x y x + dx:
dN
N
e dx
x
= × ×
− −( )1
2
2
2 2
σ π
µ
σ

Si se expresa como desviaciones a la media en una escala de desviaciones
estándar, esto es, mediante el cambio de variables z = (x - μ) /σ resulta la curva
normal tipificada, con una única variable z (puesto que dz = dx/σ):
dN
N
e dz= × × →−1
2π
12 z
2
Se expresa porr N (0, 1) →
dN
N
e dz= × × →−1
2π
12 z
2
Se expresa porr N (0, 1)
0 2 4 6 8
0
0,2
0,4
0,6
0,8
1
(2)
(1)
f(x)
µ − σ µ µ + σ
f(x)
µ − σ µ µ + σ
0,
34
13
0,
13
60
0,
02
14
µ − 3σ µ − 2σ µ + 2σ µ + 3σ
Fig. 2.1 Curva de distribución normal.
39
Estadística básica
Las leyes de la estadística sólo se aplican estrictamente a las poblaciones;
toda muestra deberá ser representativa de la población y, ante la inseguridad de
este aserto, las conclusiones se expresarán en términos de probabilidad. Además
el tratamiento estadístico sólo es válido bajo ciertas condiciones que se definen
considerando las nociones de población, muestra, independencia y distribución,
y que deben respetarse estrictamente durante la experimentación.
La población es un conjunto ilimitado de resultados de características
comunes. A veces se considera que una población puede ser finita (la población
formada por todos los análisis de agua realizados por un laboratorio en un mes
determinado); pero es preferible considerar este conjunto como una muestra del
«ilimitado» número de análisis que el laboratorio puede realizar.
En la práctica nos debemos contentar con una muestra de la población,
un pequeño número de resultados que, no obstante, debe ser representativo de
la población y por consiguiente extraídas de ella al azar. La condición para que
una muestra represente a la población es que todos los elementos de ésta deben
tener la misma probabilidad de formar parte de aquella. Precisamente la meta
del análisis químico es el conocimiento de la población a través del estudio de
la muestra.
La independencia estadística es primordial y exige que ningún resultado
se vea afectado por la determinación de los demás. El cálculo estadístico sólo
es aplicable si se respeta estrictamente la independencia. Así, no existe inde-
pendencia cuando el ojo del analista se fatiga en el transcurso de una serie de
medidas volumétricas o cuando el experimentador elige los resultados