Logo Studenta

preview-9788437086446_A42736877

¡Este material tiene más páginas!

Vista previa del material en texto

QUIMIOMETRÍA
Educació. Materials 82
UNIVERSITAT DE VALÈNCIA
2005
QUIMIOMETRÍA
Carlos Mongay Fernández
Colección: Educació. Materials
Director de la colección: Guillermo Quintás Alonso
Esta publicación no puede ser reproducida, ni total ni parcialmente, ni registrada en, o 
transmitida por, un sistema de recuperación de información, en ninguna forma ni por ningún 
medio, ya sea fotomecánico, foto químico, electrónico, por fotocopia o por cualquier otro, 
sin el per miso previo de la editorial.
© El autor, 2005
© De esta edición: Universitat de València, 2005
Producció editorial: Juli Capilla
Fotocomposición y maquetación: Celso Hernández de la Figuera
Cubierta: 
 Diseño: Pere Fuster (Borràs i Talens Assessors SL)
	 Tratamiento	gráfico:	Sonia	Navvab	Akbar
Corrección: Josep M. Martínez Polo
ISBN:	978-84-370-8644-6
7
Índice
Introducción ............................................................................................ 15
Capítulo 1. Principios de quimiometría ................................................. 19
1.1 La química analítica como ciencia metrológica ........................... 19
 1.1.1 Variables ............................................................................ 19
 1.1.2 Estadística básica .............................................................. 21
 1.1.3 Métodos univariantes y multivariantes ............................. 23
 1.1.4 Control de calidad ............................................................. 24
 1.1.5 Diseño de experiencias ..................................................... 25
1.2 Errores experimentales ................................................................. 26
1.3 Exactitud y precisión .................................................................... 27
1.4 Errores sistemáticos ...................................................................... 28
 1.4.1 Clasificación ...................................................................... 30
 1.4.2 El error sistemático en los métodos analíticos .................. 31
1.5 Errores aleatorios .......................................................................... 32
 1.5.1 Cifras significativas ........................................................... 32
 1.5.2 Cálculo de errores aleatorios ............................................. 34
Capítulo 2. Estadística básica .................................................................. 37
2.1 Ayudando a la experimentación ................................................... 37
2.2 El método estadístico ................................................................... 38
 2.2.1 Tendencia central .............................................................. 40
 2.2.2 Dispersión ......................................................................... 40
 2.2.3 Asimetría ........................................................................... 42
2.3 Distribución muestral de la media ................................................ 42
2.4 Integración de la curva de distribución normal ............................ 43
2.5 Límites de confianza ..................................................................... 44
8
2.6 Propagación del error en los cálculos ........................................... 45
 2.6.1 Errores sistemáticos .......................................................... 46
 2.6.2 Errores aleatorios .............................................................. 47
Capítulo 3. Tratamiento estadístico de grupos de pocos datos ............. 49
3.1 Una aproximación a la realidad .................................................... 49
3.2 Inferencia estadística. Pruebas de significación ........................... 50
3.3 Distribución t de Student .............................................................. 52
 3.3.1 Detección de errores sistemáticos ..................................... 53
 3.3.2 Test de error ...................................................................... 54
 3.3.3 Pruebas de una y de dos colas ........................................... 54
3.4 Comparación de dos varianzas ..................................................... 56
3.5 Comparación de dos medias ......................................................... 57
 3.5.1 Muestras independientes ................................................... 59
 3.5.2 Muestras relacionadas ....................................................... 61
3.6 Rechazo de observaciones ............................................................ 62
 3.6.1 Test de Student .................................................................. 63
 3.6.2 Criterio Q de Dixon .......................................................... 64
 3.6.3 Recomendaciones ............................................................. 65
Capítulo 4. La distribución chi-cuadrado (χ 2) ....................................... 67
4.1 Distribuciones de frecuencia ........................................................ 67
4.2 La función chi-cuadrado ............................................................... 68
4.3 Distribución chi-cuadrado para una muestra ................................ 69
4.4 Comparación de distribuciones: tablas de clasificación ............... 71
 4.4.1 Tablas de clasificación simple y tablas 2 × k ...................... 71
 4.4.2 Tablas de contingencia (n × k) ........................................... 74
4.5 Normalidad de una distribución ................................................... 76
Capítulo 5. Métodos no paramétricos ..................................................... 81
5.1 Se dispone de poca información ................................................... 81
 5.1.1 Tendencia central .............................................................. 82
 5.1.2 Dispersión ......................................................................... 83
5.2 La prueba de signos ...................................................................... 84
 5.2.1 Contraste de valores centrales ........................................... 84
5.2.1.1 Comparación de la mediana con un valor de prueba.- 
5.2.1.2 Comparación de dos muestras relacionadas.
 5.2.2 Otros contrastes de la prueba de signos ............................ 87
5.2.2.1 Prueba de rachas: aleatoriedad de una muestra.- 
5.2.2.2 Prueba de rachas de Wald-Wolfowitz: ajuste a 
modelos.
5.3 Prueba de rangos con signo de Wilcoxon ..................................... 90
 5.3.1 Comparación de la mediana con un valor de prueba ........ 91
 5.3.2 Comparación de dos muestras relacionadas ..................... 93
9
5.4 Suma de rangos: dos muestras independientes ............................ 94
 5.4.1 Prueba de suma de rangos de Wilcoxon-Mann-Whitney .. 95
 5.4.2 Simplificación U de Mann-Whitney ................................. 96
 5.4.3 Prueba rápida de Tukey ..................................................... 97
5.5 Comparación de dispersiones ....................................................... 98
 5.5.1 Contraste del recorrido para dos muestras ........................ 98
 5.5.2 Método de Siegel y Tukey ................................................ 98
5.6 Prueba de ajuste de Kolmogorov ................................................. 100
 5.6.1 Prueba de aleatoriedad ...................................................... 100
 5.6.2 Prueba de normalidad ....................................................... 101
5.7 Observaciones aberrantes ............................................................. 102
 5.7.1 Rechazo de valores ........................................................... 102
 5.7.2 Criterio del recorrido ......................................................... 103
Capítulo 6. Estadística avanzada ............................................................. 105
6.1 Análisis multivariante .................................................................. 105
6.2 Técnicas estadísticas ....................................................................108
 6.2.1 Métodos de dispersión ...................................................... 108
 6.2.2 Métodos de reconocimiento de pautas .............................. 109
 6.2.3 Modelización de series temporales ................................... 111
6.3 Generalidades sobre matrices ....................................................... 112
 6.3.1 Operaciones con matrices ................................................. 112
 6.3.2 Vectores ............................................................................. 113
 6.3.3 Estructura (valores propios) de una matriz cuadrada ........ 114
6.4 Medida de distancias .................................................................... 115
6.5 Matrices estadísticas básicas ........................................................ 119
 6.5.1 La matriz de datos ............................................................. 119
 6.5.2 La matriz de covarianzas .................................................. 124
 6.5.3 La matriz de correlaciones ................................................ 127
 6.5.4 Paquetes estadísticos ......................................................... 128
Capítulo 7. Análisis de la varianza .......................................................... 129
7.1 El método ANOVA ....................................................................... 129
7.2 Homocedasticidad de las variables .............................................. 130
 7.2.1 Test de Cochran ................................................................. 131
 7.2.2 Criterio de Bartlett ............................................................ 131
 7.2.3 Prueba de Levene .............................................................. 133
 7.2.4 Transformaciones de potencia .......................................... 133
7.3 ANOVA de un factor .................................................................... 134
 7.3.1 Muestras de igual tamaño ................................................. 134
 7.3.2 Muestras de distinto tamaño ............................................. 137
 7.3.3 Observaciones combinadas ............................................... 138
7.4 Factores de efectos fijo y aleatorio ............................................... 138
 7.4.1 Factor de efecto fijo .......................................................... 139
 7.4.2 Factor de efecto aleatorio .................................................. 141
10
7.5 Análisis factorial de la varianza ................................................... 143
 7.5.1 ANOVA de dos factores .................................................... 144
7.5.1.1 Planteamiento formal del cálculo.- 7.5.1.2 Hipótesis 
nulas y estadísticos de contraste.- 7.5.1.3 Aplicaciones.-
7.5.1.4 Algunas consideraciones sobre el modelo.
 7.5.2 ANOVA de tres factores .................................................... 154
Capítulo 8. Análisis multivariante de la varianza .................................. 159
8.1 MANOVA ..................................................................................... 159
8.2 Planteamiento geométrico del MANOVA .................................... 160
 8.2.1 Una variable dependiente (P =1) y un factor (Q =1) .......... 161
 8.2.2 Varias variables dependientes (P ≥ 2) y un factor (Q =1) .. 162
 8.2.3 Caso general: P-variables dependientes y Q-factores ....... 166
8.3 Estudio del modelo MANOVA ..................................................... 168
 8.3.1 Fuentes de variación ......................................................... 168
 8.3.2 Justificación geométrica de la interacción ........................ 169
 8.3.3 El coeficiente eta cuadrado ............................................... 172
Capítulo 9. Análisis de componentes principales ................................... 175
9.1 Modelo descriptivo ....................................................................... 175
 9.1.1 Geometría del análisis de componentes principales ......... 176
 9.1.2 Matriz de vectores propios ................................................ 180
9.2 Planteamiento analítico ................................................................ 181
 9.2.1 Matriz factorial o de componentes: saturaciones .............. 183
 9.2.2 Matriz de cargas: cargas factoriales .................................. 185
9.3 El ACP como reductor de dimensiones ........................................ 186
9.4 Problemas relacionados con el ACP ............................................. 189
 9.4.1 Efecto del tipo de datos ..................................................... 190
 9.4.2 Consideraciones sobre la matriz de covarianzas ............... 191
 9.4.3 Número de componentes principales que deben retenerse 191
 9.4.4 Interpretación de las componentes principales ................. 194
Capítulo 10. Análisis factorial .................................................................. 197
10.1 Las variables ocultas .................................................................... 197
 10.1.1 Relación entre el análisis factorial y el ACP ..................... 198
 10.1.2 Matriz factorial .................................................................. 199
 10.1.3 Factorización por componentes principales y por ejes
 principales .................................................................................... 201
 10.1.4 Conceptos básicos ............................................................. 202
10.2 Modelo de un único factor común ................................................ 204
10.3 Modelo de dos factores comunes ................................................. 206
 10.3.1 Significado de los factores comunes ................................. 208
 10.3.2 Indeterminación factorial .................................................. 209
10.4 Aplicación de un análisis factorial ............................................... 210
11
 10.4.1 Número de factores ........................................................... 211
 10.4.2 Factorización de la matriz de correlaciones ...................... 212
 10.4.3 Extracción de factores ....................................................... 214
 10.4.4 Rotación factorial .............................................................. 215
 10.4.5 La resolución de un análisis factorial ................................ 215
Capítulo 11. Análisis de conglomerados .................................................. 221
11.1 Modelo descriptivo ....................................................................... 221
11.2 Visión geométrica ......................................................................... 222
 11.2.1 Medidas de asociación ...................................................... 223
 11.2.2 Métodos de enlace ............................................................. 224
 11.2.3 Comparación entre los métodos de enlace ........................ 231
11.3 Clasificación de los métodos ........................................................ 233
 11.3.1 Métodos jerárquicos .......................................................... 234
 11.3.2 Agrupaciones no jerárquicas ............................................. 236
11.3.2.1 Método de las K-medias.
 11.3.3 Plan de trabajo ................................................................... 239
11.4 Conglomeración de variables ....................................................... 241
Capítulo 12. Análisis discriminante lineal .............................................. 245
12.1 Modelo explicativo ....................................................................... 245
 12.1.1 Análisis discriminante univariante y multivariante .......... 246
 12.1.2 Grupos de observaciones .................................................. 247
12.2 Análisis discriminante entre dos grupos (Q =1) ........................... 248
 12.2.1 Lambda de Wilks en el espacio unidimensional ............... 250
 12.2.2 Correlacióncanónica ........................................................ 251
 12.2.3 Función discriminante: normalización .............................. 253
12.3 Análisis discriminante entre dos grupos (Q ≥ 2) ........................... 254
 12.3.1 Identificación de la función discriminante ........................ 255
 12.3.2 Puntuaciones discriminantes: normalización de la función 257
 12.3.3 Valor de corte .................................................................... 259
 12.3.4 Coeficientes estandarizados: importancia relativa de las
 variables ....................................................................................... 260
12.4 Análisis discriminante multivariante multigrupo ......................... 261
 12.4.1 Funciones discriminantes .................................................. 261
 12.4.2 Alternativas para obtener las funciones discriminantes .... 264
 12.4.3 Eficacia de las sucesivas funciones discriminantes .......... 267
 12.4.4 Matriz de estructura y cargas ............................................ 269
12.5 Comparación del ADL con otras técnicas .................................... 271
12.6 Clasificación ................................................................................. 273
 12.6.1 Valor de corte .................................................................... 273
 12.6.2 Teoría estadística de la decisión ........................................ 274
 12.6.3 Funciones de clasificación ................................................ 277
 12.6.4 Distancias de Mahalanobis ............................................... 277
12
Capítulo 13. Regresión lineal simple ....................................................... 279
13.1 Relación entre las variables .......................................................... 279
 13.1.1 Análisis de regresión ......................................................... 280
 13.1.2 Distribución de los residuales ........................................... 282
13.2 Homocedasticidad: recta de mínimos cuadrados ......................... 283
 13.2.1 Análisis de la varianza ...................................................... 284
 13.2.2 Varianza de la regresión, de la pendiente y de la ordenada 285
 13.2.3 Comparación de la pendiente con un valor dado .............. 287
13.3 Heterocedasticidad: factores de ponderación ............................... 290
13.4 Evaluación conjunta de los parámetros de regresión ................... 292
13.5 Modelos polinomiales .................................................................. 295
Capítulo 14. Calibración .......................................................................... 299
14.1 La calibración en análisis instrumental ........................................ 299
14.2 Límite de detección ...................................................................... 300
 14.2.1 Falso positivo: estudio del blanco ..................................... 301
 14.2.2 Falso negativo: estudio de las muestras ............................ 302
14.3 Interpolación de datos .................................................................. 304
 14.3.1 Predicción de observaciones: residuales homocedásticos 306
14.3.1.1 Las dispersiones de muestras y patrones son 
iguales.- 14.3.1.2 La dispersión de muestras y patrones no 
es la misma.
 14.3.2 Predicción de observaciones: residuales heterocedásticos 310
14.4 Comprobación de un punto externo a la recta .............................. 310
 14.4.1 Comprobación de un punto aislado ................................... 311
 14.4.2 Comprobación de un punto promediado ........................... 312
14.5 Predicción en análisis químico. Interpolación inversa ................. 313
14.6 Métodos de calibración ................................................................ 315
 14.6.1 Método de dos patrones .................................................... 315
 14.6.2 Método de adición estándar .............................................. 316
 14.6.3 Método de ajustes múltiples .............................................. 316
Capítulo 15. Regresión lineal múltiple .................................................... 319
15.1 El modelo lineal ........................................................................... 319
 15.1.1 Modelos univariantes ........................................................ 320
 15.1.2 Modelos multivariantes ..................................................... 321
15.2 Regresión lineal múltiple ............................................................. 322
 15.2.1 Ajuste de las observaciones .............................................. 324
 15.2.2 Análisis de la varianza ...................................................... 325
 15.2.3 Coeficiente de correlación múltiple .................................. 326
15.3 Selección de las variables ............................................................. 328
 15.3.1 Estadísticos para los coeficientes ...................................... 328
 15.3.2 Coeficiente de determinación corregido ........................... 329
 15.3.3 Modelización por pasos .................................................... 330
13
15.4 Problemas en el ajuste del modelo ............................................... 333
 15.4.1 Análisis de los residuos ..................................................... 333
 15.4.2 Multicolinealidad .............................................................. 334
15.5 Predicción en regresión lineal múltiple ........................................ 337
15.6 Regresión lineal en absorciometría .............................................. 339
 15.6.1 Regresión lineal simple y regresión lineal múltiple .......... 339
 15.6.2 Regresión en componentes principales ............................. 344
Capítulo 16. Análisis de series de tiempo ................................................ 347
16.1 Procesos estocásticos y series de tiempo ...................................... 347
 16.1.1 Tipos de series de tiempo .................................................. 348
 16.1.2 Suavizado de series de tiempo .......................................... 349
 16.1.3 Movimientos de las series de tiempo ................................ 350
 16.1.4 Análisis de series de tiempo .............................................. 352
16.2 Modelos ARIMA .......................................................................... 353
16.3 Componentes determinísticos ...................................................... 354
 16.3.1 Etapa de integración: proceso estacionario ....................... 354
16.4 Componentes estocásticos ............................................................ 357
 16.4.1 Autocorrelación ................................................................. 357
 16.4.2 Proceso Auto-regresivo AR(p) .......................................... 360
 16.4.3 Proceso de Media Móvil MA(q) ....................................... 363
 16.4.4 Proceso auto-regresivo integrado de media móvil ARIMA
 (p,d,q) ........................................................................................... 365
16.5 Procesos estacionales ................................................................... 366
16.6 Identificación del modelo ARIMA ............................................... 367
 16.6.1 Modelización del componente determinístico .................. 367
 16.6.2 Modelización de los componentes estocásticos ................ 369
16.7 Construcción del ARIMA ............................................................. 374
 16.7.1 Estimación de los parámetros ........................................... 374
 16.7.2 Conformidad de los parámetros y comparación de modelos 375
 16.7.3 Diagnóstico del modelo .................................................... 376
 16.7.4 Raíz unidad ....................................................................... 377
16.8 Resolución de un problema.......................................................... 379
Capítulo 17. El control en un laboratorio analítico ............................... 385
17.1 Diagramas de control ................................................................... 385
 17.1.1 Diagrama de control de Shewhart ..................................... 386
 17.1.2 Diagrama de sumas acumuladas ....................................... 387
 17.1.3 Consideraciones analíticas ................................................ 389
17.2 Ejercicios interlaboratorios .......................................................... 389
 17.2.1 Ensayos de suficiencia ...................................................... 390
 17.2.2 Detección de errores sistemáticos: diagramas de Youden 392
 17.2.3 Ensayos de colaboración ................................................... 394
 17.2.4 Estimación y separación de varianzas ............................... 397
14
Capítulo 18. Estadística del muestreo ..................................................... 399
18.1 El muestreo analítico .................................................................... 399
 18.1.1 Errores de muestreo .......................................................... 400
 18.1.2 Criterios estadísticos para la toma de muestra .................. 401
 18.1.3 Origen de la dispersión en el muestreo ............................. 402
18.2 Muestras reales ............................................................................. 405
 18.2.1 Materiales homogéneos y heterogéneos ........................... 407
 18.2.2 Unidades de muestreo ....................................................... 409
 18.2.3 Análisis en unidades de muestreo ..................................... 411
 18.2.4 Toma de muestra estratificada ........................................... 413
Bibliografía ................................................................................................ 415
Índice analítico .......................................................................................... 417
15
No deja de ser sorprendente que, siendo la química en general y la quí-
mica analítica en particular, una ciencia metrológica que se ocupa de todos los 
elementos que participan en el proceso global de la medida, se ignoren de forma 
sistemática los métodos estadísticos, sin considerar ni aplicar las oportunas 
correcciones a los errores residuales, con las cuales se podría conseguir una in-
formación más ambiciosa y adecuada. El objetivo de este manual es fundamentar 
los aspectos estadísticos de algunas herramientas empleadas en quimiometría, 
sin olvidar su parte de enfoque eminentemente práctico, y mostrar cómo estas 
herramientas se aplican en química analítica y en otras disciplinas experimentales 
relacionadas. Para ello se intenta presentar los conocimientos de forma sencilla 
pero con rigor, sin perder nunca de vista su aplicación inmediata, recurriendo a 
numerosos ejemplos que aclaren los distintos aspectos considerados.
Es importante recalcar el contexto en el que se hace uso de la quimiometría 
como disciplina que trata de la adquisición y aprovechamiento de la información 
en las aplicaciones analíticas. Todo proceso de obtención de información está 
constituido por tres etapas bien diferenciadas:
– obtención de los datos químico-analíticos;
– presentación condensada de la información;
– análisis estadístico de la información y conclusiones que de ella 
derivan.
La quimiometría está presente en cada etapa, aunque de forma un tanto 
diferente. Antes de iniciar la obtención de datos se plantea el problema a resolver 
(composición cualitativa y cuantitativa de la muestra como referentes clásicos, 
pero también estudio de parámetros y variables analíticas, agrupación de com-
Introducción
16
ponentes, reducción del número de variables, etc.). A continuación se inicia el 
muestreo, siendo ésta una parte del análisis químico cuyo tratamiento estadístico 
es de vital importancia, recurriendo en su origen a la distribución binomial (frente 
a la distribución normal a la que se recurre en el tratamiento de errores), y que 
sin embargo es de tal complejidad que su aplicación sigue siendo empírica en 
gran medida. Para comprenderlo basta considerar que si se tratase de una mues-
tra formada por dos clases de partículas, ambas homogéneas y de igual tamaño, 
y tales que unas estén formadas por el componente analítico de interés y otras 
no, el número total de partículas de la muestra analítica controlaría el error de 
muestreo. Sin embargo las muestras reales distan de tener una composición tan 
simple; normalmente son mezclas complejas de diversos componentes, consti-
tuidas por partículas de distintos tamaños y donde la concentración del consti-
tuyente buscado varía dentro de un abanico considerable de posibilidades. En 
estas condiciones la evaluación estadística rigurosa del error no es viable, aunque 
algunas simplificaciones permiten extraer ciertas conclusiones orientadoras sobre 
el problema del muestreo.
Un aspecto fundamental de esta etapa de obtención de datos químico-analí-
ticos, y que condicionará la validez de las conclusiones que puedan extraerse de 
ellos, es que la información que contengan los datos sea relevante en el contexto 
analítico planteado, pues en caso contrario pueden derivarse conclusiones absur-
das. Así, seguramente se encontrará un alto coeficiente de correlación (o incluso 
un muy elevado coeficiente de correlación) entre el número de trabajos publicados 
en cualquier Departamento de Química Analítica y el número de nacimientos en 
China y, sin embargo, no existirá ninguna relación entre ellos.
La segunda etapa del proceso implica la presentación condensada de la 
información para plasmar los datos en forma de tablas, gráficos o resúmenes 
numéricos que permita comunicar la información obtenida de manera breve y 
concisa, pero a su vez de forma clara e inteligible. Este aspecto incide de lleno 
en el contexto de la estadística descriptiva que muestra estadísticos de resumen 
univariantes.
Por último, el análisis de los datos analíticos tiene como meta extraer de 
ellos la mayor cantidad posible de información y con el rigor exigible a todo 
planteamiento científico. Esta etapa es el objeto principal de la quimiometría 
que se trata en el presente manual y, en contraposición con las etapas anteriores, 
especialmente con la segunda, requiere del auxilio de modelos estadísticos más 
sofisticados que exigen a menudo usar potentes mecanismos de cálculo. Éste 
es el motivo por el cual se recuerdan de forma sucinta, antes de entrar en esta 
parte de la materia, algunos conceptos y operaciones con matrices, necesarios 
para el desarrollo de algunos temas posteriores. A este respecto cabe considerar 
que, aunque la aritmética involucrada en el cálculo de matrices es sencilla y 
resoluble con herramientas tan extendidas como la hoja de cálculo Excel, lo que 
se pretende es tener el concepto claro de qué es lo que implica cada operación 
entre matrices; así, por ejemplo, no gozan de la propiedad conmutativa, y no es 
lo mismo multiplicar Α × Β que Β × Α (a veces, atendiendo a sus dimensiones, 
incluso un producto es posible y el otro resulta imposible).
17
Por otra parte, la proliferación de ordenadores personales y la facilidad de 
acceder a diversos paquetes estadísticos equipados con sofisticados métodos 
de cálculo, faculta a realizar análisis con nombres grandilocuentes, y es preciso 
conocer realmente lo que se está haciendo. Si la ignorancia del proceso que 
subyace en cada caso es de por sí bastante deplorable, peor es enfrentarse a la 
posibilidad de extraer conclusiones erróneas o extender los resultados más allá 
de lo estadísticamente permitido. He oído explicar cómo sobre las funciones 
discriminantes de un análisis discriminante lineal con el que se han separado 
conjuntos de muestras químicas definidas, se interpolan mezclas como si de una 
regresión se tratase. O cómo para separar el ruidode fondo de una señal analítica 
se definen las componentes principales y se seleccionan las primeras de ellas, 
argumentando que sobre ellas es donde se distribuye la información significativa, 
mientras que el ruido se acumula entre las últimas componentes. ¡Y es que resulta 
tan sencillo pulsar la tecla Enter!
El manual se ha escrito de forma que sea didácticamente sencillo, ayudado 
en lo posible por una visión geométrica que visualice el modelo que subyace en 
cada herramienta estadística considerada. Se recurre a numerosos ejemplos 
sencillos desarrollados con un número reducido de datos, que no tienen ninguna 
validez estadística porque no se pueden extraer conclusiones válidas con pocos 
datos. Si se hace así es porque lo que se busca es entender el mecanismo de 
trabajo y aclarar los cálculos, que de esta forma se pueden realizar a mano con 
ayuda de una simple calculadora, y esto se visualiza igual con 3 puntos que 
con 300 (aunque resolver a mano este último caso puede resultar un poco tedioso). 
Lo que realmente se pretende es enfatizar la forma de alcanzar las conclusiones 
y no las conclusiones mismas.
19
Existen mentiras,
existen colosales mentiras
y existen estadísticas.
1. Principios de quimiometría
1.1 La química analítica como ciencia metrológica 
La quimiometría, a caballo entre la química y las matemáticas, es una 
disciplina metrológica que aplica conocimientos matemáticos, especialmente 
estadísticos, a procesos químicos, para extraer de los datos experimentales la 
mayor cantidad posible de información y extender el conocimiento del sistema 
químico. Además, para que este conocimiento sea óptimo se deberá discriminar 
entre la información relevante y aquella otra de menos interés, siendo ésta otra 
faceta de la quimiometría.
En el campo de la química analítica su objeto es optimizar cada fase del 
análisis para potenciar e incrementar el conocimiento de todo el proceso analítico 
en su conjunto. En este campo la quimiometría nace como disciplina científica en 
la década de los años 70 del siglo pasado, con el desarrollo de la instrumentación 
y el gran auge de la microinformática que permite almacenar y tratar a altas 
velocidades un elevado número de datos analíticos.
La base conceptual de la quimiometría no es complicada y se sustenta en 
modelos matemáticos sencillos (quizás algo más complejos para los sistemas 
multivariantes que hacen un mayor uso del álgebra matricial), pero no conviene 
verla como una «caja negra» de la que sólo se conoce el requisito de entrada de 
los datos y los valores de salida, siendo preciso conocer –ni que sea someramen-
te– lo que ocurre en su interior para sacar el máximo provecho de la información 
aportada en la experimentación. 
1.1.1 Variables 
Existen dos tipos de variables: las discretas que sólo pueden adquirir un 
número finito de valores, como sería la variable sexo en Química Clínica o el 
20
Carlos Mongay Fernández
conteo de fotones en fluorescencia de rayos X (sólo puede tomar valores ente-
ros), y las continuas que pueden adquirir cualquier valor cuando menos dentro 
de un intervalo, como el olor con todos sus aromas, el color, con todas sus 
tonalidades y matices, o la medida de una masa. Sin embargo, en la práctica 
estas variables continuas deberán experimentar un redondeo o truncamiento 
para poder definirlas.
La característica fundamental de toda variable es suministrar un cierto 
nivel de información, que puede expresarse o no en términos numéricos. En este 
sentido cabe distinguir entre:
a) variables cuantitativas o numéricas, que se mueven dentro de una es-
cala numérica de valores, siendo posible verificar cálculos y establecer 
relaciones entre ellas. Las variables numéricas se subdividen en:
 variables numéricas de razón, cuando parten de un origen abso-
luto, el cero, que tiene un significado de «carencia de» como es 
el caso de la edad, de la masa o del volumen; por ello la relación 
entre las variables tiene un sentido exacto (10 ml es cinco veces 
más que 2 ml). Estas variables son las que aportan un mayor 
nivel de información.
 variables numéricas de intervalo, cuando su origen sólo es 
relativo, por lo que el cero no indica «carencia de»; es el caso 
de la temperatura centígrada, donde 0º C no indica ausencia de 
temperatura y por lo tanto 20º C no es «un nivel térmico doble» 
que 10º C. Sin embargo la distancia entre los valores tiene sentido 
(el intervalo 3-5 es igual al 10-12). El nivel de información de 
estas variables es algo menor, por lo que se intenta transformarlas 
en variables numéricas de razón (en el caso de la temperatura, 
pasando los grados centígrados a kelvin).
b) variables cualitativas o categóricas, cuando su información no se mueve 
en un dominio de valores numéricos, y por lo tanto no se pueden estable-
cer relaciones entre ellas. Para manejar más fácilmente estas variables, 
usualmente se les asigna un código de clasificación. Las variables cate-
góricas se subdividen en:
 variables categóricas nominales, cuando su información no es 
cuantificable, siendo imposible establecer un orden de prioridad 
o categoría entre las variables. Sería el caso ya mencionado del 
sexo en química clínica, el de los posibles detectores utilizados 
en cromatografía de gases (ionización de llama, conductividad, 
termoiónico, de captura electrónica, etc) o el de los colores en 
análisis cualitativo (azul, rojo, verde, pardo). En este caso el 
código asignado a las variables (a menudo de tipo numérico) no 
representa ningún orden de prioridad; sólo tiene un sentido de 
agrupación, pero no de ordenación.
21
Principios de quimiometría
 variables categóricas ordinales, cuando se puede establecer un 
orden natural jerárquico de las variables. Sería el caso del impacto 
ambiental de una serie de productos químicos (no contaminante, 
inapreciable, bajo, medio, alto, peligroso), de la calidad de un 
agua (no potable, aceptable, buena, excelente) o de la aceptación 
de un producto por su olor (muy desagradable, desagradable, 
inodoro, agradable, muy agradable). En este caso tiene sentido 
el ordenamiento por códigos en función del nivel categórico de 
la variable; sin embargo ello no implica que la variable se trans-
forme en numérica, pues los valores relativos entre ellas carecen 
de significado, tal como se observa en la tabla:
Código Impacto ambiental Nivel de impacto Código relativo
1 no contaminante nulo 0
2 inapreciable muy débil 5
3 bajo notorio, aunque no preocupante 15
4 medio preocupante, debiendo controlarse 25
5 alto tomar medidas oportunas de riesgo 50
6 peligroso desalojo de la población 100
Es importante destacar que aunque no se puede sacar de un dato más infor-
mación de la que realmente posee, al asignar un orden de clasificación se puede 
intentar una aproximación a la realidad matizando objetivamente la codificación, 
tal como se muestra en la misma tabla en la columna de código relativo.
1.1.2 Estadística básica 
La primera fase de cualquier análisis estadístico para resumir la información 
contenida en la muestra será su descripción. La Estadística descriptiva sintetiza 
la información aportada por los datos, sin plantear objetivo alguno de naturaleza 
inductiva. Para ello estudia determinados caracteres o aspectos (variables) de 
una entidad concreta, resumiendo la información en forma de tablas, gráficos o 
valores según la naturaleza de las variables:
22
Carlos Mongay Fernández
Variable Escala Descripción Estadísticos y gráficos
Cualitativa
(discreta 
o continua)
nominal Valores no numéricos, sin 
orden entre ellos
– Distribución de frecuencias
– Moda
– Diagrama de barras
ordinal Valores no numéricos pero 
ordenados
– Máximo y mínimo
– Mediana
– Cuartiles y percentiles
– Intervalo intercuartílico
Cuantitativa
(discreta 
o continua)
de intervalo Sólo tienen sentido las 
diferencias entre los valores 
de las variables
– Media e intervalo
– Varianza, desviación 
estándar y coeficiente de 
variación
– Coeficiente de asimetría– Coeficiente de curtosis
de razón Si, además de las diferencias, 
también tiene sentido la razón 
entre sus valores
Inferir conclusiones posteriores sobre la población a partir de la muestra 
y proporcionar medidas que cuantifiquen el grado de confianza puesto en tales 
conclusiones es misión de la Inferencia estadística; por Estadística básica se 
entienden estos dos grandes apartados: la Estadística descriptiva y la Inferencia 
estadística. Así para determinar la riqueza en hierro de un yacimiento se debería 
analizar todo el yacimiento. Ante tal imposibilidad se analizan n muestras con 
nʼ replicados (estadística descriptiva), de manera que con la información obte-
nida se pueda estimar el contenido en Fe del yacimiento y su margen de error 
(inferencia estadística).
Dentro de la inferencia estadística se distinguen dos vertientes: la paramétri-
ca y la no paramétrica. La primera presupone un modelo matemático que descansa 
sobre hipótesis específicas relativas al tipo de distribución de la población, siendo 
su objetivo determinar los parámetros del modelo a partir de los datos muestrales. 
Pero, a menudo, comprobar las hipótesis planteadas choca con ciertos aspectos 
prácticos como que la información relevante de que se dispone es insuficiente, 
que el tamaño muestral es demasiado pequeño o que la experiencia con datos 
similares es muy limitada. En tales situaciones se prefiere inferir conclusiones 
recurriendo a métodos no paramétricos.
La inferencia paramétrica permite extrapolar los resultados muestrales a la 
población y determinar el valor de los parámetros; se puede actuar por estima-
ción o por contraste de hipótesis. En la estimación por intervalos de confianza 
se calcula el valor del parámetro a partir de los datos muestrales y se determina 
un intervalo de longitud mínima que contenga el verdadero valor del parámetro 
buscado, con una probabilidad o nivel de confianza fijado a priori.
En contraste de hipótesis se decide si el valor de un parámetro atribuido a 
la población se confirma por la observación de la muestra; para ello se establece 
23
Principios de quimiometría
una conjetura sobre el valor del parámetro (la hipótesis nula, H0) y se decide su 
validez de acuerdo con alguna regla de decisión. Cabe señalar que, en función 
de los datos obtenidos, se puede rechazar la hipótesis nula, pero nunca se puede 
considerar firmemente probada mas que estudiando y verificando todos los ele-
mentos de la población.
1.1.3 Métodos univariantes y multivariantes 
En los métodos univariantes se define una única variable experimental a 
partir de una serie de características relativas a una única muestra. Antes del 
desarrollo de la quimiometría, a lo máximo que se solía recurrir era a aplicar 
pruebas univariantes para extraer información de los datos mediante aplicaciones 
muy elementales, aunque la incidencia quimiométrica actual ha permitido nuevos 
enfoques en la extracción de información. Actualmente los sistemas univariantes 
siguen siendo fundamentales en muchas actuaciones. De este modo la calidad 
del agua (variable dependiente) en una instalación de agua desionizada se regula 
a través de la conductividad (variable independiente), que es la que controla la 
concentración salina máxima permitida antes de cortar la acción de las resinas de 
intercambio. En este caso el problema se describe por una información univariante 
simple (de una sola variable independiente).
El siguiente paso en la estructura de los datos implica considerar dos va-
riables (sistema bivariante). Aquí las variables pueden determinarse sobre una 
misma muestra o sobre muestras distintas y, aunque desde el punto de vista qui-
miométrico la aplicación sigue siendo muy simple, se pueden abordar situaciones 
de enorme trascendencia para los métodos analíticos. Baste pensar en detectar 
diferencias entre los valores medios de una variable cuantitativa en función de 
los distintos niveles establecidos por una variable cualitativa (métodos ANOVA), 
o en la definición de las rectas de calibrado en los procedimientos analíticos 
(regresión lineal simple).
En otros casos se requiere el conocimiento de varias variables para definir 
el problema y tornarlo apto para una determinada aplicación. En general para 
visualizar el problema, los datos se ordenan en una tabla o matriz de datos, donde 
cada columna corresponde a una variable y cada fila a una muestra, un caso o un 
objeto. En los métodos de regresión, donde se distinguen las variables en depen-
dientes e independientes, los métodos se consideran univariantes si únicamente 
existe una variable dependiente, mientras que serán multivariantes cuando existe 
más de una variable dependiente.
En la fabricación de un cierto producto se evalúa su impacto comercial 
(variable dependiente) controlando una serie de parámetros analíticos como el 
rendimiento del proceso, la naturaleza y la concentración de las distintas especies 
presentes; pero a ellas deben añadirse otras variables que pueden repercutir en la 
viabilidad económica como los costes de fabricación o el tiempo invertido, y aún 
cabe añadir aquellas otras variables comerciales como son el grado de aceptación 
del producto en el mercado, los canales de distribución, etc. En este caso se trataría 
de una regresión univariante con múltiples variables independientes.
24
Carlos Mongay Fernández
Por su parte, la tabla muestra algunos parámetros de un suelo agrícola, 
antes de la siembra. Se pretende dilucidar si a través del contenido analítico de 
los cuatro componentes estudiados (variables independientes) se puede estimar 
la producción y su coste (variables dependientes). En este caso se tratará de una 
regresión lineal multivariante donde se presentan cuatro casos en un espacio de 
seis dimensiones (2 variables dependientes y 4 independientes) puesto que cada 
variable define una dimensión.
Tratamiento de un campo con distintos fertilizantes
Parámetros analíticos Parámetros de Producción
Fertilizante Cl– P2O5 K2O N2 kg / Ha Coste / Ha
estiércol 68 110 62 116 450 32,50
guano 63 135 70 139 300 50,00
turba 48 50 48 68 265 78,70
químico 36 127 32 80 490 96,40
1.1.4 Control de calidad 
La calidad es «aptitud para el uso», de forma que el consumidor se sienta 
satisfecho con el producto adquirido, lo que se conseguirá siempre y cuando sa-
tisfaga sus expectativas. Sería el caso del comprador de una resina (consumidor) 
destinada a la fabricación de barnices que espera que el procesamiento de esa 
resina se produzca a bajo coste, con un trabajo mínimo y a su vez que el barniz 
final tenga una aceptación máxima por parte de otros consumidores.
Existen dos aspectos generales de la calidad: calidad de diseño y calidad 
de conformidad. La calidad de diseño implica plantear procesos que permitan 
alcanzar varios grados o niveles de calidad, introduciendo variantes intencio-
nales para conseguirlo, y con la finalidad de satisfacer a un amplio abanico de 
consumidores. Estas diferencias incluyen los métodos empleados, las tolerancias 
establecidas, los medios de trabajo, la confiabilidad esperada y otras variables. 
La calidad de conformidad indica el nivel de ajuste entre el resultado obtenido 
y las especificaciones y tolerancias definidas en el diseño; aquí influyen muchos 
factores, no sólo de métodos, ensayos y pruebas, sino también la calibración de la 
instrumentación, destreza de los analistas e incluso su motivación personal para 
lograr el nivel óptimo de calidad dentro del diseño establecido.
Este doble aspecto lleva sin embargo asociada una gran dosis de ambigüedad 
al no aclarar muchas veces si se trata de calidad de diseño o de conformidad, y 
métodos bien diseñados (aunque con bajas prestaciones) se consideran métodos 
no demasiado eficientes. Esta dualidad es muy frecuente en química analítica: 
al plantear la determinación de hierro en agua de mar con una exactitud del 3%, 
se puede precipitar el Fe(OH)3 con amoniaco y determinarlo por gravimetría. 
Claro que la presencia de Alconduce a un error por exceso, pero al diseñar el 
25
Principios de quimiometría
procedimiento ya se ha tenido en cuenta este hecho, considerando que el error 
aceptado permite ignorar su presencia, por lo que la determinación está perfec-
tamente diseñada y la omisión del Al en absoluto representa una forma errónea 
de trabajo. Si, por el contrario, se exigiese un error inferior al 0,5% lógicamente 
se debería rediseñar la determinación, considerando la presencia del Al para 
corregir su efecto. 
1.1.5 Diseño de experiencias 
Antes de establecer y aplicar un método analítico de forma continua y ruti-
naria se requerirá un planteamiento integral del problema, destacando de forma 
relevante la optimización de las variables que puedan afectar a los parámetros ana-
líticos (sensibilidad, selectividad, concentración de reactivos, coste, tiempo, etc.) 
para aumentar el rendimiento y la eficacia de las determinaciones.
Supongamos una nueva determinación espectrofotométrica con un reacti-
vo orgánico. Sobre la determinación influirán factores como el pH, disolvente, 
concentración de reactivos, orden de adición, temperatura, tiempo de espera 
antes de la lectura, etc. Si cada variable actuase de forma independiente frente 
a las demás el problema sería fácil de abordar y de resolver: manteniendo todas 
las variables fijas menos una (por ejemplo el pH) se varía éste hasta obtener el 
valor para el cual la respuesta analítica es máxima. Fijando el pH a ese valor y 
manteniendo las restantes variables, se modifica otra (por ejemplo la temperatura) 
hasta maximizar su respuesta. Se sigue así secuencial y sucesivamente con todas 
y cada una de las variables, teniéndose al final el mejor valor para cada variable 
de forma que el proceso sea óptimo.
Pero lo usual es que las variables no actúen independientes unas de otras 
sino que lo hagan de forma interactiva, de manera que cuando pretendamos 
maximizar la respuesta de la temperatura, el valor obtenido sólo responda de 
forma óptima para el valor predeterminado del pH, pero nadie asegura que para 
otro valor de la acidez la temperatura óptima sea distinta y mejore la respuesta 
analítica en su conjunto. Ello sugiere que el estudio deberá planificarse de forma 
que las variables se modifiquen todas simultáneamente para optimizar las con-
diciones del método de trabajo.
La planificación y el diseño de experiencias antes de iniciar el trabajo 
experimental es un proceso de optimización, y el estudio del modelo matemático 
que debe seguirse para lograrlo es un problema que entra de lleno en el campo 
de la Quimiometría. El diseño quimiométrico permite obtener una estimación 
del error que sirva de pauta para interpretar la medida posterior de los resultados 
obtenidos. Toda experiencia correctamente diseñada y planificada debe responder 
a una serie de cuestiones elementales de carácter general:
1. Finalidad de la experiencia y factores básicos que deben considerarse.
2. Tiempo previsto, disponibilidad del equipo y métodos necesarios.
3. Información bibliográfica previa sobre experiencias similares.
26
Carlos Mongay Fernández
Y otras condiciones que deben definirse a priori para permitir su diseño quimio-
métrico son:
4. Cuál puede ser la variabilidad permitida de los factores básicos y cómo 
puede afectar ésta sobre la determinación final.
5. Si existe interacción entre los factores básicos, qué importancia puede 
tener y cuál podría ser su magnitud.
6. A qué nivel se pueden considerar significativas las diferentes interac-
ciones.
Quizás la última cuestión sea la característica más distintiva entre el diseño 
quimiométrico de una experiencia y su diseño clásico: el diseño quimiométrico 
proporciona una prueba estadística o test de significación para dilucidar si existe 
o no diferencia significativa entre los factores medidos o entre sus interaccio-
nes. De esta forma, y a la vista de los resultados, podrán emitirse hipótesis y 
confrontar su adecuación a los datos experimentales. Esta confrontación para 
aceptar o rechazar la hipótesis siempre será un juicio crítico que deberá abordarse 
objetivamente y para ello será básico el conocimiento del error y las pautas de 
significación.
Actualmente resulta indispensable que cualquier método analítico sea va-
lidado, esto es, se compruebe que dicho procedimiento cumple con los criterios 
de calidad recomendados por distintos organismos internacionales:
IUPAC: International Union of Pure and Applied Chemistry
ASTM: American Society for Testing Materials
AOAC: Association of Official Agricultural Chemists
ISO: International Organization for Standardization
Entre estos criterios están la exactitud y precisión de las medidas analíticas, 
el límite de detección y determinación así como la repetibilidad y reproducibi-
lidad del procedimiento analítico, la robustez (insensibilidad frente a pequeñas 
variaciones de las condiciones experimentales de trabajo), etc.
1.2 Errores experimentales 
Toda medida experimental lleva asociada un error, no existiendo forma de 
conocer el verdadero valor μ de la magnitud medida; como toda determinación 
analítica parte de unos valores experimentales y del error que les afecta, el ver-
dadero problema de interpretación es un problema de cálculo de errores. Existen 
dos clases de errores: los debidos únicamente al azar (errores aleatorios), y los 
que no dependen del azar (errores sistemáticos).
A ellos cabría añadir los errores evidentes, que son consecuencia de falta 
de cuidado, ineptitud, indolencia o mala suerte:
27
Principios de quimiometría
– utilización de una escala inadecuada del instrumento de medida
– introducción de contaminación en la muestra o en las disoluciones
– manipulación poco cuidadosa
Un error evidente dentro de un conjunto de medidas aparece como resultado 
aberrante (que es muy diferente del resto).
Si el valor real de una magnitud es μ y el resultado de una medida cual-
quiera es x, su error se define por e = x-μ (con este criterio, para que el error sea 
positivo si la medida es por exceso y negativo en caso contrario). Para interpretar 
adecuadamente el resultado analítico se precisa conocer por separado la parte 
debida al error experimental m (sistemático, de tipo no aleatorio) y la que depende 
realmente del fenómeno en estudio ε (accidental, de tipo aleatorio), de modo que 
el error se compone de dos sumandos: e = m+ε.
1.3 Exactitud y precisión 
La noción de errores sistemáticos y aleatorios permite definir sin ambigüe-
dad las dos cualidades esenciales de los resultados experimentales: la exactitud 
y la precisión. La exactitud depende de los errores sistemáticos que intervienen 
en la determinación, denotando la proximidad de una medida al verdadero valor 
y, en consecuencia, la validez de la medida. Como que la exactitud condiciona 
el tiempo y el esfuerzo dedicados a obtener la medida, se deberá llegar a una 
situación de compromiso.
Por su parte la precisión refleja la proximidad de diversas medidas entre sí, 
y es función exclusiva de los errores accidentales (en la figura 1.1 se observa que 
el método A es más exacto y menos preciso que el B). Esta dispersión de valores 
siempre es calculable y, en ausencia de mayor información, es el único indicio 
de un análisis bien hecho, aunque ello no siempre es garantía de la bondad de 
una determinación.
A este respecto cabe decir que la 
IUPAC establece la repetibilidad como 
la precisión de un método en función 
de análisis independientes realizados 
por un mismo analista, en el mismo 
laboratorio, con la misma técnica y 
el mismo instrumento en un intervalo 
corto de tiempo (precisión dentro de 
rachas), mientras que reproducibilidad 
se refiere a la precisión de un método 
con datos obtenidos a partir de deter-
minaciones independientes efectuadas 
en condiciones diferentes, en distintos 
laboratorios y con distintos equipos 
Fig. 1.1 Exactitud y precisión.
�
���
���
���
���
� � � � �
����������
�
�
28
Carlos Mongay Fernández
u operadores (precisiónfuera de rachas). La repetibilidad se acepta como una 
medida de varianza interna y representa la máxima precisión que puede lograrse 
en unas condiciones de trabajo determinadas. 
1.4 Errores sistemáticos 
Los errores sistemáticos, de 
tipo no aleatorio, se pueden estimar 
con patrones adecuados, pero no son 
directamente calculables, y deben 
eliminarse de la experimentación para 
que no superpongan su acción a la de 
los errores aleatorios. Se originan en 
cualquiera de los tres pilares implica-
dos en todo análisis (analista, método 
e instrumentación), bien sea por si 
mismos, por sus interacciones mutuas o 
por su interacción con el entorno, como 
se esquematiza en la figura 1.2. 
En muchos casos, por ejemplo en la puesta a punto de un método analíti-
co, el principal factor a estudiar es el error sistemático, con miras a eliminarlo 
o corregirlo.
Los errores sistemáticos pueden ser:
a) Personales: debido a los juicios que hace el experimentador. Aparecen en 
la mayoría de casos en que se presenta un error importante en métodos 
firmemente establecidos:
– Estimar la posición de una aguja sobre una escala (al interpolar 
la lectura de una bureta existe una tendencia innata a redondear 
preferentemente a 0 o a 5, dar prioridad a los valores pares sobre 
los impares, preferir los valores bajos a los altos).
– Definir el color en el punto final de una valoración (sin entrar en 
problemas de daltonismo).
– Error de paralaje al enrasar las disoluciones en el material volu-
métrico (buretas, aforados, etc.).
– Prejuicios (tendencia subjetiva a escoger los valores más favo-
rables).
 Estos errores se minimizan trabajando con cuidado y autodisciplina. Los 
robots y los sistemas automatizados de recogida de datos minimizan o 
excluyen estos errores. 
b) Del método: son muy serios y afectan a todas las determinaciones. Se 
deben básicamente al comportamiento químico y/o físico no ideal de los 
reactivos y de las reacciones:
Fig. 1.2 Pilares implicados en el análisis.
29
Principios de quimiometría
– Solubilidad finita de toda sustancia (un exceso de lavado tiende 
a disolver parcialmente un precipitado).
– Contaminaciones por coprecipitación (un mal lavado puede 
mantener contaminado el precipitado).
– Reacción lenta (determinar el índice de I2 en las grasas requiere 
dejar reposar de ½ a 1 hora).
– Volatilidad de los reactivos (iodimetrías).
– Mala elección del indicador (valorar HAcO con NaOH frente al 
rojo de metilo) o por viraje lento del mismo (valorar Zn2+ con 
Fe(CN)64- en presencia de difenilamina).
 Muchos errores del método se deben a las interferencias químicas, y su 
eliminación exige un conocimiento profundo de la muestra y del com-
portamiento físico-químico del analito.
c) Instrumentales: debidos a la discrepancia entre el valor nominal y el real. 
Se corrigen procediendo periódicamente al contraste y aforo del material 
(calibración de los instrumentos):
– Contenido y vertido del material volumétrico (especialmente 
cuando ha estado sometido a variaciones térmicas: calentar ma-
traces aforados o guardarlos en la nevera)
– Deriva de las señales en la instrumentación (desajuste del cero 
por calentamiento, aparición de radiación parásita, etc.)
– Reactivos conteniendo impurezas
– Efecto de memoria por la retención accidental de restos de muestra 
en el instrumento (dificultad de eliminar vestigios de compuestos 
poco volátiles en espectrometría de masas, elución muy lenta de 
componentes en cromatografía de gases, etc.).
En general los errores sistemáticos son los más importantes en magnitud 
dentro del análisis, y aun así difíciles de revelar. La mejor forma de detectarlos 
y corregirlos es validando el método, siendo tres las formas más usuales de 
hacerlo:
– determinando la misma muestra por algún método de referencia
– recurriendo a dos o más métodos analíticos independientes de garantía 
probada
– procediendo al análisis en laboratorios colaboradores, técnicamente 
competentes y de reconocida solvencia para ese tipo de muestras.
Según la fase en que se produzcan pueden afectar a un solo resultado o a 
toda una serie. Así, un error en la pesada de la muestra conduce a un resultado 
erróneo sólo para esa muestra, pero cometido al preparar una disolución valorada 
falsea todos los análisis en que se la emplee. 
30
Carlos Mongay Fernández
Los errores sistemáticos, no aleatorios, tienen siempre lugar en el mismo 
sentido y pueden minimizarse e incluso anularse empleando factores de corrección, 
modificando el método o realizando ensayos en blanco que permitan corregir los 
resultados obtenidos. A veces puede no ser tan intuitivo que el error sistemático 
afecte siempre en el mismo sentido: una bureta ordinaria puede conducir unas 
veces a medidas por defecto y otras por exceso. Pesando la cantidad vertida de 
agua se puede estimar el error, que podrá aparecer indistintamente como positivo 
o negativo a lo largo de la caña de la bureta, pero para un vertido determinado 
siempre tendrá el mismo signo (partiendo del enrase en cero, siempre que se 
viertan 12,0 ml el error sistemático tendrá una tendencia que puede ser de signo 
distinto a la que tenga cuando se viertan 12,5 ml).
1.4.1 Clasificación 
Los errores sistemáticos se clasifican en aditivos o constantes, cuando 
tienen el mismo valor absoluto independientemente de la cantidad de muestra 
que se determine, y proporcionales cuando su magnitud depende de la cantidad 
de sustancia.
Constantes
– Un pH-metro que por estar calibrado con un tampón mal preparado mide 
siempre 0,1 unidad de pH por defecto.
– El Al2O3 precipitado a partir de diversas cantidades de una sal de Al3+ 
con un mismo volumen de NH3 que al estar guardado en una botella de 
vidrio común se encuentra impurificado por SiO2.
– Consumo adicional de valorante en el error de indicador, independiente 
de cual sea el volumen de equivalencia.
Sería la precipitación de di-
versas cantidades de un patrón 
de Al3+ empleando siempre 25 ml 
de NH3 impurificado con un 0,02% de 
SiO2, valor que se sumará al peso de 
Al2O3 dando un error absoluto cons-
tante. La disminución del error relativo 
permite descubrir la presencia de un 
error aditivo.
Para minimizar los errores constantes se emplea una muestra tan grande 
como sea posible, compatible con el método a utilizar.
Proporcionales
– En gravimetría, una desviación negativa que aumenta con el volumen de 
líquido de lavado y disminuye al aumentar el tamaño de muestra, puede 
indicar pérdidas por solubilidad.
Real Hallado Absoluto Relativo
0,100 0,105 0,005 5,0%
0,200 0,205 0,005 2,5%
0,300 0,305 0,005 1,7%
0,400 0,405 0,005 1,2%
31
Principios de quimiometría
– Asimismo en gravimetría, desviaciones positivas ligadas al tamaño de 
muestra puede indicar la retención de algún componente por parte del 
precipitado.
Tal es el caso de un precipitado higroscópico que se mantiene en una 
atmósfera algo húmeda antes de la pesada. La cantidad retenida de humedad 
(supongamos un 1% de su peso) será 
proporcional a la cantidad de pre-
cipitado. En este caso como que el 
error relativo permanece constante, 
es difícil descubrir su presencia; si no 
se tiene en cuenta la higroscopicidad 
del precipitado el error puede pasar 
desapercibido.
1.4.2 El error sistemático en los métodos analíticos 
El error sistemático sólo se puede evaluar si se dispone del valor verda-
dero, esto es, si se tienen patrones de referencia que cubran todo el campo de 
aplicación del método analítico, para poder determinarlo en cualquier punto 
del intervalo en el que se aplique el método. Bajo este aspecto los métodos 
analíticos implican:
a) En los métodos absolutos, 
que no emplean patrones 
por no requerir comparación 
alguna, no podrán detectarse 
los errores sistemáticos (sólo 
pueden ponerse de manifiesto 
con el empleo de patrones). 
Es el caso de la gravimetría 
o de la cromatografía de ga-
ses empleando el método de 
normalización interna como 
se muestra en la figura 1.3 
(el error pasaría desaperci-bido si algún componente 
quedase retenido dentro de la 
columna).
b) Para los métodos relativos se compara directamente la muestra con pa-
trones muy semejantes en cuanto a composición y características físicas. 
En principio la exactitud del resultado dependerá de la exactitud de los 
patrones.
En la mayoría de métodos relativos se presentan errores sistemáti-
cos adicionales, debidos en particular a las diferencias de efecto matriz 
Real Hallado Absoluto Relativo
0,100 0,101 0,001 1,0%
0,200 0,202 0,002 1,0%
0,300 0,303 0,003 1,0%
0,400 0,404 0,004 1,0%
A
B
C
A
B C
a . fA + b . fB + c . fC = 100%
Fig. 1.3 Normalización interna de picos croma-
tográficos.
32
Carlos Mongay Fernández
entre muestras y patrones, y por el hecho de que ambos no se determi-
nan simultáneamente, pudiendo estar sujetos los aparatos de medida a 
derivas lentas.
c) En los métodos que podríamos llamar semi-relativos, la técnica opera-
toria comporta una fase previa de preparación de la muestra (puesta en 
solución, separación de ciertos constituyentes, etc.) destinada a obtener 
un producto comparable al de los patrones con los que se obtiene la 
curva de calibrado. En estos métodos los errores pueden separarse 
en dos grupos: los cometidos en la fase de preparación y los cometidos en 
la fase final de la determinación; sólo para estos últimos es válido lo 
dicho antes para los métodos relativos. 
Así, si para determinar Mg2+ por espectrofotometría de llama se di-
suelve la muestra en agua regia, existirá un desplazamiento de la curva 
de calibrado en presencia de iones Cl-, por lo que se puede producir un 
error sistemático si éstos no han sido bien eliminados.
1.5 Errores aleatorios 
Los errores indeterminados, accidentales o aleatorios, son directamente 
calculables y aparecen por causas incontroladas de naturaleza errática e impre-
visible (oscilaciones erráticas que provocan las vibraciones sobre las balanzas, 
presencia de campos magnéticos en RMN), originándose al pretender forzar la 
medida hasta sus últimas consecuencias:
– lectura digital de la escala de la balanza al oscilar la última cifra
– interpolación en las divisiones de una escala (material volumétrico gra-
duado)
– determinación del enrase en el material aforado (material volumétrico 
calibrado).
Pueden tener lugar en los dos sentidos (por exceso y por defecto) con igual 
probabilidad y reducirse hasta límites aceptables, pero jamás anularse, sea cual 
fuere el operador o el método empleado. Su valor establece la máxima bondad 
que puede alcanzarse en una medida, y que nunca superará a la reproducibilidad 
del instrumento utilizado (el límite de reproducibilidad de un instrumento es 
su sensibilidad; por ejemplo, la sensibilidad de la balanza analítica común 
es ± 0,1 mg).
1.5.1 Cifras significativas 
Los errores aleatorios se consignan por el número de cifras significativas 
con que se expresa la magnitud, cifras que reflejan el número de dígitos necesario 
para describir el valor de la magnitud sin alterar la precisión (son significativos 
33
Principios de quimiometría
todos los dígitos exactos más el primero incierto). Cuando no se indica la pre-
cisión se presupone que la última cifra significativa oscila entre más y menos 
una unidad.
Si la media de cuatro determinaciones de Ni2+ (23,48, 23,45, 23,51 y 23,46) 
es 23,475 y la desviación media es ± 0,02, la segunda decimal está sujeta a incer-
tidumbre, debiéndose redondear a 2 cifras decimales. Tanto da 23,47 como 23,48 
pues ambos distan igual de 23,475 pero como se sigue el criterio de redondear 
siempre al número par más próximo, el resultado será: 23,48 ± 0,02. Indicar sólo 
23,48 equivaldría a suponer una precisión de ± 0,01, mejor que la real.
La representación exponencial facilita la ubicación de la coma decimal 
sin alterar la precisión, de forma que el factor exponencial sólo localiza la parte 
decimal, no contando en cuanto al número de cifras significativas:
– Un volumen de 3000 ml si se quiere representar con 4 cifras significativas 
se puede expresar como 3,000 × 103 ml, y para expresarlo con 2 cifras 
significativas se deberá escribir 3,0 × 103 ml.
– El número de Avogadro representando con 4 cifras significativas será 
NA = 6,023 × 1023.
Este concepto de cifras significativas permite mostrar los resultados intro-
duciendo el error o incertidumbre con que se ha realizado una medida. Existen 
dos formas de indicarlo:
Absoluto:
 se expresa en las mismas unidades que la cantidad medida
 10,2 g ± 0,1 g pH = 7,14 ± 0,02 unidades de pH
 45,45 ml ± 0,01 ml C = 0,25 M ± 0,03 M
 Todo el material volumétrico de clase A tiene establecidas las máximas 
tolerancias permitidas.
Relativo: 
 se formula en términos de la magnitud medida y es adimensional, Se 
acostumbra a expresar en tanto por uno o en %, aunque a veces se expresa 
en ‰ o en ppm.
 (10,2 ± 0,1) g (εr = 9,8 × 10-3) pH = (7,14 ± 0,02) (εr = 2,8 × 10-3)
 (45,45 ± 0,01) ml (εr = 2,2 × 10-4) C = (0,25 ± 0,03) M (εr = 0,12)
En la práctica, cuando se indica un resultado analítico, también suele acep-
tarse el uso de dos cifras inciertas, lo que permite apreciar mejor su precisión y 
es más útil con fines comparativos. Asimismo, no es aconsejable redondear los 
valores intermedios en los cálculos parciales, pues las cifras rechazadas pueden 
ir alterando los valores finales de la media y de la precisión.
34
Carlos Mongay Fernández
1.5.2 Cálculo de errores aleatorios 
Para calcular los errores aleatorios existen dos métodos: el ordinario basado 
en el principio del error máximo, y el estadístico basado en el cálculo de proba-
bilidades. El método ordinario establece que en una serie de medidas los errores 
se suman en todo momento, mientras que el método estadístico considera que 
por sucesivas repeticiones los errores tienden a compensarse.
Método ordinario: El método ordinario es poco realista. En efecto, si 
suponemos la lectura de una bureta en la que el resultado se determina por la 
diferencia entre el volumen vertido y el enrase inicial, existe en cada lectura la 
misma probabilidad de que el error sea positivo o negativo. Consecuentemente 
los errores que afectan al resultado se combinan de forma cualitativa:
(+ , +) (+ , -) (- , +) (- , -)
y la probabilidad de que los errores se sumen (que es lo que propone el método 
ordinario) es sólo de 1 sobre 2. Si el resultado final se calcula hallando la media 
de dos determinaciones con dos lecturas por determinación, la probabilidad de 
que los errores se sumen será de 1/8; igualmente para tres determinaciones (con 
dos lecturas por determinación) será de 1/32.
La adición de errores se minimiza al aumentar el número de análisis o el 
de medidas repetidas llevadas a cabo en cada determinación. Pero, mientras au-
mentar el número de análisis siempre mejora la precisión, no ocurre lo mismo al 
aumentar el número de réplicas dentro de cada determinación, ya que los errores 
en cada medida raramente son del mismo orden de magnitud y la posibilidad de 
compensación es menos eficaz. De ahí el interés de simplificar en lo posible la 
técnica operatoria de un método analítico.
Además, calcular el error por el método ordinario exige conocer su magnitud 
en cada etapa del proceso, lo que puede ser sencillo en el instrumento de medida, 
pero es inviable en las etapas de preparación (filtraciones, lavados, etc.), por lo 
que sólo pueden considerarse los errores en la instrumentación y admitiendo que 
los errores parciales se presenten siempre con su valor máximo.
Método estadístico: El método estadístico tiene la ventaja de suministrar 
cifras calculadas a partir de valores experimentales y no de consideraciones más 
o menos reales y a menudo arbitrarias. Además es un método completo, pues no 
se limita sólo a errores accidentales de tipo instrumental, sino que engloba todos 
los errores accidentales (del operador, de muestreo, de la etapa de preparación); 
facilita también el establecimiento de leyes experimentales y el estudio de fenó-
menoscomplejos con presencia simultánea de muchas variables. Por último, el 
método estadístico permite normalizar las conclusiones en el sentido de que la 
interpretación de los resultados no se traduce por apreciaciones subjetivas sino 
que viene dada en términos de probabilidad.
Prácticamente el método estadístico permite:
a) Precisión absoluta: Evaluar la precisión de un resultado y, por ende, el 
número de cifras significativas a otorgarle; así se puede indicar el grado 
35
Principios de quimiometría
de precisión de la toma de muestra, de los instrumentos de medida, del 
método analítico, etc.
b) Precisión relativa: Comparar precisiones para justificar la elección de 
un método analítico determinado o de un instrumento dado.
c) Distribución: Determinar cómo se reparten los errores en un estudio 
complejo.
d) Número de muestras o réplicas: Calcular el número de muestras a tomar 
o el de replicados a efectuar para tener un resultado con una precisión 
dada.
e) Rechazo de valores: Considerar si un resultado desviado es significativo 
o debido sólo al azar, y poder realizar una estimación de la exactitud. 
Así, se puede estudiar una determinada variable experimental o comparar 
operadores y métodos, eliminando los resultados aberrantes de una serie 
para no hacerlos intervenir en el cálculo final.
f) Porcentaje de confianza: Evaluar en términos de probabilidad la con-
fianza que se pueda dar a un resultado.
El método estadístico no ofrece dificultad alguna, pues los parámetros se 
obtienen fácilmente, los cálculos resultan muy reducidos con el empleo de una 
sencilla calculadora, y las conclusiones se deducen directamente examinando 
tablas de criterios de significación. Por ello los métodos estadísticos son amplia-
mente utilizados para la planificación de experiencias en química analítica, en 
la toma, presentación y discusión de datos analíticos y en la valoración de las 
conclusiones resultantes.
37
2.1 Ayudando a la experimentación 
Hace más de cuatro siglos que se establecieron las bases del cálculo de pro-
babilidades pero, mientras que hasta principios del siglo pasado sus aplicaciones 
en el campo científico se limitaban a explicar con una base estadística la teoría 
cinética de los gases, actualmente desempeña un importante papel en todas las 
ramas de la ciencia.
El analista sólo tiene algunos contactos con la estadística cuando aplica 
la teoría de errores en el análisis cuantitativo; y sin embargo la quimiometría 
le ofrece amplias potencialidades para tratar los datos de una forma más útil y 
deducir resultados más seguros, con un mayor número de conclusiones. Tal es el 
caso por ejemplo cuando se establecen criterios objetivos de rechazo de resulta-
dos anómalos de una serie de n de ellos y se calcula la media con los restantes, 
pues la estadística permite calcular la probabilidad de que tales datos sean o no 
miembros legítimos del grupo.
Al sondear la naturaleza se plantean experiencias que se traducen en un 
amasijo de cifras. Ante ello se abren dos interrogantes: ¿cómo interpretar las 
series de números que presentan, a veces, un aspecto anárquico?; ¿es posible 
universalizar los resultados obtenidos cuando se efectúa un número reducido de 
experiencias? Los métodos estadísticos permiten responder a estas cuestiones 
analizando los resultados y asegurando la validez de ciertas hipótesis, provocando 
experiencias complementarias. Sin embargo, las conclusiones a las que se llegue, 
¿serán ciertas? No, al admitirlas se corren ciertos riesgos, pero estos riesgos a su 
vez podrán ser cuantificados.
Ahora bien, incluso aceptando el riesgo corrido, las conclusiones resultantes 
deberán ser contrastadas, cuestionándose la veracidad de las hipótesis que per-
mitieron la elaboración de las teorías estadísticas y meditando las conclusiones 
2. Estadística básica
Los conceptos estadísticos deben considerarse 
como un medio de poner el sentido común 
sobre bases cuantitativas pero nunca 
como substitutivos del propio sentido común.
38
Carlos Mongay Fernández
con un claro sentido común y un pensamiento lúcido. Las teorías estadísticas no 
pueden responder con exactitud a muchas cuestiones, pero permiten a menudo 
clarificarlas. Además de aplicar criterios estadísticos, una respuesta constructiva 
requiere tener una visión clara de la evolución del fenómeno estudiado.
Por ello la aplicación de la quimiometría será rigurosa en la medida en que 
se ajusten los modelos matemáticos planteados y se cumplan las hipótesis de 
partida. El uso indiscriminado de fórmulas matemáticas aisladas de su contexto 
experimental sólo puede conducir a falsas interpretaciones.
2.2 El método estadístico 
Se basa en la teoría del cálculo de probabilidades y muy especialmente 
sobre la función de errores de Laplace-Gauss, representada por la conocida curva 
de campana:
f x e
x
( ) = × →
− −( )1
2
2
2 2
σ π
µ
σ
 
 Se expresa poor N ( , 2µ σ ) → f x e
x
( ) = × →
− −( )1
2
2
2 2
σ π
µ
σ
 
 Se expresa poor N ( , 2µ σ )
que representa la distribución de errores en una población (frecuencia de las 
desviaciones entre el valor verdadero μ y los distintos resultados obtenidos).
Como se muestra en la figura 
2.1 la curva de distribución normal es 
simétrica, con desviaciones positivas 
y negativas, y con una frecuencia 
que disminuye rápidamente al ale-
jarse del valor central. El máximo y 
los puntos de inflexión de la curva 
se pueden hallar anulando respec-
tivamente la primera y la segunda 
derivadas, resultando los valores 
x = μ y x = μ ± σ.
En forma diferencial la curva 
muestra la fracción de observaciones 
dN/N existentes entre x y x + dx:
dN
N
e dx
x
= × ×
− −( )1
2
2
2 2
σ π
µ
σ
 
Si se expresa como desviaciones a la media en una escala de desviaciones 
estándar, esto es, mediante el cambio de variables z = (x - μ) /σ resulta la curva 
normal tipificada, con una única variable z (puesto que dz = dx/σ):
dN
N
e dz= × × →−1
2π
 12 z
2
 Se expresa porr N (0, 1) → 
dN
N
e dz= × × →−1
2π
 12 z
2
 Se expresa porr N (0, 1)
0 2 4 6 8
0
0,2
0,4
0,6
0,8
1
(2)
(1)
f(x)
µ − σ µ µ + σ
f(x)
µ − σ µ µ + σ
0,
34
13
0,
13
60
0,
02
14
µ − 3σ µ − 2σ µ + 2σ µ + 3σ
Fig. 2.1 Curva de distribución normal.
39
Estadística básica
Las leyes de la estadística sólo se aplican estrictamente a las poblaciones; 
toda muestra deberá ser representativa de la población y, ante la inseguridad de 
este aserto, las conclusiones se expresarán en términos de probabilidad. Además 
el tratamiento estadístico sólo es válido bajo ciertas condiciones que se definen 
considerando las nociones de población, muestra, independencia y distribución, 
y que deben respetarse estrictamente durante la experimentación.
La población es un conjunto ilimitado de resultados de características 
comunes. A veces se considera que una población puede ser finita (la población 
formada por todos los análisis de agua realizados por un laboratorio en un mes 
determinado); pero es preferible considerar este conjunto como una muestra del 
«ilimitado» número de análisis que el laboratorio puede realizar.
En la práctica nos debemos contentar con una muestra de la población, 
un pequeño número de resultados que, no obstante, debe ser representativo de 
la población y por consiguiente extraídas de ella al azar. La condición para que 
una muestra represente a la población es que todos los elementos de ésta deben 
tener la misma probabilidad de formar parte de aquella. Precisamente la meta 
del análisis químico es el conocimiento de la población a través del estudio de 
la muestra.
La independencia estadística es primordial y exige que ningún resultado 
se vea afectado por la determinación de los demás. El cálculo estadístico sólo 
es aplicable si se respeta estrictamente la independencia. Así, no existe inde-
pendencia cuando el ojo del analista se fatiga en el transcurso de una serie de 
medidas volumétricas o cuando el experimentador elige los resultados

Continuar navegando