Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
MANUAL PARA EL PROFESOR Estadística y Quimiometría para Química Analítica Cuarta edición James N. Miller Jane C. Miller www.librosite.net/miller Madrid México Santafé de Bogotá Buenos Aires Caracas Lima Montevideo San Juan San José Santiago São Paulo White Plains © Pearson Educación, S.A. i Los usuarios estarán autorizados a, por los medios puestos a su disposición, visualizar, imprimir y descargar el material de esta página únicamente para uso personal y sin fines comerciales, pero eso no les permite borrar o corregir ninguna marca registrada, copyright u otro aviso de propiedad. Los usuarios no podrán distribuir, transmitir, reproducir o publicar electrónicamente o de cualquier otra forma ninguna parte de los datos sin previo consentimiento escrito de Pearson Educación, S.A. Asimismo, tiene la obligación de hacer uso correcto de la Página y de los servicios conforme a la Ley, moral y buenas costumbres generalmente aceptadas y con fines lícitos. Se reservan el resto de los derechos. DERECHOS RESERVADOS © 2002 respecto a la primera edición en español por: PEARSON EDUCACIÓN, S.A. Núñez de Balboa, 120 28006 MADRID MILLER, N. J. Y MILLER, J. C ESTADÍSTICA Y QUIMIOMETRÍA PARA QUÍMICA ANALÍTICA ISBN: 84-205-3514-1 Depósito legal: M.29.356-2002-09-18 PRENTICE HALL es un sello editorial autorizado de PEARSON EDUCACIÓN, S.A. Traducido de: Instructor’s Manual, Statistics and Chemometrics for Analytical Chemistry Fourth Edition Copyright © 2001 por Pearson Education Limited ISBN: 0-13-026466-0 Edición en español: Equipo de traducción: Web Editor: Concepción I. Ramírez De Antón Assistant Web Editor: Esther Martín González Colaboración: Marta Encinas, Olivia Ocaña y Roberto Lorente Equipo técnico: WebMaster: Luis Pérez © Pearson Educación, S.A. ii Contenido Capítulo uno: Guía para algunas fuentes de material complementario Introducción 1 Revistas especializadas y artículos de opinión 1 La World Wide Web (WWW) 7 Capítulo dos: Soluciones completas a los ejercicios Ejercicios del Capítulo 1 9 Ejercicios del Capítulo 2 11 Ejercicios del Capítulo 3 12 Ejercicios del Capítulo 4 21 Ejercicios del Capítulo 5 27 Ejercicios del Capítulo 6 36 Ejercicios del Capítulo 7 43 Ejercicios del Capítulo 8 48 © Pearson Educación, S.A. iii Estadística y Quimiometría para Química Analítica, 4ª Edición CAPÍTULO UNO Guía para algunas fuentes de material complementario Introducción Los profesores de estadística del campo de las ciencias analíticas siempre quieren actualizar sus conocimientos sobre el tema, así como ampliar sus ejemplos numéricos y las aplicaciones existentes. Este material se puede utilizar para enseñar a los estudiantes nuevos métodos estadísticos y ejercicios para su aplicación en experimentos individuales de laboratorio, en proyectos o en clases prácticas. El creciente interés en la aplicación de la estadística a la química demuestra que, actualmente, han surgido muchas fuentes de este nuevo material: aquí señalamos algunos de los recursos más accesibles, cuyo nivel coincide con el del libro de texto. Hemos sido selectivos de forma inevitable y deliberada, especialmente con el material disponible en Internet, que prolifera rápidamente y varía en gran medida en cuanto a calidad. Muchas páginas web se basan en los materiales de las clases impartidas en universidades de países angloparlantes. Como tales, estos materiales pueden constituir sólo un módulo, o una parte de un módulo, y también pueden servir como información complementaria a una serie de clases específicas. Obviamente, los profesores deben utilizar este material de forma adecuada. Por otra parte, Internet se utiliza cada vez más para facilitar material adicional (datos, software, etc.) que completa los artículos de investigación. Este fenómeno supone un claro desarrollo atractivo del que más adelante se exponen algunos ejemplos. Los materiales recomendados en esta sección deberían considerarse como complementarios a los mencionados en las secciones de Bibliografía al final de cada capítulo del libro Estadística y Quimiometría para Química Analítica, 4ª edición, 2002. Estas secciones bibliográficas hacen referencia a libros de texto tradicionales, muchos de los cuales son estudios generales sobre aspectos de la estadística en lugar de estar enfocados a la química analítica. No obstante, todos los materiales mencionados en el libro de texto pertenecen a estudios químicos y la mayoría cubren específicamente los problemas analíticos. Revistas especializadas y artículos de opinión Existen dos revistas de investigación reconocidas que publican estudios sobre la aplicación de la estadística a los problemas químicos, y especialmente analíticos. Estas revistas son Journal of Chemometrics (publicado por Wiley) y Chemometrics and Intelligent Laboratory Systems (publicado por Elsevier). A pesar de que, probablemente, los trabajos de investigación publicados en estas revistas sean demasiado complicados o detallados para suscitar el interés de los lectores de nuestro libro de texto, ambas publican artículos de opinión sobre métodos quimiométricos. Algunos tienen carácter tutorial y son mucho más relevantes. Además de los estudios del Journal of Chemical Education y The Analyst, sobre los que se debatirá en secciones posteriores, muchas otras revistas contienen importantes estudios y artículos de opinión en este campo. La revista Analytical Chemistry (publicada por la American Chemical Society) y Analytica Chimica Acta (publicada por Elsevier) son las más notables, siendo especialmente valiosos los extensos estudios bienales y los listados de referencias publicados por Analytical Chemistry. El último de estos estudios, realizado por el profesor B.K. Levine, aparece en Analytical Chemistry, p. 72 (2000) 91R-97R. Contiene 120 referencias del periodo que oscila entre noviembre de 1997 y noviembre de 1999. Como su propio título indica, ‘Chemometrics’ (Quimiometría), trata casi exclusivamente de los métodos más avanzados, explicados en el Capítulo 8 del libro de texto. El material se divide en cinco secciones principales: (1) resolución de curvas multivariantes, aplicada principalmente a señales cromatográficas solapadas o señales espectroscópicas; (2) calibración multivariante, haciendo especial hincapié en el uso de mínimos cuadrados parciales; (3) reconocimiento de patrones; 1 © Pearson Educación, S.A. Estadística y Quimiometría para Química Analítica, 4ª Edición (4) relaciones estructura-propiedad; y (5) análisis multidireccional aplicado a conjuntos de datos de tres factores. No se ha llevado a cabo ningún estudio significativo acerca de los métodos estadísticos convencionales y elementales. Un estudio anterior realizado por el mismo autor (Analytical Chemistry, p. 70 (1998) 209R-228R) era más completo (con alrededor de 600 referencias) y trataba un mayor número de métodos y de áreas de aplicación, incluida la optimización y el uso de métodos estadísticos básicos. Otra publicación periódica que ofrece fuentes de información útiles es Trends in Analytical Chemistry (Elsevier). El nivel de muchos de sus estudios se adecua tanto a estudiantes graduados como a no graduados y, a menudo, contiene artículos sobre estadística y quimiometría. Una entrega especial reciente (números 9-10, 1999) estaba dedicada por completo a la metrología en química. Varias revistas están por completo o en su mayor parte dedicadas a la evaluación estadística propiamente dicha de métodos analíticos, pruebas de aptitud y otras comparaciones interlaboratorio y a la optimización y diseño experimental en el análisis. Entre estas revistas, la más reconocida es la Journal of the Association of Official Analytical Chemists (JAOAC), que se publica en Estados Unidos. Esta revista también publica artículossobre el desarrollo de nuevos métodos analíticos, pero las importantes funciones reglamentarias de muchos miembros de la AOAC garantiza que existe un gran énfasis en muchos aspectos relevantes del análisis de datos. Window on Chemometrics, de la Royal Society of Chemistry, es una guía muy útil para el desarrollo y el uso de la estadística y la quimiometría. Es una publicación mensual que contiene títulos y resúmenes de artículos de opinión y artículos de casi 250 revistas de todo el mundo. Los resúmenes se presentan en seis secciones: (1) técnicas generales y estadística; (2) calibración y validación; (3) programas informáticos, sistemas expertos y aplicaciones; (4) espectrometría; (5) cromatografía; y (6) otras técnicas analíticas. En el ejemplar de marzo de 2000, la cantidad de resúmenes en estas secciones fueron de 21, 25, 24, 43, 40 y 12, respectivamente, que son 165 resúmenes en total, lo que demuestra la importancia que se otorga a la aplicación de la estadística a la química. Journal of Chemical Education Esta revista (JCE) también es publicada por la American Chemical Society y está dedicada a la enseñanza de la química a todos los niveles, desde la escuela hasta la universidad. Las tasas de suscripción son relativamente bajas e incluyen el acceso a la versión electrónica de la revista, que contiene material complementario muy valioso. Además de sus publicaciones originales (véase a continuación), JCE ofrece artículos de opinión sobre nuevos libros de texto y software, junto con una amplia gama de materiales didácticos en CD-ROM. La importancia (y dificultades) de los métodos estadísticos para estudiantes de química se refleja en muchos ejemplares de JCE. A continuación resumimos algunos ejemplos de trabajos de investigación publicados a lo largo de los últimos cinco años, que guardan relación con los temas tratados en nuestro libro de texto: el último ejemplar de JCE fue el de junio de 2000. Algunos de los trabajos describen ejercicios de laboratorio, donde la evaluación estadística apropiada de los datos es especialmente importante, mientras que otros ofrecen comentarios y consejos sobre la elección de los métodos y el empleo adecuado o erróneo de la estadística sin guardar relación con un método o experimento específicos. 2000 De Levie, R.: “Spreadsheet Calculation of the Propagation of Experimental Imprecision”, JCE, nº 77, p. 534. Este breve trabajo muestra cómo todas las hojas de cálculo disponibles se pueden utilizar para calcular la precisión global de un experimento por etapas múltiples mediante la diferenciación numérica. Se recomienda el uso de un macro (el autor proporcionará macros para Microsoft Excel 95 ó 97). Se ha tomado uno de los ejemplos algebraicos del trabajo de Andraos de 1996 (véase el resumen del año 1996). 2 © Pearson Educación, S.A. Estadística y Quimiometría para Química Analítica, 4ª Edición Edmiston, P.L. y Williams, T.R.: “An Analytical Laboratory Experiment in Error Analysis: Repeated Determination of Glucose Using commercial Glucometers”, JCE, nº 77, p. 377. El experimento explicado en este estudio utiliza tiras desechables de bajo coste que incorporan reactivos enzimáticos para determinar la presencia de glucosa en soluciones acuosas. El producto coloreado se mide en un fotodetector de reflectancia simple. Las mediciones simples permiten aplicar contrastes anómalos y que los estudiantes comparen sus resultados entre sí o con los estándares de referencia. También se puede utilizar el mismo método para proporcionar pequeños proyectos, permitiendo a los estudiantes indagar en la validación del método, el muestreo y las variables de muestra, los errores sistemáticos, etc. Los datos necesarios se pueden recopilar rápidamente utilizando un sistema analítico realista que resulta atractivo para los estudiantes. Zielinski, T.J.: “Symbolic Software in the Chemistry Curriculum”, JCE, nº 77, p. 668. Este estudio promueve el uso educativo de programas como Mathcad, que cada vez adquieren más popularidad. La aplicación de Mathcad a los problemas de regresión lineal y no lineal se demuestra de forma breve con dos ejemplos de S. H. Young y A. Wierzbicki. En el sitio web de JCE se pueden encontrar los archivos necesarios: el usuario necesita Mathcad y Adobe Acrobat. 1999 Burdge, J.R., MacTaggart, D.L. y Farwell, S.O.: “Realistic Detection Limits from Confidence Bands”, JCE, nº 76, p. 434. Se trata de un trabajo excelente y completo que describe cómo se pueden obtener los límites de detección mediante bandas de confianza de rectas de regresión ponderadas y no ponderadas. El método se compara detalladamente con métodos más sencillos que utilizan la desviación estándar de medidas en blanco (véanse las páginas 125-127 del libro de texto) y, además, incluye una extensa bibliografía. El método de banda de confianza ha sido aprobado por una serie de organismos oficiales y parece ser un buen candidato a convertirse en el método estándar para límites de detección; así pues, este artículo es importante, aunque pueda tener mayor relevancia para investigadores que para estudiantes. Bruce, G.R y Paramjit, S.G.: “Estimates of Precision in Standard Addition Analysis”, JCE, nº 76, p. 805. Este interesante estudio es un buen ejemplo de las dificultades que pueden encontrar un usuario de métodos estadísticos incauto. Los autores explican cómo han calculado sus estudiantes la desviación estándar de concentraciones de analito determinadas por el método de adiciones estándar (véanse las páginas 127-130 del libro de texto). El método correcto emplea la Ecuación (5.12) del libro de texto, pero algunos estudiantes aprovecharon la ventaja del hecho de que la concentración de prueba resulta (de forma correcta) de a/b, siendo a y b la ordenada en el eje y y la pendiente de la línea recta, respectivamente. Estos estudiantes utilizaron la Ecuación (2.12) para combinar los errores de la pendiente y la ordenada para obtener una desviación estándar de la concentración. Este segundo método (incorrecto) proporciona desviaciones estándar más pequeñas que la Ecuación (5.12). La razón de la discrepancia es que la Ecuación (2.12) supone que las fuentes de error que se combinan son independientes. Este no es el caso en el experimento de adiciones estándar, donde los errores en a y b proceden de la misma línea recta. (Véase también el trabajo de Meyer en el resumen del año 1997). Muranaka, K.: “Teaching Statistical Methods”, JCE, nº 76, p. 469. Este breve apunte, con una réplica de K.A. Thomasson, hace referencia al trabajo publicado en JCE, nº 75, p. 231 (véase el resumen del año 1998). En este trabajo se destaca la importancia de la distinción entre los contrastes de una y dos colas en la aplicación de la Q de Dixon, y del uso de los valores críticos correctos (los valores originales de Dixon tienen errores tipográficos). 3 © Pearson Educación, S.A. Estadística y Quimiometría para Química Analítica, 4ª Edición Pandey, S., Borders, T.L., Hernández, C., Roy, L.E., Reddy, G.D., Martinez, G.L., Jackson, A., Brown, G. y Acree, W.E., Jr.: “Comparison of Analytical Methods: Direct Emission versus First-Derivative Fluorometric Methods for Quinine Determination in Tonic Waters”, JCE, nº 76, p. 85. Este estudio describe el uso del espectro de emisión de quinina y sus derivados directos en la determinación de este compuesto en muestras de agua tónica. Los métodos de regresión convencional se utilizan para calcular los valores R2 para los gráficos de calibrado y los resultados obtenidos utilizando los dos métodos se comparan mediante los contrastes F y t. El método se puede ampliar calculando también los valores de R’2. 1998 Caballero, J.F. y Harris, D.F.: ”There Seems to be Uncertainty about the Use of Significant Figures in Reporting Uncertaintiesof Results”, JCE, nº 75, p. 996. Breve apunte sobre el redondeo de resultados, argumentando que muchos autores utilizan demasiadas figuras significativas en la práctica. Thomasson, K., Lofthus-Mershcman, S., Humbert, M. y Kulevsky, N.: “Applying Statistics in the Undergraduate Chemistry Laboratory: Experiments with Food Dyes”, JCE, nº 75, p. 231. Este estudio describe experimentos sencillos en los que a los estudiantes se les hace entrega de dos colorantes alimenticios comunes con espectros de absorción bien separados. Las medidas repetidas de varias muestras sirven para estudiar el rechazo de los valores anómalos mediante el test Q. También se describe la comparación de dos soluciones similares con los contrastes F y t y el uso de los mínimos cuadrados lineales en la determinación de las concentraciones de los colorantes en las bebidas sin alcohol. Contiene propuestas para ampliar el estudio de las mezclas de colorante. 1997 Harris, D.C.: “Nonlinear Least-Squares Curve Fitting with Microsoft Excel Solver”, JCE, nº 74, p. 119. Este estudio muestra, con la ayuda de un ejemplo numérico en el que se utiliza la ecuación de van Deemter, cómo se utiliza el solucionador de Excel en el ajuste de curvas. El método se aplica a la regresión no ponderada, y a la ponderada con las ponderaciones obtenidas a partir de desviaciones estándar medidas. Lieb, S.G.: “Simplex Method of Nonlinear Least Squares – A logical Complementary Method to Linear Least-Squares Analysis of Data”, JCE, nº 74, p. 1008. Este artículo probablemente sea más adecuado para profesores e investigadores que para alumnos. Explica cómo el método de optimización simplex es eficaz en la producción de ajustes de mínimos cuadrados cuando las funciones matemáticas que describen el sistema no son lineales. Se utiliza un programa FORTRAN para realizar los cálculos. Además, se facilitan dos ejemplos y una herramienta para el análisis de errores. Meyer, E.F.: ”A Note on Covariance in Propagation of Uncertainty”, JCE, nº 74, p. 1339. Este breve apunte destaca que, si el error global en un experimento deriva de dos (o más) fuentes de error que no son independientes, las ecuaciones de las que se obtiene el error global (véase la Sección 2.11 del libro de texto) deben incluir un término adicional de ‘covarianza’. En el ejemplo propuesto (medida de la presión de vapor del agua como una función de la temperatura) éste término adicional es negativo; así pues, el error en el resultado final (una determinada temperatura de ebullición) es más preciso que el obtenido con el supuesto de que las fuentes de error son independientes. 4 © Pearson Educación, S.A. Estadística y Quimiometría para Química Analítica, 4ª Edición Vitha, M.F. y Carr, P.W.: “A Laboratory Exercise in Statistical Analysis of Data”, JCE, nº 74, p 998. La ponderación de grandes cantidades de píldoras de vitamina E es la base de los experimentos detallados en este estudio. Los resultados se utilizan para calcular la estadística descriptiva básica (media, mediana, etc.), aplicar contrastes de significación que incluyen la aplicación del contraste chi-cuadrado para probar la normalidad, y estudiar la distribución muestral de la media. También se menciona el hecho de que las ponderaciones de las píldoras se desvían significativamente de la distribución normal; así pues, se ofrece la oportunidad de demostrar el teorema del límite central. 1996 Andraos, J.: “On the Propagation of Statistical Errors for a Function of Several Variables”, JCE, nº 73, p. 150. A pesar de que las ecuaciones para la propagación de error en casos sencillos son bien conocidas (véanse las páginas 36-39 del libro de texto), a menudo resulta difícil aplicarlas a situaciones reales donde participan muchas variables o funciones matemáticas complejas. El autor resuelve una ecuación general para estos ejemplos avanzados, después muestra cómo ésta se reduce a las ecuaciones conocidas en casos sencillos y las aplica a varios ejemplos de cristalografía y química física. The Analyst Publicación mensual de la Royal Society of Chemistry (RSC, Cambridge, Reino Unido) que supone una excepcional fuente de material. La política editorial de la revista siempre ha dedicado un especial interés al uso adecuado de la estadística en los trabajos de investigación, de ahí la utilización continua en los ejemplos del libro de texto de los datos presentes en dichos trabajos. Por otra parte, con la finalidad de promover el uso correcto de la estadística, la revista ha publicado frecuentes artículos de opinión sobre los métodos estadísticos: algunos de estos artículos tienen una clara intención tutorial, mientras que otros investigan los progresos experimentados recientemente en áreas específicas. The Analyst también es el órgano de publicación de estudios del subcomité de estadística del Comité de Métodos Analíticos de la división analítica de la RSC. Este subcomité ofrece asiduamente informes muy influyentes sobre principios y aplicación de nuevos métodos estadísticos, el uso indebido de métodos ya establecidos, el desarrollo y uso de estudios interlaboratorio y otros muchos temas relacionados con la estadística y la quimiometría. A continuación ofrecemos una lista de artículos e investigaciones editadas por The Analyst. 1999 Mullins, E.: “Getting More from your Laboratory Control Charts”, Analyst, nº 124, p. 433. Guía informativa. 1998 Despagne, F. y Massart, D.L.: “Neural Networks in Multivariate Calibration”, Analyst, nº 123, p. 157-158. Artículo íntegro. Lowthian, P.J., Thompson, M. y Wood, R.: “The Interpretation of Data from Collaborative Trials: Comparison of the Harmonised Protocol with the AMC Robust Method”, Analyst, nº 123, p. 2803. 5 © Pearson Educación, S.A. Estadística y Quimiometría para Química Analítica, 4ª Edición 1997 Comité de métodos analíticos: “Handling False Negatives, False Positives and Reporting Limits in Analytical Proficiency Tests”, Analyst, nº 122, p. 495. Horwitz, W. y Albert, R.: “The Concept of Uncertainty as Applied to Chemical Measurements”, Analyst, nº 122, p. 615. Kane, J.S.: “Analytical Bias: the Neglected Component of Measurement Uncertainty”, Analyst, nº 122, p. 1283. 1996 Olsen, E.: “Effect of Sampling on Measurement Errors”, Analyst, nº 121, p. 1155. Thompson, M. y Fearn, T.: “What Exactly is Fitness for Purpose in Analytical Measurement?”, Analyst, nº 121, p. 275. Thompson, M. y Lowthian, P.J.: “Statistical Aspects of Proficiency Testing in Analytical Laboratories: 1. Ranking of Participants on Scores is Misleading. 2. Testing for Sufficient Homogeneity. 3. Confirmatory Statistical Test for Scheme Organisers”, Analytical, nº 121, pp. 1589, 1593, 1597. 1995 Comité de métodos analíticos: “Internal Quality Control of Analytical Data”, Analyst, nº 120, p. 29. Thompson, M. y Ramsey, M.H.: “Quality Concepts and Practices Applied to Sampling – An Exploratory Study”, Analyst, nº 120, p. 261. 1994 Comité de métodos analíticos: “Is My Calibration Linear?”, Analyst, nº 119, p. 2363. 1993 Miller, J.N.: “Outliers in Experimental Data and Their Treatment”, Analyst, nº 118, p. 445. Guía informativa. 1992 Comité de métodos analíticos: “Proficiency Testing of Analytical Laboratories: Organisation and Statistical Assessment”, Analyst, nº 117, p. 97. 1991 Miller, J.N.: “3. Basic Statistical Methods for Analytical Chemistry”, “2. Calibration and Regression Methods”, Analyst, nº 116. Artículo de opinión. 6 © Pearson Educación, S.A. Estadística y Quimiometría para Química Analítica, 4ª Edición 1989 Miller, J.C. y Miller, J.N.: “Basic Statistical Methods for Analytical Chemistry. 1.Statistics of Repeated Measurements”, Analyst, nº 113, p. 1351. Artículo de opinión. La World Wide Web (WWW) La variedad de recursos estadísticos que se pueden encontrar en la Telaraña Mundial (World Wide Web) es muy amplia y está continuamentecambiando, aunque, como se mencionó anteriormente, su calidad y relevancia son muy variables. Además del material complementario de la revista JCE arriba indicada, los sitios web que aparecen a continuación y que se han visitado recientemente forman son fuentes muy valiosas de información y de software. Un buen punto de partida en el campo de la quimiometría es el sitio www.infometrix.com/chemometrics/chemometrics.html, que ofrece una gran variedad de enlaces. Este sitio web conduce al lector por los distintos departamentos universitarios y su personal académico, principalmente de Estados Unidos y Europa, haciendo hincapié en la investigación y enseñanza de la quimiometría. Entre los recursos que se encuentran en la sección de Estados Unidos destacan los enlaces a Center for Process Analytical Chemistry de la Universidad de Washington, Seattle; y a Food Science and Technology group de la Universidad Cornell. Estos sitios web incluyen resúmenes de proyectos de investigación, obras de referencia, etc. Http://gepasi.dbs.aber.ac.uk/home.html es la página principal de un grupo líder en Reino Unido de quimiometría con sede en Aberystwyth (Universidad de Gales). Proporciona referencias a los últimos trabajos realizados por este grupo, junto con información general, tutoriales y enlaces a otros sitios web. Uno de los sitios web más interesante y con enlaces de gran utilidad es www.acc.umu.se/~tnkjtg/chemometrics/, dirigido por Johan Trygg. Entre todos los tutoriales de fácil acceso que ofrece este sitio, se encuentra una magnífica introducción a la estadística multivariante realizada por Mike Wulder, que se puede visualizar en la siguiente dirección www.pfc.cfs.nrcan.gc.ca/profiles/wulder/mvstats/intro_to_ms.html. El sitio de la Universidad de Umea (www.anachem.umu.se/eks/pointers.htm) proporciona una colección de enlaces (por ejemplo, en la sección “The Analytical Chemistry Springboard”, el salto a la química analítica) a softwares, así como a cursos e hipertextos de varias instituciones de enseñanza superior. Entre los que destaca “The Virtual Classroom” (la clase virtual) de la Universidad de Akron; Ohio, Estados Unidos, donde James K. Hardy proporciona tanto material elemental como avanzado sobre estadística y quimiometría. Uno de los enlaces que se encuentra en este sitio, http://ull.chemistry.uakron.edu/chemometrics/, contiene una amplia lista de temas que abarca secciones desde una visión general sobre estadística (“Basic Statistics”) y Anova (“Simple ANOVA”), pasando por el rechazo de datos (“Rejection of Data”) y la calibración (“Calibration”) hasta temas más complejos como la calibración multivariante (“Multivariate Calibration”) y las redes neuronales (“Neural Networks”). En cada tema se incluyen transparencias claras y sencillas. Es importante observar que el material de este servidor, tiene derechos de autor y no se deben hacer copias del contenido sin la autorización del autor. Otro sitio web de carácter educativo y con sede en Estados Unidos, en este caso de la Universidad de Massachusetts en Dartmouth, se encuentra en la dirección www.umassd.edu/1Academic/CartsandSciences/Chemistry/. Aquí se puede encontrar material, tanto en forma de texto como en diagramas, que comprende la presentación de datos a través de histogramas, estadística básica como la media, la desviación estándar, la distribución normal y contrastes de significación sencillos como el contraste F y el contaste t, además de métodos de contraste de datos anómalos. Aunque la mayor parte del material de este sitio sólo está disponible para los estudiantes que se hayan registrado y que tengan una clave, todos los usuarios de Internet tienen acceso a la unidad de estadística. 7 © Pearson Educación, S.A. http://www.umassd.edu/1Academic/CartsandSciences/Chemistry/ http://ull.chemistry.uakron.edu/chemometrics/ http://www.anachem.umu.se/eks/pointers.htm http://www.pfc.cfs.nrcan.gc.ca/profiles/wulder/mvstats/intro_to_ms.html http://www.acc.umu.se/~tnkjtg/chemometrics/ http://gepasi.dbs.aber.ac.uk/home.html http://www.infometrix.com/chemometrics/chemometrics.html Estadística y Quimiometría para Química Analítica, 4ª Edición Uno de los sitios más importantes es el denominado “Chemometrics World” en www.wiley.co.uk/wileychi/chemometrics, perteneciente a la misma editorial que Journal of Chemometrics. Además de incluir publicidad de esta revista, también recoge numerosa información y enlaces a bases de datos, software, obras de referencia, etc. Dada la gran variedad de software disponible para realizar cálculos estadísticos, un campo de estudio importante y actual es la validación de dichos programas, es decir, ¿proporcionan resultados exactos cuando se aplican a los conjuntos de datos estándar? Dichos conjuntos de datos son aportados por el National Institute of Standards and Technology, en Estados Unidos, a través de su sitio web www.nist.gov. El programa Valid Analytical Measurement (VAM), en Reino Unido, ofrece un sitio web con información sobre la validación, así como páginas de gran utilidad para la formación. Dicho material se puede encontrar en la dirección www.vam.org.uk/, que también incluye enlaces de interés. Royal Society of Chemistry en www.chemsoc.org también incluye información educativa y enlaces. Aunque esté cambiando y creciendo continuamente, hasta el momento no parece ofrecer material que esté directamente relacionado con la estadística y la quimiometría. El sitio de American Chemical Society, www.acs.org, ofrece una gran cantidad de material educativo para estudiantes de todas las edades, en la que se incluye un curso on-line titulado Basic Statistical Analysis of Laboratory Data. Es necesario pagar una cuota para inscribirse a este curso. Todos los sitios web que se han mencionado anteriormente ofrecen material más o menos relacionado con la química. Sin embargo, la World Wide Web proporciona acceso a numerosos sitios relacionados con la enseñanza de estadística en general, aunque la mayor parte contiene información concerniente a química y, de hecho, en ocasiones utiliza ejemplos de química y de campos afines. Computer Teaching Initiative (CTI), a través de su página www.stats.gla.ac.uk/cti, ofrece un acceso bien presentado y práctico para adquirir este tipo de material. Aunque CTI ha sido sustituido por otra organización, su página principal todavía permanece en activo y ofrece una enorme gama de recursos. La mayoría de los programas de estadística más conocidos están revisados de forma exhaustiva y, en ocasiones, se pueden descargar versiones de prueba de forma gratuita. Programas como DISCUS y Analyse-It son de especial interés en este contexto, los cuales están diseñados para mejorar los servicios de cálculo y de enseñanza disponibles a través de Microsoft Excel. 8 © Pearson Educación, S.A. http://www.stats.gla.ac.uk/cti http://www.acs.org/ http://www.chemsoc.org/ http://www.vam.org.uk/ http://www.nist.gov/ http://www.wiley.co.uk/wileychi/chemometrics Estadística y Quimiometría para Química Analítica, 4ª Edición CAPÍTULO DOS Soluciones completas a los ejercicios Ejercicios del Capítulo 1 Ejercicio 1. El laboratorio A ha obtenido un resultado de la media exacta de 41,9 g l -1 (muy próximo al valor correcto) y una pequeña dispersión de resultados: todos los valores están entre 41,1 y 42,5 g l-1. Así pues, estos resultados son precisos e insesgados. La exactitud de cada medición individual es buena, así como la media. Los errores aleatorios son pequeños y los errores sistemáticos, o bien son pequeños, o bien se han anulado mutuamente en gran medida. El laboratorio B ha obtenido el mismo valor de la media exacta, pero la dispersión de los resultados es mucho mayor (rango 39,8-43,9 g l-1). Aparentemente, no hay sesgo (aunque, de nuevo, es posible que dos o más errores sistemáticosse hayan cancelado entre sí), pero hay grandes errores aleatorios (es decir, los datos son muy imprecisos) y cuatro de los seis resultados individuales tienen una exactitud muy pobre. Las mismas estimaciones muestran que el laboratorio C ha obtenido resultados precisos aunque sesgados (la media, 43,2 g l -1, y todas las lecturas individuales muestran una exactitud pobre). Los resultados del laboratorio D son imprecisos y sesgados, aunque (seguramente, por azar) una de las lecturas, 42,2 g l -1, es bastante exacta. El laboratorio E ha obtenido una serie de resultados que parecen precisos y no sesgados, a excepción del valor final. La exactitud de esta última interpretación es tan pobre que, en la práctica, debería comprobarse como un resultado anómalo (véase la Sección 3.7): si la comprobación mostrara que se puede rechazar el valor atípico, con un margen de confianza razonable, los resultados restantes serían muy parecidos a los del laboratorio A. Este ejemplo permite a los estudiantes adquirir práctica en el uso apropiado de los términos exactitud, precisión, sesgo, y errores aleatorios y sistemáticos. Los resultados del laboratorio E también exigen que los estudiantes analicen detenidamente las mediciones individuales y que aprendan a estar al tanto de las anomalías. Ejercicio 2. El segundo grupo de seis resultados obtenido por el laboratorio A tiene la misma media que el primer grupo, lo que confirma que este laboratorio produce resultados sin un sesgo significativo (errores sistemáticos pequeños o de autoanulación). Sin embargo, en el segundo grupo de resultados la dispersión es mayor (precisión más pobre: el rango es 40,8- 43,3 g l-1). Así pues, a pesar de que el valor medio es exacto, al menos dos de las interpretaciones individuales no lo son. Los resultados reflejan la diferencia entre repetibilidad (es decir, precisión dentro de días) y reproducibilidad (precisión entre días). Puede pedir a los estudiantes que identifiquen los factores que contribuyen a los errores aleatorios más grandes en las mediciones entre días, tales como la utilización de piezas distintas en los aparatos, la estabilidad de las muestras y los reactivos, las variaciones en la temperatura del laboratorio, etc. Ejercicio 3. Los preparados de anticuerpos monoclonados se obtienen siguiendo la fusión de una célula productora de anticuerpos (célula de plasmática) con una célula (cancerosa) del mieloma anormal. El resultado es que todos los anticuerpos generados son idénticos, en contraste con los anticuerpos obtenidos a partir de mezclas normales de células plasmáticas, que muestran una heterogeneidad pronunciada. Así pues, en un experimento del tipo descrito, el número de sitios de unión por molécula debe ser un número entero (evidentemente, dos en este caso). Por tanto, los resultados son precisos, pero muestran una clara evidencia de sesgo hacia valores bajos. Este sesgo es, probablemente, un artefacto del método experimental utilizado en la determinación del número de sitios de unión. En este ejemplo, la falta de exactitud tanto de los resultados individuales como del valor medio (que no necesita ser calculado) tiene poca importancia, dado que la respuesta correcta es obvia. 9 © Pearson Educación, S.A. Estadística y Quimiometría para Química Analítica, 4ª Edición Los estudiantes deberían darse cuenta de que este es un caso bastante raro de un experimento en el que el resultado correcto puede deducirse claramente a partir del resultado experimental, permitiendo así que se averigüen el grado de sesgo y la exactitud de forma inmediata. Debería invitar a los estudiantes a considerar otros casos en los que surge la misma situación, por ejemplo: el número de moléculas de agua de la cristalización en un complejo inorgánico es normalmente un número entero. Ejercicio 4. (i) Al igual que muchos analitos bioquímicos, la concentración de lactato en sangre humana varía ampliamente entre pacientes sanos (aproximadamente 5-20 mg 100 ml -1 en adultos) y también varía, en menor grado, en el mismo individuo en distintos momentos. Si se analiza ésta última variación (intraindividual), la exactitud no será importante, pero se necesitarán mediciones precisas; los errores experimentales deben ser pequeños si se comparan con las variaciones individuales. Si se realiza una sola medición para comprobar si el individuo se encuentra o no dentro del “intervalo normal” de lactato en sangre, se requerirá menos precisión, pero un sesgo más grande podría llevar a un diagnóstico equivocado. (ii) El contenido de uranio de los minerales se estudia con vistas a una extracción económicamente rentable del elemento. Así pues, no es necesaria una gran precisión, pero un sesgo considerable (positivo o negativo) podría provocar decisiones económicamente desastrosas. (iii) En este análisis, la velocidad es esencial, de manera que son poco importantes la exactitud y la precisión. A medida que el paciente intoxicado se recupera, debería controlarse el nivel de la droga en el plasma sanguíneo para asegurarse de que va descendiendo. Dado que se trata del estudio de una pauta, la precisión es más importante que la falta de sesgo. (iv) Una vez más, el objetivo principal es detectar cambios en el resultado del análisis. Dado que estos cambios pueden ser muy pequeños, es necesaria una buena precisión para detectar cualquier pauta, pero la exactitud no es tan esencial. Un requisito muy importante es la estabilidad y la reproducibilidad diaria del aparato de medición; en la práctica, éste instrumento debería graduarse todos los días con ayuda de un estándar de estabilidad probada. Es de esperar que los estudiantes utilicen el sentido común y la pericia estadística al responder estas preguntas, que son una manera de recordar que factores tales como el coste, la velocidad, etc. suelen ser tan importantes en la práctica como la precisión, el sesgo, etc. Ejercicio 5. (i) En este experimento, la fuente de error más probable es que la muestra tomada no es representativa del metal en conjunto, y por tanto, puede proporcionar un valor completamente engañoso para el grueso del contenido de Fe (el muestreo se trata en el Capítulo 4). Surgirán errores sistemáticos si la reducción de Fe(III) a Fe(II) no es completa, o si hay un error de indicador considerable. Los errores sistemáticos distintos del error de muestreo pueden comprobarse con la ayuda de una muestra de metal estándar (éstas muestras están disponibles comercialmente, acompañadas de un valor Fe certificado). Otro problema, que no se resuelve necesariamente utilizando la muestra estándar, es la posibilidad de que otros elementos en estados de oxidación bajos sean valorados con sulfato cérico, proporcionando un resultado falsamente elevado para el hierro. Los errores aleatorios en el análisis volumétrico se tratan en las primeras secciones del capítulo en el libro de texto. (ii) Además de los errores sistemáticos que se tratan en el apartado (i), la formación y/o extracción quelatante incompleta presentarán los mayores problemas en este caso. De nuevo, esos errores podrían detectarse con la ayuda de una muestra de metal de contenido conocido de Fe. Si se aplica el procedimiento experimental a dicho material de referencia y la recuperación de Fe es <100% (contando con los errores aleatorios), sería recomendable corregir el contenido de Fe de las muestras de prueba para esta recuperación incompleta. (En otras áreas de aplicación, como el análisis de alimentos, todavía existe una gran controversia en cuanto al uso rutinario de las correcciones). El análisis colorimétrico probablemente utilizará una serie de estándares Fe y un procedimiento gráfico para calcular el resultado y los errores aleatorios: estos métodos se tratan con más detalle en el Capítulo 5. 10 © Pearson Educación,S.A. Estadística y Quimiometría para Química Analítica, 4ª Edición (iii) Los errores aleatorios en el análisis gravimétrico deberían ser muy pequeños y los errores sistemáticos directamente asociados al proceso de pesada se pueden minimizar aplicando una técnica esmerada (véase la Sección 1.4). Las fuentes de error más probables en esta determinación son químicas y se suelen tratar largo y tendido en los manuales de análisis tradicional; por ejemplo, el problema de la coprecipitación de otros iones. De nuevo, estas respuestas se apoyan tanto en el sentido común como en los conocimientos generales de los alumnos sobre métodos de análisis básico, así como en cualquier pericia estadística. Ejercicios del Capítulo 2 Ejercicio 1. La solución a este problema se puede obtener utilizando las teclas de función de una calculadora. Utilizando seis decimales, las teclas dan: x = 0,076667 μg g-1, s = 0,007071 μg g-1. Hasta un grado prudente de exactitud, los datos podrían expresarse como 0,077 y 0,007, respectivamente. Desviación estándar relativa = 100s / x = 100 × 0,00707/0,077 = 9,22%, que se puede redondear a 9%. Ejercicio 2. Para los resultados proporcionados, x = 5,16286, s = 0,026903, n = 7. (i) Utilizando el método de la Sección 2.7, para los límites de confianza al 95%, obtenemos: x tn s / n = 5,16286 ± (2,45 × 0,026903/ 7) = 5,16286 ± 0,02494 = 5,163 ± 0,025. (ii) Del mismo modo, los límites de confianza al 99% vienen dados por 5,16286 ± (3,71 × 0,026903 / 7) = 5,16286 ± 0,0377 = 5,163 ± 0,038. Ejercicio 3. En este caso, x = 22,32 ng ml-1, s = 1,37663 ng ml-1. Así pues, la desviación estándar relativa = 100 × 1,37663/22,32 = 6,1677%. Se obtiene un grado prudente de exactitud dando respuestas como x = 22,3 ng ml-1, s = 1,4 ng ml-1, DER = 6,2%. Los límites de confianza al 99%, utilizando el valor t, 3,25, vienen dados por 22,32 ± (3,25 × 1,37663/10) = 22,32 ± 1,414818 = 22,3 ± 1,4 ng ml-1. Para el segundo conjunto de resultados, x = 12,83333 ng ml-1, s = 0,952190 ng ml-1. Así pues, la desviación estándar relativa = 100 × 0,952190/12,83333 = 7,4197%. Las respuestas se pueden proporcionar como x = 12,83 ng ml-1, s = 0,95 ng ml-1, DER = 7,4%. Los límites de confianza al 99% vienen dados por 12,83333 ± (4,03 × 0,952190/6) = 12,83333 ± 1,56658 = 12,8 ± 1,6 ng ml-1. Ejercicio 4. Tanto la Ecuación (2.8) como la (2.9) se pueden utilizar en este problema, pero la última es más exacta, de manera que obtenemos límites de confianza al 95% dado que x ± tn s / n = 10,12 ± (2,01 × 0,64 / 50) = 10,12 ± 0,18 ng ml-1. La amplitud de este intervalo de confianza = 2 × 0,18 = 0,36 ng ml-1. Se necesita un intervalo más estrecho y, por tanto, un tamaño de muestra mayor. En este caso, al utilizar la Ecuación (2.8) en lugar de la (2.9) se introduce un pequeño error. La amplitud del intervalo de confianza al 95% proporcionado por la Ecuación (2.8) es 2 × 1,96 × s / n, de manera que podemos escribir 0,2 = 2 × 1,96 × 0,64 / n. Esto conduce al resultado n = 2 × 1,96 × 0,64/0,2 = 12,544, así que n = 157, es decir, se necesita un tamaño de muestra de aproximadamente 160. Si el tamaño de muestra no fuera lo suficientemente grande como para permitir utilizar la Ecuación (2.8), se necesitaría aplicar el método de ensayo y error con la Ecuación (2.9). Ejercicio 5. Los límites de confianza al 95%, calculados como siempre, aplicando x ± tn s / n, vienen dados por 49,5 ± (2,26 × 1,5/ 10) = 49,5 ± 1,1 ng ml-1. El intervalo de confianza incluye 50,0 ng ml-1, lo que indica ausencia de error sistemático. 11 © Pearson Educación, S.A. Estadística y Quimiometría para Química Analítica, 4ª Edición Ejercicio 6. En este problema parecido al anterior, los límites de confianza al 95% vienen dados por 10,178 ± (2,78 × 0,18539/ 5) = 10,18 ± 0,23 ml. Este intervalo incluye 10,00 ml, así que de nuevo, no hay pruebas de error sistemático. Ejercicio 7. A partir de la Ecuación (2.11), la desviación estándar de la cantidad de reactivo utilizada = (0,0001)2 + (0,0001)2 = 0,00014 g. Para 250 ml de una disolución 0,05 M, el peso del reactivo (de peso molecular 40) necesario = 40 × 0,25 × 0,05 = 0,5 g. Así pues, la DER de este peso es 100 × 0,00014/0,5 = 0,028%. La DER del volumen es, igualmente, 100 × 0,05/250 = 0,02%. Utilizando la Ecuación (2.13), la DER de la molaridad viene dada por 0,0282 + 0,022 = 0,034%. Para 250 ml de una disolución 0,05 M, el peso necesario de un reactivo con peso molecular 392 = 392 × 0,25 × 0,05 = 4,9 g. La DER de este peso = 100 × 0,00014/4,9 = 0,0029%. La DER del volumen = 100 × 0,05/250 = 0,02%, como antes. Al utilizar la Ecuación (2.13), la DER de la molaridad = 0,00292 + 0,022 = 0,020%. Este ejemplo ilustra cómo, cuando se combinan dos DER, la mayor de ellas domina en el resultado final. A pesar de que la DER del peso se reduce diez veces en el segundo cálculo, el valor de la DER del volumen no varía. En consecuencia, la DER en la molaridad del segundo cálculo sólo se reduce aproximadamente un 40%. Ejercicio 8. Partiendo de la definición del producto de solubilidad, se puede demostrar que la solubilidad del sulfato de bario = 1,3 × 10-10 = 1,14 × 10-5 M. La DER del producto de solubilidad = 100 × 0,1 × 10-10 / 1,3 × 10-10 = 7,7%. Utilizando la Ecuación (2.15), la DER de la solubilidad es la mitad de la DER del producto de solubilidad, es decir, 0,5 × 7,7% = 3,85%. Así pues, la desviación estándar de la solubilidad = (DER de la solubilidad × media)/100 = 3,85 × 1,14 × 10-5/100 = 0,44 × 10-6 M. Ejercicios del Capítulo 3 Ejercicio 1. La Figura 3.A muestra una gráfica de probabilidad normal obtenida utilizando Minitab. Figura 3.A 12 © Pearson Educación, S.A. Estadística y Quimiometría para Química Analítica, 4ª Edición El diagrama muestra puntos muy próximos a una línea recta y esparcidos aleatoriamente alrededor de ella. Esto sugiere que los datos podrían haberse obtenido de una población normal. Se puede hacer una estimación de la media observando el valor correspondiente a una frecuencia acumulada del 50%, dando aproximadamente 10,2. De hecho, los números fueron generados por un ordenador como muestra aleatoria de una población normal con media 10 y desviación estándar 1. Esta opción está disponible, por ejemplo, en Minitab. De modo alternativo, los datos se pueden ordenar y representar frente al porcentaje de frecuencia acumulada en un papel probabilístico normal. A continuación se proporciona la tabla de valores para hacerlo. Valor % de frecuencia acumulada 8,71 5 8,82 10 8,92 15 9,17 20 9,53 25 9,83 30 9,84 35 9,90 40 10,04 45 10,30 50 10,31 55 10,32 60 10,40 65 10,65 70 10,91 75 11,12 80 11,68 85 11,69 90 11,88 95 Ejercicio 2. Calcular t = (véase la Ecuación (3.1)). Para la muestra 1, t = = -1,54, dando ltl = 1,54. Los valores de ltl para las otras muestras son 1,60, 1,18 y 1,60. Hay siete grados de libertad y el valor crítico de |t| es 2,36. Ninguno de los valores calculados excede este valor, de manera que ninguno de los valores medios medidos difiere significativamente del valor certificado correspondiente. Ejercicio 3. (a) Se puede utilizar tanto el contraste de Dixon como el de Grubbs. En primer lugar, es preciso ordenar los valores por tamaño: 1,84 1,85 1,91 1,92 1,92 1,94 2,07. Para aplicar el contraste de Dixon, utilicemos la Ecuación (3.8): Q = |valor sospechoso valor más cercano| / (valor más grande - valor más pequeño) = = 0,565. El valor crítico de la Q (P = 0,05) para un tamaño muestral 7 es 0,570, por lo que no se rechaza la medida sospechosa al nivel del 5%. Como alternativa, para aplicar el contraste de Grubbs, utilicemos la Ecuación (3.9): G = |valor sospechoso – x | / s = = 1,984. 13 © Pearson Educación, S.A. |2,07 1,94| 2,07 1,84 x - μ s / n 0,482 - 0,496 0,0257/8 |2,071,92| 0,0756 Estadística y Quimiometría para Química Analítica, 4ª Edición El valor crítico (P = 0,05) es 2,02. Así pues, el valor sospechoso tampoco se rechaza al nivel de significación del 5%. (b) Utilice un contraste F. A partir de la Ecuación (3.7), F = , donde s1 y s2 se disponen en la ecuación de modo que F ≥ 1, siendo F = 0,44052 / 0,075592 = 34. El valor crítico es F7.7 = 4,995 (P = 0,05) para un contraste de dos colas. Ya que el valor calculado de F excede a éste, queda constancia de que las varianzas difieren significativamente al nivel de significación del 5%. Observe que los cálculos tanto en el apartado (a) como en el (b) presuponen que las muestras se han extraído de poblaciones normales. No hay datos suficientes en este ejemplo para elaborar una gráfica de probabilidad normal: resultaría útil debatir con los alumnos sobre la probabilidad de que los datos se distribuyan normalmente (es decir, cuando una variable se mide para un número de personas distintas). Ejercicio 4. (a) Utilice un contraste F. A partir de la Ecuación (3.7), F = , donde s1 y s2 se disponen en la ecuación de modo que F ≥ 1. Las varianzas son 183,95 para la muestra de pepino y 108,48 para la muestra de tomate (unidades μg2 g-2), dando F = 183,95/108,48 = 1,70. El valor crítico es F6,6 = 5,82 (P = 0,05) para un contraste de dos colas. Ya que el valor calculado de F no excede a este, llegamos a la conclusión de que las varianzas no difieren significativamente. (b) Dado que las varianzas no difieren de forma significativa, se pueden combinar utilizando la Ecuación (3.3) para calcular una estimación global de varianza. s2 = = = 146,215 s = 12,09. Las medias de muestra son 780,9 para el pepino y 772,6 para el tomate (unidades μg g- 1). Si utilizamos la Ecuación (3.2), t = = = 1,28. Para un contraste de dos colas, el valor crítico es 2,18 (P = 0,05), de manera que las medias no difieren de forma significativa. De nuevo, los cálculos de esta pregunta y de todas las siguientes de este ejercicio presuponen que las muestras se obtienen de poblaciones normales. En este caso, esta sería una suposición lógica ya que los valores de muestra son medidas de réplica. Ejercicio 5. En este ejemplo, es necesario comparar varias medias de muestra distintas y, por tanto, el análisis de varianza es apropiado. La tabla que aparece a continuación muestra el resultado de llevar a cabo un ANOVA de un factor utilizando Minitab. El cuadrado medio entre muestras = 2121,9 y el cuadrado medio dentro de muestras = 8,10. La tabla muestra que el agua recuperada difiere significativamente entre distintas profundidades, dado que F = 292 (entero más próximo) y que la probabilidad de este resultado es 0,000 hasta tres cifras significativas. [El valor crítico de F3,20 (P = 0,05, contraste de una cola) es 3,098]. 14 © Pearson Educación, S.A. s 1 2 s 2 2 s 1 2 (n 1 1) + (n 2 1) s 2 2 n 1 + n 2 - 2 6×183,95+6×108,48 7+7-2 (x 1 x 2 ) √s +1n 1 1 n 2 780,9 – 772,6 12,09√ +1 177 s 1 2 s 2 2 Estadística y Quimiometría para Química Analítica, 4ª Edición Análisis de la varianza de factor único Análisis de varianza Fuente gl SC CM F Valor de P Factor 3 6365,71 2121,90 261,92 0,000 Error 20 162,03 8,10 Total 23 6527,74 IC al 95% individual para la media basada en la desviación estándar conjunta Nivel N Media Desviación estándar ++++ Profundidad 7 m 6 34,117 2,453 (*) Profundidad 8 m 6 45,367 1,571 (*) Profundidad 16 m 6 72,233 2,111 (*) Profundidad 23 m 6 70,36 4,412 (*) ++++ Desviación estándar conjunta = 2,846 36 48 60 72 El análisis Minitab incluye un diagrama que muestra el intervalo de confianza para la media en cada nivel, calculado con el valor de la desviación estándar conjunta, que en este caso es igual a 8,1014 = 2,846. Este diagrama indica que el resultado significativo se debe a que los dos primeros niveles difieren entre sí y, a la vez, son diferentes de los dos niveles más bajos. Se puede comprobar esta afirmación calculando la mínima diferencia significativa = s2 / n × th (n-1) = 8,1014 × 2 / 6 × t4x5. Si tomamos t20 = 2,09 (P = 0,05, contraste de dos colas), obtenemos una mínima diferencia significativa de 3,43. Las medias, en orden ascendente de tamaño, son 34,1 (a 7 m), 45,4 (a 8 m), 70,4 (a 23 m) y 72,2 (a 16 m). Las diferencias entre medias consecutivas son 11,3, 25,0 y 1,8. Comparando estas diferencias con la mínima diferencia significativa, observamos que no existe diferencia significativa entre las dos profundidades más bajas: el resultado significativo se debe a que los dos resultados más altos se diferencian significativamente entre sí y, a la vez, son diferentes de las dos profundidades más bajas. En la Sección 3.9 ya se mencionó que el método de la mínima diferencia significativa no es riguroso al cien por cien, debido a que es equivalente a obtener una diferencia significativa entre dos medias para cada par de muestras (véase la Sección 3.3). Si la hipótesis nula es verdadera y las medias muestrales son todas iguales, la probabilidad de resultados no significativos para un test al nivel del 5%, utilizando este método, es 0,95n, donde n es el número de pares de muestras posibles. La probabilidad de al menos una diferencia significativa es, por tanto, 1 - 0,95n. En este ejemplo, donde hay seis pares posibles, esta probabilidad es 0,265, considerablemente superior al nivel significativo global necesario del 5%. Como consecuencia, el método de la mínima diferencia significativa puede proporcionar un par de valores que difieran significativamente, incluso cuando el cálculo del ANOVA global muestra que no hay diferencia significativa entre las medias. La homogeneidad de la varianza es un supuesto que se obtiene al realizar el ANOVA. Minitab permite contrastar ese supuesto. El resultado obtenido se ilustra a continuación. 15 © Pearson Educación, S.A. Estadística y Quimiometría para Química Analítica, 4ª Edición Homogeneidad de la varianza Respuesta C13 Factores C14 Nivel de confianza 95,0000 Intervalos de confianza de Bonferroni para desviaciones estándar Inferior Sigma Superior N Niveles del factor 1,36210 2,45309 8,1517 6 1 0,87207 1,57056 5,2190 6 2 1,17193 2,11061 7,0136 6 3 2,44985 4,41210 14,6616 6 4 Prueba de Bartlett (distribución normal) Estadístico de la prueba : 5,575 Valor P : 0,134 Prueba de Levene (cualquier distribución continua) Estadístico de la prueba : 1,260 Valor P : 0,315 Los valores P están por encima de 0,05, demostrando que el supuesto de homogeneidad de la varianza para este ejemplo es válido. El manual del Minitab proporciona más detalles sobre estas pruebas y referencias para la prueba de Levene. La Bibliografía del Capítulo 3 también ofrece referencias de textos sobre pruebas de homogeneidad de varianza. Ejercicio 6. En primer lugar, es necesario emplear un contraste F para comprobar si las varianzas de las dos muestras difieren de forma significativa. A partir de la Ecuación (3.7), F= , donde s1 y s2 se disponen en la ecuación de modo que F ≥ 1. Las varianzas son 0,01577 para la muestra de hombres y 0,0026667 para la muestra de mujeres (unidades μmol2 g-2), siendo F = 0,01577/0,0026667 = 5,9135. El valor crítico es F7,3 = 14,62 (P = 0,05) para un contraste de dos colas. Ya que el valor calculado de F no excede a éste, la conclusión que deriva de este ejercicio es que las varianzas no difieren significativamente. Como consecuencia, se pueden combinar las varianzas y realizar un contraste de diferencia entre medias utilizandola Ecuación (3.2). En primer lugar, se calcula la estimación conjunta de la varianza a partir de la Ecuación (3.3): s2 = = = 0,011844 s = 0,109. Utilizando la Ecuación (3.2), t = = = 1,20. El valor crítico, t10 = 2,23 (P = 0,05, contraste de dos colas). Como el valor experimental de |t| es inferior a éste, no existe constancia de que la concentración de norepinefrina difiera entre sexos. Ejercicio 7. La hipótesis nula es que todos los dígitos son iguales, por lo que la frecuencia esperada para cada uno es 50/10 = 5. Utilizamos un contraste chi-cuadrado con el estadístico X2 calculado en la Ecuación (3.12). El cálculo se plantea más fácilmente en una tabla como la siguiente. 16 © Pearson Educación, S.A. s 1 2 s 2 2 (n 1 – 1)s 1 + (n 2 – 1)s 2 n 1 + n 2 - 2 2 2 7 × 0,01577 + 3 × 0,0026667 8 + 4 - 2 (x 1 x 2 ) √s +1n 1 1 n 2 0,40 – 0,32 0,109√ +1 148 Estadística y Quimiometría para Química Analítica, 4ª Edición Dígito Frecuencia observada, Oi Frecuencia esperada, Ei (Oi – Ei)2/Ei 0 1 5 3,2 1 6 5 0,2 2 4 5 0,2 3 5 5 0 4 3 5 0,8 5 11 5 7,2 6 2 5 1,8 7 8 5 1,8 8 3 5 0,8 9 7 5 0,8 Total, X2 = 16,8 Hay 9 grados de libertad y el valor crítico es 16,92 (P = 0,05). El resultado no es significativo al nivel del 5%, por lo que a este nivel de significación no hay suficientes pruebas para afirmar que se prefieren unos dígitos a otros. No obstante, la frecuencia del dígito 5 es mucho más alta que las otras frecuencias y, como siempre, merece la pena obtener más pruebas. Ejercicio 8. Para cada material, primeramente es necesario emplear el contraste F para probar si las varianzas de las dos muestras difieren significativamente. Si partimos de la Ecuación (3.7), F = , donde s1 y s2 se disponen en la ecuación de modo que F ≥ 1. El valor crítico es F4.4 = 9,605 (P = 0,05, contraste de dos colas). Los valores experimentales de F son: Pino: 0,262/0,142 = 3,449 Haya: 0,802/0,442 = 3,306 Planta acuática: 4,662/2,632 = 3,139. Ningún valor es significativo y, por tanto, se pueden combinar las varianzas utilizando la Ecuación (3.3). s2 = . Al realizar la sustitución, obtenemos los siguientes valores de s2 para los tres materiales: Pino: 0,0436 Haya: 0,4168 Planta acuática: 14,316. Con la Ecuación (3.2), t = , se obtienen los siguientes valores de |t|: Pino: 2,27 Haya: 5,27 Planta acuática: 3,73. Para un contraste de dos colas, los valores críticos son t8 = 2,31 (P = 0,05) y t8 = 3,39 (P = 0,01), lo que significa que las medias no difieren significativamente al nivel del 5% para las muestras de pino, pero sí difieren al nivel de significación del 1% en las muestras de haya y de planta acuática. 17 © Pearson Educación, S.A. s 1 2 s 2 2 (n 1 – 1)s 1 + (n 2 – 1)s 2 n 1 + n 2 - 2 2 2 (x 1 x 2 ) √s +1n 1 1 n 2 Estadística y Quimiometría para Química Analítica, 4ª Edición Ejercicio 9. (a) La hipótesis nula es que el primer trabajador no difiere de los otros tres. Esto significa que se espera que el primer trabajador tenga 15,25 roturas y que los otros tres tengan en total 15,25 × 3 = 45,75 roturas. En este ejemplo, el número de grados de libertad es 1; así pues, se debería aplicar la corrección de Yates. A continuación se muestra el cálculo realizado en una tabla, donde Oi es la frecuencia observada y Ei la frecuencia esperada: Oi Ei |Oi - Ei | |Oi - Ei | - ½ {|Oi - Ei | - ½}2/Ei 24 15,25 8,75 8,25 4,463 37 45,75 8,75 8,25 1,488 Total, X2 = 5,951 El valor crítico para el grado de libertad 1 es 3,84 (P = 0,05). Dado que 5,9513,84, la hipótesis nula se descarta: hay evidencia de que el primer trabajador difiere de los otros tres. Observemos que el contraste no muestra en qué dirección difiere el primer trabajador de los otros. Esto se debe deducir a partir de los datos. En este caso, es evidente que el primer trabajador es más propenso a los accidentes. (b) La hipótesis nula es que el segundo, tercero y cuarto trabajadores no difieren entre sí. Si este es el caso, entonces se espera que el número total de roturas de 37 se divida por igual entre cada uno de ellos, obteniendo frecuencias esperadas de 37/3. El cálculo de X2 se muestra en la siguiente tabla. Frecuencia observada, Oi Frecuencia esperada, Ei |Oi - Ei |2/Ei 17 37/3 1,77 11 37/3 0,14 9 37/3 0,90 Total, X2 = 2,81 Existen dos grados de libertad; así pues, el valor crítico (P = 0,05) es 5,99. El resultado no es significativo y no hay datos para afirmar que los tres últimos trabajadores difieren significativamente en la falta de cuidado de cada uno de los otros. Ejercicio 10. El contraste t para datos emparejados es el más adecuado para este ejemplo, ya que se emplean dos métodos en un número de muestras. Las diferencias entre la primera y la segunda medición son 1,5, 1,4 y 0,7 para la primera, segunda y tercera muestras, respectivamente. La media de estos valores es d = -0,73333 y su desviación estándar es sd = 1,2423. Si tomamos la Ecuación (3.6): t = = = -1,02. El valor experimental de |t| es 1,02 y el valor crítico, t2, es 4,30 (P = 0,05, contraste de dos colas). Los resultados obtenidos por los dos métodos no difieren significativamente. Con frecuencia, los estudiantes tienen dificultades a la hora de decidir si resulta apropiado aplicar un contraste para datos emparejados o uno para datos no emparejados. Si los tamaños muestrales son distintos (como en el Ejercicio 6), entonces está claro que no se puede llevar a cabo un contraste para datos emparejados. Pero, ¿qué ocurre cuando los tamaños muestrales son iguales? Para resolver este problema, basta con indagar si se altera el significado de los datos cuando se altera el orden de una muestra. Por ejemplo, en esta pregunta, ¿se alterará el significado de los datos si se modifica el orden de los valores para el método enzimático en la tabla a 21,6, 31,1 y 31,0? Claramente, la respuesta es “sí” porque el valor 29,6 se asigna ahora a la muestra número 1, en lugar de a la muestra número 2, como ocurría anteriormente. Compárese esta situación con la del Ejercicio 4. En este caso, existen números iguales de medidas en ambas muestras, pero la interpretación de los datos no se ve afectada si se modifica el orden de los valores. Ejercicio 11. Esta es una pregunta para la que se requiere comparar varias medias, por lo que el análisis de varianza es el método apropiado. A continuación se muestra el resultado de un ANOVA de un factor utilizando Minitab. 18 © Pearson Educación, S.A. s d d n 1,2423 -0,73333 3 Estadística y Quimiometría para Química Analítica, 4ª Edición Análisis de varianza de un factor Análisis de varianza Fuente gl SC CM F P Factor 5 0,5718 0,1144 2,57 0,048 Error 30 1,3357 0,0445 Total 35 1,9075 IC al 95% individual para la media basada en la desviación estándar conjunta Nivel N Media Desviación estándar ++++ A 6 84,537 0,121 (*) B 6 84,222 0,142 (*) C 6 84,402 0,146 (*) D 6 84,243 0,158 (*) E 6 84,158 0,275 (*) F 6 84,293 0,332 (*) ++++ Desviación estándar conjunta = 0,211 84,00 84,20 84,40 84,60 El cuadrado medio entre muestras = 0,1144 y el cuadrado medio dentro de muestras = 0,0445. Esto da como resultado F = 2,57. La probabilidad de este valor (o un valor superior) es 0,048. Como esta cantidad es menor que 0,05, el resultado es significativo al nivel del 5%; a este nivel significativo hay evidencia de que las medias obtenidas por los analistas difieren. Mínima diferencia significativa = s2 / n × th(n-1) = 0,0445 × 2/ 6 × t65. Si tomamos t30 = 2,04 (P = 0,05, contraste de dos colas), se obtiene una mínima diferencia significativa de 0,25. La comparación entre pares de trabajadores sugiere que el resultado significativo se debe a que el trabajador A difiere de los trabajadores B, D y E. Sin embargo, obsérvese el comentario del Ejercicio 5 sobre el nivel de significación efectivo cuando se emplea el método de la mínima diferencia significativa. En este caso, hay 15 pares posibles de muestras para comparar, obteniendo un nivel de significación efectivo de 1 0,9515 = 0,54 para este método. Esto señala que algunas diferencias significativas entre analistas podrían deberse a una variación aleatoria más que una diferencia real entre medias de población. No obstante, téngase en cuenta que los intervalos de confianza para los analistas A y E del diagrama anterior no se solapan. La homogeneidad de varianza es un supuesto que se obtiene al realizar el ANOVA. Minitab permite contrastar ese supuesto. El resultado obtenido se ilustra a continuación. Homogeneidad de la varianza Respuesta C1 Factores C2 Nivel de confianza 95,0000 Intervalos de confianza de Bonferroni para desviaciones estándar Inferior Sigma Superior N Niveles del factor 0,065240 0,120941 0,43805 6 1 0,076396 0,141622 0,51295 6 2 0,078723 0,145934 0,52857 6 3 0,085407 0,158325 0,57345 6 4 0,148299 0,274912 0,99573 6 5 0,179324 0,332425 1,20404 6 6 19 © Pearson Educación, S.A. Estadística y Quimiometría para Química Analítica, 4ª Edición Prueba de Bartlett (distribución normal) Estadístico de la prueba : 8,277 Valor P : 0,141 Prueba de Levene (cualquier distribución continua) Estadístico de la prueba : 2,071 Valor P : 0,097 (El Ejercicio 5 proporciona referencias para obtener más detalles acerca de estas pruebas). Ejercicio 12. La media de los hombres es = 40,0 y la desviación estándar = 2,777 g l-1. La media de las mujeres es = 43,25 y la desviación estándar = 3,059 g l-1. En primer lugar, es necesario utilizar el contraste F para comprobar si las varianzas de las dos muestras difieren significativamente. Si tomamos la Ecuación (3.7), F = , donde s1 y s2 se disponen en la ecuación de modo que F ≥ 1, siendo F = 3,0592/2,7772 = 1,21. El valor crítico es F7.7 = 4,995 (P = 0,05) para un contraste de dos colas. Ya que el valor calculado de F no excede a éste, llegamos a la conclusión de que las varianzas no difieren significativamente. Como consecuencia, se pueden combinar las varianzas y realizar un contraste de diferencia entre medias utilizando la Ecuación (3.2). En primer lugar, se calcula la estimación conjunta de la varianza a partir de la Ecuación (3.3): s2 = = = 8,5346 s = 2,92. Utilizando la Ecuación (3.2), t = = = -2,23. El valor crítico, t14 = 2,14 (P = 0,05, contraste de dos colas). Como el valor experimental de |t| es superior a éste, las concentraciones medias de albúmina para hombres y mujeres difieren significativamente. Ejercicio 13. Un contraste t para datos emparejados es el más adecuado para este ejemplo, dado que se emplean dos métodos para un número de muestras (véase el Ejercicio 10 para consultar las formas de ayudar a los estudiantes a decidir si un contraste para datos emparejados es el más adecuado). Las diferencias entre la primera y la segunda medición son: 2,8; 0,3; 0,9; 0,9; 1,1; 1,1. La media y la desviación estándar de estas diferencias son d = 1,183 y sd = 0,845, respectivamente. Si tomamos la Ecuación (3.6): t = = = 3,43. El valor experimental de |t| es 3,43 y el valor crítico, t5, es 2,57 (P = 0,05, contraste de dos colas). Los resultados obtenidos por los dos métodos sí difieren significativamente. Ejercicio 14. Supongamos que n es el tamaño de muestra requerido y que xc es el valor crítico para la media muestral. Si H0 es verdadera, entonces la distribución muestral de la media será normal con media 3,00 y desviación estándar = 0,036/n. Necesitamos que P (media muestral ≥ xc) = 0,01. Esto significa que F(z) = 0,99 (véase Sección 2.2). Partiendo de la Tabla A.1 del Apéndice, el valor correspondiente de z es 2,33. Si utilizamos la Ecuación (2.4), obtenemos: z = = ; así pues, 2,33 = . 20 © Pearson Educación, S.A. s 1 2 s 2 2 (n 1 – 1)s 1 + (n 2 – 1)s 2 n 1 + n 2 - 2 2 2 7 × 3,0592 + 7 × 2,7772 8 + 8 - 2 (x 1 x 2 ) √s +1n 1 1 n 2 40,0 – 43,25 2,92√ +1 188 s d d n 0,845 1,183 6 σ x - μ x c - μ σ / n x c - 3,00 0,036 / n Estadística y Quimiometría para Química Analítica, 4ª Edición Si ordenamos los datos, obtenemos xc - 3,00 = 2,33 × . (1) Si H1 es verdadera, entonces la distribución muestral de la media será normal con media 3,05 y desviación estándar = 0,036/ n. Necesitamos que P (media muestral ≤ xc) = 0,01. Esto significa que F (z) = 0,01. Tomando la Tabla A.1 como referencia, el valor correspondiente de z es -2,33. Si utilizamos la Ecuación (2.4), obtenemos: z = = ; así pues, -2,33 = . Si ordenamos los datos, obtenemos xc - 3,05 = -2,33 × . (2) Si restamos la Ecuación (2) a la Ecuación (1), obtenemos: 0,05 = 2 × 2,33 × . Al resolver esta ecuación, obtenemos n = 11,2, cifra que redondeamos al número entero más cercano, es decir, 12. Ejercicios del Capítulo 4 Ejercicio 1. En este ejercicio se utilizan los principios de la estrategia de muestreo que se resumen en la Sección 4.4. Para cada uno de los esquemas de muestreo, la varianza global, 2, posee distintas contribuciones que se obtienen de la varianza de las medidas, 0 (aquí = 4) y de la varianza muestral, 1 (aquí = 10). Sin embargo, estas contribuciones no son iguales en los dos esquemas. En el Esquema 1, la mezcla de los cinco incrementos de muestra (h) junto con las medidas duplicadas (n) sobre la mezcla da un valor 2 de 0 /n + 1 /h = 4/2 + 10/5 = 4. En el Esquema 2 se realiza un análisis por duplicado de cada uno de los tres incrementos, por lo que el valor de 2 viene determinado por 0 /nh + 1 /h = 4/[2 × 3] + 10/3 = 4, como en el otro esquema. Se pueden comparar los costes relativos de ambos esquemas si tomamos S como el coste de muestreo y A como el coste del análisis. De este modo, el coste total en el Esquema 1 es 5S + 2A, mientras que en el Esquema 2 es 3S + 6A. Intentamos buscar situaciones para que el último coste sea más bajo, es decir, 5S + 2A > 3S + 6A, o bien 2S > 4A, o bien S > 2A. El Esquema 2, que implica menos muestreos pero más análisis, resulta más económico sólo si el coste de muestreo es mayor que el doble del coste del análisis. Se puede animar a los estudiantes a que consideren casos opuestos en los que el proceso de muestreo sea el paso menos económico (por ejemplo, cuando los materiales a granel son tóxicos, radiactivos, casi inaccesibles, etc.) y otros factores relevantes como el tiempo que llevan los pasos de muestreo y de análisis. Ejercicio 2. Este es un ejemplo sencillo de cálculos del ANOVA con un factor de efecto aleatorio: aparte del error inevitable en la medida, varianza 0, cualquier variación que se produzca en la concentración de albúmina día a día también será aleatoria, con una varianza 1. A continuación se muestran los cálculos de la salida del ANOVA proporcionados por Excel. 21 © Pearson Educación, S.A. 0,036 n σ x - μ x c - μ σ / n x c - 3,05 0,036 / n 0,036 n 0,036 n 2 2 2 2 2 2 2 2 Estadística y Quimiometría para Química Analítica, 4ª Edición Anova de un factor RESUMEN Grupos Frecuencia Suma Promedio Varianza Fila 1 Fila 2 Fila 3 Fila 4 3 3 3 3 186 169 142 170 62 56,333 47,333 56,667 1 0,333 5,333 6,333 ANOVA Fuente de variació n SC gl CM F Valor P F crít Entre días Dentro de días Total 332,92 26,00 358,92 3 8 11 110,97 3,2534,15 6,58E05 4,066 La tabla muestra que la aplicación del contraste F en la comparación de las variaciones entre días y dentro de días (0) da un valor F de 34,15, superior al valor crítico (P = 0,05, contraste de una cola) que es 4,066. La probabilidad de que esto ocurra de forma aleatoria (0,0000658) es mínima, así que podríamos inferir con bastante seguridad que la variación entre días es significativamente mayor que 0. Por tanto, la variación día a día o variación muestral, 1, viene dada (véase la Sección 4.3) por (cuadrado medio entre días cuadrado medio dentro de días)/n = (110,97 – 3,25)/3 = 35,91. Estos cálculos son relativamente fáciles con la ayuda de Excel o de un programa similar. El punto más importante que se debe destacar es que la variación entre días no es una medida directa de 1, ya que incluye una contribución de 0. Los estudiantes también han de tener en cuenta que las concentraciones de proteínas, como la albúmina, en una persona varían en realidad de un día a otro e, incluso, de una hora a otra. Asimismo dependerán de factores como la alimentación, la posición (es decir, si el individuo se encontraba de pie, sentado o tumbado durante la toma de la muestra) y, claro está, su estado de salud. Todos estos factores contribuirán a la “variación muestral”, a menos que se tomen las precauciones adecuadas; por ejemplo, tomar la muestra a la misma hora todos los días. Ejercicio 3. Este ejemplo también requiere el uso de ANOVA con un factor de efecto aleatorio, pero teniendo en cuenta que cualquier variación en las concentraciones de halofuginona en las diferentes partes del hígado está más allá del control experimental. De esta manera, la tabla de ANOVA en Excel abajo indicada es muy parecida, y puesto que los números de las muestras y las medidas repetidas son las mismas que en el Ejercicio 2, el valor crítico de F es el mismo. En este caso, el valor experimental de F también es mayor, por lo que el cuadrado medio entre muestras es demasiado grande como para que se deba únicamente a un error de medida aleatorio. El valor de 0 viene dado por el cuadrado medio dentro de muestras, es decir, 0,000175 y la varianza muestral, 1, viene determinada como en el caso anterior por: (0,000831 0,000175)/3 = 0,000219. Anova de un factor RESUMEN Grupos Frecuencia Suma Promedio Varianza Fila 1 Fila 2 Fila 3 Fila 4 3 3 3 3 0,7 0,61 0,6 0,68 0,2333 0,2033 0,2 0,2267 0,000233 0,000233 1E04 0,000133 22 © Pearson Educación, S.A. 2 2 22 2 2 2 Estadística y Quimiometría para Química Analítica, 4ª Edición ANOVA Fuente de variación SC gl CM F Valor P F crít Entre muestras Dentro de muestras Total 0,002492 0,0014 0,003892 3 8 11 0,000831 0,000175 4,746 0,03475 4,066 Utilizando los mismos principios que en el Ejercicio 1 podemos conocer la varianza total para los dos esquemas de muestreo tal y como aparece a continuación: Esquema 1: 2 = (0,000175/4) + (0,000219/6) = 0,00008025. Esquema 2: 2 = (0,000175/[2 3]) + (0,000219/3) = 0,0001022. Ejercicio 4. El problema más evidente al determinar la capacidad del proceso, , es que no se debe permitir que las variaciones en la media del proceso influyan en el resultado. Esto se consigue calculando un número de distintas estimaciones de en varias ocasiones y realizando el promedio de los resultados. En este caso, si se calculan las seis muestras por separado, sus varianzas son 2,607, 0,697, 1,487, 3,633, 6,417 y 1,927. La media de estos valores es 2,795, cuya estimación de es 1,672. Con un cálculo alternativo y, quizás, más sencillo se puede determinar el rango, R, para cada muestra. Del valor medio, R, se obtiene la estimación de mediante la Ecuación (4.4). En este ejercicio, los valores de rango son 3,4, 2,0, 2,8, 4,1, 5,9 y 2,5. La media de dichos resultados es 20,7/6 = 3,45. Si esto lo dividimos entre el valor apropiado de d1, que es 2,059, obtenemos 1,676 (este valor no es igual que el anterior, ya que la relación entre la desviación estándar y el rango tan sólo es exacta cuando se realiza la media de un número infinito de muestras). Utilizando el valor anterior, las líneas de aviso del diagrama de Shewhart para la media se encuentran a 50 (2 1,672)/4 = 50 1,672 y las líneas de acción a 50 (3 1,672)/4 = 50 2,508. Por otra parte, las líneas de aviso y de acción para este diagrama vienen determinadas por las Ecuaciones (4.9) y (4.10), donde los valores de W y A (0,476 y 0,750, respectivamente), junto con el valor de R, 3,45, dan como resultado 50 1,64 y 50 2,59, respectivamente. Así, podemos comprobar de nuevo que, por la misma razón, estos resultados no son exactamente iguales que los derivados del valor de . Las líneas de aviso y de acción del diagrama de control para el rango, para el que el valor objetivo es R = 3,45, vienen dadas por las Ecuaciones (4.5)(4.8). Por tanto, los resultados obtenidos son: la línea de aviso inferior se encuentra a 3,45 0,2888 = 1,00; la línea de aviso superior a 3,45 1,935 = 6,68; la línea de acción inferior a 3,45 0,097 = 0,33 y la línea de acción superior se encuentra a 3,45 2,579 = 8,90. Obsérvese que la desviación estándar realizada en las 24 medidas a la vez es 2,33. Esto significa aproximadamente un 40 por ciento más que el valor estimado anteriormente, al tratar las 6 muestras por separado; es decir, es un resultado que destaca la importancia de determinar el valor de sin depender de fluctuaciones en la media del proceso. El análisis de los datos originales indica que dichas fluctuaciones son de gran importancia en este ejercicio. Ejercicio 5. A continuación (Figura 4.A) se muestra una representación gráfica de Youden para dos muestras de este conjunto de datos: las líneas señalan las medias de las medidas en la muestra A (7,01) y en la muestra B (7,75), y se muestra la línea de 45 a través del punto (7,01, 7,75). Como ocurre en la mayoría de los ensayos de colaboración, los errores sistemáticos predominan, por lo que los resultados obtenidos por los diferentes laboratorios son tan bajos como ca. 3 ppm y tan altos como ca. 12 ppm para los mismos materiales. Hay menos errores aleatorios: 13 de los 15 puntos se encuentran en los cuadrantes (+, +) y (, ), mientras que si los errores aleatorios predominaran, aparecerían números de puntos aproximadamente iguales en cada uno de los cuadrantes. El error aleatorio para un laboratorio concreto viene determinado por la distancia perpendicular del punto para dicho laboratorio desde la línea de 45. De acuerdo con este criterio, tan sólo los laboratorios 4 y 15 muestran unos errores aleatorios de gran importancia. 23 © Pearson Educación, S.A. Estadística y Quimiometría para Química Analítica, 4ª Edición Figura 4.A Estas conclusiones están respaldadas por los cálculos numéricos (véase abajo). Se calculan los valores de D (diferencias entre los dos resultados) para cada laboratorio (proporcionando resultados como 1,2, 0,9, 2,0, etc.) y su media es 0,74. Del mismo modo, se hallan las sumas de los dos valores, T (18,8, 8,5, 22,2, etc.) y sus medias son 14,75. Las medias obtenidas se pueden utilizar para determinar los valores de (D D) (0,46, 0,16, 1,26, etc.) y los valores de (T T) (4,05, 6,25, 7,45, etc.), así como sus cuadrados. Por tanto, la Ecuación (4.15) muestra que la varianza de la medida, sr , viene dada por 22,22/28 = 0,793, mientras que la Ecuación (4.16) muestra que la varianza total, sR, es 308,76/28 = 11,027. En el sentido estricto de la palabra, debemos afirmar que estas dos varianzas difieren de forma significativa al calcular F = 11,027/0,793 = 13,905. El valor crítico (P = 0,05, contraste de una cola) de F14.14 es 2,48, por lo que la varianza global es claramente mucho mayor que la varianza de la medida aleatoria. Es obvio que la varianza global está sujeta a la varianza, debido a los errores sistemáticos entre los laboratorios, sL, que vienen determinados por la Ecuación
Compartir