Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE ESTUDIOS SUPERIORES ZARAGOZA Tenorio Solís Enrique No. de cuenta 09417747-3 Técnicas estadísticas para seleccionar variables de respuesta y factores de estudio, en el área farmacéutica. Área específica del proyecto: Farmacia Director de tesina: M. en C. Armando Cervantes Sandoval Asesor de la tesina: M. en C. Maria José Marques Dos Santos Año del término de la carrera: 2004 Orientación: Farmacia Lugar donde se desarrollo la tesina: Facultad de Estudios Superiores Zaragoza Opción de titulación: Paquete de Educación Continua Neevia docConverter 5.1 UNAM – Dirección General de Bibliotecas Tesis Digitales Restricciones de uso DERECHOS RESERVADOS © PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL Todo el material contenido en esta tesis esta protegido por la Ley Federal del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). El uso de imágenes, fragmentos de videos, y demás material que sea objeto de protección de los derechos de autor, será exclusivamente para fines educativos e informativos y deberá citar la fuente donde la obtuvo mencionando el autor o autores. Cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por el respectivo titular de los Derechos de Autor. Neevia docConverter 5.1 1 INTRODUCCIÓN Cada vez son más las empresas y centros de investigación y desarrollo que aplican el diseño de experimentos de manera cotidiana, tanto para mejorar el desempeño de los procesos ya establecidos como para hacer innovaciones y el desarrollo de nuevos productos. Esto es necesario para mantener una empresa competitiva en un mercado global, al poder reducir sus costos de producción mejorando al mismo tiempo la calidad de sus productos. Aporta además el conocimiento profundo de los procesos, generando herramientas eficaces del manejo de los mismos. El uso adecuado de las herramientas estadísticas y su correcta interpretación son temas de interés en los tiempos actuales en casi todas las áreas del conocimiento humano. Y en la investigación farmacéutica son fundamentales para la toma de decisiones, por lo que es necesario analizar los fundamentos teóricos de algunas de las técnicas más comunes, por ejemplo las de regresión lineal simple y múltiple, para entender la manera en que se combinan con técnicas más avanzadas como la de diseños compuestos centrados, diseños estrella o la técnica multivariada de componentes principales. Este análisis servirá para ponderar y seleccionar las variables dependientes (Y´s) o los factores de estudio (X´s) de mayor relevancia, en la investigación farmacéutica. En éste trabajo se da una perspectiva sencilla para aplicar y comprender algunas de las herramientas estadísticas, empleando el paquete estadístico STATGRAPHICS PLUS 5, para llevar acabo un análisis compuesto central con punto estrella aplicado a un estudio de optimización de formulas farmacéuticas sólidas, con base en la información del artículo KEY VARIABLES IN DOSAGE FORM DESIGN (Diseño de variables clave en formas de dosificación) publicado en la revista Drug Development and Industrial Pharmacy Vol. 17 (7), del año 1991, págs. 959-974. Neevia docConverter 5.1 2 I. MARCO TEÓRICO En la actualidad la mayor parte de los procesos industriales, no exclusivamente los procesos farmacéuticos, se rigen por normas nacionales e internacionales las cuales regulan las condiciones más elementales para asegurar que los productos que se elaboran en cada una de las empresas que cumplen con sus lineamientos, entregan al consumidor productos de alta calidad. Es por ello que en este capítulo se mencionarán algunas normas y documentos oficiales los cuales destacan la importancia y uso de las herramientas estadísticas. A. APLICACIONES ESTADÍSTICAS EN NORMATIVIDADES Y REGULACIONES OFICIALES 1. Norma Mexicana IMNC (NMX-CC-9004-IMNC-200) Los puntos a considerar en la Norma Mexicana IMNC (NMX-CC-9004-IMNC-200) los cuales consideran la parte estadística dentro de su contenido, son los que se listan a continuación de acuerdo al numeral de la misma norma: 8 Medición, análisis y mejora 8.1 Orientación general 8.1.1 Introducción Los datos de las mediciones son importantes en la toma de decisiones basadas en hechos. La alta dirección debería asegurarse de la eficaz y eficiente medición, recopilación y validación de datos para asegurar el desempeño de la organización y la satisfacción de las partes interesadas. Esto debería incluir la revisión de la validez y del propósito de las mediciones y el uso previsto de los datos para asegurarse del aporte de valor para la organización. 8.1.2 Aspectos a considerarse La medición, el análisis y la mejora incluyen entre otras (sólo se enuncian los puntos que hacen referencia a conceptos estadísticos): a. la medición, el análisis y la mejora de los productos y procesos deberían usarse para establecer prioridades apropiadas para la organización; d) los estudios comparativos (benchmarking) de procesos individuales deberían emplearse como una herramienta para mejorar la eficacia y eficiencia de los procesos; j) el uso de las técnicas apropiadas, estadísticas o de otro tipo, puede ser útil en la comprensión de las variaciones, tanto de los procesos como de las medidas, y por lo tanto puede mejorar el desempeño del proceso y del producto controlando dicha variación; 8.4 Análisis de datos Las decisiones deberían basarse en el análisis de datos obtenidos a partir de mediciones e información recopilada tal y como se describe en esta norma mexicana. En este contexto, la organización debe analizar los datos de sus diferentes fuentes tanto para evaluar el desempeño frente a los planes, objetivos y otras metas definidas, como para identificar áreas de mejora incluyendo posibles beneficios para las partes interesadas. Las decisiones basadas en hechos requieren acciones eficaces y eficientes tales como: - métodos de análisis válidos; - técnicas estadísticas apropiadas; y tomar decisiones y llevar a cabo acciones basadas en los resultados de análisis lógicos, en equilibrio con la experiencia y la intuición. Neevia docConverter 5.1 3 El análisis de los datos puede ayudar a determinar la causa de los problemas existentes o potenciales y por lo tanto guiar las decisiones acerca de las acciones correctivas y preventivas necesarias para la mejora. [1] 2. NOM-059-SSA1-1993 Otra de las normas que considera aspectos estadísticos es la Norma Mexicana 059-SSA1-1993, relacionada con mejora de la calidad de los productos farmacéuticos, los puntos en los cuales se hace mención de estas herramientas se listan a continuación: 14.1 Política. Es un requerimiento que los fabricantes de medicamentos determinen qué actividades de validación son necesarias para demostrar el control de los aspectos críticos de sus operaciones particulares. Debe utilizarse un enfoque de análisis de riesgos para evaluar el ámbito y grado de validación. 14.10 Proveedores. 14.10.1 Se consideran validados siempre y cuando: 14.10.1.1 Hayan sido aprobados de acuerdo a lo descrito en el numeral 9.2 de este Proyecto de Norma Oficial Mexicana. 14.10.1.2 Exista evidencia documentada del desempeño histórico del proveedor en cuanto a la calidad de cada uno de los insumos suministrados. 14.10.1.3 Se lleve a cabo una auditoria a sus instalaciones de acuerdo al numeral 17 de este Proyecto de Norma Oficial Mexicana, que demuestre que cuenta con un Sistema de Calidad. 14.10.1.4 Llevar a cabo un estudio estadístico entre los resultados proporcionados por el proveedor en su Certificado de Análisis y los resultados obtenidos en el laboratorio, para demostrar equivalencia. [2] 3. Farmacopea de los Estados Unidos Mexicanos (FEUM)Una de las regulaciones sanitarias en las cuales se sustentan las pruebas de análisis para la fabricación de medicamentos para uso y consumo humano es la Farmacopea de los Estados Unidos Mexicanos, en la cual se plantean las especificaciones con las que deben de cumplir este tipo de productos, y además se plantean las técnicas estadísticas en ensayos biológicos debido a su gran diversidad de respuesta a las terapias con medicamentos. Los ensayos biológicos se dividen en ensayos cualitativos y ensayos cuantitativos. Los ensayos cualitativos, con los que se pretende, por ejemplo, identificar una sustancia por medio de una reacción característica producida en una especie particular de entidad biológica, raramente presentan dificultad en su análisis estadístico. Por su parte, los ensayos cuantitativos, son semejantes a los métodos de medición física o de análisis químico cuantitativo, en que conducen a una determinación numérica de alguna propiedad del material (o proceso) por ser ensayado. [3] 4. Farmacopea de los Estados Unidos de América (USP) Una de las regulaciones en las que una gran cantidad de Laboratorios Farmacéuticos se basan para la elaboración de sus productos debido a la exportación de los mismos, es la Farmacopea de los Estados Unidos de América que también hace mención del uso de técnicas estadísticas como se muestra en la siguiente sección, lo cual pone de manifiesto que el empleo de técnicas estadísticas no se limita a un tipo de análisis o de ensayos, sino que éstos dependen de la finalidad u objetivo que se pretende evaluar. [4] Neevia docConverter 5.1 4 La garantía de calidad de los productos farmacéuticos se logra combinando una serie de prácticas, que incluyen un diseño robusto de la formulación, validación, análisis de materias primas, análisis durante el proceso y pruebas del producto final. Cada una de estas prácticas depende de métodos de prueba confiables. Durante el proceso de desarrollo, se desarrollan y validan procedimientos de prueba para asegurar que los productos fabricados estén perfectamente caracterizados. Las pruebas del producto final permiten comprobar que los productos son uniformemente seguros y eficaces y que cumplen con sus especificaciones. Las mediciones son intrínsecamente variables y la USP reconoce tal variabilidad para las pruebas biológicas desde hace mucho tiempo. Las mediciones de análisis químicos comúnmente utilizadas para productos farmacéuticos también son intrínsecamente variables, aunque en menor grado que las pruebas biológicas. No obstante, en muchos casos los criterios de aceptación son proporcionalmente más estrictos y en consecuencia, debe tenerse en cuenta esta menor variabilidad aceptable cuando se analizan datos obtenidos por procedimientos analíticos. Si no se caracteriza ni especifica la variabilidad de una medición junto con el resultado obtenido, los datos solo pueden interpretarse en el sentido más limitado. En el capitulo <1010> Datos analíticos – interpretación y tratamiento de la USP 30, se proporcionan indicaciones para el tratamiento e interpretación científicamente aceptables de los datos. Se describen además las herramientas estadísticas que pueden resultar útiles para la interpretación de los datos analíticos. Mucha estadística descriptiva, como la desviación estándar y la media, son de uso difundido. Otras herramientas estadísticas, como las pruebas de resultados aberrantes, pueden realizarse utilizando diferentes métodos científicamente válidos. B. ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL 1. Análisis de regresión y correlación lineal A menudo se está interesando en estudiar la relación entre dos variables como cantidad de fertilizante y producción, concentración de una droga inyectada a un animal de laboratorio y latidos del corazón, dureza de los plásticos tratados con calor durante diferentes períodos. La naturaleza y el grado de relación de este tipo de variables se puede analizar mediante dos técnicas: regresión y correlación, que aunque de alguna manera están relacionadas, tienen propósitos e interpretaciones diferentes. La diferencia entre ambos procedimientos no permite que se sustituya uno por el otro en una situación experimental dada. El análisis de regresión es útil para determinar la forma probable de la relación entre las variables (la ecuación que relaciona a ambas variables) cuando hay un fenómeno de causa y efecto; y su objetivo principal es el de predecir o estimar el valor de una variable (respuesta o dependiente (Y)), correspondiente al valor dado de la otra variable (explicativa o independiente(X)). En otras palabras, el investigador decide cuáles valores tomará la variable independiente, mientras que los valores de la variable dependiente están determinados por la relación que existe, si la hay, entre ambas. Por lo tanto, debe emplearse el análisis de regresión en situaciones experimentales en las cuales el investigador controla la variable independiente. El análisis de correlación, por otra parte, consiste en la medición del grado o intensidad de asociación entre dos variables sin importar cuál es la causa y cuál el efecto. Cuando se puede demostrar que la variación de una variable está de algún modo asociada con la variación de otra, entonces se puede decir que las variables están correlacionadas. [5] La medida del grado de relación entre dos variables se llama coeficiente de correlación y se representa universalmente por .ρ En el modelo de correlación se asume que X y Y varían en una distribución conjunta. Si esta distribución está distribuida normalmente se llama distribución normal bivariada. [6] Neevia docConverter 5.1 5 Una correlación puede ser positiva (cuando al aumentar una variable la otra también aumenta), o negativa (cuando al aumentar una variable la otra disminuye). Por otro lado, si la variación de una variable no corresponde en absoluto a la variación de la otra, entonces no existe ninguna asociación y, por consiguiente, ninguna correlación entre las dos variables. Así, por ejemplo, si un investigador desea determinar el grado de asociación que existe entre la biomasa del fitoplancton y la cantidad de clorofila “a”, debe obtener repetidas muestras de agua de un lugar de muestreo en un lago y medir la clorofila “a” y la biomasa en cada muestra. En esta situación el investigador no tiene control sobre una u otra variable, puesto que los valores de la clorofila “a” y de la biomasa encontrados en cada muestra serán “los que la naturaleza proporciona”. Así que se deduce que tanto la clorofila “a” como la biomasa son variables aleatorias, y la correlación es, en consecuencia, el procedimiento adecuado. [5] Es importante enfatizar, en lo que respecta al análisis de correlación, que ni X ni Y representan una variable independiente; en otras palabras, tanto X como Y son variables aleatorias. Por otra parte, en el análisis de regresión, X representa la variable independiente y Y la variable dependiente. [7] 2. Análisis de regresión lineal múltiple Como la estadística inferencial permite trabajar con una variable a nivel de intervalo o razón, así también la regresión lineal permite relacionar variables, mediante ecuaciones, una variable Y con otra variable X, mientras que la regresión lineal múltiple permite relacionar una variable Y con dos o más variables X’s. [8] La ecuación de regresión lineal con una sola variable independiente tiene la forma bXaY +=´ . En el caso de la regresión lineal múltiple la ecuación se amplía y puede tener más variables independientes. La forma general de la ecuación de regresión lineal múltiple con dos variables independientes es: 22110´ XbXbbY ++= (1) donde: 21 , XX son las dos variables independientes. 0b es la intersección con el eje Y . Es la ordenada del punto de intersección con el eje Y . 1b es la variación neta en Y por cada unidad de variación en 1X , manteniendo 2X constante. Se denominacoeficiente de regresión parcial, coeficiente de regresión neta, o simplemente, coeficiente de regresión. 2b es el cambio neto en Y para cada cambio unitario en 2X , manteniendo 1X constante. También se le conoce como coeficiente de regresión parcial, coeficiente de regresión neta, o simplemente, coeficiente de regresión. La interpretación geométrica, cuando se tienen dos variables independientes y sólo una variable dependiente, es un plano de regresión ya que se están considerando tres dimensiones. Se puede aumentar el número de variables independientes. La ecuación general de regresión múltiple con tres variables independientes, denotadas por 1X , 2X y 3X es: 3322110´ XbXbXbbY +++= (2) Esto puede ampliarse a cualquier número (k), de variables independientes, siendo la ecuación general de regresión lineal múltiple: [9] kk XbXbXbXbbY +++++= ...´ 3322110 (3) Neevia docConverter 5.1 6 El método de mínimos cuadrados para estimar 0b , 1b , 2b ,…, kb , minimiza la suma de los cuadrados de las desviaciones verticales respecto al plano de regresión. En la ecuación de regresión múltiple, la obtención de 0b , 1b y 2b resulta muy tediosa, aún cuando se utilice una calculadora, debido a la gran cantidad de cálculos. Por ejemplo, con dos variables independientes hay que resolver simultáneamente, tres ecuaciones que son: ∑ ∑ ∑++= 22110 XbXbnbY ∑ ∑ ∑∑ ++= 212211101 XXbXbXbYX ∑ ∑ ∑∑ ++= 222211202 XbXXbXbYX Por esta razón se recomienda utilizar alguno de los paquetes de cómputo que realizan los cálculos y presentan los resultados. MINITAB, STATGRAPHICS, SAS y SPSS son cuatro de los más utilizados. [10] C. ANÁLISIS DE VARIANZA 1. Análisis de varianza de un solo factor completamente aleatorio En una prueba t de dos muestras se desea contrastar la hipótesis de que dos medias poblacionales son iguales, en comparación con la hipótesis alternativa. Recuérdese que para usar esa prueba, el experimento debe tener como resultado muestras aleatorias independientes, una para cada una de las poblaciones que se estudian. Por otra parte en un diseño completamente aleatorizado se planea reunir datos en el que se selecciona una muestra aleatoria de tres o más poblaciones de interés y las muestras son independientes. [11] Suponga que se tienen a niveles diferentes (tratamientos) de un solo factor que se desea comparar. La respuesta observada en cada uno de los “a” tratamientos es una variable aleatoria y los datos aparecerían como en el cuadro 1. Un dato en dicho cuadro, por ejemplo ,ijy representa la j-ésima observación tomada bajo el tratamiento i. En un principio se considera el caso en que hay el mismo número de observaciones; n, en cada tratamiento. Cuadro 1. Datos típicos para el análisis de varianza de clasificación unidireccional. Tratamientos Observación Totales Media aritmética 1 11y 12y … ny1 .1y .1y 2 21y 22y … ny2 .2y .2y . . . . . . . . . . . . . . . . . . a 1ay 2ay … any .ay .ay Se pueden describir las observaciones del cuadro 1 por medio de un modelo estadístico lineal. 1, 2,..., , 1, 2,..., ,ij i ij i a y j n μ τ ε =⎧ ⎫ = + + ⎨ ⎬=⎩ ⎭ (4) Neevia docConverter 5.1 7 donde ijy es la observación ij-ésima, µ es un parámetro común para todos los tratamientos (llamado media general), τi es un parámetro asociado con el tratamiento i-ésimo (denominado efecto del tratamiento i-ésimo), y ijε es un componente del error aleatorio. Para probar las hipótesis respecto de los efectos de los tratamientos, así como estimarlos, los errores del modelo se toman como variables aleatorias normal e independientemente distribuidas con media cero y varianza σ2 [abreviado como DNI (0,σ2)]. La varianza σ2 se considera constante (homogénea) para todos los niveles del factor. El modelo de la ecuación (4) recibe el nombre de análisis de varianza de clasificación de una vía (unidireccional), debido a que se investiga un solo factor. Además, se requiere que las observaciones se tomen en orden aleatorio, de manera que el ambiente en el que se usan los tratamientos (llamado a menudo unidad experimental) sea lo más uniforme posible. [12] Hay dos maneras diferentes en que los niveles de factor “a” en el experimento podrían haberse elegido, empleando el Modelo de efectos aleatorios o el Modelo de efectos fijos, éste último se describe y se emplea en el trabajo. El investigador podría haber seleccionado específicamente los “a” tratamientos. En esta situación deseamos probar la hipótesis con respecto a iτ y las conclusiones serán válidas únicamente a los niveles de factor considerados en el análisis. Las conclusiones no pueden extenderse a tratamientos similares que no se hayan considerado. Esto recibe el nombre de Modelo de efectos fijos El análisis de varianza para la clasificación unidireccional del modelo de efectos fijos, suelen definirse como desviaciones de la media general, por lo que: ∑ = = a i i 1 .0τ (5) Sea .iy la representación del total de las observaciones bajo el tratamiento i-ésimo, y .iy la representación del promedio de las observaciones bajo el tratamiento i-ésimo. De modo similar, considere que ..y representa la suma total de todas las observaciones, y ..y la gran media de todas las observaciones. Expresado matemáticamente: ∑ = = n j iji yy 1 ,. , . . n y y ii = .,...,2,1 ai = (6) ∑∑ = = = a i n j ijyy 1 1 ,.. , .... N yy = donde N = an es el número total de observaciones. Por tanto, la notación con un “punto” en el subíndice implica la sumatoria sobre el subíndice que reemplaza el punto. Para probar la igualdad de los a efectos de tratamiento, se plantean las hipótesis: .0...: 210 ==== aH τττ (7) 0: ≠iHa τ , para al menos una i El procedimiento de prueba para la hipótesis de la ecuación (7) se llama análisis de varianza. El término “análisis de varianza” resulta de descomponer la variabilidad total de los datos en sus partes componentes. La suma corregida total de los cuadrados, que es una medida de la variabilidad total en los datos, puede escribirse como: Neevia docConverter 5.1 8 ∑∑ ∑∑∑ = = = == −+−=− a i n j a i n j iij a i iij yyyynyy 1 1 1 1 2 1 22 .. ..)(..).()( (8) La ecuación (8) muestra que la variabilidad total de los datos, medida por la suma total corregida de los cuadrados, se puede descomponer en la suma de los cuadrados de las diferencias entre las medias de los tratamientos y la gran media más una suma de cuadrados de diferencias de observaciones dentro de los tratamientos y la media del tratamiento. Las diferencias entre las medias de tratamientos observadas y la gran media, miden las diferencias entre tratamientos, en tanto que las diferencias de observaciones dentro de un tratamiento con la media del tratamiento pueden deberse sólo a un error aleatorio. En consecuencia, se escribe la ecuación (8) simbólicamente como: SCTotal =SC tratamientos + SCError donde SCTotal es la suma total de los cuadrados, SC tratamientos es la suma de los cuadrados debida a los tratamientos (es decir entre tratamientos) y SCError es la suma de cuadrados debida al error (esto es, dentro de los tratamientos). Hay an = N observaciones totales; por tanto, SCTotal tiene N-1 grados de libertad. Hay a niveles del factor, por lo que SCtratamientos tiene a - 1 grados de libertad. Por último, dentro de cualquier tratamiento hay n réplicas que proporcionan n - 1 grados de libertad con los cuales se estima el error experimental. Puesto que hay a tratamientos, a(n-1) = an - a = N - a grados de libertad para el error. El estadístico de prueba .,1, aNaF −−α se expresa de la siguiente manera: 0 / ( 1) / ( ) tratamientos tratamientos Error Error SC a MCF SC N a MC − = = − (9) Los valores esperados de las medias cuadráticas se utilizan para mostrar que F0,en la ecuación (9), es un estadístico de prueba apropiado para 0:0 =iH τ , y para determinar el criterio de rechazo de esta hipótesis nula. A partir de las medias cuadráticas esperadas, los MCError son un estimador insesgado de 2σ . Sin embargo, si la hipótesis nula es falsa, el valor esperado de MCtratamientos es mayor que 2σ . Por tanto, bajo la hipótesis alterna, el valor esperado del numerador del estadístico de prueba (ecuación (9)) es mayor que el valor esperado del denominador. En consecuencia, debemos rechazar H0 si el estadístico de prueba es grande. Esto implica una F calculada muy grande y por lo tanto una región crítica de cola superior. De tal modo, que se rechaza H0 si aNaFF −−> ,1,0 α Donde F0 se calcula a partir de la ecuación (9). Es posible obtener fórmulas eficientes de cálculo para la suma de los cuadrados, expandiendo y simplificando las definiciones de SCtratamientos y SCTotal en la ecuación (5), esto produce 2 2 .. 1 1 a n Total ij i j ySC y N= = = −∑∑ (10) y ∑ = − a i i ostratamient N y n y SC 1 2 .. 2 . (11) La suma de los cuadrados del error se obtienen mediante sustracción, como: Error Total tratamientosSC SC SC= − (12) Los cálculos se resumen en el cuadro 2, que recibe el nombre de tabla de Análisis de varianza. [12] Neevia docConverter 5.1 9 Cuadro 2. Análisis de varianza para el modelo de efectos fijos de clasificación unidireccional Fuente de Variación Suma de cuadrados Grados de libertad Cuadrados medios F0 Entre tratamientos SCtratamientos 1−a MCtratamientos Error (dentro de los tratamientos) SCE aN − MCError tratamientos Error MC MC Total SCT 1−N 2. Experimentos factoriales de dos factores o de dos vías El tipo más simple de experimento factorial involucra solo dos factores, digamos A y B. Hay a niveles del factor A y b niveles del factor B. El factorial de dos factores se muestra en el siguiente Cuadro 3. Observe que hay n réplicas del experimento, y cada una de ellas contiene todas las ab combinaciones del tratamiento. La observación de la celda ij-ésima de la réplica k-ésima se denota .ijky Al recopilar los datos, las observaciones abn se ejecutarían en orden aleatorio. En consecuencia, como en el experimento de un solo factor, el factorial de dos factores es un diseño completamente aleatorio. Las observaciones pueden describirse mediante el modelo estadístico lineal ⎪ ⎭ ⎪ ⎬ ⎫ ⎪ ⎩ ⎪ ⎨ ⎧ = = = ++++= ,,...,2,1 ,,...,2,1 ,,...,2,1 )( nk bj ai y ijkijjiijk ετββτμ (13) donde μ es el efecto de la media general, τi, es el efecto del nivel i-ésimo del factor A, βj es el efecto del nivel j-ésimo del factor B, (τβ)ij es el efecto de la interacción entre A y B, y ijkε es una componente de error aleatorio. Se está interesado en probar las hipótesis de que no hay efecto significativo del factor A, no hay efecto significativo B, y que no hay interacción significativa en AB. Se empleará el análisis de varianza para probar estas hipótesis. Puesto que hay dos factores bajo estudio, el procedimiento que se emplea se llama análisis de varianza bidireccional. Análisis estadístico del modelo de efectos fijos Si se supone que los factores A y B son fijos. Esto es, el investigador elige específicamente los niveles a del factor A y los niveles b del factor B, y las deducciones se confinan a estos niveles. En este modelo es usual definir los efectos τi, βj y (τβ)ij como desviaciones respecto de la media, de manera que ∑ ∑ ∑= = = === a i b j a i ijji1 1 1 0)(,0,0 τββτ y ∑ = = b j ij1 .0)(τβ Sea ..iy el total de las observaciones bajo el nivel i-ésimo del factor A, .. jy el total de las observaciones bajo el nivel j-ésimo del factor B, .ijy el total de las observaciones en la celda ij- ésima del Cuadro 3, y ...Y el gran total de todas las observaciones. Defina ..... ,, ijji YYY y ...y como el renglón, la columna, la celda y los grandes promedios correspondientes. Esto es, Neevia docConverter 5.1 10 Cuadro 3. Arreglo de datos para un diseño factorial de dos factores Factor B Factor A 1 2 ……. b 1 y111 y112 … y11n y121 y122 … y12n y1b1 y1b2 … y1bn 2 y211 y212 … y21n y221 y222 … y22n y2b1 y2b2 … y2bn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a ya11 ya12 … ya1n ya21 ya22 … ya2n yab1 yab2 … yabn ∑∑ = = = b j n k ijki yy 1 1 .. , , .. .. bn yy ii = ,,...,2,1 ai = ∑∑ = = = a i n k ijkj yy 1 1 .. , . . . . , j j y y an = ,,...,2,1 bj = ∑ = = n k ijkij yy 1 . , .. , ij ij y y n = ,,...,2,1 ,,...,2,1 bj ai = = ∑∑∑ = = − = a i b j n k ijkyy 1 1 1 ... , ,...... abn y y = (14) La suma de cuadrados total corregida total puede escribirse como [ ]∑ ∑∑∑∑∑ = ===== −++−−+−+−=− n k n k ijijkjiijji b j a i ijk b j a i yyyyyyyyyyyy 1 1 2 ................... 11 2 ... 11 )()()()()( ∑∑ ∑∑∑ ∑∑ == === == −++−−+−+−= n k ijijk b j b j a i jiij b j a i j a i i yyyyyynyyanyybn 1 2 . 1 11 2 ........ 1 1 2 ..... 2 1 ..... )()()()( (15) Por consiguiente, la suma de cuadrados total se descompone en una suma de cuadrados debida a “renglones” o factores de A (SCA), una suma de cuadrados debida a “columnas” o factores de B (SCB), una suma de cuadrados debida a la interacción entre A y B (SCAB), y una suma de cuadrados debido al error (SCE). Observe que debe haber al menos dos réplicas para obtener una suma de cuadrados del error diferente de cero. La identidad de la suma de cuadrados en la ecuación (20) se puede escribir simbólicamente como SCT = SCA + SCB + SCAB +SCE (16) Hay un total de abn-1 grados de libertad. Los efectos principales A y B tienen a-1 y b-1 grados de libertad, en tanto que el efecto de interacción AB tiene (a-1) (b-1) grados de libertad. Dentro de cada una de las ab celdas del Cuadro 4, hay n-1 grados de libertad entre n réplicas, y las observaciones en la misma celda pueden diferir sólo debido al error aleatorio. En consecuencia, hay ab(n-1) grados de libertad para el error. La razón de cada suma de cuadrados en el lado derecho de la ecuación (16) respecto de sus grados de libertad, es una media cuadrática. Neevia docConverter 5.1 11 Suponiendo que los factores A y B son fijos, los valores esperados de las medias cuadradas son: , 11 )( 1 2 2 − +=⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − = ∑ = a bn a SCEMCE a i i A A τ σ , 11 )( 1 2 2 − +=⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − = ∑ = b an b SCEMCE b j i B B β σ , )1)(1( )( )1)(1( )( 1 1 2 2 −− +=⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −− = ∑∑ = = ba n ba SCEMCE a i b j ij AB AB τβ σ y 2( ) ( 1) E E SCE MC E ab n σ ⎛ ⎞ = =⎜ ⎟−⎝ ⎠ Por tanto, para probar H0: τi = 0 (ningún efecto del factor de renglón), H0: βj = 0 (ningún efecto de factor de columna), y H0 = (τβ)ij = 0 (ningún efecto de interacción), se divide la media cuadrática correspondiente entre el error cuadrático medio. Cada una de estas razones seguirá una distribución F con grados de libertad del numerador iguales al número de grados de libertad para la media cuadrática del numerador y ab(n-1) grados de libertad del denominador; la región crítica se localizará en la cola superior. Los cálculos se ordenan en una tabla de análisis de varianza, como se muestra en el cuadro 4. Cuadro 4. Tabla de análisis de varianza para clasificación bidireccional, modelo de efectos fijos. Fuentes de variación Suma de cuadrados Grados de libertad Cuadrados medios F0 Tratamientos A SCA a - 1 1 A A SCCM a = − E A MC MC Tratamientos B SCB b - 1 1 B B SCCM b = − E B MC MC Interacción AB SCAB (a – 1)( b – 1) ( 1)( 1) AB AB SCCM a b = − − E AB MC MC ErrorSCE ab(n – 1) ( 1) E E SCCM ab n = − Total SCT abn - 1 Las fórmulas de cálculo para la suma de cuadrados en la ecuación (16) se obtienen con facilidad. La suma de cuadrados total se calcula a partir de ∑∑∑ = = = −= a i b j n k ijkT abn y ySC 1 1 1 2 ...2 . (17) Las sumas de cuadrados para los efectos principales son ∑ = −= a i i A abn y bn y SC 1 2 ... 2 .. . (18) y Neevia docConverter 5.1 12 ∑ = −= b j j B abn y an y SC 1 2 ... 2 .. . (19) Usualmente se calculan las SCAB en dos pasos. Primero, se obtiene la suma de cuadrados entre los totales de la celda ab, llamada suma de cuadrados debido a “subtotales”. ∑∑ = = −= a i b j ij subtotales abn y n y SC 1 1 2 ... 2 . Esta suma de cuadrados contiene también SCA y SCB. Por tanto, el segundo paso consiste en calcular SCAB como SCAB = SCsubtotales – SCA – SCB. (20) El error de la suma de cuadrados se halla mediante la resta, ya sea SCE = SCT – SCAB – SCA -SCB (21a) o SCE = SCT – SCsubtotales (21b) [12] Un ejemplo de este modelo de dos vías (dos factores), completamente al azar, se describe a continuación: Se desea comparar el efecto de dos fármacos A y B, aplicados en orden diferente, el investigador desea asegurarse en que orden recibieron los sujetos la formulación sin influenciar la Cmax para la formulación recibida [13] Las tres hipótesis bajo prueba son: H01: µOrden 1 = µOrden 2 Ha1: µOrden 1 ≠ µOrden 2 H02: µFórmula A = µFórmula B Ha2: µFórmula A ≠ µFórmula B H03:µ(Fórmula A, Orden 1) = µ(Fórmula B, Orden 1) = µ(Fórmula A, Orden 2) = µ(Fórmula B, Orden 2) Ha3: Al menos un par de medias es diferente. Los datos observados por el investigador se presentan en el cuadro 5 Cuadro 5. Muestreo de datos para una interacción ensayo clínico (Cmáx) Formulación A B ∑∑ = = b j n k1 1 ∑∑∑ = = − a i b j n k1 1 1 125 130 135 149 151 130 128 121 123 132 141 129 131 129 120 142 130 122 Orden (1) (Fórmula A recibida primero) 119 133 125 136 138 140 ∑ = n k 1 1519 1640 3159 126 140 135 130 128 127 126 121 133 141 145 132 117 126 127 133 136 138 Orden (2) (Fórmula B recibida primero) 120 136 122 129 150 148 ∑ = n k 1 1529 1637 3166 ∑∑ = = a i n k1 1 3048 3277 6325 También se incluyen: la suma de observaciones de cada celda (diseño 2 x 2); la suma para cada columna (formulación); la suma para cada fila (orden en la cual fueron recibidas las formulaciones); y la suma total de los cuadrados de todas las observaciones. Los cálculos se muestran a continuación: Neevia docConverter 5.1 13 ( ) ( ) ( )2 2 22 1 1 1 125 130 ... 148 836.917 a b n ijk i j k I y = = = = = + + =∑∑∑ (22) ( ) 2 2 1 1 1 6325 833,450.52 48 a b n ijk i j k y II N = = = ⎡ ⎤ ⎢ ⎥ ⎣ ⎦= = = ∑∑∑ (23) ( ) ( ) 2 2 2 1 1 1 3,159 3,116 833,451.542 * 24 a b n ijk i j k Ord y III b n = = = ⎡ ⎤ ⎢ ⎥ +⎣ ⎦= = = ∑ ∑∑ (24) ( ) ( ) 2 2 2 1 1 1 3,048 3,227 834,543.04 * 24 b a n ijk j i k Form y III a n = = = ⎡ ⎤ ⎢ ⎥ +⎣ ⎦= = = ∑ ∑∑ (25) ( ) ( ) 2 2 2 1 1 1 1,519 ... 1,637 834,547.58 12 a b n ijk i j k Celdas y IV n = = = ⎡ ⎤ ⎢ ⎥ +⎣ ⎦= = = ∑∑ ∑ (26) La suma de cuadrados que se requiere para elaborar la tabla de ANOVA son: 833,451.54 833,450.52 1.02Ord OrdSC III II= − = − = 834,543.04 833,450.52 1,092.52Form FormSC III II= − = − = * 834,547.58 833,451.54 834,543.04 833,450.52 3.52 Ord Form Celdas Ord FormSC IV III III II= − − + = − − + = 836,917 834,547.58 2,369.42Error CeldasSC I IV= − = − = 836,917 833,450.52 3,466.48TotalSC I II= − = − = Los resultados se muestran en el cuadro de ANOVA siguiente: Cuadro 6. Tabla de análisis de varianza para clasificación bidireccional, modelo de efectos fijos, con los datos del ejemplo anterior. Fuentes de variación Suma de cuadrados Grados de libertad Media cuadrática F0 Orden 1.02 1 1.02 0.02 Fórmula 1,092.52 1 1,092.52 20.29 Interacción (Fórm*Orden) 3.52 1 3.52 0.07 Error 2,369.42 44 53.85 ⎯ Total 3,466.48 47 ⎯ ⎯ Neevia docConverter 5.1 14 Las decisiones tomadas son: 1) No se rechaza H01 porque (1,44,0.95) 4.06F F< ≈ , por lo que se concluye que no existe diferencia entre los órdenes de aplicación de las fórmulas A y B. 2) Se rechaza H02 porque (1,44,0.95) 4.06F F> ≈ , por tanto existe diferencia significativa entre las fórmulas A y B 3) No se rechaza H03 ya que (1,44,0.95) 4.06F F< ≈ , en consecuencia no existe efecto de interacción.[13] 3. Diseños factoriales Un diseño factorial completo es un diseño que consiste en todas las posibles combinaciones de los niveles de cada factor. Si hay kl niveles para el ésimok − factor ky , el diseño factorial completo correspondiente es llamado un diseño factorial general klll ...21 . Cuando 2=il (ó 3) para toda i, el diseño factorial general es llamado un diseño 2k (ó 3k). Un diseño factorial 2k (3k) denota un diseño factorial completo a dos niveles (o a tres niveles). En la práctica, un diseño factorial es expresado en términos de un número de órdenes (o corridas) que indican el nivel de cada factor. Por ejemplo, el cuadro 7 muestra el arreglo de un típico diseño factorial 24 en orden estándar. Esto significa que en la primera columna de la matriz del diseño consiste de sucesivos signos menos (-) y más (+), la segunda columna de sucesivos pares de signos (–) y (+), la tercera columna de cuatro signos (–) seguidos de cuatro signos (+), y así sucesivamente. En general, la ésimak − columna consiste de 2K-1 signos (–), seguidos por 2K-1 signos (+). Cuadro 7. Diseño Factorial 24 Matriz del diseño Corridas X1 X2 X3 X4 Y 1 - - - - Y1 2 + - - - Y2 3 - + - - Y3 4 + + - - Y4 5 - - + - Y5 6 + - + - Y6 7 - + + - Y7 8 + + + - Y8 9 - - - + Y9 10 + - - + Y10 11 - + - + Y11 12 + + - + Y12 13 - - + + Y13 14 + - + + Y14 15 - + + + Y15 16 + + + + Y16 En este diseño factorial 24, hay cuatro factores a dos niveles con un total de N = 24 = 16 corridas. Los dos niveles de cada factor son convencionalmente denotados por – y + (en algunas ocasiones denotado por 1 y -1). Si una variable es continua los niveles, + y -, denotan el nivel alto y bajo, Si una variable es cualitativa, los dos niveles pueden denotar dos categorías diferentes o la presencia o ausencia de la variable. Cada fila o renglón representa una diferente combinación de un nivel para cada factor. Por ejemplo la fila 3 indica que el experimento se ha realizado al nivel alto del factor X2 y al nivel bajo de los factores X1, X3 y X4. Neevia docConverter 5.1 15 Sea iY , 1=i , …, N , la respuesta promedio obtenida para la ésimai − corrida, para una combinación de un diseño factorial 2K, donde KN 2= . Un contraste lineal para un diseño factorial K2 está definido como un combinación lineal de iY , …, NY . Esto es, 1 ... , N i i Ni i N i c Y c Y c Y = = = + +∑l (27) donde ∑ = = N i ic 1 .0 Dos combinaciones lineales de iY , 1=i , …, N , son llamadas ortogonales, si la suma de los productos cruzados de los coeficientes de los dos contrastes es 0. Es decir ∑ = = N i iiiYc 1 11l y ∑ = = N i iiYc 1 222l (28) son dos contrastes; entonces 1l y 2l son llamados ortogonales si ∑ = = N i iicc 1 21 .0 La varianza de un contraste basado en iY para un experimento factorial K2 con n corridas para cada combinación está dada por ( ) ∑ = = N i icn 1 2 2 .var σl (29) Para un diseño factorial K2 , ver cuadro 7, la matriz del diseño contiene 4 columnas y N = 24 filas. Hay un total de 2K - 1 efectos a ser estimados, los cuales se resumen en el cuadro 8. Bajo el supuesto de que las respuestas ,iY 1=i , …, N , no están correlacionadas y tienen varianzas iguales 2σ , el diseño factorial completo K2 proporciona una mínima varianza independiente estimada insesgada para los K2 - 1 efectos, que están basados en los contrastes ortogonales de iY . Por ejemplo,medir el cambio en la respuesta – (baja) a + (alta) de cada factor basado en , 1, ,16iY i = L . Para el primer factor, 1X , el cambio en la respuesta puede ser medida por medidas individuales del efecto del cambio de 1X de – a + (por ejemplo, ,2 ii YY − 1=i ,…,8; 2 2,4,6,...,16i = ). El promedio de estas ocho medidas, que están dadas por ( ) ∑∑∑ === −=− 88 2 8 2 ,8 1 8 1 8 1 i i i i i ii YYYY es llamado el efecto medio de 1X , y mide el efecto promedio de 1X sobre todas las condiciones de los otros efectos. Neevia docConverter 5.1 16 Cuadro 8 Resumen de efectos de un diseño factorial 42 Tipo de efecto Número de efectos Principal K Interacción de dos factores 2 )1( −KK Interacción de tres factores 6 )2)(1( −− KKK . . . . . . Interacción de h factores ! )1)...(2)(1( h hKKKK +−−− . . . . . . Interacción de K factores 1 Total K2 -1 Note que el diseño factorial completo proporciona estimaciones no sólo para efectos medios principales sino también para interacciones con precisión máxima. [14] D. MÉTODOS MULTIVARIADOS 1. Generalidades Para empezar una discusión de los métodos de análisis de los datos de variables múltiples, debe definirse el concepto de la unidad experimental. Una unidad experimental es cualquier objeto o grupo de objetos que se puede medir o evaluar de alguna manera. La medición y evaluación de unidades experimentales es una actividad principal de la mayoría de los investigadores. Ejemplos de unidades experimentales incluyen la gente, los animales, los insectos, los terrenos, los campos, las compañías, los árboles, los granos de trigo y los países. Se obtienen datos de variables múltiples siempre que un investigador mide o evalúa más de un atributo o característica de cada unidad experimental. Los estadísticos suelen dar el nombre de variables a estos atributos o características. 2. Panorama general de los métodos multivariados Los métodos multivariados son extraordinariamente útiles para ayudar a los investigadores a hacer que tengan sentido los conjuntos de datos que constan de una gran cantidad de variables medidas en números grandes de unidades experimentales. La importancia y la utilidad de los métodos multivariados aumentan al incrementarse el número de variables que se están midiendo y el número de unidades experimentales que se están evaluando. [15] Las técnicas estadísticas de regresión multivariada pueden ayudar a responder algunas de las preguntas claves de validación. La técnica más familiar es la regresión múltiple, la cual identifica la relación entre las variables independientes y una sola variable respuesta. Un clásico ejemplo del uso de éste método fue usado por J. B Schwartz, J.R. Flamholz and R.H. Prees, J. Pharm. Sci., 62, 1165 (1973), en su informe en optimización de la formulación de tabletas. Se examinaron cinco variables independientes representando la formulación y los factores del proceso y se examinó la influencia en cada una de las 10 variables dependientes. En el caso de las respuestas claves como dureza, desintegración y disolución, las ecuaciones de regresión muy complejas (con 20 términos cada una) sirvieron para predecir las combinaciones de los excipientes importantes, almidón, fuerza de compresión, gelatina granulada y el estearato de magnesio. Neevia docConverter 5.1 17 El análisis de las ecuaciones de regresión puede dar información útil sobre la validación. Se pueden identificar las variables independientes importantes así como la ocurrencia de posibles interacciones de ellas. El grado de control del proceso y los rangos de factibilidad para las variables independientes necesarias para satisfacer las especificaciones del producto se pueden obtener fácilmente. Sin embargo, el análisis de regresión está limitado por el hecho de que funciona mejor cuando maneja una sola variable dependiente de cada vez, y nuevamente la mayoría de las validaciones necesitan considerar múltiples respuestas. [16] A menudo, el objetivo principal de los análisis multivariados es resumir grandes cantidades de datos por medio de relativamente pocos parámetros. El tema subyacente de muchas técnicas multivariadas es la simplificación. Frecuentemente, el interés del análisis multivariado es encontrar relaciones entre: 1. Las variables respuesta 2. Las unidades experimentales 3. Tanto las variables respuesta como las unidades experimentales Muchas técnicas multivariadas tienden a ser de naturaleza exploratoria en lugar de confirmatoria. Es decir, muchos métodos multivariados tienden a motivar hipótesis en lugar de probarlas. Considere la situación en la cual un investigador puede tener 50 variables medidas sobre más de 2000 unidades experimentales. Los métodos estadísticos tradicionales suelen exigir que un investigador establezca alguna hipótesis, reúna algunos datos y, a continuación, use estos datos para comprobar o rechazar esas hipótesis. Una situación alternativa que se da frecuentemente es un caso en el cual un investigador dispone de una gran cantidad de datos y se pregunta si pudiera haber una información valiosa en ellos. Las técnicas multivariadas suelen ser útiles para examinar los datos en un intento por saber si hay información que valga la pena y sea valiosa en esos datos. 3. Técnicas dirigidas por las variables y dirigidas por los individuos Una distinción fundamental entre los métodos multivariados es que algunos se clasifican como “técnicas dirigidas por variables”, en tanto que otras se clasifican en “técnicas dirigidas por los individuos”. Las técnicas dirigidas por las variables son aquellas que se enfocan primordialmente en las relaciones que podrían existir entre las variables respuesta que se están midiendo. Algunos ejemplos de este tipo de técnica se encuentran en los análisis realizados sobre matrices de correlación, el análisis de componentes principales, el análisis por factores, el análisis de regresión y el análisis de correlación canónica. Las técnicas dirigidas por los individuos son las que se interesan principalmente en las relaciones que podría existir entre las unidades experimentales o individuos que se están midiendo, o en ambos. Algunos ejemplos de este tipo de técnicas se encuentran el análisis discriminante, el análisis por agrupación y el análisis multivariado de varianza (MANOVA: análisis de varianza multivariado). 4. Creación de nuevas variables Con bastante frecuencia es de utilidad crear nuevas variables para cada unidad experimental, de modo que se puedan comparar entre sí con más facilidad. Muchos métodos multivariados ayudan a los investigadores a crear nuevas variables que tengan propiedades deseables. Neevia docConverter 5.1 18 Algunas de las técnicas multivariadas que crean nuevas variables son el análisis de componentes principales, el análisis por factores, el análisis de correlación canónica, el análisis discriminante canónico y el análisis de variables canónicas. 5. Análisis discriminante El análisis discriminante (DA: discriminant analysis) se usa principalmente para clasificar individuos o unidades experimentales en dos o más poblaciones definidas de manera única. Para desarrollar una regla discriminante que clasifique las unidades experimentales en una de varias categorías posibles, el investigador debe tener una muestra aleatoria de unidades experimentales de cada grupo posible de clasificación. Entonces, el DA proporciona los métodos que permitirán a los investigadores establecer reglas que se puedan emplear para clasificar otras unidades experimentales en uno de los grupos de clasificación. [15] E. ANÁLISIS DE COMPONENTES PRINCIPALES Cuando un investigador piensa en el análisis de un nuevo conjunto de datos, debe considerar varias preguntas acerca de ellos. Las preguntas importantes incluyen: ¿Existen algunos aspectos en los datos que resultan extraños o desacostumbrados? ¿Se puede suponer que los datosestán distribuidos normalmente? ¿Hay algunas anormalidades en los datos? ¿Existen datos extraordinarios (outliers)? Las unidades experimentales cuyos valores medidos parecen incoherentes con las mediciones realizadas en las otras unidades experimentales suelen llamarse datos extraordinarios (outliers). Con mucho, la razón más importante para realizar un análisis de componentes principales (PCA) es para usarlo como herramienta para cribar los datos de variables múltiples. Se pueden crear nuevas variables llamadas calificaciones de los componentes principales, que se pueden usar como entrada en programas para trazado de gráficas y descripción de datos y, con frecuencia, un examen de las presentaciones gráficas resultantes revelará las anormalidades de los datos que se está planeando analizar. Por ejemplo, la presentación gráfica de los componentes principales puede ayudar a identificar los datos extraordinarios. Además, se pueden analizar por separado las mediciones de los componentes principales, para ver si se cumplen las hipótesis relativas a la distribución, como la normalidad de las variables y la independencia de las unidades experimentales. A menudo se requieren esos supuestos para que sean válidos ciertos tipos de análisis estadísticos. El análisis de componentes principales (PCA) se puede hacer sobre una matriz de varianza- covarianza de las muestras o una matriz de correlación. El mejor tipo de matriz suele depender de las variables que se están midiendo; de hecho se considera extraordinario cuando es posible interpretar las variables componentes principales. Al usar el PCA para cribar el conjunto de datos de variables múltiples, no es necesario que se pueda interpretar los componentes principales porque el PCA es extremadamente útil sin importar si se puede interpretar o no las nuevas variables. El análisis de los componentes principales suele ser bastante útil para los investigadores que desean realizar la división en subgrupos de las unidades experimentales, de modo que unidades experimentales similares pertenezcan al mismo subgrupo. En este caso, se pueden usar las calificaciones de las componentes principales como entrada para los programas de agrupación, lo que suele incrementar la eficacia de estos programas, reduciendo al mismo tiempo el costo de su uso. Además, pueden y siempre deben usarse las mediciones de las componentes principales para ayudar a validar los resultados de los programas de agrupación. Neevia docConverter 5.1 19 1. Razones para usar el análisis de componentes principales En el análisis de componentes principales (PCA) se usa un procedimiento matemático que transforma un conjunto de variables respuestas correlacionadas en un nuevo conjunto de variables no correlacionadas conocidas como componentes principales. Al observar cuidadosamente este nuevo conjunto de variables no correlacionadas, se pueden obtener respuestas a muchas preguntas importantes, como las planteadas en la sección anterior. Es probable que las respuestas a estas preguntas influyan sobre otros análisis que se realicen más adelante. 2. Cribado de los datos El análisis de componentes principales es quizá el más útil para cribar datos multivariados. Para casi todas las situaciones de análisis de datos, se puede recomendar el PCA como un primer paso. Se debe realizar bajo un conjunto de datos, antes de realizar cualesquier tipo de análisis multivariados. Los análisis de seguimiento sobre las componentes principales son útiles para comprobar los supuestos que el investigador podría establecer acerca de un conjunto de datos multivariados y para identificar y localizar datos extraordinarios posibles en el conjunto. Si se presentan algunas otras anormalidades en un conjunto de datos multivariados, el PCA puede ayudar a revelarlos. 3. Agrupación El análisis de componentes principales también es útil siempre que el investigador desee agrupar las unidades experimentales en subgrupos de tipos semejantes. Se pueden usar para ayudar a formar agrupamientos de las unidades experimentales en subgrupos o para verificar los resultados de los programas de agrupación. 4. Multicolinealidad Hace mucho que se sabe que la regresión múltiple puede ser peligrosa cuando las variables predictoras están intensamente correlacionadas de alguna manera. Esto se conoce como multicolinealidad entre las variables predictoras. El análisis de componentes principales puede ayudar a determinar si ocurre multicolinealidad entre las variables predictoras. 5. Objetivos del análisis de componentes principales Los programas para computadora hacen que sea muy fácil realizar un PCA. Esta técnica debe usarse principalmente como una técnica exploratoria y debe ayudar a los investigadores a que adquieran cierta percepción respecto a un conjunto de datos. A veces, un PCA puede ayudar a los investigadores a comprender mejor la estructura de correlación entre las respuestas y, en ocasiones, puede ayudar a generar hipótesis acerca de las variables o de los datos. La mayoría de los libros sobre métodos multivariados sugieren que los objetivos principales de un PCA son: 1. Reducir la dimensionalidad del conjunto de datos. 2. Identificar nuevas variables significativas subyacentes. En realidad, el objetivo 1 no es completamente verdadero, lo que en realidad se está intentando hacer es descubrir la verdadera dimensionalidad de los datos. Una pregunta importante es: “Si los datos se sitúan en un espacio ρ-dimensional, ¿esos datos tomarán todas las ρ dimensiones?, en caso contrario, aunque se estén midiendo ρ variables, la dimensionalidad real de los datos es menor que ρ. Neevia docConverter 5.1 20 Se puede usar el análisis de componentes principales para determinar la dimensionalidad real de los datos y, cuando esa dimensionalidad es menor que ρ, las variables originales se pueden reemplazar por un número menor de variables subyacentes sin que se pierda información. Entonces, se puede usar esta cantidad menor de variables en los siguientes análisis. Con relación al objetivo 2, el PCA siempre identificará nuevas variables. Sin embargo, no se puede garantizar que las nuevas variables sean significativas. Por desgracia, con mayor frecuencia, no serán significativas. Aunque las nuevas variables no sean significativas, las variables componentes principales todavía serán útiles. Las nuevas variables son útiles por diversas razones, incluyendo el cribado de los datos, la verificación de supuestos y la verificación de las agrupaciones. Hay una fuerte tendencia entre los investigadores a dar significado a las variables componentes principales recién creadas. Si las interpretaciones son obvias, entonces siga adelante y úselas. Esos pocos casos en donde a componentes principales se les puede dar una interpretación puede considerarse como un premio, porque lo común es no esperar que se puedan interpretar las variables componentes principales. [15] F. SUPERFICIE DE RESPUESTA 1. Generalidades En la práctica, el experimentador desea extender los objetivos de determinar la característica de calidad y los niveles de los factores que optimicen tal característica en la región donde se haya experimentado, a otras regiones de experimentación y se pregunta ¿qué factores influyen en la característica general?, ¿cuál es la región óptima?, ¿cómo se relacionan los factores con la respuesta en esta región? La metodología de superficies de respuesta permite encontrar la región de interés y contestar a las anteriores preguntas. 2. Necesidad de los modelos Uno de los deseos más fuertes que a lo largo de la historia ha mostrado la humanidad es el de modelar la realidad, es decir, el de encontrar funciones matemáticas que expliquen los distintos fenómenos de índole física, social, económica o biológica. Este deseo de encontrar modelos responde principalmente a las dos aplicaciones más inmediatas que se pueden derivarde ellos: • Capacidad de predecir o explicar el valor de cierta respuesta Y una vez conocidos los valores de ciertas variables .,...,, 21 KXXX • El hecho de poder seleccionar aquellas condiciones de las variables .,...,, 21 KXXX que permitan optimizar la respuesta Y . • Además el conocer el modelo ayuda también a determinar aquellas condiciones de las variables .,...,, 21 KXXX en que la respuesta sea más robusta o insensible al efecto de variaciones en factores que no son controlados por el experimentador (tales factores se denominan variables de ruido). En la práctica es muy difícil resolver el problema de encontrar un modelo único. En su lugar, se intenta aproximar tales relaciones de formas locales a través de funciones polinómicas de primer y segundo orden. Además, el análisis de estas aproximaciones permitirá, localizar la región óptima de una manera secuencial. Neevia docConverter 5.1 21 3. Grado de conocimiento y objetivos Los modelos pueden ser, atendiendo al método que se siga para obtenerlos, mecanicistas o empíricos. En los primeros se utilizan leyes físicas especializadas en el dominio concreto para seleccionar la estructura del modelo, y en general, es necesario estimar los parámetros que en ellos aparecen a través de la recolección de los datos. Cuando no se tiene conocimiento teórico de la estructura del modelo, se hace una aproximación de manera empírica con los datos obtenidos en la experimentación. Tal experimentación se ha de realizar de manera secuencial y con una metodología que dependerá del grado de conocimiento que se tenga del problema. Este conocimiento ayudará en la selección de un modelo que se ajuste a la respuesta y en la selección del diseño a realizar para poder estimar todos los parámetros de interés. En una primera etapa experimental, los métodos que se denominan metodología de superficie de respuesta (MSR) utilizan la experimentación para lograr principalmente tres objetivos: Encontrar un modelo capaz de explicar la relación existente entre cierta respuesta seleccionada y determinados factores en una región de interés. Localizar las condiciones óptimas de los factores de experimentación para la respuesta (las condiciones que hagan máxima la respuesta, por ejemplo). Realizar un estudio geométrico de la relación existente entre la respuesta y los factores en la región óptima, por medio del análisis canónico del modelo estimado. El logro de tales objetivos está ligado a las características que definen la MSR. En primer lugar, es una metodología secuencial: la aproximación a la región de interés se realiza de forma iterativa utilizando diseños cada vez más complejos dependiendo de la información que se obtiene en cada etapa. En segundo lugar, el método de trabajo que se utiliza es el descrito en el ciclo PCA (análisis de componentes principales), que consiste esencialmente en plantear un modelo tentativo, seleccionar un diseño que permita estimar los parámetros de interés, analizar los datos y verificar si el modelo planteado es adecuado. 4. Estrategias de la metodología de superficie de respuesta La metodología de superficie de respuesta contiene toda una serie de estrategias que el investigador puede seguir para estimar el modelo ),( θξη f= , que relaciona las respuestas de interés Y con los factores ξ lo más adecuadamente posible, con el mínimo coste de experimentación. El investigador actúa como un detective buscando las pistas que le lleven a la resolución del problema. Tales pistas son obtenidas a través de la información que proporciona la experimentación secuencial. donde ( )Kξξξξ ,...,, 21= es una serie de variables de salida, medibles, por ejemplo, la concentración inicial de reactivos, temperaturas y presiones, y donde ( )pθθθθ ,...,, 21= representa a una serie de parámetros físicos medibles como energías de activación, coeficientes de difusión y conductividad térmica. Entonces podemos decir que la función ),( θξf representa un modelo mecanicista. Al comienzo de la experimentación se puede conocer poco del problema y en tal caso es recomendable suponer que la región donde se comienza a experimentar está lejos de la región óptima. Si es así, una aproximación suficientemente buena a ),( θξf es la que se obtiene con modelos lineales de primer orden estimados a partir de diseños factoriales fraccionales o a dos niveles. Neevia docConverter 5.1 22 Por el contrario, cuando se tiene un conocimiento más preciso sobre la relación existente, o se está próximo a la región óptima, el experimentador se aproxima a la relación ),( θξf mediante modelos de segundo orden estimados a partir de diseños más complejos (cuadráticos). Por lo tanto, distinguiremos entre dos tipos de estrategias: Estrategias de primer orden: Diseño 2 K-P Estimación por mínimos cuadrados Modelos de primer orden: εβββ +++= 22110 XXY Mapas de contornos o curvas de nivel Camino de máximo ascenso o steep ascent Estrategias de segundo orden: Diseño central compuesto Estimación por mínimos cuadrados Modelos de segundo orden εββββββ ++++++= 2112 2 222 2 11122110 XXXXXXY Mapas de contornos y análisis canónico En la primera etapa, a la vez que se emplean los diseños2K-P se pueden llevar a cabo otras acciones propias de los comienzos de la experimentación, tales como borrar o añadir factores en el diseño, cambiar la escala de variación de los factores, replicar para una mejor estimación del error experimental y añadir fracciones para romper las confusiones. Por otra parte, en cada momento existen métodos de verificación que permitirán comprobar si el modelo lineal de primer orden es suficientemente bueno, o detectar una evidencia de curvatura en la respuesta. Este hecho implicará la selección de modelos de segundo orden y, por tanto, estrategias de segundo orden. A menudo la necesidad del conocimiento físico del sistema es escaso ó incompleto y consecuentemente ningún modelo mecanicista es disponible. En estas circunstancias se supone de manera más realista que la relación entre η y ξ podría ser lineal o lisa y en consecuencia esta función ),( θξf localmente aproximada (por encima de los límites de las variables experimentales ξ ) por una función de interpolación ),( βXg , como un polinomio, en ésta función la expresión β ’s son los coeficientes de los modelos que se obtienen por modelos lineales. En cuanto al modelo matemático a utilizar para aproximar ),( θξf , se aplicarán funciones polinómicas ),( βXg de primer o de segundo grado, las cuales pueden ser interpretadas como las resultantes de hacer el desarrollo de Taylor de ),( θξf alrededor de (0,0), centro de la experimentación en unidades codificadas, cortando el desarrollo en los términos de primer o de segundo grado respectivamente. Estos polinomios tienen la siguiente estructura para el caso particular de dos factores: εββββ +++= 22110),( XXxg (30) para los modelos de primer orden, y εβββββββ ++++++= 2222 2 111211222110),( xxxxxxxg (31) para los modelos de segundo orden. En ambos, ε representa el efecto de aquellos factores que no se han tenido en cuenta en la experimentación o el efecto de aquellos presentes en el estudio, pero cuyo efecto no se ha podido recoger adecuadamente con el modelo seleccionado. Neevia docConverter 5.1 23 Los modelos de segundo orden necesitan más experimentos para ser estimados y sólo se recurre a ellos cuando existe evidencia de curvatura en el modelo y, por lo tanto, la aproximación lineal no es adecuada. Para poder detectar la curvatura, a los diseños de primer orden 2K-P se les añaden puntos centrales. Aquellas regiones de experimentación en las que la superficie no presenta evidencia de curvatura son interpretadas como regiones lejanas a la zona óptima y, una vez más, existe una estrategia consistente en acercarse lo más rápidamente a esta zona a lo largo de la dirección de máximo cambio de la respuesta. Por último,una vez detectada la cercanía de la región óptima se pasa a la utilización de estrategias de segundo orden. Una de ellas consiste en la selección de un diseño de segundo orden apropiado que permita una buena estimación de un modelo cuadrático. Los diseños más utilizados son los “Diseños centrales compuestos”, obtenidos al añadir un “Diseño estrella” a un diseño factorial. Las características de estos diseños en cuanto a los niveles en que se han de colocar los factores son las propiedades de las estimaciones obtenidas. Una vez obtenida una aproximación cuadrática que se ajuste a la superficie es conveniente realizar un análisis canónico del modelo resultante para interpretar de manera sencilla la geometría de la superficie estimada en la región de experimentación y obtener información que puede ser útil para sugerir posibles explicaciones teóricas del problema. 5. Aproximación lineal a las condiciones óptimas El presente ejemplo trata de un proceso de fundición de tapas de aluminio por inyección, en el que se intenta minimizar el índice de porosidad encontrado en ellas. Tal índice se obtiene mediante un método estándar a través de rayos-X. Al parecer la temperatura del aluminio líquido y la presión con que ésta se inyecta en el molde afectan al índice de porosidad de la placa resultante. Los objetivos de la experimentación son encontrar las condiciones óptimas de trabajo en las cuales la porosidad sea mínima, y estimar la relación existente entre el índice de porosidad con la temperatura y la presión, en una región próxima a las condiciones óptimas. Los conocimientos que sobre el tema tienen los técnicos del proceso recomiendan no trabajar con temperaturas externas al intervalo, 600-900°C ni con presiones por debajo de 700 Kg/cm2. Tales restricciones definen la región de operabilidad. En primer lugar se plantea la hipótesis sobre el modelo que mejor aproxima la respuesta en la zona de experimentación de partida. Puesto que está en los comienzos de la experimentación y se conoce poco, se asume que las condiciones óptimas no tienen por qué estar próximas y que, por lo tanto, la superficie de respuesta puede ser aproximada mediante un modelo de primer orden. Para estimar tal modelo se selecciona un diseño 22 con dos puntos centrales, como se muestra en el cuadro No. 9. Los puntos centrales permiten comprobar mediante un test de curvatura, si en el modelo de primer orden es adecuado o, por el contrario, se necesita un modelo de segundo orden. Cuadro 9. Resultados de experimento con llantas de aluminio. Entre paréntesis figuran las unidades originales de los factores. Temperatura (°C) Presión (Kg/cm2) Índice de porosidad -1 (640) -1 (950) 6.09 +1 (660) -1 (950) 5.53 -1 (640) +1 (1000) 6.78 +1 (660) +1 (1000) 6.16 0 (650) 0 (975) 5.93 0 (650) 0 (975) 6.12 Neevia docConverter 5.1 24 Además, el hecho de tener réplicas (en este caso para 650°C y 975 Kg/cm2) permite obtener una estimación de 2σ independientemente del modelo seleccionado. Tal estimación puede ser comparada con la estimación obtenida a través de los residuos del modelo mediante un test de comparación de varianzas. En el caso de que ambas estimaciones difieran significativamente, tendremos la prueba de que el modelo propuesto no se ajusta bien a la superficie y tendremos que pensar en transformar los datos o en aproximaciones cuadráticas. El diseño anterior permite estimar los parámetros de un modelo que puede ser expresado en forma matricial como: eXY += β (32) donde Y corresponde al vector de observaciones, X es la matriz de diseño, β es el vector de los parámetros del modelo y la ε es el vector de errores. Para el ejemplo que nos ocupa: ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = 12.6 93.5 16.6 78.6 53.5 09.6 Y , ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ − − −− = 001 001 111 111 111 111 X , ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ = 2 1 0 β β β β (33) La estimación mínimo cuadrática de los coeficientes se puede realizar empleando las técnicas de regresión lineal, lo cual equivale a resolver la ecuación siguiente: YXXXb tt 1)(ˆ −== β Varianza de (b) = 12 )(ˆ −XX tσ (34) con 1 1/ 6 1/ 6 1/ 6 1/ 6 1/ 6 1/ 6 ( ) 1/ 4 1/ 4 1/ 4 1/ 4 0 0 1/ 4 1/ 4 1/ 4 1/ 4 0 0 t tX X X− ⎡ ⎤ ⎢ ⎥= − −⎢ ⎥ ⎢ ⎥− −⎣ ⎦ Obteniéndose los resultados 6.10 0.29 0.33 b ⎡ ⎤ ⎢ ⎥= −⎢ ⎥ ⎢ ⎥⎣ ⎦ Desv. Estándar de (b) = ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ 055.0 055.0 045.0 y, por lo tanto, todos los coeficientes significativos. En esta etapa se ha de comprobar si existe alguna prueba de que el modelo lineal estimado no sea una buena aproximación a la respuesta y se necesiten modelos más complejos, es decir, modelos cuadráticos. Ello equivale a plantear la siguiente hipótesis: H0 = modelo esperado: εβββ +++= 22110 xxy H1 = modelo no deseado: εββββββ ++++++= 2222 2 111211222110 xxxxxxy o en forma matricial H0 = modelo esperado: εβ += XY H1 = modelo no deseado : εγβ ++= ZXY (35) donde Z corresponde a la matriz de términos cuadráticos y γ al vector de sus coeficientes. Neevia docConverter 5.1 25 El contraste que se debe utilizar para tomar una decisión está relacionado con las consecuencias que se derivan de aceptar como mejor aproximación la que da un modelo lineal (H0), cuando en realidad la mejor es la de un modelo cuadrático (H1). En efecto, si se estiman los parámetros del modelo YXXXb tt 1)(ˆ −== β Varianza de (b) 12 )(ˆ −XX tσ , suponiendo que H0 es cierta, cuando en realidad lo es H1 se obtiene [ ] [ ]1 1 1 1( ´ ) ´ ( ) ( ) ( ) ( )t t t t t tE b E X X X Y X X X E Y X X X X Z X X X Zβ γ β γ− − − −⎡ ⎤= = = + = +⎣ ⎦ es decir, [ ] γβ AbE += con 1( )t tA X X X Z−= denominada matriz de alias o de confusiones. Los diseños de primer orden no pueden estimar por separado 11β y 22β , pero sí su efecto conjunto 2211 ββ + . La estimación de tal efecto por mínimos cuadrados es equivalente a comparar los promedios de la porosidad en el centro de la superficie con el promedio en las esquinas del cubo. Luego el test de las hipótesis planteadas en la ecuación 35 sobre la necesidad de modelos de segundo orden es equivalente al test de hipótesis: ⎭ ⎬ ⎫ ⎩ ⎨ ⎧ ≠− =− 0: 0: 1 0 centrocubo centrocubo YYH YYH sobre la existencia de curvatura, que se puede comprobar comparando el valor del estadístico centrocubo centrocubo nsns YY // 22 + − (36) con el valor de la t de Student con v grados de libertad, siendo v los grados de libertad con lo que se ha estimado ,.σ a partir de s . En el ejemplo, al aplicar la ecuación 36 se obtiene: 21.1 2/012.04/012.0 025.614.6 = + − Con 2s =0.012 estimada con 3 grados de libertad. Por lo tanto al obtener un valor no significativo, no encontramos evidencia de curvatura. En consecuencia no se puede rechazar H0 en las hipótesis planteadas en la ecuación 35, y concluimos que el modelo lineal realiza una aproximación suficientemente buena de la respuesta de interés. En consecuencia se intuye que se está lejos de la región óptima y por lo tanto, la siguiente estrategia será la de alejarse lo más rápidamente posible en la dirección del máximo decrecimiento (ya que se desea tener llantas con mínimo índice de porosidad) hacia las condiciones óptimas de experimentación, y allí volver a plantear un diseño de primer orden con puntos centrales, o directamente uno de segundo si existe evidencia de curvatura. 6. Aproximación cuadrática. Diseños compuestos centrales En estos momentos de la experimentación se ha de añadir un segundo diseño al realizado anteriormente, si se quiere estimar un modelo cuadrático con la precisión suficiente. Neevia docConverter 5.1 26 El hecho de realizar la experimentación en dos tiempos puede provocar un efecto bloque, que puede afectar a la estimación de los efectos si las condiciones experimentales del segundo diseño se han seleccionado adecuadamente. Para que esto no ocurra,es decir, para que la estimación de los factores sea independiente del hecho de haber experimentado en dos bloques, el efecto bloque ha de ser ortogonal a efectos de las demás variables. Si además se desea que las estimaciones de los factores sean independientes entre sí, los dos diseños han de ser ortogonales en sus factores y ortogonales con los bloques. El primer diseño 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 X − −⎡ ⎤ ⎢ ⎥−⎢ ⎥ ⎢ ⎥− ⎢ ⎥= ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ Ya cumple la condición de ortogonalidad, basta con multiplicar las columnas del diseño entre sí y observar que todos los productos se anulan. El segundo diseño, denominado diseño estrella contiene los experimentos dispuestos de la siguiente forma 1 0 1 0 1 0 1 0 1 0 0 1 0 0 1 ... ... X α α α α −⎡ ⎤ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− ⎢ ⎥= ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ donde α y el número de puntos centrales en0 se han de determinar según los criterios que se explican a continuación. El resultado de añadir un diseño factorial y un diseño estrella se conoce como diseño central compuesto o central composite design. La forma de tal diseño para tres factores se puede ver la siguiente figura. Figura No. 1 Diseño compuesto central formado al añadir un “diseño estrella” a un diseño 2k-p Neevia docConverter 5.1 27 La selección de α y en0 está basada en dos criterios: El criterio de ortogonalidad mencionado anteriormente y el criterio de rotabilidad. Se dice que un diseño es rotable si la precisión en la estimación de la superficie es igual para todos los puntos equidistantes del centro del diseño, independientemente de la dirección en que se encuentren; es decir, se puede girar la superficie sobre su centro y la precisión en la estimación es la misma. La rotabilidad en diseños centrales compuestos solo depende del valor de α y del número de experimentos que se hayan realizado en el cubo sin contar los puntos centrales, ,cN a través de la fórmula, 4 cN=α (37) La condición de ortogonalidad en cambio, implica que las estimaciones de los parámetros en el modelo εββββββ ++++++= 2222 2 111211222110 xxxxxxy son independientes entre sí, e independientes a su vez del efecto bloque. Para que esto ocurra se han de cumplir dos condiciones: 1. Cada bloque debe contener un diseño ortogonal. 2. La fracción del total de la suma de cuadrados de cada variable ix en cada bloque debe ser igual a la fracción del número total de observaciones distribuidas en cada bloque. Es decir, para cada variable i y sobre cada bloque b se ha de cumplir: ∑ ∑ = = N ij bij n ij bij x x b 2 2 i = indicador de variable i j = indicador de la observación j de la variable i en el bloque b bn = número de observaciones en el bloque b N = número total de observaciones. Llamado cn0 y en0 al número de puntos centrales en el cubo y en el diseño estrella respectivamente, y k al número de factores en el diseño, al aplicar la condición de ortogonalidad al caso particular de los diseños compuestos centrales se obtiene la fórmula simplificada siguiente. [17] )(2 )2( 0cc oec nN nkN + + =α (38) donde cN el número de puntos en el primer diseño exceptuando los puntos en el centro ( cN será de la forma 2k ó 2k-p). El cuadro No. 10 presenta los resultados de un tercer experimento del índice de porosidad en llantas de aluminio. Neevia docConverter 5.1 28 Cuadro 10. Resultados del experimento 3 en el ejemplo de las llantas de aluminio. Si se desea añadir un nuevo diseño ortogonal y tal que el conjunto sea rotable, basta con sustituir los valores de las constantes: 4,2 == cNk y c n0 =3 en las expresiones (37 y 38), se obtiene: )34(2 )4(4 0 + + = e nα y 244 ==α para la condición de ortogonalidad y rotabilidad respectivamente. Por lo tanto, si se han de cumplir las dos condiciones, el número de puntos centrales que ha de contener el diseño estrella será de en0 =3. Temperatura (°C) Presión (Kg/cm2) Índice de porosidad -1 (690) -1 (820) 2.20 +1 (710) -1 (820) 3.71 -1 (690) +1 (870) 2.86 +1 (710) +1 (8700) 3.49 0 (700) 0 (845) 2.53 0 (700) 0 (845) 2.30 0 (700) 0 (845) 2.54 Neevia docConverter 5.1 29 II. PLANTEAMIENTO DEL PROBLEMA La aplicación de las herramientas estadísticas es muy importante en la toma de decisiones, por lo cual es de gran importancia tener un dominio más extenso en el manejo y conocimiento de estas técnicas. Uno de los problemas más relevantes para la aplicación del Diseño Estadístico de Experimentos en la industria es que la enorme mayoría de los profesionales no conocen sus fundamentos y consecuentemente tampoco su aplicación. Esto, en parte, ha dejado de ser un problema con el acceso generalizado de los paquetes de cómputo, los cuales proporcionan herramientas altamente eficientes en el tema y permiten dedicarse prácticamente con exclusividad al análisis de resultados. En la industria farmacéutica se realizan pruebas en las cuales comúnmente sólo se determina el efecto directo de una variable, y la información de los datos puede ampliarse dando un tratamiento estadístico adecuado a los datos obtenidos para mejorar los procesos de fabricación. En la actualidad no se cuenta con una metodología específica para realizar un análisis estadístico para evaluar totalmente los procesos farmacéuticos en formas farmacéuticas sólidas. De igual manera no se cuenta con un procedimiento específico para el manejo, aplicación, tratamiento e inserción de los datos en programas estadísticos. Por otra parte, la interpretación de los resultados obtenidos empleando paquetes estadísticos se torna complejo, debido a la falta de conocimientos respecto al tema, aspecto que se pretende ayudar a superar con este trabajo. Neevia docConverter 5.1 30 III. OBJETIVOS Objetivo General Generar y desarrollar una propuesta metodológica para seleccionar variables de respuesta y factores de estudio en procesos farmacéuticos. Objetivos particulares Analizar los fundamentos del análisis multivariado. Analizar los fundamentos de la metodología de superficie de respuesta. Analizar los fundamentos y criterios de aplicación del diseño Compuesto Central. Generar una propuesta de aplicación e interpretación del uso conjunto de todas las herramientas analizadas en los objetivos anteriores. Neevia docConverter 5.1 31 IV. METODOLOGÍA Material y método 1. Definir el tema. 2. Búsqueda y selección de información. 3. Análisis y síntesis de información de cada técnica. 4. Selección y digitalización de datos. 5. Uso de software de análisis estadístico STATGRAPHICS. 6. Interpretación de resultados. 7. Elaboración de guía de usuario para realizar este tipo de análisis. 8. Redacción de la tesina. La búsqueda de información se realizó en las siguientes fuentes. Artículos con enfoque estadístico aplicado a la industria farmacéutica: La búsqueda de la información se realizó en artículos de diseños estadísticos aplicados a la industria farmacéutica, en revistas enfocadas al área farmacéutica y en páginas de Internet. Libros de aplicación al tema: La información se buscó en libros que incluyeran los temas relacionados con las aplicaciones estadísticas del diseño propuesto. Páginas de Internet relacionados con los temas de diseño estadístico: La búsqueda en Internet se realizó introduciendo en la barra de búsqueda el nombre de cada uno de los temas estadísticos de aplicación para el presente trabajo. De manera sintetizada los pasos a seguir para la elaboración del presente trabajo se describen en el diagrama de flujo que se presenta a continuación. Neevia docConverter 5.1 32 V. DIAGRAMA DE FLUJO Selección del tema
Compartir