Logo Studenta

Tecnicas-estadisticas-para-seleccionar-variables-de-respuesta-y-factores-de-estudio-en-el-area-farmaceutica

¡Este material tiene más páginas!

Vista previa del material en texto

UNIVERSIDAD NACIONAL AUTÓNOMA 
DE MÉXICO 
 
 
FACULTAD DE ESTUDIOS SUPERIORES 
ZARAGOZA 
 
 
Tenorio Solís Enrique 
 
 
No. de cuenta 09417747-3 
 
Técnicas estadísticas para seleccionar variables de respuesta y factores de 
estudio, en el área farmacéutica. 
 
 
Área específica del proyecto: Farmacia 
 
Director de tesina: M. en C. Armando Cervantes Sandoval 
 
Asesor de la tesina: M. en C. Maria José Marques Dos Santos 
 
Año del término de la carrera: 2004 
Orientación: Farmacia 
 
Lugar donde se desarrollo la tesina: Facultad de Estudios Superiores Zaragoza 
 
Opción de titulación: Paquete de Educación Continua 
 
 
 
Neevia docConverter 5.1
 
UNAM – Dirección General de Bibliotecas 
Tesis Digitales 
Restricciones de uso 
 
DERECHOS RESERVADOS © 
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL 
 
Todo el material contenido en esta tesis esta protegido por la Ley Federal 
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). 
El uso de imágenes, fragmentos de videos, y demás material que sea 
objeto de protección de los derechos de autor, será exclusivamente para 
fines educativos e informativos y deberá citar la fuente donde la obtuvo 
mencionando el autor o autores. Cualquier uso distinto como el lucro, 
reproducción, edición o modificación, será perseguido y sancionado por el 
respectivo titular de los Derechos de Autor. 
 
 
 
 
Neevia docConverter 5.1
 1 
 
 
 
 
 
 
 
 
 
 
 
 
 
INTRODUCCIÓN 
 
 
Cada vez son más las empresas y centros de investigación y desarrollo que aplican el diseño de 
experimentos de manera cotidiana, tanto para mejorar el desempeño de los procesos ya 
establecidos como para hacer innovaciones y el desarrollo de nuevos productos. Esto es 
necesario para mantener una empresa competitiva en un mercado global, al poder reducir sus 
costos de producción mejorando al mismo tiempo la calidad de sus productos. Aporta además el 
conocimiento profundo de los procesos, generando herramientas eficaces del manejo de los 
mismos. 
 
El uso adecuado de las herramientas estadísticas y su correcta interpretación son temas de 
interés en los tiempos actuales en casi todas las áreas del conocimiento humano. Y en la 
investigación farmacéutica son fundamentales para la toma de decisiones, por lo que es necesario 
analizar los fundamentos teóricos de algunas de las técnicas más comunes, por ejemplo las de 
regresión lineal simple y múltiple, para entender la manera en que se combinan con técnicas más 
avanzadas como la de diseños compuestos centrados, diseños estrella o la técnica multivariada 
de componentes principales. Este análisis servirá para ponderar y seleccionar las variables 
dependientes (Y´s) o los factores de estudio (X´s) de mayor relevancia, en la investigación 
farmacéutica. 
 
En éste trabajo se da una perspectiva sencilla para aplicar y comprender algunas de las 
herramientas estadísticas, empleando el paquete estadístico STATGRAPHICS PLUS 5, para 
llevar acabo un análisis compuesto central con punto estrella aplicado a un estudio de 
optimización de formulas farmacéuticas sólidas, con base en la información del artículo KEY 
VARIABLES IN DOSAGE FORM DESIGN (Diseño de variables clave en formas de dosificación) 
publicado en la revista Drug Development and Industrial Pharmacy Vol. 17 (7), del año 1991, 
págs. 959-974. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Neevia docConverter 5.1
2 
I. MARCO TEÓRICO 
 
En la actualidad la mayor parte de los procesos industriales, no exclusivamente los procesos 
farmacéuticos, se rigen por normas nacionales e internacionales las cuales regulan las 
condiciones más elementales para asegurar que los productos que se elaboran en cada una de 
las empresas que cumplen con sus lineamientos, entregan al consumidor productos de alta 
calidad. Es por ello que en este capítulo se mencionarán algunas normas y documentos oficiales 
los cuales destacan la importancia y uso de las herramientas estadísticas. 
 
A. APLICACIONES ESTADÍSTICAS EN NORMATIVIDADES 
Y REGULACIONES OFICIALES 
 
 
1. Norma Mexicana IMNC (NMX-CC-9004-IMNC-200) 
 
Los puntos a considerar en la Norma Mexicana IMNC (NMX-CC-9004-IMNC-200) los cuales 
consideran la parte estadística dentro de su contenido, son los que se listan a continuación de 
acuerdo al numeral de la misma norma: 
8 Medición, análisis y mejora 
8.1 Orientación general 
8.1.1 Introducción 
 
Los datos de las mediciones son importantes en la toma de decisiones basadas en hechos. La 
alta dirección debería asegurarse de la eficaz y eficiente medición, recopilación y validación de 
datos para asegurar el desempeño de la organización y la satisfacción de las partes interesadas. 
Esto debería incluir la revisión de la validez y del propósito de las mediciones y el uso previsto de 
los datos para asegurarse del aporte de valor para la organización. 
 
8.1.2 Aspectos a considerarse 
 
La medición, el análisis y la mejora incluyen entre otras (sólo se enuncian los puntos que hacen 
referencia a conceptos estadísticos): 
 
a. la medición, el análisis y la mejora de los productos y procesos deberían usarse para 
establecer prioridades apropiadas para la organización; 
d) los estudios comparativos (benchmarking) de procesos individuales deberían emplearse 
como una herramienta para mejorar la eficacia y eficiencia de los procesos; 
j) el uso de las técnicas apropiadas, estadísticas o de otro tipo, puede ser útil en la 
comprensión de las variaciones, tanto de los procesos como de las medidas, y por lo tanto 
puede mejorar el desempeño del proceso y del producto controlando dicha variación; 
 
8.4 Análisis de datos 
 
Las decisiones deberían basarse en el análisis de datos obtenidos a partir de mediciones e 
información recopilada tal y como se describe en esta norma mexicana. En este contexto, la 
organización debe analizar los datos de sus diferentes fuentes tanto para evaluar el desempeño 
frente a los planes, objetivos y otras metas definidas, como para identificar áreas de mejora 
incluyendo posibles beneficios para las partes interesadas. 
 
Las decisiones basadas en hechos requieren acciones eficaces y eficientes tales como: 
 
- métodos de análisis válidos; 
- técnicas estadísticas apropiadas; y tomar decisiones y llevar a cabo acciones basadas en los 
resultados de análisis lógicos, en equilibrio con la experiencia y la intuición. 
Neevia docConverter 5.1
3 
El análisis de los datos puede ayudar a determinar la causa de los problemas existentes o 
potenciales y por lo tanto guiar las decisiones acerca de las acciones correctivas y preventivas 
necesarias para la mejora. [1] 
 
2. NOM-059-SSA1-1993 
 
Otra de las normas que considera aspectos estadísticos es la Norma Mexicana 059-SSA1-1993, 
relacionada con mejora de la calidad de los productos farmacéuticos, los puntos en los cuales se 
hace mención de estas herramientas se listan a continuación: 
 
14.1 Política. 
Es un requerimiento que los fabricantes de medicamentos determinen qué actividades de 
validación son necesarias para demostrar el control de los aspectos críticos de sus operaciones 
particulares. 
Debe utilizarse un enfoque de análisis de riesgos para evaluar el ámbito y grado de validación. 
14.10 Proveedores. 
14.10.1 Se consideran validados siempre y cuando: 
14.10.1.1 Hayan sido aprobados de acuerdo a lo descrito en el numeral 9.2 de este Proyecto de 
Norma Oficial Mexicana. 
14.10.1.2 Exista evidencia documentada del desempeño histórico del proveedor en cuanto a la 
calidad de cada uno de los insumos suministrados. 
14.10.1.3 Se lleve a cabo una auditoria a sus instalaciones de acuerdo al numeral 17 de este 
Proyecto de Norma Oficial Mexicana, que demuestre que cuenta con un Sistema de 
Calidad. 
14.10.1.4 Llevar a cabo un estudio estadístico entre los resultados proporcionados por el 
proveedor en su Certificado de Análisis y los resultados obtenidos en el laboratorio, 
para demostrar equivalencia. [2] 
 
3. Farmacopea de los Estados Unidos Mexicanos (FEUM)Una de las regulaciones sanitarias en las cuales se sustentan las pruebas de análisis para la 
fabricación de medicamentos para uso y consumo humano es la Farmacopea de los Estados 
Unidos Mexicanos, en la cual se plantean las especificaciones con las que deben de cumplir este 
tipo de productos, y además se plantean las técnicas estadísticas en ensayos biológicos debido a 
su gran diversidad de respuesta a las terapias con medicamentos. 
 
Los ensayos biológicos se dividen en ensayos cualitativos y ensayos cuantitativos. Los ensayos 
cualitativos, con los que se pretende, por ejemplo, identificar una sustancia por medio de una 
reacción característica producida en una especie particular de entidad biológica, raramente 
presentan dificultad en su análisis estadístico. Por su parte, los ensayos cuantitativos, son 
semejantes a los métodos de medición física o de análisis químico cuantitativo, en que conducen 
a una determinación numérica de alguna propiedad del material (o proceso) por ser ensayado. [3] 
 
4. Farmacopea de los Estados Unidos de América (USP) 
 
Una de las regulaciones en las que una gran cantidad de Laboratorios Farmacéuticos se basan 
para la elaboración de sus productos debido a la exportación de los mismos, es la Farmacopea de 
los Estados Unidos de América que también hace mención del uso de técnicas estadísticas como 
se muestra en la siguiente sección, lo cual pone de manifiesto que el empleo de técnicas 
estadísticas no se limita a un tipo de análisis o de ensayos, sino que éstos dependen de la 
finalidad u objetivo que se pretende evaluar. [4] 
Neevia docConverter 5.1
4 
 
La garantía de calidad de los productos farmacéuticos se logra combinando una serie de 
prácticas, que incluyen un diseño robusto de la formulación, validación, análisis de materias 
primas, análisis durante el proceso y pruebas del producto final. Cada una de estas prácticas 
depende de métodos de prueba confiables. Durante el proceso de desarrollo, se desarrollan y 
validan procedimientos de prueba para asegurar que los productos fabricados estén 
perfectamente caracterizados. Las pruebas del producto final permiten comprobar que los 
productos son uniformemente seguros y eficaces y que cumplen con sus especificaciones. 
 
Las mediciones son intrínsecamente variables y la USP reconoce tal variabilidad para las pruebas 
biológicas desde hace mucho tiempo. Las mediciones de análisis químicos comúnmente utilizadas 
para productos farmacéuticos también son intrínsecamente variables, aunque en menor grado que 
las pruebas biológicas. No obstante, en muchos casos los criterios de aceptación son 
proporcionalmente más estrictos y en consecuencia, debe tenerse en cuenta esta menor 
variabilidad aceptable cuando se analizan datos obtenidos por procedimientos analíticos. Si no se 
caracteriza ni especifica la variabilidad de una medición junto con el resultado obtenido, los datos 
solo pueden interpretarse en el sentido más limitado. 
 
En el capitulo <1010> Datos analíticos – interpretación y tratamiento de la USP 30, se 
proporcionan indicaciones para el tratamiento e interpretación científicamente aceptables de los 
datos. Se describen además las herramientas estadísticas que pueden resultar útiles para la 
interpretación de los datos analíticos. Mucha estadística descriptiva, como la desviación estándar 
y la media, son de uso difundido. Otras herramientas estadísticas, como las pruebas de resultados 
aberrantes, pueden realizarse utilizando diferentes métodos científicamente válidos. 
 
 
B. ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL 
 
1. Análisis de regresión y correlación lineal 
 
A menudo se está interesando en estudiar la relación entre dos variables como cantidad de 
fertilizante y producción, concentración de una droga inyectada a un animal de laboratorio y latidos 
del corazón, dureza de los plásticos tratados con calor durante diferentes períodos. La naturaleza 
y el grado de relación de este tipo de variables se puede analizar mediante dos técnicas: 
regresión y correlación, que aunque de alguna manera están relacionadas, tienen propósitos e 
interpretaciones diferentes. La diferencia entre ambos procedimientos no permite que se sustituya 
uno por el otro en una situación experimental dada. 
 
El análisis de regresión es útil para determinar la forma probable de la relación entre las 
variables (la ecuación que relaciona a ambas variables) cuando hay un fenómeno de causa y 
efecto; y su objetivo principal es el de predecir o estimar el valor de una variable (respuesta o 
dependiente (Y)), correspondiente al valor dado de la otra variable (explicativa o 
independiente(X)). En otras palabras, el investigador decide cuáles valores tomará la variable 
independiente, mientras que los valores de la variable dependiente están determinados por la 
relación que existe, si la hay, entre ambas. Por lo tanto, debe emplearse el análisis de regresión 
en situaciones experimentales en las cuales el investigador controla la variable independiente. 
 
El análisis de correlación, por otra parte, consiste en la medición del grado o intensidad de 
asociación entre dos variables sin importar cuál es la causa y cuál el efecto. Cuando se puede 
demostrar que la variación de una variable está de algún modo asociada con la variación de otra, 
entonces se puede decir que las variables están correlacionadas. [5] 
 
La medida del grado de relación entre dos variables se llama coeficiente de correlación y se 
representa universalmente por .ρ En el modelo de correlación se asume que X y Y varían en 
una distribución conjunta. Si esta distribución está distribuida normalmente se llama distribución 
normal bivariada. [6] 
Neevia docConverter 5.1
5 
Una correlación puede ser positiva (cuando al aumentar una variable la otra también aumenta), o 
negativa (cuando al aumentar una variable la otra disminuye). Por otro lado, si la variación de una 
variable no corresponde en absoluto a la variación de la otra, entonces no existe ninguna 
asociación y, por consiguiente, ninguna correlación entre las dos variables. Así, por ejemplo, si un 
investigador desea determinar el grado de asociación que existe entre la biomasa del fitoplancton 
y la cantidad de clorofila “a”, debe obtener repetidas muestras de agua de un lugar de muestreo 
en un lago y medir la clorofila “a” y la biomasa en cada muestra. En esta situación el investigador 
no tiene control sobre una u otra variable, puesto que los valores de la clorofila “a” y de la biomasa 
encontrados en cada muestra serán “los que la naturaleza proporciona”. Así que se deduce que 
tanto la clorofila “a” como la biomasa son variables aleatorias, y la correlación es, en 
consecuencia, el procedimiento adecuado. [5] 
 
Es importante enfatizar, en lo que respecta al análisis de correlación, que ni X ni Y representan 
una variable independiente; en otras palabras, tanto X como Y son variables aleatorias. Por otra 
parte, en el análisis de regresión, X representa la variable independiente y Y la variable 
dependiente. [7] 
 
2. Análisis de regresión lineal múltiple 
 
Como la estadística inferencial permite trabajar con una variable a nivel de intervalo o razón, así 
también la regresión lineal permite relacionar variables, mediante ecuaciones, una variable Y con 
otra variable X, mientras que la regresión lineal múltiple permite relacionar una variable Y con dos 
o más variables X’s. [8] 
 
La ecuación de regresión lineal con una sola variable independiente tiene la forma bXaY +=´ . En 
el caso de la regresión lineal múltiple la ecuación se amplía y puede tener más variables 
independientes. La forma general de la ecuación de regresión lineal múltiple con dos variables 
independientes es: 
22110´ XbXbbY ++= (1) 
donde: 
 
 21 , XX son las dos variables independientes. 
 0b es la intersección con el eje Y . Es la ordenada del punto de intersección con el 
eje Y . 
 1b es la variación neta en Y por cada unidad de variación en 1X , manteniendo 2X 
constante. Se denominacoeficiente de regresión parcial, coeficiente de regresión 
neta, o simplemente, coeficiente de regresión. 
 2b es el cambio neto en Y para cada cambio unitario en 2X , manteniendo 1X 
constante. También se le conoce como coeficiente de regresión parcial, coeficiente 
de regresión neta, o simplemente, coeficiente de regresión. 
 
La interpretación geométrica, cuando se tienen dos variables independientes y sólo una variable 
dependiente, es un plano de regresión ya que se están considerando tres dimensiones. 
 
Se puede aumentar el número de variables independientes. La ecuación general de regresión 
múltiple con tres variables independientes, denotadas por 1X , 2X y 3X es: 
3322110´ XbXbXbbY +++= (2) 
Esto puede ampliarse a cualquier número (k), de variables independientes, siendo la ecuación 
general de regresión lineal múltiple: [9] 
kk XbXbXbXbbY +++++= ...´ 3322110 (3) 
Neevia docConverter 5.1
6 
El método de mínimos cuadrados para estimar 0b , 1b , 2b ,…, kb , minimiza la suma de los 
cuadrados de las desviaciones verticales respecto al plano de regresión. En la ecuación de 
regresión múltiple, la obtención de 0b , 1b y 2b resulta muy tediosa, aún cuando se utilice una 
calculadora, debido a la gran cantidad de cálculos. Por ejemplo, con dos variables independientes 
hay que resolver simultáneamente, tres ecuaciones que son: 
∑ ∑ ∑++= 22110 XbXbnbY 
∑ ∑ ∑∑ ++= 212211101 XXbXbXbYX 
∑ ∑ ∑∑ ++= 222211202 XbXXbXbYX 
Por esta razón se recomienda utilizar alguno de los paquetes de cómputo que realizan los cálculos 
y presentan los resultados. MINITAB, STATGRAPHICS, SAS y SPSS son cuatro de los más 
utilizados. [10] 
 
 
C. ANÁLISIS DE VARIANZA 
 
 
1. Análisis de varianza de un solo factor completamente aleatorio 
 
En una prueba t de dos muestras se desea contrastar la hipótesis de que dos medias 
poblacionales son iguales, en comparación con la hipótesis alternativa. Recuérdese que para usar 
esa prueba, el experimento debe tener como resultado muestras aleatorias independientes, una 
para cada una de las poblaciones que se estudian. 
 
Por otra parte en un diseño completamente aleatorizado se planea reunir datos en el que se 
selecciona una muestra aleatoria de tres o más poblaciones de interés y las muestras son 
independientes. [11] 
 
Suponga que se tienen a niveles diferentes (tratamientos) de un solo factor que se desea 
comparar. La respuesta observada en cada uno de los “a” tratamientos es una variable aleatoria y 
los datos aparecerían como en el cuadro 1. Un dato en dicho cuadro, por ejemplo ,ijy representa 
la j-ésima observación tomada bajo el tratamiento i. En un principio se considera el caso en que 
hay el mismo número de observaciones; n, en cada tratamiento. 
 
Cuadro 1. Datos típicos para el análisis de varianza de clasificación unidireccional. 
Tratamientos Observación Totales Media aritmética 
1 11y 12y … ny1 .1y .1y 
2 21y 22y … ny2 .2y .2y 
. . . . . . 
. . . . . . 
. . . . . . 
a 1ay 2ay … any .ay .ay 
 
Se pueden describir las observaciones del cuadro 1 por medio de un modelo estadístico lineal. 
1, 2,..., ,
1, 2,..., ,ij i ij
i a
y
j n
μ τ ε
=⎧ ⎫
= + + ⎨ ⎬=⎩ ⎭
 (4) 
Neevia docConverter 5.1
7 
donde ijy es la observación ij-ésima, µ es un parámetro común para todos los tratamientos 
(llamado media general), τi es un parámetro asociado con el tratamiento i-ésimo (denominado 
efecto del tratamiento i-ésimo), y ijε es un componente del error aleatorio. 
 
Para probar las hipótesis respecto de los efectos de los tratamientos, así como estimarlos, los 
errores del modelo se toman como variables aleatorias normal e independientemente distribuidas 
con media cero y varianza σ2 [abreviado como DNI (0,σ2)]. La varianza σ2 se considera constante 
(homogénea) para todos los niveles del factor. 
 
El modelo de la ecuación (4) recibe el nombre de análisis de varianza de clasificación de una vía 
(unidireccional), debido a que se investiga un solo factor. Además, se requiere que las 
observaciones se tomen en orden aleatorio, de manera que el ambiente en el que se usan los 
tratamientos (llamado a menudo unidad experimental) sea lo más uniforme posible. [12] 
 
Hay dos maneras diferentes en que los niveles de factor “a” en el experimento podrían haberse 
elegido, empleando el Modelo de efectos aleatorios o el Modelo de efectos fijos, éste último se 
describe y se emplea en el trabajo. El investigador podría haber seleccionado específicamente los 
“a” tratamientos. En esta situación deseamos probar la hipótesis con respecto a iτ y las 
conclusiones serán válidas únicamente a los niveles de factor considerados en el análisis. Las 
conclusiones no pueden extenderse a tratamientos similares que no se hayan considerado. Esto 
recibe el nombre de Modelo de efectos fijos 
 
El análisis de varianza para la clasificación unidireccional del modelo de efectos fijos, suelen 
definirse como desviaciones de la media general, por lo que: 
∑
=
=
a
i
i
1
.0τ (5) 
Sea .iy la representación del total de las observaciones bajo el tratamiento i-ésimo, y .iy la 
representación del promedio de las observaciones bajo el tratamiento i-ésimo. De modo similar, 
considere que ..y representa la suma total de todas las observaciones, y ..y la gran media de 
todas las observaciones. Expresado matemáticamente: 
∑
=
=
n
j
iji yy
1
,. ,
.
.
n
y
y ii = .,...,2,1 ai = (6) 
∑∑
= =
=
a
i
n
j
ijyy
1 1
,.. ,
....
N
yy = 
donde N = an es el número total de observaciones. Por tanto, la notación con un “punto” en el 
subíndice implica la sumatoria sobre el subíndice que reemplaza el punto. 
 
Para probar la igualdad de los a efectos de tratamiento, se plantean las hipótesis: 
.0...: 210 ==== aH τττ 
(7) 
0: ≠iHa τ , para al menos una i 
 
El procedimiento de prueba para la hipótesis de la ecuación (7) se llama análisis de varianza. El 
término “análisis de varianza” resulta de descomponer la variabilidad total de los datos en sus 
partes componentes. La suma corregida total de los cuadrados, que es una medida de la 
variabilidad total en los datos, puede escribirse como: 
Neevia docConverter 5.1
8 
∑∑ ∑∑∑
= = = ==
−+−=−
a
i
n
j
a
i
n
j
iij
a
i
iij yyyynyy
1 1 1 1
2
1
22
.. ..)(..).()( (8) 
La ecuación (8) muestra que la variabilidad total de los datos, medida por la suma total corregida 
de los cuadrados, se puede descomponer en la suma de los cuadrados de las diferencias entre 
las medias de los tratamientos y la gran media más una suma de cuadrados de diferencias de 
observaciones dentro de los tratamientos y la media del tratamiento. Las diferencias entre las 
medias de tratamientos observadas y la gran media, miden las diferencias entre tratamientos, en 
tanto que las diferencias de observaciones dentro de un tratamiento con la media del tratamiento 
pueden deberse sólo a un error aleatorio. En consecuencia, se escribe la ecuación (8) 
simbólicamente como: 
SCTotal =SC tratamientos + SCError 
donde SCTotal es la suma total de los cuadrados, SC tratamientos es la suma de los cuadrados debida 
a los tratamientos (es decir entre tratamientos) y SCError es la suma de cuadrados debida al error 
(esto es, dentro de los tratamientos). Hay an = N observaciones totales; por tanto, SCTotal tiene N-1 
grados de libertad. Hay a niveles del factor, por lo que SCtratamientos tiene a - 1 grados de libertad. 
Por último, dentro de cualquier tratamiento hay n réplicas que proporcionan n - 1 grados de 
libertad con los cuales se estima el error experimental. Puesto que hay a tratamientos, a(n-1) = an 
- a = N - a grados de libertad para el error. 
 
El estadístico de prueba .,1, aNaF −−α se expresa de la siguiente manera: 
0
/ ( 1)
/ ( )
tratamientos tratamientos
Error Error
SC a MCF
SC N a MC
−
= =
−
 (9) 
Los valores esperados de las medias cuadráticas se utilizan para mostrar que F0,en la ecuación 
(9), es un estadístico de prueba apropiado para 0:0 =iH τ , y para determinar el criterio de 
rechazo de esta hipótesis nula. 
 
A partir de las medias cuadráticas esperadas, los MCError son un estimador insesgado de 2σ . Sin 
embargo, si la hipótesis nula es falsa, el valor esperado de MCtratamientos es mayor que 2σ . Por 
tanto, bajo la hipótesis alterna, el valor esperado del numerador del estadístico de prueba 
(ecuación (9)) es mayor que el valor esperado del denominador. En consecuencia, debemos 
rechazar H0 si el estadístico de prueba es grande. Esto implica una F calculada muy grande y por 
lo tanto una región crítica de cola superior. De tal modo, que se rechaza H0 si 
aNaFF −−> ,1,0 α 
Donde F0 se calcula a partir de la ecuación (9). 
 
Es posible obtener fórmulas eficientes de cálculo para la suma de los cuadrados, expandiendo y 
simplificando las definiciones de SCtratamientos y SCTotal en la ecuación (5), esto produce 
2
2 ..
1 1
a n
Total ij
i j
ySC y
N= =
= −∑∑ (10) 
y 
∑
=
−
a
i
i
ostratamient N
y
n
y
SC
1
2
..
2
.
 (11) 
La suma de los cuadrados del error se obtienen mediante sustracción, como: 
Error Total tratamientosSC SC SC= − (12) 
Los cálculos se resumen en el cuadro 2, que recibe el nombre de tabla de Análisis de varianza. [12] 
Neevia docConverter 5.1
9 
 
Cuadro 2. Análisis de varianza para el modelo de efectos fijos de clasificación unidireccional 
Fuente de 
Variación 
Suma de 
cuadrados 
Grados de 
libertad 
Cuadrados 
medios F0 
Entre tratamientos SCtratamientos 1−a MCtratamientos 
Error (dentro de 
los tratamientos) SCE aN − MCError 
tratamientos
Error
MC
MC
 
Total SCT 1−N 
 
2. Experimentos factoriales de dos factores o de dos vías 
 
El tipo más simple de experimento factorial involucra solo dos factores, digamos A y B. Hay a 
niveles del factor A y b niveles del factor B. El factorial de dos factores se muestra en el siguiente 
Cuadro 3. Observe que hay n réplicas del experimento, y cada una de ellas contiene todas las ab 
combinaciones del tratamiento. La observación de la celda ij-ésima de la réplica k-ésima se 
denota .ijky Al recopilar los datos, las observaciones abn se ejecutarían en orden aleatorio. En 
consecuencia, como en el experimento de un solo factor, el factorial de dos factores es un diseño 
completamente aleatorio. 
 
Las observaciones pueden describirse mediante el modelo estadístico lineal 
⎪
⎭
⎪
⎬
⎫
⎪
⎩
⎪
⎨
⎧
=
=
=
++++=
,,...,2,1
,,...,2,1
,,...,2,1
)(
nk
bj
ai
y ijkijjiijk ετββτμ (13) 
donde μ es el efecto de la media general, τi, es el efecto del nivel i-ésimo del factor A, βj es el 
efecto del nivel j-ésimo del factor B, (τβ)ij es el efecto de la interacción entre A y B, y ijkε es una 
componente de error aleatorio. Se está interesado en probar las hipótesis de que no hay efecto 
significativo del factor A, no hay efecto significativo B, y que no hay interacción significativa en AB. 
Se empleará el análisis de varianza para probar estas hipótesis. Puesto que hay dos factores bajo 
estudio, el procedimiento que se emplea se llama análisis de varianza bidireccional. 
 
Análisis estadístico del modelo de efectos fijos 
 
Si se supone que los factores A y B son fijos. Esto es, el investigador elige específicamente los 
niveles a del factor A y los niveles b del factor B, y las deducciones se confinan a estos niveles. En 
este modelo es usual definir los efectos τi, βj y (τβ)ij como desviaciones respecto de la media, de 
manera que ∑ ∑ ∑= = = ===
a
i
b
j
a
i ijji1 1 1
0)(,0,0 τββτ y ∑ = =
b
j ij1
.0)(τβ 
Sea ..iy el total de las observaciones bajo el nivel i-ésimo del factor A, .. jy el total de las 
observaciones bajo el nivel j-ésimo del factor B, .ijy el total de las observaciones en la celda ij-
ésima del Cuadro 3, y ...Y el gran total de todas las observaciones. Defina ..... ,, ijji YYY y ...y 
como el renglón, la columna, la celda y los grandes promedios correspondientes. Esto es, 
Neevia docConverter 5.1
10 
 
Cuadro 3. Arreglo de datos para un diseño factorial de dos factores 
Factor B 
Factor A 
1 2 ……. b 
1 y111 y112 … y11n y121 y122 … y12n y1b1 y1b2 … y1bn 
2 y211 y212 … y21n y221 y222 … y22n y2b1 y2b2 … y2bn 
. . . . . . . . . . 
. . . . . . . . . . 
. . . . . . . . . . 
a ya11 ya12 … ya1n ya21 ya22 … ya2n yab1 yab2 … yabn 
 
∑∑
= =
=
b
j
n
k
ijki yy
1 1
.. , ,
..
.. bn
yy ii = ,,...,2,1 ai = 
 
∑∑
= =
=
a
i
n
k
ijkj yy
1 1
.. , 
. .
. . ,
j
j
y
y
an
= ,,...,2,1 bj = 
 
∑
=
=
n
k
ijkij yy
1
. , .. ,
ij
ij
y
y
n
= 
,,...,2,1
,,...,2,1
bj
ai
=
=
 
∑∑∑
= = −
=
a
i
b
j
n
k
ijkyy
1 1 1
... , ,...... abn
y
y = (14) 
La suma de cuadrados total corregida total puede escribirse como 
[ ]∑ ∑∑∑∑∑
= =====
−++−−+−+−=−
n
k
n
k
ijijkjiijji
b
j
a
i
ijk
b
j
a
i
yyyyyyyyyyyy
1 1
2
...................
11
2
...
11
)()()()()( 
∑∑ ∑∑∑ ∑∑
== === ==
−++−−+−+−=
n
k
ijijk
b
j
b
j
a
i
jiij
b
j
a
i
j
a
i
i yyyyyynyyanyybn
1
2
.
1 11
2
........
1 1
2
.....
2
1
..... )()()()(
 (15) 
Por consiguiente, la suma de cuadrados total se descompone en una suma de cuadrados debida 
a “renglones” o factores de A (SCA), una suma de cuadrados debida a “columnas” o factores de B 
(SCB), una suma de cuadrados debida a la interacción entre A y B (SCAB), y una suma de 
cuadrados debido al error (SCE). Observe que debe haber al menos dos réplicas para obtener una 
suma de cuadrados del error diferente de cero. 
 
La identidad de la suma de cuadrados en la ecuación (20) se puede escribir simbólicamente como 
SCT = SCA + SCB + SCAB +SCE (16) 
Hay un total de abn-1 grados de libertad. Los efectos principales A y B tienen a-1 y b-1 grados de 
libertad, en tanto que el efecto de interacción AB tiene (a-1) (b-1) grados de libertad. Dentro de 
cada una de las ab celdas del Cuadro 4, hay n-1 grados de libertad entre n réplicas, y las 
observaciones en la misma celda pueden diferir sólo debido al error aleatorio. En consecuencia, 
hay ab(n-1) grados de libertad para el error. La razón de cada suma de cuadrados en el lado 
derecho de la ecuación (16) respecto de sus grados de libertad, es una media cuadrática. 
Neevia docConverter 5.1
11 
Suponiendo que los factores A y B son fijos, los valores esperados de las medias cuadradas son: 
,
11
)( 1
2
2
−
+=⎟
⎠
⎞
⎜
⎝
⎛
−
=
∑
=
a
bn
a
SCEMCE
a
i
i
A
A
τ
σ 
,
11
)( 1
2
2
−
+=⎟
⎠
⎞
⎜
⎝
⎛
−
=
∑
=
b
an
b
SCEMCE
b
j
i
B
B
β
σ 
,
)1)(1(
)(
)1)(1(
)( 1 1
2
2
−−
+=⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
−−
=
∑∑
= =
ba
n
ba
SCEMCE
a
i
b
j
ij
AB
AB
τβ
σ 
y 
2( )
( 1)
E
E
SCE MC E
ab n
σ
⎛ ⎞
= =⎜ ⎟−⎝ ⎠
 
 
Por tanto, para probar H0: τi = 0 (ningún efecto del factor de renglón), H0: βj = 0 (ningún efecto de 
factor de columna), y H0 = (τβ)ij = 0 (ningún efecto de interacción), se divide la media cuadrática 
correspondiente entre el error cuadrático medio. Cada una de estas razones seguirá una 
distribución F con grados de libertad del numerador iguales al número de grados de libertad para 
la media cuadrática del numerador y ab(n-1) grados de libertad del denominador; la región crítica 
se localizará en la cola superior. Los cálculos se ordenan en una tabla de análisis de varianza, 
como se muestra en el cuadro 4. 
 
Cuadro 4. Tabla de análisis de varianza para clasificación bidireccional, modelo de efectos fijos. 
Fuentes de 
variación 
Suma de 
cuadrados 
Grados de 
libertad Cuadrados medios F0 
Tratamientos A SCA a - 1 1
A
A
SCCM
a
=
−
 
E
A
MC
MC
 
Tratamientos B SCB b - 1 1
B
B
SCCM
b
=
−
 
E
B
MC
MC
 
Interacción AB SCAB (a – 1)( b – 1) ( 1)( 1)
AB
AB
SCCM
a b
=
− −
 
E
AB
MC
MC
 
ErrorSCE ab(n – 1) ( 1)
E
E
SCCM
ab n
=
−
 
Total SCT abn - 1 
Las fórmulas de cálculo para la suma de cuadrados en la ecuación (16) se obtienen con facilidad. 
La suma de cuadrados total se calcula a partir de 
∑∑∑
= = =
−=
a
i
b
j
n
k
ijkT abn
y
ySC
1 1 1
2
...2 . (17) 
Las sumas de cuadrados para los efectos principales son 
∑
=
−=
a
i
i
A abn
y
bn
y
SC
1
2
...
2
.. . (18) 
y 
Neevia docConverter 5.1
12 
∑
=
−=
b
j
j
B abn
y
an
y
SC
1
2
...
2
.. . (19) 
Usualmente se calculan las SCAB en dos pasos. Primero, se obtiene la suma de cuadrados entre 
los totales de la celda ab, llamada suma de cuadrados debido a “subtotales”. 
∑∑
= =
−=
a
i
b
j
ij
subtotales abn
y
n
y
SC
1 1
2
...
2
. 
Esta suma de cuadrados contiene también SCA y SCB. Por tanto, el segundo paso consiste en 
calcular SCAB como 
SCAB = SCsubtotales – SCA – SCB. (20) 
El error de la suma de cuadrados se halla mediante la resta, ya sea 
SCE = SCT – SCAB – SCA -SCB (21a) 
o 
SCE = SCT – SCsubtotales (21b) [12] 
 
Un ejemplo de este modelo de dos vías (dos factores), completamente al azar, se describe a 
continuación: Se desea comparar el efecto de dos fármacos A y B, aplicados en orden diferente, el 
investigador desea asegurarse en que orden recibieron los sujetos la formulación sin influenciar la 
Cmax para la formulación recibida [13] 
 
Las tres hipótesis bajo prueba son: 
H01: µOrden 1 = µOrden 2 Ha1: µOrden 1 ≠ µOrden 2 
H02: µFórmula A = µFórmula B Ha2: µFórmula A ≠ µFórmula B 
H03:µ(Fórmula A, Orden 1) = µ(Fórmula B, Orden 1) = µ(Fórmula A, Orden 2) = µ(Fórmula B, Orden 2) Ha3: Al menos un par de 
medias es diferente. 
 
Los datos observados por el investigador se presentan en el cuadro 5 
 
Cuadro 5. Muestreo de datos para una interacción ensayo clínico (Cmáx) 
Formulación 
 
A B 
∑∑
= =
b
j
n
k1 1
 ∑∑∑
= = −
a
i
b
j
n
k1 1 1
 
125 130 135 149 151 130 
128 121 123 132 141 129 
131 129 120 142 130 122 
Orden (1) 
(Fórmula A 
recibida primero) 
119 133 125 136 138 140 
∑ =
n
k 1
 1519 1640 3159 
126 140 135 130 128 127 
126 121 133 141 145 132 
117 126 127 133 136 138 
Orden (2) 
(Fórmula B 
recibida primero) 
120 136 122 129 150 148 
∑ =
n
k 1
 1529 1637 3166 
∑∑
= =
a
i
n
k1 1
 3048 3277 6325 
 
También se incluyen: la suma de observaciones de cada celda (diseño 2 x 2); la suma para cada 
columna (formulación); la suma para cada fila (orden en la cual fueron recibidas las 
formulaciones); y la suma total de los cuadrados de todas las observaciones. Los cálculos se 
muestran a continuación: 
Neevia docConverter 5.1
13 
( ) ( ) ( )2 2 22
1 1 1
125 130 ... 148 836.917
a b n
ijk
i j k
I y
= = =
= = + + =∑∑∑ (22) 
( )
2
2
1 1 1 6325 833,450.52
48
a b n
ijk
i j k
y
II
N
= = =
⎡ ⎤
⎢ ⎥
⎣ ⎦= = =
∑∑∑
 (23) 
( ) ( )
2
2 2
1 1 1 3,159 3,116 833,451.542
* 24
a b n
ijk
i j k
Ord
y
III
b n
= = =
⎡ ⎤
⎢ ⎥ +⎣ ⎦= = =
∑ ∑∑
 (24) 
( ) ( )
2
2 2
1 1 1 3,048 3,227 834,543.04
* 24
b a n
ijk
j i k
Form
y
III
a n
= = =
⎡ ⎤
⎢ ⎥ +⎣ ⎦= = =
∑ ∑∑
 (25) 
( ) ( )
2
2 2
1 1 1 1,519 ... 1,637 834,547.58
12
a b n
ijk
i j k
Celdas
y
IV
n
= = =
⎡ ⎤
⎢ ⎥ +⎣ ⎦= = =
∑∑ ∑
 (26) 
La suma de cuadrados que se requiere para elaborar la tabla de ANOVA son: 
 
833,451.54 833,450.52 1.02Ord OrdSC III II= − = − = 
834,543.04 833,450.52 1,092.52Form FormSC III II= − = − = 
*
834,547.58 833,451.54 834,543.04 833,450.52 3.52
Ord Form Celdas Ord FormSC IV III III II= − − +
= − − + =
836,917 834,547.58 2,369.42Error CeldasSC I IV= − = − = 
836,917 833,450.52 3,466.48TotalSC I II= − = − = 
 
Los resultados se muestran en el cuadro de ANOVA siguiente: 
 
Cuadro 6. Tabla de análisis de varianza para clasificación bidireccional, modelo de efectos fijos, 
con los datos del ejemplo anterior. 
Fuentes de 
variación 
Suma de 
cuadrados 
Grados de 
libertad Media cuadrática F0 
Orden 1.02 1 1.02 0.02 
Fórmula 1,092.52 1 1,092.52 20.29 
Interacción 
(Fórm*Orden) 3.52 1 3.52 0.07 
Error 2,369.42 44 53.85 ⎯ 
Total 3,466.48 47 ⎯ ⎯ 
 
Neevia docConverter 5.1
14 
 
Las decisiones tomadas son: 
 
1) No se rechaza H01 porque (1,44,0.95) 4.06F F< ≈ , por lo que se concluye que no existe 
diferencia entre los órdenes de aplicación de las fórmulas A y B. 
2) Se rechaza H02 porque (1,44,0.95) 4.06F F> ≈ , por tanto existe diferencia significativa entre las 
fórmulas A y B 
3) No se rechaza H03 ya que (1,44,0.95) 4.06F F< ≈ , en consecuencia no existe efecto de 
interacción.[13] 
 
3. Diseños factoriales 
 
Un diseño factorial completo es un diseño que consiste en todas las posibles combinaciones de 
los niveles de cada factor. Si hay kl niveles para el ésimok − factor ky , el diseño factorial 
completo correspondiente es llamado un diseño factorial general klll ...21 . Cuando 2=il (ó 3) 
para toda i, el diseño factorial general es llamado un diseño 2k (ó 3k). Un diseño factorial 2k (3k) 
denota un diseño factorial completo a dos niveles (o a tres niveles). En la práctica, un diseño 
factorial es expresado en términos de un número de órdenes (o corridas) que indican el nivel de 
cada factor. Por ejemplo, el cuadro 7 muestra el arreglo de un típico diseño factorial 24 en orden 
estándar. Esto significa que en la primera columna de la matriz del diseño consiste de sucesivos 
signos menos (-) y más (+), la segunda columna de sucesivos pares de signos (–) y (+), la tercera 
columna de cuatro signos (–) seguidos de cuatro signos (+), y así sucesivamente. En general, la 
ésimak − columna consiste de 2K-1 signos (–), seguidos por 2K-1 signos (+). 
Cuadro 7. Diseño Factorial 24 
 Matriz del diseño 
Corridas X1 X2 X3 X4 Y 
1 - - - - Y1 
2 + - - - Y2 
3 - + - - Y3 
4 + + - - Y4 
5 - - + - Y5 
6 + - + - Y6 
7 - + + - Y7 
8 + + + - Y8 
9 - - - + Y9 
10 + - - + Y10 
11 - + - + Y11 
12 + + - + Y12 
13 - - + + Y13 
14 + - + + Y14 
15 - + + + Y15 
16 + + + + Y16 
En este diseño factorial 24, hay cuatro factores a dos niveles con un total de N = 24 = 16 corridas. 
Los dos niveles de cada factor son convencionalmente denotados por – y + (en algunas ocasiones 
denotado por 1 y -1). Si una variable es continua los niveles, + y -, denotan el nivel alto y bajo, Si 
una variable es cualitativa, los dos niveles pueden denotar dos categorías diferentes o la 
presencia o ausencia de la variable. Cada fila o renglón representa una diferente combinación de 
un nivel para cada factor. Por ejemplo la fila 3 indica que el experimento se ha realizado al nivel 
alto del factor X2 y al nivel bajo de los factores X1, X3 y X4. 
Neevia docConverter 5.1
15 
Sea iY , 1=i , …, N , la respuesta promedio obtenida para la ésimai − corrida, para una 
combinación de un diseño factorial 2K, donde KN 2= . Un contraste lineal para un diseño factorial 
K2 está definido como un combinación lineal de iY , …, NY . Esto es, 
1
... ,
N
i i Ni i N
i
c Y c Y c Y
=
= = + +∑l (27) 
donde 
∑
=
=
N
i
ic
1
.0 
Dos combinaciones lineales de iY , 1=i , …, N , son llamadas ortogonales, si la suma de los 
productos cruzados de los coeficientes de los dos contrastes es 0. Es decir 
∑
=
=
N
i
iiiYc
1
11l y ∑
=
=
N
i
iiYc
1
222l (28) 
son dos contrastes; entonces 1l y 2l son llamados ortogonales si 
∑
=
=
N
i
iicc
1
21 .0 
La varianza de un contraste basado en iY para un experimento factorial 
K2 con n corridas para 
cada combinación está dada por 
( ) ∑
=
=
N
i
icn 1
2
2
.var σl (29) 
Para un diseño factorial K2 , ver cuadro 7, la matriz del diseño contiene 4 columnas y N = 24 filas. 
Hay un total de 2K - 1 efectos a ser estimados, los cuales se resumen en el cuadro 8. Bajo el 
supuesto de que las respuestas ,iY 1=i , …, N , no están correlacionadas y tienen varianzas 
iguales 2σ , el diseño factorial completo K2 proporciona una mínima varianza independiente 
estimada insesgada para los K2 - 1 efectos, que están basados en los contrastes ortogonales de 
iY . Por ejemplo,medir el cambio en la respuesta – (baja) a + (alta) de cada factor basado en 
, 1, ,16iY i = L . Para el primer factor, 1X , el cambio en la respuesta puede ser medida por 
medidas individuales del efecto del cambio de 1X de – a + (por ejemplo, ,2 ii YY − 1=i ,…,8; 
2 2,4,6,...,16i = ). El promedio de estas ocho medidas, que están dadas por 
( ) ∑∑∑
===
−=−
88
2
8
2 ,8
1
8
1
8
1
i
i
i
i
i
ii YYYY es llamado el efecto medio de 1X , y mide el efecto promedio de 
1X sobre todas las condiciones de los otros efectos. 
Neevia docConverter 5.1
16 
Cuadro 8 Resumen de efectos de un diseño factorial 42 
Tipo de efecto Número de efectos 
Principal K 
Interacción de dos factores 
2
)1( −KK
 
Interacción de tres factores 
6
)2)(1( −− KKK
 
. . 
. . 
. . 
Interacción de h factores 
!
)1)...(2)(1(
h
hKKKK +−−−
 
. . 
. . 
. . 
Interacción de K factores 1 
Total K2 -1 
Note que el diseño factorial completo proporciona estimaciones no sólo para efectos medios 
principales sino también para interacciones con precisión máxima. [14] 
 
 
D. MÉTODOS MULTIVARIADOS 
 
1. Generalidades 
 
Para empezar una discusión de los métodos de análisis de los datos de variables múltiples, debe 
definirse el concepto de la unidad experimental. Una unidad experimental es cualquier objeto o 
grupo de objetos que se puede medir o evaluar de alguna manera. La medición y evaluación de 
unidades experimentales es una actividad principal de la mayoría de los investigadores. Ejemplos 
de unidades experimentales incluyen la gente, los animales, los insectos, los terrenos, los 
campos, las compañías, los árboles, los granos de trigo y los países. Se obtienen datos de 
variables múltiples siempre que un investigador mide o evalúa más de un atributo o característica 
de cada unidad experimental. Los estadísticos suelen dar el nombre de variables a estos atributos 
o características. 
 
2. Panorama general de los métodos multivariados 
 
Los métodos multivariados son extraordinariamente útiles para ayudar a los investigadores a 
hacer que tengan sentido los conjuntos de datos que constan de una gran cantidad de variables 
medidas en números grandes de unidades experimentales. La importancia y la utilidad de los 
métodos multivariados aumentan al incrementarse el número de variables que se están midiendo 
y el número de unidades experimentales que se están evaluando. [15] 
 
Las técnicas estadísticas de regresión multivariada pueden ayudar a responder algunas de las 
preguntas claves de validación. La técnica más familiar es la regresión múltiple, la cual identifica la 
relación entre las variables independientes y una sola variable respuesta. Un clásico ejemplo del 
uso de éste método fue usado por J. B Schwartz, J.R. Flamholz and R.H. Prees, J. Pharm. Sci., 
62, 1165 (1973), en su informe en optimización de la formulación de tabletas. Se examinaron 
cinco variables independientes representando la formulación y los factores del proceso y se 
examinó la influencia en cada una de las 10 variables dependientes. En el caso de las respuestas 
claves como dureza, desintegración y disolución, las ecuaciones de regresión muy complejas (con 
20 términos cada una) sirvieron para predecir las combinaciones de los excipientes importantes, 
almidón, fuerza de compresión, gelatina granulada y el estearato de magnesio. 
Neevia docConverter 5.1
17 
El análisis de las ecuaciones de regresión puede dar información útil sobre la validación. Se 
pueden identificar las variables independientes importantes así como la ocurrencia de posibles 
interacciones de ellas. El grado de control del proceso y los rangos de factibilidad para las 
variables independientes necesarias para satisfacer las especificaciones del producto se pueden 
obtener fácilmente. Sin embargo, el análisis de regresión está limitado por el hecho de que 
funciona mejor cuando maneja una sola variable dependiente de cada vez, y nuevamente la 
mayoría de las validaciones necesitan considerar múltiples respuestas. [16] 
 
A menudo, el objetivo principal de los análisis multivariados es resumir grandes cantidades de 
datos por medio de relativamente pocos parámetros. El tema subyacente de muchas técnicas 
multivariadas es la simplificación. 
 
Frecuentemente, el interés del análisis multivariado es encontrar relaciones entre: 
 
1. Las variables respuesta 
2. Las unidades experimentales 
3. Tanto las variables respuesta como las unidades experimentales 
 
Muchas técnicas multivariadas tienden a ser de naturaleza exploratoria en lugar de confirmatoria. 
Es decir, muchos métodos multivariados tienden a motivar hipótesis en lugar de probarlas. 
Considere la situación en la cual un investigador puede tener 50 variables medidas sobre más de 
2000 unidades experimentales. Los métodos estadísticos tradicionales suelen exigir que un 
investigador establezca alguna hipótesis, reúna algunos datos y, a continuación, use estos datos 
para comprobar o rechazar esas hipótesis. Una situación alternativa que se da frecuentemente es 
un caso en el cual un investigador dispone de una gran cantidad de datos y se pregunta si pudiera 
haber una información valiosa en ellos. Las técnicas multivariadas suelen ser útiles para examinar 
los datos en un intento por saber si hay información que valga la pena y sea valiosa en esos 
datos. 
 
3. Técnicas dirigidas por las variables y dirigidas por los individuos 
 
Una distinción fundamental entre los métodos multivariados es que algunos se clasifican como 
“técnicas dirigidas por variables”, en tanto que otras se clasifican en “técnicas dirigidas por los 
individuos”. 
 
Las técnicas dirigidas por las variables son aquellas que se enfocan primordialmente en las 
relaciones que podrían existir entre las variables respuesta que se están midiendo. Algunos 
ejemplos de este tipo de técnica se encuentran en los análisis realizados sobre matrices de 
correlación, el análisis de componentes principales, el análisis por factores, el análisis de 
regresión y el análisis de correlación canónica. 
 
Las técnicas dirigidas por los individuos son las que se interesan principalmente en las relaciones 
que podría existir entre las unidades experimentales o individuos que se están midiendo, o en 
ambos. Algunos ejemplos de este tipo de técnicas se encuentran el análisis discriminante, el 
análisis por agrupación y el análisis multivariado de varianza (MANOVA: análisis de varianza 
multivariado). 
 
4. Creación de nuevas variables 
 
Con bastante frecuencia es de utilidad crear nuevas variables para cada unidad experimental, de 
modo que se puedan comparar entre sí con más facilidad. Muchos métodos multivariados ayudan 
a los investigadores a crear nuevas variables que tengan propiedades deseables. 
Neevia docConverter 5.1
18 
Algunas de las técnicas multivariadas que crean nuevas variables son el análisis de componentes 
principales, el análisis por factores, el análisis de correlación canónica, el análisis discriminante 
canónico y el análisis de variables canónicas. 
 
5. Análisis discriminante 
 
El análisis discriminante (DA: discriminant analysis) se usa principalmente para clasificar 
individuos o unidades experimentales en dos o más poblaciones definidas de manera única. Para 
desarrollar una regla discriminante que clasifique las unidades experimentales en una de varias 
categorías posibles, el investigador debe tener una muestra aleatoria de unidades experimentales 
de cada grupo posible de clasificación. Entonces, el DA proporciona los métodos que permitirán a 
los investigadores establecer reglas que se puedan emplear para clasificar otras unidades 
experimentales en uno de los grupos de clasificación. [15] 
 
 
E. ANÁLISIS DE COMPONENTES PRINCIPALES 
 
Cuando un investigador piensa en el análisis de un nuevo conjunto de datos, debe considerar 
varias preguntas acerca de ellos. Las preguntas importantes incluyen: 
 
 ¿Existen algunos aspectos en los datos que resultan extraños o desacostumbrados? 
 ¿Se puede suponer que los datosestán distribuidos normalmente? 
 ¿Hay algunas anormalidades en los datos? 
 ¿Existen datos extraordinarios (outliers)? 
 
Las unidades experimentales cuyos valores medidos parecen incoherentes con las mediciones 
realizadas en las otras unidades experimentales suelen llamarse datos extraordinarios (outliers). 
 
Con mucho, la razón más importante para realizar un análisis de componentes principales (PCA) 
es para usarlo como herramienta para cribar los datos de variables múltiples. Se pueden crear 
nuevas variables llamadas calificaciones de los componentes principales, que se pueden usar 
como entrada en programas para trazado de gráficas y descripción de datos y, con frecuencia, un 
examen de las presentaciones gráficas resultantes revelará las anormalidades de los datos que se 
está planeando analizar. Por ejemplo, la presentación gráfica de los componentes principales 
puede ayudar a identificar los datos extraordinarios. Además, se pueden analizar por separado las 
mediciones de los componentes principales, para ver si se cumplen las hipótesis relativas a la 
distribución, como la normalidad de las variables y la independencia de las unidades 
experimentales. A menudo se requieren esos supuestos para que sean válidos ciertos tipos de 
análisis estadísticos. 
 
El análisis de componentes principales (PCA) se puede hacer sobre una matriz de varianza-
covarianza de las muestras o una matriz de correlación. El mejor tipo de matriz suele depender de 
las variables que se están midiendo; de hecho se considera extraordinario cuando es posible 
interpretar las variables componentes principales. Al usar el PCA para cribar el conjunto de datos 
de variables múltiples, no es necesario que se pueda interpretar los componentes principales 
porque el PCA es extremadamente útil sin importar si se puede interpretar o no las nuevas 
variables. 
 
El análisis de los componentes principales suele ser bastante útil para los investigadores que 
desean realizar la división en subgrupos de las unidades experimentales, de modo que unidades 
experimentales similares pertenezcan al mismo subgrupo. En este caso, se pueden usar las 
calificaciones de las componentes principales como entrada para los programas de agrupación, lo 
que suele incrementar la eficacia de estos programas, reduciendo al mismo tiempo el costo de su 
uso. Además, pueden y siempre deben usarse las mediciones de las componentes principales 
para ayudar a validar los resultados de los programas de agrupación. 
Neevia docConverter 5.1
19 
1. Razones para usar el análisis de componentes principales 
 
En el análisis de componentes principales (PCA) se usa un procedimiento matemático que 
transforma un conjunto de variables respuestas correlacionadas en un nuevo conjunto de 
variables no correlacionadas conocidas como componentes principales. Al observar 
cuidadosamente este nuevo conjunto de variables no correlacionadas, se pueden obtener 
respuestas a muchas preguntas importantes, como las planteadas en la sección anterior. Es 
probable que las respuestas a estas preguntas influyan sobre otros análisis que se realicen más 
adelante. 
 
2. Cribado de los datos 
 
El análisis de componentes principales es quizá el más útil para cribar datos multivariados. Para 
casi todas las situaciones de análisis de datos, se puede recomendar el PCA como un primer 
paso. Se debe realizar bajo un conjunto de datos, antes de realizar cualesquier tipo de análisis 
multivariados. Los análisis de seguimiento sobre las componentes principales son útiles para 
comprobar los supuestos que el investigador podría establecer acerca de un conjunto de datos 
multivariados y para identificar y localizar datos extraordinarios posibles en el conjunto. Si se 
presentan algunas otras anormalidades en un conjunto de datos multivariados, el PCA puede 
ayudar a revelarlos. 
 
3. Agrupación 
 
El análisis de componentes principales también es útil siempre que el investigador desee agrupar 
las unidades experimentales en subgrupos de tipos semejantes. Se pueden usar para ayudar a 
formar agrupamientos de las unidades experimentales en subgrupos o para verificar los resultados 
de los programas de agrupación. 
 
4. Multicolinealidad 
 
Hace mucho que se sabe que la regresión múltiple puede ser peligrosa cuando las variables 
predictoras están intensamente correlacionadas de alguna manera. Esto se conoce como 
multicolinealidad entre las variables predictoras. El análisis de componentes principales puede 
ayudar a determinar si ocurre multicolinealidad entre las variables predictoras. 
 
5. Objetivos del análisis de componentes principales 
 
Los programas para computadora hacen que sea muy fácil realizar un PCA. Esta técnica debe 
usarse principalmente como una técnica exploratoria y debe ayudar a los investigadores a que 
adquieran cierta percepción respecto a un conjunto de datos. A veces, un PCA puede ayudar a los 
investigadores a comprender mejor la estructura de correlación entre las respuestas y, en 
ocasiones, puede ayudar a generar hipótesis acerca de las variables o de los datos. 
 
La mayoría de los libros sobre métodos multivariados sugieren que los objetivos principales de un 
PCA son: 
 
1. Reducir la dimensionalidad del conjunto de datos. 
2. Identificar nuevas variables significativas subyacentes. 
 
En realidad, el objetivo 1 no es completamente verdadero, lo que en realidad se está intentando 
hacer es descubrir la verdadera dimensionalidad de los datos. Una pregunta importante es: “Si los 
datos se sitúan en un espacio ρ-dimensional, ¿esos datos tomarán todas las ρ dimensiones?, en 
caso contrario, aunque se estén midiendo ρ variables, la dimensionalidad real de los datos es 
menor que ρ. 
Neevia docConverter 5.1
20 
Se puede usar el análisis de componentes principales para determinar la dimensionalidad real de 
los datos y, cuando esa dimensionalidad es menor que ρ, las variables originales se pueden 
reemplazar por un número menor de variables subyacentes sin que se pierda información. 
Entonces, se puede usar esta cantidad menor de variables en los siguientes análisis. 
 
Con relación al objetivo 2, el PCA siempre identificará nuevas variables. Sin embargo, no se 
puede garantizar que las nuevas variables sean significativas. Por desgracia, con mayor 
frecuencia, no serán significativas. Aunque las nuevas variables no sean significativas, las 
variables componentes principales todavía serán útiles. Las nuevas variables son útiles por 
diversas razones, incluyendo el cribado de los datos, la verificación de supuestos y la verificación 
de las agrupaciones. 
 
Hay una fuerte tendencia entre los investigadores a dar significado a las variables componentes 
principales recién creadas. Si las interpretaciones son obvias, entonces siga adelante y úselas. 
Esos pocos casos en donde a componentes principales se les puede dar una interpretación puede 
considerarse como un premio, porque lo común es no esperar que se puedan interpretar las 
variables componentes principales. [15] 
 
 
F. SUPERFICIE DE RESPUESTA 
 
1. Generalidades 
 
En la práctica, el experimentador desea extender los objetivos de determinar la característica de 
calidad y los niveles de los factores que optimicen tal característica en la región donde se haya 
experimentado, a otras regiones de experimentación y se pregunta ¿qué factores influyen en la 
característica general?, ¿cuál es la región óptima?, ¿cómo se relacionan los factores con la 
respuesta en esta región? La metodología de superficies de respuesta permite encontrar la región 
de interés y contestar a las anteriores preguntas. 
 
2. Necesidad de los modelos 
 
Uno de los deseos más fuertes que a lo largo de la historia ha mostrado la humanidad es el de 
modelar la realidad, es decir, el de encontrar funciones matemáticas que expliquen los distintos 
fenómenos de índole física, social, económica o biológica. 
 
Este deseo de encontrar modelos responde principalmente a las dos aplicaciones más inmediatas 
que se pueden derivarde ellos: 
• Capacidad de predecir o explicar el valor de cierta respuesta Y una vez conocidos los 
valores de ciertas variables .,...,, 21 KXXX 
• El hecho de poder seleccionar aquellas condiciones de las variables .,...,, 21 KXXX que 
permitan optimizar la respuesta Y . 
• Además el conocer el modelo ayuda también a determinar aquellas condiciones de las 
variables .,...,, 21 KXXX en que la respuesta sea más robusta o insensible al efecto de 
variaciones en factores que no son controlados por el experimentador (tales factores se 
denominan variables de ruido). 
En la práctica es muy difícil resolver el problema de encontrar un modelo único. En su lugar, se 
intenta aproximar tales relaciones de formas locales a través de funciones polinómicas de primer y 
segundo orden. Además, el análisis de estas aproximaciones permitirá, localizar la región óptima 
de una manera secuencial. 
Neevia docConverter 5.1
21 
3. Grado de conocimiento y objetivos 
 
Los modelos pueden ser, atendiendo al método que se siga para obtenerlos, mecanicistas o 
empíricos. En los primeros se utilizan leyes físicas especializadas en el dominio concreto para 
seleccionar la estructura del modelo, y en general, es necesario estimar los parámetros que en 
ellos aparecen a través de la recolección de los datos. 
 
Cuando no se tiene conocimiento teórico de la estructura del modelo, se hace una aproximación 
de manera empírica con los datos obtenidos en la experimentación. Tal experimentación se ha de 
realizar de manera secuencial y con una metodología que dependerá del grado de conocimiento 
que se tenga del problema. Este conocimiento ayudará en la selección de un modelo que se 
ajuste a la respuesta y en la selección del diseño a realizar para poder estimar todos los 
parámetros de interés. 
 
En una primera etapa experimental, los métodos que se denominan metodología de superficie de 
respuesta (MSR) utilizan la experimentación para lograr principalmente tres objetivos: 
 Encontrar un modelo capaz de explicar la relación existente entre cierta respuesta 
seleccionada y determinados factores en una región de interés. 
 Localizar las condiciones óptimas de los factores de experimentación para la respuesta 
(las condiciones que hagan máxima la respuesta, por ejemplo). 
 Realizar un estudio geométrico de la relación existente entre la respuesta y los factores en 
la región óptima, por medio del análisis canónico del modelo estimado. 
El logro de tales objetivos está ligado a las características que definen la MSR. En primer lugar, es 
una metodología secuencial: la aproximación a la región de interés se realiza de forma iterativa 
utilizando diseños cada vez más complejos dependiendo de la información que se obtiene en cada 
etapa. 
 
En segundo lugar, el método de trabajo que se utiliza es el descrito en el ciclo PCA (análisis de 
componentes principales), que consiste esencialmente en plantear un modelo tentativo, 
seleccionar un diseño que permita estimar los parámetros de interés, analizar los datos y verificar 
si el modelo planteado es adecuado. 
 
4. Estrategias de la metodología de superficie de respuesta 
 
La metodología de superficie de respuesta contiene toda una serie de estrategias que el 
investigador puede seguir para estimar el modelo ),( θξη f= , que relaciona las respuestas de 
interés Y con los factores ξ lo más adecuadamente posible, con el mínimo coste de 
experimentación. El investigador actúa como un detective buscando las pistas que le lleven a la 
resolución del problema. Tales pistas son obtenidas a través de la información que proporciona la 
experimentación secuencial. 
 
donde ( )Kξξξξ ,...,, 21= es una serie de variables de salida, medibles, por ejemplo, la 
concentración inicial de reactivos, temperaturas y presiones, y donde ( )pθθθθ ,...,, 21= representa 
a una serie de parámetros físicos medibles como energías de activación, coeficientes de difusión y 
conductividad térmica. Entonces podemos decir que la función ),( θξf representa un modelo 
mecanicista. 
 
Al comienzo de la experimentación se puede conocer poco del problema y en tal caso es 
recomendable suponer que la región donde se comienza a experimentar está lejos de la región 
óptima. Si es así, una aproximación suficientemente buena a ),( θξf es la que se obtiene con 
modelos lineales de primer orden estimados a partir de diseños factoriales fraccionales o a dos 
niveles. 
Neevia docConverter 5.1
22 
Por el contrario, cuando se tiene un conocimiento más preciso sobre la relación existente, o se 
está próximo a la región óptima, el experimentador se aproxima a la relación ),( θξf mediante 
modelos de segundo orden estimados a partir de diseños más complejos (cuadráticos). 
 
Por lo tanto, distinguiremos entre dos tipos de estrategias: 
 Estrategias de primer orden: 
Diseño 2 K-P 
Estimación por mínimos cuadrados 
Modelos de primer orden: εβββ +++= 22110 XXY 
Mapas de contornos o curvas de nivel 
Camino de máximo ascenso o steep ascent 
 Estrategias de segundo orden: 
Diseño central compuesto 
Estimación por mínimos cuadrados 
Modelos de segundo orden εββββββ ++++++= 2112
2
222
2
11122110 XXXXXXY 
Mapas de contornos y análisis canónico 
 
En la primera etapa, a la vez que se emplean los diseños2K-P se pueden llevar a cabo otras 
acciones propias de los comienzos de la experimentación, tales como borrar o añadir factores en 
el diseño, cambiar la escala de variación de los factores, replicar para una mejor estimación del 
error experimental y añadir fracciones para romper las confusiones. 
 
Por otra parte, en cada momento existen métodos de verificación que permitirán comprobar si el 
modelo lineal de primer orden es suficientemente bueno, o detectar una evidencia de curvatura en 
la respuesta. Este hecho implicará la selección de modelos de segundo orden y, por tanto, 
estrategias de segundo orden. 
 
A menudo la necesidad del conocimiento físico del sistema es escaso ó incompleto y 
consecuentemente ningún modelo mecanicista es disponible. En estas circunstancias se supone 
de manera más realista que la relación entre η y ξ podría ser lineal o lisa y en consecuencia esta 
función ),( θξf localmente aproximada (por encima de los límites de las variables experimentales 
ξ ) por una función de interpolación ),( βXg , como un polinomio, en ésta función la expresión 
β ’s son los coeficientes de los modelos que se obtienen por modelos lineales. 
 
En cuanto al modelo matemático a utilizar para aproximar ),( θξf , se aplicarán funciones 
polinómicas ),( βXg de primer o de segundo grado, las cuales pueden ser interpretadas como 
las resultantes de hacer el desarrollo de Taylor de ),( θξf alrededor de (0,0), centro de la 
experimentación en unidades codificadas, cortando el desarrollo en los términos de primer o de 
segundo grado respectivamente. 
 
Estos polinomios tienen la siguiente estructura para el caso particular de dos factores: 
εββββ +++= 22110),( XXxg (30) 
para los modelos de primer orden, y 
εβββββββ ++++++= 2222
2
111211222110),( xxxxxxxg (31) 
para los modelos de segundo orden. 
 
En ambos, ε representa el efecto de aquellos factores que no se han tenido en cuenta en la 
experimentación o el efecto de aquellos presentes en el estudio, pero cuyo efecto no se ha podido 
recoger adecuadamente con el modelo seleccionado. 
Neevia docConverter 5.1
23 
Los modelos de segundo orden necesitan más experimentos para ser estimados y sólo se recurre 
a ellos cuando existe evidencia de curvatura en el modelo y, por lo tanto, la aproximación lineal no 
es adecuada. Para poder detectar la curvatura, a los diseños de primer orden 2K-P se les añaden 
puntos centrales. 
 
Aquellas regiones de experimentación en las que la superficie no presenta evidencia de curvatura 
son interpretadas como regiones lejanas a la zona óptima y, una vez más, existe una estrategia 
consistente en acercarse lo más rápidamente a esta zona a lo largo de la dirección de máximo 
cambio de la respuesta. 
Por último,una vez detectada la cercanía de la región óptima se pasa a la utilización de 
estrategias de segundo orden. Una de ellas consiste en la selección de un diseño de segundo 
orden apropiado que permita una buena estimación de un modelo cuadrático. 
 
Los diseños más utilizados son los “Diseños centrales compuestos”, obtenidos al añadir un 
“Diseño estrella” a un diseño factorial. Las características de estos diseños en cuanto a los niveles 
en que se han de colocar los factores son las propiedades de las estimaciones obtenidas. 
 
Una vez obtenida una aproximación cuadrática que se ajuste a la superficie es conveniente 
realizar un análisis canónico del modelo resultante para interpretar de manera sencilla la 
geometría de la superficie estimada en la región de experimentación y obtener información que 
puede ser útil para sugerir posibles explicaciones teóricas del problema. 
 
5. Aproximación lineal a las condiciones óptimas 
 
El presente ejemplo trata de un proceso de fundición de tapas de aluminio por inyección, en el que 
se intenta minimizar el índice de porosidad encontrado en ellas. Tal índice se obtiene mediante un 
método estándar a través de rayos-X. Al parecer la temperatura del aluminio líquido y la presión 
con que ésta se inyecta en el molde afectan al índice de porosidad de la placa resultante. Los 
objetivos de la experimentación son encontrar las condiciones óptimas de trabajo en las cuales la 
porosidad sea mínima, y estimar la relación existente entre el índice de porosidad con la 
temperatura y la presión, en una región próxima a las condiciones óptimas. 
 
Los conocimientos que sobre el tema tienen los técnicos del proceso recomiendan no trabajar con 
temperaturas externas al intervalo, 600-900°C ni con presiones por debajo de 700 Kg/cm2. Tales 
restricciones definen la región de operabilidad. 
 
En primer lugar se plantea la hipótesis sobre el modelo que mejor aproxima la respuesta en la 
zona de experimentación de partida. Puesto que está en los comienzos de la experimentación y 
se conoce poco, se asume que las condiciones óptimas no tienen por qué estar próximas y que, 
por lo tanto, la superficie de respuesta puede ser aproximada mediante un modelo de primer 
orden. 
Para estimar tal modelo se selecciona un diseño 22 con dos puntos centrales, como se muestra en 
el cuadro No. 9. Los puntos centrales permiten comprobar mediante un test de curvatura, si en el 
modelo de primer orden es adecuado o, por el contrario, se necesita un modelo de segundo 
orden. 
Cuadro 9. Resultados de experimento con llantas de aluminio. Entre paréntesis figuran las 
unidades originales de los factores. 
Temperatura (°C) Presión (Kg/cm2) Índice de porosidad 
-1 (640) -1 (950) 6.09 
+1 (660) -1 (950) 5.53 
-1 (640) +1 (1000) 6.78 
+1 (660) +1 (1000) 6.16 
0 (650) 0 (975) 5.93 
0 (650) 0 (975) 6.12 
Neevia docConverter 5.1
24 
Además, el hecho de tener réplicas (en este caso para 650°C y 975 Kg/cm2) permite obtener una 
estimación de 2σ independientemente del modelo seleccionado. Tal estimación puede ser 
comparada con la estimación obtenida a través de los residuos del modelo mediante un test de 
comparación de varianzas. En el caso de que ambas estimaciones difieran significativamente, 
tendremos la prueba de que el modelo propuesto no se ajusta bien a la superficie y tendremos 
que pensar en transformar los datos o en aproximaciones cuadráticas. 
 
El diseño anterior permite estimar los parámetros de un modelo que puede ser expresado en 
forma matricial como: 
eXY += β (32) 
 
donde Y corresponde al vector de observaciones, X es la matriz de diseño, β es el vector de 
los parámetros del modelo y la ε es el vector de errores. Para el ejemplo que nos ocupa: 
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎣
⎡
=
12.6
93.5
16.6
78.6
53.5
09.6
Y , 
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎣
⎡
−
−
−−
=
001
001
111
111
111
111
X , 
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎣
⎡
=
2
1
0
β
β
β
β (33) 
 
La estimación mínimo cuadrática de los coeficientes se puede realizar empleando las técnicas de 
regresión lineal, lo cual equivale a resolver la ecuación siguiente: 
YXXXb tt 1)(ˆ −== β Varianza de (b) = 12 )(ˆ −XX tσ (34) 
con 
1
1/ 6 1/ 6 1/ 6 1/ 6 1/ 6 1/ 6
( ) 1/ 4 1/ 4 1/ 4 1/ 4 0 0
1/ 4 1/ 4 1/ 4 1/ 4 0 0
t tX X X−
⎡ ⎤
⎢ ⎥= − −⎢ ⎥
⎢ ⎥− −⎣ ⎦
 
Obteniéndose los resultados 
6.10
0.29
0.33
b
⎡ ⎤
⎢ ⎥= −⎢ ⎥
⎢ ⎥⎣ ⎦
 Desv. Estándar de (b) = 
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎣
⎡
055.0
055.0
045.0
 
y, por lo tanto, todos los coeficientes significativos. 
 
En esta etapa se ha de comprobar si existe alguna prueba de que el modelo lineal estimado no 
sea una buena aproximación a la respuesta y se necesiten modelos más complejos, es decir, 
modelos cuadráticos. 
 
Ello equivale a plantear la siguiente hipótesis: 
 H0 = modelo esperado: εβββ +++= 22110 xxy 
 H1 = modelo no deseado: εββββββ ++++++= 2222
2
111211222110 xxxxxxy 
o en forma matricial 
 H0 = modelo esperado: εβ += XY 
 H1 = modelo no deseado : εγβ ++= ZXY (35) 
donde Z corresponde a la matriz de términos cuadráticos y γ al vector de sus coeficientes. 
Neevia docConverter 5.1
25 
El contraste que se debe utilizar para tomar una decisión está relacionado con las consecuencias 
que se derivan de aceptar como mejor aproximación la que da un modelo lineal (H0), cuando en 
realidad la mejor es la de un modelo cuadrático (H1). 
 
En efecto, si se estiman los parámetros del modelo YXXXb tt 1)(ˆ −== β Varianza de (b) 
12 )(ˆ −XX tσ , suponiendo que H0 es cierta, cuando en realidad lo es H1 se obtiene 
[ ] [ ]1 1 1 1( ´ ) ´ ( ) ( ) ( ) ( )t t t t t tE b E X X X Y X X X E Y X X X X Z X X X Zβ γ β γ− − − −⎡ ⎤= = = + = +⎣ ⎦ 
 
es decir, 
[ ] γβ AbE += 
 
con 1( )t tA X X X Z−= denominada matriz de alias o de confusiones. 
 
Los diseños de primer orden no pueden estimar por separado 11β y 22β , pero sí su efecto 
conjunto 2211 ββ + . La estimación de tal efecto por mínimos cuadrados es equivalente a comparar 
los promedios de la porosidad en el centro de la superficie con el promedio en las esquinas del 
cubo. 
 
Luego el test de las hipótesis planteadas en la ecuación 35 sobre la necesidad de modelos de 
segundo orden es equivalente al test de hipótesis: 
⎭
⎬
⎫
⎩
⎨
⎧
≠−
=−
0:
0:
1
0
centrocubo
centrocubo
YYH
YYH
 
sobre la existencia de curvatura, que se puede comprobar comparando el valor del estadístico 
centrocubo
centrocubo
nsns
YY
// 22 +
−
 (36) 
con el valor de la t de Student con v grados de libertad, siendo v los grados de libertad con lo 
que se ha estimado ,.σ a partir de s . 
 
En el ejemplo, al aplicar la ecuación 36 se obtiene: 
 
21.1
2/012.04/012.0
025.614.6
=
+
−
 
Con 2s =0.012 estimada con 3 grados de libertad. Por lo tanto al obtener un valor no significativo, 
no encontramos evidencia de curvatura. En consecuencia no se puede rechazar H0 en las 
hipótesis planteadas en la ecuación 35, y concluimos que el modelo lineal realiza una 
aproximación suficientemente buena de la respuesta de interés. 
 
En consecuencia se intuye que se está lejos de la región óptima y por lo tanto, la siguiente 
estrategia será la de alejarse lo más rápidamente posible en la dirección del máximo 
decrecimiento (ya que se desea tener llantas con mínimo índice de porosidad) hacia las 
condiciones óptimas de experimentación, y allí volver a plantear un diseño de primer orden con 
puntos centrales, o directamente uno de segundo si existe evidencia de curvatura. 
 
6. Aproximación cuadrática. Diseños compuestos centrales 
 
En estos momentos de la experimentación se ha de añadir un segundo diseño al realizado 
anteriormente, si se quiere estimar un modelo cuadrático con la precisión suficiente. 
Neevia docConverter 5.1
26 
El hecho de realizar la experimentación en dos tiempos puede provocar un efecto bloque, que 
puede afectar a la estimación de los efectos si las condiciones experimentales del segundo diseño 
se han seleccionado adecuadamente. 
 
Para que esto no ocurra,es decir, para que la estimación de los factores sea independiente del 
hecho de haber experimentado en dos bloques, el efecto bloque ha de ser ortogonal a efectos de 
las demás variables. 
 
Si además se desea que las estimaciones de los factores sean independientes entre sí, los dos 
diseños han de ser ortogonales en sus factores y ortogonales con los bloques. 
El primer diseño 
1 1 1
1 1 1
1 1 1
1 1 1
1 0 0
1 0 0
1 0 0
X
− −⎡ ⎤
⎢ ⎥−⎢ ⎥
⎢ ⎥−
⎢ ⎥= ⎢ ⎥
⎢ ⎥
⎢ ⎥
⎢ ⎥
⎢ ⎥⎣ ⎦
 
Ya cumple la condición de ortogonalidad, basta con multiplicar las columnas del diseño entre sí y 
observar que todos los productos se anulan. 
El segundo diseño, denominado diseño estrella contiene los experimentos dispuestos de la 
siguiente forma 
1 0
1 0
1 0
1 0
1 0 0
1 0 0
1 ... ...
X
α
α
α
α
−⎡ ⎤
⎢ ⎥
⎢ ⎥
⎢ ⎥−
⎢ ⎥= ⎢ ⎥
⎢ ⎥
⎢ ⎥
⎢ ⎥
⎢ ⎥⎣ ⎦
 
donde α y el número de puntos centrales en0 se han de determinar según los criterios que se 
explican a continuación. 
 
El resultado de añadir un diseño factorial y un diseño estrella se conoce como diseño central 
compuesto o central composite design. La forma de tal diseño para tres factores se puede ver la 
siguiente figura. 
 
 
 
Figura No. 1 Diseño compuesto central formado al añadir un “diseño estrella” a un diseño 2k-p 
Neevia docConverter 5.1
27 
La selección de α y en0 está basada en dos criterios: El criterio de ortogonalidad mencionado 
anteriormente y el criterio de rotabilidad. Se dice que un diseño es rotable si la precisión en la 
estimación de la superficie es igual para todos los puntos equidistantes del centro del diseño, 
independientemente de la dirección en que se encuentren; es decir, se puede girar la superficie 
sobre su centro y la precisión en la estimación es la misma. 
 
La rotabilidad en diseños centrales compuestos solo depende del valor de α y del número de 
experimentos que se hayan realizado en el cubo sin contar los puntos centrales, ,cN a través de 
la fórmula, 
4
cN=α (37) 
 
La condición de ortogonalidad en cambio, implica que las estimaciones de los parámetros en el 
modelo εββββββ ++++++= 2222
2
111211222110 xxxxxxy son independientes entre sí, e 
independientes a su vez del efecto bloque. Para que esto ocurra se han de cumplir dos 
condiciones: 
 
1. Cada bloque debe contener un diseño ortogonal. 
2. La fracción del total de la suma de cuadrados de cada variable ix en cada bloque debe ser 
igual a la fracción del número total de observaciones distribuidas en cada bloque. Es decir, 
para cada variable i y sobre cada bloque b se ha de cumplir: 
∑
∑
=
=
N
ij
bij
n
ij
bij
x
x
b
2
2
 
 
i = indicador de variable i 
j = indicador de la observación j de la variable i en el bloque b 
bn = número de observaciones en el bloque b 
N = número total de observaciones. 
 
Llamado cn0 y en0 al número de puntos centrales en el cubo y en el diseño estrella 
respectivamente, y k al número de factores en el diseño, al aplicar la condición de ortogonalidad 
al caso particular de los diseños compuestos centrales se obtiene la fórmula simplificada 
siguiente. [17] 
)(2
)2(
0cc
oec
nN
nkN
+
+
=α (38) 
 
donde cN el número de puntos en el primer diseño exceptuando los puntos en el centro ( cN será 
de la forma 2k ó 2k-p). El cuadro No. 10 presenta los resultados de un tercer experimento del índice 
de porosidad en llantas de aluminio. 
Neevia docConverter 5.1
28 
Cuadro 10. Resultados del experimento 3 en el ejemplo de las llantas de aluminio. 
 
 
 
 
 
 
 
 
 
 
 
 
Si se desea añadir un nuevo diseño ortogonal y tal que el conjunto sea rotable, basta con sustituir 
los valores de las constantes: 4,2 == cNk y c
n0 =3 en las expresiones (37 y 38), se obtiene: 
)34(2
)4(4 0
+
+
= e
nα y 244 ==α 
para la condición de ortogonalidad y rotabilidad respectivamente. Por lo tanto, si se han de cumplir 
las dos condiciones, el número de puntos centrales que ha de contener el diseño estrella será de 
en0 =3. 
 
Temperatura (°C) Presión (Kg/cm2) Índice de porosidad 
-1 (690) -1 (820) 2.20 
+1 (710) -1 (820) 3.71 
-1 (690) +1 (870) 2.86 
+1 (710) +1 (8700) 3.49 
0 (700) 0 (845) 2.53 
0 (700) 0 (845) 2.30 
0 (700) 0 (845) 2.54 
Neevia docConverter 5.1
29 
 
 
 
 
 
 
 
 
 
 
II. PLANTEAMIENTO DEL PROBLEMA 
 
 
 
La aplicación de las herramientas estadísticas es muy importante en la toma de decisiones, por lo 
cual es de gran importancia tener un dominio más extenso en el manejo y conocimiento de estas 
técnicas. 
 
Uno de los problemas más relevantes para la aplicación del Diseño Estadístico de Experimentos 
en la industria es que la enorme mayoría de los profesionales no conocen sus fundamentos y 
consecuentemente tampoco su aplicación. Esto, en parte, ha dejado de ser un problema con el 
acceso generalizado de los paquetes de cómputo, los cuales proporcionan herramientas 
altamente eficientes en el tema y permiten dedicarse prácticamente con exclusividad al análisis de 
resultados. 
 
En la industria farmacéutica se realizan pruebas en las cuales comúnmente sólo se determina el 
efecto directo de una variable, y la información de los datos puede ampliarse dando un tratamiento 
estadístico adecuado a los datos obtenidos para mejorar los procesos de fabricación. 
 
En la actualidad no se cuenta con una metodología específica para realizar un análisis estadístico 
para evaluar totalmente los procesos farmacéuticos en formas farmacéuticas sólidas. De igual 
manera no se cuenta con un procedimiento específico para el manejo, aplicación, tratamiento e 
inserción de los datos en programas estadísticos. 
 
Por otra parte, la interpretación de los resultados obtenidos empleando paquetes estadísticos se 
torna complejo, debido a la falta de conocimientos respecto al tema, aspecto que se pretende 
ayudar a superar con este trabajo. 
 
 
 
 
 
 
 
 
 
 
Neevia docConverter 5.1
 30
 
 
 
 
 
 
 
 
 
 
 
 
 
 
III. OBJETIVOS 
 
 
Objetivo General 
 
Generar y desarrollar una propuesta metodológica para seleccionar variables de 
respuesta y factores de estudio en procesos farmacéuticos. 
 
Objetivos particulares 
 
 Analizar los fundamentos del análisis multivariado. 
 
 Analizar los fundamentos de la metodología de superficie de respuesta. 
 
 Analizar los fundamentos y criterios de aplicación del diseño Compuesto Central. 
 
 Generar una propuesta de aplicación e interpretación del uso conjunto de todas las 
herramientas analizadas en los objetivos anteriores. 
 
 
 
 
 
 
 
 
 
 
 
 
Neevia docConverter 5.1
 31
IV. METODOLOGÍA 
Material y método 
 
 
1. Definir el tema. 
2. Búsqueda y selección de información. 
3. Análisis y síntesis de información de cada técnica. 
4. Selección y digitalización de datos. 
5. Uso de software de análisis estadístico STATGRAPHICS. 
6. Interpretación de resultados. 
7. Elaboración de guía de usuario para realizar este tipo de análisis. 
8. Redacción de la tesina. 
 
La búsqueda de información se realizó en las siguientes fuentes. 
 
 Artículos con enfoque estadístico aplicado a la industria farmacéutica: La búsqueda 
de la información se realizó en artículos de diseños estadísticos aplicados a la 
industria farmacéutica, en revistas enfocadas al área farmacéutica y en páginas de 
Internet. 
 Libros de aplicación al tema: La información se buscó en libros que incluyeran los 
temas relacionados con las aplicaciones estadísticas del diseño propuesto. 
 Páginas de Internet relacionados con los temas de diseño estadístico: La búsqueda 
en Internet se realizó introduciendo en la barra de búsqueda el nombre de cada 
uno de los temas estadísticos de aplicación para el presente trabajo. 
 
De manera sintetizada los pasos a seguir para la elaboración del presente trabajo se 
describen en el diagrama de flujo que se presenta a continuación. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Neevia docConverter 5.1
 32
V. DIAGRAMA DE FLUJO 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Selección del tema

Otros materiales