Tecnicas-estadisticas-para-seleccionar-variables-de-respuesta-y-factores-de-estudio-en-el-area-farmaceutica

•

Outros

Apuntes Biologia

21/10/2022

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Biología

323.070 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

UNIVERSIDAD NACIONAL AUTÓNOMA
DE MÉXICO

FACULTAD DE ESTUDIOS SUPERIORES
ZARAGOZA

Tenorio Solís Enrique

No. de cuenta 09417747-3

Técnicas estadísticas para seleccionar variables de respuesta y factores de
estudio, en el área farmacéutica.

Área específica del proyecto: Farmacia

Director de tesina: M. en C. Armando Cervantes Sandoval

Asesor de la tesina: M. en C. Maria José Marques Dos Santos

Año del término de la carrera: 2004
Orientación: Farmacia

Lugar donde se desarrollo la tesina: Facultad de Estudios Superiores Zaragoza

Opción de titulación: Paquete de Educación Continua

Neevia docConverter 5.1

UNAM – Dirección General de Bibliotecas
Tesis Digitales
Restricciones de uso

DERECHOS RESERVADOS ©
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL

Todo el material contenido en esta tesis esta protegido por la Ley Federal
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México).
El uso de imágenes, fragmentos de videos, y demás material que sea
objeto de protección de los derechos de autor, será exclusivamente para
fines educativos e informativos y deberá citar la fuente donde la obtuvo
mencionando el autor o autores. Cualquier uso distinto como el lucro,
reproducción, edición o modificación, será perseguido y sancionado por el
respectivo titular de los Derechos de Autor.

Neevia docConverter 5.1
1

INTRODUCCIÓN

Cada vez son más las empresas y centros de investigación y desarrollo que aplican el diseño de
experimentos de manera cotidiana, tanto para mejorar el desempeño de los procesos ya
establecidos como para hacer innovaciones y el desarrollo de nuevos productos. Esto es
necesario para mantener una empresa competitiva en un mercado global, al poder reducir sus
costos de producción mejorando al mismo tiempo la calidad de sus productos. Aporta además el
conocimiento profundo de los procesos, generando herramientas eficaces del manejo de los
mismos.

El uso adecuado de las herramientas estadísticas y su correcta interpretación son temas de
interés en los tiempos actuales en casi todas las áreas del conocimiento humano. Y en la
investigación farmacéutica son fundamentales para la toma de decisiones, por lo que es necesario
analizar los fundamentos teóricos de algunas de las técnicas más comunes, por ejemplo las de
regresión lineal simple y múltiple, para entender la manera en que se combinan con técnicas más
avanzadas como la de diseños compuestos centrados, diseños estrella o la técnica multivariada
de componentes principales. Este análisis servirá para ponderar y seleccionar las variables
dependientes (Y´s) o los factores de estudio (X´s) de mayor relevancia, en la investigación
farmacéutica.

En éste trabajo se da una perspectiva sencilla para aplicar y comprender algunas de las
herramientas estadísticas, empleando el paquete estadístico STATGRAPHICS PLUS 5, para
llevar acabo un análisis compuesto central con punto estrella aplicado a un estudio de
optimización de formulas farmacéuticas sólidas, con base en la información del artículo KEY
VARIABLES IN DOSAGE FORM DESIGN (Diseño de variables clave en formas de dosificación)
publicado en la revista Drug Development and Industrial Pharmacy Vol. 17 (7), del año 1991,
págs. 959-974.

Neevia docConverter 5.1
2
I. MARCO TEÓRICO

En la actualidad la mayor parte de los procesos industriales, no exclusivamente los procesos
farmacéuticos, se rigen por normas nacionales e internacionales las cuales regulan las
condiciones más elementales para asegurar que los productos que se elaboran en cada una de
las empresas que cumplen con sus lineamientos, entregan al consumidor productos de alta
calidad. Es por ello que en este capítulo se mencionarán algunas normas y documentos oficiales
los cuales destacan la importancia y uso de las herramientas estadísticas.

A. APLICACIONES ESTADÍSTICAS EN NORMATIVIDADES
Y REGULACIONES OFICIALES

1. Norma Mexicana IMNC (NMX-CC-9004-IMNC-200)

Los puntos a considerar en la Norma Mexicana IMNC (NMX-CC-9004-IMNC-200) los cuales
consideran la parte estadística dentro de su contenido, son los que se listan a continuación de
acuerdo al numeral de la misma norma:
8 Medición, análisis y mejora
8.1 Orientación general
8.1.1 Introducción

Los datos de las mediciones son importantes en la toma de decisiones basadas en hechos. La
alta dirección debería asegurarse de la eficaz y eficiente medición, recopilación y validación de
datos para asegurar el desempeño de la organización y la satisfacción de las partes interesadas.
Esto debería incluir la revisión de la validez y del propósito de las mediciones y el uso previsto de
los datos para asegurarse del aporte de valor para la organización.

8.1.2 Aspectos a considerarse

La medición, el análisis y la mejora incluyen entre otras (sólo se enuncian los puntos que hacen
referencia a conceptos estadísticos):

a. la medición, el análisis y la mejora de los productos y procesos deberían usarse para
establecer prioridades apropiadas para la organización;
d) los estudios comparativos (benchmarking) de procesos individuales deberían emplearse
como una herramienta para mejorar la eficacia y eficiencia de los procesos;
j) el uso de las técnicas apropiadas, estadísticas o de otro tipo, puede ser útil en la
comprensión de las variaciones, tanto de los procesos como de las medidas, y por lo tanto
puede mejorar el desempeño del proceso y del producto controlando dicha variación;

8.4 Análisis de datos

Las decisiones deberían basarse en el análisis de datos obtenidos a partir de mediciones e
información recopilada tal y como se describe en esta norma mexicana. En este contexto, la
organización debe analizar los datos de sus diferentes fuentes tanto para evaluar el desempeño
frente a los planes, objetivos y otras metas definidas, como para identificar áreas de mejora
incluyendo posibles beneficios para las partes interesadas.

Las decisiones basadas en hechos requieren acciones eficaces y eficientes tales como:

- métodos de análisis válidos;
- técnicas estadísticas apropiadas; y tomar decisiones y llevar a cabo acciones basadas en los
resultados de análisis lógicos, en equilibrio con la experiencia y la intuición.
Neevia docConverter 5.1
3
El análisis de los datos puede ayudar a determinar la causa de los problemas existentes o
potenciales y por lo tanto guiar las decisiones acerca de las acciones correctivas y preventivas
necesarias para la mejora. [1]

2. NOM-059-SSA1-1993

Otra de las normas que considera aspectos estadísticos es la Norma Mexicana 059-SSA1-1993,
relacionada con mejora de la calidad de los productos farmacéuticos, los puntos en los cuales se
hace mención de estas herramientas se listan a continuación:

14.1 Política.
Es un requerimiento que los fabricantes de medicamentos determinen qué actividades de
validación son necesarias para demostrar el control de los aspectos críticos de sus operaciones
particulares.
Debe utilizarse un enfoque de análisis de riesgos para evaluar el ámbito y grado de validación.
14.10 Proveedores.
14.10.1 Se consideran validados siempre y cuando:
14.10.1.1 Hayan sido aprobados de acuerdo a lo descrito en el numeral 9.2 de este Proyecto de
Norma Oficial Mexicana.
14.10.1.2 Exista evidencia documentada del desempeño histórico del proveedor en cuanto a la
calidad de cada uno de los insumos suministrados.
14.10.1.3 Se lleve a cabo una auditoria a sus instalaciones de acuerdo al numeral 17 de este
Proyecto de Norma Oficial Mexicana, que demuestre que cuenta con un Sistema de
Calidad.
14.10.1.4 Llevar a cabo un estudio estadístico entre los resultados proporcionados por el
proveedor en su Certificado de Análisis y los resultados obtenidos en el laboratorio,
para demostrar equivalencia. [2]

3. Farmacopea de los Estados Unidos Mexicanos (FEUM)Una de las regulaciones sanitarias en las cuales se sustentan las pruebas de análisis para la
fabricación de medicamentos para uso y consumo humano es la Farmacopea de los Estados
Unidos Mexicanos, en la cual se plantean las especificaciones con las que deben de cumplir este
tipo de productos, y además se plantean las técnicas estadísticas en ensayos biológicos debido a
su gran diversidad de respuesta a las terapias con medicamentos.

Los ensayos biológicos se dividen en ensayos cualitativos y ensayos cuantitativos. Los ensayos
cualitativos, con los que se pretende, por ejemplo, identificar una sustancia por medio de una
reacción característica producida en una especie particular de entidad biológica, raramente
presentan dificultad en su análisis estadístico. Por su parte, los ensayos cuantitativos, son
semejantes a los métodos de medición física o de análisis químico cuantitativo, en que conducen
a una determinación numérica de alguna propiedad del material (o proceso) por ser ensayado. [3]

4. Farmacopea de los Estados Unidos de América (USP)

Una de las regulaciones en las que una gran cantidad de Laboratorios Farmacéuticos se basan
para la elaboración de sus productos debido a la exportación de los mismos, es la Farmacopea de
los Estados Unidos de América que también hace mención del uso de técnicas estadísticas como
se muestra en la siguiente sección, lo cual pone de manifiesto que el empleo de técnicas
estadísticas no se limita a un tipo de análisis o de ensayos, sino que éstos dependen de la
finalidad u objetivo que se pretende evaluar. [4]
Neevia docConverter 5.1
4

La garantía de calidad de los productos farmacéuticos se logra combinando una serie de
prácticas, que incluyen un diseño robusto de la formulación, validación, análisis de materias
primas, análisis durante el proceso y pruebas del producto final. Cada una de estas prácticas
depende de métodos de prueba confiables. Durante el proceso de desarrollo, se desarrollan y
validan procedimientos de prueba para asegurar que los productos fabricados estén
perfectamente caracterizados. Las pruebas del producto final permiten comprobar que los
productos son uniformemente seguros y eficaces y que cumplen con sus especificaciones.

Las mediciones son intrínsecamente variables y la USP reconoce tal variabilidad para las pruebas
biológicas desde hace mucho tiempo. Las mediciones de análisis químicos comúnmente utilizadas
para productos farmacéuticos también son intrínsecamente variables, aunque en menor grado que
las pruebas biológicas. No obstante, en muchos casos los criterios de aceptación son
proporcionalmente más estrictos y en consecuencia, debe tenerse en cuenta esta menor
variabilidad aceptable cuando se analizan datos obtenidos por procedimientos analíticos. Si no se
caracteriza ni especifica la variabilidad de una medición junto con el resultado obtenido, los datos
solo pueden interpretarse en el sentido más limitado.

En el capitulo <1010> Datos analíticos – interpretación y tratamiento de la USP 30, se
proporcionan indicaciones para el tratamiento e interpretación científicamente aceptables de los
datos. Se describen además las herramientas estadísticas que pueden resultar útiles para la
interpretación de los datos analíticos. Mucha estadística descriptiva, como la desviación estándar
y la media, son de uso difundido. Otras herramientas estadísticas, como las pruebas de resultados
aberrantes, pueden realizarse utilizando diferentes métodos científicamente válidos.

B. ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL

1. Análisis de regresión y correlación lineal

A menudo se está interesando en estudiar la relación entre dos variables como cantidad de
fertilizante y producción, concentración de una droga inyectada a un animal de laboratorio y latidos
del corazón, dureza de los plásticos tratados con calor durante diferentes períodos. La naturaleza
y el grado de relación de este tipo de variables se puede analizar mediante dos técnicas:
regresión y correlación, que aunque de alguna manera están relacionadas, tienen propósitos e
interpretaciones diferentes. La diferencia entre ambos procedimientos no permite que se sustituya
uno por el otro en una situación experimental dada.

El análisis de regresión es útil para determinar la forma probable de la relación entre las
variables (la ecuación que relaciona a ambas variables) cuando hay un fenómeno de causa y
efecto; y su objetivo principal es el de predecir o estimar el valor de una variable (respuesta o
dependiente (Y)), correspondiente al valor dado de la otra variable (explicativa o
independiente(X)). En otras palabras, el investigador decide cuáles valores tomará la variable
independiente, mientras que los valores de la variable dependiente están determinados por la
relación que existe, si la hay, entre ambas. Por lo tanto, debe emplearse el análisis de regresión
en situaciones experimentales en las cuales el investigador controla la variable independiente.

El análisis de correlación, por otra parte, consiste en la medición del grado o intensidad de
asociación entre dos variables sin importar cuál es la causa y cuál el efecto. Cuando se puede
demostrar que la variación de una variable está de algún modo asociada con la variación de otra,
entonces se puede decir que las variables están correlacionadas. [5]

La medida del grado de relación entre dos variables se llama coeficiente de correlación y se
representa universalmente por .ρ En el modelo de correlación se asume que X y Y varían en
una distribución conjunta. Si esta distribución está distribuida normalmente se llama distribución
normal bivariada. [6]
Neevia docConverter 5.1
5
Una correlación puede ser positiva (cuando al aumentar una variable la otra también aumenta), o
negativa (cuando al aumentar una variable la otra disminuye). Por otro lado, si la variación de una
variable no corresponde en absoluto a la variación de la otra, entonces no existe ninguna
asociación y, por consiguiente, ninguna correlación entre las dos variables. Así, por ejemplo, si un
investigador desea determinar el grado de asociación que existe entre la biomasa del fitoplancton
y la cantidad de clorofila “a”, debe obtener repetidas muestras de agua de un lugar de muestreo
en un lago y medir la clorofila “a” y la biomasa en cada muestra. En esta situación el investigador
no tiene control sobre una u otra variable, puesto que los valores de la clorofila “a” y de la biomasa
encontrados en cada muestra serán “los que la naturaleza proporciona”. Así que se deduce que
tanto la clorofila “a” como la biomasa son variables aleatorias, y la correlación es, en
consecuencia, el procedimiento adecuado. [5]

Es importante enfatizar, en lo que respecta al análisis de correlación, que ni X ni Y representan
una variable independiente; en otras palabras, tanto X como Y son variables aleatorias. Por otra
parte, en el análisis de regresión, X representa la variable independiente y Y la variable
dependiente. [7]

2. Análisis de regresión lineal múltiple

Como la estadística inferencial permite trabajar con una variable a nivel de intervalo o razón, así
también la regresión lineal permite relacionar variables, mediante ecuaciones, una variable Y con
otra variable X, mientras que la regresión lineal múltiple permite relacionar una variable Y con dos
o más variables X’s. [8]

La ecuación de regresión lineal con una sola variable independiente tiene la forma bXaY +=´ . En
el caso de la regresión lineal múltiple la ecuación se amplía y puede tener más variables
independientes. La forma general de la ecuación de regresión lineal múltiple con dos variables
independientes es:
22110´ XbXbbY ++= (1)
donde:

21 , XX son las dos variables independientes.
0b es la intersección con el eje Y . Es la ordenada del punto de intersección con el
eje Y .
1b es la variación neta en Y por cada unidad de variación en 1X , manteniendo 2X
constante. Se denominacoeficiente de regresión parcial, coeficiente de regresión
neta, o simplemente, coeficiente de regresión.
2b es el cambio neto en Y para cada cambio unitario en 2X , manteniendo 1X
constante. También se le conoce como coeficiente de regresión parcial, coeficiente
de regresión neta, o simplemente, coeficiente de regresión.

La interpretación geométrica, cuando se tienen dos variables independientes y sólo una variable
dependiente, es un plano de regresión ya que se están considerando tres dimensiones.

Se puede aumentar el número de variables independientes. La ecuación general de regresión
múltiple con tres variables independientes, denotadas por 1X , 2X y 3X es:
3322110´ XbXbXbbY +++= (2)
Esto puede ampliarse a cualquier número (k), de variables independientes, siendo la ecuación
general de regresión lineal múltiple: [9]
kk XbXbXbXbbY +++++= ...´ 3322110 (3)
Neevia docConverter 5.1
6
El método de mínimos cuadrados para estimar 0b , 1b , 2b ,…, kb , minimiza la suma de los
cuadrados de las desviaciones verticales respecto al plano de regresión. En la ecuación de
regresión múltiple, la obtención de 0b , 1b y 2b resulta muy tediosa, aún cuando se utilice una
calculadora, debido a la gran cantidad de cálculos. Por ejemplo, con dos variables independientes
hay que resolver simultáneamente, tres ecuaciones que son:
∑ ∑ ∑++= 22110 XbXbnbY
∑ ∑ ∑∑ ++= 212211101 XXbXbXbYX
∑ ∑ ∑∑ ++= 222211202 XbXXbXbYX
Por esta razón se recomienda utilizar alguno de los paquetes de cómputo que realizan los cálculos
y presentan los resultados. MINITAB, STATGRAPHICS, SAS y SPSS son cuatro de los más
utilizados. [10]

C. ANÁLISIS DE VARIANZA

1. Análisis de varianza de un solo factor completamente aleatorio

En una prueba t de dos muestras se desea contrastar la hipótesis de que dos medias
poblacionales son iguales, en comparación con la hipótesis alternativa. Recuérdese que para usar
esa prueba, el experimento debe tener como resultado muestras aleatorias independientes, una
para cada una de las poblaciones que se estudian.

Por otra parte en un diseño completamente aleatorizado se planea reunir datos en el que se
selecciona una muestra aleatoria de tres o más poblaciones de interés y las muestras son
independientes. [11]

Suponga que se tienen a niveles diferentes (tratamientos) de un solo factor que se desea
comparar. La respuesta observada en cada uno de los “a” tratamientos es una variable aleatoria y
los datos aparecerían como en el cuadro 1. Un dato en dicho cuadro, por ejemplo ,ijy representa
la j-ésima observación tomada bajo el tratamiento i. En un principio se considera el caso en que
hay el mismo número de observaciones; n, en cada tratamiento.

Cuadro 1. Datos típicos para el análisis de varianza de clasificación unidireccional.
Tratamientos Observación Totales Media aritmética
1 11y 12y … ny1 .1y .1y
2 21y 22y … ny2 .2y .2y
. . . . . .
. . . . . .
. . . . . .
a 1ay 2ay … any .ay .ay

Se pueden describir las observaciones del cuadro 1 por medio de un modelo estadístico lineal.
1, 2,..., ,
1, 2,..., ,ij i ij
i a
y
j n
μ τ ε
=⎧ ⎫
= + + ⎨ ⎬=⎩ ⎭
(4)
Neevia docConverter 5.1
7
donde ijy es la observación ij-ésima, µ es un parámetro común para todos los tratamientos
(llamado media general), τi es un parámetro asociado con el tratamiento i-ésimo (denominado
efecto del tratamiento i-ésimo), y ijε es un componente del error aleatorio.

Para probar las hipótesis respecto de los efectos de los tratamientos, así como estimarlos, los
errores del modelo se toman como variables aleatorias normal e independientemente distribuidas
con media cero y varianza σ2 [abreviado como DNI (0,σ2)]. La varianza σ2 se considera constante
(homogénea) para todos los niveles del factor.

El modelo de la ecuación (4) recibe el nombre de análisis de varianza de clasificación de una vía
(unidireccional), debido a que se investiga un solo factor. Además, se requiere que las
observaciones se tomen en orden aleatorio, de manera que el ambiente en el que se usan los
tratamientos (llamado a menudo unidad experimental) sea lo más uniforme posible. [12]

Hay dos maneras diferentes en que los niveles de factor “a” en el experimento podrían haberse
elegido, empleando el Modelo de efectos aleatorios o el Modelo de efectos fijos, éste último se
describe y se emplea en el trabajo. El investigador podría haber seleccionado específicamente los
“a” tratamientos. En esta situación deseamos probar la hipótesis con respecto a iτ y las
conclusiones serán válidas únicamente a los niveles de factor considerados en el análisis. Las
conclusiones no pueden extenderse a tratamientos similares que no se hayan considerado. Esto
recibe el nombre de Modelo de efectos fijos

El análisis de varianza para la clasificación unidireccional del modelo de efectos fijos, suelen
definirse como desviaciones de la media general, por lo que:
∑
=
=
a
i
i
1
.0τ (5)
Sea .iy la representación del total de las observaciones bajo el tratamiento i-ésimo, y .iy la
representación del promedio de las observaciones bajo el tratamiento i-ésimo. De modo similar,
considere que ..y representa la suma total de todas las observaciones, y ..y la gran media de
todas las observaciones. Expresado matemáticamente:
∑
=
=
n
j
iji yy
1
,. ,
.
.
n
y
y ii = .,...,2,1 ai = (6)
∑∑
= =
=
a
i
n
j
ijyy
1 1
,.. ,
....
N
yy =
donde N = an es el número total de observaciones. Por tanto, la notación con un “punto” en el
subíndice implica la sumatoria sobre el subíndice que reemplaza el punto.

Para probar la igualdad de los a efectos de tratamiento, se plantean las hipótesis:
.0...: 210 ==== aH τττ
(7)
0: ≠iHa τ , para al menos una i

El procedimiento de prueba para la hipótesis de la ecuación (7) se llama análisis de varianza. El
término “análisis de varianza” resulta de descomponer la variabilidad total de los datos en sus
partes componentes. La suma corregida total de los cuadrados, que es una medida de la
variabilidad total en los datos, puede escribirse como:
Neevia docConverter 5.1
8
∑∑ ∑∑∑
= = = ==
−+−=−
a
i
n
j
a
i
n
j
iij
a
i
iij yyyynyy
1 1 1 1
2
1
22
.. ..)(..).()( (8)
La ecuación (8) muestra que la variabilidad total de los datos, medida por la suma total corregida
de los cuadrados, se puede descomponer en la suma de los cuadrados de las diferencias entre
las medias de los tratamientos y la gran media más una suma de cuadrados de diferencias de
observaciones dentro de los tratamientos y la media del tratamiento. Las diferencias entre las
medias de tratamientos observadas y la gran media, miden las diferencias entre tratamientos, en
tanto que las diferencias de observaciones dentro de un tratamiento con la media del tratamiento
pueden deberse sólo a un error aleatorio. En consecuencia, se escribe la ecuación (8)
simbólicamente como:
SCTotal =SC tratamientos + SCError
donde SCTotal es la suma total de los cuadrados, SC tratamientos es la suma de los cuadrados debida
a los tratamientos (es decir entre tratamientos) y SCError es la suma de cuadrados debida al error
(esto es, dentro de los tratamientos). Hay an = N observaciones totales; por tanto, SCTotal tiene N-1
grados de libertad. Hay a niveles del factor, por lo que SCtratamientos tiene a - 1 grados de libertad.
Por último, dentro de cualquier tratamiento hay n réplicas que proporcionan n - 1 grados de
libertad con los cuales se estima el error experimental. Puesto que hay a tratamientos, a(n-1) = an
- a = N - a grados de libertad para el error.

El estadístico de prueba .,1, aNaF −−α se expresa de la siguiente manera:
0
/ ( 1)
/ ( )
tratamientos tratamientos
Error Error
SC a MCF
SC N a MC
−
= =
−
(9)
Los valores esperados de las medias cuadráticas se utilizan para mostrar que F0,en la ecuación
(9), es un estadístico de prueba apropiado para 0:0 =iH τ , y para determinar el criterio de
rechazo de esta hipótesis nula.

A partir de las medias cuadráticas esperadas, los MCError son un estimador insesgado de 2σ . Sin
embargo, si la hipótesis nula es falsa, el valor esperado de MCtratamientos es mayor que 2σ . Por
tanto, bajo la hipótesis alterna, el valor esperado del numerador del estadístico de prueba
(ecuación (9)) es mayor que el valor esperado del denominador. En consecuencia, debemos
rechazar H0 si el estadístico de prueba es grande. Esto implica una F calculada muy grande y por
lo tanto una región crítica de cola superior. De tal modo, que se rechaza H0 si
aNaFF −−> ,1,0 α
Donde F0 se calcula a partir de la ecuación (9).

Es posible obtener fórmulas eficientes de cálculo para la suma de los cuadrados, expandiendo y
simplificando las definiciones de SCtratamientos y SCTotal en la ecuación (5), esto produce
2
2 ..
1 1
a n
Total ij
i j
ySC y
N= =
= −∑∑ (10)
y
∑
=
−
a
i
i
ostratamient N
y
n
y
SC
1
2
..
2
.
(11)
La suma de los cuadrados del error se obtienen mediante sustracción, como:
Error Total tratamientosSC SC SC= − (12)
Los cálculos se resumen en el cuadro 2, que recibe el nombre de tabla de Análisis de varianza. [12]
Neevia docConverter 5.1
9

Cuadro 2. Análisis de varianza para el modelo de efectos fijos de clasificación unidireccional
Fuente de
Variación
Suma de
cuadrados
Grados de
libertad
Cuadrados
medios F0
Entre tratamientos SCtratamientos 1−a MCtratamientos
Error (dentro de
los tratamientos) SCE aN − MCError
tratamientos
Error
MC
MC

Total SCT 1−N

2. Experimentos factoriales de dos factores o de dos vías

El tipo más simple de experimento factorial involucra solo dos factores, digamos A y B. Hay a
niveles del factor A y b niveles del factor B. El factorial de dos factores se muestra en el siguiente
Cuadro 3. Observe que hay n réplicas del experimento, y cada una de ellas contiene todas las ab
combinaciones del tratamiento. La observación de la celda ij-ésima de la réplica k-ésima se
denota .ijky Al recopilar los datos, las observaciones abn se ejecutarían en orden aleatorio. En
consecuencia, como en el experimento de un solo factor, el factorial de dos factores es un diseño
completamente aleatorio.

Las observaciones pueden describirse mediante el modelo estadístico lineal
⎪
⎭
⎪
⎬
⎫
⎪
⎩
⎪
⎨
⎧
=
=
=
++++=
,,...,2,1
,,...,2,1
,,...,2,1
)(
nk
bj
ai
y ijkijjiijk ετββτμ (13)
donde μ es el efecto de la media general, τi, es el efecto del nivel i-ésimo del factor A, βj es el
efecto del nivel j-ésimo del factor B, (τβ)ij es el efecto de la interacción entre A y B, y ijkε es una
componente de error aleatorio. Se está interesado en probar las hipótesis de que no hay efecto
significativo del factor A, no hay efecto significativo B, y que no hay interacción significativa en AB.
Se empleará el análisis de varianza para probar estas hipótesis. Puesto que hay dos factores bajo
estudio, el procedimiento que se emplea se llama análisis de varianza bidireccional.

Análisis estadístico del modelo de efectos fijos

Si se supone que los factores A y B son fijos. Esto es, el investigador elige específicamente los
niveles a del factor A y los niveles b del factor B, y las deducciones se confinan a estos niveles. En
este modelo es usual definir los efectos τi, βj y (τβ)ij como desviaciones respecto de la media, de
manera que ∑ ∑ ∑= = = ===
a
i
b
j
a
i ijji1 1 1
0)(,0,0 τββτ y ∑ = =
b
j ij1
.0)(τβ
Sea ..iy el total de las observaciones bajo el nivel i-ésimo del factor A, .. jy el total de las
observaciones bajo el nivel j-ésimo del factor B, .ijy el total de las observaciones en la celda ij-
ésima del Cuadro 3, y ...Y el gran total de todas las observaciones. Defina ..... ,, ijji YYY y ...y
como el renglón, la columna, la celda y los grandes promedios correspondientes. Esto es,
Neevia docConverter 5.1
10

Cuadro 3. Arreglo de datos para un diseño factorial de dos factores
Factor B
Factor A
1 2 ……. b
1 y111 y112 … y11n y121 y122 … y12n y1b1 y1b2 … y1bn
2 y211 y212 … y21n y221 y222 … y22n y2b1 y2b2 … y2bn
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
a ya11 ya12 … ya1n ya21 ya22 … ya2n yab1 yab2 … yabn

∑∑
= =
=
b
j
n
k
ijki yy
1 1
.. , ,
..
.. bn
yy ii = ,,...,2,1 ai =

∑∑
= =
=
a
i
n
k
ijkj yy
1 1
.. ,
. .
. . ,
j
j
y
y
an
= ,,...,2,1 bj =

∑
=
=
n
k
ijkij yy
1
. , .. ,
ij
ij
y
y
n
=
,,...,2,1
,,...,2,1
bj
ai
=
=

∑∑∑
= = −
=
a
i
b
j
n
k
ijkyy
1 1 1
... , ,...... abn
y
y = (14)
La suma de cuadrados total corregida total puede escribirse como
[ ]∑ ∑∑∑∑∑
= =====
−++−−+−+−=−
n
k
n
k
ijijkjiijji
b
j
a
i
ijk
b
j
a
i
yyyyyyyyyyyy
1 1
2
...................
11
2
...
11
)()()()()(
∑∑ ∑∑∑ ∑∑
== === ==
−++−−+−+−=
n
k
ijijk
b
j
b
j
a
i
jiij
b
j
a
i
j
a
i
i yyyyyynyyanyybn
1
2
.
1 11
2
........
1 1
2
.....
2
1
..... )()()()(
(15)
Por consiguiente, la suma de cuadrados total se descompone en una suma de cuadrados debida
a “renglones” o factores de A (SCA), una suma de cuadrados debida a “columnas” o factores de B
(SCB), una suma de cuadrados debida a la interacción entre A y B (SCAB), y una suma de
cuadrados debido al error (SCE). Observe que debe haber al menos dos réplicas para obtener una
suma de cuadrados del error diferente de cero.

La identidad de la suma de cuadrados en la ecuación (20) se puede escribir simbólicamente como
SCT = SCA + SCB + SCAB +SCE (16)
Hay un total de abn-1 grados de libertad. Los efectos principales A y B tienen a-1 y b-1 grados de
libertad, en tanto que el efecto de interacción AB tiene (a-1) (b-1) grados de libertad. Dentro de
cada una de las ab celdas del Cuadro 4, hay n-1 grados de libertad entre n réplicas, y las
observaciones en la misma celda pueden diferir sólo debido al error aleatorio. En consecuencia,
hay ab(n-1) grados de libertad para el error. La razón de cada suma de cuadrados en el lado
derecho de la ecuación (16) respecto de sus grados de libertad, es una media cuadrática.
Neevia docConverter 5.1
11
Suponiendo que los factores A y B son fijos, los valores esperados de las medias cuadradas son:
,
11
)( 1
2
2
−
+=⎟
⎠
⎞
⎜
⎝
⎛
−
=
∑
=
a
bn
a
SCEMCE
a
i
i
A
A
τ
σ
,
11
)( 1
2
2
−
+=⎟
⎠
⎞
⎜
⎝
⎛
−
=
∑
=
b
an
b
SCEMCE
b
j
i
B
B
β
σ
,
)1)(1(
)(
)1)(1(
)( 1 1
2
2
−−
+=⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
−−
=
∑∑
= =
ba
n
ba
SCEMCE
a
i
b
j
ij
AB
AB
τβ
σ
y
2( )
( 1)
E
E
SCE MC E
ab n
σ
⎛ ⎞
= =⎜ ⎟−⎝ ⎠

Por tanto, para probar H0: τi = 0 (ningún efecto del factor de renglón), H0: βj = 0 (ningún efecto de
factor de columna), y H0 = (τβ)ij = 0 (ningún efecto de interacción), se divide la media cuadrática
correspondiente entre el error cuadrático medio. Cada una de estas razones seguirá una
distribución F con grados de libertad del numerador iguales al número de grados de libertad para
la media cuadrática del numerador y ab(n-1) grados de libertad del denominador; la región crítica
se localizará en la cola superior. Los cálculos se ordenan en una tabla de análisis de varianza,
como se muestra en el cuadro 4.

Cuadro 4. Tabla de análisis de varianza para clasificación bidireccional, modelo de efectos fijos.
Fuentes de
variación
Suma de
cuadrados
Grados de
libertad Cuadrados medios F0
Tratamientos A SCA a - 1 1
A
A
SCCM
a
=
−

E
A
MC
MC

Tratamientos B SCB b - 1 1
B
B
SCCM
b
=
−

E
B
MC
MC

Interacción AB SCAB (a – 1)( b – 1) ( 1)( 1)
AB
AB
SCCM
a b
=
− −

E
AB
MC
MC

ErrorSCE ab(n – 1) ( 1)
E
E
SCCM
ab n
=
−

Total SCT abn - 1
Las fórmulas de cálculo para la suma de cuadrados en la ecuación (16) se obtienen con facilidad.
La suma de cuadrados total se calcula a partir de
∑∑∑
= = =
−=
a
i
b
j
n
k
ijkT abn
y
ySC
1 1 1
2
...2 . (17)
Las sumas de cuadrados para los efectos principales son
∑
=
−=
a
i
i
A abn
y
bn
y
SC
1
2
...
2
.. . (18)
y
Neevia docConverter 5.1
12
∑
=
−=
b
j
j
B abn
y
an
y
SC
1
2
...
2
.. . (19)
Usualmente se calculan las SCAB en dos pasos. Primero, se obtiene la suma de cuadrados entre
los totales de la celda ab, llamada suma de cuadrados debido a “subtotales”.
∑∑
= =
−=
a
i
b
j
ij
subtotales abn
y
n
y
SC
1 1
2
...
2
.
Esta suma de cuadrados contiene también SCA y SCB. Por tanto, el segundo paso consiste en
calcular SCAB como
SCAB = SCsubtotales – SCA – SCB. (20)
El error de la suma de cuadrados se halla mediante la resta, ya sea
SCE = SCT – SCAB – SCA -SCB (21a)
o
SCE = SCT – SCsubtotales (21b) [12]

Un ejemplo de este modelo de dos vías (dos factores), completamente al azar, se describe a
continuación: Se desea comparar el efecto de dos fármacos A y B, aplicados en orden diferente, el
investigador desea asegurarse en que orden recibieron los sujetos la formulación sin influenciar la
Cmax para la formulación recibida [13]

Las tres hipótesis bajo prueba son:
H01: µOrden 1 = µOrden 2 Ha1: µOrden 1 ≠ µOrden 2
H02: µFórmula A = µFórmula B Ha2: µFórmula A ≠ µFórmula B
H03:µ(Fórmula A, Orden 1) = µ(Fórmula B, Orden 1) = µ(Fórmula A, Orden 2) = µ(Fórmula B, Orden 2) Ha3: Al menos un par de
medias es diferente.

Los datos observados por el investigador se presentan en el cuadro 5

Cuadro 5. Muestreo de datos para una interacción ensayo clínico (Cmáx)
Formulación

A B
∑∑
= =
b
j
n
k1 1
∑∑∑
= = −
a
i
b
j
n
k1 1 1

125 130 135 149 151 130
128 121 123 132 141 129
131 129 120 142 130 122
Orden (1)
(Fórmula A
recibida primero)
119 133 125 136 138 140
∑ =
n
k 1
1519 1640 3159
126 140 135 130 128 127
126 121 133 141 145 132
117 126 127 133 136 138
Orden (2)
(Fórmula B
recibida primero)
120 136 122 129 150 148
∑ =
n
k 1
1529 1637 3166
∑∑
= =
a
i
n
k1 1
3048 3277 6325

También se incluyen: la suma de observaciones de cada celda (diseño 2 x 2); la suma para cada
columna (formulación); la suma para cada fila (orden en la cual fueron recibidas las
formulaciones); y la suma total de los cuadrados de todas las observaciones. Los cálculos se
muestran a continuación:
Neevia docConverter 5.1
13
( ) ( ) ( )2 2 22
1 1 1
125 130 ... 148 836.917
a b n
ijk
i j k
I y
= = =
= = + + =∑∑∑ (22)
( )
2
2
1 1 1 6325 833,450.52
48
a b n
ijk
i j k
y
II
N
= = =
⎡ ⎤
⎢ ⎥
⎣ ⎦= = =
∑∑∑
(23)
( ) ( )
2
2 2
1 1 1 3,159 3,116 833,451.542
* 24
a b n
ijk
i j k
Ord
y
III
b n
= = =
⎡ ⎤
⎢ ⎥ +⎣ ⎦= = =
∑ ∑∑
(24)
( ) ( )
2
2 2
1 1 1 3,048 3,227 834,543.04
* 24
b a n
ijk
j i k
Form
y
III
a n
= = =
⎡ ⎤
⎢ ⎥ +⎣ ⎦= = =
∑ ∑∑
(25)
( ) ( )
2
2 2
1 1 1 1,519 ... 1,637 834,547.58
12
a b n
ijk
i j k
Celdas
y
IV
n
= = =
⎡ ⎤
⎢ ⎥ +⎣ ⎦= = =
∑∑ ∑
(26)
La suma de cuadrados que se requiere para elaborar la tabla de ANOVA son:

833,451.54 833,450.52 1.02Ord OrdSC III II= − = − =
834,543.04 833,450.52 1,092.52Form FormSC III II= − = − =
*
834,547.58 833,451.54 834,543.04 833,450.52 3.52
Ord Form Celdas Ord FormSC IV III III II= − − +
= − − + =
836,917 834,547.58 2,369.42Error CeldasSC I IV= − = − =
836,917 833,450.52 3,466.48TotalSC I II= − = − =

Los resultados se muestran en el cuadro de ANOVA siguiente:

Cuadro 6. Tabla de análisis de varianza para clasificación bidireccional, modelo de efectos fijos,
con los datos del ejemplo anterior.
Fuentes de
variación
Suma de
cuadrados
Grados de
libertad Media cuadrática F0
Orden 1.02 1 1.02 0.02
Fórmula 1,092.52 1 1,092.52 20.29
Interacción
(Fórm*Orden) 3.52 1 3.52 0.07
Error 2,369.42 44 53.85 ⎯
Total 3,466.48 47 ⎯ ⎯

Neevia docConverter 5.1
14

Las decisiones tomadas son:

1) No se rechaza H01 porque (1,44,0.95) 4.06F F< ≈ , por lo que se concluye que no existe
diferencia entre los órdenes de aplicación de las fórmulas A y B.
2) Se rechaza H02 porque (1,44,0.95) 4.06F F> ≈ , por tanto existe diferencia significativa entre las
fórmulas A y B
3) No se rechaza H03 ya que (1,44,0.95) 4.06F F< ≈ , en consecuencia no existe efecto de
interacción.[13]

3. Diseños factoriales

Un diseño factorial completo es un diseño que consiste en todas las posibles combinaciones de
los niveles de cada factor. Si hay kl niveles para el ésimok − factor ky , el diseño factorial
completo correspondiente es llamado un diseño factorial general klll ...21 . Cuando 2=il (ó 3)
para toda i, el diseño factorial general es llamado un diseño 2k (ó 3k). Un diseño factorial 2k (3k)
denota un diseño factorial completo a dos niveles (o a tres niveles). En la práctica, un diseño
factorial es expresado en términos de un número de órdenes (o corridas) que indican el nivel de
cada factor. Por ejemplo, el cuadro 7 muestra el arreglo de un típico diseño factorial 24 en orden
estándar. Esto significa que en la primera columna de la matriz del diseño consiste de sucesivos
signos menos (-) y más (+), la segunda columna de sucesivos pares de signos (–) y (+), la tercera
columna de cuatro signos (–) seguidos de cuatro signos (+), y así sucesivamente. En general, la
ésimak − columna consiste de 2K-1 signos (–), seguidos por 2K-1 signos (+).
Cuadro 7. Diseño Factorial 24
Matriz del diseño
Corridas X1 X2 X3 X4 Y
1 - - - - Y1
2 + - - - Y2
3 - + - - Y3
4 + + - - Y4
5 - - + - Y5
6 + - + - Y6
7 - + + - Y7
8 + + + - Y8
9 - - - + Y9
10 + - - + Y10
11 - + - + Y11
12 + + - + Y12
13 - - + + Y13
14 + - + + Y14
15 - + + + Y15
16 + + + + Y16
En este diseño factorial 24, hay cuatro factores a dos niveles con un total de N = 24 = 16 corridas.
Los dos niveles de cada factor son convencionalmente denotados por – y + (en algunas ocasiones
denotado por 1 y -1). Si una variable es continua los niveles, + y -, denotan el nivel alto y bajo, Si
una variable es cualitativa, los dos niveles pueden denotar dos categorías diferentes o la
presencia o ausencia de la variable. Cada fila o renglón representa una diferente combinación de
un nivel para cada factor. Por ejemplo la fila 3 indica que el experimento se ha realizado al nivel
alto del factor X2 y al nivel bajo de los factores X1, X3 y X4.
Neevia docConverter 5.1
15
Sea iY , 1=i , …, N , la respuesta promedio obtenida para la ésimai − corrida, para una
combinación de un diseño factorial 2K, donde KN 2= . Un contraste lineal para un diseño factorial
K2 está definido como un combinación lineal de iY , …, NY . Esto es,
1
... ,
N
i i Ni i N
i
c Y c Y c Y
=
= = + +∑l (27)
donde
∑
=
=
N
i
ic
1
.0
Dos combinaciones lineales de iY , 1=i , …, N , son llamadas ortogonales, si la suma de los
productos cruzados de los coeficientes de los dos contrastes es 0. Es decir
∑
=
=
N
i
iiiYc
1
11l y ∑
=
=
N
i
iiYc
1
222l (28)
son dos contrastes; entonces 1l y 2l son llamados ortogonales si
∑
=
=
N
i
iicc
1
21 .0
La varianza de un contraste basado en iY para un experimento factorial
K2 con n corridas para
cada combinación está dada por
( ) ∑
=
=
N
i
icn 1
2
2
.var σl (29)
Para un diseño factorial K2 , ver cuadro 7, la matriz del diseño contiene 4 columnas y N = 24 filas.
Hay un total de 2K - 1 efectos a ser estimados, los cuales se resumen en el cuadro 8. Bajo el
supuesto de que las respuestas ,iY 1=i , …, N , no están correlacionadas y tienen varianzas
iguales 2σ , el diseño factorial completo K2 proporciona una mínima varianza independiente
estimada insesgada para los K2 - 1 efectos, que están basados en los contrastes ortogonales de
iY . Por ejemplo,medir el cambio en la respuesta – (baja) a + (alta) de cada factor basado en
, 1, ,16iY i = L . Para el primer factor, 1X , el cambio en la respuesta puede ser medida por
medidas individuales del efecto del cambio de 1X de – a + (por ejemplo, ,2 ii YY − 1=i ,…,8;
2 2,4,6,...,16i = ). El promedio de estas ocho medidas, que están dadas por
( ) ∑∑∑
===
−=−
88
2
8
2 ,8
1
8
1
8
1
i
i
i
i
i
ii YYYY es llamado el efecto medio de 1X , y mide el efecto promedio de
1X sobre todas las condiciones de los otros efectos.
Neevia docConverter 5.1
16
Cuadro 8 Resumen de efectos de un diseño factorial 42
Tipo de efecto Número de efectos
Principal K
Interacción de dos factores
2
)1( −KK

Interacción de tres factores
6
)2)(1( −− KKK

. .
. .
. .
Interacción de h factores
!
)1)...(2)(1(
h
hKKKK +−−−

. .
. .
. .
Interacción de K factores 1
Total K2 -1
Note que el diseño factorial completo proporciona estimaciones no sólo para efectos medios
principales sino también para interacciones con precisión máxima. [14]

D. MÉTODOS MULTIVARIADOS

1. Generalidades

Para empezar una discusión de los métodos de análisis de los datos de variables múltiples, debe
definirse el concepto de la unidad experimental. Una unidad experimental es cualquier objeto o
grupo de objetos que se puede medir o evaluar de alguna manera. La medición y evaluación de
unidades experimentales es una actividad principal de la mayoría de los investigadores. Ejemplos
de unidades experimentales incluyen la gente, los animales, los insectos, los terrenos, los
campos, las compañías, los árboles, los granos de trigo y los países. Se obtienen datos de
variables múltiples siempre que un investigador mide o evalúa más de un atributo o característica
de cada unidad experimental. Los estadísticos suelen dar el nombre de variables a estos atributos
o características.

2. Panorama general de los métodos multivariados

Los métodos multivariados son extraordinariamente útiles para ayudar a los investigadores a
hacer que tengan sentido los conjuntos de datos que constan de una gran cantidad de variables
medidas en números grandes de unidades experimentales. La importancia y la utilidad de los
métodos multivariados aumentan al incrementarse el número de variables que se están midiendo
y el número de unidades experimentales que se están evaluando. [15]

Las técnicas estadísticas de regresión multivariada pueden ayudar a responder algunas de las
preguntas claves de validación. La técnica más familiar es la regresión múltiple, la cual identifica la
relación entre las variables independientes y una sola variable respuesta. Un clásico ejemplo del
uso de éste método fue usado por J. B Schwartz, J.R. Flamholz and R.H. Prees, J. Pharm. Sci.,
62, 1165 (1973), en su informe en optimización de la formulación de tabletas. Se examinaron
cinco variables independientes representando la formulación y los factores del proceso y se
examinó la influencia en cada una de las 10 variables dependientes. En el caso de las respuestas
claves como dureza, desintegración y disolución, las ecuaciones de regresión muy complejas (con
20 términos cada una) sirvieron para predecir las combinaciones de los excipientes importantes,
almidón, fuerza de compresión, gelatina granulada y el estearato de magnesio.
Neevia docConverter 5.1
17
El análisis de las ecuaciones de regresión puede dar información útil sobre la validación. Se
pueden identificar las variables independientes importantes así como la ocurrencia de posibles
interacciones de ellas. El grado de control del proceso y los rangos de factibilidad para las
variables independientes necesarias para satisfacer las especificaciones del producto se pueden
obtener fácilmente. Sin embargo, el análisis de regresión está limitado por el hecho de que
funciona mejor cuando maneja una sola variable dependiente de cada vez, y nuevamente la
mayoría de las validaciones necesitan considerar múltiples respuestas. [16]

A menudo, el objetivo principal de los análisis multivariados es resumir grandes cantidades de
datos por medio de relativamente pocos parámetros. El tema subyacente de muchas técnicas
multivariadas es la simplificación.

Frecuentemente, el interés del análisis multivariado es encontrar relaciones entre:

1. Las variables respuesta
2. Las unidades experimentales
3. Tanto las variables respuesta como las unidades experimentales

Muchas técnicas multivariadas tienden a ser de naturaleza exploratoria en lugar de confirmatoria.
Es decir, muchos métodos multivariados tienden a motivar hipótesis en lugar de probarlas.
Considere la situación en la cual un investigador puede tener 50 variables medidas sobre más de
2000 unidades experimentales. Los métodos estadísticos tradicionales suelen exigir que un
investigador establezca alguna hipótesis, reúna algunos datos y, a continuación, use estos datos
para comprobar o rechazar esas hipótesis. Una situación alternativa que se da frecuentemente es
un caso en el cual un investigador dispone de una gran cantidad de datos y se pregunta si pudiera
haber una información valiosa en ellos. Las técnicas multivariadas suelen ser útiles para examinar
los datos en un intento por saber si hay información que valga la pena y sea valiosa en esos
datos.

3. Técnicas dirigidas por las variables y dirigidas por los individuos

Una distinción fundamental entre los métodos multivariados es que algunos se clasifican como
“técnicas dirigidas por variables”, en tanto que otras se clasifican en “técnicas dirigidas por los
individuos”.

Las técnicas dirigidas por las variables son aquellas que se enfocan primordialmente en las
relaciones que podrían existir entre las variables respuesta que se están midiendo. Algunos
ejemplos de este tipo de técnica se encuentran en los análisis realizados sobre matrices de
correlación, el análisis de componentes principales, el análisis por factores, el análisis de
regresión y el análisis de correlación canónica.

Las técnicas dirigidas por los individuos son las que se interesan principalmente en las relaciones
que podría existir entre las unidades experimentales o individuos que se están midiendo, o en
ambos. Algunos ejemplos de este tipo de técnicas se encuentran el análisis discriminante, el
análisis por agrupación y el análisis multivariado de varianza (MANOVA: análisis de varianza
multivariado).

4. Creación de nuevas variables

Con bastante frecuencia es de utilidad crear nuevas variables para cada unidad experimental, de
modo que se puedan comparar entre sí con más facilidad. Muchos métodos multivariados ayudan
a los investigadores a crear nuevas variables que tengan propiedades deseables.
Neevia docConverter 5.1
18
Algunas de las técnicas multivariadas que crean nuevas variables son el análisis de componentes
principales, el análisis por factores, el análisis de correlación canónica, el análisis discriminante
canónico y el análisis de variables canónicas.

5. Análisis discriminante

El análisis discriminante (DA: discriminant analysis) se usa principalmente para clasificar
individuos o unidades experimentales en dos o más poblaciones definidas de manera única. Para
desarrollar una regla discriminante que clasifique las unidades experimentales en una de varias
categorías posibles, el investigador debe tener una muestra aleatoria de unidades experimentales
de cada grupo posible de clasificación. Entonces, el DA proporciona los métodos que permitirán a
los investigadores establecer reglas que se puedan emplear para clasificar otras unidades
experimentales en uno de los grupos de clasificación. [15]

E. ANÁLISIS DE COMPONENTES PRINCIPALES

Cuando un investigador piensa en el análisis de un nuevo conjunto de datos, debe considerar
varias preguntas acerca de ellos. Las preguntas importantes incluyen:

¿Existen algunos aspectos en los datos que resultan extraños o desacostumbrados?
¿Se puede suponer que los datosestán distribuidos normalmente?
¿Hay algunas anormalidades en los datos?
¿Existen datos extraordinarios (outliers)?

Las unidades experimentales cuyos valores medidos parecen incoherentes con las mediciones
realizadas en las otras unidades experimentales suelen llamarse datos extraordinarios (outliers).

Con mucho, la razón más importante para realizar un análisis de componentes principales (PCA)
es para usarlo como herramienta para cribar los datos de variables múltiples. Se pueden crear
nuevas variables llamadas calificaciones de los componentes principales, que se pueden usar
como entrada en programas para trazado de gráficas y descripción de datos y, con frecuencia, un
examen de las presentaciones gráficas resultantes revelará las anormalidades de los datos que se
está planeando analizar. Por ejemplo, la presentación gráfica de los componentes principales
puede ayudar a identificar los datos extraordinarios. Además, se pueden analizar por separado las
mediciones de los componentes principales, para ver si se cumplen las hipótesis relativas a la
distribución, como la normalidad de las variables y la independencia de las unidades
experimentales. A menudo se requieren esos supuestos para que sean válidos ciertos tipos de
análisis estadísticos.

El análisis de componentes principales (PCA) se puede hacer sobre una matriz de varianza-
covarianza de las muestras o una matriz de correlación. El mejor tipo de matriz suele depender de
las variables que se están midiendo; de hecho se considera extraordinario cuando es posible
interpretar las variables componentes principales. Al usar el PCA para cribar el conjunto de datos
de variables múltiples, no es necesario que se pueda interpretar los componentes principales
porque el PCA es extremadamente útil sin importar si se puede interpretar o no las nuevas
variables.

El análisis de los componentes principales suele ser bastante útil para los investigadores que
desean realizar la división en subgrupos de las unidades experimentales, de modo que unidades
experimentales similares pertenezcan al mismo subgrupo. En este caso, se pueden usar las
calificaciones de las componentes principales como entrada para los programas de agrupación, lo
que suele incrementar la eficacia de estos programas, reduciendo al mismo tiempo el costo de su
uso. Además, pueden y siempre deben usarse las mediciones de las componentes principales
para ayudar a validar los resultados de los programas de agrupación.
Neevia docConverter 5.1
19
1. Razones para usar el análisis de componentes principales

En el análisis de componentes principales (PCA) se usa un procedimiento matemático que
transforma un conjunto de variables respuestas correlacionadas en un nuevo conjunto de
variables no correlacionadas conocidas como componentes principales. Al observar
cuidadosamente este nuevo conjunto de variables no correlacionadas, se pueden obtener
respuestas a muchas preguntas importantes, como las planteadas en la sección anterior. Es
probable que las respuestas a estas preguntas influyan sobre otros análisis que se realicen más
adelante.

2. Cribado de los datos

El análisis de componentes principales es quizá el más útil para cribar datos multivariados. Para
casi todas las situaciones de análisis de datos, se puede recomendar el PCA como un primer
paso. Se debe realizar bajo un conjunto de datos, antes de realizar cualesquier tipo de análisis
multivariados. Los análisis de seguimiento sobre las componentes principales son útiles para
comprobar los supuestos que el investigador podría establecer acerca de un conjunto de datos
multivariados y para identificar y localizar datos extraordinarios posibles en el conjunto. Si se
presentan algunas otras anormalidades en un conjunto de datos multivariados, el PCA puede
ayudar a revelarlos.

3. Agrupación

El análisis de componentes principales también es útil siempre que el investigador desee agrupar
las unidades experimentales en subgrupos de tipos semejantes. Se pueden usar para ayudar a
formar agrupamientos de las unidades experimentales en subgrupos o para verificar los resultados
de los programas de agrupación.

4. Multicolinealidad

Hace mucho que se sabe que la regresión múltiple puede ser peligrosa cuando las variables
predictoras están intensamente correlacionadas de alguna manera. Esto se conoce como
multicolinealidad entre las variables predictoras. El análisis de componentes principales puede
ayudar a determinar si ocurre multicolinealidad entre las variables predictoras.

5. Objetivos del análisis de componentes principales

Los programas para computadora hacen que sea muy fácil realizar un PCA. Esta técnica debe
usarse principalmente como una técnica exploratoria y debe ayudar a los investigadores a que
adquieran cierta percepción respecto a un conjunto de datos. A veces, un PCA puede ayudar a los
investigadores a comprender mejor la estructura de correlación entre las respuestas y, en
ocasiones, puede ayudar a generar hipótesis acerca de las variables o de los datos.

La mayoría de los libros sobre métodos multivariados sugieren que los objetivos principales de un
PCA son:

1. Reducir la dimensionalidad del conjunto de datos.
2. Identificar nuevas variables significativas subyacentes.

En realidad, el objetivo 1 no es completamente verdadero, lo que en realidad se está intentando
hacer es descubrir la verdadera dimensionalidad de los datos. Una pregunta importante es: “Si los
datos se sitúan en un espacio ρ-dimensional, ¿esos datos tomarán todas las ρ dimensiones?, en
caso contrario, aunque se estén midiendo ρ variables, la dimensionalidad real de los datos es
menor que ρ.
Neevia docConverter 5.1
20
Se puede usar el análisis de componentes principales para determinar la dimensionalidad real de
los datos y, cuando esa dimensionalidad es menor que ρ, las variables originales se pueden
reemplazar por un número menor de variables subyacentes sin que se pierda información.
Entonces, se puede usar esta cantidad menor de variables en los siguientes análisis.

Con relación al objetivo 2, el PCA siempre identificará nuevas variables. Sin embargo, no se
puede garantizar que las nuevas variables sean significativas. Por desgracia, con mayor
frecuencia, no serán significativas. Aunque las nuevas variables no sean significativas, las
variables componentes principales todavía serán útiles. Las nuevas variables son útiles por
diversas razones, incluyendo el cribado de los datos, la verificación de supuestos y la verificación
de las agrupaciones.

Hay una fuerte tendencia entre los investigadores a dar significado a las variables componentes
principales recién creadas. Si las interpretaciones son obvias, entonces siga adelante y úselas.
Esos pocos casos en donde a componentes principales se les puede dar una interpretación puede
considerarse como un premio, porque lo común es no esperar que se puedan interpretar las
variables componentes principales. [15]

F. SUPERFICIE DE RESPUESTA

1. Generalidades

En la práctica, el experimentador desea extender los objetivos de determinar la característica de
calidad y los niveles de los factores que optimicen tal característica en la región donde se haya
experimentado, a otras regiones de experimentación y se pregunta ¿qué factores influyen en la
característica general?, ¿cuál es la región óptima?, ¿cómo se relacionan los factores con la
respuesta en esta región? La metodología de superficies de respuesta permite encontrar la región
de interés y contestar a las anteriores preguntas.

2. Necesidad de los modelos

Uno de los deseos más fuertes que a lo largo de la historia ha mostrado la humanidad es el de
modelar la realidad, es decir, el de encontrar funciones matemáticas que expliquen los distintos
fenómenos de índole física, social, económica o biológica.

Este deseo de encontrar modelos responde principalmente a las dos aplicaciones más inmediatas
que se pueden derivarde ellos:
• Capacidad de predecir o explicar el valor de cierta respuesta Y una vez conocidos los
valores de ciertas variables .,...,, 21 KXXX
• El hecho de poder seleccionar aquellas condiciones de las variables .,...,, 21 KXXX que
permitan optimizar la respuesta Y .
• Además el conocer el modelo ayuda también a determinar aquellas condiciones de las
variables .,...,, 21 KXXX en que la respuesta sea más robusta o insensible al efecto de
variaciones en factores que no son controlados por el experimentador (tales factores se
denominan variables de ruido).
En la práctica es muy difícil resolver el problema de encontrar un modelo único. En su lugar, se
intenta aproximar tales relaciones de formas locales a través de funciones polinómicas de primer y
segundo orden. Además, el análisis de estas aproximaciones permitirá, localizar la región óptima
de una manera secuencial.
Neevia docConverter 5.1
21
3. Grado de conocimiento y objetivos

Los modelos pueden ser, atendiendo al método que se siga para obtenerlos, mecanicistas o
empíricos. En los primeros se utilizan leyes físicas especializadas en el dominio concreto para
seleccionar la estructura del modelo, y en general, es necesario estimar los parámetros que en
ellos aparecen a través de la recolección de los datos.

Cuando no se tiene conocimiento teórico de la estructura del modelo, se hace una aproximación
de manera empírica con los datos obtenidos en la experimentación. Tal experimentación se ha de
realizar de manera secuencial y con una metodología que dependerá del grado de conocimiento
que se tenga del problema. Este conocimiento ayudará en la selección de un modelo que se
ajuste a la respuesta y en la selección del diseño a realizar para poder estimar todos los
parámetros de interés.

En una primera etapa experimental, los métodos que se denominan metodología de superficie de
respuesta (MSR) utilizan la experimentación para lograr principalmente tres objetivos:
Encontrar un modelo capaz de explicar la relación existente entre cierta respuesta
seleccionada y determinados factores en una región de interés.
Localizar las condiciones óptimas de los factores de experimentación para la respuesta
(las condiciones que hagan máxima la respuesta, por ejemplo).
Realizar un estudio geométrico de la relación existente entre la respuesta y los factores en
la región óptima, por medio del análisis canónico del modelo estimado.
El logro de tales objetivos está ligado a las características que definen la MSR. En primer lugar, es
una metodología secuencial: la aproximación a la región de interés se realiza de forma iterativa
utilizando diseños cada vez más complejos dependiendo de la información que se obtiene en cada
etapa.

En segundo lugar, el método de trabajo que se utiliza es el descrito en el ciclo PCA (análisis de
componentes principales), que consiste esencialmente en plantear un modelo tentativo,
seleccionar un diseño que permita estimar los parámetros de interés, analizar los datos y verificar
si el modelo planteado es adecuado.

4. Estrategias de la metodología de superficie de respuesta

La metodología de superficie de respuesta contiene toda una serie de estrategias que el
investigador puede seguir para estimar el modelo ),( θξη f= , que relaciona las respuestas de
interés Y con los factores ξ lo más adecuadamente posible, con el mínimo coste de
experimentación. El investigador actúa como un detective buscando las pistas que le lleven a la
resolución del problema. Tales pistas son obtenidas a través de la información que proporciona la
experimentación secuencial.

donde ( )Kξξξξ ,...,, 21= es una serie de variables de salida, medibles, por ejemplo, la
concentración inicial de reactivos, temperaturas y presiones, y donde ( )pθθθθ ,...,, 21= representa
a una serie de parámetros físicos medibles como energías de activación, coeficientes de difusión y
conductividad térmica. Entonces podemos decir que la función ),( θξf representa un modelo
mecanicista.

Al comienzo de la experimentación se puede conocer poco del problema y en tal caso es
recomendable suponer que la región donde se comienza a experimentar está lejos de la región
óptima. Si es así, una aproximación suficientemente buena a ),( θξf es la que se obtiene con
modelos lineales de primer orden estimados a partir de diseños factoriales fraccionales o a dos
niveles.
Neevia docConverter 5.1
22
Por el contrario, cuando se tiene un conocimiento más preciso sobre la relación existente, o se
está próximo a la región óptima, el experimentador se aproxima a la relación ),( θξf mediante
modelos de segundo orden estimados a partir de diseños más complejos (cuadráticos).

Por lo tanto, distinguiremos entre dos tipos de estrategias:
Estrategias de primer orden:
Diseño 2 K-P
Estimación por mínimos cuadrados
Modelos de primer orden: εβββ +++= 22110 XXY
Mapas de contornos o curvas de nivel
Camino de máximo ascenso o steep ascent
Estrategias de segundo orden:
Diseño central compuesto
Estimación por mínimos cuadrados
Modelos de segundo orden εββββββ ++++++= 2112
2
222
2
11122110 XXXXXXY
Mapas de contornos y análisis canónico

En la primera etapa, a la vez que se emplean los diseños2K-P se pueden llevar a cabo otras
acciones propias de los comienzos de la experimentación, tales como borrar o añadir factores en
el diseño, cambiar la escala de variación de los factores, replicar para una mejor estimación del
error experimental y añadir fracciones para romper las confusiones.

Por otra parte, en cada momento existen métodos de verificación que permitirán comprobar si el
modelo lineal de primer orden es suficientemente bueno, o detectar una evidencia de curvatura en
la respuesta. Este hecho implicará la selección de modelos de segundo orden y, por tanto,
estrategias de segundo orden.

A menudo la necesidad del conocimiento físico del sistema es escaso ó incompleto y
consecuentemente ningún modelo mecanicista es disponible. En estas circunstancias se supone
de manera más realista que la relación entre η y ξ podría ser lineal o lisa y en consecuencia esta
función ),( θξf localmente aproximada (por encima de los límites de las variables experimentales
ξ ) por una función de interpolación ),( βXg , como un polinomio, en ésta función la expresión
β ’s son los coeficientes de los modelos que se obtienen por modelos lineales.

En cuanto al modelo matemático a utilizar para aproximar ),( θξf , se aplicarán funciones
polinómicas ),( βXg de primer o de segundo grado, las cuales pueden ser interpretadas como
las resultantes de hacer el desarrollo de Taylor de ),( θξf alrededor de (0,0), centro de la
experimentación en unidades codificadas, cortando el desarrollo en los términos de primer o de
segundo grado respectivamente.

Estos polinomios tienen la siguiente estructura para el caso particular de dos factores:
εββββ +++= 22110),( XXxg (30)
para los modelos de primer orden, y
εβββββββ ++++++= 2222
2
111211222110),( xxxxxxxg (31)
para los modelos de segundo orden.

En ambos, ε representa el efecto de aquellos factores que no se han tenido en cuenta en la
experimentación o el efecto de aquellos presentes en el estudio, pero cuyo efecto no se ha podido
recoger adecuadamente con el modelo seleccionado.
Neevia docConverter 5.1
23
Los modelos de segundo orden necesitan más experimentos para ser estimados y sólo se recurre
a ellos cuando existe evidencia de curvatura en el modelo y, por lo tanto, la aproximación lineal no
es adecuada. Para poder detectar la curvatura, a los diseños de primer orden 2K-P se les añaden
puntos centrales.

Aquellas regiones de experimentación en las que la superficie no presenta evidencia de curvatura
son interpretadas como regiones lejanas a la zona óptima y, una vez más, existe una estrategia
consistente en acercarse lo más rápidamente a esta zona a lo largo de la dirección de máximo
cambio de la respuesta.
Por último,una vez detectada la cercanía de la región óptima se pasa a la utilización de
estrategias de segundo orden. Una de ellas consiste en la selección de un diseño de segundo
orden apropiado que permita una buena estimación de un modelo cuadrático.

Los diseños más utilizados son los “Diseños centrales compuestos”, obtenidos al añadir un
“Diseño estrella” a un diseño factorial. Las características de estos diseños en cuanto a los niveles
en que se han de colocar los factores son las propiedades de las estimaciones obtenidas.

Una vez obtenida una aproximación cuadrática que se ajuste a la superficie es conveniente
realizar un análisis canónico del modelo resultante para interpretar de manera sencilla la
geometría de la superficie estimada en la región de experimentación y obtener información que
puede ser útil para sugerir posibles explicaciones teóricas del problema.

5. Aproximación lineal a las condiciones óptimas

El presente ejemplo trata de un proceso de fundición de tapas de aluminio por inyección, en el que
se intenta minimizar el índice de porosidad encontrado en ellas. Tal índice se obtiene mediante un
método estándar a través de rayos-X. Al parecer la temperatura del aluminio líquido y la presión
con que ésta se inyecta en el molde afectan al índice de porosidad de la placa resultante. Los
objetivos de la experimentación son encontrar las condiciones óptimas de trabajo en las cuales la
porosidad sea mínima, y estimar la relación existente entre el índice de porosidad con la
temperatura y la presión, en una región próxima a las condiciones óptimas.

Los conocimientos que sobre el tema tienen los técnicos del proceso recomiendan no trabajar con
temperaturas externas al intervalo, 600-900°C ni con presiones por debajo de 700 Kg/cm2. Tales
restricciones definen la región de operabilidad.

En primer lugar se plantea la hipótesis sobre el modelo que mejor aproxima la respuesta en la
zona de experimentación de partida. Puesto que está en los comienzos de la experimentación y
se conoce poco, se asume que las condiciones óptimas no tienen por qué estar próximas y que,
por lo tanto, la superficie de respuesta puede ser aproximada mediante un modelo de primer
orden.
Para estimar tal modelo se selecciona un diseño 22 con dos puntos centrales, como se muestra en
el cuadro No. 9. Los puntos centrales permiten comprobar mediante un test de curvatura, si en el
modelo de primer orden es adecuado o, por el contrario, se necesita un modelo de segundo
orden.
Cuadro 9. Resultados de experimento con llantas de aluminio. Entre paréntesis figuran las
unidades originales de los factores.
Temperatura (°C) Presión (Kg/cm2) Índice de porosidad
-1 (640) -1 (950) 6.09
+1 (660) -1 (950) 5.53
-1 (640) +1 (1000) 6.78
+1 (660) +1 (1000) 6.16
0 (650) 0 (975) 5.93
0 (650) 0 (975) 6.12
Neevia docConverter 5.1
24
Además, el hecho de tener réplicas (en este caso para 650°C y 975 Kg/cm2) permite obtener una
estimación de 2σ independientemente del modelo seleccionado. Tal estimación puede ser
comparada con la estimación obtenida a través de los residuos del modelo mediante un test de
comparación de varianzas. En el caso de que ambas estimaciones difieran significativamente,
tendremos la prueba de que el modelo propuesto no se ajusta bien a la superficie y tendremos
que pensar en transformar los datos o en aproximaciones cuadráticas.

El diseño anterior permite estimar los parámetros de un modelo que puede ser expresado en
forma matricial como:
eXY += β (32)

donde Y corresponde al vector de observaciones, X es la matriz de diseño, β es el vector de
los parámetros del modelo y la ε es el vector de errores. Para el ejemplo que nos ocupa:
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎣
⎡
=
12.6
93.5
16.6
78.6
53.5
09.6
Y ,
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎣
⎡
−
−
−−
=
001
001
111
111
111
111
X ,
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎣
⎡
=
2
1
0
β
β
β
β (33)

La estimación mínimo cuadrática de los coeficientes se puede realizar empleando las técnicas de
regresión lineal, lo cual equivale a resolver la ecuación siguiente:
YXXXb tt 1)(ˆ −== β Varianza de (b) = 12 )(ˆ −XX tσ (34)
con
1
1/ 6 1/ 6 1/ 6 1/ 6 1/ 6 1/ 6
( ) 1/ 4 1/ 4 1/ 4 1/ 4 0 0
1/ 4 1/ 4 1/ 4 1/ 4 0 0
t tX X X−
⎡ ⎤
⎢ ⎥= − −⎢ ⎥
⎢ ⎥− −⎣ ⎦

Obteniéndose los resultados
6.10
0.29
0.33
b
⎡ ⎤
⎢ ⎥= −⎢ ⎥
⎢ ⎥⎣ ⎦
Desv. Estándar de (b) =
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎣
⎡
055.0
055.0
045.0

y, por lo tanto, todos los coeficientes significativos.

En esta etapa se ha de comprobar si existe alguna prueba de que el modelo lineal estimado no
sea una buena aproximación a la respuesta y se necesiten modelos más complejos, es decir,
modelos cuadráticos.

Ello equivale a plantear la siguiente hipótesis:
H0 = modelo esperado: εβββ +++= 22110 xxy
H1 = modelo no deseado: εββββββ ++++++= 2222
2
111211222110 xxxxxxy
o en forma matricial
H0 = modelo esperado: εβ += XY
H1 = modelo no deseado : εγβ ++= ZXY (35)
donde Z corresponde a la matriz de términos cuadráticos y γ al vector de sus coeficientes.
Neevia docConverter 5.1
25
El contraste que se debe utilizar para tomar una decisión está relacionado con las consecuencias
que se derivan de aceptar como mejor aproximación la que da un modelo lineal (H0), cuando en
realidad la mejor es la de un modelo cuadrático (H1).

En efecto, si se estiman los parámetros del modelo YXXXb tt 1)(ˆ −== β Varianza de (b)
12 )(ˆ −XX tσ , suponiendo que H0 es cierta, cuando en realidad lo es H1 se obtiene
[ ] [ ]1 1 1 1( ´ ) ´ ( ) ( ) ( ) ( )t t t t t tE b E X X X Y X X X E Y X X X X Z X X X Zβ γ β γ− − − −⎡ ⎤= = = + = +⎣ ⎦

es decir,
[ ] γβ AbE +=

con 1( )t tA X X X Z−= denominada matriz de alias o de confusiones.

Los diseños de primer orden no pueden estimar por separado 11β y 22β , pero sí su efecto
conjunto 2211 ββ + . La estimación de tal efecto por mínimos cuadrados es equivalente a comparar
los promedios de la porosidad en el centro de la superficie con el promedio en las esquinas del
cubo.

Luego el test de las hipótesis planteadas en la ecuación 35 sobre la necesidad de modelos de
segundo orden es equivalente al test de hipótesis:
⎭
⎬
⎫
⎩
⎨
⎧
≠−
=−
0:
0:
1
0
centrocubo
centrocubo
YYH
YYH

sobre la existencia de curvatura, que se puede comprobar comparando el valor del estadístico
centrocubo
centrocubo
nsns
YY
// 22 +
−
(36)
con el valor de la t de Student con v grados de libertad, siendo v los grados de libertad con lo
que se ha estimado ,.σ a partir de s .

En el ejemplo, al aplicar la ecuación 36 se obtiene:

21.1
2/012.04/012.0
025.614.6
=
+
−

Con 2s =0.012 estimada con 3 grados de libertad. Por lo tanto al obtener un valor no significativo,
no encontramos evidencia de curvatura. En consecuencia no se puede rechazar H0 en las
hipótesis planteadas en la ecuación 35, y concluimos que el modelo lineal realiza una
aproximación suficientemente buena de la respuesta de interés.

En consecuencia se intuye que se está lejos de la región óptima y por lo tanto, la siguiente
estrategia será la de alejarse lo más rápidamente posible en la dirección del máximo
decrecimiento (ya que se desea tener llantas con mínimo índice de porosidad) hacia las
condiciones óptimas de experimentación, y allí volver a plantear un diseño de primer orden con
puntos centrales, o directamente uno de segundo si existe evidencia de curvatura.

6. Aproximación cuadrática. Diseños compuestos centrales

En estos momentos de la experimentación se ha de añadir un segundo diseño al realizado
anteriormente, si se quiere estimar un modelo cuadrático con la precisión suficiente.
Neevia docConverter 5.1
26
El hecho de realizar la experimentación en dos tiempos puede provocar un efecto bloque, que
puede afectar a la estimación de los efectos si las condiciones experimentales del segundo diseño
se han seleccionado adecuadamente.

Para que esto no ocurra,es decir, para que la estimación de los factores sea independiente del
hecho de haber experimentado en dos bloques, el efecto bloque ha de ser ortogonal a efectos de
las demás variables.

Si además se desea que las estimaciones de los factores sean independientes entre sí, los dos
diseños han de ser ortogonales en sus factores y ortogonales con los bloques.
El primer diseño
1 1 1
1 1 1
1 1 1
1 1 1
1 0 0
1 0 0
1 0 0
X
− −⎡ ⎤
⎢ ⎥−⎢ ⎥
⎢ ⎥−
⎢ ⎥= ⎢ ⎥
⎢ ⎥
⎢ ⎥
⎢ ⎥
⎢ ⎥⎣ ⎦

Ya cumple la condición de ortogonalidad, basta con multiplicar las columnas del diseño entre sí y
observar que todos los productos se anulan.
El segundo diseño, denominado diseño estrella contiene los experimentos dispuestos de la
siguiente forma
1 0
1 0
1 0
1 0
1 0 0
1 0 0
1 ... ...
X
α
α
α
α
−⎡ ⎤
⎢ ⎥
⎢ ⎥
⎢ ⎥−
⎢ ⎥= ⎢ ⎥
⎢ ⎥
⎢ ⎥
⎢ ⎥
⎢ ⎥⎣ ⎦

donde α y el número de puntos centrales en0 se han de determinar según los criterios que se
explican a continuación.

El resultado de añadir un diseño factorial y un diseño estrella se conoce como diseño central
compuesto o central composite design. La forma de tal diseño para tres factores se puede ver la
siguiente figura.

Figura No. 1 Diseño compuesto central formado al añadir un “diseño estrella” a un diseño 2k-p
Neevia docConverter 5.1
27
La selección de α y en0 está basada en dos criterios: El criterio de ortogonalidad mencionado
anteriormente y el criterio de rotabilidad. Se dice que un diseño es rotable si la precisión en la
estimación de la superficie es igual para todos los puntos equidistantes del centro del diseño,
independientemente de la dirección en que se encuentren; es decir, se puede girar la superficie
sobre su centro y la precisión en la estimación es la misma.

La rotabilidad en diseños centrales compuestos solo depende del valor de α y del número de
experimentos que se hayan realizado en el cubo sin contar los puntos centrales, ,cN a través de
la fórmula,
4
cN=α (37)

La condición de ortogonalidad en cambio, implica que las estimaciones de los parámetros en el
modelo εββββββ ++++++= 2222
2
111211222110 xxxxxxy son independientes entre sí, e
independientes a su vez del efecto bloque. Para que esto ocurra se han de cumplir dos
condiciones:

1. Cada bloque debe contener un diseño ortogonal.
2. La fracción del total de la suma de cuadrados de cada variable ix en cada bloque debe ser
igual a la fracción del número total de observaciones distribuidas en cada bloque. Es decir,
para cada variable i y sobre cada bloque b se ha de cumplir:
∑
∑
=
=
N
ij
bij
n
ij
bij
x
x
b
2
2

i = indicador de variable i
j = indicador de la observación j de la variable i en el bloque b
bn = número de observaciones en el bloque b
N = número total de observaciones.

Llamado cn0 y en0 al número de puntos centrales en el cubo y en el diseño estrella
respectivamente, y k al número de factores en el diseño, al aplicar la condición de ortogonalidad
al caso particular de los diseños compuestos centrales se obtiene la fórmula simplificada
siguiente. [17]
)(2
)2(
0cc
oec
nN
nkN
+
+
=α (38)

donde cN el número de puntos en el primer diseño exceptuando los puntos en el centro ( cN será
de la forma 2k ó 2k-p). El cuadro No. 10 presenta los resultados de un tercer experimento del índice
de porosidad en llantas de aluminio.
Neevia docConverter 5.1
28
Cuadro 10. Resultados del experimento 3 en el ejemplo de las llantas de aluminio.

Si se desea añadir un nuevo diseño ortogonal y tal que el conjunto sea rotable, basta con sustituir
los valores de las constantes: 4,2 == cNk y c
n0 =3 en las expresiones (37 y 38), se obtiene:
)34(2
)4(4 0
+
+
= e
nα y 244 ==α
para la condición de ortogonalidad y rotabilidad respectivamente. Por lo tanto, si se han de cumplir
las dos condiciones, el número de puntos centrales que ha de contener el diseño estrella será de
en0 =3.

Temperatura (°C) Presión (Kg/cm2) Índice de porosidad
-1 (690) -1 (820) 2.20
+1 (710) -1 (820) 3.71
-1 (690) +1 (870) 2.86
+1 (710) +1 (8700) 3.49
0 (700) 0 (845) 2.53
0 (700) 0 (845) 2.30
0 (700) 0 (845) 2.54
Neevia docConverter 5.1
29

II. PLANTEAMIENTO DEL PROBLEMA

La aplicación de las herramientas estadísticas es muy importante en la toma de decisiones, por lo
cual es de gran importancia tener un dominio más extenso en el manejo y conocimiento de estas
técnicas.

Uno de los problemas más relevantes para la aplicación del Diseño Estadístico de Experimentos
en la industria es que la enorme mayoría de los profesionales no conocen sus fundamentos y
consecuentemente tampoco su aplicación. Esto, en parte, ha dejado de ser un problema con el
acceso generalizado de los paquetes de cómputo, los cuales proporcionan herramientas
altamente eficientes en el tema y permiten dedicarse prácticamente con exclusividad al análisis de
resultados.

En la industria farmacéutica se realizan pruebas en las cuales comúnmente sólo se determina el
efecto directo de una variable, y la información de los datos puede ampliarse dando un tratamiento
estadístico adecuado a los datos obtenidos para mejorar los procesos de fabricación.

En la actualidad no se cuenta con una metodología específica para realizar un análisis estadístico
para evaluar totalmente los procesos farmacéuticos en formas farmacéuticas sólidas. De igual
manera no se cuenta con un procedimiento específico para el manejo, aplicación, tratamiento e
inserción de los datos en programas estadísticos.

Por otra parte, la interpretación de los resultados obtenidos empleando paquetes estadísticos se
torna complejo, debido a la falta de conocimientos respecto al tema, aspecto que se pretende
ayudar a superar con este trabajo.

Neevia docConverter 5.1
30

III. OBJETIVOS

Objetivo General

Generar y desarrollar una propuesta metodológica para seleccionar variables de
respuesta y factores de estudio en procesos farmacéuticos.

Objetivos particulares

Analizar los fundamentos del análisis multivariado.

Analizar los fundamentos de la metodología de superficie de respuesta.

Analizar los fundamentos y criterios de aplicación del diseño Compuesto Central.

Generar una propuesta de aplicación e interpretación del uso conjunto de todas las
herramientas analizadas en los objetivos anteriores.

Neevia docConverter 5.1
31
IV. METODOLOGÍA
Material y método

1. Definir el tema.
2. Búsqueda y selección de información.
3. Análisis y síntesis de información de cada técnica.
4. Selección y digitalización de datos.
5. Uso de software de análisis estadístico STATGRAPHICS.
6. Interpretación de resultados.
7. Elaboración de guía de usuario para realizar este tipo de análisis.
8. Redacción de la tesina.

La búsqueda de información se realizó en las siguientes fuentes.

Artículos con enfoque estadístico aplicado a la industria farmacéutica: La búsqueda
de la información se realizó en artículos de diseños estadísticos aplicados a la
industria farmacéutica, en revistas enfocadas al área farmacéutica y en páginas de
Internet.
Libros de aplicación al tema: La información se buscó en libros que incluyeran los
temas relacionados con las aplicaciones estadísticas del diseño propuesto.
Páginas de Internet relacionados con los temas de diseño estadístico: La búsqueda
en Internet se realizó introduciendo en la barra de búsqueda el nombre de cada
uno de los temas estadísticos de aplicación para el presente trabajo.

De manera sintetizada los pasos a seguir para la elaboración del presente trabajo se
describen en el diagrama de flujo que se presenta a continuación.

Neevia docConverter 5.1
32
V. DIAGRAMA DE FLUJO

Selección del tema