Logo Studenta

Comparto 'DIAPOSITIVA DE REGRESIÒN LINEAL (1)' con usted

¡Este material tiene más páginas!

Vista previa del material en texto

CORRELACIÒN Y REGRESIÒN LINEAL SIMPLE
KENNEDY HURTADO IBARRA
Barranquilla – Colombia.
RELACIÒN LINEAL ENTRE DOS VARIABLES
Una relación lineal entre dos variables es aquella que
puede representarse con mejor exactitud mediante
una línea recta.
No toda relación entre dos variables es lineal.
Algunas se representan con mejor exactitud usando
una curva. En este caso, se dice que la relación entre
las variables es curvilínea.
POSIBLES REALACION ENTRE VARIABLES
• El peso de un adolecente, con su estatura.
• Los gastos, con el ingreso disponible en un mes.
• Estatura de los niños, con su edad.
• Demanda de algún articulo, con los gastos de
propaganda.
• Cantidad de cigarrillos al día, y la frecuencia
cardiaca.
DIAGRAMA DE DISPERSIÒN 
Para comenzar a estudiar la relación entre dos
variables cuantitativas se utiliza el diagrama de
dispersión, el cual es una grafica de parejas de
valores de las variables involucradas.
Una relación entre dos variables puede ser: Positiva
o negativa.
Relación lineal positiva.
Existe una relación lineal positiva entre las variables X y Y si al
aumentar los valores de X los valores de Y tienden a aumentar.
Relación lineal negativa.
Si existe una relación lineal negativa entre las variables X y Y,
entonces al aumentar los valores de X los valores de Y tienden
disminuir y viceversa.
Relación Imperfecta.
Una relación lineal imperfecta es aquella en la cual existe una
relación positiva negativa, pero no todos los puntos caen sobre
la recta.
ANALISIS DE CORRELACIÒN LINEAL SIMPLE.
Si entre dos variables cuantitativas existen una relación lineal,
el análisis de correlación lineal simple se usa para determinar la
dirección y la magnitud de dicha dirección.
La dirección de la relación se refiere a si esta es positiva o
negativa.
La magnitud de la relación o grado de relación entre las
variables se refiere a la fuerza de la relaciòn que existe entre
las variables. Se trata de expresar cuantitativamente el grado
de relación que existe entre las variables de estudio.
COEFICIENTE DE CORRELACIÒN
Expresa de manera cuantitativa el grado y la
dirección de la relación entre dos variables.
COEFICIENTE DE CORRELACIÒN r DE PEARSON.
Se usa cuando los datos están medidos en una escala
de intervalo de razón.
COEFICIENTE DE CORRELACIÒN rho DE SPEARMAN.
Se utiliza cuando una o ambas variables están
medidas en la escala ordinal, en la escala de
intervalo o la de razón.
COEFICIENTE DE CORRELACIÒN
r =
𝑺𝒙𝒚
𝑺𝒙𝒙𝑺𝒚𝒚
, donde:
𝑺𝒙𝒚 =σ𝑥𝑖𝑦𝑖 -
σ 𝑥𝑖 σ 𝑦𝑖
𝑛
𝑺𝒙𝒙 = σ𝑥𝑖
2
-
σ 𝑥𝑖
2
𝑛
𝑺𝒚𝒚 = σ𝑦𝑖
2 -
σ 𝑦𝑖
2
𝑛
Tanto 𝑺𝒙𝒙 como 𝑺𝒚𝒚 no pueden ser negativas, 𝑺𝒙𝒚 si puede ser positiva
o negativa.
CARACTERISTICAS DEL COEFICIENTE DE 
CORRELACIÒN
El signo del coeficiente de correlación indica si la relación
entre las variables es positiva o negativa.
Si el coeficiente es positivo, entonces la relación es
positiva. En caso contrario, la relación es negativa.
El valor numérico del coeficiente de correlación varia
entre -1 y 1 y ésta describe la magnitud de la relación
entre las variables.
Si r = -1 entonces existe una relación perfecta negativa
entre las variables.
Si r = 0 no existe relación entre las variables.
Si r= 1 entonces existe una relación lineal perfecta
positiva entre las variables.
REGRESIÒN LINEAL SIMPLE
Con frecuencia, nos encontramos en economía con modelos en los que
el comportamiento de una variable, Y, se puede explicar a través de una
variable X; lo que representamos mediante
y= 𝒇(𝒙)
Si consideramos que la relación f, que liga Y con X, es lineal, entonces: se
puede escribir así:
ෝ𝒚= ෠β𝟎 + ෠β𝟏𝒙𝒊 + ො𝒆𝒊
Donde:
ෝ𝒚 : Es la variable respuesta o variable de interés (variable
dependiente)
𝒙𝒊: variable predictora o independiente.
෠β𝟎: es el intercepto de la línea de regresión con el eje y.
෠β𝟏: es la pendiente de la línea de regresión y.
ො𝒆𝒊: Componente de error aleatorio.
ESTIMACIÒN DE LOS PARÀMETROS ෠β𝟎 y ෠β𝟏
෠β𝟏 =
σ 𝒙𝒊𝒚𝒊 − 𝒏ഥ𝒙ഥ𝒚
σ 𝒙𝒊
𝟐 − 𝒏ഥ𝒙𝟐
=
𝑺𝒙𝒚
𝑺𝒙𝒙
y ෠β𝟎 = ഥ𝒚 - ෠β𝟏ഥ𝒙
Ejemplo:
Un supermercado ha decidido ampliar el negocio y decide estudiar de
forma exhaustiva el número de cajas registradoras que va a instalar,
para evitar grandes colas. Para ello, se obtuvieron los siguientes datos
procedentes de otros establecimientos similares acerca del número de
cajas registradoras (variable X) y del tiempo medio de espera (variable Y)
Nª de cajas 
registradoras 
(X)
Tiempo de 
espera en 
minutos (y)
XY X2 ො𝑦 e 𝑒2
10 59 590 100 57,95 1,05 1,1025
12 51 612 144 50,24 0,76 0,5776
14 42 588 196 42,52 -0,52 0,2704
16 32 512 256 34,81 -2,81 7,8961
18 26 468 324 27.09 -1,09 1,1881
20 22 440 400 19,38 2,62 6,8644
σ𝑥 = 90 σ𝑦 = 232 σ𝑥𝑖𝑦𝑖= 3210 σ𝑥
2 =1420 σ𝑒 = 0 σ𝑒2 =17,899
Interpretación de los coeficientes de Regresión
෠β𝟏 =
σ 𝒙𝒊𝒚𝒊 − 𝒏ഥ𝒙ഥ𝒚
σ 𝒙𝒊
𝟐 − 𝒏ഥ𝒙𝟐
=
𝟑𝟐𝟏𝟎 −𝟑𝟒𝟖𝟎
𝟏𝟒𝟐𝟎−𝟏𝟑𝟓𝟎
= -3,857143
መ𝛽0= ത𝑦 − መ𝛽1 ҧ𝑥 = 38,6666-(3,857143)15 = 96,523811
La ecuación de regresión está dada por:
ො𝑦 = ෠β𝟎 + ෠β𝟏𝒙𝒊 = 96,523811 - 3,857143𝑥𝑖
Si el numero de cajas registradora es igual a cero, se espera que el
tiempo para que atiendan un cliente es de 96,52 minutos.
Si se aumenta el numero de cajas en una unidad se espera que el
tiempo de espera del cliente disminuya 3,87 minuto.
ANÀLISIS DE VARIANZA PARA LA REGRESIÒN LINEAL
Se utiliza el método de mínimos cuadrados.
Suma de cuadrado total SCT = 𝑆𝑦𝑦 = σ 𝑦𝑖
2 -
σ 𝑦𝑖
2
𝑛
= 10030 -
𝟐𝟑𝟐𝟐
𝟔
= 1059,33
Suma de cuadrado del error SCE=σ𝑦𝑖
2 - 𝛽0σ𝑦𝑖 -𝛽1σ𝑥𝑖 𝑦𝑖 =10030-96,523811(232)-(-3,857143)3210= 17,90
Suma de cuadrado de Regresión SCR = SCT – SCE = 1059,33 - 17,90 = 1041,43
ҧ𝑥 = 15 ෠β𝟎 = 96,523811
σ𝑥 = 90 ෠β𝟏 = -3,857143
σ𝑥2 =1420
σ𝑥𝑖 𝑦𝑖 = 3210
σ𝑦𝑖 = 232
σ𝑦𝑖
2 = 10030
ത𝑦= 38,667
GRADOS DE LIBERTAD
Grado de libertad de regresión gl(SCR) = 1
Grado de libertad del error gl(SCE) = n – 2 = 4
Grado de libertad total gl(SCT) = n – 1 = 5
SUMAS DE CUADRADOS MEDIOS
Es el cociente entre las sumas de cuadrados y los grados de libertad.
Cuadrado medio de regresión CMR =
𝑺𝑪𝑹
𝒈𝒍(𝑺𝑪𝑹)
=
𝟏𝟎𝟒𝟏,𝟒𝟑
𝟏
= 1041,43
Cuadrado medio de error CME=
𝑆𝐶𝐸
𝑔𝑙(𝑆𝐶𝐸)
=
17,90
4
= 4,48
Cuadrado medio total CMT =
𝑆𝐶𝑇
𝑔𝑙(𝑆𝐶𝑇)
=
1059,33
5
= 211,87
ESTADISTICO DE FISHER.
Es el cociente entre el cuadrado medio de regresión y el cuadrado medio del error.
F =
𝑪𝑴𝑹
𝑪𝑴𝑬
=
𝟏𝟎𝟒𝟏,𝟒𝟑
𝟒,𝟒𝟖
= 232,5
PRUEBA DE HIPÒTESIS
𝐻0 = El modelo no es significativo
𝐻1 =El modelo es significativo
Si F≥𝑓α
2
; 𝑣1𝑣2
se rechaza la hipótesis nula; donde,𝑣1= 1 y 𝑣2 = 4
Para 95% de confiabilidad
α
2
= 0,025
Tabla de Fisher = 7,71 ; como F≥ 𝑓α
2
; 𝑣1𝑣2
; se rechaza la hipótesis nula. Entonces el
modelo es significativo.
TABLA DE ANÀLISIS DE VARIANZA
Fuente de 
variación
Grados de 
libertad
Suma de 
cuadrados
Sumas de 
cuadrados 
medios 
Estadístico de 
Fisher
Regresión 1 1041,43 1041,43 F = 
1041,43
4,48
= 232,5
Error 4 17,90 4,48
Total 5 1059,33 1058,9
Intervalos de confianza para los parámetros de 
regresión. 
El intervalo de confianza del 100(1- α)% para la
pendiente ෠β𝟏 se define:
෠β𝟏 - 𝒕α
𝟐
;𝒏−𝟐
𝒔
𝑺𝒙𝒙
≤ β ≤ ෠β𝟏 + 𝒕α
𝟐
;𝒏−𝟐
𝒔
𝑺𝒙𝒙
Para el intersecto: - ≤ β ≤ +
REGRESION LINEAL MULTIPLE
DOCENTE:
Kennedy Hurtado Ibarra
Matemática
Especialista en Estadística Aplicada
Magister en Estadística Aplicada
Doctor en Ciencias de la Educación
Introducción.
Regresión múltiple.
Gráficos de dispersión múltiples.
Estimación.
Diagnósticos.
Previsiones.
Multicolinealidad.
Variables ficticias (dummy).
En un modelo de regresión múltiple, queremos conocer el valor
de una variable respuesta a partir de más de una variable
explicativa:
Este modelo puede ser expresado como:
𝑌𝑡 = 𝛽0 + 𝛽1𝑋1 + 𝛽2𝑋2 +……………… +𝛽𝑝𝑋𝑝 + 𝐸.
En esta expresión, cada uno de los coeficientes beta representa
la influencia individual que cada una de lasX tiene sobre Y.
Ventajas:
Las hipótesis del modelo son las mismas que en regresión
simple.
Los contrastes, intervalos, diagnosis… también.
Pequeños inconvenientes:
La visualización de los gráficos es un poco más
complicada.
Necesitamos redefinir el coeficiente 𝑅2
REGRESION MULTIPLE 𝑅2 CORREGIDO
El coeficiente 𝑅2 tiene el inconveniente de que se
incrementa al aumentar el número de variables en el
modelo (ya sean significativas o no). Para paliar este
efecto, corregimos el coeficiente para que tenga en cuenta
este efecto, por lo que en regresión múltiple se utiliza el
coeficiente𝑅2 corregido ( o ajustado).
Ejemplo:
Supongamos que obtenemos los siguientes datos en el estudio
de la relación citada sobre la inteligencia y la motivación como
predictores de la calificación final obtenida en el bachillerato en
una muestra de 12 sujetos:
Sujeto CalificacionesMotivacion Notas
1 85 10 4
2 100 20 5
3 95 35 8
4 80 30 7
5 180 45 10
6 90 25 6
7 110 10 6
8 120 15 7
9 80 10 4
10 95 15 4
11 160 15 6
12 150 45 9
Variable dependiente: Notas
Variables independientes:
• Inteligencia
• Motivación
El objetivo, es describir las variables que inciden en la notas
Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE 1,73747 0,884817 1,96365 0,0812
Inteligencia 0,0187631 0,00871416 2,15318 0,0597
Motivacion 0,108778 0,0224429 4,84688 0,0009
R-cuadrada = 84,9337 porciento
R-cuadrado (ajustado para g.l.) = 81,5856 porciento
Error estándar del est. = 0,845137
Error absoluto medio = 0,610172
Estadístico Durbin-Watson = 1,31244 (P=0,0743)
Autocorrelación de residuos en retraso 1 = 0,314513
La salida muestra los resultados de ajustar un modelo de regresión lineal
múltiple para describir la relación entre Notas y 2 variables
independientes. La ecuación del modelo ajustado es
Notas = 1,73747 + 0,0187631*Inteligencia + 0,108778*Motivacion
Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una
relación estadísticamente significativa entre las variables con un nivel de
confianza del 95,0%.
Análisis de Varianza
Fuente Suma de CuadradosGl Cuadrado MedioRazón-F Valor-P
Modelo 36,2384 2 18,1192 25,37 0,0002
Residuo 6,4283 9 0,714256
El estadístico R-Cuadrada indica que el modelo así ajustado explica 84,9337% de la
variabilidad en Notas. El estadístico R-Cuadrada ajustada, que es más apropiada
para comparar modelos con diferente número de variables independientes, es
81,5856%. El error estándar del estimado muestra que la desviación estándar de los
residuos es 0,845137. Este valor puede usarse para construir límites para nuevas
observaciones, seleccionando la opción de Reportes del menú de texto. El error
absoluto medio (MAE) de 0,610172 es el valor promedio de los residuos. El
estadístico de Durbin-Watson (DW) examina los residuos para determinar si hay
alguna correlación significativa basada en el orden en el que se presentan en el
archivo de datos. Puesto que el valor-P es mayor que 0,05, no hay indicación de una
autocorrelación serial en los residuos con un nivel de confianza del 95,0%.
Para determinar si el modelo puede simplificarse, note que el valor-P más alto de
las variables independientes es 0,0597, que corresponde a Inteligencia. Puesto que
el valor-P es mayor o igual que 0,05, ese término no es estadísticamente
significativo con un nivel de confianza del 95,0% ó mayor. Consecuentemente,
debería considerarse eliminar Inteligencia del modelo
Para determinar si el modelo puede simplificarse, note que el valor-P más alto de
las variables independientes es 0,0597, que corresponde a Inteligencia. Puesto que
el valor-P es mayor o igual que 0,05, ese término no es estadísticamente
significativo con un nivel de confianza del 95,0% ó mayor. Consecuentemente,
debería considerarse eliminar Inteligencia del modelo
Nuevo Modelo
Error Estadístico
Parámetro Estimación Estándar T Valor-P
CONSTANTE 3,29477 0,595206 5,53552 0,0002
Motivacion 0,132592 0,0228041 5,81437 0,0002
Fuente Suma de CuadradosGl Cuadrado MedioRazón-F Valor-P
Modelo 32,927 1 32,927 33,81 0,0002
Residuo 9,73971 10 0,973971
Total (Corr.) 42,6667 11
R-cuadrada = 77,1726 porciento
R-cuadrado (ajustado para g.l.) = 74,8898 porciento
Error estándar del est. = 0,9869
Error absoluto medio = 0,769188
Estadístico Durbin-Watson = 1,95166 (P=0,4042)
Autocorrelación de residuos en retraso 1 = 0,000884186
La salida muestra los resultados de ajustar un modelo de regresión 
lineal múltiple para describir la relación entre Notas y 1 variables 
independientes. La ecuación del modelo ajustado es 
Notas = 3,29477 + 0,132592*Motivacion
Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una 
relación estadísticamente significativa entre las variables con un nivel 
de confianza del 95,0%.
El estadístico R-Cuadrada indica que el modelo así ajustado explica 77,1726%
de la variabilidad en Notas. El estadístico R-Cuadrada ajustada, que es más
apropiada para comparar modelos con diferente número de variables
independientes, es 74,8898%. El error estándar del estimado muestra que la
desviación estándar de los residuos es 0,9869. Este valor puede usarse para
construir límites para nuevas observaciones, seleccionando la opción de
Reportes del menú de texto. El error absoluto medio (MAE) de 0,769188 es el
valor promedio de los residuos.
El estadístico de Durbin-Watson (DW) examina los residuos para
determinar si hay alguna correlación significativa basada en el orden en
el que se presentan en el archivo de datos. Puesto que el valor-P es
mayor que 0,05, no hay indicación de una autocorrelación serial en los
residuos con un nivel de confianza del 95,0%.
Para determinar si el modelo puede simplificarse, note que el valor-P más alto
de las variables independientes es 0,0002, que corresponde a Motivación.
Puesto que el valor-P es menor que 0,05, ese término es estadísticamente
significativo con un nivel de confianza del 95,0%. Consecuentemente,
probablemente no quisiera eliminar ninguna variable del modelo.
Tratamiento Tiempos de carga
Tr 1 6,10 5,40 6,80 5,68
Tr 2 10,90 10,20 9,20 11,90
Tr 3 6,70 6,08 7,10 5,93
ANALISIS DE VARIANZA
2.2. Realización de la técnica de Análisis de Varianza 
Una vez se ha realizado el experimento, los datos obtenidos deberán ser 
procesados mediante técnicas estadísticas apropiadas para la comprobación de 
hipótesis. 
Cuando el objetivo es juzgar sobre la validez de hipótesis estadísticas 
relacionadas con las medias de tratamientos el análisis de varianza es la 
herramienta apropiada para ello, se presentan a continuación los elementos 
metodológicos de aplicación de esta técnica: 
Sean 
𝑦𝑖𝑗 son los valores de la variable dependiente evaluada en el tratamiento 𝑖 y la 
observación 𝑗. 
Se consideran 𝑎 tratamientos y 𝑛 observaciones (replicas). 
Bajo estos supuestos los valores de la variable dependiente pueden ser 
presentados en la siguiente tabla: 
Tratamientos 
(niveles) 
Observaciones Totales Promedios 
1 𝑦11 … 𝑦1𝑛 𝑦1. 𝑦ത1. 
2 𝑦21 … 𝑦2𝑛 𝑦2. 𝑦ത2. 
. . … . . . 
. . … . . . 
. . … . . . 
a 𝑦𝑎1 … 𝑦𝑎𝑛 𝑦𝑎 . 𝑦ത𝑎 . 
 
𝑦.. 𝑦ത.. 
 
Tabla N° 3. Datos típicos de un experimento de un solo 
factor
Los valores anteriores se presentan de manera recurrente así:
Modelos Estadísticos lineales:
Modelo de las medias
Se considera
Modelo de los efectos
Requisito: que el experimento se lleve a cabo en orden aleatorio para que el ambiente en
el que se apliquen los tratamientos sea lo más uniforme posible.
Objetivos: Probar las hipótesis apropiadas acerca de las medias de los tratamientos y
estimarlas.
Supuestos:
𝑦𝒊𝒋 = 𝜇𝒊 + 𝜀𝒊𝒋, 𝑖 = 1,… ,𝑎 ; 𝑗 = 1,… ,𝑛 
 𝐸 𝑦𝒊𝒋 = 𝜇𝒊. ; ó 𝐸 𝜀𝒊𝒋 = 0 
𝑦𝒊𝒋 = 𝜇 + 𝜏𝒊 + 𝜀𝒊𝒋, 𝑖 = 1,… ,𝑎 ; 𝑗 = 1,… ,𝑛 
• 𝜀𝒊𝒋 ~𝑵(0,σ
2), es decir𝑦𝒊𝒋 ~𝑵(μ+ τi , σ
2) 
• yij son independientes. 
Es frecuente encontrar en la literatura la denominación siguiente para las 
expresiones utilizadas: 
𝑆𝑆𝑇- Variacióntotal de los datos es la combinación de: 
• Suma de cuadrados de los errores 
𝑆𝑆𝐸- Variación debida al azar (Variación dentro de las muestras) y 
 
• Suma de cuadrados debida a los tratamientos 
𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 -Variación debida al azar cuando la hipótesis nula es verdadera 
(Variación entre los tratamientos). 
 
𝑆𝑆𝑇 – Tiene 𝑁 − 1 grados de libertad 
𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 - Tiene 𝑎 − 1 grados de libertad 
𝑆𝑆𝐸- Tiene 𝑎(𝑛 − 1) = 𝑎𝑛 − 𝑎 = 𝑁 − 𝑎 grados de libertad 
𝑆𝑖
2- Varianza muestral del tratamiento 𝑖 
𝑆𝑖
2 =
σ 𝑦𝑖𝑗 − 𝑦ത𝑖 
2𝑎
𝑖=1
𝑛 − 1
, 𝑖 = 1,… , 𝑎 
Teorema 3
Suponga que tiene lugar el esquema de efectos lineales descrito con anterioridad, es decir,
Entonces 𝐻0deberá rechazarse y concluirse que hay diferencias en las medias 
de los tratamientos. 
𝐹0 > 𝐹∝, 𝑎−1, 𝑁−𝑎 
OJO. También:
𝑆𝑆𝑇 = 𝑦𝑖𝑗
2 −
𝑦2. .
𝑁
𝑛
𝑗=1
𝑎
𝑖=1
 
𝑆𝑆𝑇𝑟𝑎𝑡 =
1
𝑛
 𝑦𝑖
2 .−
𝑦2. .
𝑁
𝑛
𝑗=1
 
𝒚𝒊𝒋 ~ 𝑵(0,σ
2) 
𝐸𝑛𝑡𝑜𝑛𝑐𝑒𝑠, 
1
𝜎2
𝑛 (𝑦ത𝑖 .−𝑦ത. . )
2
𝑛
𝑗=1
~ 𝜒𝑛−1
2 
1
𝜎2
 𝑦𝑖𝑗 − 𝑦ത𝑖 . 
2
𝑛
𝑗=1
𝑎
𝑖=1
~ 𝜒𝑎(𝑛−1)
2 
𝐸𝑛𝑡𝑜𝑛𝑐𝑒𝑠,𝐹0 =
𝑆𝑆𝑇𝑟𝑎𝑡 (𝑎 − 1) 
𝑆𝑆𝐸 (𝑁 − 𝑎) 
=
𝑀𝑆𝑆𝑇𝑟𝑎𝑡
𝑀𝑆𝑆𝐸
 ~ 𝐹𝑎−1,𝑁−𝑎 
Ejemplo :
Un ingeniero de desarrollo de productos tiene interés en investigar la resistencia a la
tensión de una fibra sintética nueva que se usará para hacer telas de camisas para
caballero. El ingeniero sabe por experiencia previa que la resistencia a la tensión se
afecta por el peso porcentual del algodón utilizado en la mezcla de materiales de la fibra.
Además, sospecha que al aumentar el contenido de algodón deberá variar ente 10 y 40
por ciento para que el producto final tenga otras características de calidad que se desean
(como la capacidad de ser sometido a un tratamiento de planchado permanente). El
ingeniero decide probar ejemplares en cinco niveles del peso porcentual del algodón:
15, 20, 25, 30 y 35 por ciento. También decide probar cinco ejemplares en cada nivel del
contenido de algodón.
Se trata de un experimento con un solo factor con a=5 niveles del factor y n=5 réplicas.
Las 25 corridas deberán realizarse de manera aleatoria. Para ilustrar como puede
aleatorizarse el orden de las corridas suponga que las corridas se enumeran de la
siguiente manera:
Supongamos que el ingeniero corre la prueba en el orden aleatorio que se ha determinado. En la
siguiente tabla se muestran las observaciones que se obtienen para la resistencia a la tensión.
Tabla N1.
Resultados de la variable resistencia a la tensión según porcentaje de algodón de la fibra.
Tabla N° 6. Secuencia aleatoria de corridas obtenida
Se usará el análisis de varianza para probar: 
Probar: 
𝐻0: 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4 = 𝜇5
𝐻1: 𝑝𝑜𝑟 𝑙𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝑑𝑒 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑒𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒
 
Tabla N° 5. Secuencia aleatoria de corridas obtenida
Secuencia de prueba Número de corrida (cod)
Peso porcentual del 
algodón
1 8 20
2 18 30
3 10 20
4 23 35
5 17 30
6 5 15
7 14 25
8 6 20
9 15 25
10 20 30
11 9 20
12 4 15
13 12 25
14 7 20
15 1 15
16 24 35
17 21 35
18 11 25
19 2 15
20 13 25
21 22 35
22 16 30
23 25 35
24 19 30
25 3 15
Para resolver el interrogante anterior, primero se calculan las sumas de cuadrados como sigue:
𝑆𝑆𝑇 = 𝑦𝑖𝑗
2
5
𝑗=1
−
𝑦..
2
𝑁
5
𝑖=1
 
= (7)2 + (7)2 + (15)2 +⋯+ (15)2 + (11)2 −
(376)
25
2
= 636.96 
𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 =
1
𝑛
 𝑦𝑖
2 −
𝑦..
2
𝑁
𝑖=1
 
=
1
5
[(49)2 +⋯+ (54)2]−
(376)
25
2
= 475.76 
𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 
= 636.96− 475.76 = 161.20 
Fuente de 
variación
Suma de 
cuadrados
Grados de 
libertad
Cuadrado 
medio
Valor p
Peso 
porcentual del 
algodón
475.76 4 118.94. 14.76 <0.01
Error 161.20 20 8.06
Total 636.96 24
Tabla N° 7. Análisis de varianza de la resistencia a la tensión
𝑭𝟎 
Observé que el cuadrado medio entre los tratamientos (118.94) es varias veces 
mayor que el cuadrado medio del error (8.06). Esto indica que no es posible que 
las medias de los tratamientos sean iguales. En términos formales se puede 
calcular el cociente entre 𝐹,𝐹0 =
118.94
8.06
= 14.76 y comparar este valor con un punto 
porcentual apropiado de la cola superior de la distribución 𝐹4,20 . Suponga que el 
investigador ha seleccionado 𝛼 = 0.05 por tanto 𝐹0.05,4,20 = 2.87. Puesto que 
𝐹0 = 14.76 > 2.87 se rechaza 𝐻0 y se concluye que por lo menos una de las 
medias es diferente, es decir que el peso porcentual del algodón en la fibra afecta 
de manera significativa la resistencia a la tensión media.

Continuar navegando