Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
CORRELACIÒN Y REGRESIÒN LINEAL SIMPLE KENNEDY HURTADO IBARRA Barranquilla – Colombia. RELACIÒN LINEAL ENTRE DOS VARIABLES Una relación lineal entre dos variables es aquella que puede representarse con mejor exactitud mediante una línea recta. No toda relación entre dos variables es lineal. Algunas se representan con mejor exactitud usando una curva. En este caso, se dice que la relación entre las variables es curvilínea. POSIBLES REALACION ENTRE VARIABLES • El peso de un adolecente, con su estatura. • Los gastos, con el ingreso disponible en un mes. • Estatura de los niños, con su edad. • Demanda de algún articulo, con los gastos de propaganda. • Cantidad de cigarrillos al día, y la frecuencia cardiaca. DIAGRAMA DE DISPERSIÒN Para comenzar a estudiar la relación entre dos variables cuantitativas se utiliza el diagrama de dispersión, el cual es una grafica de parejas de valores de las variables involucradas. Una relación entre dos variables puede ser: Positiva o negativa. Relación lineal positiva. Existe una relación lineal positiva entre las variables X y Y si al aumentar los valores de X los valores de Y tienden a aumentar. Relación lineal negativa. Si existe una relación lineal negativa entre las variables X y Y, entonces al aumentar los valores de X los valores de Y tienden disminuir y viceversa. Relación Imperfecta. Una relación lineal imperfecta es aquella en la cual existe una relación positiva negativa, pero no todos los puntos caen sobre la recta. ANALISIS DE CORRELACIÒN LINEAL SIMPLE. Si entre dos variables cuantitativas existen una relación lineal, el análisis de correlación lineal simple se usa para determinar la dirección y la magnitud de dicha dirección. La dirección de la relación se refiere a si esta es positiva o negativa. La magnitud de la relación o grado de relación entre las variables se refiere a la fuerza de la relaciòn que existe entre las variables. Se trata de expresar cuantitativamente el grado de relación que existe entre las variables de estudio. COEFICIENTE DE CORRELACIÒN Expresa de manera cuantitativa el grado y la dirección de la relación entre dos variables. COEFICIENTE DE CORRELACIÒN r DE PEARSON. Se usa cuando los datos están medidos en una escala de intervalo de razón. COEFICIENTE DE CORRELACIÒN rho DE SPEARMAN. Se utiliza cuando una o ambas variables están medidas en la escala ordinal, en la escala de intervalo o la de razón. COEFICIENTE DE CORRELACIÒN r = 𝑺𝒙𝒚 𝑺𝒙𝒙𝑺𝒚𝒚 , donde: 𝑺𝒙𝒚 =σ𝑥𝑖𝑦𝑖 - σ 𝑥𝑖 σ 𝑦𝑖 𝑛 𝑺𝒙𝒙 = σ𝑥𝑖 2 - σ 𝑥𝑖 2 𝑛 𝑺𝒚𝒚 = σ𝑦𝑖 2 - σ 𝑦𝑖 2 𝑛 Tanto 𝑺𝒙𝒙 como 𝑺𝒚𝒚 no pueden ser negativas, 𝑺𝒙𝒚 si puede ser positiva o negativa. CARACTERISTICAS DEL COEFICIENTE DE CORRELACIÒN El signo del coeficiente de correlación indica si la relación entre las variables es positiva o negativa. Si el coeficiente es positivo, entonces la relación es positiva. En caso contrario, la relación es negativa. El valor numérico del coeficiente de correlación varia entre -1 y 1 y ésta describe la magnitud de la relación entre las variables. Si r = -1 entonces existe una relación perfecta negativa entre las variables. Si r = 0 no existe relación entre las variables. Si r= 1 entonces existe una relación lineal perfecta positiva entre las variables. REGRESIÒN LINEAL SIMPLE Con frecuencia, nos encontramos en economía con modelos en los que el comportamiento de una variable, Y, se puede explicar a través de una variable X; lo que representamos mediante y= 𝒇(𝒙) Si consideramos que la relación f, que liga Y con X, es lineal, entonces: se puede escribir así: ෝ𝒚= β𝟎 + β𝟏𝒙𝒊 + ො𝒆𝒊 Donde: ෝ𝒚 : Es la variable respuesta o variable de interés (variable dependiente) 𝒙𝒊: variable predictora o independiente. β𝟎: es el intercepto de la línea de regresión con el eje y. β𝟏: es la pendiente de la línea de regresión y. ො𝒆𝒊: Componente de error aleatorio. ESTIMACIÒN DE LOS PARÀMETROS β𝟎 y β𝟏 β𝟏 = σ 𝒙𝒊𝒚𝒊 − 𝒏ഥ𝒙ഥ𝒚 σ 𝒙𝒊 𝟐 − 𝒏ഥ𝒙𝟐 = 𝑺𝒙𝒚 𝑺𝒙𝒙 y β𝟎 = ഥ𝒚 - β𝟏ഥ𝒙 Ejemplo: Un supermercado ha decidido ampliar el negocio y decide estudiar de forma exhaustiva el número de cajas registradoras que va a instalar, para evitar grandes colas. Para ello, se obtuvieron los siguientes datos procedentes de otros establecimientos similares acerca del número de cajas registradoras (variable X) y del tiempo medio de espera (variable Y) Nª de cajas registradoras (X) Tiempo de espera en minutos (y) XY X2 ො𝑦 e 𝑒2 10 59 590 100 57,95 1,05 1,1025 12 51 612 144 50,24 0,76 0,5776 14 42 588 196 42,52 -0,52 0,2704 16 32 512 256 34,81 -2,81 7,8961 18 26 468 324 27.09 -1,09 1,1881 20 22 440 400 19,38 2,62 6,8644 σ𝑥 = 90 σ𝑦 = 232 σ𝑥𝑖𝑦𝑖= 3210 σ𝑥 2 =1420 σ𝑒 = 0 σ𝑒2 =17,899 Interpretación de los coeficientes de Regresión β𝟏 = σ 𝒙𝒊𝒚𝒊 − 𝒏ഥ𝒙ഥ𝒚 σ 𝒙𝒊 𝟐 − 𝒏ഥ𝒙𝟐 = 𝟑𝟐𝟏𝟎 −𝟑𝟒𝟖𝟎 𝟏𝟒𝟐𝟎−𝟏𝟑𝟓𝟎 = -3,857143 መ𝛽0= ത𝑦 − መ𝛽1 ҧ𝑥 = 38,6666-(3,857143)15 = 96,523811 La ecuación de regresión está dada por: ො𝑦 = β𝟎 + β𝟏𝒙𝒊 = 96,523811 - 3,857143𝑥𝑖 Si el numero de cajas registradora es igual a cero, se espera que el tiempo para que atiendan un cliente es de 96,52 minutos. Si se aumenta el numero de cajas en una unidad se espera que el tiempo de espera del cliente disminuya 3,87 minuto. ANÀLISIS DE VARIANZA PARA LA REGRESIÒN LINEAL Se utiliza el método de mínimos cuadrados. Suma de cuadrado total SCT = 𝑆𝑦𝑦 = σ 𝑦𝑖 2 - σ 𝑦𝑖 2 𝑛 = 10030 - 𝟐𝟑𝟐𝟐 𝟔 = 1059,33 Suma de cuadrado del error SCE=σ𝑦𝑖 2 - 𝛽0σ𝑦𝑖 -𝛽1σ𝑥𝑖 𝑦𝑖 =10030-96,523811(232)-(-3,857143)3210= 17,90 Suma de cuadrado de Regresión SCR = SCT – SCE = 1059,33 - 17,90 = 1041,43 ҧ𝑥 = 15 β𝟎 = 96,523811 σ𝑥 = 90 β𝟏 = -3,857143 σ𝑥2 =1420 σ𝑥𝑖 𝑦𝑖 = 3210 σ𝑦𝑖 = 232 σ𝑦𝑖 2 = 10030 ത𝑦= 38,667 GRADOS DE LIBERTAD Grado de libertad de regresión gl(SCR) = 1 Grado de libertad del error gl(SCE) = n – 2 = 4 Grado de libertad total gl(SCT) = n – 1 = 5 SUMAS DE CUADRADOS MEDIOS Es el cociente entre las sumas de cuadrados y los grados de libertad. Cuadrado medio de regresión CMR = 𝑺𝑪𝑹 𝒈𝒍(𝑺𝑪𝑹) = 𝟏𝟎𝟒𝟏,𝟒𝟑 𝟏 = 1041,43 Cuadrado medio de error CME= 𝑆𝐶𝐸 𝑔𝑙(𝑆𝐶𝐸) = 17,90 4 = 4,48 Cuadrado medio total CMT = 𝑆𝐶𝑇 𝑔𝑙(𝑆𝐶𝑇) = 1059,33 5 = 211,87 ESTADISTICO DE FISHER. Es el cociente entre el cuadrado medio de regresión y el cuadrado medio del error. F = 𝑪𝑴𝑹 𝑪𝑴𝑬 = 𝟏𝟎𝟒𝟏,𝟒𝟑 𝟒,𝟒𝟖 = 232,5 PRUEBA DE HIPÒTESIS 𝐻0 = El modelo no es significativo 𝐻1 =El modelo es significativo Si F≥𝑓α 2 ; 𝑣1𝑣2 se rechaza la hipótesis nula; donde,𝑣1= 1 y 𝑣2 = 4 Para 95% de confiabilidad α 2 = 0,025 Tabla de Fisher = 7,71 ; como F≥ 𝑓α 2 ; 𝑣1𝑣2 ; se rechaza la hipótesis nula. Entonces el modelo es significativo. TABLA DE ANÀLISIS DE VARIANZA Fuente de variación Grados de libertad Suma de cuadrados Sumas de cuadrados medios Estadístico de Fisher Regresión 1 1041,43 1041,43 F = 1041,43 4,48 = 232,5 Error 4 17,90 4,48 Total 5 1059,33 1058,9 Intervalos de confianza para los parámetros de regresión. El intervalo de confianza del 100(1- α)% para la pendiente β𝟏 se define: β𝟏 - 𝒕α 𝟐 ;𝒏−𝟐 𝒔 𝑺𝒙𝒙 ≤ β ≤ β𝟏 + 𝒕α 𝟐 ;𝒏−𝟐 𝒔 𝑺𝒙𝒙 Para el intersecto: - ≤ β ≤ + REGRESION LINEAL MULTIPLE DOCENTE: Kennedy Hurtado Ibarra Matemática Especialista en Estadística Aplicada Magister en Estadística Aplicada Doctor en Ciencias de la Educación Introducción. Regresión múltiple. Gráficos de dispersión múltiples. Estimación. Diagnósticos. Previsiones. Multicolinealidad. Variables ficticias (dummy). En un modelo de regresión múltiple, queremos conocer el valor de una variable respuesta a partir de más de una variable explicativa: Este modelo puede ser expresado como: 𝑌𝑡 = 𝛽0 + 𝛽1𝑋1 + 𝛽2𝑋2 +……………… +𝛽𝑝𝑋𝑝 + 𝐸. En esta expresión, cada uno de los coeficientes beta representa la influencia individual que cada una de lasX tiene sobre Y. Ventajas: Las hipótesis del modelo son las mismas que en regresión simple. Los contrastes, intervalos, diagnosis… también. Pequeños inconvenientes: La visualización de los gráficos es un poco más complicada. Necesitamos redefinir el coeficiente 𝑅2 REGRESION MULTIPLE 𝑅2 CORREGIDO El coeficiente 𝑅2 tiene el inconveniente de que se incrementa al aumentar el número de variables en el modelo (ya sean significativas o no). Para paliar este efecto, corregimos el coeficiente para que tenga en cuenta este efecto, por lo que en regresión múltiple se utiliza el coeficiente𝑅2 corregido ( o ajustado). Ejemplo: Supongamos que obtenemos los siguientes datos en el estudio de la relación citada sobre la inteligencia y la motivación como predictores de la calificación final obtenida en el bachillerato en una muestra de 12 sujetos: Sujeto CalificacionesMotivacion Notas 1 85 10 4 2 100 20 5 3 95 35 8 4 80 30 7 5 180 45 10 6 90 25 6 7 110 10 6 8 120 15 7 9 80 10 4 10 95 15 4 11 160 15 6 12 150 45 9 Variable dependiente: Notas Variables independientes: • Inteligencia • Motivación El objetivo, es describir las variables que inciden en la notas Error Estadístico Parámetro Estimación Estándar T Valor-P CONSTANTE 1,73747 0,884817 1,96365 0,0812 Inteligencia 0,0187631 0,00871416 2,15318 0,0597 Motivacion 0,108778 0,0224429 4,84688 0,0009 R-cuadrada = 84,9337 porciento R-cuadrado (ajustado para g.l.) = 81,5856 porciento Error estándar del est. = 0,845137 Error absoluto medio = 0,610172 Estadístico Durbin-Watson = 1,31244 (P=0,0743) Autocorrelación de residuos en retraso 1 = 0,314513 La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la relación entre Notas y 2 variables independientes. La ecuación del modelo ajustado es Notas = 1,73747 + 0,0187631*Inteligencia + 0,108778*Motivacion Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente significativa entre las variables con un nivel de confianza del 95,0%. Análisis de Varianza Fuente Suma de CuadradosGl Cuadrado MedioRazón-F Valor-P Modelo 36,2384 2 18,1192 25,37 0,0002 Residuo 6,4283 9 0,714256 El estadístico R-Cuadrada indica que el modelo así ajustado explica 84,9337% de la variabilidad en Notas. El estadístico R-Cuadrada ajustada, que es más apropiada para comparar modelos con diferente número de variables independientes, es 81,5856%. El error estándar del estimado muestra que la desviación estándar de los residuos es 0,845137. Este valor puede usarse para construir límites para nuevas observaciones, seleccionando la opción de Reportes del menú de texto. El error absoluto medio (MAE) de 0,610172 es el valor promedio de los residuos. El estadístico de Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación significativa basada en el orden en el que se presentan en el archivo de datos. Puesto que el valor-P es mayor que 0,05, no hay indicación de una autocorrelación serial en los residuos con un nivel de confianza del 95,0%. Para determinar si el modelo puede simplificarse, note que el valor-P más alto de las variables independientes es 0,0597, que corresponde a Inteligencia. Puesto que el valor-P es mayor o igual que 0,05, ese término no es estadísticamente significativo con un nivel de confianza del 95,0% ó mayor. Consecuentemente, debería considerarse eliminar Inteligencia del modelo Para determinar si el modelo puede simplificarse, note que el valor-P más alto de las variables independientes es 0,0597, que corresponde a Inteligencia. Puesto que el valor-P es mayor o igual que 0,05, ese término no es estadísticamente significativo con un nivel de confianza del 95,0% ó mayor. Consecuentemente, debería considerarse eliminar Inteligencia del modelo Nuevo Modelo Error Estadístico Parámetro Estimación Estándar T Valor-P CONSTANTE 3,29477 0,595206 5,53552 0,0002 Motivacion 0,132592 0,0228041 5,81437 0,0002 Fuente Suma de CuadradosGl Cuadrado MedioRazón-F Valor-P Modelo 32,927 1 32,927 33,81 0,0002 Residuo 9,73971 10 0,973971 Total (Corr.) 42,6667 11 R-cuadrada = 77,1726 porciento R-cuadrado (ajustado para g.l.) = 74,8898 porciento Error estándar del est. = 0,9869 Error absoluto medio = 0,769188 Estadístico Durbin-Watson = 1,95166 (P=0,4042) Autocorrelación de residuos en retraso 1 = 0,000884186 La salida muestra los resultados de ajustar un modelo de regresión lineal múltiple para describir la relación entre Notas y 1 variables independientes. La ecuación del modelo ajustado es Notas = 3,29477 + 0,132592*Motivacion Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relación estadísticamente significativa entre las variables con un nivel de confianza del 95,0%. El estadístico R-Cuadrada indica que el modelo así ajustado explica 77,1726% de la variabilidad en Notas. El estadístico R-Cuadrada ajustada, que es más apropiada para comparar modelos con diferente número de variables independientes, es 74,8898%. El error estándar del estimado muestra que la desviación estándar de los residuos es 0,9869. Este valor puede usarse para construir límites para nuevas observaciones, seleccionando la opción de Reportes del menú de texto. El error absoluto medio (MAE) de 0,769188 es el valor promedio de los residuos. El estadístico de Durbin-Watson (DW) examina los residuos para determinar si hay alguna correlación significativa basada en el orden en el que se presentan en el archivo de datos. Puesto que el valor-P es mayor que 0,05, no hay indicación de una autocorrelación serial en los residuos con un nivel de confianza del 95,0%. Para determinar si el modelo puede simplificarse, note que el valor-P más alto de las variables independientes es 0,0002, que corresponde a Motivación. Puesto que el valor-P es menor que 0,05, ese término es estadísticamente significativo con un nivel de confianza del 95,0%. Consecuentemente, probablemente no quisiera eliminar ninguna variable del modelo. Tratamiento Tiempos de carga Tr 1 6,10 5,40 6,80 5,68 Tr 2 10,90 10,20 9,20 11,90 Tr 3 6,70 6,08 7,10 5,93 ANALISIS DE VARIANZA 2.2. Realización de la técnica de Análisis de Varianza Una vez se ha realizado el experimento, los datos obtenidos deberán ser procesados mediante técnicas estadísticas apropiadas para la comprobación de hipótesis. Cuando el objetivo es juzgar sobre la validez de hipótesis estadísticas relacionadas con las medias de tratamientos el análisis de varianza es la herramienta apropiada para ello, se presentan a continuación los elementos metodológicos de aplicación de esta técnica: Sean 𝑦𝑖𝑗 son los valores de la variable dependiente evaluada en el tratamiento 𝑖 y la observación 𝑗. Se consideran 𝑎 tratamientos y 𝑛 observaciones (replicas). Bajo estos supuestos los valores de la variable dependiente pueden ser presentados en la siguiente tabla: Tratamientos (niveles) Observaciones Totales Promedios 1 𝑦11 … 𝑦1𝑛 𝑦1. 𝑦ത1. 2 𝑦21 … 𝑦2𝑛 𝑦2. 𝑦ത2. . . … . . . . . … . . . . . … . . . a 𝑦𝑎1 … 𝑦𝑎𝑛 𝑦𝑎 . 𝑦ത𝑎 . 𝑦.. 𝑦ത.. Tabla N° 3. Datos típicos de un experimento de un solo factor Los valores anteriores se presentan de manera recurrente así: Modelos Estadísticos lineales: Modelo de las medias Se considera Modelo de los efectos Requisito: que el experimento se lleve a cabo en orden aleatorio para que el ambiente en el que se apliquen los tratamientos sea lo más uniforme posible. Objetivos: Probar las hipótesis apropiadas acerca de las medias de los tratamientos y estimarlas. Supuestos: 𝑦𝒊𝒋 = 𝜇𝒊 + 𝜀𝒊𝒋, 𝑖 = 1,… ,𝑎 ; 𝑗 = 1,… ,𝑛 𝐸 𝑦𝒊𝒋 = 𝜇𝒊. ; ó 𝐸 𝜀𝒊𝒋 = 0 𝑦𝒊𝒋 = 𝜇 + 𝜏𝒊 + 𝜀𝒊𝒋, 𝑖 = 1,… ,𝑎 ; 𝑗 = 1,… ,𝑛 • 𝜀𝒊𝒋 ~𝑵(0,σ 2), es decir𝑦𝒊𝒋 ~𝑵(μ+ τi , σ 2) • yij son independientes. Es frecuente encontrar en la literatura la denominación siguiente para las expresiones utilizadas: 𝑆𝑆𝑇- Variacióntotal de los datos es la combinación de: • Suma de cuadrados de los errores 𝑆𝑆𝐸- Variación debida al azar (Variación dentro de las muestras) y • Suma de cuadrados debida a los tratamientos 𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 -Variación debida al azar cuando la hipótesis nula es verdadera (Variación entre los tratamientos). 𝑆𝑆𝑇 – Tiene 𝑁 − 1 grados de libertad 𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 - Tiene 𝑎 − 1 grados de libertad 𝑆𝑆𝐸- Tiene 𝑎(𝑛 − 1) = 𝑎𝑛 − 𝑎 = 𝑁 − 𝑎 grados de libertad 𝑆𝑖 2- Varianza muestral del tratamiento 𝑖 𝑆𝑖 2 = σ 𝑦𝑖𝑗 − 𝑦ത𝑖 2𝑎 𝑖=1 𝑛 − 1 , 𝑖 = 1,… , 𝑎 Teorema 3 Suponga que tiene lugar el esquema de efectos lineales descrito con anterioridad, es decir, Entonces 𝐻0deberá rechazarse y concluirse que hay diferencias en las medias de los tratamientos. 𝐹0 > 𝐹∝, 𝑎−1, 𝑁−𝑎 OJO. También: 𝑆𝑆𝑇 = 𝑦𝑖𝑗 2 − 𝑦2. . 𝑁 𝑛 𝑗=1 𝑎 𝑖=1 𝑆𝑆𝑇𝑟𝑎𝑡 = 1 𝑛 𝑦𝑖 2 .− 𝑦2. . 𝑁 𝑛 𝑗=1 𝒚𝒊𝒋 ~ 𝑵(0,σ 2) 𝐸𝑛𝑡𝑜𝑛𝑐𝑒𝑠, 1 𝜎2 𝑛 (𝑦ത𝑖 .−𝑦ത. . ) 2 𝑛 𝑗=1 ~ 𝜒𝑛−1 2 1 𝜎2 𝑦𝑖𝑗 − 𝑦ത𝑖 . 2 𝑛 𝑗=1 𝑎 𝑖=1 ~ 𝜒𝑎(𝑛−1) 2 𝐸𝑛𝑡𝑜𝑛𝑐𝑒𝑠,𝐹0 = 𝑆𝑆𝑇𝑟𝑎𝑡 (𝑎 − 1) 𝑆𝑆𝐸 (𝑁 − 𝑎) = 𝑀𝑆𝑆𝑇𝑟𝑎𝑡 𝑀𝑆𝑆𝐸 ~ 𝐹𝑎−1,𝑁−𝑎 Ejemplo : Un ingeniero de desarrollo de productos tiene interés en investigar la resistencia a la tensión de una fibra sintética nueva que se usará para hacer telas de camisas para caballero. El ingeniero sabe por experiencia previa que la resistencia a la tensión se afecta por el peso porcentual del algodón utilizado en la mezcla de materiales de la fibra. Además, sospecha que al aumentar el contenido de algodón deberá variar ente 10 y 40 por ciento para que el producto final tenga otras características de calidad que se desean (como la capacidad de ser sometido a un tratamiento de planchado permanente). El ingeniero decide probar ejemplares en cinco niveles del peso porcentual del algodón: 15, 20, 25, 30 y 35 por ciento. También decide probar cinco ejemplares en cada nivel del contenido de algodón. Se trata de un experimento con un solo factor con a=5 niveles del factor y n=5 réplicas. Las 25 corridas deberán realizarse de manera aleatoria. Para ilustrar como puede aleatorizarse el orden de las corridas suponga que las corridas se enumeran de la siguiente manera: Supongamos que el ingeniero corre la prueba en el orden aleatorio que se ha determinado. En la siguiente tabla se muestran las observaciones que se obtienen para la resistencia a la tensión. Tabla N1. Resultados de la variable resistencia a la tensión según porcentaje de algodón de la fibra. Tabla N° 6. Secuencia aleatoria de corridas obtenida Se usará el análisis de varianza para probar: Probar: 𝐻0: 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4 = 𝜇5 𝐻1: 𝑝𝑜𝑟 𝑙𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝑑𝑒 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑒𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒 Tabla N° 5. Secuencia aleatoria de corridas obtenida Secuencia de prueba Número de corrida (cod) Peso porcentual del algodón 1 8 20 2 18 30 3 10 20 4 23 35 5 17 30 6 5 15 7 14 25 8 6 20 9 15 25 10 20 30 11 9 20 12 4 15 13 12 25 14 7 20 15 1 15 16 24 35 17 21 35 18 11 25 19 2 15 20 13 25 21 22 35 22 16 30 23 25 35 24 19 30 25 3 15 Para resolver el interrogante anterior, primero se calculan las sumas de cuadrados como sigue: 𝑆𝑆𝑇 = 𝑦𝑖𝑗 2 5 𝑗=1 − 𝑦.. 2 𝑁 5 𝑖=1 = (7)2 + (7)2 + (15)2 +⋯+ (15)2 + (11)2 − (376) 25 2 = 636.96 𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 = 1 𝑛 𝑦𝑖 2 − 𝑦.. 2 𝑁 𝑖=1 = 1 5 [(49)2 +⋯+ (54)2]− (376) 25 2 = 475.76 𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 = 636.96− 475.76 = 161.20 Fuente de variación Suma de cuadrados Grados de libertad Cuadrado medio Valor p Peso porcentual del algodón 475.76 4 118.94. 14.76 <0.01 Error 161.20 20 8.06 Total 636.96 24 Tabla N° 7. Análisis de varianza de la resistencia a la tensión 𝑭𝟎 Observé que el cuadrado medio entre los tratamientos (118.94) es varias veces mayor que el cuadrado medio del error (8.06). Esto indica que no es posible que las medias de los tratamientos sean iguales. En términos formales se puede calcular el cociente entre 𝐹,𝐹0 = 118.94 8.06 = 14.76 y comparar este valor con un punto porcentual apropiado de la cola superior de la distribución 𝐹4,20 . Suponga que el investigador ha seleccionado 𝛼 = 0.05 por tanto 𝐹0.05,4,20 = 2.87. Puesto que 𝐹0 = 14.76 > 2.87 se rechaza 𝐻0 y se concluye que por lo menos una de las medias es diferente, es decir que el peso porcentual del algodón en la fibra afecta de manera significativa la resistencia a la tensión media.
Compartir