Logo Studenta

Analisis de regresion simple 1

¡Este material tiene más páginas!

Vista previa del material en texto

Análisis de regresión simple
Gabriela Arelí Beltethón Ramirez
Fatima Dulce María García Hernandez
Yazmín Melanye Alejandra Matheu Caal
Ley matemática y ley estadística
Un hecho que se resaltará desde el inicio es la diferencia conceptual entre una ley matemática y una ley estadística: cuando en un estudio teórico decimos, por ejemplo, que y = 6.1968 + 0.7071 x, estamos diciendo que para cualquier x, el valor correspondiente de y está siempre sobre la recta cuya ecuación es y = 6.1968 + 0.7071 x.
Ejemplo: En la tabla siguiente se presentan los pesos de los padres (X) y de sus hijos (Y) en kilogramos.
En este caso podemos decir que el peso Y de los hijos es una función lineal del peso X de sus padres, y estaremos admitiendo el hecho que una nube de puntos descritos en un diagrama de dispersión, puede ser descrita de forma adecuadamente aproximada por una recta cuya ecuación es y = 6.1986 + 0.7071 x, tal como se muestra en la figura siguiente:
Con esto, queremos decir que, cualquiera que sea el valor de X considerado, digamos X = 3, habrá en correspondencia un valor de Y obtenido a través de y = f(x) = 6.1986 + 0.7071 x, que llamaremos de y calculado o y estimado y que se denota por yˆ, tal que el par (x, y Con esto, queremos decir que, cualquiera que sea el valor de X considerado, digamos X = 3, habrá en correspondencia un valor de Y obtenido a través de y = f(x) = 6.1986 + 0.7071 x, que llamaremos de y calculado o y estimado y que se denota por yˆ, tal que el par (x, yˆ), en el ejemplo (3, 8.3199), estará siempre exactamente sobre la recta. De esta forma, el ajuste de y será absolutamente correcto y exento de errores, a través de la función dada. En otras palabras, para ajustar el valor de cualquier yi de un par ordenado (xi, yi) basta que se utilice la función yˆ= 6.1986 + 0.7071 xi y obtendremos el par (ii yˆ,x)ˆ), en el ejemplo (3, 8.3199), estará siempre exactamente sobre la recta. De esta forma, el ajuste de y será absolutamente correcto y exento de errores, a través de la función dada. En otras palabras, para ajustar el valor de cualquier yi de un par ordenado (xi, yi) basta que se utilice la función yˆ= 6.1986 + 0.7071 xi y obtendremos el par (ii y ,x)
Por otra parte, en el caso de la ley estadística la estimación no está, por lo general, exenta de errores. Para interpretar bien esta idea, vamos a retomar el diagrama de dispersión, que contiene la recta de la ecuación yˆ= 6.1986 + 0.7071 xi
RECTA DE MINIMOS CUADRADOS 
MODELO DE REGRESIÓN LINEAL SIMPLE EN FORMA MATRICIAL
SUPUESTOS DEL MODELO DE REGRESIÓN
PRUEBA DE HIPÓTESIS PARA EL PARÁMETRO 𝛃
Existen situaciones en las cuales el investigador desea verificar la relación funcional que eventualmente puede existir entre dos variables cuantitativas. Así, por ejemplo: cuando X es la cantidad de fertilizante y Y la producción de caña (TCH = toneladas de caña por hectárea); X el peso al nacer de lechones y Y el peso a los 30 días de nacidos. La variable X es conocida como independiente o regresora, y por lo regular considerada como fija y predeterminada, en tanto que la variable Y es denominada dependiente, y por lo regular considerada como aleatoria. 
La prueba de hipótesis para el parámetro 𝛃 tiene la finalidad de comprobar estadísticamente si las variables X y Y presentan la supuesta relación lineal, debe realizarse un análisis de varianza (comúnmente abreviado en la literatura como: ANDEVA, ANVA o ANOVA), y evaluar las hipótesis: 
 Ho : 𝛃 = 0 (No hay regresión lineal simple) Ha : 𝛃≠ 0
No rechazar Ho, significa que la pendiente es estadísticamente nula, entonces la recta será paralela al eje 
X y no habrá regresión lineal simple. En otras palabras, en caso de paralelismo, se existe una relación 
funcional de tipo y = f(x) entre las variables, ella no podrá ser descrita por una ecuación de regresión 
lineal simple.
A continuación se presenta una tabla con las ecuaciones necesarias para realizar el análisis de varianza. El ANDEVA es un procedimiento aritmético y estadístico que divide la variación total de los datos de Y en fuentes de variación, en este caso, una fuente atribuida al modelo de regresión y la otra a la parte no explicada por el modelo (residuo).
PRUEBA DE HIPÓTESIS ACERCA DE LOS PARÁMETROS DE LA REGRESIÓN LINEAL SIMPLE: USO DE LA PRUEBA t DE STUDENT
Acerca de 𝛃: 
Ho: 𝛃= 0 (No hay relación estadística significativa entre las dos variables) 
 Ha: 𝛃 ≠ 0
Acerca de ∝: 
Ho: ∝ = 0 (la recta parte del origen) 
 Ha: ∝≠ 0
COEFICIENTE DE DETERMINACIÓN 
El coeficiente de determinación indica la proporción de la variación total que está siendo explicada por la regresión. Además ofrece una idea de la calidad del ajuste del modelo a los datos. El coeficiente de determinación se calcula a través de la siguiente ecuación:
Para los datos del ejemplo 98, tenemos que:
El coeficiente de determinación puede ser expresado en porcentaje, por lo que el valor obtenido anteriormente equivale a 94.9%. Entonces la regresión lineal simple explica 94.9% de la variación total de los datos de peso de los hijos
OBSERVACIONES:
El coeficiente de determinación es igual al cuadrado del coeficiente de correlación de Pearson. 
 En la regresión puede aplicarse el análisis de correlación para obtener un indicador de la intensidad o fuerza de la relación lineal entre dos variables. 
 El valor del coeficiente de determinación debe ser usado con precaución, pues su magnitud depende del número de observaciones en la muestra, tendiendo a crecer cuando n disminuye. Además de eso, es posible volverlo mayor, por la adición de un número suficiente de términos. 
OBSERVACIONES:
Aunque aumente sí se adiciona una nueva variable al modelo, esto no significa necesariamente que el nuevo modelo es superior al anterior. A menos que la suma de cuadrados residual del nuevo modelo sea reducida de una cuantía igual al cuadrado medio residual original, el nuevo modelo tendrá un cuadrado medio residual mayor que el original, debido a la pérdida de un grado de libertad. En realidad, ese nuevo modelo podrá ser peor que el anterior.
OBSERVACIONES:
La magnitud de también depende de la amplitud de variación de las variables regresoras (o independientes). Generalmente, aumentará con mayor amplitud de variación de las X´s y disminuirá en caso contrario. Así, un valor grande de podrá ser grande simplemente porque los valores de X´s varían en una amplitud muy grande. Por otro lado, R2 podrá ser pequeño porque las amplitudes de las X´s fueron muy pequeñas para permitir que una relación con Y fuese detectada.
OBSERVACIONES:
El 
INTERVALOS DE (1-∝) % DE CONFIANZA 
LIMITACIONES, ERRORES Y ADVERTENCIAS EN EL USO DE LA REGRESIÓN Y EL ANÁLISIS DE CORRELACIÓN
Los análisis de regresión y de correlación son herramientas estadísticas que, cuando se utilizan adecuadamente, pueden ayudar significativamente a tomar decisiones. Pero si se utilizan erróneamente traen como resultado predicciones inexactas y toma de decisiones no deseables. Algunos de los errores más comunes cometidos en el uso de la regresión y correlación se detallan a continuación
Extrapolación más allá del intervalo de los datos observados . Un error común es asumir que la ecuación de estimación puede aplicarse sobre cualquier intervalo de valores. Pero es necesario recordar que una ecuación de regresión es válida solo sobre el mismo intervalo como aquel desde el cual se tomó la muestra inicialmente. 
 Causa y efecto. Otro error que se puede cometer al utilizar el análisis de regresión y correlación es asumir que un cambio en una variable es “ocasionado” por un cambio en la otra variable. Recuerde que: “la regresión y la correlación no pueden determinar la causa y el efecto”. 
Uso de tendencias anteriores para estimar tendencias futuras Se debe tener cuidado de revaluar los datos anteriores que se utilizan para estimarlas ecuaciones de regresión. Las condiciones pueden cambiar y violar una ó más de las suposiciones sobre las cuales depende nuestro análisis de regresión. Otro error que puede surgir del uso de datos anteriores se refiere a la dependencia de algunas variables en el tiempo.
Descubrimiento de relaciones cuando éstas no existen. Al aplicar el análisis de regresión, las personas algunas veces encuentran una relación entre dos variables que, de hecho no tienen vínculo común. Aún cuando una variable no “ocasiona” un cambio en la otra, piensan que de haber algún factor común a ambas variables. Sería posible por ejemplo, encontrar una relación estadística entre una muestra aleatoria del número de millas por galón consumidas por ocho carros distintos y la distancia de la tierra a cada uno de los otro ocho planetas de nuestro sistema solar. Pero puesto que no existe en absoluto un vínculo común entre el consumo de gasolina y la distancia a otros planetas, esta “relación” no tendría sentido. Como en la mayor parte de otras situaciones estadísticas, el investigador debe razonar hacia una conexión entre dos variables antes de trabajar un análisis de regresión.
image1.png
image2.png
image3.png
image4.png
image5.png
image6.png
image7.png
image8.png
image9.png
image10.png
image11.png
image12.png
image13.tiff
image14.tiff
image15.tiff
image16.tiff
image17.tiff
image18.tiff
image19.tiff
image20.tiff
image21.tiff
image100.png
image110.png
image120.png
image22.tiff
image23.tiff
image24.tiff
image25.tiff
image26.tiff

Continuar navegando