Logo Studenta

1 Clases Estadística (1 (26)

¡Estudia con miles de materiales!

Vista previa del material en texto

• R2 ajustado: contempla el número de variables incluidas en el modelo. Expresa los costos y 
beneficios de incorporar una nueva VI. Es menor a R2. 
• Coeficientes estandarizados (beta) 
• Los coeficientes estandarizados permiten visualizar las pendientes en una unidad común con el 
objetivo de comparar los efectos de las distintas VI sobre la VD. 
Clase 14/11. 
BERRY AND SANDERS. Cap. 1 y 2. 
Recapitulando lo que venimos siendo sobre regresión, es un análisis estadístico que aplicamos a situaciones 
bivariadas, y las dos variables son de naturaleza intervalar. En vez de hacer tabla, hacemos grafico de 
dispersión, graficamos puntos y hacemos la recta de menor ajuste. Una de las complejizaciones va a ser 
hacer rectas curvilíneas. Primer debemos entender el modelo de regresión rectilíneo: X intervalar, Y 
intervalar, y una serie de puntos que son las unidades de análisis y sus coordenadas. Si tengo un tipo de 
situación como puntos en el gráfico, lo que el análisis de regresión va a hacer es encontrar la recta de menor 
ajuste: es la que pasa más cerca de todos esos puntos, que es el método de mínimos cuadrados. La recta de 
regresión es un modelo: un modelo es una representación simplificada y útil de la realidad. Es un modelo de 
la relación entre X e Y: porque la relación entre X e Y es más sucia que la recta: la relación entre X e Y tiene 
ruido, no aumenta Y siempre lo mismo cada vez que aumenta X: pero la recta resume en promedio cual es 
la relación entre X e Y: no hay ningún modelo que no sea una simplificación de la realidad. De esa recta, 
nosotros sabemos que se define por su constante y su pendiente: tendrá una ecuación que será: a + bx, y 
tenemos que aprender a interpretar cuatro estadísticas asociadas al modelo de regresión: 
1. Constante 
2. La pendiente, que gráficamente seria cuan inclinada esta la recta. Se tiene que interpretar en 
términos de las unidades de X e Y: siempre que estemos en un contexto de regresión, tenemos que 
preguntarnos en que unidades esta medida. ¿Qué significa esa unidad? 
3. Error estándar: un error estándar de la constante y uno de la pendiente. El de la pendiente nos va a 
decir si esa pendiente es estadísticamente significativa o no. Más de una regla para decir si la pendiente es 
estadísticamente significativa: por ejemplo, que el intervalo de confianza no incluya al 0. La pendiente es 
4,5: el error estándar de la pendiente es igual a 1: 1.2 = 2. Intervalo de confianza: de 2,5 a 6,5. Este intervalo 
de confianza no incluye al 0, por lo que tenemos mucha confianza de que beta estaría en algún lado por ahí: 
no sabemos que es, pero sabemos que es positivo. Gráficamente es muy fácil de ver: el intervalo de 
confianza, gráficamente, sería algo así (cuaderno). Mi incertidumbre es acerca de cuál es la magnitud de la 
pendiente, pero no es si es positiva o negativa. En ese contexto digo que la pendiente es estadísticamente 
significativa. Con un n más chico, el error estándar puede ser más grande, como por ejemplo de 3. Si yo 
ahora hago el mismo razonamiento, este intervalo de confianza se va a ensanchar y se va a ensanchar tanto 
que va a incluir al cero: si multiplico al error estándar de 3 me va a dar 6, cuando reste 6 me va a dar -1,5 a 
10,5. Lo más importante es que este intervalo de confianza incluye al 0 y a números negativos: el parámetro 
tiene un 95% de probabilidad de estar en este rango. Yo no puedo afirmar con seguridad que la relación es 
positiva, porque dentro del intervalo está la posibilidad de que sea negativa. El 0 es una de las posibilidades. 
La regla fácil es si incluye al 0. Como se reflejaría esto gráficamente (cuaderno). Decir que no es 
estadísticamente significativa es igual a decir que no sabes mucho. Lo cual no quiere decir que no exista 
relación entre las variables: lo que yo digo es que mi estimación muestral tiene tanto error estándar que no 
puedo decir nada sobre el parámetro. 
Cuando hacemos regresiones lo hacemos en base a muestras, por ende, sabemos que vamos a tener algún 
error de estimación muestral. Es así que esto hay que incluirlo. 
Cuando no puedo decir mucho sobre el parámetro, es decir que el intervalo de confianza incluye al cero –
esto implica que en algún momento el intervalo cambia de signo, de positivo a negativo o al revés- esto 
implica que no es una correlación estadísticamente significativa. 
El error estándar disminuye cuanto más grande sea tu muestra –como vimos anteriormente hay un punto 
en el cual esa disminución se vuelve insignificante frente al costo de aumentar la muestra-. 
Aclaración tp: cuando invertís la correlación entre variables, es decir, que intercambias las variables 
independiente y dependiente la diferencia que obtengas responde al cambio de unidades de las mismas. La 
regresión siempre hay que tener en cuenta las unidades de análisis. La pendiente se analiza viendo como 
aumentando una unidad del eje x (VI), cuanto aumenta/disminuye la variable del eje y (VD). Por cada 
aumento de uno en la independiente, cuando espero que varíe la dependiente. ¿Qué pasa si yo cambio esto? 
Ahora la independiente pasa a ser la dependiente y viceversa. El cambio de la pendiente en este caso 
respecto del caso anterior, varia por las unidades, sustantivamente la correlación no cambia en nada. La 
regla es que cuando vos das vuelta una regresión te cambian los coeficientes, pero la correlación va a ser 
la misma por definición –te cambia la interpretación, no la correlación. La correlación no ve unidades-. La 
correlación es una medida que no tiene estrictamente vd o vi, es una medida de cuanto están asociadas las 
variables. La regresión es la que pone a una variable o la otra como independiente. 
Una forma de ver la correlación es viendo que tan buen predictor de y es x: que tan cerca están los puntos 
de la recta = cuanto más cerca más correlación. Correlación y pendiente miden diferentes aspectos de las 
variables, la correlación expresa cuan bien saber una predice el valor de la otra. En cambio, la pendiente 
me refleja cuanto responde la dependiente en unidades por cada cambio en una unidad de la 
independiente. 
Sin ningún dato más que las estadísticas descriptivas, no hay que predecir máximo ni mínimo, la media es la 
que más veces se va a acercar a la pendiente. 
Si imaginamos que sabemos el valor de x y la ecuación de esa recta. Lo que hago es reemplazar x por el valor 
que me das. Cuando yo le alimento a la ecuación un valor de x me devuelve un valor de y. más fácil, mirando 
el grafico puedo deducirlo: si vos me decís que tiene un valor alto de x, puedo predecir un valor alto de y, la 
regresión me dice esto. La recta de regresión le pone números a esto: en particular, un valor de 80 de x va 
asociado a un valor de 83 de y. esto implica calcular el valor predicho por el modelo. 
Yi es el valor real de una unidad de análisis particular en la VD. Ŷi es el valor que predice el modelo para 
determinado valor de la variable independiente –dado que es alto en x esperaría tal cosa en y. 
La variabilidad que va desde el aso hasta la media de Y, la llamo variabilidad total (Yi-la media): cuanto se 
aleja un caso del promedio de todos los casos, total porque se compone de dos partes. Un pedazo de esa 
variabilidad va asociada a la variabilidad de x, la parte de la variabilidad explicada por la variación de la 
variable independiente es el tramo desde la media hasta el valor que predice el modelo, a este pedazo se 
llama variabilidad explicada o predicha por el modelo (Ŷi–la media). Matemáticamente esto es el valor de y 
que me predice el modelo en la ecuación. (La predicción del modelo tiene error porque estamos hablando 
de estimación muestrales). Lo que va desde lo predicho por el modelo hasta el valor del caso se llama 
variabilidad no explicada (Yi-Ŷi), porque está por encima/debajo de lo predicho por el modelo. Esto se puede 
explicar posiblemente por otra variables intervinientes. Es muy importanteesto sustantivamente, la 
variación no explicada contiene todo el impacto de las demás variables intervinientes que no están 
controladas por el modelo (no hay ceteris paribus). Tengo una correlación entre x e y sin controlar por otras 
variables. 
La variabilidad total suele llamarse residuo, error o disturbance. Y suele representarse en la ecuación como 
e/u. se agrega a la ecuación de la recta cuando ves cada caso particular. Yi = a + b.Xi + ei

Otros materiales