1 Clases Estadística (1 (26)

Estadística

•

SIN SIGLA

0

aidensz27

8/7/2023

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Estadística

5385 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

• R2 ajustado: contempla el número de variables incluidas en el modelo. Expresa los costos y
beneficios de incorporar una nueva VI. Es menor a R2.
• Coeficientes estandarizados (beta)
• Los coeficientes estandarizados permiten visualizar las pendientes en una unidad común con el
objetivo de comparar los efectos de las distintas VI sobre la VD.
Clase 14/11.
BERRY AND SANDERS. Cap. 1 y 2.
Recapitulando lo que venimos siendo sobre regresión, es un análisis estadístico que aplicamos a situaciones
bivariadas, y las dos variables son de naturaleza intervalar. En vez de hacer tabla, hacemos grafico de
dispersión, graficamos puntos y hacemos la recta de menor ajuste. Una de las complejizaciones va a ser
hacer rectas curvilíneas. Primer debemos entender el modelo de regresión rectilíneo: X intervalar, Y
intervalar, y una serie de puntos que son las unidades de análisis y sus coordenadas. Si tengo un tipo de
situación como puntos en el gráfico, lo que el análisis de regresión va a hacer es encontrar la recta de menor
ajuste: es la que pasa más cerca de todos esos puntos, que es el método de mínimos cuadrados. La recta de
regresión es un modelo: un modelo es una representación simplificada y útil de la realidad. Es un modelo de
la relación entre X e Y: porque la relación entre X e Y es más sucia que la recta: la relación entre X e Y tiene
ruido, no aumenta Y siempre lo mismo cada vez que aumenta X: pero la recta resume en promedio cual es
la relación entre X e Y: no hay ningún modelo que no sea una simplificación de la realidad. De esa recta,
nosotros sabemos que se define por su constante y su pendiente: tendrá una ecuación que será: a + bx, y
tenemos que aprender a interpretar cuatro estadísticas asociadas al modelo de regresión:
1. Constante
2. La pendiente, que gráficamente seria cuan inclinada esta la recta. Se tiene que interpretar en
términos de las unidades de X e Y: siempre que estemos en un contexto de regresión, tenemos que
preguntarnos en que unidades esta medida. ¿Qué significa esa unidad?
3. Error estándar: un error estándar de la constante y uno de la pendiente. El de la pendiente nos va a
decir si esa pendiente es estadísticamente significativa o no. Más de una regla para decir si la pendiente es
estadísticamente significativa: por ejemplo, que el intervalo de confianza no incluya al 0. La pendiente es
4,5: el error estándar de la pendiente es igual a 1: 1.2 = 2. Intervalo de confianza: de 2,5 a 6,5. Este intervalo
de confianza no incluye al 0, por lo que tenemos mucha confianza de que beta estaría en algún lado por ahí:
no sabemos que es, pero sabemos que es positivo. Gráficamente es muy fácil de ver: el intervalo de
confianza, gráficamente, sería algo así (cuaderno). Mi incertidumbre es acerca de cuál es la magnitud de la
pendiente, pero no es si es positiva o negativa. En ese contexto digo que la pendiente es estadísticamente
significativa. Con un n más chico, el error estándar puede ser más grande, como por ejemplo de 3. Si yo
ahora hago el mismo razonamiento, este intervalo de confianza se va a ensanchar y se va a ensanchar tanto
que va a incluir al cero: si multiplico al error estándar de 3 me va a dar 6, cuando reste 6 me va a dar -1,5 a
10,5. Lo más importante es que este intervalo de confianza incluye al 0 y a números negativos: el parámetro
tiene un 95% de probabilidad de estar en este rango. Yo no puedo afirmar con seguridad que la relación es
positiva, porque dentro del intervalo está la posibilidad de que sea negativa. El 0 es una de las posibilidades.
La regla fácil es si incluye al 0. Como se reflejaría esto gráficamente (cuaderno). Decir que no es
estadísticamente significativa es igual a decir que no sabes mucho. Lo cual no quiere decir que no exista
relación entre las variables: lo que yo digo es que mi estimación muestral tiene tanto error estándar que no
puedo decir nada sobre el parámetro.
Cuando hacemos regresiones lo hacemos en base a muestras, por ende, sabemos que vamos a tener algún
error de estimación muestral. Es así que esto hay que incluirlo.
Cuando no puedo decir mucho sobre el parámetro, es decir que el intervalo de confianza incluye al cero –
esto implica que en algún momento el intervalo cambia de signo, de positivo a negativo o al revés- esto
implica que no es una correlación estadísticamente significativa.
El error estándar disminuye cuanto más grande sea tu muestra –como vimos anteriormente hay un punto
en el cual esa disminución se vuelve insignificante frente al costo de aumentar la muestra-.
Aclaración tp: cuando invertís la correlación entre variables, es decir, que intercambias las variables
independiente y dependiente la diferencia que obtengas responde al cambio de unidades de las mismas. La
regresión siempre hay que tener en cuenta las unidades de análisis. La pendiente se analiza viendo como
aumentando una unidad del eje x (VI), cuanto aumenta/disminuye la variable del eje y (VD). Por cada
aumento de uno en la independiente, cuando espero que varíe la dependiente. ¿Qué pasa si yo cambio esto?
Ahora la independiente pasa a ser la dependiente y viceversa. El cambio de la pendiente en este caso
respecto del caso anterior, varia por las unidades, sustantivamente la correlación no cambia en nada. La
regla es que cuando vos das vuelta una regresión te cambian los coeficientes, pero la correlación va a ser
la misma por definición –te cambia la interpretación, no la correlación. La correlación no ve unidades-. La
correlación es una medida que no tiene estrictamente vd o vi, es una medida de cuanto están asociadas las
variables. La regresión es la que pone a una variable o la otra como independiente.
Una forma de ver la correlación es viendo que tan buen predictor de y es x: que tan cerca están los puntos
de la recta = cuanto más cerca más correlación. Correlación y pendiente miden diferentes aspectos de las
variables, la correlación expresa cuan bien saber una predice el valor de la otra. En cambio, la pendiente
me refleja cuanto responde la dependiente en unidades por cada cambio en una unidad de la
independiente.
Sin ningún dato más que las estadísticas descriptivas, no hay que predecir máximo ni mínimo, la media es la
que más veces se va a acercar a la pendiente.
Si imaginamos que sabemos el valor de x y la ecuación de esa recta. Lo que hago es reemplazar x por el valor
que me das. Cuando yo le alimento a la ecuación un valor de x me devuelve un valor de y. más fácil, mirando
el grafico puedo deducirlo: si vos me decís que tiene un valor alto de x, puedo predecir un valor alto de y, la
regresión me dice esto. La recta de regresión le pone números a esto: en particular, un valor de 80 de x va
asociado a un valor de 83 de y. esto implica calcular el valor predicho por el modelo.
Yi es el valor real de una unidad de análisis particular en la VD. Ŷi es el valor que predice el modelo para
determinado valor de la variable independiente –dado que es alto en x esperaría tal cosa en y.
La variabilidad que va desde el aso hasta la media de Y, la llamo variabilidad total (Yi-la media): cuanto se
aleja un caso del promedio de todos los casos, total porque se compone de dos partes. Un pedazo de esa
variabilidad va asociada a la variabilidad de x, la parte de la variabilidad explicada por la variación de la
variable independiente es el tramo desde la media hasta el valor que predice el modelo, a este pedazo se
llama variabilidad explicada o predicha por el modelo (Ŷi–la media). Matemáticamente esto es el valor de y
que me predice el modelo en la ecuación. (La predicción del modelo tiene error porque estamos hablando
de estimación muestrales). Lo que va desde lo predicho por el modelo hasta el valor del caso se llama
variabilidad no explicada (Yi-Ŷi), porque está por encima/debajo de lo predicho por el modelo. Esto se puede
explicar posiblemente por otra variables intervinientes. Es muy importanteesto sustantivamente, la
variación no explicada contiene todo el impacto de las demás variables intervinientes que no están
controladas por el modelo (no hay ceteris paribus). Tengo una correlación entre x e y sin controlar por otras
variables.
La variabilidad total suele llamarse residuo, error o disturbance. Y suele representarse en la ecuación como
e/u. se agrega a la ecuación de la recta cuando ves cada caso particular. Yi = a + b.Xi + ei