Logo Studenta

1 Clases Estadística (1 (27)

¡Estudia con miles de materiales!

Vista previa del material en texto

El R cuadrado se hace para analizar cada caso y ver cuanta variabilidad hay en cada caso, y cuanta de esa 
variabilidad de ese caso es explicada por el modelo (fórmula en cuaderno). 
El R cuadrado se encuentra como medida de bondad de ajuste interpretado como la proporción de la 
variabilidad de la VD, explicada por la VI. La palabra explicada acá es entre comillas, porque en realidad habla 
de la asociación entre las variables. La forma correcta de decir esto sería cambiando la palabra explicada con 
predice, o decir: vamos a interpretar al R2 como la proporción de la variabilidad de la VD, explicada en 
sentido estadístico por la variabilidad de la VI. 
Cuando interpretamos coeficientes siempre hay que tener presentes las unidades de ambas variables. 
Cuando interpretamos pendientes no hay que dejarnos llevar porque el coeficiente sea pequeño 
directamente implique que el impacto es pequeño. 
Clase 16/11. 
Cualquier estadística conocida no nos indica nada sobre causalidad entre variables. Hay que erradicar el 
error de que cuando hay correlación implica causalidad, es solo una de las cinco posibles causas. 
En el ejemplo de Berry y Sanders no sabemos cuánto peso atribuirle a la flecha que une las variables. 
Muchas cosas que parecen ser evidentemente obvias pueden fracasar por diversos motivos. Lo que este 
grafico nos muestra es que hay una correlación positiva entre peso y consumo de calorías –el orden es 
indistinto-. 
La regresión lineal es un modelo, el modelo que le pone a los datos es una recta. La recta es una imposición 
del modelo. 
Cuando interpretamos una regresión siempre hay que tener en cuenta las unidades porque la magnitud es 
muy importante para entender el impacto de la variable independiente sobre la dependiente. En términos 
prácticos, hay que limitarse a interpretar la pendiente sin tener en cuenta la magnitud a menos de que lo 
pida. 
La t en un cuadro de regresión plantea cuantas veces entra el error estándar en el coeficiente. 
Hay una correspondencia muy clara entre intervalo de confianza y el valor de p. 
Si yo quiero hacer un intervalo de confianza de 99% en stata tengo que usar el comando reg vd vi, level(99) 
o entre paréntesis el número que desee hasta 99.99. 
El R2 es la proporción de la vd explicada, en sentido estadístico, o predicha por la variabilidad de la vi. 
Vamos a dar un salto importante: regresiones múltiples. 
Acá todo se complica porque no se puede graficar. 
Lo que stata nos muestra no es demasiado diferente, ahora tengo dos variables independientes y por lo 
tanto dos pendientes. Cambia la interpretación de los coeficientes: 
- La constante es el valor esperado de la dependiente cuando todas las variables independientes 
incluidas en el modelo son iguales a cero. 
- Las pendientes: la pendiente en un contexto de regresión múltiple se interpreta como cuanto 
espero que aumente o disminuye la variable dependiente por cada aumento de una unidad en la 
variable independiente cuando las demás independientes están mantenidas constantes o cuando 
están controladas las demás variables independientes. Ej. por cada aumento en una unidad de 
desarrollo humano esperaría que aumenten 72 unidades el índice de globalización después de 
mantener constante el nivel de polity. El coeficiente de polity: esperaría que por cada aumento en 
una unidad del nivel de polity esperaría que aumente 0,5 unidades el nivel de globalización si se 
mantiene constante el nivel de desarrollo humano. Al controlar por desarrollo humano la pendiente 
de polity se reduce mucho. Los coeficientes no son los mismos al hacer regresión múltiple. 
Incluir una variable al modelo estadístico equivale a controlar las demás variables, a mantener las 
variables más ceteris paribus. A más variables incluidas en el modelo, más ceteris paribus obtenés. Las 
cosas son bastante diferentes si las dos vi están correlacionadas. 
¿Qué pasa con el R2? La regresión de las dos juntas da más de las dos juntas pero no más que la suma. 
Cuando hay una correlación positiva entre las vi es decir que las dos vi comparten algo, lo que pasa es que 
cuando las vi están correlacionadas entre ellas comparten varianza, hay un pedazo de las dos variables 
que es compartido entonces lo que cada uno aporta al modelo es lo que cada variable independiente 
aporta sin el pedazo que comparten: es por eso que los R2 de cada una no se suma cuando hay correlación 
éntrelas VI. 
El R2 es el porcentaje de la variabilidad de la VD explicado en sentido estadístico por la variabilidad de 
todas las VI. 
Clase 21/11. 
Estadística bivariada vimos que la forma de medir la correlación entre dos variables depende de su nivel de 
medición, vimos el test de significación para variables nominales u ordinales -CHI2-, aplicamos las mismas 
ideas a regresión -solo cambiamos el nivel de medición, pasamos a intervalares de tablas a gráficos-. 
Aprovechamos la regresión para saltar a la estadística multivariada. 
Dos variables pueden variar juntas por muchas razones (5). Imaginando que tenemos una x que creo que 
es la causa de y. 
Ej. x calidad universidad, y salario neto. Para mantener más ceteris paribus tomamos una misma carrera. Y 
encuentro un coeficiente positivo y significado de correlación entre la calidad de la universidad y cuánto 
ganan los alumnos cuando se gradúan. Calidad varía entre cero y cien, salario neto esta medido en pesos. 
Hacemos la regresión, b es igual a 120 -se esperaría que por cada punto adicional en el ranking que la 
universidad del graduado tiene, que el graduado gane en promedio $120 pesos más de salario neto. En el 
total son $12.000-. a (la constante) es igual a 15.000 -la expectativa de este modelo es que lo graduados de 
las peores universidades (porque cero en la variable tiene este significado) ganen de salario neto $15.000. 
los que se gradúan de las mejores universidades se espera que ganen $27.000, esto es ponerle un número 
a la diferencia de salario entre los graduados de diferentes universidades-. 
La esencia de la estadística multivariada es pensar en que otra/s variables me impactan en la dependiente 
que este correlacionada con la independiente me afectan la correlación, si hay alguna tengo que ingresarla 
en el modelo con el fin de aumentar el ceteris paribus. Un modelo de regresión agrega muchas variables 
independientes, todas aquellas que uno supone que impacta en la variable dependiente pero que están 
correlacionadas con las independientes. 
Con un modelo múltiple, controlando por la capacidad del alumno, la distancia geográfica, el nivel 
socioeconómico, etc., la estimación de la pendiente es diferente porque estoy controlando por otros 
factores. Antes el valor de la pendiente contenía varios impactos. Se busca reinsertar el ceteris paribus por 
medio de agregar variables. las que tienen alguna correlación con las demás si no tenés las variables en el 
modelo las demás variable se llevan el crédito, tienen que estar sí o sí, si pones otras variables en el 
modelo que no están correlacionando está buenísimo porque suma al R2 pero no ponerla no es tan grave 
como no incluir variables correlacionadas -sesgo de la variable no incluida o algo así en Berry y Sanders-.

Otros materiales