Logo Studenta

1 Clases Estadística (1 (28)

¡Estudia con miles de materiales!

Vista previa del material en texto

Si yo quisiera hacer un estudio experimental del tema de la universidad seria mantener constante todo 
menos lo que el investigador manipula. Hay que agarrar a los estudiantes de secundario del último año, 
sacar mil al azar y le asignas un tratamiento: una nueva universidad, y sacas otros mil al azar y le aplicas 
otro tratamiento diferente: una universidad mala. En promedio son todos iguales. En cada universidad 
tenés una muestra representativa del universo. Lo que descubrís es que los que van a la mejor universidad 
en realidad ganan $5.000 pesos más, y esto se debe al ceteris paribus real. Lo que la regresión múltiple 
hace un control menos riguroso que el experimental, pero es mejor que no tener nada. 
Los coeficientes de variables medidas en diferentes unidades no son comparables. Vos tenés que comparar 
su máxima variación, hay que tener en cuenta las unidades -en qué unidades esta medido y cuantas 
unidades tiene-. 
Si vos no controlas por las variables independientes que están correlacionadas con la VI y afectan a la VD 
sobreestimas o subestimas el impacto. 
Puede haber proyecciones por fuera de la muestra. 
R cuadrado ajustado, es una medida de bondad de ajuste, que tiene en cuenta la cantidad de variables 
independientes que tiene el modelo y penaliza la adhesión de más VI. Es la lógica de que agregar una 
nueva VI al modelo, posiblemente explique un poquitito por error. Lo que hace es penalizar cada variable 
nueva, cosa de que agregues una variable nueva si aumenta el R2 ajustado. Si lo que agrega esa variable al 
R2 es suficientemente grande para que pase el test del R2 ajustado, que te exige que la nueva variable 
aporte algo significativo. Te regula o controla que vos no pongas correlaciones entre vi y vd que son 
aleatorias, producto del error muestral, correlaciones que deberían dar cero, pero no dan. En contextos de 
regresión múltiple no interpretamos el R2, interpretamos el R2 ajustado. Cuantas más variables agregues 
el modelo se satura, si agrego la misma cantidad de variables que unidades de análisis, el R2 da uno, pero 
es una truchada. El R2 ajustado lo que te dice es el R2 sin contar algún posible error muestral. 
Hay que saber interpretar regresiones en signo, magnitudes y significaciones estadísticas. Para eso hay que 
entender cada variable, en que unidades esta medida y en cuanto varia. Es práctica esencial para el 
examen. 
Clase 23/11. 
La recta azul es mi estimación del impacto causal de forma naif, sin controlar por nada. Cuando hago un 
análisis un poco más sofisticado, voy a controlar por otras variables y la pendiente disminuye: la estimación 
de cuanto influye la calidad del piloto sobre los puntos es menor, y esto se explica por el sesgo de la 
variable omitida. 
Si querés estimar el efecto de x1 sobre y, tenés sesgo de la variable omitida cada vez que te falta en el 
modelo una vi -x2- que tiene estados características: la primera es que tiene un impacto causal sobre y, y 
esta x2 esté correlacionada con x1. Bajo estas condiciones si x2 no está tenés el sesgo de la variable 
omitida, sobreestimación o subestimación. Si se rompe la correlación y yo omito a x2 del modelo 
estadístico no voy a estar sesgando a x1. (rotar los autos equivale a romper la correlación, porque los 
mejores pilotos corren con los mejores autos y viceversa, de forma que hay correlación entre calidad de los 
pilotos y calidad de los autos). Este modelo es mejor porque va a tener un R2 más alto, el problema es que 
si hubiera correlación y yo saco x2 pierdo capacidad de explicación del modelo -disminuye R2-, pero 
además estoy estimando de forma naif x1, lo sobre/subestimo. 
Hay motivos para tener un x2 que no esté correlacionado, acá solo tendrías un modelo incompleto. Pero 
no agregarla no te sesga el modelo. 
Vos agregas vi al modelo que creas importantes, pero sobre todo que vos puedas medir, que vos tengas 
indicadores. 
Texto Milner y Kubota. 
Correlación entre régimen democrático y apertura económica aun manteniendo constantes más variables 
como crisis económicas, el consenso de Washington etc. El contexto: en el mundo empezó la tercera ola de 
democratización ’70 con las democratizaciones del sur de Europa, luego viene américa latina, Europa del 
este, áfrica. Y resulta que algo así como diez años más tardes de que empieza la ola de democratización 
comienza esta ola de reformas económicas: los países empiezan a ser más abiertos al comercio 
internacional. Pierde legitimidad la estrategia proteccionista de desarrollo económico, el mundo se vuelca 
a un mundo de mayor libre comercio. ¿no habrá relación causal? La democracia no llevará a una mayor 
apertura económica, es lo que se preguntan las autoras. Que mecanismo causal conectarían estas 
variables: ahora que se abre el electorado las clases bajas comienzan a tener un rol más importante, los 
gobernantes empiezan a representar a esas clases que los llevan al gobierno y su demanda era abrir el 
comercio para tener precios más bajos (contraintuitivo para argentina). La lógica económica llevaba a que 
históricamente el partido socialista era librecambista para hacer bienes más baratos. Hay una lógica 
económica. 
Tariff rates indicador de apertura comercial, no es lo mismo (VD). VI’s varían en su inclusión en los seis 
modelos que proponen, polity (cuan democrático es un país), gdp pc (pbi per capita), ln pop (población que 
tiene un país), ec crisis, bp crisis, imf, us heg y five open. 
Para hacer regresiones se hacen con variables intervalares o nominales dicotómicas. Esto es importante 
para la interpretación. Con variables dicotómicas cuando interpreto las pendientes es más fácil hacerlo 
pasando al máximo valor de la variable. 
Más apertura quiere decir aranceles más altos, y por ende menos tarifas. 
Hay variables independientes corridas por la vd: tarifas. 
Por cada aumento de un punto en la variable polity -que varía 21 puntos- se esperaría que bajen en un 
0.264% la tarifa promedio, manteniendo todas las variables independientes incluidas en el modelo 
constantes. Hay que saber en qué unidades están medidas las variables. 
Para que el error estándar llegue a una significación estadística debería entrar dos veces en el coeficiente. 
Con la aclaración muy importante de que cuando no hay significación estadística esto es cierto para la 
muestra pero no sabemos si lo es para el universo, de modo que no vamos a decir nada sobre ese 
coeficiente. 
No nos podemos dejar engañar por los números chicos o grandes de las pendientes de una regresión 
porque están medidas en unidades diferentes. Los coeficientes dependen de la variabilidad de las unidades 
de análisis. En el examen vamos a tener que interpretar regresiones sabiendo las unidades de análisis. 
 
Último texto: 
Por cada aumento en un crecimiento del pbi per cápita en un punto, esperas que el porcentaje de la 
volatilidad electoral total disminuya en un 0.889, manteniendo constantes todas las variables 
independientes incluidas en el modelo.

Otros materiales