Logo Studenta

1 Clases Estadística (1 (24)

¡Estudia con miles de materiales!

Vista previa del material en texto

Si esta relación fuera causal podríamos decir que el crecimiento económico es fundamental para las 
elecciones. 
Un modelo simple -con una sola VI- y bivariado asume que otras variables no son importantes. Esto nos 
lleva a los modelos de regresión múltiple, donde agregamos variables y controlamos por otras cosas. 
Cuando la nube de unidades de análisis es bastante amplia tenemos variabilidad, por eso es mejor tomar 
muestras grandes para evitar errores. Podemos pensar esto viendo unidades de análisis que tienen el 
mismo nivel en una variable, pero en la otra son distinta, entonces las distancias entre la predicción del 
modelo y lo que realmente ocurre de alguna forma contienen información: ej., no hay ceteris paribus, 
hay otras variables que intervienen y explican la diferencia entre las unidades de análisis en la variable que 
cambian. 
Clase 7/11. 
Todas las estadísticas dependen del nivel de medición de las variables, de alguna forma si las variables 
involucradas en un análisis bivariado son nominales u ordinales la herramienta central, principal para 
analizar si hay correlación entre estas variables es la tabla bivariada, con la VD arriba, y la VI a la izquierda, 
complementada con alguna medida de asociación propia para tablas bivariadas según el nivel de medición 
de las variables y algún test de significación (CHI2). si las dos variables eran intervalares eso es lo que 
empezamos a ver la clase pasada, lo que hacemos es un gráfico de dispersión, complementado con la recta 
de regresión, alguna medida de asociación (por ej. R de Pearson o coeficiente de correlación), y tambien 
vamos a tener test de significación. 
¿Qué pasa cuando tenemos una variable nominal u ordinal combinada con una variable intervalar? Con 
una combinación de variables de distinto nivel de medición lo típico que se hace acá es una comparación 
de medias. 
Comando bysort nos permite hacer cualquier comando de stata dividido por grupos según las categorías o 
valores de la variable. Es una forma rápida. 
T-TEST se pregunta si dos medias son suficientemente diferentes como para que no sea atribuible al 
margen de error. Si es lo suficientemente grande para hacerlo declaramos que esa diferencia no es 
estadísticamente significativa, si el error muestral podría declarar esa diferencia no es estadísticamente 
significativa esa diferencia. Si la diferencia es suficientemente grande para no ser atribuida al error 
muestral entonces es estadísticamente significativa. El Test-T es una diferencia de medias me permite ver 
si la correlación entre variables es lo suficientemente fuerte como para descartar la hipótesis nula. El 
comanda en stata es ttest variable intervalar, by variable nominal/ordinal. 
Si el intervalo de confianza de la diferencia incluye al cero entonces no puedo rechazar la hipótesis nula, 
que sería en el ejemplo que hombres y mujeres tienen la misma edad. y en este caso la hipótesis nula está 
incluida en el intervalo de confianza. Incluso en el intervalo de confianza está incluida la relación opuesta a 
la encontrada, es decir, que los hombres sean más grandes que las mujeres. Si el error estándar es igual o 
menor a la mitad del coeficiente de diferencia si obtendremos resultados estadísticamente significativos. 
Cuando el intervalo de confianza es enteramente negativo implica que tengo por ejemplo un 95% de 
seguridad de que el parámetro se encuentre entre esos dos límites negativos, es decir, que el parámetro 
sea negativo. La diferencia real estaría con tal probabilidad que este dentro de ese intervalo. 
Existe otra forma de hacer esto sin intervalos de confianza, con un test de hipótesis. Existe un enfoque de 
las hipótesis nulas contra las hipótesis alternativas. Si una diferencia es estadísticamente significativa es 
más fácil hacerlo con un intervalo de confianza de diferente y ver si incluye el cero. 
Acá cubrimos una situación donde una variable es nominal y otra intervalar. 
Volviendo a regresión: 
La interpretación de una pendiente de regresión: cuantas unidades esperamos que aumente o disminuya 
la VD por cada aumento de una unidad en la VI. Es decir, la ecuación de regresión es una ecuación de 
predicción tambien, la correlación puede ser vista como una predicción. Por ejemplo: en el caso de 
crecimiento económico y voto por el oficialismo sería en un modelo lineal e imperfecto de y=33+4.x, el cual 
nos diría que en función de una tasa de crecimiento económico de X el oficialismo obtendría Y. 
Cada vez que hacemos estadística hacemos un modelo simplificado de la realidad. La regresión en su forma 
más sencilla le impone una relación rectilínea, no implica que la realidad sea rectilínea. 
El comando de stata corr por correlación nos indica el coeficiente o el R de Pearson. 
Interpretando regresiones: coeficientes (constante y pendiente), error estándar, intervalos de confianza, y 
el R cuadrado. Las cuatro estadísticas que tenemos que saber interpretar de una regresión. Ejemplos: 
- Constante: la VI esta medida en dólares, sería un aumento de un dólar en el PBI per cápita de un 
país. La VD es globalización, varía entre 22 y 92. La constante en este caso es de 46.3939, el modelo 
predice que para un país con un PBI per cápita de 0 dólares se esperaría un nivel de globalización de 
46.3939. esto se llama una predicción fuera de la muestra, porque no hay ningún país con PBI per 
cápita de cero o menos de 300 dólares. 
Pendiente: por cada aumento de un dólar en el PBI per cápita yo espero que aumente el nivel de 
globalización en un 0.0009 unidades. Tengo que tener en cuenta la magnitud de las unidades de la 
variable independiente, no hay que confundir los términos de medidas de asociación que varían 
entre -1 y 1 y no tienen unidades, pero la pendiente se interpreta en unidades y no está limitada. 
En este caso este coeficiente parece chico, pero si pensamos que un aumento en un dólar de la vi 
es insignificante, es decir, un dólar en un PBI no es nada. 
- El intervalo de confianza quiere decir que yo tengo una probabilidad de 95 o 99% de que el 
parámetro este incluido entre esos dos valores. Tengo que tener en cuenta que si el intervalo no 
incluye al cero puedo rechazar la hipótesis nula. Regla de interpretación: si incluye o no al cero, si lo 
incluye no es estadísticamente significativa. 
- Si el valor t es mayor a dos es estadísticamente significativo al 95%, es una regla rápida. El valor t es 
cuantas veces entra el error estándar en el coeficiente (sea la constante o la pendiente) 
- El valor p es la misma probabilidad que aprendimos con CHI2, se interpreta como la probabilidad 
de obtener una pendiente como esta o más si la hipótesis nula fuese cierta. si la probabilidad es 
cero rechazo la hipótesis nula, porque es imposible obtener una pendiente como esta si en la 
realidad no hubiese correlación entre las variables. 
- Error estándar 
TODAS ESTAS SON FORMAS DE VER LA SIGNIFICACION ESTADISTICA. 
R cuadrado: es el cuadrado de R, el coeficiente de correlación de Pearson. Es un coeficiente que puede ir 
de -1 a 1, siempre da positivo el r cuadrado: varía entre 0 y 1. La interpretación habitual de cuan bien 
ajusta el modelo de r cuadrado es que proporción de la varianza de la variable dependiente es explicada 
en sentido estadístico por la variable independiente (o la proporción de la varianza de la VD viene 
predicha por la VI). El r cuadrado nos muestra que dos variables están correlacionadas, usamos la palabra 
explicación, pero estamos abusando un poco porque realmente no sabemos si una variable explica a la 
otra, solo están correlacionadas. El R cuadrado te promedia que tan bien esta explicado cada caso con el 
modelo, y te devuelve un promedio.

Otros materiales