Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Si esta relación fuera causal podríamos decir que el crecimiento económico es fundamental para las elecciones. Un modelo simple -con una sola VI- y bivariado asume que otras variables no son importantes. Esto nos lleva a los modelos de regresión múltiple, donde agregamos variables y controlamos por otras cosas. Cuando la nube de unidades de análisis es bastante amplia tenemos variabilidad, por eso es mejor tomar muestras grandes para evitar errores. Podemos pensar esto viendo unidades de análisis que tienen el mismo nivel en una variable, pero en la otra son distinta, entonces las distancias entre la predicción del modelo y lo que realmente ocurre de alguna forma contienen información: ej., no hay ceteris paribus, hay otras variables que intervienen y explican la diferencia entre las unidades de análisis en la variable que cambian. Clase 7/11. Todas las estadísticas dependen del nivel de medición de las variables, de alguna forma si las variables involucradas en un análisis bivariado son nominales u ordinales la herramienta central, principal para analizar si hay correlación entre estas variables es la tabla bivariada, con la VD arriba, y la VI a la izquierda, complementada con alguna medida de asociación propia para tablas bivariadas según el nivel de medición de las variables y algún test de significación (CHI2). si las dos variables eran intervalares eso es lo que empezamos a ver la clase pasada, lo que hacemos es un gráfico de dispersión, complementado con la recta de regresión, alguna medida de asociación (por ej. R de Pearson o coeficiente de correlación), y tambien vamos a tener test de significación. ¿Qué pasa cuando tenemos una variable nominal u ordinal combinada con una variable intervalar? Con una combinación de variables de distinto nivel de medición lo típico que se hace acá es una comparación de medias. Comando bysort nos permite hacer cualquier comando de stata dividido por grupos según las categorías o valores de la variable. Es una forma rápida. T-TEST se pregunta si dos medias son suficientemente diferentes como para que no sea atribuible al margen de error. Si es lo suficientemente grande para hacerlo declaramos que esa diferencia no es estadísticamente significativa, si el error muestral podría declarar esa diferencia no es estadísticamente significativa esa diferencia. Si la diferencia es suficientemente grande para no ser atribuida al error muestral entonces es estadísticamente significativa. El Test-T es una diferencia de medias me permite ver si la correlación entre variables es lo suficientemente fuerte como para descartar la hipótesis nula. El comanda en stata es ttest variable intervalar, by variable nominal/ordinal. Si el intervalo de confianza de la diferencia incluye al cero entonces no puedo rechazar la hipótesis nula, que sería en el ejemplo que hombres y mujeres tienen la misma edad. y en este caso la hipótesis nula está incluida en el intervalo de confianza. Incluso en el intervalo de confianza está incluida la relación opuesta a la encontrada, es decir, que los hombres sean más grandes que las mujeres. Si el error estándar es igual o menor a la mitad del coeficiente de diferencia si obtendremos resultados estadísticamente significativos. Cuando el intervalo de confianza es enteramente negativo implica que tengo por ejemplo un 95% de seguridad de que el parámetro se encuentre entre esos dos límites negativos, es decir, que el parámetro sea negativo. La diferencia real estaría con tal probabilidad que este dentro de ese intervalo. Existe otra forma de hacer esto sin intervalos de confianza, con un test de hipótesis. Existe un enfoque de las hipótesis nulas contra las hipótesis alternativas. Si una diferencia es estadísticamente significativa es más fácil hacerlo con un intervalo de confianza de diferente y ver si incluye el cero. Acá cubrimos una situación donde una variable es nominal y otra intervalar. Volviendo a regresión: La interpretación de una pendiente de regresión: cuantas unidades esperamos que aumente o disminuya la VD por cada aumento de una unidad en la VI. Es decir, la ecuación de regresión es una ecuación de predicción tambien, la correlación puede ser vista como una predicción. Por ejemplo: en el caso de crecimiento económico y voto por el oficialismo sería en un modelo lineal e imperfecto de y=33+4.x, el cual nos diría que en función de una tasa de crecimiento económico de X el oficialismo obtendría Y. Cada vez que hacemos estadística hacemos un modelo simplificado de la realidad. La regresión en su forma más sencilla le impone una relación rectilínea, no implica que la realidad sea rectilínea. El comando de stata corr por correlación nos indica el coeficiente o el R de Pearson. Interpretando regresiones: coeficientes (constante y pendiente), error estándar, intervalos de confianza, y el R cuadrado. Las cuatro estadísticas que tenemos que saber interpretar de una regresión. Ejemplos: - Constante: la VI esta medida en dólares, sería un aumento de un dólar en el PBI per cápita de un país. La VD es globalización, varía entre 22 y 92. La constante en este caso es de 46.3939, el modelo predice que para un país con un PBI per cápita de 0 dólares se esperaría un nivel de globalización de 46.3939. esto se llama una predicción fuera de la muestra, porque no hay ningún país con PBI per cápita de cero o menos de 300 dólares. Pendiente: por cada aumento de un dólar en el PBI per cápita yo espero que aumente el nivel de globalización en un 0.0009 unidades. Tengo que tener en cuenta la magnitud de las unidades de la variable independiente, no hay que confundir los términos de medidas de asociación que varían entre -1 y 1 y no tienen unidades, pero la pendiente se interpreta en unidades y no está limitada. En este caso este coeficiente parece chico, pero si pensamos que un aumento en un dólar de la vi es insignificante, es decir, un dólar en un PBI no es nada. - El intervalo de confianza quiere decir que yo tengo una probabilidad de 95 o 99% de que el parámetro este incluido entre esos dos valores. Tengo que tener en cuenta que si el intervalo no incluye al cero puedo rechazar la hipótesis nula. Regla de interpretación: si incluye o no al cero, si lo incluye no es estadísticamente significativa. - Si el valor t es mayor a dos es estadísticamente significativo al 95%, es una regla rápida. El valor t es cuantas veces entra el error estándar en el coeficiente (sea la constante o la pendiente) - El valor p es la misma probabilidad que aprendimos con CHI2, se interpreta como la probabilidad de obtener una pendiente como esta o más si la hipótesis nula fuese cierta. si la probabilidad es cero rechazo la hipótesis nula, porque es imposible obtener una pendiente como esta si en la realidad no hubiese correlación entre las variables. - Error estándar TODAS ESTAS SON FORMAS DE VER LA SIGNIFICACION ESTADISTICA. R cuadrado: es el cuadrado de R, el coeficiente de correlación de Pearson. Es un coeficiente que puede ir de -1 a 1, siempre da positivo el r cuadrado: varía entre 0 y 1. La interpretación habitual de cuan bien ajusta el modelo de r cuadrado es que proporción de la varianza de la variable dependiente es explicada en sentido estadístico por la variable independiente (o la proporción de la varianza de la VD viene predicha por la VI). El r cuadrado nos muestra que dos variables están correlacionadas, usamos la palabra explicación, pero estamos abusando un poco porque realmente no sabemos si una variable explica a la otra, solo están correlacionadas. El R cuadrado te promedia que tan bien esta explicado cada caso con el modelo, y te devuelve un promedio.
Compartir