1 Clases Estadística (1 (24)

Estadística

•

SIN SIGLA

aidensz27

8/7/2023

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Estadística

5385 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Si esta relación fuera causal podríamos decir que el crecimiento económico es fundamental para las
elecciones.
Un modelo simple -con una sola VI- y bivariado asume que otras variables no son importantes. Esto nos
lleva a los modelos de regresión múltiple, donde agregamos variables y controlamos por otras cosas.
Cuando la nube de unidades de análisis es bastante amplia tenemos variabilidad, por eso es mejor tomar
muestras grandes para evitar errores. Podemos pensar esto viendo unidades de análisis que tienen el
mismo nivel en una variable, pero en la otra son distinta, entonces las distancias entre la predicción del
modelo y lo que realmente ocurre de alguna forma contienen información: ej., no hay ceteris paribus,
hay otras variables que intervienen y explican la diferencia entre las unidades de análisis en la variable que
cambian.
Clase 7/11.
Todas las estadísticas dependen del nivel de medición de las variables, de alguna forma si las variables
involucradas en un análisis bivariado son nominales u ordinales la herramienta central, principal para
analizar si hay correlación entre estas variables es la tabla bivariada, con la VD arriba, y la VI a la izquierda,
complementada con alguna medida de asociación propia para tablas bivariadas según el nivel de medición
de las variables y algún test de significación (CHI2). si las dos variables eran intervalares eso es lo que
empezamos a ver la clase pasada, lo que hacemos es un gráfico de dispersión, complementado con la recta
de regresión, alguna medida de asociación (por ej. R de Pearson o coeficiente de correlación), y tambien
vamos a tener test de significación.
¿Qué pasa cuando tenemos una variable nominal u ordinal combinada con una variable intervalar? Con
una combinación de variables de distinto nivel de medición lo típico que se hace acá es una comparación
de medias.
Comando bysort nos permite hacer cualquier comando de stata dividido por grupos según las categorías o
valores de la variable. Es una forma rápida.
T-TEST se pregunta si dos medias son suficientemente diferentes como para que no sea atribuible al
margen de error. Si es lo suficientemente grande para hacerlo declaramos que esa diferencia no es
estadísticamente significativa, si el error muestral podría declarar esa diferencia no es estadísticamente
significativa esa diferencia. Si la diferencia es suficientemente grande para no ser atribuida al error
muestral entonces es estadísticamente significativa. El Test-T es una diferencia de medias me permite ver
si la correlación entre variables es lo suficientemente fuerte como para descartar la hipótesis nula. El
comanda en stata es ttest variable intervalar, by variable nominal/ordinal.
Si el intervalo de confianza de la diferencia incluye al cero entonces no puedo rechazar la hipótesis nula,
que sería en el ejemplo que hombres y mujeres tienen la misma edad. y en este caso la hipótesis nula está
incluida en el intervalo de confianza. Incluso en el intervalo de confianza está incluida la relación opuesta a
la encontrada, es decir, que los hombres sean más grandes que las mujeres. Si el error estándar es igual o
menor a la mitad del coeficiente de diferencia si obtendremos resultados estadísticamente significativos.
Cuando el intervalo de confianza es enteramente negativo implica que tengo por ejemplo un 95% de
seguridad de que el parámetro se encuentre entre esos dos límites negativos, es decir, que el parámetro
sea negativo. La diferencia real estaría con tal probabilidad que este dentro de ese intervalo.
Existe otra forma de hacer esto sin intervalos de confianza, con un test de hipótesis. Existe un enfoque de
las hipótesis nulas contra las hipótesis alternativas. Si una diferencia es estadísticamente significativa es
más fácil hacerlo con un intervalo de confianza de diferente y ver si incluye el cero.
Acá cubrimos una situación donde una variable es nominal y otra intervalar.
Volviendo a regresión:
La interpretación de una pendiente de regresión: cuantas unidades esperamos que aumente o disminuya
la VD por cada aumento de una unidad en la VI. Es decir, la ecuación de regresión es una ecuación de
predicción tambien, la correlación puede ser vista como una predicción. Por ejemplo: en el caso de
crecimiento económico y voto por el oficialismo sería en un modelo lineal e imperfecto de y=33+4.x, el cual
nos diría que en función de una tasa de crecimiento económico de X el oficialismo obtendría Y.
Cada vez que hacemos estadística hacemos un modelo simplificado de la realidad. La regresión en su forma
más sencilla le impone una relación rectilínea, no implica que la realidad sea rectilínea.
El comando de stata corr por correlación nos indica el coeficiente o el R de Pearson.
Interpretando regresiones: coeficientes (constante y pendiente), error estándar, intervalos de confianza, y
el R cuadrado. Las cuatro estadísticas que tenemos que saber interpretar de una regresión. Ejemplos:
- Constante: la VI esta medida en dólares, sería un aumento de un dólar en el PBI per cápita de un
país. La VD es globalización, varía entre 22 y 92. La constante en este caso es de 46.3939, el modelo
predice que para un país con un PBI per cápita de 0 dólares se esperaría un nivel de globalización de
46.3939. esto se llama una predicción fuera de la muestra, porque no hay ningún país con PBI per
cápita de cero o menos de 300 dólares.
Pendiente: por cada aumento de un dólar en el PBI per cápita yo espero que aumente el nivel de
globalización en un 0.0009 unidades. Tengo que tener en cuenta la magnitud de las unidades de la
variable independiente, no hay que confundir los términos de medidas de asociación que varían
entre -1 y 1 y no tienen unidades, pero la pendiente se interpreta en unidades y no está limitada.
En este caso este coeficiente parece chico, pero si pensamos que un aumento en un dólar de la vi
es insignificante, es decir, un dólar en un PBI no es nada.
- El intervalo de confianza quiere decir que yo tengo una probabilidad de 95 o 99% de que el
parámetro este incluido entre esos dos valores. Tengo que tener en cuenta que si el intervalo no
incluye al cero puedo rechazar la hipótesis nula. Regla de interpretación: si incluye o no al cero, si lo
incluye no es estadísticamente significativa.
- Si el valor t es mayor a dos es estadísticamente significativo al 95%, es una regla rápida. El valor t es
cuantas veces entra el error estándar en el coeficiente (sea la constante o la pendiente)
- El valor p es la misma probabilidad que aprendimos con CHI2, se interpreta como la probabilidad
de obtener una pendiente como esta o más si la hipótesis nula fuese cierta. si la probabilidad es
cero rechazo la hipótesis nula, porque es imposible obtener una pendiente como esta si en la
realidad no hubiese correlación entre las variables.
- Error estándar
TODAS ESTAS SON FORMAS DE VER LA SIGNIFICACION ESTADISTICA.
R cuadrado: es el cuadrado de R, el coeficiente de correlación de Pearson. Es un coeficiente que puede ir
de -1 a 1, siempre da positivo el r cuadrado: varía entre 0 y 1. La interpretación habitual de cuan bien
ajusta el modelo de r cuadrado es que proporción de la varianza de la variable dependiente es explicada
en sentido estadístico por la variable independiente (o la proporción de la varianza de la VD viene
predicha por la VI). El r cuadrado nos muestra que dos variables están correlacionadas, usamos la palabra
explicación, pero estamos abusando un poco porque realmente no sabemos si una variable explica a la
otra, solo están correlacionadas. El R cuadrado te promedia que tan bien esta explicado cada caso con el
modelo, y te devuelve un promedio.

1 Clases Estadística (1 (24)

Estadística

SIN SIGLA

Estadística

Otros materiales

Otros materiales