Logo Studenta

1 Clases Estadística (1 (21)

¡Estudia con miles de materiales!

Vista previa del material en texto

//Ahora cerramos APES. Y abrimos QoG. 
// Scatter plot o diagrama de dispersion. Entre POLITY y PBI per capita 
scatter p_polity2 wdi_gdpcapcon2005 
//Correlacion entre POLITY y PBI per capita. R de Pearson. 
pwcorr p_polity2 wdi_gdpcapcon2005 
//Como interpretamos esto? 
 
//Para ver significacion estadistica al 95% 
pwcorr p_polity2 wdi_gdpcapcon2005, star (0.05) 
 
// Scatter plot o diagrama de dispersión. Entre Índice de Empoderamiento Humano y POLITY 
scatter wel_hei p_polity2 
//Correlación entre Índice de Empoderamiento Humano y POLITY. R de Pearson. 
pwcorr wel_hei p_polity2 
//Como interpretamos esto? 
Clase 24/10. 
Medidas de asociación, en el memo en el campus y que stata nos permite calcular. 
Además, como ocurre siempre en estadística en general estimamos cosas sobre muestras y por lo tanto 
tiene error muestral por lo que nos podemos encontrar una asociación/correlación que no esté en el 
universo que por error muestral la tengamos en la muestra. Ro es una letra griega que indica la correlación 
entre variables, por ende, es un parámetro poblacional, es la realidad si tuviéramos acceso al total de la 
población de interés, que se estima a través de una estimación muestral con una correlación muestral. En 
una muestra grande y aleatoria sacamos una estimación muestral que difícilmente se acerque al 
parámetro pero que tiende a estar muy cerca del mismo. Cuando la correlación que encontramos en una 
muestra es por error muestral nos va a saltar precisamente cuando nos demos cuenta de que no es 
estadísticamente significativa y por ende no vamos a poder rechazar la hipótesis nula. 
Que vos puedas rechazar la hipótesis nula, que tu correlación sea lo suficientemente pesada para poder 
rechazarla esto depende de dos cosas: 
- el tamaño de la muestra: si la muestra es muy grande el error estándar es más chico y por ende el 
Intervalo de confianza tambien será más chico. Si la muestra es chiquita el intervalo de confianza es 
más grande, y si incluye el cero no puedo rechazar la hipótesis nula. Cuando no sabemos mucho 
sobre el parámetro no podemos decir que sea estadísticamente significativa, ni puedo rechazar la 
hipótesis nula implica que está en el universo de probabilidades de que en el universo no haya 
correlación y en mi muestra sí. 
- La magnitud sea fuerte: si la correlación muestral es fuerte el intervalo de confianza no incluye al 
cero y puedo rechazar la hipótesis nula aun con un intervalo de confianza amplio porque la 
correlación es fuerte. 
Entonces, con un n grande -intervalo de confianza chico- y una magnitud fuerte estoy muy seguro de 
rechazar la hipótesis nula. 
Uno podría esperar que las correlaciones muestrales den en nula fuese cierta. torno al parámetro con una 
distribución normal. La probabilidad de que la hipótesis nula sea cierta es poco probable que tengamos 
muestras desviadas. 
En la realidad no conozco el parámetro: saco de una muestra mi estimación que luego veo que tan 
compatible es con la hipótesis nula. Veo la correlación, cuan fuerte es y cuantos casos tiene, y veo si mi 
información es compatible con la hipótesis nula. La hipótesis nula es una suposición que hacemos que no 
hay correlación entre x e y en el universo, que ro es igual a cero. Después tomamos una muestra y vemos 
que obtengo, si obtengo una correlación fuerte rechazamos la hipótesis nula, si tengo una correlación 
media tengo que hacer un test de significación al estilo Chi2, V de Verner, etc., y si tengo una correlación 
baja no puedo rechazar la hipótesis nula. 
Chi2 es un test de significación para hablar de seguridad. Esto quiere decir que la correlación que yo 
encuentro en mi muestra yo este seguro de que existe y no es meramente producto del error muestral. Me 
permite comprobar si la correlación entre dos variables es lo suficientemente pesada como para no 
atribuirla al error muestral en mi muestra. 
Chi2 es un test de significación que usamos cuando tenemos tablas bivariadas. Al interior de las celdas de 
la tabla tenemos las frecuencias condicionales, y al final de las celdas por fuera tenemos las frecuencias 
marginales. 
La estrategia Chi2 es comparar lo observado, lo que sale en mi muestra, con lo esperado bajo la hipótesis 
nula. Cuanto da la tabla y cuan diferente es eso de lo que yo hubiera esperado bajo la hipótesis nula. 
La fórmula concreta de CHI2 es la sumatoria de la frecuencia observada menos la frecuencia esperada al 
cuadrado sobre la frecuencia esperada. Para calcular el chi2 usamos frecuencias no porcentajes. La 
frecuencia observada es el numero al interior de la celda, lo que observamos. Y lo esperado es lo que 
hubiéramos esperado con la hipótesis nula. La materia prima del Chi2 es cuan diferente es lo observado 
respecto de lo esperado, pero lo esperado es en función de la hipótesis nula, si esta fuese cierta. 
La frecuencia esperada se puede calcular a ojo como con una fórmula que es frecuencia marginal de la fila 
la frecuencia marginal de la columna sobre N. la sumatoria se hace en función de cada celda. 
El Chi2 que nos devuelve stata o al hacer esta cuenta no nos dice nada per sé, hay que tener en cuenta la 
tabla que está en el campus 
Yo quiero rechazar la hipótesis nula, entonces todos los test de significación van a preguntarse cuan 
probable es que yo obtenga una probabilidad como la que obtuve en una situación donde si la hipótesis 
nula fuese cierta obtenga una probabilidad como la que obtuve. Lo que te preguntas es cuan probable es 
que obtenga una probabilidad como la que obtuve si la hipótesis nula fuese cierta, entonces, yo espero 
que esa probabilidad sea baja. Para esto por convención elijo 0.050, es decir, elijo rechazar la hipótesis 
nula por un cinco por ciento, es significativa con una seguridad del 95% si mi valor estimado de Chi2 supera 
al valor crítico para ese valor de significación. 
La tabla nos indica tener un grado de libertad: es la intuición de cuantas celdas puedo llenar con libertad, 
su fórmula es: número de filas – 1 multiplicado por el número de columnas que tiene la tabla – 1. El 
número de filas y columnas nos dice cuántas categorías tienen las variables. 
Cuando apliquemos la tabla tengo que ver si mi valor calculado es superior o no al valor critico que aparece 
en la tabla.

Más contenidos de este tema