1 Clases Estadística (1 (21)

Estadística

•

SIN SIGLA

aidensz27

8/7/2023

¡Estudia con miles de materiales!

Vista previa del material en texto

//Ahora cerramos APES. Y abrimos QoG.
// Scatter plot o diagrama de dispersion. Entre POLITY y PBI per capita
scatter p_polity2 wdi_gdpcapcon2005
//Correlacion entre POLITY y PBI per capita. R de Pearson.
pwcorr p_polity2 wdi_gdpcapcon2005
//Como interpretamos esto?

//Para ver significacion estadistica al 95%
pwcorr p_polity2 wdi_gdpcapcon2005, star (0.05)

// Scatter plot o diagrama de dispersión. Entre Índice de Empoderamiento Humano y POLITY
scatter wel_hei p_polity2
//Correlación entre Índice de Empoderamiento Humano y POLITY. R de Pearson.
pwcorr wel_hei p_polity2
//Como interpretamos esto?
Clase 24/10.
Medidas de asociación, en el memo en el campus y que stata nos permite calcular.
Además, como ocurre siempre en estadística en general estimamos cosas sobre muestras y por lo tanto
tiene error muestral por lo que nos podemos encontrar una asociación/correlación que no esté en el
universo que por error muestral la tengamos en la muestra. Ro es una letra griega que indica la correlación
entre variables, por ende, es un parámetro poblacional, es la realidad si tuviéramos acceso al total de la
población de interés, que se estima a través de una estimación muestral con una correlación muestral. En
una muestra grande y aleatoria sacamos una estimación muestral que difícilmente se acerque al
parámetro pero que tiende a estar muy cerca del mismo. Cuando la correlación que encontramos en una
muestra es por error muestral nos va a saltar precisamente cuando nos demos cuenta de que no es
estadísticamente significativa y por ende no vamos a poder rechazar la hipótesis nula.
Que vos puedas rechazar la hipótesis nula, que tu correlación sea lo suficientemente pesada para poder
rechazarla esto depende de dos cosas:
- el tamaño de la muestra: si la muestra es muy grande el error estándar es más chico y por ende el
Intervalo de confianza tambien será más chico. Si la muestra es chiquita el intervalo de confianza es
más grande, y si incluye el cero no puedo rechazar la hipótesis nula. Cuando no sabemos mucho
sobre el parámetro no podemos decir que sea estadísticamente significativa, ni puedo rechazar la
hipótesis nula implica que está en el universo de probabilidades de que en el universo no haya
correlación y en mi muestra sí.
- La magnitud sea fuerte: si la correlación muestral es fuerte el intervalo de confianza no incluye al
cero y puedo rechazar la hipótesis nula aun con un intervalo de confianza amplio porque la
correlación es fuerte.
Entonces, con un n grande -intervalo de confianza chico- y una magnitud fuerte estoy muy seguro de
rechazar la hipótesis nula.
Uno podría esperar que las correlaciones muestrales den en nula fuese cierta. torno al parámetro con una
distribución normal. La probabilidad de que la hipótesis nula sea cierta es poco probable que tengamos
muestras desviadas.
En la realidad no conozco el parámetro: saco de una muestra mi estimación que luego veo que tan
compatible es con la hipótesis nula. Veo la correlación, cuan fuerte es y cuantos casos tiene, y veo si mi
información es compatible con la hipótesis nula. La hipótesis nula es una suposición que hacemos que no
hay correlación entre x e y en el universo, que ro es igual a cero. Después tomamos una muestra y vemos
que obtengo, si obtengo una correlación fuerte rechazamos la hipótesis nula, si tengo una correlación
media tengo que hacer un test de significación al estilo Chi2, V de Verner, etc., y si tengo una correlación
baja no puedo rechazar la hipótesis nula.
Chi2 es un test de significación para hablar de seguridad. Esto quiere decir que la correlación que yo
encuentro en mi muestra yo este seguro de que existe y no es meramente producto del error muestral. Me
permite comprobar si la correlación entre dos variables es lo suficientemente pesada como para no
atribuirla al error muestral en mi muestra.
Chi2 es un test de significación que usamos cuando tenemos tablas bivariadas. Al interior de las celdas de
la tabla tenemos las frecuencias condicionales, y al final de las celdas por fuera tenemos las frecuencias
marginales.
La estrategia Chi2 es comparar lo observado, lo que sale en mi muestra, con lo esperado bajo la hipótesis
nula. Cuanto da la tabla y cuan diferente es eso de lo que yo hubiera esperado bajo la hipótesis nula.
La fórmula concreta de CHI2 es la sumatoria de la frecuencia observada menos la frecuencia esperada al
cuadrado sobre la frecuencia esperada. Para calcular el chi2 usamos frecuencias no porcentajes. La
frecuencia observada es el numero al interior de la celda, lo que observamos. Y lo esperado es lo que
hubiéramos esperado con la hipótesis nula. La materia prima del Chi2 es cuan diferente es lo observado
respecto de lo esperado, pero lo esperado es en función de la hipótesis nula, si esta fuese cierta.
La frecuencia esperada se puede calcular a ojo como con una fórmula que es frecuencia marginal de la fila
la frecuencia marginal de la columna sobre N. la sumatoria se hace en función de cada celda.
El Chi2 que nos devuelve stata o al hacer esta cuenta no nos dice nada per sé, hay que tener en cuenta la
tabla que está en el campus
Yo quiero rechazar la hipótesis nula, entonces todos los test de significación van a preguntarse cuan
probable es que yo obtenga una probabilidad como la que obtuve en una situación donde si la hipótesis
nula fuese cierta obtenga una probabilidad como la que obtuve. Lo que te preguntas es cuan probable es
que obtenga una probabilidad como la que obtuve si la hipótesis nula fuese cierta, entonces, yo espero
que esa probabilidad sea baja. Para esto por convención elijo 0.050, es decir, elijo rechazar la hipótesis
nula por un cinco por ciento, es significativa con una seguridad del 95% si mi valor estimado de Chi2 supera
al valor crítico para ese valor de significación.
La tabla nos indica tener un grado de libertad: es la intuición de cuantas celdas puedo llenar con libertad,
su fórmula es: número de filas – 1 multiplicado por el número de columnas que tiene la tabla – 1. El
número de filas y columnas nos dice cuántas categorías tienen las variables.
Cuando apliquemos la tabla tengo que ver si mi valor calculado es superior o no al valor critico que aparece
en la tabla.