Logo Studenta

1 Clases Estadística (1 (15)

¡Estudia con miles de materiales!

Vista previa del material en texto

La hipótesis nula es una hipótesis no es la realidad de que dos variables no correlacionan, que la 
correlación es nula. 
Para que esta hipótesis se confirme no tiene que haber diferencia entre hombres y mujeres. No estamos 
pensando en términos de causalidad, hasta ahora estamos buscando si dos variables están asociadas por 
cualquiera de los cinco motivos vistos la clase pasada. Con estos porcentajes no hay asociación. 
Si los porcentajes fueran distintos y viera que cuando cambio de hombres a mujeres hay un cambio en los 
porcentajes habría asociación y por ende rechazo la hipótesis nula. Por ejemplo, acá habría una correlación 
fuerte. 
 F M Total 
Sí 60% 20% 40% 
No 40% 80% 60% 
 100% 100% 100% 
La máxima correlación que podríamos esperar, la asociación perfecta entre dos variables. las diagonales 
son muy fuertes, conociendo una variable podemos predecir perfectamente la otra sin ninguna 
incertidumbre. Cuando en los dos sentidos de la variable puedo predecir la otra variable es asociación 
perfecta y cualquier medida de asociación va a dar uno que es la máxima posible correlación entre dos 
variables: 
 F M Total 
Sí 100% 0% 50% 
No 0% 100% 50% 
 100% 100% 100% 
 
- Si a medida que aumenta X aumenta Y sería una correlación positiva, y por ende rechazamos la 
hipótesis nula. Acá sobre la causalidad no se sabe nada, solo sabemos que dos variables varían 
juntas y una de las tantas causas de esto puede ser que una variable cause otra. Acá el R de Pierson 
es positiva. 
- Si a medida que aumenta X, disminuye Y la correlación seria negativa. Acá el r de Pierson es 
negativa. 
- Si los puntos están perfectamente alineados en una recta tenemos predicción perfecta y el R de 
Pierson es +1. Implica perfecta predicción de X a Y, sin incertidumbre. 
- Si a medida que X aumenta vemos que hay Y’s chiquitos, medianos y grandes no tenemos 
correlación. No podemos rechazar la hipótesis nula. Y el R de Pierson es 0. Cuando no hay 
correlación R siempre es cero. 
Cinco motivos por los cuales las variables pueden estar correlacionadas (estas cinco cosas son muy difíciles 
de diferenciar empíricamente): 
1) Que X cause Y 
2) Qué Y cause X 
3) Que haya mutua causalidad, es decir, que tanto X cause Y como qué Y cause X. 
4) Que haya una variable Z que cause que ambas variables varíen juntas. 
5) Error muestral o variabilidad muestral. Cuando la correlación de una muestra es tan chiquita es 
compatible con la hipótesis nula, no la puede rechazar. Puede ser que en el universo no haya 
correlación pero si haya correlación en mi muestra por error muestral. 
La fuerza o magnitud de una asociación y la seguridad o significación estadística de una asociación. 
Ejemplo: si queres ver si hay correlación entre sexo de los alumnos de Di Tella y su rendimiento académico, 
tenemos 550 mujeres y 450 hombres, de firma que saco de las muestras la nota promedio: las mujeres 
tienen 8.9 y los hombres 3.20 de promedio. De forma que hay correlación fuerte entre sexo y promedio. 
Una diferencia tan grande como está basada en una muestra grande difícilmente sea atribuible al error 
muestral. 
Si el promedio de hombres ahora fuera 8.7 tendríamos una correlación pequeña por ende se puede 
atribuir al error muestral. Yo entonces tengo que de alguna forma usar la estadística para ver si la 
correlación encontrada es lo suficientemente fuerte para descartar el error muestral como el primer 
ejemplo que la diferencia era tan grande que me permitía rechazar la hipótesis nula. Cuando la diferencia 
es tan chiquita como el último ejemplo no puedo rechazarla. 
La fuerza o magnitud de una correlación se mide a través de las medidas de asociación que varían entre 1 
(máxima correlación positiva) y -1 (máxima correlación negativa), 0 (que no hay asociación o correlación). 
Se usan las medidas de asociación como el R de Pearson, V de Cramer, etc., que calculan esto según 
diferentes cuestiones. 
Seguridad o significación estadística: cuan probable es que la correlación encontrada se deba al error 
muestral y no a una correlación existente en el universo. Se utiliza un test de significación, utilizaremos el 
de Chi cuadrado para tablas bivariadas. 
Cuando tenemos una muestra pequeña por ejemplo de 10 casos la probabilidad de que se me alineen casi 
perfectamente todos y no haya correlación en el universo es baja. Dependiendo el número de casos la 
significación. Con un N más grande y una asociación más fuerte habrá más significación. Una correlación 
muy débil puede ser altamente significativa con un N muy grande porque estamos casi seguros de que 
podemos rechazar la hipótesis nula porque estamos casi seguros de que en el universo hay una correlación 
muy débil. 
🡺 Guía para medidas de asociación. 
La convención es VD arriba de la tabla y VI al costado. Agresti y Finlay a veces no lo hace así. 
La probabilidad que saca stata es que si la hipótesis nula fuera cierta en la realidad no haya correlación y yo 
lo haga obtenido por error muestral. La hipótesis nula es bastante compatible con una correlación débil. La 
evidencia no es muy diferente de la hipótesis nula por eso no la descarto. Con una correlación muy fuerte 
(V de Cramer) la probabilidad de que si la hipótesis nula fuera cierta yo obtuviera una correlación de ese 
tamaño, si es cero rechazo la hipótesis nula porque es muy improbable y acá tengo alta significación 
estadística porque estoy muy segura que esa correlación no se debe al error muestral sino que en el 
universo hay correlación entre ambas cosas. 
Taller de STATA III 19/10. 
- Más grande sea el error estándar más ancho será el intervalo de confianza. 
- Menor el n para calcular el error estándar más grande será. 
DO FILE: 
//Abro base APES 
* #1. INTERVALOS DE CONFIANZA 
//Media muestral de la edad, error estandar, intervalo de confianza del 95% 
//Como interpretamos los valores?

Otros materiales