Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
La hipótesis nula es una hipótesis no es la realidad de que dos variables no correlacionan, que la correlación es nula. Para que esta hipótesis se confirme no tiene que haber diferencia entre hombres y mujeres. No estamos pensando en términos de causalidad, hasta ahora estamos buscando si dos variables están asociadas por cualquiera de los cinco motivos vistos la clase pasada. Con estos porcentajes no hay asociación. Si los porcentajes fueran distintos y viera que cuando cambio de hombres a mujeres hay un cambio en los porcentajes habría asociación y por ende rechazo la hipótesis nula. Por ejemplo, acá habría una correlación fuerte. F M Total Sí 60% 20% 40% No 40% 80% 60% 100% 100% 100% La máxima correlación que podríamos esperar, la asociación perfecta entre dos variables. las diagonales son muy fuertes, conociendo una variable podemos predecir perfectamente la otra sin ninguna incertidumbre. Cuando en los dos sentidos de la variable puedo predecir la otra variable es asociación perfecta y cualquier medida de asociación va a dar uno que es la máxima posible correlación entre dos variables: F M Total Sí 100% 0% 50% No 0% 100% 50% 100% 100% 100% - Si a medida que aumenta X aumenta Y sería una correlación positiva, y por ende rechazamos la hipótesis nula. Acá sobre la causalidad no se sabe nada, solo sabemos que dos variables varían juntas y una de las tantas causas de esto puede ser que una variable cause otra. Acá el R de Pierson es positiva. - Si a medida que aumenta X, disminuye Y la correlación seria negativa. Acá el r de Pierson es negativa. - Si los puntos están perfectamente alineados en una recta tenemos predicción perfecta y el R de Pierson es +1. Implica perfecta predicción de X a Y, sin incertidumbre. - Si a medida que X aumenta vemos que hay Y’s chiquitos, medianos y grandes no tenemos correlación. No podemos rechazar la hipótesis nula. Y el R de Pierson es 0. Cuando no hay correlación R siempre es cero. Cinco motivos por los cuales las variables pueden estar correlacionadas (estas cinco cosas son muy difíciles de diferenciar empíricamente): 1) Que X cause Y 2) Qué Y cause X 3) Que haya mutua causalidad, es decir, que tanto X cause Y como qué Y cause X. 4) Que haya una variable Z que cause que ambas variables varíen juntas. 5) Error muestral o variabilidad muestral. Cuando la correlación de una muestra es tan chiquita es compatible con la hipótesis nula, no la puede rechazar. Puede ser que en el universo no haya correlación pero si haya correlación en mi muestra por error muestral. La fuerza o magnitud de una asociación y la seguridad o significación estadística de una asociación. Ejemplo: si queres ver si hay correlación entre sexo de los alumnos de Di Tella y su rendimiento académico, tenemos 550 mujeres y 450 hombres, de firma que saco de las muestras la nota promedio: las mujeres tienen 8.9 y los hombres 3.20 de promedio. De forma que hay correlación fuerte entre sexo y promedio. Una diferencia tan grande como está basada en una muestra grande difícilmente sea atribuible al error muestral. Si el promedio de hombres ahora fuera 8.7 tendríamos una correlación pequeña por ende se puede atribuir al error muestral. Yo entonces tengo que de alguna forma usar la estadística para ver si la correlación encontrada es lo suficientemente fuerte para descartar el error muestral como el primer ejemplo que la diferencia era tan grande que me permitía rechazar la hipótesis nula. Cuando la diferencia es tan chiquita como el último ejemplo no puedo rechazarla. La fuerza o magnitud de una correlación se mide a través de las medidas de asociación que varían entre 1 (máxima correlación positiva) y -1 (máxima correlación negativa), 0 (que no hay asociación o correlación). Se usan las medidas de asociación como el R de Pearson, V de Cramer, etc., que calculan esto según diferentes cuestiones. Seguridad o significación estadística: cuan probable es que la correlación encontrada se deba al error muestral y no a una correlación existente en el universo. Se utiliza un test de significación, utilizaremos el de Chi cuadrado para tablas bivariadas. Cuando tenemos una muestra pequeña por ejemplo de 10 casos la probabilidad de que se me alineen casi perfectamente todos y no haya correlación en el universo es baja. Dependiendo el número de casos la significación. Con un N más grande y una asociación más fuerte habrá más significación. Una correlación muy débil puede ser altamente significativa con un N muy grande porque estamos casi seguros de que podemos rechazar la hipótesis nula porque estamos casi seguros de que en el universo hay una correlación muy débil. 🡺 Guía para medidas de asociación. La convención es VD arriba de la tabla y VI al costado. Agresti y Finlay a veces no lo hace así. La probabilidad que saca stata es que si la hipótesis nula fuera cierta en la realidad no haya correlación y yo lo haga obtenido por error muestral. La hipótesis nula es bastante compatible con una correlación débil. La evidencia no es muy diferente de la hipótesis nula por eso no la descarto. Con una correlación muy fuerte (V de Cramer) la probabilidad de que si la hipótesis nula fuera cierta yo obtuviera una correlación de ese tamaño, si es cero rechazo la hipótesis nula porque es muy improbable y acá tengo alta significación estadística porque estoy muy segura que esa correlación no se debe al error muestral sino que en el universo hay correlación entre ambas cosas. Taller de STATA III 19/10. - Más grande sea el error estándar más ancho será el intervalo de confianza. - Menor el n para calcular el error estándar más grande será. DO FILE: //Abro base APES * #1. INTERVALOS DE CONFIANZA //Media muestral de la edad, error estandar, intervalo de confianza del 95% //Como interpretamos los valores?
Compartir