1 Clases Estadística (1 (15)

Estadística

•

SIN SIGLA

0

aidensz27

8/7/2023

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Estadística

5354 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

La hipótesis nula es una hipótesis no es la realidad de que dos variables no correlacionan, que la
correlación es nula.
Para que esta hipótesis se confirme no tiene que haber diferencia entre hombres y mujeres. No estamos
pensando en términos de causalidad, hasta ahora estamos buscando si dos variables están asociadas por
cualquiera de los cinco motivos vistos la clase pasada. Con estos porcentajes no hay asociación.
Si los porcentajes fueran distintos y viera que cuando cambio de hombres a mujeres hay un cambio en los
porcentajes habría asociación y por ende rechazo la hipótesis nula. Por ejemplo, acá habría una correlación
fuerte.
F M Total
Sí 60% 20% 40%
No 40% 80% 60%
100% 100% 100%
La máxima correlación que podríamos esperar, la asociación perfecta entre dos variables. las diagonales
son muy fuertes, conociendo una variable podemos predecir perfectamente la otra sin ninguna
incertidumbre. Cuando en los dos sentidos de la variable puedo predecir la otra variable es asociación
perfecta y cualquier medida de asociación va a dar uno que es la máxima posible correlación entre dos
variables:
F M Total
Sí 100% 0% 50%
No 0% 100% 50%
100% 100% 100%

- Si a medida que aumenta X aumenta Y sería una correlación positiva, y por ende rechazamos la
hipótesis nula. Acá sobre la causalidad no se sabe nada, solo sabemos que dos variables varían
juntas y una de las tantas causas de esto puede ser que una variable cause otra. Acá el R de Pierson
es positiva.
- Si a medida que aumenta X, disminuye Y la correlación seria negativa. Acá el r de Pierson es
negativa.
- Si los puntos están perfectamente alineados en una recta tenemos predicción perfecta y el R de
Pierson es +1. Implica perfecta predicción de X a Y, sin incertidumbre.
- Si a medida que X aumenta vemos que hay Y’s chiquitos, medianos y grandes no tenemos
correlación. No podemos rechazar la hipótesis nula. Y el R de Pierson es 0. Cuando no hay
correlación R siempre es cero.
Cinco motivos por los cuales las variables pueden estar correlacionadas (estas cinco cosas son muy difíciles
de diferenciar empíricamente):
1) Que X cause Y
2) Qué Y cause X
3) Que haya mutua causalidad, es decir, que tanto X cause Y como qué Y cause X.
4) Que haya una variable Z que cause que ambas variables varíen juntas.
5) Error muestral o variabilidad muestral. Cuando la correlación de una muestra es tan chiquita es
compatible con la hipótesis nula, no la puede rechazar. Puede ser que en el universo no haya
correlación pero si haya correlación en mi muestra por error muestral.
La fuerza o magnitud de una asociación y la seguridad o significación estadística de una asociación.
Ejemplo: si queres ver si hay correlación entre sexo de los alumnos de Di Tella y su rendimiento académico,
tenemos 550 mujeres y 450 hombres, de firma que saco de las muestras la nota promedio: las mujeres
tienen 8.9 y los hombres 3.20 de promedio. De forma que hay correlación fuerte entre sexo y promedio.
Una diferencia tan grande como está basada en una muestra grande difícilmente sea atribuible al error
muestral.
Si el promedio de hombres ahora fuera 8.7 tendríamos una correlación pequeña por ende se puede
atribuir al error muestral. Yo entonces tengo que de alguna forma usar la estadística para ver si la
correlación encontrada es lo suficientemente fuerte para descartar el error muestral como el primer
ejemplo que la diferencia era tan grande que me permitía rechazar la hipótesis nula. Cuando la diferencia
es tan chiquita como el último ejemplo no puedo rechazarla.
La fuerza o magnitud de una correlación se mide a través de las medidas de asociación que varían entre 1
(máxima correlación positiva) y -1 (máxima correlación negativa), 0 (que no hay asociación o correlación).
Se usan las medidas de asociación como el R de Pearson, V de Cramer, etc., que calculan esto según
diferentes cuestiones.
Seguridad o significación estadística: cuan probable es que la correlación encontrada se deba al error
muestral y no a una correlación existente en el universo. Se utiliza un test de significación, utilizaremos el
de Chi cuadrado para tablas bivariadas.
Cuando tenemos una muestra pequeña por ejemplo de 10 casos la probabilidad de que se me alineen casi
perfectamente todos y no haya correlación en el universo es baja. Dependiendo el número de casos la
significación. Con un N más grande y una asociación más fuerte habrá más significación. Una correlación
muy débil puede ser altamente significativa con un N muy grande porque estamos casi seguros de que
podemos rechazar la hipótesis nula porque estamos casi seguros de que en el universo hay una correlación
muy débil.
🡺 Guía para medidas de asociación.
La convención es VD arriba de la tabla y VI al costado. Agresti y Finlay a veces no lo hace así.
La probabilidad que saca stata es que si la hipótesis nula fuera cierta en la realidad no haya correlación y yo
lo haga obtenido por error muestral. La hipótesis nula es bastante compatible con una correlación débil. La
evidencia no es muy diferente de la hipótesis nula por eso no la descarto. Con una correlación muy fuerte
(V de Cramer) la probabilidad de que si la hipótesis nula fuera cierta yo obtuviera una correlación de ese
tamaño, si es cero rechazo la hipótesis nula porque es muy improbable y acá tengo alta significación
estadística porque estoy muy segura que esa correlación no se debe al error muestral sino que en el
universo hay correlación entre ambas cosas.
Taller de STATA III 19/10.
- Más grande sea el error estándar más ancho será el intervalo de confianza.
- Menor el n para calcular el error estándar más grande será.
DO FILE:
//Abro base APES
* #1. INTERVALOS DE CONFIANZA
//Media muestral de la edad, error estandar, intervalo de confianza del 95%
//Como interpretamos los valores?