1 Clases Estadística (1 (27)

Estadística

•

SIN SIGLA

0

aidensz27

8/7/2023

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Estadística

5385 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

El R cuadrado se hace para analizar cada caso y ver cuanta variabilidad hay en cada caso, y cuanta de esa
variabilidad de ese caso es explicada por el modelo (fórmula en cuaderno).
El R cuadrado se encuentra como medida de bondad de ajuste interpretado como la proporción de la
variabilidad de la VD, explicada por la VI. La palabra explicada acá es entre comillas, porque en realidad habla
de la asociación entre las variables. La forma correcta de decir esto sería cambiando la palabra explicada con
predice, o decir: vamos a interpretar al R2 como la proporción de la variabilidad de la VD, explicada en
sentido estadístico por la variabilidad de la VI.
Cuando interpretamos coeficientes siempre hay que tener presentes las unidades de ambas variables.
Cuando interpretamos pendientes no hay que dejarnos llevar porque el coeficiente sea pequeño
directamente implique que el impacto es pequeño.
Clase 16/11.
Cualquier estadística conocida no nos indica nada sobre causalidad entre variables. Hay que erradicar el
error de que cuando hay correlación implica causalidad, es solo una de las cinco posibles causas.
En el ejemplo de Berry y Sanders no sabemos cuánto peso atribuirle a la flecha que une las variables.
Muchas cosas que parecen ser evidentemente obvias pueden fracasar por diversos motivos. Lo que este
grafico nos muestra es que hay una correlación positiva entre peso y consumo de calorías –el orden es
indistinto-.
La regresión lineal es un modelo, el modelo que le pone a los datos es una recta. La recta es una imposición
del modelo.
Cuando interpretamos una regresión siempre hay que tener en cuenta las unidades porque la magnitud es
muy importante para entender el impacto de la variable independiente sobre la dependiente. En términos
prácticos, hay que limitarse a interpretar la pendiente sin tener en cuenta la magnitud a menos de que lo
pida.
La t en un cuadro de regresión plantea cuantas veces entra el error estándar en el coeficiente.
Hay una correspondencia muy clara entre intervalo de confianza y el valor de p.
Si yo quiero hacer un intervalo de confianza de 99% en stata tengo que usar el comando reg vd vi, level(99)
o entre paréntesis el número que desee hasta 99.99.
El R2 es la proporción de la vd explicada, en sentido estadístico, o predicha por la variabilidad de la vi.
Vamos a dar un salto importante: regresiones múltiples.
Acá todo se complica porque no se puede graficar.
Lo que stata nos muestra no es demasiado diferente, ahora tengo dos variables independientes y por lo
tanto dos pendientes. Cambia la interpretación de los coeficientes:
- La constante es el valor esperado de la dependiente cuando todas las variables independientes
incluidas en el modelo son iguales a cero.
- Las pendientes: la pendiente en un contexto de regresión múltiple se interpreta como cuanto
espero que aumente o disminuye la variable dependiente por cada aumento de una unidad en la
variable independiente cuando las demás independientes están mantenidas constantes o cuando
están controladas las demás variables independientes. Ej. por cada aumento en una unidad de
desarrollo humano esperaría que aumenten 72 unidades el índice de globalización después de
mantener constante el nivel de polity. El coeficiente de polity: esperaría que por cada aumento en
una unidad del nivel de polity esperaría que aumente 0,5 unidades el nivel de globalización si se
mantiene constante el nivel de desarrollo humano. Al controlar por desarrollo humano la pendiente
de polity se reduce mucho. Los coeficientes no son los mismos al hacer regresión múltiple.
Incluir una variable al modelo estadístico equivale a controlar las demás variables, a mantener las
variables más ceteris paribus. A más variables incluidas en el modelo, más ceteris paribus obtenés. Las
cosas son bastante diferentes si las dos vi están correlacionadas.
¿Qué pasa con el R2? La regresión de las dos juntas da más de las dos juntas pero no más que la suma.
Cuando hay una correlación positiva entre las vi es decir que las dos vi comparten algo, lo que pasa es que
cuando las vi están correlacionadas entre ellas comparten varianza, hay un pedazo de las dos variables
que es compartido entonces lo que cada uno aporta al modelo es lo que cada variable independiente
aporta sin el pedazo que comparten: es por eso que los R2 de cada una no se suma cuando hay correlación
éntrelas VI.
El R2 es el porcentaje de la variabilidad de la VD explicado en sentido estadístico por la variabilidad de
todas las VI.
Clase 21/11.
Estadística bivariada vimos que la forma de medir la correlación entre dos variables depende de su nivel de
medición, vimos el test de significación para variables nominales u ordinales -CHI2-, aplicamos las mismas
ideas a regresión -solo cambiamos el nivel de medición, pasamos a intervalares de tablas a gráficos-.
Aprovechamos la regresión para saltar a la estadística multivariada.
Dos variables pueden variar juntas por muchas razones (5). Imaginando que tenemos una x que creo que
es la causa de y.
Ej. x calidad universidad, y salario neto. Para mantener más ceteris paribus tomamos una misma carrera. Y
encuentro un coeficiente positivo y significado de correlación entre la calidad de la universidad y cuánto
ganan los alumnos cuando se gradúan. Calidad varía entre cero y cien, salario neto esta medido en pesos.
Hacemos la regresión, b es igual a 120 -se esperaría que por cada punto adicional en el ranking que la
universidad del graduado tiene, que el graduado gane en promedio $120 pesos más de salario neto. En el
total son $12.000-. a (la constante) es igual a 15.000 -la expectativa de este modelo es que lo graduados de
las peores universidades (porque cero en la variable tiene este significado) ganen de salario neto $15.000.
los que se gradúan de las mejores universidades se espera que ganen $27.000, esto es ponerle un número
a la diferencia de salario entre los graduados de diferentes universidades-.
La esencia de la estadística multivariada es pensar en que otra/s variables me impactan en la dependiente
que este correlacionada con la independiente me afectan la correlación, si hay alguna tengo que ingresarla
en el modelo con el fin de aumentar el ceteris paribus. Un modelo de regresión agrega muchas variables
independientes, todas aquellas que uno supone que impacta en la variable dependiente pero que están
correlacionadas con las independientes.
Con un modelo múltiple, controlando por la capacidad del alumno, la distancia geográfica, el nivel
socioeconómico, etc., la estimación de la pendiente es diferente porque estoy controlando por otros
factores. Antes el valor de la pendiente contenía varios impactos. Se busca reinsertar el ceteris paribus por
medio de agregar variables. las que tienen alguna correlación con las demás si no tenés las variables en el
modelo las demás variable se llevan el crédito, tienen que estar sí o sí, si pones otras variables en el
modelo que no están correlacionando está buenísimo porque suma al R2 pero no ponerla no es tan grave
como no incluir variables correlacionadas -sesgo de la variable no incluida o algo así en Berry y Sanders-.