Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
El R cuadrado se hace para analizar cada caso y ver cuanta variabilidad hay en cada caso, y cuanta de esa variabilidad de ese caso es explicada por el modelo (fórmula en cuaderno). El R cuadrado se encuentra como medida de bondad de ajuste interpretado como la proporción de la variabilidad de la VD, explicada por la VI. La palabra explicada acá es entre comillas, porque en realidad habla de la asociación entre las variables. La forma correcta de decir esto sería cambiando la palabra explicada con predice, o decir: vamos a interpretar al R2 como la proporción de la variabilidad de la VD, explicada en sentido estadístico por la variabilidad de la VI. Cuando interpretamos coeficientes siempre hay que tener presentes las unidades de ambas variables. Cuando interpretamos pendientes no hay que dejarnos llevar porque el coeficiente sea pequeño directamente implique que el impacto es pequeño. Clase 16/11. Cualquier estadística conocida no nos indica nada sobre causalidad entre variables. Hay que erradicar el error de que cuando hay correlación implica causalidad, es solo una de las cinco posibles causas. En el ejemplo de Berry y Sanders no sabemos cuánto peso atribuirle a la flecha que une las variables. Muchas cosas que parecen ser evidentemente obvias pueden fracasar por diversos motivos. Lo que este grafico nos muestra es que hay una correlación positiva entre peso y consumo de calorías –el orden es indistinto-. La regresión lineal es un modelo, el modelo que le pone a los datos es una recta. La recta es una imposición del modelo. Cuando interpretamos una regresión siempre hay que tener en cuenta las unidades porque la magnitud es muy importante para entender el impacto de la variable independiente sobre la dependiente. En términos prácticos, hay que limitarse a interpretar la pendiente sin tener en cuenta la magnitud a menos de que lo pida. La t en un cuadro de regresión plantea cuantas veces entra el error estándar en el coeficiente. Hay una correspondencia muy clara entre intervalo de confianza y el valor de p. Si yo quiero hacer un intervalo de confianza de 99% en stata tengo que usar el comando reg vd vi, level(99) o entre paréntesis el número que desee hasta 99.99. El R2 es la proporción de la vd explicada, en sentido estadístico, o predicha por la variabilidad de la vi. Vamos a dar un salto importante: regresiones múltiples. Acá todo se complica porque no se puede graficar. Lo que stata nos muestra no es demasiado diferente, ahora tengo dos variables independientes y por lo tanto dos pendientes. Cambia la interpretación de los coeficientes: - La constante es el valor esperado de la dependiente cuando todas las variables independientes incluidas en el modelo son iguales a cero. - Las pendientes: la pendiente en un contexto de regresión múltiple se interpreta como cuanto espero que aumente o disminuye la variable dependiente por cada aumento de una unidad en la variable independiente cuando las demás independientes están mantenidas constantes o cuando están controladas las demás variables independientes. Ej. por cada aumento en una unidad de desarrollo humano esperaría que aumenten 72 unidades el índice de globalización después de mantener constante el nivel de polity. El coeficiente de polity: esperaría que por cada aumento en una unidad del nivel de polity esperaría que aumente 0,5 unidades el nivel de globalización si se mantiene constante el nivel de desarrollo humano. Al controlar por desarrollo humano la pendiente de polity se reduce mucho. Los coeficientes no son los mismos al hacer regresión múltiple. Incluir una variable al modelo estadístico equivale a controlar las demás variables, a mantener las variables más ceteris paribus. A más variables incluidas en el modelo, más ceteris paribus obtenés. Las cosas son bastante diferentes si las dos vi están correlacionadas. ¿Qué pasa con el R2? La regresión de las dos juntas da más de las dos juntas pero no más que la suma. Cuando hay una correlación positiva entre las vi es decir que las dos vi comparten algo, lo que pasa es que cuando las vi están correlacionadas entre ellas comparten varianza, hay un pedazo de las dos variables que es compartido entonces lo que cada uno aporta al modelo es lo que cada variable independiente aporta sin el pedazo que comparten: es por eso que los R2 de cada una no se suma cuando hay correlación éntrelas VI. El R2 es el porcentaje de la variabilidad de la VD explicado en sentido estadístico por la variabilidad de todas las VI. Clase 21/11. Estadística bivariada vimos que la forma de medir la correlación entre dos variables depende de su nivel de medición, vimos el test de significación para variables nominales u ordinales -CHI2-, aplicamos las mismas ideas a regresión -solo cambiamos el nivel de medición, pasamos a intervalares de tablas a gráficos-. Aprovechamos la regresión para saltar a la estadística multivariada. Dos variables pueden variar juntas por muchas razones (5). Imaginando que tenemos una x que creo que es la causa de y. Ej. x calidad universidad, y salario neto. Para mantener más ceteris paribus tomamos una misma carrera. Y encuentro un coeficiente positivo y significado de correlación entre la calidad de la universidad y cuánto ganan los alumnos cuando se gradúan. Calidad varía entre cero y cien, salario neto esta medido en pesos. Hacemos la regresión, b es igual a 120 -se esperaría que por cada punto adicional en el ranking que la universidad del graduado tiene, que el graduado gane en promedio $120 pesos más de salario neto. En el total son $12.000-. a (la constante) es igual a 15.000 -la expectativa de este modelo es que lo graduados de las peores universidades (porque cero en la variable tiene este significado) ganen de salario neto $15.000. los que se gradúan de las mejores universidades se espera que ganen $27.000, esto es ponerle un número a la diferencia de salario entre los graduados de diferentes universidades-. La esencia de la estadística multivariada es pensar en que otra/s variables me impactan en la dependiente que este correlacionada con la independiente me afectan la correlación, si hay alguna tengo que ingresarla en el modelo con el fin de aumentar el ceteris paribus. Un modelo de regresión agrega muchas variables independientes, todas aquellas que uno supone que impacta en la variable dependiente pero que están correlacionadas con las independientes. Con un modelo múltiple, controlando por la capacidad del alumno, la distancia geográfica, el nivel socioeconómico, etc., la estimación de la pendiente es diferente porque estoy controlando por otros factores. Antes el valor de la pendiente contenía varios impactos. Se busca reinsertar el ceteris paribus por medio de agregar variables. las que tienen alguna correlación con las demás si no tenés las variables en el modelo las demás variable se llevan el crédito, tienen que estar sí o sí, si pones otras variables en el modelo que no están correlacionando está buenísimo porque suma al R2 pero no ponerla no es tan grave como no incluir variables correlacionadas -sesgo de la variable no incluida o algo así en Berry y Sanders-.
Compartir