Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Clase 9/11. TALLER DE STATA IV. Antes de hacer un gráfico de dispersión es más fácil saber las estadísticas descriptivas y las unidades de las variables. Si yo calculo la correlación con star (0.05) y me devuelve un asterisco en la correlación implica una seguridad del 95%. Si pongo star (0.01) y me devuelve un asterisco en la correlación tambien es estadísticamente significativa con una seguridad del 99%. El comando scatter se puede complementar con el comando ,by para hacerlo según otra variable para dividir. Recta de mínimos cuadrados: //Para hacer la recta de mínimos cuadrados o recta de regresión -recta que mejor se ajusta a todos los puntos-. scatter wef_gdpc hf_efiscore || lfit wef_gdpc hf_efiscore //Otra opcion twoway (scatter wef_gdpc hf_efiscore) (lfit wef_gdpc hf_efiscore) Regresión simple: • m: pendiente (mide el cambio de Y asociado al incremento de 1 unidad de X). Se busca estimar/predecir cuánto varía Y cuando X varía en 1 unidad («responsiveness») • Consiste en encontrar la recta que mejor describa la relación entre las dos variables (recta de mínimos cuadrados), cuya función es: Y=mX + b Donde: • b: constante (valor de Y cuando X=0) • m: pendiente (mide el cambio de Y asociado al incremento de 1 unidad de X) Pendiente : 1. El signo: +/- 2. El valor: cambio esperado (esto es esperado porque la recta de regresión predice, y las unidades de análisis no suelen encontrarse sobre la recta) en la VD cuando la VI aumenta en una unidad. 3. La significancia estadística: miro el intervalo de confianza. Hipótesis nula (H0): la pendiente es igual a 0 (VI no tiene efecto sobre VD). Es decir, si el intervalo de confianza de la pendiente incluye al 0, no puedo rechazar la H0. P: probabilidad de observar esta pendiente en la muestra si la H0 fuera cierta en el universo • P tiene que ser menor o igual a 0.05 para que la pendiente se estadísticamente significativa al 95% (es lo mismo que el intervalo de confianza del 95% no incluya al 0). • P tiene que ser menor o igual a 0.01 para que la pendiente sea estadísticamente significativa al 99% (es lo mismo que el intervalo de confianza del 99% no incluya al 0). Cuando en stata P>|t| es menor a 0.01 puedo asegurar que es estadísticamente significativa al 99%, lo mismo con 0.05. • Residuo (e): toda variación de Y que no está “explicada” por X (sino por otras variables no incluidas en el modelo, error de medición, aleatoriedad del comportamiento humano. Hay otras variables que explica la distancia entre la unidad de análisis observada y el punto que el modelo predice) e= valor observado de Y- valor predicho de Y por la recta de regresión Y= mX + b + e • R2: es la proporción de la variabilidad de la VD que es “explicada” o predicha por la VI. Es la contracara del residuo (a mayor residuo, menor R2). (cuanta más distancia en el gráfico, menos R). *Valor predicho 1. Hago la regresión: reg VD VI 2. Creo variable wef_gdpc_predict (valor predicho de VD por recta regresión): predict VD_predicha 3. Pido que me muestre nombre país, VD, VI, valor predicho VD Yo tambien le puedo pedir a stata que me cree el valor del residuo: /*Residuo: 1. Hago la regresión 2. Creo variable wef_gdpc_resid (residuo): predict VD_residuo, resid 3. Pido que me muestre nombre país, VD, VI, valor predicho VD, residuo Regresión múltiple: • Permite superar las limitaciones de la regresión simple: la inclusión de más VIs permite mantener un control sobre la VI que nos interesa. Yo puedo controlar por otras variables. • Comando: regress VD VI1 VI2 VI3 • La VD debe ser intervalar • Las VIs deben ser intervalares o dicotómicas (por ej. pasar de no democracias (0) a democracias (1). Pueden ser explicativas o de control (según objetivo del investigador) • En lo posible, las VIs no deben estar relacionadas entre sí (multicolinealidad) Tenemos muchas VI y una VD • Constante: valor esperado de VD cuando todas las VIS son 0. Me está diciendo el valor esperado cuando el desarrollo humano es cero y sos no democrático, por ejemplo. • Pendientes parciales: miden la respuesta de la VD a un cambio en la VI cuando el resto de las VIs se mantienen constantes. Cada variable que se introduce al modelo tiene su pendiente. La pendiente de desarrollo humano nos dice que cuando este aumenta en 1 la globalización aumenta en tanto, manteniendo constante la democracia. Para cada VI tenés una pendiente, y mantenés constante toda las demás VI. • Residuo: toda variación de VD que no está “explicada” por las VI del modelo (sino por otras variables no incluidas en el modelo, error de medición, aleatoriedad del comportamiento humano). • R2: porcentaje de la VD explicado o predicho por todas las VIs incluidas en el modelo.
Compartir