Logo Studenta

1 Clases Estadística (1 (25)

¡Estudia con miles de materiales!

Vista previa del material en texto

Clase 9/11. TALLER DE STATA IV. 
Antes de hacer un gráfico de dispersión es más fácil saber las estadísticas descriptivas y las unidades de las 
variables. 
Si yo calculo la correlación con star (0.05) y me devuelve un asterisco en la correlación implica una 
seguridad del 95%. Si pongo star (0.01) y me devuelve un asterisco en la correlación tambien es 
estadísticamente significativa con una seguridad del 99%. 
El comando scatter se puede complementar con el comando ,by para hacerlo según otra variable para 
dividir. 
Recta de mínimos cuadrados: //Para hacer la recta de mínimos cuadrados o recta de regresión -recta que 
mejor se ajusta a todos los puntos-. 
scatter wef_gdpc hf_efiscore || lfit wef_gdpc hf_efiscore 
//Otra opcion 
twoway (scatter wef_gdpc hf_efiscore) (lfit wef_gdpc hf_efiscore) 
Regresión simple: 
• m: pendiente (mide el cambio de Y asociado al incremento de 1 unidad de X). Se busca 
estimar/predecir cuánto varía Y cuando X varía en 1 unidad («responsiveness») 
• Consiste en encontrar la recta que mejor describa la relación entre las dos variables (recta de 
mínimos cuadrados), cuya función es: 
Y=mX + b 
Donde: 
• b: constante (valor de Y cuando X=0) 
• m: pendiente (mide el cambio de Y asociado al incremento de 1 unidad de X) 
Pendiente : 
1. El signo: +/- 
2. El valor: cambio esperado (esto es esperado porque la recta de regresión predice, y las unidades de 
análisis no suelen encontrarse sobre la recta) en la VD cuando la VI aumenta en una unidad. 
3. La significancia estadística: miro el intervalo de confianza. Hipótesis nula (H0): la pendiente es igual 
a 0 (VI no tiene efecto sobre VD). Es decir, si el intervalo de confianza de la pendiente incluye al 0, 
no puedo rechazar la H0. 
P: probabilidad de observar esta pendiente en la muestra si la H0 fuera cierta en el universo 
• P tiene que ser menor o igual a 0.05 para que la pendiente se estadísticamente significativa al 95% 
(es lo mismo que el intervalo de confianza del 95% no incluya al 0). 
• P tiene que ser menor o igual a 0.01 para que la pendiente sea estadísticamente significativa al 99% 
(es lo mismo que el intervalo de confianza del 99% no incluya al 0). 
Cuando en stata P>|t| es menor a 0.01 puedo asegurar que es estadísticamente significativa al 99%, lo 
mismo con 0.05. 
• Residuo (e): toda variación de Y que no está “explicada” por X (sino por otras variables no incluidas 
en el modelo, error de medición, aleatoriedad del comportamiento humano. Hay otras variables 
que explica la distancia entre la unidad de análisis observada y el punto que el modelo predice) 
e= valor observado de Y- valor predicho de Y por la recta de regresión 
Y= mX + b + e 
• R2: es la proporción de la variabilidad de la VD que es “explicada” o predicha por la VI. Es la 
contracara del residuo (a mayor residuo, menor R2). (cuanta más distancia en el gráfico, menos R). 
*Valor predicho 
1. Hago la regresión: reg VD VI 
2. Creo variable wef_gdpc_predict (valor predicho de VD por recta regresión): predict VD_predicha 
3. Pido que me muestre nombre país, VD, VI, valor predicho VD 
 
Yo tambien le puedo pedir a stata que me cree el valor del residuo: 
/*Residuo: 
1. Hago la regresión 
2. Creo variable wef_gdpc_resid (residuo): predict VD_residuo, resid 
3. Pido que me muestre nombre país, VD, VI, valor predicho VD, residuo 
Regresión múltiple: 
• Permite superar las limitaciones de la regresión simple: la inclusión de más VIs permite mantener 
un control sobre la VI que nos interesa. Yo puedo controlar por otras variables. 
• Comando: regress VD VI1 VI2 VI3 
• La VD debe ser intervalar 
• Las VIs deben ser intervalares o dicotómicas (por ej. pasar de no democracias (0) a democracias (1). 
Pueden ser explicativas o de control (según objetivo del investigador) 
• En lo posible, las VIs no deben estar relacionadas entre sí (multicolinealidad) 
Tenemos muchas VI y una VD 
• Constante: valor esperado de VD cuando todas las VIS son 0. Me está diciendo el valor esperado 
cuando el desarrollo humano es cero y sos no democrático, por ejemplo. 
• Pendientes parciales: miden la respuesta de la VD a un cambio en la VI cuando el resto de las VIs se 
mantienen constantes. Cada variable que se introduce al modelo tiene su pendiente. La pendiente 
de desarrollo humano nos dice que cuando este aumenta en 1 la globalización aumenta en tanto, 
manteniendo constante la democracia. Para cada VI tenés una pendiente, y mantenés constante 
toda las demás VI. 
• Residuo: toda variación de VD que no está “explicada” por las VI del modelo (sino por otras 
variables no incluidas en el modelo, error de medición, aleatoriedad del comportamiento humano). 
• R2: porcentaje de la VD explicado o predicho por todas las VIs incluidas en el modelo.

Otros materiales