Logo Studenta

1 Clases Estadística (1 (6)

¡Estudia con miles de materiales!

Vista previa del material en texto

La media es mayor a la mediana. Hay outliers con valor alto. La media me la tiran para arriba. De forma que hay 
sesgo a la derecha. 
Como determino que un valor es un outlier está en agresti y Finley. 
Clase teórica 22/8. 
Hay estadísticas que se pueden ver a lo q apuntan, por ejemplo, la media y la mediana son medidas de tendencia 
central. 
La tendencia central es encontrarle o buscarle el centro a una variable. Esto al no ser tan claro hay distintas formas 
de hacerlo. Buscamos el centro de la distribución de una variable. En general la mitad es un valor típico o 
representativo, pero no tiene por qué ser cierto: puede haber distribuciones muy polarizadas. 
La diferencia entre media y mediana: 
Formula de la mediana (posición de la mediana en Agresti y Finley) es igual (n+1)/2. El resultado de esto no es la 
mediana sino la posición de la mediana, ordeno las unidades de análisis y busco la unidad de análisis que se 
encuentra en ese lugar. Tiene que ser razonable, responde a la categoría no a un nro abstracto. 
Lo que diferencia a estas medidas es su robustez frente a valores desviados. 
Los outliers o casos desviados no son algo malo. 
La moda es el valor más frecuente de una variable. Las variables podrían no tener moda. Es discutible si la moda es 
una verdadera medida de tendencia central. Es el valor más frecuente, puede como no estar al medio. Como puede 
no haber moda puede haber más de una. 
¡¡¡Las medidas de tendencia central refieren a las categorías!!! 
Donde empiezan a ser casos desviados es una gran pregunta. Son sustancialmente lejanos de la media y la mediana, 
pero no hay una definición clara. El límite es arbitrario. 
Las medidas de dispersión: 
La desviación estándar nos diferencia las distribuciones claramente. La desviación estándar como medida de 
dispersión nos plantea cuán lejos están los casos desviados respecto del promedio. Es un promedio de los desvíos 
respecto del promedio, quiere decir que es un promedio de cuanto se alejan los casos de la media. 
Otra variable de dispersión es el rango, no se usa porque no es tan útil. Es el valor máximo menos el mínimo. La 
debilidad del rango es que depende solo de dos variables, por eso es una estadística inferior como medida de 
dispersión. 
A mayor heterogeneidad de las unidades de análisis mayor es la desviación estándar. 
Medidas de posición: 
La mediana es una. Son las medidas que indican donde esta una unidad de análisis en términos de su ubicación en el 
total de las unidades de análisis. 
Cuartiles, deciles o percentiles. El decil me está partiendo la distribución en pedacitos de 10% cada uno. La misma 
lógica aplica a los percentiles. El percentil divide la muestra en 100 percentiles. La mediana es el quinto decil, el 
cincuenta percentil y el segundo cuartil. 
Los box plots están pensados como gráficos de medidas de posición. 
(la coma en stata es para introducir subcomandos). 
El rango intercuartílico: medida de dispersión. Rango, la distancia entre el primer y tercer cuartil. Es la longitud de la 
caja de un box plot. 
Stata marca a los outliers a aquellos casos que se encuentran 1.5 por encima o por debajo del rango intercuartílico. 
Taller de STATA II 24/8. 
En la base de datos de APES tenemos ciertas variables o indicadores que tienen _w2 que implica que son preguntas 
que se realizaron en la segunda ola. 
No todas las personas que respondieron la primera ola no necesariamente respondieron la segunda. Lo ideal es que 
sea más representativo. Pero cuando no se puede se agrega gente: refresh. Panel es aquella persona que responde 
en ambas olas. 
Data analysis son las estadísticas descriptivas, los gráficos. Data management es crear bases de datos, crear 
variables. 
Describe una variable como comando también se puede hacer desde la barra del menú, yendo a datos, describir los 
datos en memoria o un archivo. Te abre una ventana si queres todos los variables pones ok, si no podes seleccionar 
una variable. 
Codebook también se puede hacer yendo a datos, describir datos, describir datos (codebook). Set more on para que 
no te tire todo el codebook de una. Si queres el codebook de una sola variable pones codebook variables que te 
interesan (sin coma) 
Los comandos tab y summarize también se pueden hacer desde el menú: está en el do file bien claro. En estadísticas, 
sumarios blablablá…

Otros materiales