Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
La media es mayor a la mediana. Hay outliers con valor alto. La media me la tiran para arriba. De forma que hay sesgo a la derecha. Como determino que un valor es un outlier está en agresti y Finley. Clase teórica 22/8. Hay estadísticas que se pueden ver a lo q apuntan, por ejemplo, la media y la mediana son medidas de tendencia central. La tendencia central es encontrarle o buscarle el centro a una variable. Esto al no ser tan claro hay distintas formas de hacerlo. Buscamos el centro de la distribución de una variable. En general la mitad es un valor típico o representativo, pero no tiene por qué ser cierto: puede haber distribuciones muy polarizadas. La diferencia entre media y mediana: Formula de la mediana (posición de la mediana en Agresti y Finley) es igual (n+1)/2. El resultado de esto no es la mediana sino la posición de la mediana, ordeno las unidades de análisis y busco la unidad de análisis que se encuentra en ese lugar. Tiene que ser razonable, responde a la categoría no a un nro abstracto. Lo que diferencia a estas medidas es su robustez frente a valores desviados. Los outliers o casos desviados no son algo malo. La moda es el valor más frecuente de una variable. Las variables podrían no tener moda. Es discutible si la moda es una verdadera medida de tendencia central. Es el valor más frecuente, puede como no estar al medio. Como puede no haber moda puede haber más de una. ¡¡¡Las medidas de tendencia central refieren a las categorías!!! Donde empiezan a ser casos desviados es una gran pregunta. Son sustancialmente lejanos de la media y la mediana, pero no hay una definición clara. El límite es arbitrario. Las medidas de dispersión: La desviación estándar nos diferencia las distribuciones claramente. La desviación estándar como medida de dispersión nos plantea cuán lejos están los casos desviados respecto del promedio. Es un promedio de los desvíos respecto del promedio, quiere decir que es un promedio de cuanto se alejan los casos de la media. Otra variable de dispersión es el rango, no se usa porque no es tan útil. Es el valor máximo menos el mínimo. La debilidad del rango es que depende solo de dos variables, por eso es una estadística inferior como medida de dispersión. A mayor heterogeneidad de las unidades de análisis mayor es la desviación estándar. Medidas de posición: La mediana es una. Son las medidas que indican donde esta una unidad de análisis en términos de su ubicación en el total de las unidades de análisis. Cuartiles, deciles o percentiles. El decil me está partiendo la distribución en pedacitos de 10% cada uno. La misma lógica aplica a los percentiles. El percentil divide la muestra en 100 percentiles. La mediana es el quinto decil, el cincuenta percentil y el segundo cuartil. Los box plots están pensados como gráficos de medidas de posición. (la coma en stata es para introducir subcomandos). El rango intercuartílico: medida de dispersión. Rango, la distancia entre el primer y tercer cuartil. Es la longitud de la caja de un box plot. Stata marca a los outliers a aquellos casos que se encuentran 1.5 por encima o por debajo del rango intercuartílico. Taller de STATA II 24/8. En la base de datos de APES tenemos ciertas variables o indicadores que tienen _w2 que implica que son preguntas que se realizaron en la segunda ola. No todas las personas que respondieron la primera ola no necesariamente respondieron la segunda. Lo ideal es que sea más representativo. Pero cuando no se puede se agrega gente: refresh. Panel es aquella persona que responde en ambas olas. Data analysis son las estadísticas descriptivas, los gráficos. Data management es crear bases de datos, crear variables. Describe una variable como comando también se puede hacer desde la barra del menú, yendo a datos, describir los datos en memoria o un archivo. Te abre una ventana si queres todos los variables pones ok, si no podes seleccionar una variable. Codebook también se puede hacer yendo a datos, describir datos, describir datos (codebook). Set more on para que no te tire todo el codebook de una. Si queres el codebook de una sola variable pones codebook variables que te interesan (sin coma) Los comandos tab y summarize también se pueden hacer desde el menú: está en el do file bien claro. En estadísticas, sumarios blablablá…
Compartir