Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
• Media: promedio aritmético. Si tenemos 0, 0, 1, 2, 7. Media= (0+0+1+2+7)/5=2 • Mediana: valor de la variable para la unidad de análisis que está en el medio. Mediana divide a la muestra en dos mitades iguales. Mitad de casos por arriba y mitad por abajo. Ubicación de mediana: (n+1)/2 Si tenemos 0, 0, 1, 2, 7. Mediana en (5+1)/2=3. Es valor de tercera unidad de análisis. Mediana= 1 • Moda: valor más frecuente de una variable. Si tenemos 0, 0, 1, 2, 7. Moda=0 MEDIDAS DE POSICION. • Primer cuartil: 25% de los casos tiene valores menores y el 75% tiene valores mayores. Mediana de la mitad de las observaciones debajo de la mediana. • Mediana/segundo cuartil: 50% de los casos tiene valores menores y 50% tiene valores mayores. Ubicación en (n+1)/2. • Tercer cuartil: 75% de los casos tiene valores menores y 25% tiene valores mayores. Mediana de la mitad de las observaciones por arriba de la mediana. MEDIDAS DE DISPERSION: Indican cuan homogéneos o heterogéneos son los datos. • Rango: valor máximo de la variable-valor mínimo. Resto al valor máximo el mínimo. • Rango intercuartílico (IQR): distancia entre el primer y tercer cuartil. 3 cuartil- 1 cuartil. IQR es la caja del boxplot. Es la resta al tercer cuartil del primer cuartil. • Desviación estándar: es el promedio de los desvíos respecto de la media. Si la unidad de análisis es una persona, decimos que el individuo promedio se desvía X de la media. Desviación estándar alta implica que hay heterogeneidad o variación. • Varianza: promedio de desvíos al cuadrado. Desviación estándar al cuadrado. • https://www.mathsisfun.com/data/standard-deviation-calculator.html se pueden corroborar los datos ahí. Comando para estadísticas descriptivas: codebook para toda la base de datos cuando no aclaro la variable, si yo aclaro la variable. Cuando pido el codebook de variables intervalares me da medidas de posición. Cuando lo hago para variables nominales no. Para calcular estadísticas descriptivas tengo que poner tabstat que no sea la media (mean) pongo entre paréntesis mean sd p50 min max rango o n lo que quieras calcular. Es más cómodo escribir sum o summarize la variable para que te tire el nro de observaciones (n), la media, la desviación estándar, el mínimo y máximo. Si quiero que me dé más datos aparte de estos básicos pongo sum la variable, detail. Los comandos también se pueden reducir por ejemplo si pongo d en vez de describe. La media es sensible a casos extremos la mediana no. Para pedirle a stata que te de la unidad de análisis que tenga un cierto valor de una variable tengo que poner sum cname la variable==el nro que deseo. Para hacer un histograma con densidad pongo histogram la variable. Si quiero que sea en función de frecuencia pongo histogram la variable, freq. Si quiero que sea en función de porcentaje pongo histogram la variable percent addlabels (addlabels es opcional para agregar etiquetas encima de cada columna del histograma). Cuando la media es mayor a la mediana tengo un sesgo a la derecha, de forma que el grafico tiene una curva pronunciada a la izquierda y una cola larga a la derecha, porque el valor más grande me tira la media a la derecha. https://www.mathsisfun.com/data/standard-deviation-calculator.html Para hacer una tabla de frecuencias es con el comando tabulate o tab. Esta tabla me muestra la frecuencia, el porcentaje y el porcentaje acumulado. Para buscar la mediana con la tabla de frecuencias puedo darme cuenta con el valor de porcentaje acumulado que el primer valor que tiene más de 25 acumulado es el primer cuartil, cuando pasa el 50 es la mediana o segundo cuartil y el que acumula el 75 es el tercer cuartil. Si yo pongo help y algún comando se abre una ventana de ayuda para indicarte que hace ese comando. Comandos más importantes: Tab tabla de frecuencias Sum para las estadísticas descriptivas histogram BOX PLOT O DIAGRAMA DE CAJA: Nos resume las medidas de posición de una variable. Con el comando graph box te hace el diagrama de caja. Los puntos del diagrama son outliers, no están en concordancia con los demás casos. Para que no te muestre los outliers pones graph box la variable, nnooutsides.
Compartir