Logo Studenta

1 Clases Estadística (1 (5)

¡Estudia con miles de materiales!

Vista previa del material en texto

• Media: promedio aritmético. 
Si tenemos 0, 0, 1, 2, 7. 
Media= (0+0+1+2+7)/5=2 
• Mediana: valor de la variable para la unidad de análisis que está en el medio. Mediana divide a la muestra en 
dos mitades iguales. Mitad de casos por arriba y mitad por abajo. Ubicación de mediana: (n+1)/2 
Si tenemos 0, 0, 1, 2, 7. 
Mediana en (5+1)/2=3. Es valor de tercera unidad de análisis. 
Mediana= 1 
• Moda: valor más frecuente de una variable. 
Si tenemos 0, 0, 1, 2, 7. 
Moda=0 
MEDIDAS DE POSICION. 
• Primer cuartil: 25% de los casos tiene valores menores y el 75% tiene valores mayores. Mediana de la mitad 
de las observaciones debajo de la mediana. 
• Mediana/segundo cuartil: 50% de los casos tiene valores menores y 50% tiene valores mayores. Ubicación 
en (n+1)/2. 
• Tercer cuartil: 75% de los casos tiene valores menores y 25% tiene valores mayores. Mediana de la mitad de 
las observaciones por arriba de la mediana. 
MEDIDAS DE DISPERSION: Indican cuan homogéneos o heterogéneos son los datos. 
• Rango: valor máximo de la variable-valor mínimo. Resto al valor máximo el mínimo. 
• Rango intercuartílico (IQR): distancia entre el primer y tercer cuartil. 3 cuartil- 1 cuartil. IQR es la caja del 
boxplot. Es la resta al tercer cuartil del primer cuartil. 
• Desviación estándar: es el promedio de los desvíos respecto de la media. Si la unidad de análisis es una 
persona, decimos que el individuo promedio se desvía X de la media. Desviación estándar alta implica que 
hay heterogeneidad o variación. 
• Varianza: promedio de desvíos al cuadrado. Desviación estándar al cuadrado. 
• https://www.mathsisfun.com/data/standard-deviation-calculator.html se pueden corroborar los 
datos ahí. 
Comando para estadísticas descriptivas: codebook para toda la base de datos cuando no aclaro la variable, si yo 
aclaro la variable. Cuando pido el codebook de variables intervalares me da medidas de posición. Cuando lo hago 
para variables nominales no. 
Para calcular estadísticas descriptivas tengo que poner tabstat que no sea la media (mean) pongo entre paréntesis 
mean sd p50 min max rango o n lo que quieras calcular. Es más cómodo escribir sum o summarize la variable para 
que te tire el nro de observaciones (n), la media, la desviación estándar, el mínimo y máximo. Si quiero que me dé 
más datos aparte de estos básicos pongo sum la variable, detail. 
Los comandos también se pueden reducir por ejemplo si pongo d en vez de describe. 
La media es sensible a casos extremos la mediana no. 
Para pedirle a stata que te de la unidad de análisis que tenga un cierto valor de una variable tengo que poner sum 
cname la variable==el nro que deseo. 
Para hacer un histograma con densidad pongo histogram la variable. Si quiero que sea en función de frecuencia 
pongo histogram la variable, freq. Si quiero que sea en función de porcentaje pongo histogram la variable percent 
addlabels (addlabels es opcional para agregar etiquetas encima de cada columna del histograma). 
Cuando la media es mayor a la mediana tengo un sesgo a la derecha, de forma que el grafico tiene una curva 
pronunciada a la izquierda y una cola larga a la derecha, porque el valor más grande me tira la media a la derecha. 
https://www.mathsisfun.com/data/standard-deviation-calculator.html
Para hacer una tabla de frecuencias es con el comando tabulate o tab. Esta tabla me muestra la frecuencia, el 
porcentaje y el porcentaje acumulado. 
Para buscar la mediana con la tabla de frecuencias puedo darme cuenta con el valor de porcentaje acumulado que el 
primer valor que tiene más de 25 acumulado es el primer cuartil, cuando pasa el 50 es la mediana o segundo cuartil y 
el que acumula el 75 es el tercer cuartil. 
Si yo pongo help y algún comando se abre una ventana de ayuda para indicarte que hace ese comando. 
Comandos más importantes: 
Tab tabla de frecuencias 
Sum para las estadísticas descriptivas 
histogram 
BOX PLOT O DIAGRAMA DE CAJA: 
Nos resume las medidas de posición de una variable. 
 
 
Con el comando graph box te hace el diagrama de caja. Los puntos del diagrama son outliers, no están en 
concordancia con los demás casos. Para que no te muestre los outliers pones graph box la variable, nnooutsides.

Otros materiales