Logo Studenta

Apuntes de Clases Estadística Descriptiva

Vista previa del material en texto

Carrera de Educación Parvularia y Básica Inicial
Estadística I: modulo 2 “Procesamiento del resumen de la información”
Contenidos 1 de octubre:
· Estadística descriptiva
· Distribución de frecuencias, construcción de tabla de frecuencia
· Representación gráfica
· Cálculo de medidas de tendencia central: Media, moda, mediana
· Percentiles, cuartiles, deciles
· Medidas de dispersión: Varianza, Desviación estándar
1. Distribución de frecuencias
La distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente. En variables nominales y ordinales, la frecuencia corresponde al número de casos que presentan dicha característica en el grupo de observaciones. Se representa por fi. La suma total de las frecuencias es igual el número de observaciones totales o casos (N).
Para indicar resumidamente estas sumas se utiliza la letra griega Σ (sigma mayúscula) que se lee suma o sumatoria.
Ejemplo:
Nº de matrícula por carrera de la facultad de Ciencias Sociales 2010
	carrera
	Frecuencia absoluta(fi)
	Antropología
	45
	Educación
	30
	Psicología
	50
	Sociología
	40
La frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos. Se representa por ni. La suma de las frecuencias relativas es igual a 1
La frecuencia acumulada es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado. Se representa por Fi
Ejemplo:
	carrera
	Frecuencia absoluta
(fi)
	Frecuencia relativa 
(ni)
	Frecuencia acumulada (FI)
	Antropología
	45
			0,27
	0,27
	Educación
	30
	0,18
	0,45
	Psicología
	50
	0,30
	0,76
	Sociología
	40
	0,24
	1,00
	N
	165
	1
	 
2. Distribución de frecuencias agrupadas
Cuando de trata de variables continuas que tienen gran número de observaciones o casos (ejemplo: mayor a 30). La tabla de distribución de frecuencias se presenta en forma agrupada. Los datos se agrupan en intervalos de igual amplitud denominados clases. La frecuencia de cada intervalo corresponde al número de observaciones con valores que están dentro del intervalo definido.
Para construir una tabla de datos agrupados es necesario definir los siguientes componentes:
Límites de la clase: límite inferior de la clase y el límite superior de la clase.
Amplitud de la clase: la diferencia entre el límite superior e inferior de la clase.
Marca de clase: La marca de clase es el punto medio de cada intervalo y es el valor que representa a todo el intervalo para el cálculo de algunos parámetros. Se representa ci
a. Determinar el rango o recorrido de los datos.
 
Rango = Valor mayor – Valor menor
 
b. Establecer el número de clases o intervalos (k) en que se van a agrupar los datos. Esta es una decisión del investigador. Sin embargo se puede asumir como referencia la siguiente tabla.
 
  
	Tamaño de muestra o No. De datos
	Número de clases
	Menos de 50
	5 a 7
	50 a 99
	6 a 10
	100 a 250
	7 a 12
	250 en adelante
	10 a 20
 
 
c. Determinar la amplitud de clase para agrupar (C).
 
 
 
 
d.      Formar clases y agrupar datos.
Para formar la primera clase, se pone como límite inferior de la primera clase el dato menor encontrado en la muestra y posteriormente se suma a este valor C, obteniendo de esta manera el límite superior de la primera clase, luego se procede a obtener los límites de la clase siguiente y así sucesivamente. Teniendo presente que el límite superior de la clase siguiente corresponde a Li +1 o 0,1 dependiendo del uso de decimales en la variable.
Ejemplo: Puntajes PSU
 551,6 507,6 503,5 496,7 529,3 484,1 528,3 429,9 580,0 530,5 492,2 602,6 430,2 479,4 432,8 522,9 478,6 465,5 413,9 528,6 445,3 382,2 394,8 556,0 454,2 418,6 392,8 623,6 537,6 597,7 462,4
	Li
	Ls
	Frecuencia (fi)
	Marca de clase (xi)
	frecuencia relativa
	frecuencia acumulada
	382,2
	422,5
	5
	402,3
	0,16
	0,16
	422,6
	462,7
	6
	442,6
	0,19
	0,35
	462,8
	502,9
	6
	482,8
	0,19
	0,55
	503,0
	543,2
	8
	523,0
	0,26
	0,81
	543,3
	583,4
	3
	563,3
	0,10
	0,90
	583,5
	623,6
	3
	603,5
	0,10
	1,00
	
	
	 N = 31
	
	1,00
	
3. Representación gráfica de frecuencia
Gráfico de sectores o PIE
Histograma
4. Medidas de tendencia central
Las medidas de tendencia central son indicadores descriptivos de las características generales de una muestra o grupo de observaciones. Proporcionan una idea del cómo se presenta la variable en todo el grupo. Estas son: Media, Mediana y Moda.
a)     Cálculo de media.
 
Para datos no agrupados
 
Donde:
X i = observaciones
N = número de datos en la muestra
Para datos agrupados
 
Donde:
k = número de clases
xi = marca de clase i
fi = frecuencia de la clase i
N = número de datos en la muestra
 
b)      Mediana (Xmed).
 
 
                   
 
Donde:
Li = límite real inferior de la clase que contiene a la mediana
Fme-1 = sumatoria de las frecuencias anteriores a la clase en donde se encuentra la mediana
fme = frecuencia de la clase en donde se encuentra la mediana
A = amplitud real de la clase en donde se encuentra la mediana
A = LRS-LRI
LRS = límite real superior de la clase que contiene a la mediana
LRI = límite real inferior de la clase que contiene a la mediana
N = número de datos en la muestra
 
c)   Moda (Xmod).
 
 
 
Donde:
Li = límite real inferior de la clase que contiene a la moda
d1 = 
d2 = 
fmo = frecuencia de la clase que contiene a la moda
fmo-1= frecuencia de la clase anterior a la que contiene a la moda
fmo+1= frecuencia de la clase posterior a la que contiene a la moda
A = amplitud real de la clase que contiene a la moda
A = LRS – LRI
LRS = límite real superior de la clase que contiene a la moda
LRI = límite real inferior de la clase que contiene a la moda
 
5. Medidas de posición
Las medidas de posición muestra la forma en como se agrupan los datos de forma acumulada. 
d) Percentiles
Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales.Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los datos. El P50 coincide con la mediana.
Cálculo de los percentiles
En primer lugar buscamos la clase donde se encuentra, en la tabla de las frecuencias acumuladas. 
Li es el límite inferior de la clase donde se encuentra el percentil.
N es la suma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase del percentil.
ai es la amplitud de la clase.
e) Cuartiles
Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales. Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos. Q2 coincide con la mediana.
Cálculo de los cuartiles
En primer lugar buscamos la clase donde se encuentra , en la tabla de las frecuencias acumuladas. 
Li es el límite inferior de la clase donde se encuentra el cuartil.
N es la suma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase del cuartil.
ai es la amplitud de la clase.
6. Medidas de dispersión
Las medidas de dispersión son indicadores del grado de variación de las variables, es decir de la heterogeneidad del grupo de observaciones o muestra. Las más comunes son: Varianza y Desviación estándar.
 
  
f) Varianza
La varianza se denota por S2. La varianza es la mediada de dispersión más importante, principalmente porque cumple muchas propiedades que la hacen ser preferida entre otras medidas de dispersión
Para datos no agrupados
Para datos agrupados
Donde
 i n : frecuencia absoluta de la clase i 
i M : marca de la clase i
k : número de clases o intervalos.
n : tamaño de la muestra.
 La raíz cuadrada de la varianza ( S2), se conoce como Desviación Estándar o Desviación Típica.
g) Desviación estándar (S)
El cálculo de S esta dado por:
 	
                         
                            
                  
 
Donde:
xi = marca de clase i
= media aritmética
fi = frecuencia de la clase i
         n = número total de datos en la muestra
Histograma
382,2-422,5422,6-462,7	462,8-502,9	503	-543,2	543,3-583,4	583,5-623,6	5	6	6	8	3	3	Intevalos
Frecuencias
Antropología	Educación	Psicología	Sociología	45	30	50	40

Otros materiales