Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Carrera de Educación Parvularia y Básica Inicial Estadística I: modulo 2 “Procesamiento del resumen de la información” Contenidos 1 de octubre: · Estadística descriptiva · Distribución de frecuencias, construcción de tabla de frecuencia · Representación gráfica · Cálculo de medidas de tendencia central: Media, moda, mediana · Percentiles, cuartiles, deciles · Medidas de dispersión: Varianza, Desviación estándar 1. Distribución de frecuencias La distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente. En variables nominales y ordinales, la frecuencia corresponde al número de casos que presentan dicha característica en el grupo de observaciones. Se representa por fi. La suma total de las frecuencias es igual el número de observaciones totales o casos (N). Para indicar resumidamente estas sumas se utiliza la letra griega Σ (sigma mayúscula) que se lee suma o sumatoria. Ejemplo: Nº de matrícula por carrera de la facultad de Ciencias Sociales 2010 carrera Frecuencia absoluta(fi) Antropología 45 Educación 30 Psicología 50 Sociología 40 La frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos. Se representa por ni. La suma de las frecuencias relativas es igual a 1 La frecuencia acumulada es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado. Se representa por Fi Ejemplo: carrera Frecuencia absoluta (fi) Frecuencia relativa (ni) Frecuencia acumulada (FI) Antropología 45 0,27 0,27 Educación 30 0,18 0,45 Psicología 50 0,30 0,76 Sociología 40 0,24 1,00 N 165 1 2. Distribución de frecuencias agrupadas Cuando de trata de variables continuas que tienen gran número de observaciones o casos (ejemplo: mayor a 30). La tabla de distribución de frecuencias se presenta en forma agrupada. Los datos se agrupan en intervalos de igual amplitud denominados clases. La frecuencia de cada intervalo corresponde al número de observaciones con valores que están dentro del intervalo definido. Para construir una tabla de datos agrupados es necesario definir los siguientes componentes: Límites de la clase: límite inferior de la clase y el límite superior de la clase. Amplitud de la clase: la diferencia entre el límite superior e inferior de la clase. Marca de clase: La marca de clase es el punto medio de cada intervalo y es el valor que representa a todo el intervalo para el cálculo de algunos parámetros. Se representa ci a. Determinar el rango o recorrido de los datos. Rango = Valor mayor – Valor menor b. Establecer el número de clases o intervalos (k) en que se van a agrupar los datos. Esta es una decisión del investigador. Sin embargo se puede asumir como referencia la siguiente tabla. Tamaño de muestra o No. De datos Número de clases Menos de 50 5 a 7 50 a 99 6 a 10 100 a 250 7 a 12 250 en adelante 10 a 20 c. Determinar la amplitud de clase para agrupar (C). d. Formar clases y agrupar datos. Para formar la primera clase, se pone como límite inferior de la primera clase el dato menor encontrado en la muestra y posteriormente se suma a este valor C, obteniendo de esta manera el límite superior de la primera clase, luego se procede a obtener los límites de la clase siguiente y así sucesivamente. Teniendo presente que el límite superior de la clase siguiente corresponde a Li +1 o 0,1 dependiendo del uso de decimales en la variable. Ejemplo: Puntajes PSU 551,6 507,6 503,5 496,7 529,3 484,1 528,3 429,9 580,0 530,5 492,2 602,6 430,2 479,4 432,8 522,9 478,6 465,5 413,9 528,6 445,3 382,2 394,8 556,0 454,2 418,6 392,8 623,6 537,6 597,7 462,4 Li Ls Frecuencia (fi) Marca de clase (xi) frecuencia relativa frecuencia acumulada 382,2 422,5 5 402,3 0,16 0,16 422,6 462,7 6 442,6 0,19 0,35 462,8 502,9 6 482,8 0,19 0,55 503,0 543,2 8 523,0 0,26 0,81 543,3 583,4 3 563,3 0,10 0,90 583,5 623,6 3 603,5 0,10 1,00 N = 31 1,00 3. Representación gráfica de frecuencia Gráfico de sectores o PIE Histograma 4. Medidas de tendencia central Las medidas de tendencia central son indicadores descriptivos de las características generales de una muestra o grupo de observaciones. Proporcionan una idea del cómo se presenta la variable en todo el grupo. Estas son: Media, Mediana y Moda. a) Cálculo de media. Para datos no agrupados Donde: X i = observaciones N = número de datos en la muestra Para datos agrupados Donde: k = número de clases xi = marca de clase i fi = frecuencia de la clase i N = número de datos en la muestra b) Mediana (Xmed). Donde: Li = límite real inferior de la clase que contiene a la mediana Fme-1 = sumatoria de las frecuencias anteriores a la clase en donde se encuentra la mediana fme = frecuencia de la clase en donde se encuentra la mediana A = amplitud real de la clase en donde se encuentra la mediana A = LRS-LRI LRS = límite real superior de la clase que contiene a la mediana LRI = límite real inferior de la clase que contiene a la mediana N = número de datos en la muestra c) Moda (Xmod). Donde: Li = límite real inferior de la clase que contiene a la moda d1 = d2 = fmo = frecuencia de la clase que contiene a la moda fmo-1= frecuencia de la clase anterior a la que contiene a la moda fmo+1= frecuencia de la clase posterior a la que contiene a la moda A = amplitud real de la clase que contiene a la moda A = LRS – LRI LRS = límite real superior de la clase que contiene a la moda LRI = límite real inferior de la clase que contiene a la moda 5. Medidas de posición Las medidas de posición muestra la forma en como se agrupan los datos de forma acumulada. d) Percentiles Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales.Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los datos. El P50 coincide con la mediana. Cálculo de los percentiles En primer lugar buscamos la clase donde se encuentra, en la tabla de las frecuencias acumuladas. Li es el límite inferior de la clase donde se encuentra el percentil. N es la suma de las frecuencias absolutas. Fi-1 es la frecuencia acumulada anterior a la clase del percentil. ai es la amplitud de la clase. e) Cuartiles Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales. Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos. Q2 coincide con la mediana. Cálculo de los cuartiles En primer lugar buscamos la clase donde se encuentra , en la tabla de las frecuencias acumuladas. Li es el límite inferior de la clase donde se encuentra el cuartil. N es la suma de las frecuencias absolutas. Fi-1 es la frecuencia acumulada anterior a la clase del cuartil. ai es la amplitud de la clase. 6. Medidas de dispersión Las medidas de dispersión son indicadores del grado de variación de las variables, es decir de la heterogeneidad del grupo de observaciones o muestra. Las más comunes son: Varianza y Desviación estándar. f) Varianza La varianza se denota por S2. La varianza es la mediada de dispersión más importante, principalmente porque cumple muchas propiedades que la hacen ser preferida entre otras medidas de dispersión Para datos no agrupados Para datos agrupados Donde i n : frecuencia absoluta de la clase i i M : marca de la clase i k : número de clases o intervalos. n : tamaño de la muestra. La raíz cuadrada de la varianza ( S2), se conoce como Desviación Estándar o Desviación Típica. g) Desviación estándar (S) El cálculo de S esta dado por: Donde: xi = marca de clase i = media aritmética fi = frecuencia de la clase i n = número total de datos en la muestra Histograma 382,2-422,5422,6-462,7 462,8-502,9 503 -543,2 543,3-583,4 583,5-623,6 5 6 6 8 3 3 Intevalos Frecuencias Antropología Educación Psicología Sociología 45 30 50 40
Compartir