Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1 UNIVERSIDAD NACIONAL LOS COMECHINGONES Cátedra: Estadística UNIDAD N°2: Descripción de los datos 1.-Medidas de Tendencia Central Estas medidas describen numéricamente la tendencia central de un conjunto de datos: Media Aritmética Dado un conjunto de n observaciones, la media aritmética (𝐱) es la de todas las n observaciones y dividiendo por dicho total ( n). Esta es la medida de posición más común y se denota de la siguiente manera : 𝐱= ∑ = ⋯……. Si en lugar de una muestra, tenemos todos los valores observados de la variable de la población , podríamos calcular la media poblacional de la misma manera, es decir, sumando todos los valores y dividiendo por el total de ellos. La media poblacional se simboliza con la letra griega µ. Nota: Se entiende por parámetro a una cantidad numérica calculada a partir de todos los datos de una población. Por lo tanto, µ es un parámetro. Se entiende por estadístico a una cantidad numérica calculada a partir de los datos de una muestra. Por lo tanto, 𝒙 es un estadístico. Si un estadístico es utilizado para estimar un parámetro desconocido de la población se lo suele llamar “estimador”. Ejemplo: Los siguientes datos corresponden al número de respuestas correctas ,de un cuestionario de 4 preguntas ,dadas por 10 alumnos provenientes de una muestra aleatoria simple : 2,3,0,2,1,0,3,0,1,4. La media de estas observaciones es: �̅� = = 1,6 Se obtuvo un promedio de 1,6 respuestas correctas, si bien no es posible, no se redondea a 2 porque estamos hablando de promedio. 2 Si ahora, supongamos que el último registro fue mal consignado, colocándose 40 en lugar de 4 ¿qué le ocurriría a la media? Veamos: �̅� = = 5,2 Esto significa que LA MEDIA ES SENSIBLE A LAS OBSERVACIONES EXTREMAS. Propiedades o características Es una medida muy útil para comparar dos o más poblaciones. Por ejemplo, se quiere comparar el rendimiento (teniendo en cuenta los promedios definitivos) , en una determinada asignatura, de dos grupos de alumnos pertenecientes a distintas divisiones de un mismo curso en una Institución Educativa. Es la única medida de tendencia central donde la suma de las desviaciones de cada valor ,respecto de la media, siempre es igual a cero. Esto es , en general : (𝒙𝒊 − 𝒙) = 𝟎 𝒏 𝟏 Esto puede interpretarse como que la media es un punto de equilibrio del conjunto de datos correspondiente. La media es sensible a las observaciones extremas (Como se vio en el último ejemplo). La Mediana Dado un conjunto de n observaciones ordenadas de menor a mayor, la mediana es un valor tal que la mitad de las observaciones es menor o igual a ese valor , y la otra mitad de las observaciones es mayor o igual a ese valor. Se la denota 𝐱. Ejemplo: Para encontrar la mediana de 5 números : 4,7,3,9,5 ; primeros debemos ordenar los valores observados de menor a mayor , es decir, 3, 4, 5, 7, 9. Debido que el número de observaciones es impar ,la mediana que está en el centro de la secuencia ordenada de los datos es 5. Advertimos que dos observaciones son menores que 5 y dos observaciones son mayores que 5. Si el número de las observaciones es par, la mediana es el promedio entre las dos observaciones del centro. De modo que la mediana de: 3,4,5,7,9,11,es el promedio de 5 y 7, o sea, 6 . En general : 3 Si el número de n observaciones de un conjunto ordenado es impar, la posición de la mediana se determina haciendo (n+1)/2, luego contamos desde el menor tantos lugares como lo indica ese número y la observación en esa posición es el valor de la mediana. Si el número de n observaciones de un conjunto ordenado es par, contamos (n/2) y luego promediamos la observación con la siguiente más alta, siendo ese promedio el valor de la mediana. Ejemplo: Los siguientes datos corresponden al número de hijos por familia provenientes de una muestra aleatoria simple de 10 hogares de un mismo barrio: 2,3,0,2,1,0,3,0,1 1°)Ordenamos los valores de menor a mayor : 0,0,0,1,1,2,2,3,3,4 2°Calculamos la posición de la mediana : (10/2)=5 3°Calculamos el valor de la mediana: 𝑥 = = 1,50 ¿Qué ocurre si reemplazamos el valor “4” por “40”? . La mediana sigue siendo 1,50. Esto ocurre porque LA MEDIANA ES RESISTENTE A OBSERVACIONES EXTREMAS, esto es, no cambia o cambia muy poco. La Moda Dado un conjunto de n observaciones, la moda es el valor de la variable que se presenta mayor número de veces. Es el valor que tiene más alta frecuencia entre todas las observaciones. Si consideramos nuevamente el ejemplo último , de la cantidad de hijos por familia, la moda es 0, ya que es el que más se repite. Para el conjunto de observaciones :0,0,0,1,1,2,2,2,3,4 , hay dos modas : 0 y 2 debido a que son los valores más frecuentes, por lo tanto el conjunto es “bimodal”. En el caso que hubieran tres valores más frecuentes, el conjunto es “ trimodal”, y así sucesivamente. En tales casos, probablemente no se consideraría ninguna de las modas como representativa del valor central de los datos. Nota: Si en un conjunto de datos, cada uno ocurre una sola vez, se dice que los datos no presente moda. 4 2.- Medidas de dispersión Estas medidas muestran la magnitud de la dispersión de un conjunto de datos: Amplitud o rango Es la diferencia entre la mayor y la menor de las observaciones de un conjunto de datos. Dado el que el rango es calculado a partir de los dos valores más extremos, el mismo puede dar una distorsión del modelo real de variación. Esto es, no toma en consideración la forma en que se distribuyen los datos entre los valores más pequeños y los más grandes. Rango Intercuartílico Siendo los cuartiles ,los tres valores que dividen a un conjunto de datos ordenados en cuatro partes iguales, el Rango Intercuartílico (RI) es la diferencia entre el tercer y primer Cuartil. Es una medida de dispersión que si bien mantiene la idea de un rango, pero no está influenciado por los valores extremos. Considera la dispersión de 50% central de los datos. La idea es dividir a los datos ordenados en cuatro partes iguales y ver la distancia de las dos partes extremas. Ejemplo: Para los valores:32-37-39-40-41-41-41-42-42-43-44-45-45-45-46-47-47-49-50- 51 1°) El segundo Cuartil es Q2 =43,5 2°) El primer Cuartil es Q1 =41 3°) El tercer Cuartil es Q3 =46,5 4°) Calculamos el RI= Q3 –Q1=5,5 Desviación Media Respecto a la media: es el promedio aritmético de los valores absolutos de las desviaciones con respecto a la media aritmética .Esto es: D.M𝐱=∑ | ̅ | La D𝑀𝐱. tiene dos ventajas .Primero ,utiliza en su cálculo todos los valores en la muestra . Segundo, es fácil de comprender, pues representa el promedio en que los valores se desvían con respecto a la media. Sin embargo, su principal desventaja es el uso de 5 valores absolutos, ya que generalmente es difícil trabajar con ellos. Por lo tanto, no se usa tanto como otras medidas de dispersión. Respecto a la mediana: es el promedio aritmético de los valores absolutos de las desviaciones con respecto a la mediana .Esto es: D.M𝐱=∑ ̅ La D.M 𝑥 tiene dos ventajas .Primero, utiliza en su cálculo todos los valores en la muestra . Segundo, es fácil de comprender, pues representa el promedio en que los valores se desvían con respecto a la mediana. Sin embargo, su principal desventaja es el uso de valores absolutos, ya que generalmente es difícil trabajar con ellos. Por lo tanto, no se usa tanto como otras medidas de dispersión. Varianza La Varianza es el promedio de los cuadrados de las desviaciones de las observaciones con respecto a la media .Se expresa así: σ2= ∑ ( 𝑥 − �̅�)2 Si trabajamos con todos los datos de la población,la varianza se simboliza con la letra griega σ2 y si trabajamos con una muestra, se simboliza s2 y se expresa así: s2= ∑ ( 𝑥 − �̅�)2 La varianza está medida en unidades distintas a las de la variable. Por ejemplo, si la variable longitud viene medida en metros, la varianza vendrá expresada en metros cuadrados .El uso de n-1 ,en el denominador, proporciona la corrección adecuada a la tendencia que tiende a subestimar la varianza cuando en el denominador sólo figura n. Ejemplo: Para el conjunto de valores 4,7,3,9,5 , la varianza se obtiene siguiendo los pasos que se muestran a continuación: 1°) Se calcula la media �̅�= 5,602 2°)Se calculan las respectivas diferencias entre cada valor y la media : (4-5,60)2 , (7-5,60)2 , (3-5,60)2 , (9-5,60)2 , (5-5,60)2 . 4°)Se suman todas las diferencias anteriores :(4-5,60)2 + (7-5,60)2 + (3-5,60)2 + (9-5,60)2 + (5-5,60)2 =23,20 5°)Se divide por (n-1) : 23,20/4=5,80 6 Desviación Estándar Es la raíz cuadrada positiva de la varianza. Al igual que la media, la desviación estándar hace uso de todas las observaciones para su cálculo. La desviación estándar está medida en las mismas a las de la variable. La desviación estándar poblacional se expresa así: σ= ∑ ( 𝑥 − �̅�)2 La desviación estándar muestral se expresa así: s= ∑ ( 𝑥 − �̅�)2 Ejemplo: Para el conjunto de valores 4,7,3,9,5 , la desviación estándar es: s=2,41 Coeficiente de Variación Es el cociente entre el desvío y la media. Este parámetro comúnmente es expresado en porcentaje .Es una medida de dispersión adimensional útil para comparar la variabilidad entre variables que estén medidas en escalas distintas. Cuanto más grande sea el coeficiente de variación, representa mayor heterogeneidad entre los valores de la variable. Caso contrario, magnitudes menores indican mayor homogeneidad de los valores de la variable. El coeficiente de variación de una población se expresa de la siguiente manera: CV= µ El coeficiente de variación para una muestra se expresa de la siguiente manera: cv= Se considera que si el coeficiente de variación supera el 20% hay heterogeneidad entre los datos (es poco representativa la media). Cuanto más supera ese porcentaje, mayor será la heterogeneidad. Ejemplo: Para el conjunto de valores 4,7,3,9,5 cv= , , . 100% = 43,04% 7 La MAD Es una medida de dispersión respecto de la mediana. Su expresión está dada por : MAD= Mediana {|𝑥 − 𝑥|, |𝑥 − 𝑥|, … … … . , |𝑥 − 𝑥|} 3.-Otras medidas: Medidas de posición y localización :Los Percentiles Dado n valores observados, ordenados de menor a mayor, el percentil (o centil) i-ésimo es el valor de la distribución que ocupa la posición :Pi= ( ) +0,5. Mientras la mediana divide una distribución en dos mitades, los cuartiles la dividen cuatro, los deciles en 10 décimos y los percentiles en 100 partes. Ejemplo :Si un alumno sabe que su promedio de calificaciones se encuentra en el octavo decil del resultado académico de su universidad, puede concluir que el 80% de los estudiantes tienen un promedio menor al suyo y ,en consecuencia , el 20% tiene un promedio mayor. 4.-Coeficientes de asimetría y curtosis Estas medidas describen o miden la forma de la distribución de un conjunto de datos u observaciones: Hay varias fórmulas que se usan para calcular el coeficiente de asimetría Entre ellas tenemos : As≅ donde m3 es llamado momento de orden 3 ( m3 = ∑ ( ̅) ). El coeficiente de curtosis, se define así : CU≅ donde m4 es llamado momento de orden 4 ( m4 = ∑ ( ̅) ). Mide , en particular, el grado de apuntamiento o de achatamiento de una distribución. La curtosis indica la manera en que el pico y las colas de una distribución difieren de la distribución normal. Nota: Si As es menor que cero, supone mayor concentración de datos a la derecha de la media. Si As es mayor que cero, supone mayor concentración de datos a la izquierda de la media. Si As es aproximadamente cero bastante simétrica respecto de la media. Ejemplos gráficos: 2°) Una expresión que mide el alejamiento de la simetría expresando la diferen media y la mediana, en relación con la desviación estándar del el coeficiente de Pearson: es aproximadamente cero ( entre -0,3 y 0,3) , la distribución de los datos es simétrica respecto de la media. el alejamiento de la simetría expresando la diferen , en relación con la desviación estándar del grupo de observaciones 8 la distribución de los datos es el alejamiento de la simetría expresando la diferencia entre la grupo de observaciones, es 9 Para la población : 3 (µ ) Para la muestra : 3 ( ̅ ) De acuerdo con esta relación, el coeficiente de Pearson puede variar desde -3 a 3. Un ejemplo cercano a -3, indica una considerable asimetría negativa. Un valor, como por ejemplo 1,65 indica una asimetría positiva moderada, mientras que el valor 0 señala que la distribución es simétrica ( no hay asimetría) donde la media y mediana son iguales. 3°)Para una asimetría positiva ,la media es siempre mayor que la mediana mientras que, para una asimetría negativa, la media es siempre menor que la mediana. 4°) Si Cu es mayor que 3 la distribución es leptocúrtica.( mayor concentración de los datos en torno a la media). Si Cu es menor que 3 la distribución es platicúrtica (menor concentración de datos en torno a la media; sería más achatada que la primera). Si Cu es aproximadamente 3 la distribución es mesocúrtica. Ejemplos gráficos:
Compartir