Logo Studenta

UNIDAD 02 -Teoría

¡Estudia con miles de materiales!

Vista previa del material en texto

1 
 
 
 UNIVERSIDAD NACIONAL LOS COMECHINGONES 
 Cátedra: Estadística 
 UNIDAD N°2: Descripción de los datos 
 
1.-Medidas de Tendencia Central 
Estas medidas describen numéricamente la tendencia central de un conjunto de datos: 
 Media Aritmética 
Dado un conjunto de n observaciones, la media aritmética (𝐱) es la de todas las n 
observaciones y dividiendo por dicho total ( n). 
Esta es la medida de posición más común y se denota de la siguiente manera : 
 𝐱=
∑
=
⋯…….
 
Si en lugar de una muestra, tenemos todos los valores observados de la variable de la 
población , podríamos calcular la media poblacional de la misma manera, es decir, 
sumando todos los valores y dividiendo por el total de ellos. La media poblacional se 
simboliza con la letra griega µ. 
Nota: 
 Se entiende por parámetro a una cantidad numérica calculada a partir de todos los 
datos de una población. Por lo tanto, µ es un parámetro. 
 Se entiende por estadístico a una cantidad numérica calculada a partir de los datos 
de una muestra. Por lo tanto, 𝒙 es un estadístico. 
 Si un estadístico es utilizado para estimar un parámetro desconocido de la 
población se lo suele llamar “estimador”. 
Ejemplo: Los siguientes datos corresponden al número de respuestas correctas ,de un 
cuestionario de 4 preguntas ,dadas por 10 alumnos provenientes de una muestra aleatoria 
simple : 2,3,0,2,1,0,3,0,1,4. La media de estas observaciones es: 
�̅� = = 1,6 
Se obtuvo un promedio de 1,6 respuestas correctas, si bien no es posible, no se redondea a 2 
porque estamos hablando de promedio. 
 
2 
 
 
Si ahora, supongamos que el último registro fue mal consignado, colocándose 40 en lugar 
de 4 ¿qué le ocurriría a la media? Veamos: 
�̅� = = 5,2 
Esto significa que LA MEDIA ES SENSIBLE A LAS OBSERVACIONES EXTREMAS. 
Propiedades o características 
 Es una medida muy útil para comparar dos o más poblaciones. Por ejemplo, se 
quiere comparar el rendimiento (teniendo en cuenta los promedios definitivos) , en 
una determinada asignatura, de dos grupos de alumnos pertenecientes a distintas 
divisiones de un mismo curso en una Institución Educativa. 
 Es la única medida de tendencia central donde la suma de las desviaciones de cada 
valor ,respecto de la media, siempre es igual a cero. Esto es , en general : 
(𝒙𝒊 − 𝒙) = 𝟎
𝒏
𝟏
 
Esto puede interpretarse como que la media es un punto de equilibrio del conjunto de 
datos correspondiente. 
 La media es sensible a las observaciones extremas (Como se vio en el último 
ejemplo). 
 
 La Mediana 
Dado un conjunto de n observaciones ordenadas de menor a mayor, la mediana es un valor 
tal que la mitad de las observaciones es menor o igual a ese valor , y la otra mitad de las 
observaciones es mayor o igual a ese valor. Se la denota 𝐱. 
Ejemplo: Para encontrar la mediana de 5 números : 4,7,3,9,5 ; primeros debemos ordenar 
los valores observados de menor a mayor , es decir, 3, 4, 5, 7, 9. Debido que el número de 
observaciones es impar ,la mediana que está en el centro de la secuencia ordenada de los 
datos es 5. Advertimos que dos observaciones son menores que 5 y dos observaciones son 
mayores que 5. 
Si el número de las observaciones es par, la mediana es el promedio entre las dos 
observaciones del centro. De modo que la mediana de: 3,4,5,7,9,11,es el promedio de 5 y 7, 
o sea, 6 . 
En general : 
3 
 
 
 Si el número de n observaciones de un conjunto ordenado es impar, la posición de 
la mediana se determina haciendo (n+1)/2, luego contamos desde el menor tantos 
lugares como lo indica ese número y la observación en esa posición es el valor de la 
mediana. 
 Si el número de n observaciones de un conjunto ordenado es par, contamos (n/2) 
y luego promediamos la observación con la siguiente más alta, siendo ese 
promedio el valor de la mediana. 
 
Ejemplo: Los siguientes datos corresponden al número de hijos por familia provenientes de 
una muestra aleatoria simple de 10 hogares de un mismo barrio: 2,3,0,2,1,0,3,0,1 
1°)Ordenamos los valores de menor a mayor : 0,0,0,1,1,2,2,3,3,4 
2°Calculamos la posición de la mediana : (10/2)=5 
3°Calculamos el valor de la mediana: 𝑥 = = 1,50 
¿Qué ocurre si reemplazamos el valor “4” por “40”? . La mediana sigue siendo 1,50. Esto 
ocurre porque LA MEDIANA ES RESISTENTE A OBSERVACIONES EXTREMAS, 
esto es, no cambia o cambia muy poco. 
 
 La Moda 
Dado un conjunto de n observaciones, la moda es el valor de la variable que se presenta 
mayor número de veces. Es el valor que tiene más alta frecuencia entre todas las 
observaciones. 
Si consideramos nuevamente el ejemplo último , de la cantidad de hijos por familia, la 
moda es 0, ya que es el que más se repite. 
Para el conjunto de observaciones :0,0,0,1,1,2,2,2,3,4 , hay dos modas : 0 y 2 debido a que 
son los valores más frecuentes, por lo tanto el conjunto es “bimodal”. 
 En el caso que hubieran tres valores más frecuentes, el conjunto es “ trimodal”, y así 
sucesivamente. En tales casos, probablemente no se consideraría ninguna de las modas 
como representativa del valor central de los datos. 
Nota: Si en un conjunto de datos, cada uno ocurre una sola vez, se dice que los datos no 
presente moda. 
 
4 
 
 
2.- Medidas de dispersión 
Estas medidas muestran la magnitud de la dispersión de un conjunto de datos: 
 Amplitud o rango 
 Es la diferencia entre la mayor y la menor de las observaciones de un conjunto de datos. 
Dado el que el rango es calculado a partir de los dos valores más extremos, el mismo puede 
dar una distorsión del modelo real de variación. Esto es, no toma en consideración la forma 
en que se distribuyen los datos entre los valores más pequeños y los más grandes. 
 
 Rango Intercuartílico 
Siendo los cuartiles ,los tres valores que dividen a un conjunto de datos ordenados en cuatro 
partes iguales, el Rango Intercuartílico (RI) es la diferencia entre el tercer y primer Cuartil. 
Es una medida de dispersión que si bien mantiene la idea de un rango, pero no está 
influenciado por los valores extremos. Considera la dispersión de 50% central de los datos. 
La idea es dividir a los datos ordenados en cuatro partes iguales y ver la distancia de las dos 
partes extremas. 
Ejemplo: Para los valores:32-37-39-40-41-41-41-42-42-43-44-45-45-45-46-47-47-49-50-
51 
1°) El segundo Cuartil es Q2 =43,5 
2°) El primer Cuartil es Q1 =41 
3°) El tercer Cuartil es Q3 =46,5 
4°) Calculamos el RI= Q3 –Q1=5,5 
 
 Desviación Media 
Respecto a la media: es el promedio aritmético de los valores absolutos de las 
desviaciones con respecto a la media aritmética .Esto es: 
D.M𝐱=∑
| ̅ |
 
La D𝑀𝐱. tiene dos ventajas .Primero ,utiliza en su cálculo todos los valores en la 
muestra . Segundo, es fácil de comprender, pues representa el promedio en que los valores 
se desvían con respecto a la media. Sin embargo, su principal desventaja es el uso de 
5 
 
 
valores absolutos, ya que generalmente es difícil trabajar con ellos. Por lo tanto, no se usa 
tanto como otras medidas de dispersión. 
Respecto a la mediana: es el promedio aritmético de los valores absolutos de las 
desviaciones con respecto a la mediana .Esto es: 
D.M𝐱=∑
̅
 
La D.M 𝑥 tiene dos ventajas .Primero, utiliza en su cálculo todos los valores en la 
muestra . Segundo, es fácil de comprender, pues representa el promedio en que los valores 
se desvían con respecto a la mediana. Sin embargo, su principal desventaja es el uso de 
valores absolutos, ya que generalmente es difícil trabajar con ellos. Por lo tanto, no se usa 
tanto como otras medidas de dispersión. 
 
 Varianza 
La Varianza es el promedio de los cuadrados de las desviaciones de las observaciones con 
respecto a la media .Se expresa así: 
 σ2= ∑ ( 𝑥 − �̅�)2 
Si trabajamos con todos los datos de la población,la varianza se simboliza con la letra 
griega σ2 y si trabajamos con una muestra, se simboliza s2 y se expresa así: 
s2= ∑ ( 𝑥 − �̅�)2 
La varianza está medida en unidades distintas a las de la variable. Por ejemplo, si la 
variable longitud viene medida en metros, la varianza vendrá expresada en metros 
cuadrados .El uso de n-1 ,en el denominador, proporciona la corrección adecuada a la 
tendencia que tiende a subestimar la varianza cuando en el denominador sólo figura n. 
Ejemplo: Para el conjunto de valores 4,7,3,9,5 , la varianza se obtiene siguiendo los pasos 
que se muestran a continuación: 
1°) Se calcula la media �̅�= 5,602 
2°)Se calculan las respectivas diferencias entre cada valor y la media : (4-5,60)2 , (7-5,60)2 , 
(3-5,60)2 , (9-5,60)2 , (5-5,60)2 . 
4°)Se suman todas las diferencias anteriores :(4-5,60)2 + (7-5,60)2 + (3-5,60)2 + (9-5,60)2 + 
(5-5,60)2 =23,20 
5°)Se divide por (n-1) : 23,20/4=5,80 
6 
 
 
 Desviación Estándar 
Es la raíz cuadrada positiva de la varianza. Al igual que la media, la desviación estándar 
hace uso de todas las observaciones para su cálculo. La desviación estándar está medida en 
las mismas a las de la variable. 
La desviación estándar poblacional se expresa así: 
 σ= ∑ ( 𝑥 − �̅�)2 
La desviación estándar muestral se expresa así: 
 s= ∑ ( 𝑥 − �̅�)2 
Ejemplo: Para el conjunto de valores 4,7,3,9,5 , la desviación estándar es: s=2,41 
 
 Coeficiente de Variación 
Es el cociente entre el desvío y la media. Este parámetro comúnmente es expresado en 
porcentaje .Es una medida de dispersión adimensional útil para comparar la variabilidad 
entre variables que estén medidas en escalas distintas. 
Cuanto más grande sea el coeficiente de variación, representa mayor heterogeneidad entre 
los valores de la variable. Caso contrario, magnitudes menores indican mayor 
homogeneidad de los valores de la variable. 
El coeficiente de variación de una población se expresa de la siguiente manera: 
 CV=
µ
 
El coeficiente de variación para una muestra se expresa de la siguiente manera: 
 cv= 
Se considera que si el coeficiente de variación supera el 20% hay heterogeneidad entre los 
datos (es poco representativa la media). Cuanto más supera ese porcentaje, mayor será la 
heterogeneidad. 
Ejemplo: Para el conjunto de valores 4,7,3,9,5 cv=
,
,
. 100% = 43,04% 
 
7 
 
 
 La MAD 
Es una medida de dispersión respecto de la mediana. Su expresión está dada por : 
MAD= Mediana {|𝑥 − 𝑥|, |𝑥 − 𝑥|, … … … . , |𝑥 − 𝑥|} 
 
 
 
3.-Otras medidas: 
 Medidas de posición y localización :Los Percentiles 
Dado n valores observados, ordenados de menor a mayor, el percentil (o centil) i-ésimo es 
el valor de la distribución que ocupa la posición :Pi=
( )
+0,5. 
Mientras la mediana divide una distribución en dos mitades, los cuartiles la dividen cuatro, 
los deciles en 10 décimos y los percentiles en 100 partes. 
Ejemplo :Si un alumno sabe que su promedio de calificaciones se encuentra en el octavo 
decil del resultado académico de su universidad, puede concluir que el 80% de los 
estudiantes tienen un promedio menor al suyo y ,en consecuencia , el 20% tiene un 
promedio mayor. 
 
4.-Coeficientes de asimetría y curtosis 
Estas medidas describen o miden la forma de la distribución de un conjunto de datos u 
observaciones: 
 Hay varias fórmulas que se usan para calcular el coeficiente de asimetría Entre 
ellas tenemos : As≅ donde m3 es llamado momento de orden 3 ( m3 = 
∑
( ̅)
 ). 
 El coeficiente de curtosis, se define así : CU≅ donde m4 es llamado momento 
de orden 4 ( m4 = ∑
( ̅)
 ). Mide , en particular, el grado de apuntamiento o de 
achatamiento de una distribución. La curtosis indica la manera en que el pico y las 
colas de una distribución difieren de la distribución normal. 
 
Nota: Si As es menor que cero, supone mayor concentración de datos a la derecha de la 
media. Si As es mayor que cero, supone mayor concentración de datos a la izquierda de la 
 
 
media. Si As es aproximadamente cero
bastante simétrica respecto de la media.
Ejemplos gráficos: 
 
 
 
 
2°) 
Una expresión que mide el alejamiento de la simetría expresando la diferen
media y la mediana, en relación con la desviación estándar del
el coeficiente de Pearson: 
es aproximadamente cero ( entre -0,3 y 0,3) , la distribución de los datos es
simétrica respecto de la media. 
el alejamiento de la simetría expresando la diferen
, en relación con la desviación estándar del grupo de observaciones
8 
la distribución de los datos es 
 
 
el alejamiento de la simetría expresando la diferencia entre la 
grupo de observaciones, es 
9 
 
 
Para la población : 3 
(µ )
 
Para la muestra : 3 
( ̅ )
 
De acuerdo con esta relación, el coeficiente de Pearson puede variar desde -3 a 3. Un 
ejemplo cercano a -3, indica una considerable asimetría negativa. Un valor, como por 
ejemplo 1,65 indica una asimetría positiva moderada, mientras que el valor 0 señala que la 
distribución es simétrica ( no hay asimetría) donde la media y mediana son iguales. 
3°)Para una asimetría positiva ,la media es siempre mayor que la mediana mientras que, 
para una asimetría negativa, la media es siempre menor que la mediana. 
4°) 
 Si Cu es mayor que 3 la distribución es leptocúrtica.( mayor concentración de los datos en 
torno a la media). 
Si Cu es menor que 3 la distribución es platicúrtica (menor concentración de datos en torno 
a la media; sería más achatada que la primera). 
Si Cu es aproximadamente 3 la distribución es mesocúrtica. 
 
Ejemplos gráficos:

Continuar navegando