f7097408

Sistemas de Información

•
SIN SIGLA

Jhunior Obregon
9/7/2023
¡Estudia con miles de materiales!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Sistemas de Información

16.668 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Lic. Manuel Tuesta Moreno Mgr.
1
UNIVERSIDAD NACIONAL DE LA AMAZONÍA PERUANA
FACULTAD DE INGENIERÍA DE SISTEMAS E INFORMÁTICA
ESTADÍSTICA Y PROBABILIDAD
1
MEDIDAS DE 
DISPERSIÓN
MANUEL TUESTA MORENO
DOCENTE
1. MEDIDAS DE DISPERSIÓN
Las medidas de dispersión o variabilidad son
número que miden el grado de separación de los
datos con respecto a un valor central, que
generalmente es la media aritmética. Las
principales medidas de dispersión son:
o El rango,
 El rango intercuartil,
 Desviación media o promedio,
 La varianza y la desviación estándar
 El coeficiente de variación.
2
3
1.1. RANGO O RECORRIDO DE UNA VARIABLE
El rango es una medida de dispersión muy
fácilmente calculable, pero es muy inestable, ya
que depende únicamente de los dos valores
extremos. Su valor puede cambiar grandemente si
se añade o se elimina un solo dato. Por tanto su
uso es muy limitado.
El empleo del rango como medida de comparación
puede estar justificado cuando se precisa
rápidamente de una medida de dispersión y no
haya tiempo de calcular algunas de las otras.
4
1.2. RANGO INTERCUARTIL O RANGO 
SEMIINTERCUARTIL
i) Rango intercuartil:
El rango intercuartil es una medida que excluye el
25% más alto y el 25% más bajo, dando un rango
dentro del cual se encuentra el 50% central de los
datos observados y a diferencia del rango total no
se encuentra afectada por los valores extremos. Si
el rango intercuartil es muy pequeño entonces
describe alta uniformidad o pequeña variabilidad
de los valores centrales.
El rango intercuartil se aplica a variables medidas
en escala por lo menos ordinal.
5
ii) Rango semiintercuartil:
El rango semiintercuartil se puede asociar con la
mediana y se puede expresar en función de ella. Si una
distribución es normal los cuartiles y son
equidistantes de la mediana. Se deduce entonces, que
el rango intercuartil y la , son la misma
distancia.
Además, como exactamente el 50% de los datos se
encuentran en el rango intercuartil, entonces, el
intervalo contiene también exactamente el
50% de los datos. Si la distribución es asimétrica, el
intervalo contendrá aproximadamente el 50%
de los datos.
6
1.2. RANGO INTERCUARTIL O RANGO 
SEMIINTERCUARTIL
OJO:
Si la distribución es muy asimétrica, el
rango intercuartil (o el semiintercuartil) es
preferible a la desviación estándar como
medida de la dispersión.
Lic. Manuel Tuesta Moreno Mgr.
2
7
1.3. DESVIACIÓN MEDIA O PROMEDIO
Sea , , … , valores de la variable , con
frecuencias absolutas , , … , ,
respectivamente. La desviación media de X
respecto a un promedio es dado por:
∑
; 	
8
1.3. DESVIACIÓN MEDIA O PROMEDIO
Con respecto a la media aritmética:
∑
; 	
Con respecto a la mediana:
∑
; 	
9
1.3. DESVIACIÓN MEDIA O PROMEDIO
Propiedades:
1)Como medida de dispersión, la desviación
media es superior al recorrido y la desviación
cuartílica, pues toma en cuenta cada
elemento, y es más simple y se ve menos
afectada por la presencia de valores
extremos. Por lo tanto, se usa a menudo en
muestras pequeñas que incluyen valores
extremos.
10
1.3. DESVIACIÓN MEDIA O PROMEDIO
Propiedades:
2)La principal deficiencia de la desviación
promedio surge del hecho de que promedia
los valores absolutos de las desviaciones,
esto es, que no reconoce el signo de las
desviaciones. Esto hace que sea menos
conveniente que la desviación estándar
cuando se requiere una medida de dispersión
para ser usada en cálculo posteriores.
11
1.4. VARIANZA Y DESVIACIÓN ESTÁNDAR
1.4.1. Varianza
La varianza es una medida que cuantifica el
grado de dispersión o de variación de los
valores de una variable cuantitativa con
respecto a su media aritmética. Si los valores
tienden a concentrarse alrededor de su
media, la varianza será pequeña. Si los
valores tienden a distribuirse lejos de la
media, la varianza será grande.
12
1.4. VARIANZA Y DESVIACIÓN ESTÁNDAR
i) Calculo de la varianza muestral
1) Varianza de datos no tabulados
∑
2) Varianza de datos tabulados
Dato - frecuencia o por intervalos
∑
Lic. Manuel Tuesta Moreno Mgr.
3
13
2) Varianza de datos tabulados
Dato - frecuencia o por intervalos
Métodos abreviados
i) ∑
ii) ∑ ; donde
; , , … ;	 	 	 	 	 	 	
iii) ∑ ; donde
; , , … ;	 	 	 	 	 	 14
NOTA
Si el denominador fuera en lugar de , se
obtendría el promedio de los cuadrados de las
diferencias con respecto a la media. Si
embargo, se utiliza debido a ciertas
propiedades matemáticas deseadas que tiene el
estadístico , las cuales lo hacen apropiado
para hacer inferencias estadísticas. Al
aumentar el tamaño de la muestra, la diferencia
entre y disminuye cada vez más.
15
NOTA
Dicho de otro modo, utilizar , en la varianza
muestral, proporciona la mejor estimación de la
varianza poblacional de la que se ha extraido la
muestra. Una fórmula alternativa para la varianza
muestral es
No tabulados: ∑
Tabulados: ∑
que mide la dispersión de la muestra pero tiende a
sobreestimar la dispersión de la población.
16
ii) Varianza poblacional
La varianza poblacional se define en términos
de la media poblacional , esto es:
∑
Donde: ∑ es el tamaño de la
población.
17
1.4. VARIANZA Y DESVIACIÓN ESTÁNDAR
1.4.2. La desviación estándar
La desviación estándar o típica de los valores de la
variable X se define como la raíz cuadrada positiva
de la varianza, y se denota por:
El valor numérico de S cuantifica el grado de
dispersión de los valores de una variable con
respecto a su media. Mientras mayor es la
dispersión de las observaciones, mayor es la
magnitud de sus desviaciones con respecto a la
media y por ende, más alto el valor numérico de la
desviación estándar. 18
1.4. VARIANZA Y DESVIACIÓN ESTÁNDAR
1.4.3. Propiedades de la varianza y 
desviación estándar
i) ; la varianza de una variable
X es siempre positiva y es igual a cero
cuando la variable X toma el valor
constante c, esto es,
ii)
iii) ,
iv) , 	 	 	
Lic. Manuel Tuesta Moreno Mgr.
4
19
v) Sean , , …	 las medias de submestras de
tamaño , , …	 respectivamente y sean
, , …	 las varianzas correspondientes. La
varianza de la muestra de tamaño ⋯ es
dado por:
∑ ∑
	 	 	 	 	 	 , , …	
El primer término del segundo miembro se llama
intravarianza, este estadigrafo representa la
variabilidad de los estratos o submuestras. El
segundo término se llama intervarianza, estadigrafo
que representa la variabilidad entre los estratos.
20
vi) El hecho de que la desvación estándar es
matemáticamente lógica significa que puede ser
satisfactoriamente utilizada en cálculos
posteriores. Esta caracteristica es la que da a la
desviación estándar su gran superioridad sobre las
demás medidas de dispersión.
vii) La desviación estándar es de la misma
naturaleza que la variable X y depende de su
magnitud.
viii) Para distribuciones simétricas resulta:
a ,
b ,
c ,
21
1.5. COEFICIENTE DE VARIACIÓN
El C.V. es una medida de dispersión relativa
(libre de unidades de medida), que se define
como la desviación estándar dividido por la
media aritmética.
. . , ó	 	%
El C.V. se utiliza para comparar la variabilidad
de dos o más series de datos que tengan medias
iguales o diferentes o que tengan unidades
medidas iguales o diferentes.
22
1.6. USOS DE LAS MEDIDAS DE DISPERSIÓN
i) Si dos o más series de datos (observados
en el mismo tipo de medición) tienen medias
aritméticas iguales (o casi iguales) es más
dispersa la serie que tiene mayor medida de
variabilidad: , , , 	 	 . .
ii)Si dos o más series de datos, no tienen
medias iguales (o casi iguales), o no tienen
las mismas unidades de medición, entonces,
es más dispersa la serie que tenga mayor
coeficiente de variación.
23
2. ÍNDICES DE ASIMETRÍA
Definición: Se dice que una distribución de frecuencias
es simétrica, si los intervalos equidistantes del
intervalo central tienen iguales frecuencias. También
se dice que una distribución es simétrica si su curva
de frecuencias es simétrica con respecto al centro de
los datos.
Dos distribuciones pueden tener la misma media y la
misma desviación estándar, pero pueden diferir en el
grado de asimetría.
Si la distribución es simétrica, entonces, lamedia, la
mediana y la moda coinciden. Caso contrario, si estos
3 promedios no coinciden, la distribución es
asimétrica. 24
2. ÍNDICES DE ASIMETRÍA
Índice de asimetría de Pearson:
Como en distribuciones asimétricas se
verifica ≅ , entonces, otra
forma de expresar el índice de asimetría
es:
Lic. Manuel Tuesta Moreno Mgr.
5
25
2.1. INTERPRETACIÓN DE LOS ÍNDICES DE 
ASIMETRÍA
i) Distribución ii) Asimetría iii) Asimetría
simétrica positiva o negativa o
sesgada a sesgada a
la derecha la izquierda
26
3. CURTOSIS
La curtosis es la propiedad
de una distribución de
frecuencias por la cual se
compara la dispersión de los
datos observados cercanos
al valor central con la
dispersión de los datos
cercanos a ambos extremos
de la distribución. La
curtosis se mide en
comparación a la curva
simétrica normal o
mesocúrtica (Fig. (a)).
Curtosis de curvas 
simétricas
27
3. CURTOSIS
,
Interpretación:
Si la distribución es normal, tiende a .
Si tiende a , , la distribución es
leptocúrtica.
Si tiende a , , la distribución es
platicúrtica.
28
NOTA: OJIVAS ASIMÉTRICAS
Ojivas asimétricas
relativas
La curva de frecuencia
acumulada A es de una
distribución con
asimetría extrema
negativa. La ojiva C es
de asimetría extrema
positiva. La ojiva B es
de una distribución
simétrica.
29
La diagonal D es la
ojiva de una
distribución normal. La
curva F es la ojiva de
una distribución
simétrica leptocúrtica
y la E de una
platicúrtica
NOTA: OJIVAS SIMÉTRICAS
Ojivas simétricas relativas
30
4. Diagrama de caja y extensiones
«box plots»
Lic. Manuel Tuesta Moreno Mgr.
6
31
4. DIAGRAMA DE CAJA Y EXTENSIONES
«BOX PLOTS»
De un gráfico de cajas, se obtiene información
de los datos acerca de:
La centralización de la mediana (observando la
ubicación de la mediana).
La dispersión o variabilidad (mediante el rango
intercuartil: .
La asimetría comparando con .
Las colas (por la longitud de los segmentos que
salen de los lados de la caja).
32
4. DIAGRAMA DE CAJA Y EXTENSIONES
«BOX PLOTS»
Los datos atípicos o discordantes o raros
llamados outlier (aislados) son aquellos que
se ubican fuera del intervalo . ; 	
. , , donde es el rango
intercuartil.
33
MEDIDAS DE DISPERSIÓN
EJERCICIOS
PROPUESTOS
f7097408

Sistemas de Información

SIN SIGLA

Sistemas de Información

Continuar navegando

Otros materiales