Logo Studenta

UNIDAD IV MDEDIDAS DE DISPERSION

¡Este material tiene más páginas!

Vista previa del material en texto

INTRODUCCION
El comportamiento de una variable aleatoria esta determinado por el azar. Así pues, los valores observados de una variable aleatoria difieren entre si en cierta medida.
En algunos casos, las diferencias son pequeñas; en otros, son pronunciadas. Puesto que esperemos que las características de nuestra muestra reflejen bien las características de la población correspondiente, medimos la variabilidad en la muestra para comprender el grado de variación que existe en la población.
MEDIDAS DE DISPERSION
Las medidas de centralización vistas anteriormente reducen la información recogida de la muestra a un solo valor. Sin embargo, dicho valor central, o medio, será más o menos representativo de los valores de la muestra dependiendo de la dispersión que las medidas individuales tengan respecto a dicho centro. 
Para analizar la representatividad de las medidas de centralización se definen las llamadas medidas de dispersión.
Las medidas de dispersión tienen por objeto completar la información que aportan las medidas de centralización pues miden el grado de dispersión de los datos o, lo que es lo mismo, la variabilidad de la muestra. 
EJEMPLO:
Estas nos indicarán la variabilidad de los datos en torno a su valor promedio, es decir si se encuentran muy o poco esparcidos en torno a su centro.
 Se pueden definir entonces, diversas medidas de desviación o dispersión, siendo estas fundamentales para la descripción estadística de la muestra.
MEDIA: 4
MEDIA: 4
¿Cuáles son las medidas de dispersión? 
RANGO
Rango o recorrido de una variable es la diferencia entre el valor máximo y el valor mínimo de los datos observados. Este parámetro informa sobre el recorrido de la variable, pero es una visión que en ciertos casos aporta poca información e incluso puede ser engañosa, si alguno de los datos extremos está muy desviado del resto de los datos. 
Para tener una visión realista de los datos, el rango debe ser evaluado junto a otras medidas de dispersión.
El rango es un parámetro que ya ha sido utilizado en la construcción de tablas para datos cuantitativos.
EJERCICIO DE APLICACION
	NUMERO DE MEDICIONES	VALORES MAXIMO Y MINIMO	NUMERO DE CLASES	RANGO
	50	10 a 100	7	
	25	0,1 a 6,0	6	
	100	500 a 700	8	
RANGO CUARTILICO vs RANGO INTERCUARTILICO
Una evaluación rápida de la dispersión de los datos se puede realizar calculando el recorrido (también llamado rango), o diferencia entre el valor máximo y mínimo que toma la variable estadística. Con el fin de eliminar la excesiva influencia de los valores extremos en el recorrido, se define el recorrido intercuartílico como la diferencia entre el tercer y primer cuartil.
Está claro que este recorrido nos dará entonces el rango que ocupan el 50% central de los datos. En ocasiones se utiliza el recorrido semiintercuartilico, o mitad del recorrido intercuartílico
RANGO CUARTILICO
EJERCICIO DE APLICACIÓN:
CALCULA EL RANGO INTERCUARTILICO Y SEMIINTERCUARTILICO
A. 3,5,2,7,6,4,9
B. 3,5,2,7,6,4,91
C. 10,13,4,7,8,11,10,16,18,12,3,6,9,9,13,20,7,5,10,17,10,16,14,8,18
El rango es fácil de calcular, fácil de interpretar y es una medida adecuada de variación para conjuntos pequeños de datos. Pero, para conjuntos grandes, el rango no es una medida adecuada de variabilidad. Por ejemplo, las dos distribuciones de frecuencia relativa de la figura tienen el mismo rango pero muy diferentes formas y variabilidad.
¿Hay una medida de variabilidad que sea más sensible que el rango?
DESVIACION MEDIA
Para estudiar la dispersión de los datos debería fijarse un punto fijo que representara la tendencia central de los datos, y respecto a él medir la distancia de cada uno de ellos y calcular el promedio.
El punto de referencia más adecuado es la media aritmética.
DISTANCIA
DISTANCIA
DISTANCIA
DISTANCIA
DISTANCIA
DISTANCIA
DISTANCIA
DISTANCIA
DISTANCIA
DISTANCIA
DISTANCIA
DISTANCIA
X1
X2
X5
X3
X4
X6
X7
X8
X9
X10
X11
X12
X13
DESVIACION MEDIA: ES EL PROMEDIO DE LA DISTANCIA QUE TIENE CADA VARIABLE
Otra manera de estimar la dispersión de los valores de la muestra es comparar cada uno de estos con el valor de una medida de centralización. Una de las medidas de dispersión más usada es la desviación media, también llamada con más precisión desviación media respecto a la media aritmética.
FORMULA:
Xi: valor de la variable
X: valor de la media
ni: frecuencia absoluta
N: tamaño de la muestra 
PARA VALORES AGRUPADOS
DESVIACION MEDIA PARA VALORES NO AGRUPADOS
DESVIACION MEDIA PARA VALORES AGRUPADOS
	Ci - media	(Ci – media)* ni 
	7,755 – 8,522: 0,767	
	8,455 – 8,522: 0,067	
	9,155 – 8,522: 0,633	
	9,855 – 8,522: 1,333	
	10,555 – 8,522: 2,033	
		
	Ci - media	(Ci – media)* ni 
	7,755 – 8,522: 0,767	0,767*7:5,369
	8,455 – 8,522: 0,067	0,067*9:0,603
	9,155 – 8,522: 0,633	0,633*2:1,266
	9,855 – 8,522: 1,333	1,333*2:2,666
	10,555 – 8,522: 2,033	2,033*1:2,033
		11,937
DESVIACION MEDIA PARA VALORES AGRUPADOS
Es una medida de dispersión ampliamente utilizada en los sectores de la economía y las finanzas, interpretándose como el riesgo de que el rendimiento de algún procedimiento en concreto sea distinto del rendimiento esperado de dicho procedimiento.
La varianza, junto con la desviación estándar -ambas medidas muy relacionadas entre sí son las medidas de dispersión de datos por excelencia
VARIANZA
FIGURAS DIFERENTES: SI FUESE VALORES ENTONCES TENDRIAMOS UN VALOR DE VARIANZA ELEVADA
ALGUNAS FIGURAS SON MUY PARECIDAS Y OTRAS NO, SI FUESE VARIANZA EL VALOR SERIA MENOR
VARIANZA MUESTRAL
Nos da una medida de dispersión relativa al tamaño muestral de los distintos datos respecto a la media aritmética x.
Para distinguir entre la varianza de una muestra y la varianza de una población, usamos el símbolo s2 para una varianza muestral y σ2 para una varianza de población. La varianza será relativamente grande para datos muy variables y relativamente pequeña para datos menos variables.
La varianza de una muestra de n mediciones es la suma de las desviaciones cuadradas de las mediciones alrededor la media x dividida entre (n 1). La varianza muestral se denota con s2 y está dada por la fórmula
VARIANZA POBLACIONAL
La varianza de una población de N mediciones es el promedio de los cuadrados de las desviaciones de las mediciones alrededor de su media μ. La varianza poblacional se denota con σ2 y está dada por la fórmula
La mayor parte de las veces, no tendremos todas las mediciones de población disponibles pero necesitaremos calcular la varianza de una muestra de n mediciones.
EJERCICIO DE APLICACION
En un estudio sobre dos anestesicos, utilizando ratas conscientes moviendose libremente, la respuesta medida fue el porcentaje de cambio en la presion de CO2 en la sangre arterial, tras la administracion de dosis identicas del medicamento. Se obtuvieron los datos siguientes: (Basado en la informacion publicada en Linas V. Kudzma et al., ≪A Novel Class of Analgesic and Anesthetic Agents≫, Journal of Medicinal Chemistry, diciembre de 1989, pags. 2534-2542.)
COMPUESTO 1
27.2
30.1
30.5
28.4
30.7
31.3
30.5
30.1
29.6
30.2
31.7
32.0
28.6
29.2
33.0
31.7
32.6
28.2
29.1
30.7
CALCULOS
COMPUESTO 2
55.1
56.3
60.0
63.5
64.9
62.7
60.5
59.2
63.7
64.1
65.8
58.3
57.1
55.4
56.5
55.1
57.0
59.3
60.7
62.1
63.6
64.0
65.3
62.8
59.5
CALCULOS
DESVIACION TIPICA O ESTANDAR
La desviación estándar es la medida de dispersión más común, que indica qué tan dispersos están los datos con respecto a la media. Mientras mayor sea la desviación estándar, mayor será la dispersión de los datos
DESVIACION ESTANDAR: En el caso de valores no agrupados
	X - MEDIA	(X – MEDIA)2
		
		
		
		
		
		
DESVIACION ESTANDAR: En el caso de valores agrupados
	LIMITES DE CLASES	fa	MC	fa * MC	MC - MEDIA	(MC – MEDIA) * fa
	7,405 – 8,105	7				
	8,105 – 8,805	9				
	8,805 – 9,505	2				
	9,505 – 10,205	2				
	10,205 – 10,905	1				
		N: 21				
						
						DS
SOBRE LA SIGNIFICANCIA PRÁCTICA DE LA DESVIACIÓN ESTÁNDAR: TEOREMA DE CHEBYSHEV
La desigualdadde Chebyshev proporciona cotas aproximadas para el valor estimado. A pesar de tener cierto grado de imprecisión, es un teorema bastante útil dado que se puede aplicar a un amplio abanico de variables aleatorias independientemente de sus distribuciones.
la desigualdad de Chebyshev nos dice la probabilidad mínima de que el parámetro poblacional se encuentre dentro de una determinada cantidad de desviaciones típicas por encima o por debajo de su media. O dicho de otra manera, nos da la probabilidad de que de que el parámetro poblacional se encuentre dentro de ese intervalo de confianza.
Otra regla para describir la variabilidad de un conjunto de datos no funciona para todos los conjuntos de datos, pero funciona muy bien para datos que “se apilan” en la conocida forma de montículo
Como la distribución de datos en forma de montículo se presenta con frecuencia en la naturaleza, la regla se puede usar numerosas ocasiones en aplicaciones prácticas. Por esta razón, se denomina Regla empírica.
SOBRE LA SIGNIFICANCIA PRÁCTICA DE LA DESVIACIÓN ESTÁNDAR: DISTRIBUCION NORMAL
EJEMPLO
COEFICIENTE DE VARIACION
Un problema que plantean las medidas de dispersión vistas es que vienen expresadas en las unidades en que se ha medido la variable. 
Estas dispersiones relativas van a permitir además comparar la dispersión entre diferentes muestras (con unidades diferentes). Entre estas medidas hay que destacar el coeficiente de variación de Pearson, definido como el cociente entre la desviación típica y la media aritmética
EJEMPLO
Una población de alumnos tiene una estatura media de 160 cm con una desviación estándar de 16 cm. Estos mismos alumnos, tienen un peso medio de 70 kg con una desviación estándar de 14 kg. ¿Cuál de las 2 variables presenta mayor variabilidad relativa?
Podemos que ver que CVP > CVE , por eso, el peso de esta población de alumnos tiene mayor variabilidad relativa que la estatura.
MEDIDAS DE FORMAS
Las medidas de forma indican si la distribución es simétrica, coeficientes de sesgo, y también el grado de apuntamiento tomando como referencia la curva normal o de Gauss.
Si un conjunto de datos difiere poco respecto a la normal en grado de asimetría y en grado de apuntamiento, se puede considerar que los datos se aproximan a la distribución normal.
IMPORTANCIA
La descripción estadística de una muestra de datos no concluye con el cálculo de su tendencia central y su dispersión. Para dar una descripción completa es necesario estudiar también el grado de simetría de los datos respecto a su medida central y la concentración de los datos alrededor de dicho valor.
Coeficientes de asimetría
Coeficiente de curtosis
COEFICIENTE DE ASIMETRÍA
Se dice que una distribución de medidas es simétrica cuando valores de la variable equidistantes, a uno y otro lado, del valor central tienen la misma frecuencia.
En el caso de no tener simetría, diremos que tenemos asimetría a la derecha (o positiva) o a la izquierda (o negativa) dependiendo de que el histograma muestre una cola de medidas hacia valores altos o bajos de la variable respectivamente.
Coeficiente de asimetría de Pearson
COEFICIENTE DE ASIMETRÍA DE PEARSON
Su interpretación es similar a la del coeficiente de Fisher, siendo nulo para una distribución simétrica (en ese caso media y moda coinciden) y tanto más positivo, o negativo, cuando más sesgada esté la distribución hacia la derecha, o hacia la izquierda.
COEFICIENTE DE CURTOSIS
Además de la simetría, otra característica importante de la forma en que se distribuyen los datos de la muestra es cómo es el agrupamiento en torno al valor central.
Los datos se pueden distribuir de forma que tengamos un gran apuntamiento (o pico en el histograma) alrededor del valor central, en cuyo caso diremos que tenemos una distribución leptocúrtica, o en el extremo contrario, el histograma puede ser muy aplanado, lo que corresponde a una distribución platicurtica. 
En el caso intermedio, diremos que la distribución es mesocúrtica y el agrupamiento corresponderá al de una distribución llamada normal, o en forma de campana de Gauss.
CALCULO DE MOMENTO
Se realiza un estudio para valorar el efecto del alcohol sobre los niveles de colesterol en suero. Una variable de interés es X, cantidad de alcohol consumido por semana y por sujeto. Los datos para los 923 sujetos que participan en el estudio vienen dados en la Tabla 1.24.
			
			
			
			
			
			
				
	80			
	85			
	85			
	87			
	90			
	90			
	90			
	101

Continuar navegando