Logo Studenta

3_Clase_2021

¡Este material tiene más páginas!

Vista previa del material en texto

Variables	cuantitativas
Bioestadística 2021
Variables	cuantitativas	(repaso	de	la	clase	anterior)
• Las	variables	cuantitativas	son	aquellas	características	o	cualidades	que	sí	pueden	
expresarse	o	medirse	a	través	de	números.	
• Es	decir,	son	aquellas	variables	estadísticas	que	otorgan,	como	resultado,	un	valor	
numérico.	
• Este	tipo	de	variables,	a	su	vez,	se	dividen	en:
àCuantitativa	discreta	(lo	que	se	puede	“contar”)
àCuantitativa	contínua(lo	que	se	puede	“medir”)
Estadística descriptiva	(repaso	de	la	clase	anterior)
• La	estadística	descriptiva	es	la	rama	de	la	estadística	que	recolecta,	analiza	y	
caracteriza	datos	
• Objetivo:	describir	las	características	y	comportamientos	de	este	conjunto	
mediante	medidas	de	resumen,	tablas	o	gráficos
Tablas	de	frecuencias	agrupadas
• Cuando	trabajamos	con	pocos	datos	discretos,	podemos	hacer	una	
tabla	de	frecuencias	como	la	que	ya	conocemos
• Sin	embargo,	cuando	se	trabaja	con	muchos	datos	y/o	datos	
cuantitativos	contínuos,	suelen	usarse	tablas	de	frecuencias	
agrupadas.
• La	clave	es	agrupar	a	los	datos	en	un	número limitado	de	intervalos	o	
clases.
• Para	hacer	este	tipo	de	tablas	hay	que	seguir	varios	pasos.
• Ejemplo:	tomemos	los	datos	12,	8,	62,	5,	8,	2,	25,	9	y	33.
Usuario1
Highlight
Usuario1
Highlight
Construcción	de	una	tabla	de	frecuencias	agrupadas:	
pasos
1. Ordenar	el	conjunto	de	datos	en	forma	ascendente	(de	menor	a	mayor).	Por	
ejemplo,	si	se	se	tienen	los	datos	12,	8,	62,	5,	8,	2,	25,	9	y	33;	los	datos	
ordenados	quedan:	
2,	5,	8,	8,	9,	12,	25,	33	y	62.
2. Calcular	el	rango.	El	rango es	la	diferencia	entre	el	dato	menor	y	el	dato	mayor	
(la	diferencia	entre	el	límite	inferior	y	el	límite	superior	del	conjunto	de	datos).	
En	nuestro	ejemplo,	el	menor	valor	es	2	y	el	mayor	62,	entonces:	
Rango	= 62-2:	60
Usuario1
Highlight
Usuario1
Highlight
Construcción	de	una	tabla	de	frecuencias	agrupadas:	
pasos
3. Estimar	en	cuántos	intervalos	o	clases	se	dividirán	los	datos.	Existen	dos	reglas:
a)	para	tamaños	muestrales bajos	(n<100)	el	número	de	intervalos	puede	calcularse	como	 𝑛
(siendo	n	el	número	de	datos).	
En	el	ejemplo,	dado	que	n=9	datos,		 𝑛 = 3.
b)	Para	otros	tamaños	muestrales (n	>	100),	se	usa	la	regla	de	Sturges,	que	plantea	que	
Número	de	intervalos	=	1	+	log2(n)	(siendo	n	es	el	numero	total	de	datos)
4.			Calcular	el	tamaño	de	dichos	intervalos	o	clases.	Para	esto,	se	divide	el	rango	
por	la	cantidad	de	intervalos.
En	el	ejemplo,	rango	=	60;	cantidad	de	intervalos	=	3,		𝑡𝑎𝑚𝑎ñ𝑜	𝑑𝑒	𝑐𝑎𝑑𝑎	𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 = 123 =	20).	
Usuario1
Highlight
Usuario1
Highlight
Construcción	de	una	tabla	de	frecuencias	agrupadas:	
pasos
5.			Definir	los	límites	de	cada	uno	de	los	intervalos	(límites	de	clase).	El	primer	
intervalo	irá	desde	el	menor	valor	de	la	lista	(límite	inferior)	hasta	ese	valor	más	el	
tamaño	del	intervalo	(en	el	ejemplo,	desde	2	a	2+20=22);	el	siguiente	intervalo	desde	el	
valor	superior	del	intervalo	anterior (22	en	el	ejemplo)	hasta	ese	valor	más	el	tamaño	
del	intervalo (22+20=42)	y	así	sucesivamente	hasta	llegar	al	límite	superior.	
6.			Calcular	la	marca	de	clase	(MC).	Es	el	punto	medio	de	cada	intervalo.	
En	nuestro	ejemplo,	MC	(intervalo	1)	=	2	+	45 (22-2)	=	12;		MC	(intervalo	2)	=	22	+	
4
5 (42-22)	=	32;	MC	
(intervalo	3)	=	42	+	45 (62-42)	=	52
Usuario1
Highlight
Usuario1
Highlight
Construcción	de	una	tabla	de	frecuencias	agrupadas:	
pasos
7.			Calcular	las	frecuencias	absolutas.	Esto	se	hace	igual	que	como	lo	hemos	hecho	
anteriormente:	es	la	cantidad	de	datos	que	pertenecen	a	cada	clase	o	intervalo	(en	
nuestro	ejemplo,	en	el	intervalo	1	entran	6	datos	(2,5,8,8,9,12);	en	el	intervalo	2,	dos	datos	(25	y	33)	
y	en	el	intervalo	3	un	dato	(62)).
8.			Calcular	las	frecuencias	relativas.	Es	decir,	dividir	las	frecuencias	absolutas	de	
cada	clase	o	intervalo	por	el	número	total	de	datos.	
Recordar	siempre	que	las	frecuencias	relativas	son	valores	positivos	comprendidos	
entre	0	y	1,	y	que	la	suma	de	todas	las	frecuencias	relativas	da	1.
Usuario1
Highlight
Usuario1
Highlight
Nuestra	tabla	de	frecuencias	agrupadas
• Así	se	vería	nuestra	tabla	de	distribución	de	frecuencias	para	los	datos	12,	8,	62,	
5,	8,	2,	25,	9	y	33:
Rangos Marca	de	clase	(MC)	
Frecuencias	
absolutas
Frecuencias	
relativas
[2-22] 12 6 6/9=0,666
(22-42] 32 2 2/9=0,222
(42-62] 52 1 1/9=0,111
Total 9 1
Gráficos	para	una	variable	cuantitativa:
Histograma
• Un histograma representa la distribución de frecuencias (relativas o absolutas) de una
variable continua cuya escala es dividida en clases.
• Básicamente,es la gráfica de la tabla de distribuciones de frecuencias.
• Para construirlo se dibuja un eje horizontal con la escala de la variable en cuesión y se
marcan los límites de clase.
• Luego, tomando como base el segmento entre los límites de cada clase, se dibujan
rectángulos de altura proporcional a la frecuencia de la clase correspondiente.
• No puedequedar espacio entre las barras!
Usuario1
Highlight
Usuario1
Highlight
Gráficos	para	una	variable	cuantitativa:
Histograma
• Así	se	verían	nuestros	histogramas	(de	frecuencias	absolutas	y	relativas)	para	los	
datos	12,	8,	62,	5,	8,	2,	25,	9	y	33:
0
1
2
3
4
5
6
7
12 32 52
Fr
ec
ue
nc
ia
s	
ab
so
lu
ta
s
Marcas	de	clase
histograma	de	frecuencias	absolutas
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
12 32 52
Fr
ec
ue
nc
ia
s	
re
la
tiv
as
Marcas	de	clase
histograma	de	frecuencias	relativas	(n=9)
Gráficos	para	una	variable	cuantitativa:
Polígonos de	frecuencias
• También	permiten	representar	la	distribuciónde	frecuencias	(relativas	o	
absolutas)	de	variables	continuas	con	escalas	divididas	en	clases.	
• Para	construir	estos	gráficos se	dibuja	un	eje	horizontal	como	el	de	un	histograma	
y	se	señalan las	marcas	de	clase.	
• Luego	se	dibuja	un	punto	sobre	cada	marca	de	clase	a	altura	proporcional	a	la	
correspondiente	frecuencia	de	clase.	
• Por	último,	se	unen	los	puntos	consecutivos	con	líneas rectas.
Usuario1
Highlight
Usuario1
Highlight
Gráficos	para	una	variable	cuantitativa:
Polígonos de	frecuencias
• Así	se	verían	nuestros	polígonos	(de	frecuencias	absolutas	y	relativas)	para	los	
datos	12,	8,	62,	5,	8,	2,	25,	9	y	33:
0
1
2
3
4
5
6
7
2 12 22 32 42 52 62
Fr
ec
ue
nc
ia
s	
ab
so
lu
ta
s
polígono	de	frecuencias	absolutas
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
2 12 22 32 42 52 62
Fr
ec
ue
nc
ia
s	
re
la
tiv
as
polígono	de	frecuencias	relativas	(n=9)
Medidas	numéricas	descriptivas	derivadas	de	variables	
cuantitativas
• Dado	que	los	datos	de	variables	cuantitativas	son	numéricos,	es	posible	realizar	
operaciones	con	ellos,	para	estimar	parámetros	que	permitan	describirlos.	
• Estos	valores	nos	permiten	responder	preguntas	como:
1. Centro:	Dónde	se	centran	esos	datos?	
2. Posición:	Cómo	se	agrupan	estos	datos?
3. Dispersión:	Cómo	varían	esos	datos?	 (están	todos	agrupados	o	están	dispersos?)
4. Forma:	cómo	es	la	forma	general	de	esos	datos	 (tienen	forma	de	campana?	aparecen	dos	o	
más	picos?	Son	simétricos?	Los	datos	parecen	estar	acumulados	hacia	la	derecha	o	hacia	la	
izquierda?)	
Usuario1
Highlight
Medidas	de	centralización:	Media
• Hay	tres	valores	que	nos	hablan	de	dónde	(o	alrededor	de	qué	valor)	se	ubican	
los	datos:	media,	mediana	y	moda.
MEDIA
• Es	la	medida	de	centralización	más	conocida.	
• Es	lo	que	comúnmente	llamamos	“promedio”	
• La	media	de	un	conjunto	de	valores	de	una	variable	se	calcula	como	el	cociente	
entre	la	suma	y	el	número de	dichos	valores.	
• En	notación	se	escribe	así:
𝑋7 =	48 ∑ 𝑥𝑖
8
;<4
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Medidas	de	centralización:	Media
• Si	tomamos	nuestro	ejemplo	anterior,	y	queremos	calcular	la	media	del	conjunto	
de	valores	12,	8,	62,	5,	8,	2,	25,	9	y	33,	tenemos	que
𝑋7 =	(12	+	8	+	62	+	5	+	8	+	2	+	25	+	9	+	33)/9
𝑋7 =	18,22
• La	media	del	conjunto	de	datos	(12,	8,	62,	5,	8,	2,	25,	9	y	33)	es	𝑋7 =	18,22
• Notar	que	se	usa	la	notación	𝑋7 (equis	con	una	rayaencima)	para	indicar	una	
media	calculada	para	una	muestra	(una	media	muestral)
Usuario1
Highlight
Medidas	de	centralización:	Media
Propiedades
a)	La	media	es	única,	es	un	único	valor	(un	conjunto	de	datos	no	puede	tener	dos	o	más	medias,	
solo	tiene	una).	
b)	La	media	puede	o	no	ser	un	valor	de	la	variable	(en	nuestro	ejemplo,	𝑋7 =	18,22	no	es	un	valor	de	
la	variable;	ninguno	de	los	datos	del	ejemplo	tenía	ese	valor).
c)	Siempre	será	posible	calcular	la	media para	un	conjunto	de	datos.	No	hay	datos	“sin	media”
d)	La	media	es	muy	sensible	a	datos	extremos.	A	modo	de	ejemplo,	si	a	nuestros	valores	le	
sumamos	un	valor	mucho	más	grande	(150),	la	nueva	media	va	a	ser	bastante	más	grande	que	la	
anterior:	
𝑋7 =	(12	+	8	+	62	+	5	+	8	+	2	+	25	+	9	+	33	+	150)/10
𝑋7 =	31,4
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Medidas	de	centralización:	Media
Propiedades
e)	Para	cada	conjunto	de	datos,	se	cumple	siempre	que:
∑ (𝒙𝒊− 	𝒙A𝒏𝒊<𝟏 )	=	0
• Las	cantidades	(𝑥𝑖 −	𝑥 ̅)	se	denominan	desvíos.	
• El	valor	de	la	media	es	tal	que	la	suma	de	los	desvíos es	nula:	los	desvíos positivos	compensan	a	
los	desvíos negativos	y	la	media	queda,	justamente,	en	el	medio	de	los	diferentes	valores.
• En	nuestro	ejemplo,	dados	los	datos	(12,	8,	62,	5,	8,	2,	25,	9	y	33)	y	la	media	(𝑋7 =	18,22),	tenemos	
que:	
(12-18,22)	+	(8-18,22)	+	(62-18,22)	+	(5-18,22)	+	(8-18,22)	+	(2-18,22)	+	(25-18,22)	+	(9-18,22)	+	(33-18,22)	=
-6,22	-10,22	+	43,78	-13,22	-10,22	– 16,22	+	6,78	-9,22	+	14,78	≃ 0
Usuario1
Highlight
Usuario1
Highlight
Medidas	de	centralización:	Media
Propiedades
f)	La	media	informa	únicamente sobre	la	posición central	de	la	distribución de	frecuencias	sin	dar	
idea	alguna	sobre	la	dispersión	de	los	datos.
• Retomando	nuestro	ejemplo,	hemos	calculado	la	media	para	el	conjunto	de	datos		(2,	5,	8,	8,	9,	12,	25,	33	y	
62),	obteniendo	𝑋7 =	18,22.	
• Tomemos	ahora	otro	conjunto	de	datos	(16,	17,	17,	18,	19,	19,	19,	19,	20)	y	calculemos	su	media:	obtenemos	
también	𝑋7 =	18,22!!
• Vemos	que	para	ambos	conjuntos	de	datos	la	media	es	la	misma,	pero	sin	lugar	a	dudas	el	
segundo	conjunto	de	datos	(que	tiene	valores	de	17	a	20)	es	mucho	menos	disperso	que	el	primer	
conjunto	de	datos	(que	tiene	valores	que	van	de	2	a	62!).	
• Necesitamos	otras	medidas	para	caracterizar	los	datos,	como	las	de	posición	y	las	de	dispersión.
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Medidas	de	centralización:	Mediana
• Es	otro	valor	de	centralización	de	los	datos.	
• Para	calcularlo,	se	deben	ordenar	los	datos	en	forma	creciente	(es	decir,	de	
menor	a	mayor)	y	buscar	el	dato	que	queda	justo	al	medio.	
• El	valor	de	ese	dato	es	la	mediana.	
• En	nuestro	ejemplo,	si	se	se	tienen	los	datos	12,	8,	62,	5,	8,	2,	25,	9	y	33;	al	
ordenarlos	queda:	2,	5,	8,	8,	9,	12,	25,	33	y	62.
• El	valor	del	dato	que	queda	al	medio	es	9	(pintado	color	rojo).	De	este	modo,	el	
valor	de	la	mediana	es	9.
Usuario1
Highlight
Usuario1
Highlight
Medidas	de	centralización:	Mediana
Propiedades
a)	Si	el	número	de	datos	es	impar	(como	en	nuestro	ejemplo,	que	teníamos	nueve	
datos),	la	mediana	es	el	valor	del	dato	del	medio
b)	Si	el	número	de	datos	es	par,	la	mediana	es	el	promedio	de	los	dos	datos	que	
quedan	en	el	medio.	A	modo	de	ejemplo	sumemos	otro	dato	(150)	a	la	lista:	2,	5,	8,	
8,	9,	12,	25,	33,	62	y	150.	Ahora	tenemos	10	datos	(número	par	de	datos),	así	que	la	
mediana	se	calcula	como	el	promedio	de	los	dos	datos	del	medio	(en	color	rojo):
Med =	D	E	455 =	10,5
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Medidas	de	centralización:	Mediana
Propiedades
c)	Si	el	número	de	datos	es	IMPAR,	la	mediana	será	SIEMPRE	un	valor	de	la	variable.	
Si	el	número	de	datos	es	par,	no.
d)	Al	igual	que	la	media,	la	mediana	es	única,	es	un	único	valor.
e)	Nuevamente	al	igual	que	la	media,	siempre	es	posible	obtener	un	valor	mediana	
para	cualquier	conjunto	de	datos.	No	existen	“datos	sin	mediana”.
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Medidas	de	centralización:	Mediana
Propiedades
f)	A	diferencia	de	la	media,	la	mediana	no	se	ve	afectada	por	valores	sensiblemente	
altos	o	bajos.	De	hecho,	acabamos	de	ver	que	sumar	un	dato	alto	(150)	hizo	que	la	
mediana	pasara	de	valer	9	a	valer	10,5!!
g)	De	este	modo,	cuando	tenemos	un	conjunto	de	datos	que	contiene	datos	
extremos	(mucho	más	grandes	o	mucho	más	pequeños	que	el	resto	de	los	datos)	la	
mediana	es	una	mejor	medida	de	centralización	que	la	media.
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Medidas	de	centralización:	Moda
• Es	el	valor	más	frecuente,	el	que	más	se	repite.	
• O,	si	estamos	mirando	un	histograma	o	una	tabla	de	distribución	de	frecuencias,	es	la	clase	o	
categoría	con	frecuencia	más	alta	(“Clase	Modal”).
• Si	miramos	nuestros	datos	(2,	5,	8,	8,	9,	12,	25,	33,	62)	la	moda	es	8,	ya	que	8	es	el	valor	que	
más	se	repite	(aparece	dos	veces,	mientras	que	el	resto	de	los	valores	aparece	solo	una	vez).	
• Si	en	cambio	miramos	nuestros	datos	agrupados	en	tabla	de	distribución	de	frecuencias	(ver	
tabla	de	frecuencias	agrupadas),	la	“clase	o	intervalo	modal”	(es	decir	aquella	que	tiene	
frecuencia	máxima)	es	la	clase	o	intervalo	que	va	de	2	a	22	(ya	que	contiene	6	datos).	
Rangos Marca	de	clase	(MC)	
Frecuencias	
absolutas
Frecuencias	
relativas
[2-22] 12 6 6/9=0,666
(22-42] 32 2 2/9=0,222
(42-62] 52 1 1/9=0,111
Total 9 1
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Medidas	de	centralización:	Moda
Propiedades
• Como	no	necesariamente	un	valor	es	más frecuente	que	todos	los	demás,	
algunas	distribuciones	de	frecuencias	pueden	tener	una	moda,	dos	o	más	o,	
cuando	todos	los	valores	tienen	igual	frecuencia,	carecen	de	moda.
• Es	decir,	hay	distribuciones	sin	moda
• Hay	distribuciones	con	más de	una	moda
84 C H A P T E R 2 Describing Data
(a) Histogram A
−5 0 5 10 15 20 25
(c) Histogram C
−5 0 5 10 15 20 25
(b) Histogram B
−5 0 5 10 15 20 25
Figure 2.22 Three histograms for Exercise 2.73
2.72 The variable TV, number of hours spent
watching television per week, in the StudentSurvey
dataset
SKILL BUILDER 2
In Exercises 2.73 and 2.74, match the standard devi-
ations with the histograms.
2.73 Match the three standard deviations s = 1,
s = 3, and s = 5 with the three histograms in
Figure 2.22.
2.74 Match each standard deviation with one of the
histograms in Figure 2.23.
(a) s = 0.5
(b) s = 10
(c) s = 50
(d) s = 1
(e) s = 1000
(f) s = 0.29
10
20
30
40
0
−3 −1 1 2 3
Value
I
Fr
eq
ue
nc
y
V
10
20
30
0
−1.0 0.0 1.0
Value
Fr
eq
ue
nc
y
VI
20
60
10
0
0
−1500 −500 500 1500
Value
Fr
eq
ue
nc
y
IV
0
20
60
500 150 250
Value
Fr
eq
ue
nc
y
II
40
0
80
0.0 0.4 0.8
Value
Fr
eq
ue
nc
y
III
0
10
0
20
0
50
70 90 110 130
Value
Fr
eq
ue
nc
y
Figure 2.23 Histograms for Exercises 2.74 and 2.75
SKILL BUILDER 3
In Exercises 2.75 and 2.76, match each five number
summary with the corresponding histogram.
2.75 Match each five number summary with one of
the histograms in Figure 2.23.
(a) (0, 0.25, 0.5, 0.75, 1)
(b) (−1.08, −0.30, 0.01, 0.35, 1.27)
(c) (0.64, 27.25, 53.16, 100, 275.7)
(d) (−3.5, −0.63, −0.11, 0.59, 2.66)
(e) (71.45, 92.77, 99.41, 106.60, 129.70)
(f) (−1296, −1005, −705, 998, 1312)
2.76 Match each five number summary with one of
the histograms in Figure 2.24. The scale is the same
on all four histograms.
(a) (1, 3, 5, 7, 9)
(b) (1, 4, 5, 6, 9)
(c) (1, 5, 7, 8, 9)
(d) (1, 1, 2, 4, 9)
Usuario1
Highlight
Usuario1
Highlight
Medidas	de	posición:	percentiles,	deciles…
• ¿Qué	es	un	percentil?	El	percentil	es	una	medida	de	posición	usada	en	estadística	
que	indica,	una	vez	ordenados	los	datos	de	menor	a	mayor,	el	valor	de	la	variable	
por	debajo	del	cual	se	encuentra	un	porcentaje	dado	de	datos.	Por	ejemplo,	el	
percentil	20º	es	el	valor	bajo	el	cualse	encuentran	el	20	por	ciento	de	las	
observaciones	(definición	de	Wikipedia).	Los	percentiles	van	de	0	a	100.
• Lo	mismo	pasa	con	los	cuantiles,	solo	que	en	vez	de	hablar	de	porcentaje	
hablamos	de	proporciones.	Por	ejemplo,	el	cuantil 0,15	es	el	valor	de	la	variable	
bajo	el	cual	se	encuentra	el	0,15	de	los	datos.	Es	decir,	los	cuantiles van	de	0	a	1.
Usuario1
Highlight
Usuario1
Highlight
Medidas	de	posición:	percentiles,	deciles…
• Percentiles,	cuantiles y	otros	“iles”	que	existen	(deciles,	quintiles,	etc)	
representan	valores	de	la	variable.	
• Si	por	ejemplo	la	variables	es	largo	(en	cm)	de	pico	a	cola	de	aves,	y	nos	dicen	“el	
percentil	45	es	15	cm”,	automáticamente	tenemos	que	entender	de	esto	que	el	
45%	de	las	aves	estudiadas	median	15	cm	o	menos	de	pico	a	cola,	mientras	que	el	
55%	restante	de	las	aves	medidas	medía	más.	
Usuario1
Highlight
Usuario1
Highlight
Medidas	de	posición
Percentiles	especiales:	los	cuartiles
• Los	cuartiles,	tal	cual	su	nombre	lo	indica,	dividen	a	los	datos	en	4	partes	iguales	
(es	decir,	en	cada	parte	queda	la	misma	cantidad	de	datos).	
• Como	se	imaginarán,	estos	cuartiles	se	corresponden	con	los	percentiles	25%,	
50%	y	75%.	
Usuario1
Highlight
Medidas	de	posición
Percentiles	especiales:	los	cuartiles
• De	esta	forma,	si	tenemos	una	lista	de	datos	ordenados	en	forma	creciente	(de	menor	a	
mayor),	tenemos	que:	
• El	primer	cuartil	(Q1) equivale	al	percentil	25%.	El	25%	de	los	datos	tiene	un	valor	igual	o	
menor	al	de	Q1.	
• El	segundo	cuartil	(Q2) equivale	al	percentil	50%.	El	50%	de	los	datos	tiene	un	valor	igual	o	
menor	al	de	Q2.	Como	el	es	valor	que	divide	a	los	datos	en	dos	partes	iguales,	es	igual	a	la	
mediana (si	se	acuerdan	de	la	definición	de	la	mediana	es	esto	mismo:	el	dato	del	medio,	si	
consideramos	los	datos	ordenados	de	menor	a	mayor).
• El	tercer	cuartil	(Q3)	equivale	al	percentil	75%.	El	75%	de	los	datos	tiene	un	valor	igual	o	
menor	al	de	Q3.	
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Medidas	de	posición
Los	5	números	resumen
• Es	posible	describir	un	gran	conjunto	de	datos	utilizando	sólo	5	valores	de	posición,	
calculados	a	partir	de	ellos.	Estos	son:
1. Dato	mínimo	(el	menor	valor	observado	en	nuestro	conjunto	de	datos)
2. Dato	máximo	(el	mayor	valor	observado	en	nuestro	conjunto	de	datos)
3. Primer	cuartil	(Q1)
4. Mediana	(Q2)
5. Tercer	cuartil	(Q3)
• Estos	“5	números	resumen”		nos	pueden	dar	una	idea	de	cómo	es	nuestro	conjunto	general	
de	datos,	sin	tener	que	mirarlos	uno	por	uno,	e	incluso	sin	graficarlos.	
Usuario1
Highlight
Usuario1
Highlight
Medidas	de	dispersión:	rango
• El	rango	(o	amplitud	total)	de	un	conjunto	de	datos	es	la	diferencia	entre	el	dato	
mayor	y	el	dato	menor.	Es	decir:
Rango	=	dato	mayor	– dato	menor
• A	modo	de	ejemplo,	si	tomamos	nuestros	datos	previos	ordenados	de	menor	a	
mayor	(2,	5,	8,	8,	9,	12,	25,	33	y	62),	el	rango	será:	
62-2=60
• Como	se	imaginarán,	el	rango	se	ve	muy	afectado	por	la	presencia,	en	el	conjunto	
de	datos,	de	valores	extremadamente	grandes	o	extremadamente	chicos.
Usuario1
Highlight
Medidas	de	dispersión:	rango	intercuartílico (RIC)
• Se	calcula	como	la	diferencia	entre	los	valores	del	tercer	cuartil	(Q3	=	percentil	
75%)	y	del	primer	cuartil	(Q1	=	percentil	25%).
RIC	=	valor	(Q3)	– valor	(Q1)
• Como	podrán	imaginarse,	y	a	diferencia	del	rango	(amplitud	total),	su	calculo		no	
se	ve	afectado	por	la	presencia,	en	el	conjunto	de	datos,	de	valores	
extremadamente	grandes	o	extremadamente	chicos.	
Usuario1
Highlight
Usuario1
Highlight
Medidas	de	dispersión:	varianza	(s2)
• Vimos	en	las	propiedades	de	la	media	que	las	cantidades	(𝑥𝑖 −	𝑥 ̅)	se	denominan	desvíos.	
• La	varianza	es	el	promedio	de	esos	desvíos al	cuadrado.	
• De	este	modo,	y	en	notación,	tenemos	que	la	varianza	de	un	conjunto	de	n	valores	x1,	x2,	
…,	xn se	calcula	como:
s2 =	Var	(x)	=	4
8
	∑ (𝑥𝑖 −	 �̅�8;<4 )2
• Dado	que	estamos	sumando	desvíos	al	cuadrado,	podemos	estar	seguros	de	que	la	
varianza	va	a	ser	un	valor	≥ 0	(porque	cualquier	número	al	cuadrado	es	un	valor	positivo).
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Medidas	de	dispersión:	varianza	(s2)
• Dado	que	los	cuadrados	de	los	desvíosmiden	las	distancias	cuadráticas entre	los	
valores	de	la	variable	y	su	media,	la	varianza	es	el	promedio	de	dichas	distancias.
• Cuanto	más distantes	de	la	media	quedan	los	valores	de	una	variable,	mayor	es	
su	varianza.
• Una	cosa	a	tener	en	cuenta	es	que,	dado	que	la	varianza	es	el	promedio	de	los	
desvíos elevados	al	cuadrado,	se	expresa	en	la	unidad	de	la	variable	elevada	al	
cuadrado	(ej,	si	la	variable	es	“altura”	(en	centímetros)	la	varianza	va	a	tener	
unidades	cm2).
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Medidas	de	dispersión:	varianza	(s2)
• Ejemplo,	para	nuestro	set	de	datos	(12,	8,	62,	5,	8,	2,	25,	9	y	33),	con	𝑋7 =	18,33,	s2 será:
S2 =	[(12-18,22)2 +	(8-18,22) 2 +	(62-18,22) 2 +	(5-18,22) 2 +	(8-18,22) 2 +	(2-18,22) 2 +	(25-18,22) 2 +	(9-18,22) 2 +	
(33-18,22) 2 ]/9=
[(-6,22)2 +	(-10,22)2 +	(43,78)2 +	(-13,22)2 +	(-10,22)2 +	(–16,22)2 +	(6,78)2 +	(-9,22)2 +	(14,78)2 ]/9=	327,95
• Mientras	que,	para	el	otro	set	de	datos	que	tenía	la	misma	media	(16,	17,	17,	18,	19,	19,	
19,	19,	20):
S2 =	[(16-18,22)2 +	(17-18,22) 2 +	(17-18,22) 2 +	(18-18,22) 2 +	(19-18,22) 2 +	(19-18,22) 2 +	(19-18,22) 2 +	(19-
18,22) 2 +	(20-18,22) 2 ]/9=
[(-2,22)2 +	(-1,22)2 +	(-1,22)2 +	(-0,22)2 +	(0,78)2 +	(0,78)2 +	(0,78)2 +	(0,78)2 +	(1,78)2 ]/9	=	1,5
Medidas	de	dispersión:	desvío	estándar	(s)
• Es	otra	medida	de	dispersión,	que	se	obtiene	como	la	raíz	cuadrada	de	la	
varianza.	
• Esta	medida	de	dispersión	tiene	las	mismas	unidades	que	la	variable	
(nuevamente,	si	la	variable	es	“altura”	(en	centímetros),	el	desvío	estándar	va	a	
tener	como	unidad	“centímetro”).	
• En	notación:
s	=	Desvío	estándar	(x)	=	 𝑣𝑎𝑟(𝑥)
Usuario1
Highlight
Medidas	de	dispersión:	desvío	estándar	(s)
• Ejemplo,	para	nuestro	set	de	datos	(12,	8,	62,	5,	8,	2,	25,	9	y	33),	con	𝑋7 =	18,22,	s	será:
s	=	Desvío	estándar	(x)	=	 327,95 =18,11
• Mientras	que,	para	el	otro	set	de	datos	que	tenía	la	misma	media	(16,	17,	17,	18,	19,	19,	
19,	19,	20):
s	=	Desvío	estándar	(x)	=	 1,5 =	1,22
Vean	como	estos	dos	sets	de	datos	tienen	igual	media	pero	distinta	dispersión
Medidas	de	dispersión:	Coeficiente	de	variación	(CV)
• El	coeficiente	de	variación	es	el	cociente	entre	el	desvío	estándar	(s)	y	la	media	(�̅�):
CV	=		N
O̅
• Es	útil	cuando	buscamos	evaluar	la	dispersión	de	una	variable	en	comparación	con	su	
media.	
• Como	vimos,	el	desvío	estándar	(s)	y	la	media	(�̅�)	tienen	las	mismas	unidades.	Al	estar	
como	cociente,	las	unidades	se	anulan!	
• De	este	modo,	tenemos	que	el	coeficiente	de	variación	(CV)	es	una	medida	sin	unidades.	
• Resulta	muy	útil	cuando	queremos	comparar	la	dispersión	de	dos	conjuntos	de	datos	
muy	diferentes,	o	que	tienen	unidades	diferentes.
Usuario1
Highlight
Medidas	de	dispersión:	Coeficiente	de	variación	(CV)
• El	coeficiente	de	variación	es	el	cociente	entre	el	desvío	estándar	(s)	y	la	media	(�̅�):
CV	=		N
O̅
• Ejemplo,	para	nuestro	set	de	datos	(2,	5,	8,	8,	9,	12,	25,	33,	62),	con	𝑋7 =	18,22	y	s	=	18:
CV	=		NO̅ =	
4P,44
4P,55 =	0,99
• Para	el	otro	set	de	datos	(16,	17,	17,	18,	19,	19,	19,	19,	20)	que	tenía	la	misma	media	y	
s=1,33:
CV	=		NO̅ =	
4,55
4P,55 =	0,067
Medidas	de	forma
• Estas	nos	permiten	identificar	la	forma	en	que	se	separan	o	aglomeran	los	valores	
de	acuerdo	a	su	representación	gráfica.	
• Su	utilidad	radica	en	la	posibilidad	de	identificar	las	características	de	la	
distribución	sin	necesidad	de	generar	el	gráfico.	
• Sus	principales	medidas	son	la	Asimetría	y	la	Curtosis.
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Medidas	de	forma:	Asimetría
• Esta	medida	nos	permite	identificar	si	los	datos	se	distribuyen	de	forma	uniforme	
alrededor	del	punto	central	(Media).
• La	asimetría	presenta	tres	estados	diferentes,cada	uno	de	los	cuales	define	de	
forma	concisa	como	están	distribuidos	los	datos	respecto	al	eje	de	asimetría.	
70 C H A P T E R 2 Describing Data
S E C T I O N L E A R N I N G G O A L S
You should now have the understanding and skills to:
• Use a dotplot or histogram to describe the shape of a distribution
• Calculate the mean and the median for a set of data values, with
appropriate notation
• Identify the approximate locations of the mean and the median on a
dotplot or histogram
• Explain how outliers and skewness affect the values for the mean and
median
Exercises for Section 2.2
SKILL BUILDER 1
Exercises 2.32 to 2.38 refer to histograms A through
H in Figure 2.12.
2.32 Which histograms are skewed to the left?
2.33 Which histograms are skewed to the right?
2.34 Which histograms are approximately sym-
metric?
2.35 Which histograms are approximately symmet-
ric and bell-shaped?
8
0
4
0
0
1
5
0
5
0
0
3
0
0
1
5
0
0
0.0 1.0 2.0
A
−50 150
C
5 15 25
D
1
5
0
5
0
0
−1 1 3
B
0
1
0
0
2
0
0
0
1
0
0
2
5
0
0
1
0
0
2
5
0
−3 −1 1
E
0
1
0
0
2
5
0
0 4 148
F
0 5
G
−7 −4 −1
H
Figure 2.12 Eight histograms
2.36 For each of the four histograms A, B, C, and D,
state whether the mean is likely to be larger than the
median, smaller than the median, or approximately
equal to the median.
2.37 For each of the four histograms E, F, G, and H,
state whether the mean is likely to be larger than the
median, smaller than the median, or approximately
equal to the median.
2.38 Which of the distributions is likely to have the
largest mean? The smallest mean?
70 C H A P T E R 2 Describing Data
S E C T I O N L E A R N I N G G O A L S
You should now have the understanding and skills to:
• Use a dotplot or histogram to describe the shape of a distribution
• Calculate the mean and the median for a set of data values, with
appropriate notation
• Identify the approximate locations of the mean and the median on a
dotplot or histogram
• Explain how outliers and skewness affect the values for the mean and
median
Exercises for Section 2.2
SKILL BUILDER 1
Exercises 2.32 to 2.38 refer to histograms A through
H in Figure 2.12.
2.32 Which histograms are skewed to the left?
2.33 Which histograms are skewed to the right?
2.34 Which histograms are approximately sym-
metric?
2.35 Which histograms are approximately symmet-
ric and bell-shaped?
8
0
4
0
0
1
5
0
5
0
0
3
0
0
1
5
0
0
0.0 1.0 2.0
A
−50 150
C
5 15 25
D
1
5
0
5
0
0
−1 1 3
B
0
1
0
0
2
0
0
0
1
0
0
2
5
0
0
1
0
0
2
5
0
−3 −1 1
E
0
1
0
0
2
5
0
0 4 148
F
0 5
G
−7 −4 −1
H
Figure 2.12 Eight histograms
2.36 For each of the four histograms A, B, C, and D,
state whether the mean is likely to be larger than the
median, smaller than the median, or approximately
equal to the median.
2.37 For each of the four histograms E, F, G, and H,
state whether the mean is likely to be larger than the
median, smaller than the median, or approximately
equal to the median.
2.38 Which of the distributions is likely to have the
largest mean? The smallest mean?
70 C H A P T E R 2 Describing Data
S E C T I O N L E A R N I N G G O A L S
You should now have the understanding and skills to:
• Use a dotplot or histogram to describe the shape of a distribution
• Calculate the mean and the median for a set of data values, with
appropriate notation
• Identify the approximate locations of the mean and the median on a
dotplot or histogram
• Explain how outliers and skewness affect the values for the mean and
median
Exercises for Section 2.2
SKILL BUILDER 1
Exercises 2.32 to 2.38 refer to histograms A through
H in Figure 2.12.
2.32 Which histograms are skewed to the left?
2.33 Which histograms are skewed to the right?
2.34 Which histograms are approximately sym-
metric?
2.35 Which histograms are approximately symmet-
ric and bell-shaped?
8
0
4
0
0
1
5
0
5
0
0
3
0
0
1
5
0
0
0.0 1.0 2.0
A
−50 150
C
5 15 25
D
1
5
0
5
0
0
−1 1 3
B
0
1
0
0
2
0
0
0
1
0
0
2
5
0
0
1
0
0
2
5
0
−3 −1 1
E
0
1
0
0
2
5
0
0 4 148
F
0 5
G
−7 −4 −1
H
Figure 2.12 Eight histograms
2.36 For each of the four histograms A, B, C, and D,
state whether the mean is likely to be larger than the
median, smaller than the median, or approximately
equal to the median.
2.37 For each of the four histograms E, F, G, and H,
state whether the mean is likely to be larger than the
median, smaller than the median, or approximately
equal to the median.
2.38 Which of the distributions is likely to have the
largest mean? The smallest mean?
Histogramas	mostrando	tres	tipos	de	simetría.	Izquierda:	
asimetría	negativa	(ver	que	tiene	una	“cola”	a	la	izquierda),	
derecha:	asimetría	positiva	(ver	que	tiene	una	“cola”	a	la	
derecha),	centro:	simétrico	(y	con	forma	de	campana).	
Fr
ec
ue
nc
ia
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Medidas	de	forma:	Asimetría
• Podemos	calcular	coeficientes	de	asimetría,	que	se	interpretan	como:
A. As	<	0,	si	tenemos	una	distribución	asimétrica	negativa	(con	cola	hacia	la	izquierda)
B. As	≈0,	si	tenemos	una	distribución	simétrica
C. As	>	0,	si	tenemos	una	distribución	asimétrica	positiva	(con	cola	hacia	la	derecha)
• De	forma	práctica,	decimos	que	si	As	=	±0,50,	los	datos	se	distribuyen	en	forma	
simétrica.
• Notar	también	que,	mientras	mayor	sea	el	coeficiente	de	asimetría,	más	
asimétrica	será	la	distribución	de	los	datos.
70 C H A P T E R 2 Describing Data
S E C T I O N L E A R N I N G G O A L S
You should now have the understanding and skills to:
• Use a dotplot or histogram to describe the shape of a distribution
• Calculate the mean and the median for a set of data values, with
appropriate notation
• Identify the approximate locations of the mean and the median on a
dotplot or histogram
• Explain how outliers and skewness affect the values for the mean and
median
Exercises for Section 2.2
SKILL BUILDER 1
Exercises 2.32 to 2.38 refer to histograms A through
H in Figure 2.12.
2.32 Which histograms are skewed to the left?
2.33 Which histograms are skewed to the right?
2.34 Which histograms are approximately sym-
metric?
2.35 Which histograms are approximately symmet-
ric and bell-shaped?
80
40
0
15
0
50
0
30
0
15
0
0
0.0 1.0 2.0
A
−50 150
C
5 15 25
D
15
0
50
0
−1 1 3
B
0
10
0
20
0
0
10
0
25
0
0
10
0
25
0
−3 −1 1
E
0
10
0
25
0
0 4 148
F
0 5
G
−7 −4 −1
H
Figure 2.12 Eight histograms
2.36 For each of the four histograms A, B, C, and D,
state whether the mean is likely to be larger than the
median, smaller than the median, or approximately
equal to the median.
2.37 For each of the four histograms E, F, G, and H,
state whether the mean is likely to be larger than the
median, smaller than the median, or approximately
equal to the median.
2.38 Which of the distributions is likely to have the
largest mean? The smallest mean?
70 C H A P T E R 2 Describing Data
S E C T I O N L E A R N I N G G O A L S
You should now have the understanding and skills to:
• Use a dotplot or histogram to describe the shape of a distribution
• Calculate the mean and the median for a set of data values, with
appropriate notation
• Identify the approximate locations of the mean and the median on a
dotplot or histogram
• Explain how outliers and skewness affect the values for the mean and
median
Exercises for Section 2.2
SKILL BUILDER 1
Exercises 2.32 to 2.38 refer to histograms A through
H in Figure 2.12.
2.32 Which histograms are skewed to the left?
2.33 Which histograms are skewed to the right?
2.34 Which histograms are approximately sym-
metric?
2.35 Which histograms are approximately symmet-
ric and bell-shaped?
80
40
0
15
0
50
0
30
0
15
0
0
0.0 1.0 2.0
A
−50 150
C
5 15 25
D
15
0
50
0
−1 1 3
B
0
10
0
20
0
0
10
0
25
0
0
10
0
25
0
−3 −1 1
E
0
10
0
25
0
0 4 148
F
0 5
G
−7 −4 −1
H
Figure 2.12 Eight histograms
2.36 For each of the four histograms A, B, C, and D,
state whether the mean is likely to be larger than the
median, smaller than the median, or approximatelyequal to the median.
2.37 For each of the four histograms E, F, G, and H,
state whether the mean is likely to be larger than the
median, smaller than the median, or approximately
equal to the median.
2.38 Which of the distributions is likely to have the
largest mean? The smallest mean?
70 C H A P T E R 2 Describing Data
S E C T I O N L E A R N I N G G O A L S
You should now have the understanding and skills to:
• Use a dotplot or histogram to describe the shape of a distribution
• Calculate the mean and the median for a set of data values, with
appropriate notation
• Identify the approximate locations of the mean and the median on a
dotplot or histogram
• Explain how outliers and skewness affect the values for the mean and
median
Exercises for Section 2.2
SKILL BUILDER 1
Exercises 2.32 to 2.38 refer to histograms A through
H in Figure 2.12.
2.32 Which histograms are skewed to the left?
2.33 Which histograms are skewed to the right?
2.34 Which histograms are approximately sym-
metric?
2.35 Which histograms are approximately symmet-
ric and bell-shaped?
80
40
0
15
0
50
0
30
0
15
0
0
0.0 1.0 2.0
A
−50 150
C
5 15 25
D
15
0
50
0
−1 1 3
B
0
10
0
20
0
0
10
0
25
0
0
10
0
25
0
−3 −1 1
E
0
10
0
25
0
0 4 148
F
0 5
G
−7 −4 −1
H
Figure 2.12 Eight histograms
2.36 For each of the four histograms A, B, C, and D,
state whether the mean is likely to be larger than the
median, smaller than the median, or approximately
equal to the median.
2.37 For each of the four histograms E, F, G, and H,
state whether the mean is likely to be larger than the
median, smaller than the median, or approximately
equal to the median.
2.38 Which of the distributions is likely to have the
largest mean? The smallest mean?
Histogramas	mostrando	tres	tipos	de	simetría.	Izquierda:	
asimetría	negativa	(As	<0),	derecha:	asimetría	positiva	(As	>	0),	
centro:	simétrico	(As	~	0).	
Usuario1
Highlight
Medidas	de	forma:	Asimetría
Propiedades
• Cuando	As	<	0,	la	media	<	mediana	(ya	que	la	media	se	ve	más	afectada	en	su	cálculo	
que	la	mediana	por	datos	extremos).	La	moda	será	siempre	el	valor	donde	la	distribución	
alcance	su	máximo	(en	un	histograma	será	la	barra	más	alta,	y	en	una	curva	el	punto	más	
alto)
• Cuando	As	≈0,	media	=	mediana.	Y,	si	además	de	ser	simétrico,	la	distribución	tiene	
forma	de	campana	de	Gauss,	se	cumple	que	media	=	mediana	=	moda
• Cuando	As	>	0,	la	media	>	mediana	(nuevamente,	esto	se	debe	a	que	la	media	se	ve	más	
afectada	en	su	cálculo	que	la	mediana	por	datos	extremos).	La	moda	será	siempre	el	
valor	donde	la	distribución	alcance	su	máximo.
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Medidas	de	forma:	Asimetría
Propiedades
• Cuando	As	<	0,	la	media	<	mediana	(ya	que	la	media	se	ve	más	afectada	en	su	cálculo	
que	la	mediana	por	datos	extremos).	La	moda	será	siempre	el	valor	donde	la	distribución	
alcance	su	máximo	(en	un	histograma	será	la	barra	más	alta,	y	en	una	curva	el	punto	más	
alto)
• Cuando	As	≈0,	media	=	mediana.	Y,	si	además	de	ser	simétrico,	la	distribución	tiene	
forma	de	campana	de	Gauss,	se	cumple	que	media	=	mediana	=	moda
• Cuando	As	>	0,	la	media	>	mediana	(nuevamente,	esto	se	debe	a	que	la	media	se	ve	más	
afectada	en	su	cálculo	que	la	mediana	por	datos	extremos).	La	moda	será	siempre	el	
valor	donde	la	distribución	alcance	su	máximo.
Medidas	de	forma:	Asimetría
• Cómo se	imaginan	que	será	la	el	coeficiente	de	asimetría	del	histograma	de	
nuestros	datos	ejemplo?
0
1
2
3
4
5
6
7
12 32 52
Fre
cu
en
cia
s	a
bs
olu
tas
Marcas	de	clase
histograma	de	frecuencias	absolutas
Medidas	de	forma:	Curtosis
• La	curtosis (o	apuntamiento)	es	una	medida	de	forma	que	mide	cuán	apuntada	o	
achatada	está	una	curva	o	distribución.	
• La	curtosis nos	da	una	idea	de	la	cantidad	de	datos	que	están	cercanos	a	la	media,	de	
manera	que	a	mayor	grado	de	curtosis,	más	apuntada	será	la	forma	de	la	distribución	
Curtosis.	izquierda	curva	platicúrtica (aplastada,	con	Curtosis<0);	centro:	curva	mesocúrtica,	normal	(se	parece	a	
una	campana	de	Gauss,	Curtosis ≈ 0);	derecha:	curva	Leptocúrtica (apuntada,	con	Curtosis >	0).
Usuario1
Highlight
Usuario1
Highlight
Medidas	de	forma:	Curtosis
• Al	igual	que	pasa	con	asimetría,	la	forma	de	distribución	de	los	datos	también	se	
puede	clasificar	en	tres	grupos	según	el	signo	de	su	curtosis:
A. Leptocúrtica:	la	Curtosis>0.	Los	datos	están	muy	concentrados	en	la	media,	siendo	una	
curva	muy	apuntada.
B. Mesocúrtica:	la	Curtosis≈ 0.	Distribución	normal,	con	forma	de	campana	de	Gauss.
C. Platicúrtica:	la	Curtosis<0.	Muy	poca	concentración	de	datos	en	la	media,	presentando	una	
forma	muy	achatada.
• De	forma	práctica,	decimos	que	si	curtosis =	±0,50,	los	datos	se	distribuyen	en	
forma	normal.
Usuario1
Highlight
Medidas	de	forma
Un	caso	especial:	la	curva	nornal
• Cuando	la	distribución	de	los	datos	cuenta	con	un	coeficiente	de	asimetría	
cercano	a	cero	(As	≈ 0)	y	un	coeficiente	de	Curtosis también	cercano	a	cero	
(curtosis ≈ 0),	se	la	denomina	Curva	Normal.	
• La	curva	normal	tiene	forma	de	campana	de	Gauss,	y	es	asintótica	al	eje	X	(es	
decir	se	acerca	mucho,	pero	nunca	corta	el	eje	x).
• Este	criterio	es	de	suma	importancia	ya	que	para	la	mayoría	de	los	
procedimientos	de	la estadística de	inferencia	se	requiere	que	los	datos	se	
distribuyan	normalmente.
Usuario1
Highlight
Usuario1
Highlight
Medidas	de	forma
Un	caso	especial:	la	curva	nornal
• La	principal	ventaja	de	la	distribución	normal	radica	en	el	supuesto	que	
aproximadamente	el	95%	de	los	valores	se	encuentra	dentro	de	una	distancia	de	
dos	desviaciones	estándar	de	la	media.
• Es	decir,	si	tomamos	la	media	y	le	sumamos	dos	veces	la	desviación	estándar	y	
después	le	restamos	a	la	media	dos	desviaciones	estándar,	aproximadamente	el	
95%	de	los	casos	se	encontraría	dentro	del	rango	que	compongan	estos	valores	
(aclaramos	“aproximadamente”	porque	el	verdadero	valor	que	hay	que	sumar	y	
restar	a	la	media	para	obtener	el	95%	de	los	datos	no	es	±2	desvíos	estándar,	sino	
±1,96	desvíos	estándar).	
Medidas	de	forma
Un	caso	especial:	la	curva	nornal
• Otras	propiedades	de	la	curva	normal	es	que	a	± 1	desvío	estándar	de	la	media	se	
encontraría	aproximadamente	el	68	%	de	los	datos,	y	a	± 3	desvíos	estándar	de	la	
media	se	encontraría	el	99,7%	de	los	datos.	
• Esto	es	lo	que	se	postula	en	el	teorema	de	Chebyshev.	
Ejemplo de histograma aproximadamente normal, mostrando dónde se
ubicaría la media muestral (�̅�), y los distintos valores de media ± 1, 2, 3
desvíos estándar (s). También se marca el porcentaje aproximado de datos
que, por teorema de Chebyshev esperamos encontrar a ± 1 desvío estándar
de la media (~68% de los datos), a ± 2 desvíos estándar de la media (~95%
de los datos) y a ± 3 desvíos estándar de la media (~99,7% de los datos).
Usuario1
Highlight
Datos	atípicos
• Un	dato	atípico	es	una	observación	extrañamente	grande	o	pequeña.	
• Los	valores	atípicos	pueden	tener	un	efecto	desproporcionado	en	los	resultados	
estadísticos,	como	la	media,	lo	que	puede	conducir	a	interpretaciones	engañosas.	
• Por	regla	general,	decimos	que	un	dato	será	atípico	si:
A. Es	mayor	que	el	cuartil	3	+	1,5	veces	el	rango	intercuartílico (RIC).	Es	decir,	si	un	
dato	es	mayor	que	Q3	+	1,5	RIC,	será	considerado	dato	atípico,	raro,	extremo.
B. Es	menor	que	que	el	cuartil	1	- 1,5	veces	el	rango	intercuartílico (RIC).	Es	decir,	si	
un	dato	es	menor	que	Q1	- 1,5	RIC,	será	considerado	dato	atípico,	raro,	extremo.
Usuario1
Highlight
Usuario1
Highlight
Otro	tipo	de	gráficos	para	variables	cuantitativas:	
Boxplot
• El	boxplot,	o	gráfico	de	cajas	y	bigotes,	es	uno	de	los	recursos	más	usados	para	graficar	variables	
cuantitativas,	ya	que	nos	da	una	idea	muy	clara	de	cómo	se	distribuyen	los	datos,	pero	además	
tiene	una	característica	extra:	permite	detectar	rápidamente	la	presencia	de	datos	atípicos.
• Para	armar	este	tipo	de	gráficos	tenemos	que	construir	sus	partes:	una	caja	y	dos	bigotes	(líneas):uno	superior	y	otro	inferior.
1. La	caja	se	construye	con	tres	valores:	Q1,	Q2	(mediana)	y	Q3.
2. Los	bigotes	se	pueden	construir	de	distintas	maneras,	dependiendo	de	si	nuestro	conjunto	
de	datos	tiene	o	no	datos	atípicos,	y	de	cómo	son	esos	datos	atípicos	(más	pequeños	que	
el	resto	de	los	datos,	o	más	grandes).
Usuario1
Highlight
Usuario1
Highlight
Usuario1
Highlight
Otro	tipo	de	gráficos	para	variables	cuantitativas:	
Boxplot – Cómo graficar
• Si	nuestro	conjunto	de	datos	tiene	datos	
atípicos	más	grandes	que	el	resto	de	los	
datos	(es	decir,	mayores	que	Q3	+	1,5	RIC),	el	
bigote	superior	será	Q3	+	1,5	RIC	y	el	bigote	
menor	será	el	menor	valor	observado	en	los	
datos.	Los	datos	atípicos	se	dibujarán	arriba	
del	bigote	superior,	como	puntitos	(un	punto	
por	dato	atípico).
Menor	valor	observado
Q1
Q2	=	Med
Q3
Q3	+	1,5	RIC
Atípico (mayor	
valor	observado)
Usuario1
Highlight
Otro	tipo	de	gráficos	para	variables	cuantitativas:	
Boxplot – Cómo graficar
• Si	nuestro	conjunto	de	datos	tiene	datos	
atípicos	más	pequeños	que	el	resto	de	los	
datos	(es	decir,	menores	que	Q1	- 1,5	RIC),	el	
bigote	inferior	será	Q1	- 1,5	RIC	y	el	bigote	
mayor	será	el	mayor	valor	observado	en	los	
datos.	Los	datos	atípicos	se	dibujarán	debajo	
del	bigote	inferior,	como	puntitos	(un	punto	
por	dato	atípico)
Mayor	valor	
observado
Q1
Q2	=	Med
Q3
Q1	- 1,5	RIC
Atípico.	Menor	
valor	observado
Usuario1
Highlight
Otro	tipo	de	gráficos	para	variables	cuantitativas:	
Boxplot – Cómo graficar
• Si	nuestro	conjunto	de	datos	tiene	datos	
atípicos	más	grandes	y	más	pequeños	que	el	
resto	de	los	datos	(es	decir,	menores	que	Q1	
- 1,5	RIC	y	mayores	que	Q3	+	1,5	RIC),	el	
bigote	inferior	será	Q1	- 1,5	RIC	y	el	bigote	
mayor	será	será	Q3	+	1,5	RIC.	Los	datos	
atípicos	se	dibujarán	arriba	del	bigote	
superior	y	abajo	del	bigote	inferior,	como	
puntitos	(un	punto	por	dato	atípico)
Atípico.	Mayor	
valor	observado
Q1
Q2	=	Med
Q3
Q1	- 1,5	RIC
Atípico.	Menor	
valor	observado
Q3	+ 1,5	RIC
Usuario1
Highlight
Otro	tipo	de	gráficos	para	variables	cuantitativas:	
Boxplot – Cómo graficar
• Si	nuestro	conjunto	de	datos	no	tiene	datos	
atípicos,	los	bigotes	serán	el	menor	y	el	
mayor	valor	observado	en	nuestros	datos	
(Ver	Figura	7,	cuarto	recuadro).
• Notar	que,	cuando	NO	tenemos	datos	
atípicos,	los	datos	con	los	que	se	construye	
el	boxplot son	los	mismos	de	los	“5	números	
resumen”.	En	cambio	cuando	sí	tenemos	
datos	atípicos,	no	son	los	mismos.
Q1
Q2	=	Med
Q3
Menor	valor	
observado
Mayor	valor	
observado
Usuario1
Highlight
Ejemplo	general	aplicando	todo	lo	visto	hoy
• Estamos	trabajando	con	la	familia	de	virus	Coronaviridae,	
• Queremos	estudiar	cuál	es	el	tamaño	de	los	genomas	de	los	distintos	miembros	de	la	
familia.	
• Para	encarar	este	estudio,	vamos	a	la	base	de	datos	del	NCBI	
(https://www.ncbi.nlm.nih.gov/)		y	buscamos	todos	los	virus	de	esta	familia	que	tienen	
genoma	secuenciado	y	ensamblado.
• En	total	tenemos	64	datos	(es	decir,	64	genomas	de	la	familia	secuenciados).
Ejemplo	general	aplicando	todo	lo	visto	hoy
• Las	primeras	preguntas	de	rigor	que	siempre	debemos	hacernos,	antes	de	
encarar	cualquier	estudio	estadístico	son:	
1. Cuál	es	la	muestra?	
2. Cuál	la	población	de	estudio?	
3. Cuál	es	la	variable	que	quiero	determinar?	
4. De	qué	tipo	es	esa	variable?
Ejemplo	general	aplicando	todo	lo	visto	hoy
• Las	primeras	preguntas	de	rigor	que	siempre	debemos	hacernos,	antes	de	
encarar	cualquier	estudio	estadístico	son:	
1. Cuál	es	la	muestra?	Los	64	virus	pertenecientes	a	esta	familia	que	tienen	
genoma	secuenciado	y	depositado	en	la	base	de	datos	del	NCBI.	
2. Cuál	la	población	de	estudio?	Todos	los	miembros	de	la	familia	coronaviridae.	
3. Cuál	es	la	variable	que	quiero	determinar?	Largo	(bases)	del	genoma	
4. De	qué	tipo	es	esa	variable? cuantitativa	discreta	
Ejemplo	general	aplicando	todo	lo	visto	hoy
• Ahora	podemos	organizar	los	datos	en	tabla	de	frecuencias	agrupadas.
• Primero	tenemos	que	decidir	en	cuantos intervalos	agrupar	los	datos.	
• Si	usamos	la	fórmula	de	la	raíz,	tenemos	que:
Número	de	intervalos	=	 64=	8	intervalos
• Si	usamos	la	fórmula de	Sturges,	tenemos	que:
Número	de	intervalos	=	1+log2(64)	=	7	intervalos
Ejemplo	general	aplicando	todo	lo	visto	hoy
• Para	armar	la	tabla	de	frecuencias	agrupadas,	debemos	saber	que	el	menor	genoma	
tiene	25000	bases	y	el	mayor	32000.	Entonces,	el	rango	es:
Rango =	32000	bases	-25000	bases	=	7000	bases
• Para	saber	el	tamaño	de	cada	intervalo,	debemos	hacer:	rango/número	de	intervalos.
Tamaño	de	cada	intervalo =	7000/7	=	1000	bases
• Entonces	ya	con	esos	datos	podemos	armar	la	tabla,	sabiendo	que	el	primer	intervalo	va	
desde	el	menor	valor	observo	hasta	ese	valor	+	el	tamaño	del	intervalo	y	así	en	adelante.	
Siempre	recordar	el	manejo	de	corchetes	y	paréntesis	al	especificar	los	intervalos
Ejemplo	general	aplicando	todo	lo	visto	hoy
Intervalos MC
Frecuencia	
Absoluta
Frecuencia	
Relativa
[25000-26000] 25500 3 0.05
(26000-27000] 26500 10 0.16
(27000-28000] 27500 13 0.20
(28000-29000] 28500 16 0.25
(29000-30000] 29500 6 0.09
(30000-31000] 30500 7 0.11
(31000-32000] 31500 9 0.14
64 1.00
Ejemplo	general	aplicando	todo	lo	visto	hoy
• Luego	esa	misma	información	de	la	tabla	puede	usarse	para	graficar	estos	datos	
en	un	histograma,	ya	sea	de	frecuencias	absolutas	o	de	frecuencias	relativas.
• Si	es	de	frecuencias	relativas,	recordar	indicar	el	n!
Ejemplo	general	aplicando	todo	lo	visto	hoy
• Una	vez	plasmados	los	datos	en	tablas	de	frecuencias	y	gráficos,	podemos	también	
calcular	algunas	medidas	descriptivas	para	variables	cuantitativas:	
1)	Medidas	de	centralización
Media:	Vimos	que	la	media	es	el	promedio	de	todos	los	datos.	En	este	caso,	hay	que	sumar	
el	largo	(en	bases)	de	todos	los	genomas	y	luego	dividirlos	por	64	(tamaño	muestral):
𝒙A =	(25000	+		25984	+		25995	+		26041	+	….	+	32000)/64
𝒙A =					28522	bases
Ejemplo	general	aplicando	todo	lo	visto	hoy
1)	Medidas	de	centralización
• Mediana:	se	calcula	ordenando	los	datos	de	menor	a	mayor,	y	buscando	cuál	es	el	valor	
del	dato	que	queda	justo	en	la	mitad	de	la	lista.	
• Dado	que	tenemos	un	número	par	de	genomas	(64)	no	tendremos	un	dato	al	medio,	sino	
dos	(los	correspondientes	a	las	posiciones	32	y	33	de	la	lista).	
• El	genoma	que	queda	en	la	posición	32	tiene	28326	bases	y	el	que	queda	en	la	posición	
33	tiene	28363	bases.	
• Entonces,	la	mediana	será
Med=	(28326	+	28363)/2	=		28344,5	bases
Ejemplo	general	aplicando	todo	lo	visto	hoy
1)	Medidas	de	centralización
• Moda:	la	moda	es	el	dato	más	frecuente	o,	en	el	caso	de	tener	datos	agrupados,	
aquel	intervalo	o	clase	que	tiene	la	frecuencia	más	alta	(“clase	modal”).	
• En	nuestro	caso,	la	“clase	modal”	es	aquella	que	va	de	28000	a	29000	bases	(ya	
que	tiene	la	frecuencia	más	alta).	
• Ver	flechas	y	fila	naranjas
Intervalos MC
Frecuencia	
Absoluta
Frecuencia	
Relativa
[25000-26000] 25500 3 0.05
(26000-27000] 26500 10 0.16
(27000-28000] 27500 13 0.20
(28000-29000] 28500 16 0.25
(29000-30000] 29500 6 0.09
(30000-31000] 30500 7 0.11
(31000-32000] 31500 9 0.14
64 1.00
Ejemplo	general	aplicando	todo	lo	visto	hoy
2)				Medidas	de	posición
Podemos	estar	interesados	en	cualquier	medida	de	posición,	pero	tomemos	solo	
algunas:
• Primer	cuartil	=	Q1	=	percentil	25%	=	27376	bases.	Esto	quiere	decir	que	el	25%	
de	los	genomas	de	coronavirus	secuenciados	tienen	27376	bases	o	menos.
• Tercer	cuartil	=	Q3	=	percentil	27%	=	29972	bases.	Esto	quiere	decir	que	el	75%	de	
los	genomas	de	coronavirus	secuenciados	tienen	29972	bases	o	menos.
Ejemplo	general	aplicando	todo	lo	visto	hoy
3)				Medidas	de	dispersión
Rango:	Ya	lo	calculamos	previamente,	cuando	hicimos	el	armado	de	la	tabla	de	frecuencias	
agrupadas,	pero	lo	repetimos.	Dado	que	el	menor	genoma	tiene	25000	bases	y	el	mayor	
32000,	el	rango	es:
Rango =	32000	bases	-25000	bases	=	7000	bases
Rango	intercuartílico (RIC): Es	la	diferencia	entre	el	tercercuartil	(29972	bases)	y	el	primer	
cuartil	(27376	bases)
RIC =		29972	bases	- 27376	bases	=	2596	bases
Ejemplo	general	aplicando	todo	lo	visto	hoy
3) Medidas	de	dispersión
Varianza	(s2):	Se	calcula	sumando	todos	los	desvíos	(diferencia	entre	cada	dato	y	la	media)	al	
cuadrado.	
Var	(x)	=	s2=	[(25500	- 28522)2 +	(	25984	- 28522)2	+	(	25995	- 28522)2		+	…	+	(32000	- 28522)2]/64
Var	(x)	=	s2=	2989487	bases2
Desvío	estándar	(s):	Es	la	raíz	de	la	varianza.	Tiene	las	mismas	unidades	que	la	media	(en	este	caso,	
bases).
s =		 2989487 =	1729,013	bases
Ejemplo	general	aplicando	todo	lo	visto	hoy
4)				Medidas	de	Forma
Calcularemos	(con	software)	coeficientes	de	asimetría	y	curtosis.
• Asimetría:	0,194.	Es	un	valor	positivo,	pero	bastante	cercano	a	cero.	Esto	ya	lo	
esperábamos,	dado	que	la	media	(28522	bases)	es	ligeramente	mayor	que	la	
mediana	(28344,5	bases).
• Curtosis:	2,13502.	Este	coeficiente,	al	ser	positivo,	nos	da	la	idea	de	que	hay	
muchos	datos	agrupados	alrededor	de	la	media.
Ejemplo	general	aplicando	todo	lo	visto	hoy
Podemos	preguntarnos	si	en	ese	conjunto	de	64	datos	hay	datos	atípicos.	
Sabemos	que	son	datos	atípicos	aquellos	que:
a)	son	mayores	a	Q3	+	1,5	RIC
b)	son	menores	a	Q1	– 1,5	RIC
Entonces	calculemos	esos	valores	y	veamos	si	nuestros	datos	cumplen	esas	condiciones.
a)	Q3	+	1,5	RIC	=		29972	+	1,5	x		2596	=	33866	bases
b)	Q1	- 1,5	RIC	=		27376	- 1,5	x		2596	=	23482	bases	
Dado	que	el	menor	genoma	tiene	25000	bases	y	el	mayor	32000,	no	tenemos	datos	atípicos.	
Ejemplo	general	aplicando	todo	lo	visto	hoy
• Boxplot:	Dado	que	no	esperamos	datos	
atípicos,	el	bigote	inferior	será	el	menor	valor	
observado	(25000	bases),	y	el	bigote	superior	
el	mayor	valor	observado	(32000	bases).	
• Es	decir,	en	este	caso	los	datos	del	boxplot
son	los	mismos	de	los	“5	números resumen”.
• Al	hacer	un	Boxplot,	recordar	siempre	indicar	
el	n	(tamaño	muestral)!

Continuar navegando

Materiales relacionados

80 pag.
80P Fundamentos De Estadistica Basica - Pablo Cazau

ESTÁCIO

User badge image

Fernando Diaz Garcla-muñoz

16 pag.