Logo Studenta

Teoria AED

¡Este material tiene más páginas!

Vista previa del material en texto

PROCEDIMIENTO PARA EL CALCULO DE DECILES, CUARTILES Y PERCENTILES: Definición: el 100k-
ésimo percentil pk es un valor tal, que al menos el 100k% de las observaciones están en ese valor o por 
debajo de él, y al menos el 100(1-k)% están en ese valor o por encima de él. 
2
i = n*K
i es 
entero?
no si
i es el siguiente 
entero mas grande i = n*k + 0,5
i es 
entero?
no si
Pk= cuéntese desde la observación más 
pequeña hasta hallar el i-ésimo valor.
Pk = Xi
Pk= es el promedio de las observaciones 
ordenadas 𝑷𝒌 =
𝑿𝒏∗𝒌+𝑿𝒏∗𝒌+𝟏
𝟐
Fin
Inicio
3
161 161 162 162 165 165 165 165 165 165 166 166
168 168 169 169 169 169 169 169 170 170 170 170
170 170 170 171 171 171 171 171 171 171 171 172
172 172 172 172 172 172 175 175 175 175 176 176
177 177 178 180 180 181 181 185 185 185 189 189
Se va a hacer el análisis de la estatura en centímetros de 60 personas tomadas al azar.
EJEMPLO
𝑖 =
60+1
2 +1
2
=
61
2 +1
2
= 30,5 +1
2
=30 + 1
2
=15,5 
Q1= X15 + X16 = 169+169 = 169
2 2
Q3= 175+175 = 175
2
Cálculos de Q1 y Q3
Q2= 𝑥30+ 𝑥31
2
=171+171
2
= 171
𝑖 =
(𝑛 + 1)
2
= 30,5
Cálculos de Q2 o mediana
Otra forma para el cálculo de los cuartiles
4
1) Ordenar los datos de la muestra
• Cálculo de Q1
Posición: 𝑖 =
𝑛+1
2 +1
2
= si es entera Q1 será Xi el iésimo valor contando desde el primer dato, o
bien si es decimal, será el promedio del iésimo valor y el iésimo+1.
Por ejemplo: si tengo 60 datos ordenados para averiguar la posición de Q1 =Xi donde
𝑖 =
60+1
2 +1
2
=
61
2 +1
2
= 30,5 +1
2
=30 + 1
2
=15,5 entonces Q1 será el promedio de los valores en las
posiciones 15 y 16. Q1= 𝑋15+ 𝑥16
2
Q3 será el promedio de los valores en las posiciones 15 y 16 contando desde el último dato.
• Q2 o mediana 𝑋
𝑋(𝑛+1)
2
n impar
𝑋𝑛
2
+ 𝑋 𝑛
2+1
2
𝑛 𝑒𝑠 𝑝𝑎𝑟, 𝑒𝑠 𝑒𝑙 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑐𝑒𝑛𝑡𝑟𝑎𝑙𝑒𝑠 𝑑𝑒𝑙 𝑙𝑜𝑡𝑒
Los corchetes indican que debemos 
tomar la parte entera
5
ANÁLISIS EXPLORATORIO DE DATOS
El Análisis Exploratorio de Datos es un conjunto de técnicas destinadas a procesar lotes de 
datos, con las finalidades principales de :
• detectar estructuras,
• sugerir hipótesis 
• facilitar un posterior “Análisis Confirmatorio” que se encargará de evaluar sistemáticamente las 
estructuras o efectos observados
Las tres técnicas básicas del AED son :
1. Resúmenes Numéricos (“letter values”)
2. Diagramas Tipo Caja (“Box-plot”)
3. Diagrama de Tallo y Hojas (“stem-and-leaf”).
6
1. RESUMENES NUMERICOS: (RESUMEN DE LOS 5 NUMEROS)
Cuartil Mediana (Q2) Cuartil 
inferior (Q1) Superior (Q3)
Máximo Mínimo
n:
7
Cuartil inf. (Q1) Mediana (Q2) Cuartil Sup. (Q3)
Máximo Mínimo
n:
Q1 + Q3 
2
Máx + Mín
2
Medidas de 
tendencia Central
Q3 – Q1 = dQ
Máx - Mín = R
dQ distancia entre 
cuartiles o también llamado 
recorrido intercuartílico
Estos números se pueden usar para estudiar la FORMA de la distribución
R recorrido de la variable
Distancias
RESUMENES NUMERICOS: (RESUMEN DE LOS 5 NUMEROS)
8
Las MEDIDAS DE TENDENCIA CENTRAL se usan como indicadores de 
ASIMETRIA.
Si las dos medidas son aproximadamente iguales, los cuartiles y los extremos 
se encuentran ubicados simétricamente alrededor de la mediana, entonces el 
LOTE es SIMETRICO
Si las medidas crecen progresivamente, el lote es ASIMETRICO POSITIVO. Si 
decrecen, el lote es ASIMETRICO NEGATIVO.
Las DISTANCIAS son medidas de VARIABILIDAD.
La distancia dc (DISTANCIA INTERCUARTILICA) representa el recorrido cubierto 
por aproximadamente la mitad del lote.
Si los datos fueran PERFECTAMENTE SIMETRICOS, sería cierto lo siguiente:
1. La distancia de Q1 a la Mediana sería igual a la distancia de la Mediana a 
Q3.
2. La distancia del MINIMO a Q1 sería igual a la distancia de Q3 al MAXIMO
3. Mediana = Q1 + Q3 = Min + Max 
2 2
9
Para distribuciones no simétricas sería cierto lo siguiente:
1. En las distribuciones con sesgo a la derecha (asimétricas positivas), la
distancia de Q3 al Máximo, excede en gran medida la distancia del mínimo
a Q1
2. En las distribuciones con sesgo a la derecha 
MEDIANA < Q1 + Q3 < Min + Max
2 2
3. En las distribuciones con sesgo a la izquierda (asimétricas negativas), la
distancia del Mínimo a Q1 excede en gran medida la distancia de Q3 al
máximo.
4. En las distribuciones con sesgo a la izquierda 
Min + Max < Q1 + Q3 < MEDIANA
2 2
10
11
2. DIAGRAMA TIPO CAJA BOX PLOT
Los diagramas de caja son de gran utilidad como técnica de análisis exploratorio de datos. Permiten observar:
• Medidas de posición, variabilidad, simetría
• Longitud de las colas
• Existencia de valores distantes “outliers” o valores extremos.
• Pero además, el Boxplot es bien útil para comparar dos o mas grupos.
¿Cómo se dibuja un diagrama de caja?
Un diagrama de caja se construye como sigue:
1) Ordenar los datos de la muestra y obtener el valor mínimo, el máximo, y los tres cuartiles Q1, Q2 y Q3.
2) Dibujar un rectángulo cuyos extremos son Q1 y Q3 e indicar la posición de la mediana, Q2, mediante una
línea central.
3) Calcular con cualquiera de los procedimientos descritos anteriormente unos límites admisibles superior e
inferior, que identifiquen a los valores atípicos.
Límite Inferior: Li=Q1–(1,5 dQ) Límite Superior: Ls = Q3 + (1,5 dQ)
Límite Muy alejado Inferior: Lmi=Q1–(3*dQ) Límite Muy alejado Superior: Lms= Q3 + (3 dQ)
dQ = Q3 – Q1 = recorrido intercuartílico.
12
Se consideran valores
ALEJADOS: a los valores menores que Li y mayores que Ls
MUY ALEJADOS: Los valores menores que Lmi y mayores que Lms
Algunos textos indican que los valores alejados se marcan con * (cotas interiores) y los muy alejados
con  (también llamados cotas exteriores)
4) Dibujar con línea punteada paralela al eje x, los límites para valores alejados y muy alejados.
Si hay valores que caen en esas fronteras marcarlos con * o 
5) Dibujar una línea vertical que va desde cada extremo del rectángulo central hasta el valor más
alejado no atípico. Es decir, el último valor en los datos que no es alejado ni muy alejado.
13
161 161 162 162 165 165 165 165 165 165 166 166
168 168 169 169 169 169 169 169 170 170 170 170
170 170 170 171 171 171 171 171 171 171 171 172
172 172 172 172 172 172 175 175 175 175 176 176
177 177 178 180 180 181 181 185 185 185 189 189
Se va a hacer el análisis de la estatura en centímetros de 60 personas tomadas al azar.
EJEMPLO BOX PLOT
𝑖 =
60+1
2 +1
2
=
61
2 +1
2
= 30,5 +1
2
=30 + 1
2
=15,5 
Q1= X15 + X16 = 169+169 = 169
2 2
Q3= 175+175 = 175
2
Cálculos de Q1 y Q3
Q2= 
𝑥30+ 𝑥31
2
=171+171
2
= 171
𝑖 =
(𝑛 + 1)
2
= 30,5
Cálculos de Q2 o mediana
14
DIAGRAMA TIPO CAJA BOX PLOT
Li = Q1 – 1,5 dQ
169 - 1,5 *6= 160
Ls = Q3 + 1,5 dQ
Q3 + 1,5 * 6 =184
Lmi = Q1 – 3 dQ
Q1 – 3 * 6 = 151
Lms = Q3 + 3 dQ
Q3 + 3 * 6 = 193
Valores Alejados
Valores MUY Alejados
Q3
Q2 o mediana
Q1
Valor Mínimo
Máximo Valor antes de los 
límites o cotas
Valores Alejados
Valores MUY Alejados
Lms
Ls
Li
Lmi
15
3. DIAGRAMA DE TALLO Y HOJA
Un diagrama de tallo y hoja es una forma gráfica de organizar los datos para poder ver características 
de la distribución como: 
• Forma y el grado aproximado de simetría de la distribución
• La dispersión que presentan los datos del conjunto
• La presencia y cantidad de valores atípicos o extremos
• La existencia e concentraciones de datos en determinados puntos de la distribución.
• La existencia de agujeros en el conjunto de datos de la distribución, etc.
16
COMO SE CONSTRUYE UN DIAGRAMA DE TALLO Y HOJA
1. Ordenar el lote de datos
2. El número se dividirá en dos partes, el / los dígitos finales serán las hojas y el/los dígitos iniciales serán los tallos o 
directores. Primero daremos ejemplos y conceptos, y luego utilizaremos las fórmulas sugeridas para ello:
Ejemplo 1. Para explicar la construcción del diagrama de tallo y hojas consideremos el lote de datos siguiente, que
representan el tiempo (en segundos) que 25 trabajos estuvieron en control de la unidad central de proceso(CPU) de
una computadora mainframe grande.
1,1 1,6 1,1 1,3 3,5 1,2 3,7 1,9 0,9 4,7 0,1 2,4
0,7 0,0 1,5 0,1 0,8 0,4 2,1 2,0 0,9 0,7 2,5 3,0
1,4
En este caso tenemos N=25 datos. Por ejemplo el dato 1,9 se dividirá de la siguiente manera
Tallo Hoja
(primer dígito) (lugar decimal)
1 9
17
Se anotan en una columna todos los valores posibles valores para los tallos, ordenados de menor a mayor. Luego se 
indican las hojas en las líneas correspondientes de acuerdo al tallo.
N=25 (unidad para las hojas = 10-1 segundos)
9 0 0 1 1 4 7 7 8 9 9
(8) 1 1 1 2 3 4 5 6 9
8 2 0 1 4 5
4 3 0 5 7
1 4 7
Hojas
Tallos
Profundidades o frecuencias de datos en cada tallo.
La fila o tallo que contiene la mediana va entre paréntesis. Las frecuencias se acumulan hasta llegar a este tallo desde el 
principio y desde el final, hasta donde está la mediana. Esta frecuencia va entre paréntesis y sin acumular.
Σ
Σ
sin 
acumular 
18
N=25
Profundidades (unidad para las hojas = 10-1 segundos)
4 0 * 0 1 1 4
9 0 • 7 7 8 9 9
(5) 1 * 1 1 2 3 4
11 1 • 5 6 9
8 2 * 0 1 4
5 2 • 5
4 3 * 0
3 3 • 5 7
1 4 *
1 4 • 7
Hojas
Tallos
Ramas o 
subdivisiones del 
tallo 4 
Cuando se observan muchas hojas en cada línea existe la posibilidad de dividir las líneas repitiendo los tallos. Se pueden 
considerar dos líneas por tallo, llamadas ramas: en la primera línea , que se indica con un asterisco “ * ”, se colocan las 
hojas 0, 1, 2, 3 y 4, en la segunda, señalada mediante un punto “ • ”, los dígitos 5, 6, 7, 8 y 9. 
Σ
Σ
Frec sin acumular 
entre paréntesis
19
3. Una guía para calcular el número sugerido de tallos con la fórmula de Dixon y Kronmal (1965): 
L = [10 log 10 n]. En donde n es la cantidad de datos
4. Calcular la amplitud del intervalo en cada línea o tallo
h = R / L = (Xmax- Xmin) / L
Al resultado debo aproximarlo a 2, 5 o 10 para saber la cantidad de datos que contendrá cada rama de los tallos.
A ese resultado aproximado , debo poder expresarlo como una potencia de 10,
2 * 10 potencia
5 * 10 potencia
10 * 10 potencia
2, 5, o 10, son las hojas que contendrán las ramas que tendrá cada tallo:
Si es 2 Si es 5
* 0 al 4 * 0 y 1
 5 AL 9 t 2 y 3 (two – Three)
f 4 y 5 (four – Five)
S 6 y 7 (six – seven)
Si es 10 en cada tallo van las 10 opciones del 0 al 9.
De lo anterior resulta que 10 Potencia, es la unidad de las hojas, que servirá al lector para reconstruir o comprender los datos 
del diagrama
20
5. En una columna colocar los tallos ordenados de menor a mayor, luego sus ramas (si las tiene)
6. Trazar una línea a la derecha
7. Colocar las hojas ordenadas, correspondientes a cada tallo 
8. Calcular y poner las frecuencias o profundidades. Marcando el tallo que contiene la mediana entre ( ) y sin 
acumular.
9. Indicar claramente la unidad para las hojas. Por ejemplo: unidad para las hojas = 10-1 segundos
10. Estamos en condiciones de estudiar forma, simetría, datos alejados, etc.
21
18,5 19,9 20,9 22,2 24,7 25,3 26,1 27,2 28,1 32,2
18,6 20,1 21,2 22,5 24,8 25,4 26,2 27,3 28,2 32,3
18,7 20,4 21,2 22,8 24,8 25,5 26,3 27,4 28,8 32,3
18,7 20,4 21,2 23,0 25,2 25,5 26,4 27,4 28,9 32,5
18,9 20,5 21,3 23,2 25,2 25,5 26,5 27,5 29,5 32,6
19,1 20,6 21,7 23,4 25,2 25,6 26,6 27,5 29,9 33,9
19,3 20,6 21,9 24,0 25,2 25,7 26,7 27,6 29,9 34,2
19,5 20,7 22,0 24,2 25,2 25,8 26,8 27,6 30,8 34,5
19,7 20,8 22,1 24,4 25,3 25,8 26,8 27,8 31,4 37,3
19,8 20,8 22,1 24,7 25,3 25,9 26,8 27,9 31,8 38,7
EJEMPLO PARA CONSTRUCCIÓN DEL DIAGRAMA DE TALLO Y HOJAS:
Los datos mostrados en la tabla siguiente son los salarios iniciales para una muestra aleatoria de 100 graduados del 
bachillerato técnico en ciencia de la computación o sistemas de computación, durante el año 1990. Los datos se 
ordenaron para facilitarle su análisis. 
22
Pasos para solución:
1. Ordenar los datos.
2. Calcular el número sugerido de tallos L = [10 log 10 100] = 20. En donde n es la cantidad de datos
3. Calcular la amplitud del intervalo en cada línea o tallo h = R / L = (38,7 – 18,5) / 20 = 1,01 
Al resultado debo aproximarlo a 2, 5 o 10 para saber la cantidad de datos que contendrá cada rama de los tallos.
En este caso, lo aproximo a 2. Esto se puede expresar como 2* 10 0. Entonces la unidad de las hojas es la unidad, pues 
10 0 = 1 , truncamos los decimales. Dibujamos los tallos, con las ramas de 2 datos cada una, y voy ubicando los datos
Frec Acum Frec 1 *
t
f
s
11 11 · 8 8 8 8 8 9 9 9 9 9 9
27 16 2 * 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1
36 9 t 2 2 2 2 2 2 3 3 3
(24) 24 f 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
40 20 s 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7
20 7 · 8 8 8 8 9 9 9
13 3 3 * 0 1 1
10 6 t 2 2 2 2 2 3
4 2 f 4 4
2 1 s 7
1 1 · 8
Unidad para las hojas = 10 0 segundos
23
4. En una columna colocar los tallos ordenados de menor a mayor, luego sus ramas (si las tiene)
5. Trazar una línea a la derecha
6. Colocar las hojas ordenadas, correspondientes a cada tallo 
7. Calcular y poner las frecuencias o profundidades. Marcando el tallo que contiene la mediana entre ( ) y sin acumular.
8. Indicar claramente la unidad para las hojas. Por ejemplo: unidad para las hojas = 10 0 segundos
Supongamos en el mismo ejemplo que decidimos considerar los decimales.
1. Ordenar los datos.
2. Calcular el número sugerido de tallos L = [10 log 10 100] = 20. En donde n es la cantidad de datos
3. Calcular la amplitud del intervalo en cada línea o tallo h = R / L = (38,7 – 18,5) / 20 = 1,01 
Al resultado debo aproximarlo a 2, 5 o 10 para saber la cantidad de datos que contendrá cada rama de los tallos.
En este caso, lo aproximo a 1, que se puede expresar como 10 * 10 -1. Entonces la unidad de las hojas es la posición 
decimal 10 -1 = 0,1. Cada tallo contendrá 10 posibilidades. Dibujamos los tallos, con las ramas de 10 datos cada una, y 
voy ubicando los datos
24
Frec Acum Frec
5 5 18 5 6 7 7 9
11 6 19 1 3 5 7 8 9
21 10 20 1 4 4 5 6 6 7 8 8 9
27 6 21 2 2 2 3 7 9
33 6 22 0 1 1 2 5 8
36 3 23 0 2 4
43 7 24 0 2 4 7 7 8 8
(17) 17 25 2 2 2 2 2 3 3 3 4 5 5 5 6 7 8 8 9
40 10 26 1 2 3 4 5 6 7 8 8 8
30 10 27 2 3 4 4 5 5 6 6 8 9
20 4 28 1 2 8 9
16 3 29 5 9 9
13 1 30 8
12 2 31 4 8
10 5 32 2 3 3 5 6
5 1 33 9
4 2 34 2 5
2 0 35
2 0 36
2 1 37 3
1 1 38 7
Σ
Σ
Frec sin acumular 
entre paréntesis
Unidad de las hojas es 10 -1 
25
Cantidad de hojas posibles por tallo 10
Cantidad de hojas posibles por tallo 5
Cantidad de hojas posibles por tallo 2
Con software Minitab, este trunca los decimales, trabaja con las unidades y decenas. Las unidades quedan como hojas y 
las decenas como tallos. Dibujamos las 3 opciones
26
Podemos observar los diagramas de tallo y hoja girando la cabeza 90° en sentido horario, y decir a simple vista:
La representación dada por 2* 10 0. Es más adecuada pues no presenta huecos, y presenta mejor la forma y 
distribución de los datos. 
La forma es leptocúrtica. Asimetría a la derecha. No se observa una variabilidad muy pronunciada en la distribución.
Los datos se concentran del 24 al 27. 
Se debe complementar con otros estudios (por ej. Box plot para ver posibles valores alejados), a simple vista no 
parece tener.
Frec Acum Frec 1 *
t
f
s
11 11 · 8 8 8 8 8 9 9 9 9 9 9
27 16 2 * 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1
36 9 t 2 2 2 2 2 2 3 3 3
(60) 24 f 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
40 20 s 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7
20 7 · 8 8 8 8 9 9 9
13 3 3 * 0 1 1
10 6 t 2 2 2 2 2 3
4 2 f 4 4
2 1 s 7
1 1 · 8 Unidad para las hojas = 10 0 segundos
27
Cuando los datos tienen dos decimales, los distintos autores tienen diferentes criterios:
Truncar ( por ejemplo: 1,46, lo truncamos como 1,4. Así trabajan los SW de estadística como 
Minitab))
Redondear ( por ejemplo: 1,46, lo redondeamos a 1,5)
Colocar dos dígitos en las hojas (para conservar el número original)
28
Libro Estadística para la Administración de Berenson y Levine : redondea el segundo dígito decimal
29
6433
6435
6464
6470
6506
6526
6527
6583
6605
6614
6694
6700
6713
6745
6770
6770
6790
6798
6850
6870
6873
6890
6900
6904
6927
6936
70057011
7022
7040
7050
7051
7105
7113
7131
7165
7168
7169
7209
7280
Datos originales de trayectos en yardas de canchas de golf, (de las más difíciles de EEUU). Son 40 datos
Minitab trunca el ultimo valor (unidades). Grafica unidades de mil y 
centenas como tallos y las decenas como hojas
Según el libro de Devore, se incluyen los dos últimos dígitos como hojas y las unidades de mil y 
centenas como tallos, para no perder el dato. De la misma forma se haría si el número tuviera dos 
decimales, se dejarían dos decimales como hojas y los dos o más enteros como tallos
Libro Probabilidad y Estadística para Ingeniería y Ciencias de Jay L. Devore, y Minitab
Unidad de las hojas 10 1, es decir decenas. Las 
unidades fueron truncadas
30
Ejemplo: Consideremos los datos de la dureza de 30 incrustaciones de aluminio presentadas en un estudio de control 
de calidad. Supongamos que no queremos perder los dígitos decimales, pues resultan representativos en el estudio.
5,07
5,11
5,24
5,30
5,34
5,35
5,41
5,53
5,57
5,57
5,95
6,35
3,43
6,73
6,91
6,95
7,02
7,05
7,14
7,23
7,30
7,44
7,78
7,85
8,25
8,27
8,43
8,58
8,75
9,54
Frec. Acum Frec
7 7 5 * 07 11 24 30 34 35 41
11 4 5 · 53 57 57 96
13 2 6 * 35 43
(3) 3 6 · 73 91 95
14 6 7 * 02 05 14 23 30 44
8 2 7 · 78 85
6 3 8 * 25 27 43
3 2 8 · 58 75
1 0 9 *
1 1 9 · 54

Continuar navegando

Materiales relacionados

16 pag.
118 pag.
estadística probabilidad 1

SIN SIGLA

User badge image

YENNY CAROLINA RODRIGUEZ LAMPREA

26 pag.
04-EstadisticaI-unidad3

ESTÁCIO

User badge image

yuran gujamo gujamo