Logo Studenta

ANALISIS EXPLORATORIO DE DATOS

¡Estudia con miles de materiales!

Vista previa del material en texto

PROBABILIDADES Y ESTADISTICA – 12 y 13 DE ABRIL DE 2016 
ANALISIS EXPLORATORIO DE DATOS_ APUNTE DE CLASE 
 
1.- Introducción: 
En Análisis Exploratorio de Datos (“Exploratory Data Analysis”) se ha ido definiendo como un conjunto de técnicas destinadas a 
procesar lotes de datos, con las finalidades principales de detectar estructuras, sugerir hipótesis y facilitar un posterior “Análisis 
Confirmatorio” que se encargará de evaluar sistemáticamente las estructuras o efectos observados. Cabe aclarar que el término lote 
(“batch”) se usa en un sentido técnico como un conjunto de números, sin aclarar si estos constituyen una población o una muestra. 
Las técnicas del Análisis Exploratorio de Datos (AED) son modernas, en el sentido que han sido sugeridas o reconsideradas a la luz 
de la actitud actual sobre el uso de computadoras. Sin embargo, también es cierto que muchas de las técnicas están destinadas al 
generador o analista de sus propios datos, para que las use (con o sin computadora) si en concurso permanente de un estadístico 
profesional. 
Son especialmente útiles cuando se trabaja con grandes conjuntos de datos. 
Las tres técnicas básicas del AED son : 
- Diagrama de Tallo y Hojas (“stem-and-leaf”). 
- Resúmenes Numéricos (“letter values”) 
- Diagramas Tipo Caja (“Box-plot”) 
Para hablar sobre estas técnicas necesitamos definir algunos conceptos nuevos y otros que ya estudiamos: 
 lote ordenado (x(1)  x(2)  ...  x(n),), mediana ( x~ ) y cuartiles (q1 y q3). 
1ª TECNICA DEL AED: DIAGRAMA DE TALLO Y HOJAS 
Un lote de datos se puede organizar gráficamente mediante un diagrama de tallos y hojas. Este sencillo diagrama, que puede 
construirse manualmente, facilita la observación del lote completo; además a partir de él se puede ver, entre otras cosas: el recorrido de 
los valores de los datos, la simetría del lote, la presencia de valores distantes, donde se concentran los datos, etc. 
Ejemplo 1. Para explicar la construcción del diagrama de tallo y hojas consideremos el lote de datos siguiente, que representan el 
tiempo (en segundos) que 25 trabajos estuvieron en control de la unidad central de proceso (CPU) de una computadora mainframe 
grande. 
1,17 1,61 1,16 1,38 3,53 1,23 3,76 1,94 0,96 4,75 0,15 2,41 0,71 
0,02 1,59 0,19 0,82 0,47 2,16 2,01 0,92 0,75 2,59 3,07 1,40 
En este caso tenemos N=25 datos; lo primero que haremos es truncar los números. Así por ejemplo los números 1,16 y 1,17 serán 
truncados y aparecerán en el diagrama como 1,1. (en seguida explicaremos por qué truncamos así los datos). Es decir los datos 
aparecerán en el diagrama de la siguiente forma: 
1,1 1,6 1,1 1,3 3,5 1,2 3,7 1,9 0,9 4,7 0,1 2,4 0,7 
0,0 1,5 0,1 0,8 0,4 2,1 2,0 0,9 0,7 2,5 3,0 1,4 
Generalmente se prefiere truncar los números en vez de redondearlos pues de este modo resulta más fácil recuperar el valor original 
del dato. En el caso anterior para obtener los valores originales de los datos debemos simplemente localizar en el conjunto de datos los 
números cuyos primeros dos dígitos sean 1,1. 
Una vez truncados los números, dividimos cada observación del conjunto de datos en dos partes, el tallo y la hoja. En este caso el 
primer dígito del tiempo de CPU (el dígito a la izquierda del punto decimal) se toma como tallo y el primer dígito después de la coma 
decimal como hoja. 
Por ejemplo el dato 1,94 se dividirá de la siguiente manera 
tallo hoja Dígitos ignorados 
1 9 4 
Se anotan en una columna todos los valores posibles para los tallos, ordenados de menor a mayor. Luego se indican las hojas en las 
líneas correspondientes de acuerdo al tallo. 
 Diagrama de tallo y hojas 
0 9 1 7 0 1 8 4 9 7 
1 1 6 1 3 2 9 5 4 
2 4 1 0 5 
3 5 7 0 
4 7 
El máximo número de líneas (tallos) para construir el diagrama de tallo y hojas se elige mediante una regla sugerida por Dixon y 
Kronmal (1965): L = [10 log 10 N]. 
Considerando este valor de L y siendo R el rango del lote de datos, se determina la amplitud del intervalo que corresponde a cada 
línea, efectuando el cociente R/L y redondeándolo a la potencia de 10 más próxima. En el ejemplo: 
L = [10 log 25] = [13,979] = 13 R = 4,75 – 0,02 = 4,73 
 R/L = 0,3638  1 = 10 ∙  
 Ancho del intervalo unidad para las hojas 
10-1 
Nota: Como la unidad para las hojas es 10-1 =0,1 entonces los dígitos ignorados serán todos los que estén a la derecha de las décimas, 
por ello truncamos los números hasta las décimas. 
Completamos entonces el diagrama ordenando las hojas de menor a mayor, indicando la unidad empleada para las hojas e incluyendo 
una columna de profundidades a la izquierda de los tallos. Las profundidades expresan el número de hojas que hay desde el extremo 
más próximo del lote hasta esa línea, excepto en la línea que contiene la mediana donde se indican entre paréntesis la cantidad de 
hojas que hay en ella. Esta distinción no se realiza en los casos en que el número de datos es par y la mediana se encuentra entre dos 
líneas. 
N=25 
 Profundidades (unidad para las hojas = 10-1 segundos) 
 9 0 0 1 1 4 7 7 8 9 9 
(7) 1 1 1 2 3 4 5 6 
 8 2 0 1 4 5 
 4 3 0 5 7 
 1 4 7 
 Diagrama 1 
Cuando se observan muchas hojas en cada línea existe la posibilidad de dividir las líneas repitiendo los tallos. Se pueden considerar 
dos líneas por tallo: en la primera línea, que se indica con un asterisco “  ”, se colocan las hojas 0, 1, 2, 3 y 4, en la segunda, señalada 
mediante un punto “  ”, los dígitos 5, 6, 7, 8 y 9. En este caso el ancho del intervalo es 5 veces una potencia de 10. 
 
 En el ejemplo R/L = 0,3638  0,5 = 5  
 Ancho del intervalo unidad para las hojas 
El diagrama de tallo y hojas sería en este caso: 
N=25 
 Profundidades (unidad para las hojas = 10-1 segundos) 
 4 0  0 1 1 4 
 9 0  7 7 8 9 9 
(5) 1  1 1 2 3 4 
 11 1  5 6 9 
 8 2  0 1 4 
 5 2  5 
 4 3  0 
 3 3  5 7 
 1 4  
 1 4  7 
 Diagrama 2 
Otra opción es considerar 5 líneas por tallo. 
0  
 t 
 f 
 s 
  
En la línea con “” se ubican las hojas 0 y 1, en la línea “t” las hojas 2 y 3 (two, three), 4 y 5 en la hoja “f” (four , five), 6 y 7 en la “s” 
(six, seven) y 8 y 9 en la línea que lleva el punto “”. 
Aquí el ancho del intervalo es 2 veces una potencia de 10. 
Ejemplo 2: En el ejemplo 3 (Medidas de tendencia central) de “tiempos de vida de 50 moscas sujetas a un experimento controlado de 
laboratorio”, teníamos N = 50 datos. El tiempo mediano de vida es x~ =10,5 
El máximo número de líneas (tallos) para construir el diagrama de tallo y hojas será L = [10 log 10 50] = [16,989700] = 16 
Rango R = 32 – 3 = 29 
Amplitud del intervalo sugerida R/L = 1, 8125 ≈ 10 (ancho del intervalo) 
La hemos redondeado a la potencia de 10 (mayor) más próxima, o sea 10. A esta la expresamos como 10 por una potencia de 10, 
R/L = 1, 8125 ≈ 10 ≈ 10 ∙100 (100 será la unidad para las hojas o sea que no habrá dígitos ignorados). 
 
 
 
 
 
12 4 5 18 6 7 15 6 13 7 32 7 9 8 8 7 14 9 24 10 16 19 10 13 10 
11 12 3 13 10 13 7 13 14 9 7 15 16 10 17 18 6 18 19 10 20 23 9 27 7 
10
-1 
0 4 5 6 7 6 7 7 9 8 8 7 9 3 7 9 7 6 9 7 
1 2 8 5 3 4 0 6 9 0 3 0 1 2 3 0 3 3 4 5 6 0 7 8 8 9 0 
2 4 0 3 7 
3 2 
Se ordenan las hojas de cada tallo y se agrega una columna con las profundidades 
ProfundidadesTallo y hojas 
 19 0 3 4 5 6 6 6 7 7 7 7 7 7 7 8 8 9 9 9 9 
 (26) 1 0 0 0 0 0 0 1 2 2 3 3 3 3 3 4 4 5 5 6 6 7 8 8 8 9 9 
 5 2 0 3 4 7 
 1 3 2 
Se observan muchas hojas por tallo por ello se dividen las hojas, repitiendo los tallos. Tomamos intervalos de amplitud 5. 
Profundidades Tallo y hojas 
 2 0  3 4 
 19 0  5 6 6 6 7 7 7 7 7 7 7 8 8 9 9 9 9 
 (16) 1  0 0 0 0 0 0 1 2 2 3 3 3 3 3 4 4 
 15 1  5 5 6 6 7 8 8 8 9 9 
 5 2  0 3 4 
 2 2  7 
 1 3  2 
 
Tamaño del lote N = 50 
En este caso 
Amplitud del intervalo R/L = 1, 8125 ≈ 5 (ancho del intervalo) 
La hemos redondeado a 5 por la potencia de 10 (mayor) más próxima, o sea 5. A esta la expresamos como 5 por una potencia de 10, 
R/L = 1, 8125 ≈ 5 ≈ 5 ∙100 (100 será la unidad para las hojas). 
Ejemplo 3. El siguiente diagrama de tallo y hojas producido por SPSS corresponde a un lote de datos de salarios iniciales de N=1100 
licenciados o ingenieros egresados de distintas facultades de una universidad de EEUU (Ing. Industrial, Arquitectura, Bellas Artes, 
Agronomía, Ing. Caminos, Ing. Bosques y Pedagogía) entre otoño de 1989 y primavera de 1991. 
 
Salario inicial Stem-and-Leaf Plot 
 
 Frequency Stem & Leaf 
 
 1,00 0 . & 
 9,00 0 . 889 
 9,00 1 . 001 
 22,00 1 . 2222333 
 20,00 1 . 4555555 
 39,00 1 . 6666777777777 
 57,00 1 . 8888888888999999999 
 139,00 2 . 00000000000000000000000000000011111111111111111 
 118,00 2 . 2222222222222222223333333333333333333333 
 126,00 2 . 444444444444444444555555555555555555555555 
 132,00 2 . 66666666666666666666666677777777777777777777 
 98,00 2 . 88888888888888888889999999999999 
 113,00 3 . 0000000000000000000000011111111111111 
 94,00 3 . 2222222222222222233333333333333 
 55,00 3 . 444444444555555555 
 21,00 3 . 6666677 
 15,00 3 . 88889 
 11,00 4 . 0001 
 6,00 4 . 23 
 2,00 4 . 4 
 13,00 Extremes (>=45000) 
 Stem width: 10000 
 Each leaf: 3 case(s) 
 & denotes fractional leaves. 
Diagrama 3 
Análisis: 
Rango R = 65500 – 7200 = 58300 Máximo número de tallos = [10 log 1100] = [30,414] = 30 
Amplitud del intervalo = R/L = 1943,33  2000 = 2  103 
 Ancho del intervalo unidad para las hojas 
Conclusión: Una vez calculado R/L se aproxima al valor más próximo que sea igual a 2  una potencia de 10, 5  una potencia de 10 
ó 10  una potencia de 10, lo que da lugar a los diagramas 1, 2 y 3 respectivamente. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Ejemplo: tiempo de vida de moscas 
 
 
 
 
 
Ejemplo: 
 
 
 
 
 
 
Gráfico realizado con el SPSS 
BIBLIOGRAFIA: 
 Trabajo realizado por Adriana I. Pérez bajo la dirección del Dr. Raul Pedro Mentz para ser usado como “caso” de estadística 
aplicada a problemas de empresas. Instituto de Investigaciones Estadísticas – Facultad de Ciencias Económicas- Universidad 
Nacional de Tucumán. 
 “Estadística Básica en Administración. Conceptos y Aplicaciones” Berenson y Levine. Prentice-Hall. Cuarta Edición 1992.

Otros materiales