Logo Studenta

Introdução à Estatística Descritiva

¡Este material tiene más páginas!

Vista previa del material en texto

Lectura 1: Generalidades y estadística descriptiva
Diego Mejía
Septiembre 24, 2014
1. Definición de Estadística
Estadística es la ciencia del aprendizaje a partir de los datos. Usa la teoría de probabilidad
para hacer inferencias acerca de poblaciones o procesos usando datos.
Una definición más estándar: la estadística se refiere al estudio de la colección, organiza-
ción, análisis, interpretación y presentación de datos o información. Tiene que ver con todos
los aspectos de los datos, incluyendo la planeación de la recolección de ellos en términos de
encuestas y experimentos.
2. Aplicaciones de la estadística
La estadística es actualmente aplicada en todas las areas del conocimiento. Desde la
biología (bioestadística), política, e historia; hasta la ingeniería, la economía (econometría),
las matemáticas, y las finanzas, entre otras.
Pero, qué motiva a que tengamos que usar la estadística?
En todas las areas mencionadas siempre existirán factores que son desconocidos. Por
ejemplo, un corredor de bolsa se preocupa por el comportamiento del precio de las acciones
en el futuro. Un ingeniero eléctrico necesita estimar la probabilidad de que una unidad de
generación pueda fallar y desabastecer la demanda, un biólogo necesita diferenciar caracte-
1
risticas entre diferentes especies. El departamento de tránsito de la ciudad desea conocer el
flujo vehicular medio durante diferentes periodos de un día. Un economista se preocupa por
entender como el producto interno bruto puede llegar a afectar la demanda de un bien en
particular, etc. O cómo creen ustedes que una aseguradora calcula el valor de las pólizas?
En general, la estadística hace parte de un proceso de toma de decisiones ante incerti-
dummbre y variación de datos. Por ejemplo, para un exportador (o importador) resulta muy
útil realizar análisis de la tasa representativa del mercado (TRM) para tomar decisiones de
compra o venta de mercancia. A partir de datos historicos, el exportador (o importador)
puede analizar la tendencia de la TRM y hacer inferencias acerca de su comportamiento
futuro. Si la TRM resulta en valores altos (bajos), puede resultar más interesante importar
(exportar). Este es sólo un ejemplo del uso de la estadistica en toma de decisiones.
Otra de las aplicaciones fundamentales de la estadística en ingeniería es la confiabilidad
de sistemas. Cuando un circuito, o una subestación, un sistema de potencia opera, éstos están
compuestos de múltiples componentes que están sujetos a deterioro y falla. Por lo tanto, para
que el circuito, o subestación, o sistema de potencia opere adecuadamente, se requiere que
“casi todos” sus componentes no fallen. De hecho, para análisis de confiabilidad se asigna (o se
calcula) a cada componente una probabilidad de falla, que en últimas afectará la probabilidad
de que el circuito, subestación, o sistema de potencia opere satisfactoriamente.
Qué otras variables inciertas son interesantes para múltiples sectores? Por ejemplo, el
precio del petróleo. A partir de este se definen precios en el transporte público, precio de
combustibles, precios de alimentos, inflación (probablemente).
Qué otros ejemplos se pueden ilustrar en la ingenieria eléctrica?
En conclusión, todos nos preocupamos por entender y analizar las incertidumbres de
muchas situaciones para minimizar el nivel de riesgo1 a una situación desafortunada. La
mayoría de las personas somos adversas al riesgo, y esto implica que queremos tomar de-
cisiones que impliquen resultados tendiendo a ser seguros que resultados muy aleatorios. Y
1Riesgo se puede entender como la exposición al peligro
2
obviamente estas decisiones entre más seguras, o conservadoras, causan en muchos casos
mayores costos.
Considere un ejemplo muy sencillo. Usted sabe que en promedio toma 30 minutos en bus
para llegar a la U; hoy tiene un examen a las 8:00 am, y son las 7:30 am y está saliendo de su
casa. Una decisión “arriesgada” es tomar el bus sabiendo que puede llegar tarde; sin embargo,
para minimizar el riesgo de llegar tarde, decide tomar un taxi. Esta decisión, aunque con
mucho menor chance de llegar tarde si es más costosa. Por lo tanto, tomar bus o taxi depende
de la actitud individual hacia el riesgo.
3. Poblacion, muestra, variable
Para ilustrar estos conceptos, recrearemos un experimento sencillo.
Suponga que se desea hacer un estudio de movilidad en Medellín y determinar cuáles son
las medidas más apropiadas para mejorarla en caso de ser necesario.
Población: constituyen todos los elementos de interés de un estudio en particular. En
nuestro ejemplo de movilidad, la población estaría constituida por cada una de las
personas que conmutan entre sus casas y el trabajo por diferentes medios. En general,
hacer el estudio considerando toda la poblacion es inadecuado (tiempo, costos).
Muestra: es un subconjunto de la población. En el contexto mencionado, es necesario
seleccionar adecuadamente a las personas que se les observará el tiempo de desplaza-
miento. Es probable que la mejor estrategia sea clasificar la muestra de acuerdo al modo
de desplazamiento (bus, taxi, metro, moto, bicicleta, otro). Es importante definir el ta-
maño de la muestra de manera que las conclusiones hechas puedan ser generalizadas
para toda la población.
Variable: es una caracteristica de interes cuyo valor puede ser numerico o categorico.
Debe ser medible para cada uno de los elementos de la muestra. En el ejemplo, la
3
variable a considerar es “tiempo de desplazamiento” y su valor es mumérico dado en
minutos.
Otro ejemplo de población sería todos los circuitos integrados fabricados por una com-
pañía. La muestra puede ser la producción de un día en particular, o puede ser un conjunto
de 20 de ellos seleccionados aleatoriamente. Y la variable bajo interés puede ser la ganancia
del circuito.
4. Clasificación de la estadística
4.1. Estadística descriptiva
Esta área de la estadística es útil para resumir y describir caracteristicas importantes de
los datos que el investigador ha obtenido a traves de un experimento. Las herramientas de
la estadística descriptiva pueden ser de naturaleza gráfica como los histogramas, diagramas
de caja, graficos de tallos y hojas; y los de naturaleza analítica como la media, desviación
estándar, percentiles, entre otros. Estos tópicos serán el objetivo de las primeras dos semanas
de clase.
4.2. Estadística inferencial
A partir de los datos obtenidos de una muestra, es importante hacer conclusiones referen-
tes a la poblacion, es decir, hacer inferencias acerca de la poblacion. Algunas de las técnicas
son basadas en estimación (puntual y con intervalos de confianza), y pruebas de hipótesis.
(Este tipo de herramientas de estadística inferencial seran estudiadas a partir de la segunda
mitad del curso.)
Por ejemplo, a partir de las pruebas de corto circuito realizadas a un lote de transforma-
dores (de características eléctricas similares) producidos por una compañía, se tuvo con un
“alto nivel de confianza” que la media de la impedancia de dispersión del transformador esta
4
entre 5.1% y 7.5%. Este tipo de estimación es obtenido usando datos del lote de transfor-
madores para obtener inferencias acerca de todos los transformadores producidos en dicha
compañía.
Mientras que la estadística inferencial parte de una muestra para obtener conclusiones
acerca de una población, la teoría de probabilidad parte del hecho de que las propiedades de
una población son conocidas para analizar ciertos aspectos de una muestra. En realidad, la
estadística inferencial y la probabilidad actuan como procesos inversos.
Ejemplo. De una población se conoce que la probabilidad de que un generador falle es
0.05 (5%), entonces en probabilidad puede preguntarse: entre 100 generadores, cuál es la
probabilidad de que fallen más de 5? Estos son eventos independientes, osea Bernoulli y
necesitamos el numero de exitos (o fracasos en este caso). Por tanto, X que es el número de
gerenadoresfallados satisface la distribución binomial. También podríamos preguntar por el
número esperado de generadores que pueden fallar.
Mientras que en estadística inferencial, podemos tener una muestra de 10focos de una
marca Z, y se ha observado que la duración media de dicha muestra es de 200 horas. Se puede
preguntar entonces por un rango para la duración media de todos los focos de la marca Z
con su respectivo nivel de confianza.
4.3. Recolección de datos
Además de la organización y análisis de los datos, la estadística también se preocupa por
su recolección. Estos deber ser recogidos de la manera adecuada para que los análisis esta-
dísticos posteriores sean válidos y tengan un alto nivel de confianza. Uno de los métodos más
usados para recolectar datos representativos de una poblacién es hacer muestreo aleaotorio
simple. En este método cada uno de los individuos es seleccionado con igual oportunidad.
En ocasiones es importante diferenciar los individuos de una población, en este caso se usa
el muestreo estratificado. Por ejemplo, para una compañía electrificadora es importante ana-
lizar el comportamiento de la demanda de energía (o potencia) eléctrica en el corto plazo.
5
Sin embargo, los usuarios de electricidad pueden ser residenciales, comerciales, e industria-
les. Asi que puede ser más útil para la empresa realizar un muestreo estratificado donde los
tipos de usuarios (residenciales, comerciales, e industriales) representan los diferentes estra-
tos. La teoría de muestreo no hara parte de los objetivos del presente curso introductorio de
estadística.
5. Representación gráfica de datos de una muestra
Una vez los datos han sido recolectados a través de cualquier método, se procede a
realizar procedimientos de análisis con éstos. Una de la forma más útil de condensar grandes
cantidades de datos es a través de representaciones gráficas que proveen una idea inicial
acerca de la forma en la cual los datos se distribuyen.
5.1. Gráficos de tallos y hojas (stem and leaf plots)
Sea el conjunto de datos numéricos x1, x2, . . . , xn. Esta es una guía para construir la
grafica de tallo y hojas:
1. Seleccione uno o mas de los primeros dígitos para los valores de tallo. Los segundos
dígitos se convierten en hojas.
2. Enumere los posibles valores de tallos en una columna vertical.
3. Anote la hoja para cada observación junto al correspondiente valor de tallo.
4. Indique las unidades para tallos y hojas en algún lugar de la gráfica.
Si los datos corresponden a un porcentage, que van del 0 al 100%, los tallos pueden
conformarse por los dígitos del 0 al 10, y las hojas corresponden al segundo dígito. Por
ejemplo, el dato con valor de 35% tiene un tallo de 3 y una hoja de 5. Esta es una forma
común de representar el tallo y la hoja, pero puede no ser la única manera de hacerlo. La
6
Cuadro 1: Gráfico de tallos y hojas del ejemplo 1
El punto decimal está en el |
0 | 69
1 | 01122334556778
2 | 12233355
3 | 55
gráfica es en cierta manera una aproximación a un histograma o distribución de los datos. Sin
embargo, provee información útil como la ubicación exacta de cada dato en la distribución.
Ejemplo 1. Realice una gráfica de tallos y hojas para los resultados del primer parcial de
los estudiantes de estadística del semestre 2014-1. Los resultados de cada examen son: 1.2
1.5 2.5 2.2 3.5 2.3 2.5 1.1 2.2 1.7 1.3 1.3 1.4 2.3 2.1 0.6 1.5 1.7 0.9 1.0 1.2 2.3 1.1 3.5 1.8 1.6.
R/ Se sugiere primero ordenar los datos. Por lo tanto tendríamos lo siguiente: 0.6 0.9 1.0
1.1 1.1 1.2 1.2 1.3 1.3 1.4 1.5 1.5 1.6 1.7 1.7 1.8 2.1 2.2 2.2 2.3 2.3 2.3 2.5 2.5 3.5 3.5.
Luego podemos definir los “tallos” como el primer dígito de la nota y la “hoja” como el
decimal que acompaña cada calificación. La tabla 1 muestra la gráfica deseada.
El gráfico de tallos y hojas muestra que las notas entre 1 y 2 son las que más se repiten;
sin embargo, hay cierta variabilidad en los datos ya que estudiantes en un entre 0.6 y 3.5.
Este tipo de gráfica da una idea de cómo están distribuidos los datos y presenta de una
manera simple el comportamiento de éstos.
Código en R
En R es posible hacer la gráfica de hojas y tallos usando la función stem. Para ampliar
la información acerca de la función, digite help(stem).
> x <- c(1.2,1.5,2.5,2.2,3.5,2.3,2.5,1.1,2.2,1.7,1.3,1.3,1.4,2.3,
2.1,.6,1.5,1.7,.9,1,1.2,2.3,1.1,3.5,1.8,1.6) ;
7
> stem(x)
The decimal point is at the |
0 | 69
1 | 01122334
1 | 556778
2 | 122333
2 | 55
3 |
3 | 55
Observe que la estrategia que emplea R es algo diferente a la que planteamos inicialmente.
R genera diferentes clases en las que por ejemplo se subdivide el intervalo [1, 2] en [1, 1,4] y
[1,5, 1,9]. Sin embargo, esta subdivisión es arbitraria y puede controlarse con las opciones de
la función stem.
Ejemplo 2. Los datos a continuación representan la demanda horaria de electricidad (en
MW) para un día: 100, 100, 100, 110, 115, 120, 130, 140, 160, 170, 180, 220, 190, 170, 160,
150, 220, 270, 300, 280, 190, 135, 120, 105.
R/ Los datos van entre el 100 y el 300. Usar tallos entre el 1 y el 3 representaria muy
pocas clases. Por lo tanto, podemos usar tallos que vayan del 1–1.5, 1.5–2, 2–2.5, 2.5–3.
Las hojas estarían definidas por los dos últimos dígitos de cada dato. La tabla 2 muestra la
gráfica final. Esta indica que los valores más representativos de la demanda están entre 100
y 150, y que las demandas cercanas a 300 son mucho menos comunes. Además, se observa
que los datos están “sesgados” hacia la derecha.
> x <- c(100, 100, 100, 110, 115, 120, 130, 140, 160, 170, 180, 220,
190, 170, 160, 150, 220, 270, 300, 280, 190, 135, 120, 105) ;
> stem(x)
The decimal point is 2 digit(s) to the right of the |
8
Cuadro 2: Grafico de tallos y hojas del ejemplo 2
El punto decimal está 2 dígitos a la derecha del |
1 | 00 00 00 05 10 15 20 20 30 35 40
1 | 50 60 60 70 70 80 90 90
2 | 20 20
2 | 70 80
3 | 00
1 | 00011222344
1 | 56677899
2 | 22
2 | 78
3 | 0
Observe que R automáticamente elimina el tercer dígito y opera solo con dos por facilidad.
Sin embargo, se aclara que el punto decimal está 2 dígitos a la derecha de | para evitar
que haya confusión con la gráfica. Observe que la forma de la distribución (la envolvente)
permanece inalterada.
5.2. Gráficas de puntos
Este tipo de gráficos resume los datos numéricos de manera similar al gráfico de tallos
y hojas en el sentido que provee información acerca de la distribución empírica de los datos
(localización, dispersión, rango de los datos). Es útil cuando el numero de datos n es relati-
vamente pequeño. Para cada dato se grafica un punto sobre un eje horizontal que define el
rango de los datos. Para más información, referirse al libro de Devore [1].
9
pico 1 pico 2 
Figura 1: Histograma bimodal
Simétrico Simétrico negativo Simétrico positivo 
Figura 2: Tipos de histogramas
5.3. Histogramas
Un histograma pretende ilustrar de manera gráfica la dispersión y la ubicación de datos
de origen aleatorio. Un histograma es una distribución de frecuencia y puede representar
la distribución empírica de los datos. Claro que también se puede hacer un histograma de
frecuencias relativas o histograma de densidades. Ninguno de estos cambia el patrón de la
distribución, sólo la escala del eje vertical. A partir de este se pueden responder preguntas
acerca del porcentaje de observaciones en un rango especificado.
5.3.1. Formas de histograma
Los datos no necesariamente presentan la forma de “campana” que estamos acostumbra-
dos a ver. Así, es importante entender las diferentes formas que pueden tener los histogramas:
Unimodal es el que tiene un único máximo. Bimodal es aquel que tiene dos picos, y
multimodal cuando tiene más de dos picos o máximos. Ver Fig. 1. Obviamente, el
10
número de estos máximos depende del número de clases. Es probable que a mayor
número de clases se puedan obtener histogramas bimodales o multimodales.
Simétrico es aquel cuya mitad izquierda es una imagen de espejode la mitad derecha. En
probabilidad estudiaremos de manera más detallada las propiedades de una distribución
simétrica. Por el momento no tenemos los elementos suficientes para mencionarlas. Un
histograma con simetría positiva es aquel cuya cola derecha (o superior) se alarga en
comparación con la cola izquierda (o inferior). Un histograma con simetría negativa es
aquel donde el alargue se da hacia la izquierda. Ver Fig. 2.
5.3.2. Construcción de un histograma
Para construir un histograma es importante definir el número de clases o intervalos y
el ancho de cada uno. Aunque no existe un modelo único para determinarlos, usaremos el
método expuesto en [1].
Suponga entonces que se tiene un conjunto de n datos x1, x2, . . . , xn. El objetivo es
representarlos a través de un histograma. Para esto, definimos los siguientes parámetros:
Número de clases: Primero que todo, una clase es una etiqueta asignada a un rango de
valores que nos permite alojar un subconjunto de los datos. El número de clases suele
ser un número entre 5 y 20. Un número muy pequeño de clases cuando se tienen muchos
datos podría resultar en un histograma que no refleja correctamente la dispersión de los
datos. Por el contrario, usar muchas clases cuando se tienen pocos datos podría resultar
en histogramas con varios “máximos” ya que pueden resultar clases con frecuencia muy
baja. En general, el número de clases debe ser mayor a medida que el número de datos
es mayor. En general, podemos adoptar que
número de clases ≈
√
n
siendo n el número de observaciones (o datos). El número de clases debe aproximarse
11
a un entero.
Ancho de clase: El ancho de clase w debe garantizar que los n datos caigan entre las clases
definidas. Se puede calcular como
w ≈
x[n] − x[1]
número de clases
donde x[1] y x[n] representan el mínimo y máximo de los datos respectivamente.
Una vez se han definido el número y ancho de clases, es necesario crear las clases o
intervalos. Se debe garantizar que el menor de los datos x[1] quede contenido en la primera
clase y que el mayor de los datos x[n] quede contenido en la última clase. Si l0, l1, l2, . . . son
los limites de clase, se puede asumir que la clase i corresponde a los datos contenidos en
el intervalo (li−1, li]. Observe que el intervalo es abierto por la izquierda y cerrado por la
derecha, y que li − li−1 es el ancho de clase.
Los histogramas se pueden mostrar en terminos de frecuencias f , frecuencias relativas fr,
o densidades d.
Frecuencia de clase fi: Para obtener la frecuencia de cada clase fi, se debe realizar el
conteo de los datos contenidos en el intervalo correspondiente. Es decir,
fi = # de datos en el intervalo (li−1, li]
Observen que la suma de las frecuencias de cada una de las clases debe ser igual al
numero de datos n, i.e.,
∑
i fi = n.
Frecuencia relativa de clase f ri : La frecuencia relativa de cada clase se refiere a la
porcion de cada frecuencia con respecto al total de datos. Por tanto,
f ri =
fi
n
12
La suma de las frecuencias relativas debe ser igual a 1, i.e.,
∑
i f
r
i = 1.
Densidad de clase di: La densidad de cada clase se define como el cociente entre la
frecuencia relativa y el ancho de cada clase.
di =
f ri
w
Un histograma con densidades representa una distribucion de probabilidad empírica de
la variable en cuestión (más adelante entraremos a estudiar qué es una distribución de
probabilidad). Este tipo de histogramas es construido de manera que el area encerrada
por éste sea igual a 1, i.e.
∑
i diw = 1
Ejemplo 3. (Tomado de [1]). Las compañías generadoras de electricidad requieren infor-
mación sobre el consumo de los clientes para obtener pronósticos precisos de demandas. A
continuación se tienen valores de consumo organizados de menor a mayor (por facilidad):
2,97 4,00 5,20 5,56 5,94 5,98 6,35 6,62 6,72 6,78
6,80 6,85 6,94 7,15 7,16 7,23 7,29 7,62 7,62 7,69
7,73 7,87 7,93 8,00 8,26 8,29 8,37 8,47 8,54 8,58
8,61 8,67 8,69 8,81 9,07 9,27 9,37 9,43 9,52 9,58
9,60 9,76 9,82 9,83 9,83 9,84 9,96 10,04 10,21 10,28
10,28 10,30 10,35 10,36 10,40 10,49 10,50 10,64 10,95 11,09
11,12 11,21 11,29 11,43 11,62 11,70 11,70 12,16 12,19 12,28
12,31 12,62 12,69 12,71 12,91 12,92 13,11 13,38 13,42 13,43
13,47 13,60 13,96 14,24 14,35 15,12 15,24 16,06 16,90 18,26
Dado que se tienen 90 datos, podemos determinar aproximadamente el numero de clases
como
√
90 = 9,487 ≈ 9. Los datos estan ordenados, asi que x[1] = 2,97 and x[90] = 18,26.
13
Entonces, el ancho de clase w se calcula como
w =
18,26− 2,97
9
= 1,699 ≈ 2
Ya podemos crear los intervalos de clase. Escogemos l0 como un número menor a 2.97.
Para ser consistentes con el ejemplo de [1], hacemos l0 = 1. Luego, l1 = 1+2 = 3, l2 = 3+2 = 5
y así sucesivamente.
La frecuencia correspondiente a la primera clase f1 = 1, que corresponde al numero de
datos entre 1 y 3. Observe que la frecuencia relativa de la clase 1 es f r1 = f1/n = 1/90 = ,0111
y que la densidad de la clase 1 d1 = f r1/w = ,0111/2 = ,0056.
La tabla 3 muestra los frecuencias, frecuencias relativas, y densidades para los datos de
consumos de electricidad.
Clase i Intervalo fi f ri di
1 (1, 3] 1 0.0111 0.0056
2 (3, 5] 1 0.0111 0.0056
3 (5, 7] 11 0.1222 0.0611
4 (7, 9] 21 0.2333 0.1167
5 (9, 11] 25 0.2778 0.1389
6 (11, 13] 17 0.1889 0.0944
7 (13, 15] 9 0.1000 0.0500
8 (15, 17] 4 0.0444 0.0222
9 (17, 19] 1 0.0111 0.0056
Cuadro 3: Tabla de frecuencias y densidades para el ejemplo
El histograma de frecuencias obtenido usando R es el mostrado en la Fig. 3a. R grafica
frecuencias en el eje vertical. El código usado para obtener el histograma se muestra a
continuación:
DATA <- read.table("Consumos.dat",header = TRUE)
Consumo <- DATA$ConsumoAjustado ;
hist(Consumo,breaks = c(1,3,5,7,9,11,13,15,17,19))
La función read.table permite leer datos a partir de archivos de texto. El archivo Consumos.dat
14
contiene los datos del ejemplo 1.10 de la referencia [1]. Finalmente, la función hist grafica
el histograma. En el ejemplo mostrado, se introdujeron los limites de cada clase usando el
argumento breaks. Si éste no se especifica, R determina automaticamente el ancho de cada
clase. Para mayor información acerca de los histogramas en R, digite help(hist). Para ob-
tener el histograma de densidades (con area total igual a 1), se debe especificar el argumento
frec a FALSE ya que por defecto es TRUE:
hist(Consumo,breaks = c(1,3,5,7,9,11,13,15,17,19),freq = FALSE)
El histograma resultante se muestra en la Fig. 3b.
Histogram of Consumo
Consumo
F
re
qu
en
cy
5 10 15
0
5
10
15
20
25
(a) Frecuencia
Histogram of Consumo
Consumo
D
en
si
ty
5 10 15
0.
00
0.
04
0.
08
0.
12
(b) Densidad
Figura 3: Histograma de los datos de consumo de energia
A partir del histograma (frecuencias o densidades), que se puede decir de la (a)simetria?.
Cuál es la proporción de datos:
(a) entre 3 y 11?
(b) entre 7.172 y 12.908?
Ejemplo. Use R para generar 90 números aleatorios usando el siguiente comando: rnorm(36,mean(Consumo),sd(Consumo)).
15
Luego realice un histograma de frecuencias relativas y de densidades usando las mismas
clases del ejemplo anterior. Finalmente, cuál es la proporción de datos:
(a) entre 3 y 11?
(b) entre 7.172 y 12.908?
Referencias
[1] Jay L. Devore. Probabilidad y estadistica para ingenieria y ciencias, Octava edicion.
Cengage Learning, Julio 2011.
16

Otros materiales