Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Lectura 1: Generalidades y estadística descriptiva Diego Mejía Septiembre 24, 2014 1. Definición de Estadística Estadística es la ciencia del aprendizaje a partir de los datos. Usa la teoría de probabilidad para hacer inferencias acerca de poblaciones o procesos usando datos. Una definición más estándar: la estadística se refiere al estudio de la colección, organiza- ción, análisis, interpretación y presentación de datos o información. Tiene que ver con todos los aspectos de los datos, incluyendo la planeación de la recolección de ellos en términos de encuestas y experimentos. 2. Aplicaciones de la estadística La estadística es actualmente aplicada en todas las areas del conocimiento. Desde la biología (bioestadística), política, e historia; hasta la ingeniería, la economía (econometría), las matemáticas, y las finanzas, entre otras. Pero, qué motiva a que tengamos que usar la estadística? En todas las areas mencionadas siempre existirán factores que son desconocidos. Por ejemplo, un corredor de bolsa se preocupa por el comportamiento del precio de las acciones en el futuro. Un ingeniero eléctrico necesita estimar la probabilidad de que una unidad de generación pueda fallar y desabastecer la demanda, un biólogo necesita diferenciar caracte- 1 risticas entre diferentes especies. El departamento de tránsito de la ciudad desea conocer el flujo vehicular medio durante diferentes periodos de un día. Un economista se preocupa por entender como el producto interno bruto puede llegar a afectar la demanda de un bien en particular, etc. O cómo creen ustedes que una aseguradora calcula el valor de las pólizas? En general, la estadística hace parte de un proceso de toma de decisiones ante incerti- dummbre y variación de datos. Por ejemplo, para un exportador (o importador) resulta muy útil realizar análisis de la tasa representativa del mercado (TRM) para tomar decisiones de compra o venta de mercancia. A partir de datos historicos, el exportador (o importador) puede analizar la tendencia de la TRM y hacer inferencias acerca de su comportamiento futuro. Si la TRM resulta en valores altos (bajos), puede resultar más interesante importar (exportar). Este es sólo un ejemplo del uso de la estadistica en toma de decisiones. Otra de las aplicaciones fundamentales de la estadística en ingeniería es la confiabilidad de sistemas. Cuando un circuito, o una subestación, un sistema de potencia opera, éstos están compuestos de múltiples componentes que están sujetos a deterioro y falla. Por lo tanto, para que el circuito, o subestación, o sistema de potencia opere adecuadamente, se requiere que “casi todos” sus componentes no fallen. De hecho, para análisis de confiabilidad se asigna (o se calcula) a cada componente una probabilidad de falla, que en últimas afectará la probabilidad de que el circuito, subestación, o sistema de potencia opere satisfactoriamente. Qué otras variables inciertas son interesantes para múltiples sectores? Por ejemplo, el precio del petróleo. A partir de este se definen precios en el transporte público, precio de combustibles, precios de alimentos, inflación (probablemente). Qué otros ejemplos se pueden ilustrar en la ingenieria eléctrica? En conclusión, todos nos preocupamos por entender y analizar las incertidumbres de muchas situaciones para minimizar el nivel de riesgo1 a una situación desafortunada. La mayoría de las personas somos adversas al riesgo, y esto implica que queremos tomar de- cisiones que impliquen resultados tendiendo a ser seguros que resultados muy aleatorios. Y 1Riesgo se puede entender como la exposición al peligro 2 obviamente estas decisiones entre más seguras, o conservadoras, causan en muchos casos mayores costos. Considere un ejemplo muy sencillo. Usted sabe que en promedio toma 30 minutos en bus para llegar a la U; hoy tiene un examen a las 8:00 am, y son las 7:30 am y está saliendo de su casa. Una decisión “arriesgada” es tomar el bus sabiendo que puede llegar tarde; sin embargo, para minimizar el riesgo de llegar tarde, decide tomar un taxi. Esta decisión, aunque con mucho menor chance de llegar tarde si es más costosa. Por lo tanto, tomar bus o taxi depende de la actitud individual hacia el riesgo. 3. Poblacion, muestra, variable Para ilustrar estos conceptos, recrearemos un experimento sencillo. Suponga que se desea hacer un estudio de movilidad en Medellín y determinar cuáles son las medidas más apropiadas para mejorarla en caso de ser necesario. Población: constituyen todos los elementos de interés de un estudio en particular. En nuestro ejemplo de movilidad, la población estaría constituida por cada una de las personas que conmutan entre sus casas y el trabajo por diferentes medios. En general, hacer el estudio considerando toda la poblacion es inadecuado (tiempo, costos). Muestra: es un subconjunto de la población. En el contexto mencionado, es necesario seleccionar adecuadamente a las personas que se les observará el tiempo de desplaza- miento. Es probable que la mejor estrategia sea clasificar la muestra de acuerdo al modo de desplazamiento (bus, taxi, metro, moto, bicicleta, otro). Es importante definir el ta- maño de la muestra de manera que las conclusiones hechas puedan ser generalizadas para toda la población. Variable: es una caracteristica de interes cuyo valor puede ser numerico o categorico. Debe ser medible para cada uno de los elementos de la muestra. En el ejemplo, la 3 variable a considerar es “tiempo de desplazamiento” y su valor es mumérico dado en minutos. Otro ejemplo de población sería todos los circuitos integrados fabricados por una com- pañía. La muestra puede ser la producción de un día en particular, o puede ser un conjunto de 20 de ellos seleccionados aleatoriamente. Y la variable bajo interés puede ser la ganancia del circuito. 4. Clasificación de la estadística 4.1. Estadística descriptiva Esta área de la estadística es útil para resumir y describir caracteristicas importantes de los datos que el investigador ha obtenido a traves de un experimento. Las herramientas de la estadística descriptiva pueden ser de naturaleza gráfica como los histogramas, diagramas de caja, graficos de tallos y hojas; y los de naturaleza analítica como la media, desviación estándar, percentiles, entre otros. Estos tópicos serán el objetivo de las primeras dos semanas de clase. 4.2. Estadística inferencial A partir de los datos obtenidos de una muestra, es importante hacer conclusiones referen- tes a la poblacion, es decir, hacer inferencias acerca de la poblacion. Algunas de las técnicas son basadas en estimación (puntual y con intervalos de confianza), y pruebas de hipótesis. (Este tipo de herramientas de estadística inferencial seran estudiadas a partir de la segunda mitad del curso.) Por ejemplo, a partir de las pruebas de corto circuito realizadas a un lote de transforma- dores (de características eléctricas similares) producidos por una compañía, se tuvo con un “alto nivel de confianza” que la media de la impedancia de dispersión del transformador esta 4 entre 5.1% y 7.5%. Este tipo de estimación es obtenido usando datos del lote de transfor- madores para obtener inferencias acerca de todos los transformadores producidos en dicha compañía. Mientras que la estadística inferencial parte de una muestra para obtener conclusiones acerca de una población, la teoría de probabilidad parte del hecho de que las propiedades de una población son conocidas para analizar ciertos aspectos de una muestra. En realidad, la estadística inferencial y la probabilidad actuan como procesos inversos. Ejemplo. De una población se conoce que la probabilidad de que un generador falle es 0.05 (5%), entonces en probabilidad puede preguntarse: entre 100 generadores, cuál es la probabilidad de que fallen más de 5? Estos son eventos independientes, osea Bernoulli y necesitamos el numero de exitos (o fracasos en este caso). Por tanto, X que es el número de gerenadoresfallados satisface la distribución binomial. También podríamos preguntar por el número esperado de generadores que pueden fallar. Mientras que en estadística inferencial, podemos tener una muestra de 10focos de una marca Z, y se ha observado que la duración media de dicha muestra es de 200 horas. Se puede preguntar entonces por un rango para la duración media de todos los focos de la marca Z con su respectivo nivel de confianza. 4.3. Recolección de datos Además de la organización y análisis de los datos, la estadística también se preocupa por su recolección. Estos deber ser recogidos de la manera adecuada para que los análisis esta- dísticos posteriores sean válidos y tengan un alto nivel de confianza. Uno de los métodos más usados para recolectar datos representativos de una poblacién es hacer muestreo aleaotorio simple. En este método cada uno de los individuos es seleccionado con igual oportunidad. En ocasiones es importante diferenciar los individuos de una población, en este caso se usa el muestreo estratificado. Por ejemplo, para una compañía electrificadora es importante ana- lizar el comportamiento de la demanda de energía (o potencia) eléctrica en el corto plazo. 5 Sin embargo, los usuarios de electricidad pueden ser residenciales, comerciales, e industria- les. Asi que puede ser más útil para la empresa realizar un muestreo estratificado donde los tipos de usuarios (residenciales, comerciales, e industriales) representan los diferentes estra- tos. La teoría de muestreo no hara parte de los objetivos del presente curso introductorio de estadística. 5. Representación gráfica de datos de una muestra Una vez los datos han sido recolectados a través de cualquier método, se procede a realizar procedimientos de análisis con éstos. Una de la forma más útil de condensar grandes cantidades de datos es a través de representaciones gráficas que proveen una idea inicial acerca de la forma en la cual los datos se distribuyen. 5.1. Gráficos de tallos y hojas (stem and leaf plots) Sea el conjunto de datos numéricos x1, x2, . . . , xn. Esta es una guía para construir la grafica de tallo y hojas: 1. Seleccione uno o mas de los primeros dígitos para los valores de tallo. Los segundos dígitos se convierten en hojas. 2. Enumere los posibles valores de tallos en una columna vertical. 3. Anote la hoja para cada observación junto al correspondiente valor de tallo. 4. Indique las unidades para tallos y hojas en algún lugar de la gráfica. Si los datos corresponden a un porcentage, que van del 0 al 100%, los tallos pueden conformarse por los dígitos del 0 al 10, y las hojas corresponden al segundo dígito. Por ejemplo, el dato con valor de 35% tiene un tallo de 3 y una hoja de 5. Esta es una forma común de representar el tallo y la hoja, pero puede no ser la única manera de hacerlo. La 6 Cuadro 1: Gráfico de tallos y hojas del ejemplo 1 El punto decimal está en el | 0 | 69 1 | 01122334556778 2 | 12233355 3 | 55 gráfica es en cierta manera una aproximación a un histograma o distribución de los datos. Sin embargo, provee información útil como la ubicación exacta de cada dato en la distribución. Ejemplo 1. Realice una gráfica de tallos y hojas para los resultados del primer parcial de los estudiantes de estadística del semestre 2014-1. Los resultados de cada examen son: 1.2 1.5 2.5 2.2 3.5 2.3 2.5 1.1 2.2 1.7 1.3 1.3 1.4 2.3 2.1 0.6 1.5 1.7 0.9 1.0 1.2 2.3 1.1 3.5 1.8 1.6. R/ Se sugiere primero ordenar los datos. Por lo tanto tendríamos lo siguiente: 0.6 0.9 1.0 1.1 1.1 1.2 1.2 1.3 1.3 1.4 1.5 1.5 1.6 1.7 1.7 1.8 2.1 2.2 2.2 2.3 2.3 2.3 2.5 2.5 3.5 3.5. Luego podemos definir los “tallos” como el primer dígito de la nota y la “hoja” como el decimal que acompaña cada calificación. La tabla 1 muestra la gráfica deseada. El gráfico de tallos y hojas muestra que las notas entre 1 y 2 son las que más se repiten; sin embargo, hay cierta variabilidad en los datos ya que estudiantes en un entre 0.6 y 3.5. Este tipo de gráfica da una idea de cómo están distribuidos los datos y presenta de una manera simple el comportamiento de éstos. Código en R En R es posible hacer la gráfica de hojas y tallos usando la función stem. Para ampliar la información acerca de la función, digite help(stem). > x <- c(1.2,1.5,2.5,2.2,3.5,2.3,2.5,1.1,2.2,1.7,1.3,1.3,1.4,2.3, 2.1,.6,1.5,1.7,.9,1,1.2,2.3,1.1,3.5,1.8,1.6) ; 7 > stem(x) The decimal point is at the | 0 | 69 1 | 01122334 1 | 556778 2 | 122333 2 | 55 3 | 3 | 55 Observe que la estrategia que emplea R es algo diferente a la que planteamos inicialmente. R genera diferentes clases en las que por ejemplo se subdivide el intervalo [1, 2] en [1, 1,4] y [1,5, 1,9]. Sin embargo, esta subdivisión es arbitraria y puede controlarse con las opciones de la función stem. Ejemplo 2. Los datos a continuación representan la demanda horaria de electricidad (en MW) para un día: 100, 100, 100, 110, 115, 120, 130, 140, 160, 170, 180, 220, 190, 170, 160, 150, 220, 270, 300, 280, 190, 135, 120, 105. R/ Los datos van entre el 100 y el 300. Usar tallos entre el 1 y el 3 representaria muy pocas clases. Por lo tanto, podemos usar tallos que vayan del 1–1.5, 1.5–2, 2–2.5, 2.5–3. Las hojas estarían definidas por los dos últimos dígitos de cada dato. La tabla 2 muestra la gráfica final. Esta indica que los valores más representativos de la demanda están entre 100 y 150, y que las demandas cercanas a 300 son mucho menos comunes. Además, se observa que los datos están “sesgados” hacia la derecha. > x <- c(100, 100, 100, 110, 115, 120, 130, 140, 160, 170, 180, 220, 190, 170, 160, 150, 220, 270, 300, 280, 190, 135, 120, 105) ; > stem(x) The decimal point is 2 digit(s) to the right of the | 8 Cuadro 2: Grafico de tallos y hojas del ejemplo 2 El punto decimal está 2 dígitos a la derecha del | 1 | 00 00 00 05 10 15 20 20 30 35 40 1 | 50 60 60 70 70 80 90 90 2 | 20 20 2 | 70 80 3 | 00 1 | 00011222344 1 | 56677899 2 | 22 2 | 78 3 | 0 Observe que R automáticamente elimina el tercer dígito y opera solo con dos por facilidad. Sin embargo, se aclara que el punto decimal está 2 dígitos a la derecha de | para evitar que haya confusión con la gráfica. Observe que la forma de la distribución (la envolvente) permanece inalterada. 5.2. Gráficas de puntos Este tipo de gráficos resume los datos numéricos de manera similar al gráfico de tallos y hojas en el sentido que provee información acerca de la distribución empírica de los datos (localización, dispersión, rango de los datos). Es útil cuando el numero de datos n es relati- vamente pequeño. Para cada dato se grafica un punto sobre un eje horizontal que define el rango de los datos. Para más información, referirse al libro de Devore [1]. 9 pico 1 pico 2 Figura 1: Histograma bimodal Simétrico Simétrico negativo Simétrico positivo Figura 2: Tipos de histogramas 5.3. Histogramas Un histograma pretende ilustrar de manera gráfica la dispersión y la ubicación de datos de origen aleatorio. Un histograma es una distribución de frecuencia y puede representar la distribución empírica de los datos. Claro que también se puede hacer un histograma de frecuencias relativas o histograma de densidades. Ninguno de estos cambia el patrón de la distribución, sólo la escala del eje vertical. A partir de este se pueden responder preguntas acerca del porcentaje de observaciones en un rango especificado. 5.3.1. Formas de histograma Los datos no necesariamente presentan la forma de “campana” que estamos acostumbra- dos a ver. Así, es importante entender las diferentes formas que pueden tener los histogramas: Unimodal es el que tiene un único máximo. Bimodal es aquel que tiene dos picos, y multimodal cuando tiene más de dos picos o máximos. Ver Fig. 1. Obviamente, el 10 número de estos máximos depende del número de clases. Es probable que a mayor número de clases se puedan obtener histogramas bimodales o multimodales. Simétrico es aquel cuya mitad izquierda es una imagen de espejode la mitad derecha. En probabilidad estudiaremos de manera más detallada las propiedades de una distribución simétrica. Por el momento no tenemos los elementos suficientes para mencionarlas. Un histograma con simetría positiva es aquel cuya cola derecha (o superior) se alarga en comparación con la cola izquierda (o inferior). Un histograma con simetría negativa es aquel donde el alargue se da hacia la izquierda. Ver Fig. 2. 5.3.2. Construcción de un histograma Para construir un histograma es importante definir el número de clases o intervalos y el ancho de cada uno. Aunque no existe un modelo único para determinarlos, usaremos el método expuesto en [1]. Suponga entonces que se tiene un conjunto de n datos x1, x2, . . . , xn. El objetivo es representarlos a través de un histograma. Para esto, definimos los siguientes parámetros: Número de clases: Primero que todo, una clase es una etiqueta asignada a un rango de valores que nos permite alojar un subconjunto de los datos. El número de clases suele ser un número entre 5 y 20. Un número muy pequeño de clases cuando se tienen muchos datos podría resultar en un histograma que no refleja correctamente la dispersión de los datos. Por el contrario, usar muchas clases cuando se tienen pocos datos podría resultar en histogramas con varios “máximos” ya que pueden resultar clases con frecuencia muy baja. En general, el número de clases debe ser mayor a medida que el número de datos es mayor. En general, podemos adoptar que número de clases ≈ √ n siendo n el número de observaciones (o datos). El número de clases debe aproximarse 11 a un entero. Ancho de clase: El ancho de clase w debe garantizar que los n datos caigan entre las clases definidas. Se puede calcular como w ≈ x[n] − x[1] número de clases donde x[1] y x[n] representan el mínimo y máximo de los datos respectivamente. Una vez se han definido el número y ancho de clases, es necesario crear las clases o intervalos. Se debe garantizar que el menor de los datos x[1] quede contenido en la primera clase y que el mayor de los datos x[n] quede contenido en la última clase. Si l0, l1, l2, . . . son los limites de clase, se puede asumir que la clase i corresponde a los datos contenidos en el intervalo (li−1, li]. Observe que el intervalo es abierto por la izquierda y cerrado por la derecha, y que li − li−1 es el ancho de clase. Los histogramas se pueden mostrar en terminos de frecuencias f , frecuencias relativas fr, o densidades d. Frecuencia de clase fi: Para obtener la frecuencia de cada clase fi, se debe realizar el conteo de los datos contenidos en el intervalo correspondiente. Es decir, fi = # de datos en el intervalo (li−1, li] Observen que la suma de las frecuencias de cada una de las clases debe ser igual al numero de datos n, i.e., ∑ i fi = n. Frecuencia relativa de clase f ri : La frecuencia relativa de cada clase se refiere a la porcion de cada frecuencia con respecto al total de datos. Por tanto, f ri = fi n 12 La suma de las frecuencias relativas debe ser igual a 1, i.e., ∑ i f r i = 1. Densidad de clase di: La densidad de cada clase se define como el cociente entre la frecuencia relativa y el ancho de cada clase. di = f ri w Un histograma con densidades representa una distribucion de probabilidad empírica de la variable en cuestión (más adelante entraremos a estudiar qué es una distribución de probabilidad). Este tipo de histogramas es construido de manera que el area encerrada por éste sea igual a 1, i.e. ∑ i diw = 1 Ejemplo 3. (Tomado de [1]). Las compañías generadoras de electricidad requieren infor- mación sobre el consumo de los clientes para obtener pronósticos precisos de demandas. A continuación se tienen valores de consumo organizados de menor a mayor (por facilidad): 2,97 4,00 5,20 5,56 5,94 5,98 6,35 6,62 6,72 6,78 6,80 6,85 6,94 7,15 7,16 7,23 7,29 7,62 7,62 7,69 7,73 7,87 7,93 8,00 8,26 8,29 8,37 8,47 8,54 8,58 8,61 8,67 8,69 8,81 9,07 9,27 9,37 9,43 9,52 9,58 9,60 9,76 9,82 9,83 9,83 9,84 9,96 10,04 10,21 10,28 10,28 10,30 10,35 10,36 10,40 10,49 10,50 10,64 10,95 11,09 11,12 11,21 11,29 11,43 11,62 11,70 11,70 12,16 12,19 12,28 12,31 12,62 12,69 12,71 12,91 12,92 13,11 13,38 13,42 13,43 13,47 13,60 13,96 14,24 14,35 15,12 15,24 16,06 16,90 18,26 Dado que se tienen 90 datos, podemos determinar aproximadamente el numero de clases como √ 90 = 9,487 ≈ 9. Los datos estan ordenados, asi que x[1] = 2,97 and x[90] = 18,26. 13 Entonces, el ancho de clase w se calcula como w = 18,26− 2,97 9 = 1,699 ≈ 2 Ya podemos crear los intervalos de clase. Escogemos l0 como un número menor a 2.97. Para ser consistentes con el ejemplo de [1], hacemos l0 = 1. Luego, l1 = 1+2 = 3, l2 = 3+2 = 5 y así sucesivamente. La frecuencia correspondiente a la primera clase f1 = 1, que corresponde al numero de datos entre 1 y 3. Observe que la frecuencia relativa de la clase 1 es f r1 = f1/n = 1/90 = ,0111 y que la densidad de la clase 1 d1 = f r1/w = ,0111/2 = ,0056. La tabla 3 muestra los frecuencias, frecuencias relativas, y densidades para los datos de consumos de electricidad. Clase i Intervalo fi f ri di 1 (1, 3] 1 0.0111 0.0056 2 (3, 5] 1 0.0111 0.0056 3 (5, 7] 11 0.1222 0.0611 4 (7, 9] 21 0.2333 0.1167 5 (9, 11] 25 0.2778 0.1389 6 (11, 13] 17 0.1889 0.0944 7 (13, 15] 9 0.1000 0.0500 8 (15, 17] 4 0.0444 0.0222 9 (17, 19] 1 0.0111 0.0056 Cuadro 3: Tabla de frecuencias y densidades para el ejemplo El histograma de frecuencias obtenido usando R es el mostrado en la Fig. 3a. R grafica frecuencias en el eje vertical. El código usado para obtener el histograma se muestra a continuación: DATA <- read.table("Consumos.dat",header = TRUE) Consumo <- DATA$ConsumoAjustado ; hist(Consumo,breaks = c(1,3,5,7,9,11,13,15,17,19)) La función read.table permite leer datos a partir de archivos de texto. El archivo Consumos.dat 14 contiene los datos del ejemplo 1.10 de la referencia [1]. Finalmente, la función hist grafica el histograma. En el ejemplo mostrado, se introdujeron los limites de cada clase usando el argumento breaks. Si éste no se especifica, R determina automaticamente el ancho de cada clase. Para mayor información acerca de los histogramas en R, digite help(hist). Para ob- tener el histograma de densidades (con area total igual a 1), se debe especificar el argumento frec a FALSE ya que por defecto es TRUE: hist(Consumo,breaks = c(1,3,5,7,9,11,13,15,17,19),freq = FALSE) El histograma resultante se muestra en la Fig. 3b. Histogram of Consumo Consumo F re qu en cy 5 10 15 0 5 10 15 20 25 (a) Frecuencia Histogram of Consumo Consumo D en si ty 5 10 15 0. 00 0. 04 0. 08 0. 12 (b) Densidad Figura 3: Histograma de los datos de consumo de energia A partir del histograma (frecuencias o densidades), que se puede decir de la (a)simetria?. Cuál es la proporción de datos: (a) entre 3 y 11? (b) entre 7.172 y 12.908? Ejemplo. Use R para generar 90 números aleatorios usando el siguiente comando: rnorm(36,mean(Consumo),sd(Consumo)). 15 Luego realice un histograma de frecuencias relativas y de densidades usando las mismas clases del ejemplo anterior. Finalmente, cuál es la proporción de datos: (a) entre 3 y 11? (b) entre 7.172 y 12.908? Referencias [1] Jay L. Devore. Probabilidad y estadistica para ingenieria y ciencias, Octava edicion. Cengage Learning, Julio 2011. 16
Compartir