Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Estadı́stica Descriptiva Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 1 / 55 1 Introducción 2 Terminoloǵıa de la Estad́ıstica Descriptiva 3 Descripción gráfica de los datos 4 Medidas descriptivas numéricas 5 Graficos de caja Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 2 / 55 Introducción Introducción El tomar observaciones es común en el marco de la investigación. Estas observaciones surgen como resultado de un proceso de observación bajo condiciones dadas o de un proceso experimental. Por ejemplo, se registran las temperaturas ḿınimas diarias ocurridas en la década del 80, suponiendo un total de 3650 d́ıas. Situaciones como ésta conducen a los conocidos estudios observacionales. En otras circunstancias, las observaciones son el resultado de la provocación de un fenómeno, o experimento, bajo condiciones controladas. A modo de ejemplo, se podŕıa considerar la aplicación de distintos insecticidas en bandejas con 100 insectos, en cada una de las cuales se registra el número de insectos muertos. Situaciones como éstas son conocidas como estudios experimentales. Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 3 / 55 Introducción Generalmente la información registrada en un proceso de observación es tratada, en un primer momento, con el objetivo de describir y resumir sus caracteŕısticas más sobresalientes. Esto se conoce como estad́ıstica descriptiva y generalmente se basa en el uso de tablas y gráficos, y en la obtención de medidas resumen. Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 4 / 55 Introducción Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 5 / 55 Terminoloǵıa de la Estad́ıstica Descriptiva Terminoloǵıa de la Estad́ıstica Descriptiva Población: Es un conjunto de elementos acotados en un tiempo y en un espacio determinados, con alguna caracteŕıstica común observable o medible. Población finita: cuando el número de elementos que la forman es finito, por ejemplo el número de alumnos de un colegio, o de un curso. Población infinita: cuando el número de elementos que la forman es infinito, o tan grande que pudiesen considerarse infinitos. Como por ejemplo si se realizase un estudio sobre los productos que hay en el mercado Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 6 / 55 Terminoloǵıa de la Estad́ıstica Descriptiva Terminoloǵıa de la Estad́ıstica Descriptiva Población: Es un conjunto de elementos acotados en un tiempo y en un espacio determinados, con alguna caracteŕıstica común observable o medible. Población finita: cuando el número de elementos que la forman es finito, por ejemplo el número de alumnos de un colegio, o de un curso. Población infinita: cuando el número de elementos que la forman es infinito, o tan grande que pudiesen considerarse infinitos. Como por ejemplo si se realizase un estudio sobre los productos que hay en el mercado Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 6 / 55 Terminoloǵıa de la Estad́ıstica Descriptiva Terminoloǵıa de la Estad́ıstica Descriptiva Población: Es un conjunto de elementos acotados en un tiempo y en un espacio determinados, con alguna caracteŕıstica común observable o medible. Población finita: cuando el número de elementos que la forman es finito, por ejemplo el número de alumnos de un colegio, o de un curso. Población infinita: cuando el número de elementos que la forman es infinito, o tan grande que pudiesen considerarse infinitos. Como por ejemplo si se realizase un estudio sobre los productos que hay en el mercado Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 6 / 55 Terminoloǵıa de la Estad́ıstica Descriptiva Si la población es finita, diremos que el tamaño poblacional es el número de elementos de la misma y lo denotaremos con N . Una muestra es una parte de la población que es realmente usada para obtener la información. Seleccionada de acuerdo con una regla o plan. Una unidad muestral es un elemento o entidad de la muestra. Tamaño muestral: es el número de elementos de la población que conforman la muestra y se denota con n. Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 7 / 55 Terminoloǵıa de la Estad́ıstica Descriptiva Variables. Las observaciones o mediciones sobre los elementos de una población constituyen la materia prima con la cual se trabaja en Estad́ıstica. Para que dichas observaciones puedan ser tratadas estad́ısticamente deben estar expresadas o poder ser reexpresadas en términos numéricos. Aquellas caracteŕısticas que van cambiando en su estado o expresión entre los elementos de la población se denominan variables, mientras que aquellas que no cumplen esta condición son llamadas constantes. Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 8 / 55 Terminoloǵıa de la Estad́ıstica Descriptiva Una variable es una caracteŕıstica, propiedad o atributo, con respecto a la cual los elementos de una población difieren de alguna forma. Para denotar a una cierta variable se utilizan letras mayúsculas, y con la misma letra en minúscula se hace referencia a un valor en particular observable en un elemento de la población, y al que se suele llamar dato. Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 9 / 55 Terminoloǵıa de la Estad́ıstica Descriptiva Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 10 / 55 Terminoloǵıa de la Estad́ıstica Descriptiva Escala de Medición. Se entenderá por medición al proceso de asignar el valor a un elemento de la variable en observación. Este proceso utiliza diversas escalas: nominal, ordinal, de intervalo y de razón. Escala de Medición zzvvv vv vv vv �� $$I II II II II **TTT TTTT TTTT TTTT TTTT TT Escala Nominal Escala Ordinal Escala de Intervalo Escala de Razón Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 11 / 55 Terminoloǵıa de la Estad́ıstica Descriptiva Escala de Medición. Se entenderá por medición al proceso de asignar el valor a un elemento de la variable en observación. Este proceso utiliza diversas escalas: nominal, ordinal, de intervalo y de razón. Escala de Medición zzvvv vv vv vv �� $$I II II II II **TTT TTTT TTTT TTTT TTTT TT Escala Nominal Escala Ordinal Escala de Intervalo Escala de Razón Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 11 / 55 Terminoloǵıa de la Estad́ıstica Descriptiva Nominal: Hace referencia a datos que sólo pueden clasificarse en categoŕıas; existen sólo conteos; no existe orden particular para los grupos. Ejemplo: color de ojos. Ordinal: Corresponde a aquellos datos que se pueden agrupar en categoŕıas y ordenarlas según algún tipo de gradación. (Ejemplo; nivel de dolor, nivel de preferencia.) De Intervalo: Incluye todas las caracteŕısticas de la escala ordinal, pero además la distancia entre valores es constante pues los valores que toma este tipo de variables corresponde al orden de los números naturales. (Ejemplo: temperatura máxima diaria durante el mes de agosto, número de hijos.) De Razón: Tiene las caracteŕısticas de la escala de intervalo, pero se agrega un punto cero absoluto tal que significa ausencia del atributo y la razón o cociente de dos números es significativo pudiéndose aplicarles todo tipo de instrumental matemático. (Ejemplo: ingreso familiar, número de hijos) Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y MatemáticasUniversidad de Concepción 12 / 55 Terminoloǵıa de la Estad́ıstica Descriptiva Nominal: Hace referencia a datos que sólo pueden clasificarse en categoŕıas; existen sólo conteos; no existe orden particular para los grupos. Ejemplo: color de ojos. Ordinal: Corresponde a aquellos datos que se pueden agrupar en categoŕıas y ordenarlas según algún tipo de gradación. (Ejemplo; nivel de dolor, nivel de preferencia.) De Intervalo: Incluye todas las caracteŕısticas de la escala ordinal, pero además la distancia entre valores es constante pues los valores que toma este tipo de variables corresponde al orden de los números naturales. (Ejemplo: temperatura máxima diaria durante el mes de agosto, número de hijos.) De Razón: Tiene las caracteŕısticas de la escala de intervalo, pero se agrega un punto cero absoluto tal que significa ausencia del atributo y la razón o cociente de dos números es significativo pudiéndose aplicarles todo tipo de instrumental matemático. (Ejemplo: ingreso familiar, número de hijos) Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 12 / 55 Terminoloǵıa de la Estad́ıstica Descriptiva Nominal: Hace referencia a datos que sólo pueden clasificarse en categoŕıas; existen sólo conteos; no existe orden particular para los grupos. Ejemplo: color de ojos. Ordinal: Corresponde a aquellos datos que se pueden agrupar en categoŕıas y ordenarlas según algún tipo de gradación. (Ejemplo; nivel de dolor, nivel de preferencia.) De Intervalo: Incluye todas las caracteŕısticas de la escala ordinal, pero además la distancia entre valores es constante pues los valores que toma este tipo de variables corresponde al orden de los números naturales. (Ejemplo: temperatura máxima diaria durante el mes de agosto, número de hijos.) De Razón: Tiene las caracteŕısticas de la escala de intervalo, pero se agrega un punto cero absoluto tal que significa ausencia del atributo y la razón o cociente de dos números es significativo pudiéndose aplicarles todo tipo de instrumental matemático. (Ejemplo: ingreso familiar, número de hijos) Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 12 / 55 Terminoloǵıa de la Estad́ıstica Descriptiva Nominal: Hace referencia a datos que sólo pueden clasificarse en categoŕıas; existen sólo conteos; no existe orden particular para los grupos. Ejemplo: color de ojos. Ordinal: Corresponde a aquellos datos que se pueden agrupar en categoŕıas y ordenarlas según algún tipo de gradación. (Ejemplo; nivel de dolor, nivel de preferencia.) De Intervalo: Incluye todas las caracteŕısticas de la escala ordinal, pero además la distancia entre valores es constante pues los valores que toma este tipo de variables corresponde al orden de los números naturales. (Ejemplo: temperatura máxima diaria durante el mes de agosto, número de hijos.) De Razón: Tiene las caracteŕısticas de la escala de intervalo, pero se agrega un punto cero absoluto tal que significa ausencia del atributo y la razón o cociente de dos números es significativo pudiéndose aplicarles todo tipo de instrumental matemático. (Ejemplo: ingreso familiar, número de hijos) Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 12 / 55 Terminoloǵıa de la Estad́ıstica Descriptiva Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 13 / 55 Descripción gráfica de los datos Descripción gráfica de los datos Gráfico de tallo y hojas. Es una técnica Estad́ıstica para representar un conjunto de datos. Cada valor numérico se divide en dos partes, el o los digitos principales forman el tallo y los digitos secundarios las hojas. Los tallos están colocados a lo largo del eje vertical y las hojas de cada observación a lo largo del eje horizontal. Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 14 / 55 Descripción gráfica de los datos EJEMPLO 1.- Las notas obtenidas en una prueba de matemáticas son: 4.5 3.3 4.8 4.2 4.0 5.1 6.8 5.9 2.9 6.4 5.5 3.9 5.2 5.8 3.6 5.3 2.3 5.8 3.0 5.0 Construya un gráfico de tallo y hoja 2 3 9 3 3 9 6 0 4 5 8 2 0 5 1 9 5 2 8 3 8 0 6 8 4 Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 15 / 55 Descripción gráfica de los datos EJEMPLO 1.- Las notas obtenidas en una prueba de matemáticas son: 4.5 3.3 4.8 4.2 4.0 5.1 6.8 5.9 2.9 6.4 5.5 3.9 5.2 5.8 3.6 5.3 2.3 5.8 3.0 5.0 Construya un gráfico de tallo y hoja 2 3 9 3 3 9 6 0 4 5 8 2 0 5 1 9 5 2 8 3 8 0 6 8 4 Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 15 / 55 Descripción gráfica de los datos EJEMPLO 1.- Las notas obtenidas en una prueba de matemáticas son: 4.5 3.3 4.8 4.2 4.0 5.1 6.8 5.9 2.9 6.4 5.5 3.9 5.2 5.8 3.6 5.3 2.3 5.8 3.0 5.0 Construya un gráfico de tallo y hoja 2 3 9 3 0 3 6 9 4 0 2 5 8 5 0 1 2 3 5 8 8 9 6 4 8 Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 16 / 55 Descripción gráfica de los datos Distribución de frecuencias Si tenemos un gran conjunto de valores observados, en este caso necesitamos un sistema alternativo para agrupar los datos de manera que podamos determinar la forma de ellos. La forma mas simple de resumir la información de un conjunto de datos es la tabla de distribución de fracuencias, que consiste en presentar para cada categoŕıa de una variable el número de casos (frecuencias) que lo comparten. Ejemplo Distribución de frecuencias de la variable sexo: SEXO Frecuencia Porcentaje Hombre 3 75% Mujer 1 25% Total 4 100% Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 17 / 55 Descripción gráfica de los datos Tablas estad́ısticas Las tablas estad́ısticas según el número de observaciones y según el recorrido de la variable estad́ıstica, tenemos los siguientes tipos de tablas estad́ısticas: Tablas tipo I: Cuando el tamaño de la muestra y el recorrido de la variable son pequeños. Ejemplo: Edad de los 5 miembros de una familia: 5, 8, 16, 38, 45 Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 18 / 55 Descripción gráfica de los datos Tablas Tipo II: Cuando el tamaño de la muestra es grande y el recorrido de la variable es pequeño, por lo que hay valores de la variable que se repiten. Ejemplo: Si preguntamos el número de personas que trabajan en 50 familias obtenemos la siguiente tabla: Personas que trabajan en 50 familias 2 1 2 2 1 2 0 2 1 1 2 3 0 1 1 1 3 0 2 2 2 2 1 2 1 1 1 3 2 2 3 2 3 1 2 4 2 1 4 1 1 0 4 3 2 2 2 1 3 3 Resuma estos datos en una tabla de frecuencias personas que trabajan: 0 1 2 3 4 observaciones 4 16 19 8 3 Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 19 / 55 Descripción gráfica de los datos Tablas Tipo II: Cuando el tamaño de la muestra es grande y el recorrido de la variable es pequeño, por lo que hay valores de la variable que se repiten. Ejemplo: Si preguntamos el número de personas que trabajan en 50 familias obtenemos la siguiente tabla: Personas que trabajan en 50 familias 2 1 2 2 1 2 0 2 1 1 2 3 0 1 1 1 3 0 2 2 2 2 1 2 1 1 1 3 2 2 3 2 3 1 2 4 2 1 4 1 1 0 4 3 2 2 2 1 3 3 Resuma estos datos en una tabla de frecuencias personas que trabajan: 0 1 2 3 4 observaciones 4 16 19 8 3 Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 19 / 55 Descripción gráfica de los datos Tablas tipo III: Cuando el tamaño de la muestra y el recorrido de la variable son grandes, por lo que será necesario agrupar en intervalos los valores de la variable. Ejemplo: Si a un grupo de 30 alumnos les preguntamos el dinero que en ese momento llevan en sus bolsillos, nos encontramoscon los siguientes datos: 450 1152 250 300 175 80 25 2680 605 785 1595 2300 5000 1200 100 5 180 200 675 500 375 1500 205 985 185 125 315 425 560 1100 Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 20 / 55 Descripción gráfica de los datos Algunas regla para agrupar los datos en intervalos o categoŕıas. Número de intervalos o categoŕıas o clases:{ k ≈ √ n, si n no es muy grande; k ≈ 1 + 3, 22 log(n), en otro caso. Localizar el máximo y el ḿınimo Determinar el recorrido o rango r = xmax − xmin Determinar la amplitud a = xmax − xmin k Determinar la marca de clases xi = li + li−1 2 Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 21 / 55 Descripción gráfica de los datos Algunas regla para agrupar los datos en intervalos o categoŕıas. Número de intervalos o categoŕıas o clases:{ k ≈ √ n, si n no es muy grande; k ≈ 1 + 3, 22 log(n), en otro caso. Localizar el máximo y el ḿınimo Determinar el recorrido o rango r = xmax − xmin Determinar la amplitud a = xmax − xmin k Determinar la marca de clases xi = li + li−1 2 Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 21 / 55 Descripción gráfica de los datos Algunas regla para agrupar los datos en intervalos o categoŕıas. Número de intervalos o categoŕıas o clases:{ k ≈ √ n, si n no es muy grande; k ≈ 1 + 3, 22 log(n), en otro caso. Localizar el máximo y el ḿınimo Determinar el recorrido o rango r = xmax − xmin Determinar la amplitud a = xmax − xmin k Determinar la marca de clases xi = li + li−1 2 Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 21 / 55 Descripción gráfica de los datos Algunas regla para agrupar los datos en intervalos o categoŕıas. Número de intervalos o categoŕıas o clases:{ k ≈ √ n, si n no es muy grande; k ≈ 1 + 3, 22 log(n), en otro caso. Localizar el máximo y el ḿınimo Determinar el recorrido o rango r = xmax − xmin Determinar la amplitud a = xmax − xmin k Determinar la marca de clases xi = li + li−1 2 Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 21 / 55 Descripción gráfica de los datos Algunas regla para agrupar los datos en intervalos o categoŕıas. Número de intervalos o categoŕıas o clases:{ k ≈ √ n, si n no es muy grande; k ≈ 1 + 3, 22 log(n), en otro caso. Localizar el máximo y el ḿınimo Determinar el recorrido o rango r = xmax − xmin Determinar la amplitud a = xmax − xmin k Determinar la marca de clases xi = li + li−1 2 Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 21 / 55 Descripción gráfica de los datos Algunas regla para agrupar los datos en intervalos o categoŕıas. Número de intervalos o categoŕıas o clases:{ k ≈ √ n, si n no es muy grande; k ≈ 1 + 3, 22 log(n), en otro caso. Localizar el máximo y el ḿınimo Determinar el recorrido o rango r = xmax − xmin Determinar la amplitud a = xmax − xmin k Determinar la marca de clases xi = li + li−1 2 Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 21 / 55 Descripción gráfica de los datos Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 22 / 55 Descripción gráfica de los datos Mod. o clases Intervalos de clases Frec. abs. Frec. Rel. Porcentual Frec. Abs. Acumulada Marca de clases ci ni hi Ni xi c1 l0 − l1 n1 h1 = n1n 100 N1 = n1 x1 c2 l1 − l2 n2 h2 = n2n 100 N2 = n1 + n2 x2 . . . . . . . . . . . . . . . . . . cj lj−1 − lj nj hj = njn 100 Nj = ∑ p≤j np xj . . . . . . . . . . . . . . . . . . ck lk−1 − lk nk hk = nkn 100 Nk = n xk n 100% Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 23 / 55 Descripción gráfica de los datos Ejercicio: Si a un grupo de 30 alumnos les preguntamos el dinero que en ese momento llevan en sus bolsillos, nos encontramos con los siguientes datos: 450 1152 250 300 175 80 25 2680 605 785 1595 2300 5000 1200 100 5 180 200 675 500 375 1500 205 985 185 125 315 425 560 1100 Resuma estos datos en una tabla de fracuencias. Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 24 / 55 Descripción gráfica de los datos Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 25 / 55 Descripción gráfica de los datos Representación gráfica Variables cualitativas CIRCULAR: La frecuencia absoluta se representa por medio de sectores circulares. Otros nombres : Sectorial, de torta, pie-chart. Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 26 / 55 Descripción gráfica de los datos DE BARRA: La frecuencia se representa por medio de barras verticales. Las categoŕıas de la variable se ubican en el eje horizontal. Las barras deben: tener el mismo ancho, estar separadas, estar espaciadas uniformemente. Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 27 / 55 Descripción gráfica de los datos Representación gráfica Variables cuantitativas HISTOGRAMA: Es la representación gráfica más frecuente para datos agrupados. Es un conjunto de rectángulos unidos, cada uno de los cuales representa un intervalo de clase. Sus bases son iguales a la amplitud del intervalo. Las alturas representan la frecuencia absoluta. Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 28 / 55 Descripción gráfica de los datos POLIGONO DE FRECUENCIAS: Gráfico de ĺıneas. Se puede obtener uniendo los puntos medios superiores de las barras del histograma (marcas de clase). Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 29 / 55 Descripción gráfica de los datos OJIVA: Gráfico de ĺıneas. Representa las frecuencias acumuladas. Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 30 / 55 Medidas descriptivas numéricas Medidas descriptivas numéricas Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 31 / 55 Medidas descriptivas numéricas Media aritmética Media vvnnn nnn nnn nnn ((PP PPP PPP PPP P Datos sin agrupar �� Datos agrupados �� x = 1n ∑n i=1 xi x = 1 n ∑n i=1 nixi Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 32 / 55 Medidas descriptivas numéricas Media aritmética Media vvnnn nnn nnn nnn ((PP PPP PPP PPP P Datos sin agrupar �� Datos agrupados �� x = 1n ∑n i=1 xi x = 1 n ∑n i=1 nixi Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 32 / 55 Medidas descriptivas numéricas Propiedades de la media 1) La suma de las diferencia de la variable con respecto a la media es nula, es decir. n∑ i=1 (xi − x) = 0 2) La media aritmética del producto de una constante por una variable X es igual al producto de esta constante por la media aritmética cx = cx 3) La media aritmética entre una constante y la variable X es la suma (o diferencia) de la constante y la media aritmética de la variable x + c = x + c Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 33 / 55 Medidas descriptivas numéricas 4) Si X e Y representan dos variables con el mismo número de observaciones, entonces la media aritmética de la suma de estas variables es igual a la suma de las medias respectivas x + y = x + y Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 34 / 55 Medidas descriptivas numéricas Ejemplo Obtener la media y las desviaciones con respecto a la media enla siguiente distribución y comprobar que su suma es cero. li−1 − li ni 0-10 1 10-20 2 20-30 4 30-40 3 Suponga que a cada uno de estos datos se le suma 5 unidades y se multiplica por 3 determinar la nueva media Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 35 / 55 Medidas descriptivas numéricas Media aritmética ponderada Dados los pesos w1, . . . , wn y las observaciones x1, . . . , xn se calcula la media aritmetica ponderada como: xp = ∑n i=1 wixi∑n i=1 xi Ejemplo Un alumno de estad́ıstica obtiene en el semestre las siguientes calificaciones certamen 1 70 puntos certamen 2 65 puntos promedio de tareas 80 puntos y en el examen 64 puntos. De acuerdo a la importancia de la evaluación cada certamen se le asigna un peso 25% y a las tareas un 10% y al examen un 40%.Calcular el promedio final del alumno. Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 36 / 55 Medidas descriptivas numéricas Media geométrica La media geométrica de n valores no negativos está dada por: G = n √ x1ẋ2 . . . xn Si algunos valores son muy grandes p muy pequeños la med. Geo. Proporciona una mejor representación del promedio. Ejemplo Suponga que La ventas de un determinado producto se incrementan en un 110% el 1o año y en 150% el 2o año. Determine la media de este incremento. R = 129, 12% Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 37 / 55 Medidas descriptivas numéricas Media geométrica La media geométrica de n valores no negativos está dada por: G = n √ x1ẋ2 . . . xn Si algunos valores son muy grandes p muy pequeños la med. Geo. Proporciona una mejor representación del promedio. Ejemplo Suponga que La ventas de un determinado producto se incrementan en un 110% el 1o año y en 150% el 2o año. Determine la media de este incremento. R = 129, 12% Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 37 / 55 Medidas descriptivas numéricas Media armónica Es útil para variables expresadas en proporciones de unidades de tiempo, tales como kilómetros por hora, No de unidades de producción por d́ıa, etc. H = n∑n i=1 1 xi Ejemplo Suponga que 4 máquinas son utilizadas para producir la misma pieza, pero cada una de las máquinas se demoran en fabricar la pieza 2.5, 2, 1.4 y 6 minutos en realizar dicha pieza. ¿Cuál es el tiempo promedio de producción? Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 38 / 55 Medidas descriptivas numéricas La Mediana La observación central de los valores una vez que éstos han sido ordenados desde el más pequeño hasta el mas grande. La Moda: El valor de las observaciones que aparece con más fracuencia. Cuartiles deciles y percentiles: Percentiles: El k-ésimo percentil es un valor de los datos de modo que el 100k% de los datos sean menores que éste, mientras que el 100(1− k)% quede sobre este valor y se denota por: Pk, k = 1, 2, . . . , 100. Cuartiles: Los Cuartiles Qi, i = 1, 2, 3, 4 se definen como: Q1 = P25, Q2 = P50,Q3 = P75,Q4 = P100 Deciles: Los Deciles Di, i = 1, 2, . . . , 10 se definen como: D1 = P10, D2 = P20, . . . , D10 = P100 Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 39 / 55 Medidas descriptivas numéricas La Mediana uujjjj jjjj jjjj jjj **UUU UUUU UUUU UUUU UU Datos sin agrupar �� ((QQ QQQ QQQ QQQ QQ Datos agrupados �� M = xN+1 2 si N es impar M = xN/2+1+xN/22 si N es par M = li−1 + n/2−Ni−1 ni−ni−1 ai Donde: li−1: ĺımite inferior de la clase de la mediana; n: número de observaciones; Ni−1: frecuencia absoluta de la clase de la mediana; ni : frecuencia absoluta del intervalo mediano; ai : amplitud del intervalo de la clase de la mediana; Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 40 / 55 Medidas descriptivas numéricas Moda vvnnn nnn nnn nnn **UUU UUUU UUUU UUUU UUU Datos sin agrupar �� Datos agrupados �� Dato que más se repite Mod = li−1 + ni−ni−1 (ni−ni−1)+(ni−ni+1) ai Donde: li−1: ĺımite inferior de la clase a la que pertenece la moda; ni−1 : frecuencia absoluta del intervalo anterior al que pertenece la moda; ni : frecuencia absoluta del intervalo modal; ai : amplitud del intervalo de la clase modal. Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 41 / 55 Medidas descriptivas numéricas Estad́ısticos de posición Percentiles uullll llll llll ll ))TTT TTTT TTTT TTTT Datos sin agrupar �� Datos agrupados �� DATO nk100 -ESIMO Pk = li−1 + nk 100 −Ni−1 ni ai Donde: li−1: ĺımite inferior de la clase del percentil; n: número de observaciones; Ni−1: frecuencia absoluta de la clase del percentil; ni : frecuencia absoluta del intervalo al que pertenece el percentil; ai : amplitud del intervalo de la clase del percentil. Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 42 / 55 Medidas descriptivas numéricas Medidas de variabilidad o dispersión Rango �� Desv́ıacion Media �� r = xmax − xmin DM = ∑n i=1 |xi−x| n DM = ∑n i=1 |xi−x|ni n Varianza �� Desviación Estandar �� V (X) = s2 = ∑n i=1(xi−x)2 n V (X) = s2 = ∑n i=1(xi−x)2ni n s = √ V (X) Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 43 / 55 Medidas descriptivas numéricas Proposición Si Y = aX + b entonces, S2Y = a 2S2X . Si los resultados de una medida son trasladados una cantidad b, la dispersión de los mismos no aumenta. Si estos mismo datos se multiplican por una cantidad a < 1, el resultado tenderá a concentrarse alrededor de su media (menor varianza). Si por el contrario a > 1 habrá mayor dispersión. Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 44 / 55 Medidas descriptivas numéricas Además se tiene que La desviación media y la varianza son sensibles a la variación de cada una de las puntuaciones Si se calculan a través de los datos agrupados en una tabla, dependen de los intervalos elegidos. Es decir, cometemos cierto error en el cálculo de la varianza cuando los datos han sido resumidos en una tabla estad́ıstica mediante intervalos. Este error no será importante si la elección del número de intervalos, amplitud y ĺımites de los mismos ha sido adecuada. Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 45 / 55 Medidas descriptivas numéricas Asimetŕıa y apuntamiento: En primer lugar, nos vamos a plantear el saber si los datos se distribuyen de forma simétrica con respecto a un valor central, o si bien la gráfica que representa la distribución de frecuencias es de una forma diferente del lado derecho que del lado izquierdo. Estad́ısticos de asimetŕıa: Para saber si una distribución de frecuencias es simétrica, hay que precisar con respecto a qué. Un buen candidato es la mediana, ya que para variables continuas, divide al histograma de frecuencias en dos partes de igual área. Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 46 / 55 Medidas descriptivas numéricas Podemos basarnos en ella para, de forma natural, decir que una distribución de frecuencias es simétrica si el lado derecho de la gráfica (a partir de la mediana) es la imagen por un espejo del lado izquierdo. Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 47 / 55 Medidas descriptivas numéricas Indice basado en los tres cuartiles (Yule-Bowley) Una distribución es simétrica si: Q3 −Q2 = Q2 −Q1 Es asimétrica Positiva si: Q3 −Q2 > Q2 −Q1 si es asimétrica negativa, se tendrá Q3 −Q2 < Q2 −Q1 Para quitar la dimensionalidad al problema, utilizamoscomo ı́ndice de asimetŕıa la cantidad: AS = (Q3 −Q2)− (Q2 −Q1) Q3 −Q1 Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 48 / 55 Medidas descriptivas numéricas Estad́ısticos de apuntamiento. Se define el coeficiente de aplastamiento de Fisher o coeficiente de curtosis como: K = m4 m22 − 3, donde mk = ∑n i=1(xi − x)k n . Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 49 / 55 Medidas descriptivas numéricas Leptocúrtica: cuando, K > 0, o sea, si la distribución de frecuencias es más apuntada que la normal; Mesocúrtica: cuando K = 0, es decir, cuando la distribución de frecuencias es tan apuntada como lo normal; Platicúrtica: cuando K < 0, o sea, si la distirbución de frecuencias es menos apuntada que la normal. Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 50 / 55 Graficos de caja Graficos de caja Un gráfico de caja o box plot muestra las posiciones relativas de los cuartiles, porción central y valores extremos de una distribución de frecuencias Paso 1: Calcular los 3 cuartiles (Q1, Q2, y Q3). Paso 2: Calcular el recorrido intercuart́ılico (IQ = Q3 −Q1). Paso 3: Calcular las barreras internas BI1 y BI2 en la forma: BI1 = Q1 − 1, 5IQ, BI2 = Q3 + 1, 5IQ Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 51 / 55 Graficos de caja Paso 4: Calcular las barreras externas BE1 y BE2 en la forma: BE1 = Q1 − 3IQ, BE2 = Q3 + 3IQ Paso 5: Identifique los puntos adyacentes. Se llaman puntos adyacentes al ḿınimo y máximo dato que se encuentran dentro de las barreras internas. Desde los extremos de la caja se trazan ĺıneas hasta los respectivos valores adyacentes. A estas ĺıneas se les llama antenas o bigotes. Paso 6: Identificar los puntos at́ıpicos y extremos: Se llaman puntos at́ıpicos o outliers a aquellos datos que se encuentran fuera de las barreras internas y dentro de las barreras externas. Se llaman puntos extremos a aquellos puntos ubicados fuera de las barreras externas. Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 52 / 55 Graficos de caja Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 53 / 55 Graficos de caja A través de un gráfico caja podemos identificar el tipo de asimetŕıa de una distribución de frecuencias unimodal de la siguiente manera: i) Si la posición de la mediana se encuentra en la mitad de la caja y las antenas tiene la misma longitud, la distribución es simétrica. ii) Si la posición de la mediana se encuentra ubicada más cerca del primer cuartil y la antena superior es de mayor longitud que la antena inferior, la distribución presenta sesgo positivo. iii) Si la posición de la mediana se encuentra ubicada más cerca del tercer cuartil y la antena superior es de menor longitud que la antena inferior, la distribución presenta sesgo negativo. Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 54 / 55 Graficos de caja Estad́ıstica Descriptiva Facultad de Ciencias F́ısicas y Matemáticas Universidad de Concepción 55 / 55 Introducción Terminología de la Estadística Descriptiva Descripción gráfica de los datos Medidas descriptivas numéricas Graficos de caja
Compartir