Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1. ESTADÍSTICA DESCRIPTIVA UNIVARIANTE Tema 1: Estadística descriptiva univariante 1. Introducción. El propósito de la estadística 2. Descripción de datos mediante tablas 3. Descripción de datos mediante gráficos 4. Medidas características de un conjunto de datos 4ESTADÍSTICA BÁSICA 1. Introducción. El propósito de la estadística ¿Qué es la estadística?¿Por qué estudiamos estadística? aprender de la observación A partir de un número reducido de datos, sacar conclusiones que sean generales Fenómeno real Datos observados Análisis estadístico Aprendizaje sobre el fenómeno Dos formas alternativas de acceder al conocimiento del mundo • Leyes físicas • Reglas matemáticas • Propiedades de los materiales ideales A partir de teorías A partir de los modelos teóricos DEDUCIMOS la realidad DEDUCIR= Sacar consecuencias de un principio, proposición o supuesto. • Datos • Estadística A partir de la observación A partir de los datos INDUCIMOS o INFERIMOS un modelo (empírico) INDUCIR= Extraer, a partir de determinadas observaciones o experiencias particulares, el principio general que en ellas está implícito. Tema 1: Estadística descriptiva univariante 1. Introducción. El propósito de la estadística 2. Descripción de datos mediante tablas 3. Descripción de datos mediante gráficos 4. Medidas características de un conjunto de datos 7ESTADÍSTICA BÁSICA 2. Descripción de datos mediante tablas Objetivo: resumir la información para facilitar su análisis Tablas univariantes Ejemplo 1: número de cilindros de 155 vehículos (fichero cardata) Muestran la frecuencia de cada valor observado Frecuencia (absoluta): número de datos en cada clase (valor) Frecuencia relativa: proporción (0-1) de los datos que hay en cada clase (valor) 138 autos tiene 4 cilindros o menos, lo que supone el 89% de los datos 8ESTADÍSTICA BÁSICA Tablas univariantes Ejemplo 2: mes de nacimiento de 95 estudiantes de primer curso 2. Descripción de datos mediante tablas En estos estudiantes, es más probable haber nacido en el primer semestre 9ESTADÍSTICA BÁSICA Tablas univariantes Si hay muchos valores distintos: se agrupan en intervalos –clases- Ejemplo: precio de 155 vehículos (fichero cardata) ¿Número de clases? n 2. Descripción de datos mediante tablas El 45.16% de los autos cuesta ‘alrededor’ de $ 3000. Tema 1: Estadística descriptiva univariante 1. Introducción. El propósito de la estadística 2. Descripción de datos mediante tablas 3. Descripción de datos mediante gráficos 4. Medidas características de un conjunto de datos 11ESTADÍSTICA BÁSICA 3. Descripción de datos mediante gráficos 3.1 Diagrama de barras 3.2 Histograma y polígono de frecuencias 3.3 Diagrama de sectores o circular (piechart) 3.4 Series temporales 12ESTADÍSTICA BÁSICA 3.1 Diagrama de barras Es la representación gráfica de una tabla de frecuencias sin agrupar en intervalos Ejemplo: número de cilindros de 155 vehículos (fichero cardata) Frecuencia de cada valor observado 1 104 3 30 17 13ESTADÍSTICA BÁSICA 3.2 Histograma y polígono de frecuencias Es la representación gráfica de una tabla de frecuencias con datos agrupados Ejemplo: precio de 155 vehículos (fichero cardata) El histograma es una de las herramientas gráficas más útiles para resumir información 14ESTADÍSTICA BÁSICA 3.2 Histograma y polígono de frecuencias Es la representación gráfica de una tabla de frecuencias con datos agrupados Ejemplo: precio de 155 vehículos (fichero cardata) El histograma sirve para resumir la siguiente información: • Concentraciones • Asimetrías • Huecos • Atípicos 15ESTADÍSTICA BÁSICA 3.2 Histograma y polígono de frecuencias Es la representación gráfica de una tabla de frecuencias con datos agrupados Signo de la asimetría: hace donde apunte la cola de la distribución (+∞ o −∞) 16ESTADÍSTICA BÁSICA 3.2 Histograma y polígono de frecuencias La apariencia del histograma puede variar dependiendo del número de clases. Demasiadas cases puede dar la sensación errónea de que los datos son muy heterogéneos. Por el contrario, muy pocas clases puede llevarnos a concluir que los datos son más homogéneos de lo que realmente son. Hay varios criterios de selección. En la práctica: probar varias configuraciones 14 clases 8 clases ? Ejemplo: peso de los 155 vehículos ¿Son homogéneos, agrupados alrededor de 2100, o hay 3 tipos de vehículos agrupados en torno a 2100, 2700 y 3500? 17ESTADÍSTICA BÁSICA 3.2 Histograma y polígono de frecuencias Criterios para decidir el número 𝑘 de clases en un histograma: n Raíz Sturges Rice DK 10 3 4 4 10 100 10 8 9 20 155 12 8 11 22 200 14 9 12 23 500 22 10 16 27 1000 32 11 20 30 5000 71 13 34 37 Consejo: experimentar con diferentes elecciones. Una buena opción es empezar con raíz o Rice (“rais or rais”) dependiendo de si n<500 • La raíz: 𝑘 = 𝑛 (para n<1000, pues con muchos datos salen demasiadas clases) • Sturges: 𝑘 = 1 + log2 𝑛 =1 + 1.44 ln(𝑛) (para datos unimodales y simétricos, de lo contrario k es muy pequeño. Para n<500) • Dixon-Kronmal: 𝑘 = 10 log10(𝑛) = 4.36 ln(𝑛) (con pocos datos da demasiadas clases. mejor para n>200) • Scott’s: 𝑘 = 3.5𝑠𝑥𝑛 − 1 3 (para datos unimodales y simétricos. Mejor que Surges. 𝑠𝑥: medida de dispersión de los datos, que se verá más adelante) • Freedman-Diaconis: 𝑘 = 2 × 𝑅𝐼 × 𝑛− 1 3 (para datos unimodales y simétricos. Mejor que Sturges. RI = rango intercuartílico, medida de dispersión que se verá más adelante) • Rice: 𝑘 = 2𝑛 1 3 (para n>500, pues con pocos datos salen pocas clases) 18ESTADÍSTICA BÁSICA n Raíz Sturges Rice DK 155 12 8 11 22 3.2 Histograma y polígono de frecuencias Para los datos del peso de los 155 vehículos 8 clases 11 clases 12 clases 22 clases Nota: en estos 155 vehículos hay utilitarios, berlinas y camionetas, por lo que es razonable visualizar tres grupos (12 clases) 19ESTADÍSTICA BÁSICA Ejemplo: Longitudes de 100 clavos del mismo tipo, medidos por dos personas, 50 clavos cada una, que usaron calibres diferentes. Las dos concentraciones parecen deberse a los dos calibres ¿Qué calibre es mejor? 3.2 Histograma y polígono de frecuencias 20ESTADÍSTICA BÁSICA Ejemplo: Tiempo que un ordenador tarda en escribir un fichero de 300 Mb en su disco duro. Se hacen dos experimentos; uno en el que el disco duro está desfragmentado, y otro en el que el disco duro tiene una fragmentación del 40%. Cada experimento se repite 79 veces 3.2 Histograma y polígono de frecuencias El histograma también puede hacerse con las frecuencias acumuladas. También puede expresarse en frecuencias relativas o absolutas 22ESTADÍSTICA BÁSICA 3.2 Histograma y polígono de frecuencias Es la representación gráfica de una tabla de frecuencias con datos agrupados Ejemplo: precio de 155 vehículos (fichero cardata) El polígono de frecuencias se consigue uniendo con líneas los puntos centrales de la parte superior del histograma. 23ESTADÍSTICA BÁSICA 3.2 Histograma y polígono de frecuencias Es la representación gráfica de una tabla de frecuencias con datos agrupados Ejemplo: precio de 155 vehículos (fichero cardata) Puede realizarse también acumulando las frecuencias. Al polígono de frecuencias acumulado también se le conoce por ojiva eje X eje Y 24ESTADÍSTICA BÁSICA 3.3 Diagrama de sectores o circular (piechart) Es un círculo dividido en porciones proporcionales a las frecuencias relativas Ejemplo: número de cilindros de 155 vehículos (fichero cardata) 25ESTADÍSTICA BÁSICA 3.4 Series temporales El eje X es el tiempo. Representa la evolución temporal de la variable 26ESTADÍSTICA BÁSICA 3.4 Series temporales El eje X es el tiempo. Representa la evolución temporal de la variable Tema 1: Estadística descriptiva univariante 1. Introducción. El propósito de la estadística 2. Descripción de datos mediante tablas 3. Descripción de datos mediante gráficos 4. Medidas características deun conjunto de datos 28ESTADÍSTICA BÁSICA 4. Medidas características de un conjunto de datos Objetivo: buscamos resumir las características más importantes de los datos en un conjunto reducido de números. Cada característica un número 4.1 Medidas de centralización ¿Cuál es el centro de los datos? Hay muchas medidas alternativas. Las más importantes son • Media aritmética • Mediana • Moda 29ESTADÍSTICA BÁSICA 4.1 Medidas de centralización • Media aritmética Sea un conjunto de observaciones 𝑥1, 𝑥2, … , 𝑥𝑛 Si las n observaciones están formadas por J valores 𝑥1, 𝑥2, … , 𝑥𝐽 diferentes que se repiten: 𝑥1 se repite 𝑛1 veces 𝑥2 se repite 𝑛2 veces ... 𝑥𝐽 se repite 𝑛𝐽 veces Donde 𝑓𝑟(𝑥𝑗) es la frecuencia relativa del valor 𝑥𝑗 ҧ𝑥 = σ𝑖=1 𝑛 𝑥𝑖 𝑛 ҧ𝑥 = 𝑗=1 𝐽 𝑥𝑗𝑓𝑟(𝑥𝑗) 30ESTADÍSTICA BÁSICA 4.1 Medidas de centralización • Media aritmética Ejemplo: 𝑥 = {1,2,3,3,5,5,5,6,6} 1 2 3 3 5 5 5 6 6 4 9 x O bien: 1 1 2 3 1 1 2 3 5 6 4 9 9 9 9 9 x ҧ𝑥 = 𝑗=1 𝐽 𝑥𝑗𝑓𝑟(𝑥𝑗) 31ESTADÍSTICA BÁSICA 4.1 Medidas de centralización • Media aritmética Puede interpretarse como el centro de gravedad de los datos. Si asociamos la frecuencia de cada dato a la masa situada en dicho punto, la media muestral sería el centro de gravedad de las observaciones. Por ejemplo, en un histograma, la media muestral sería el punto de apoyo para que esté en equilibrio. 32ESTADÍSTICA BÁSICA • Media aritmética Cuanto más asimétrica sea más se desplaza la media hacia la cola. En distribuciones muy asimétricas, la media muestral pierde interés como medida que describa alrededor de qué punto se distribuyen los datos. Media Media 4.1 Medidas de centralización 33ESTADÍSTICA BÁSICA • Media aritmética Es sensible a valores atípicos Media Media Un solo dato puede desplazar la media hasta hacerla poco representativa del centro de los datos 4.1 Medidas de centralización 34ESTADÍSTICA BÁSICA • Mediana Es el valor que deja a cada lado el 50% de los datos. Es poco sensible a asimetrías Es insensible a valores atípicos Con un número impar de datos: el dato en posición central 1 2 5 8 11 13 24 28 31 9 datos Mediana=11 1 2 3 5 8 11 13 24 28 31 10 datos Mediana=(8+11)/2=9,5 Con un número par de datos: la media de los dos centrales 4.1 Medidas de centralización 35ESTADÍSTICA BÁSICA • Mediana Es el valor que deja a cada lado el 50% de los datos. Es poco sensible a asimetrías Es insensible a valores atípicos Media= mediana 50% 50% 4.1 Medidas de centralización 36ESTADÍSTICA BÁSICA • Mediana Es el valor que deja a cada lado el 50% de los datos. Es poco sensible a asimetrías Es insensible a valores atípicos Media= mediana 50% 50% Media 50% 50% Mediana La mediana no varía, pero la media se desplaza 4.1 Medidas de centralización 37ESTADÍSTICA BÁSICA • Mediana Es el valor que deja a cada lado el 50% de los datos. Es poco sensible a asimetrías Es insensible a valores atípicos Media= mediana 50% 50% 4.1 Medidas de centralización 38ESTADÍSTICA BÁSICA • Mediana Es el valor que deja a cada lado el 50% de los datos. Es poco sensible a asimetrías Es insensible a valores atípicos 50% 50% 4.1 Medidas de centralización 39ESTADÍSTICA BÁSICA • Mediana Es el valor que deja a cada lado el 50% de los datos. Es poco sensible a asimetrías Es insensible a valores atípicos Mediana 50% 50% Media Los valores atípicos no alteran las posición de la mediana Con valores atípicos y asimetrías fuertes, la mediana es una medida de centralización más útil que la media 4.1 Medidas de centralización 40ESTADÍSTICA BÁSICA • Moda Es el valor más frecuente 1 2 2 2 2 5 5 5 8 8 11 13 Moda=2 Con datos agrupados, es la clase más frecuente (máximo local). Puede haber varias modas , sugiriendo la posible existencia de varios grupos Distribución unimodal Distribución trimodal 4.1 Medidas de centralización 4.1 Medidas de centralización media, mediana, moda 4.2 Medidas de dispersión • Varianza (desviación típica) • Cuasivarianza (cuasidesviación típica) • Rango • Varianza Promedio de desviaciones a la media, al cuadrado Desviación típica Coeficiente de variación • Percentiles • Cuartiles. Rango intercuartílico • Diagrama de caja (box-plot) • Cuasivarianza Se puede justificar teóricamente (próximos capítulos) que miden mejor la dispersión de los datos. 𝑠𝑥 2 = σ𝑖=1 𝑛 𝑥𝑖 − ҧ𝑥 2 𝑛 𝑠𝑥 = σ𝑖=1 𝑛 𝑥𝑖 − ҧ𝑥 2 𝑛 𝐶𝑉 = 𝑠𝑥 ҧ𝑥 Ƹ𝑠𝑥 2 = σ𝑖=1 𝑛 𝑥𝑖 − ҧ𝑥 2 𝑛 − 1 Ƹ𝑠𝑥 = σ𝑖=1 𝑛 𝑥𝑖 − ҧ𝑥 2 𝑛 − 1 41Cuasidesviación típica Varianza Cuasivarianza • Varianza y Cuasivarianza Promedio de desviaciones a la media, al cuadrado media media Poca dispersión Baja varianza Baja desviación típica Bajo CV Baja cuasivarianza Baja cuasidesviación típica Mucha dispersión Alta varianza Alta desviación típica Alto CV Alta cuasivarianza Alta cuasidesviación típica 𝑠𝑥 2 = σ𝑖=1 𝑛 𝑥𝑖 − ҧ𝑥 2 𝑛 43ESTADÍSTICA BÁSICA Ejemplo: Longitudes de 100 clavos del mismo tipo, medidos por dos personas, 50 clavos cada una, que usaron calibres diferentes. ¿Qué calibre es mejor? Varianza Calibre 1: 7.25 mm² Varianza Calibre 2: 21.47 mm² 4.2 Medidas de dispersión 𝑠𝑥 2 = σ𝑖=1 𝑛 𝑥𝑖 − ҧ𝑥 2 𝑛 44ESTADÍSTICA BÁSICA • Rango o recorrido Valor máximo menos valor mínimo X: 1 2 5 8 11 13 24 28 31 Rango: 31-1=30 A mayor rango mayor dispersión 4.2 Medidas de dispersión Rango Rango 45ESTADÍSTICA BÁSICA • Percentiles Los percentiles son los 99 valores de los datos correspondientes al 1%, al 2%... y al 99% de los datos. Dado un conjunto de datos, el valor 𝒎 es el percentil 𝒑, si el 𝒑 × 𝟏𝟎𝟎% de los datos son menores o iguales a 𝒎 Si un estudiante que mide 1,69 m tiene una altura que es el percentil 30 de su clase, quiere decir que el 30% de sus compañeros mide menos de 1,69 m Ejemplo: Ejemplo: La siguiente figura es el polígono de frecuencias acumulado de las estaturas del fichero AlumnosIndustruales3. A la vista de esta figura, determina los percentiles 20 y 80. 4.2 Medidas de dispersión 46ESTADÍSTICA BÁSICA • Cuartiles Q1, Q2, Q3 Son los valores que dividen la muestra en 4 grupos, cada uno con el 25% de los datos (aproximadamente) Entre el mínimo y Q1 Entre Q1 y Q2 Entre Q2 y Q3 Entre Q3 y el máximo 25% de los datos 25% de los datos 25% de los datos 25% de los datos 50% 50% Q1=percentil 25;Q2 = mediana;Q3=percentil 75 Q3-Q1=Rango Intercuartílico (R.I.) min maxQ2Q1 Q3 25% 25% 25% 25% Hay varios métodos para calcular Q1 y Q3. Con pocos datos pueden dar valores diferentes 4.2 Medidas de dispersión 47ESTADÍSTICA BÁSICA • Cuartiles Q1, Q2, Q3 Método sencillo para calcular cuartiles 𝑥: {1,1,3,3,5,9,11,14,15} 1º: Obtenemos la mediana Q2 5 2º: Excluimos ese valor y nos quedamos con dos grupos de datos, uno a cada lado de la mediana izda.: {1,1,3,3,} dcha.: {9,11,14,15} 3º: Q1 es la mediana del grupo que queda a la izquierda Q1=(1+3)/2=2 4º: Q3 es la mediana del grupo que queda a la derecha Q3=(11+14)/2=12.5 4.2 Medidas de dispersión 48ESTADÍSTICA BÁSICA • Diagrama de caja (box-plot) Es la representación gráfica de los cuartiles min maxQ2Q1 Q3 25% 25% 25% 25% 4.2 Medidas de dispersión 49ESTADÍSTICA BÁSICA Los gráficos Box-plot son muy útiles para: • Comparar grupos • Ver asimetrías • Detectar atípicos ** 4.2 Medidas de dispersión 50ESTADÍSTICA BÁSICA Datos extremos (o ‘atípicos’) 4.2 Medidas de dispersión 51ESTADÍSTICA BÁSICA Primer paso Para construir un Box-plot con marcas de atípicos 4.2 Medidas de dispersión 52ESTADÍSTICA BÁSICA Segundo paso 4.2 Medidas de dispersión 53ESTADÍSTICA BÁSICA Tercer paso Los puntos que caigan en estas zonas se marcan 4.2 Medidas de dispersión 54ESTADÍSTICA BÁSICA Tercer paso Las líneas laterales se extienden sólo hasta el último puntodentro de la barrera interna 4.2 Medidas de dispersión 55ESTADÍSTICA BÁSICA Ojo!! Cuando hay asimetrías, un dato extremo no debe necesariamente catalogarse como atípico Dato atípico: dato que se sale del patrón general de los datos La asimetría indica que al final de la cola habrá cada vez menos datos. No es atípico. Es compatible con el patrón de los datos Sí es atípico 4.2 Medidas de dispersión 56ESTADÍSTICA BÁSICA Es compatible con la asimetría positiva 4.2 Medidas de dispersión 4.1 Medidas de centralización media, mediana, moda 4.2 Medidas de dispersión varianza, desv. típica, coeficiente de variación, meda, rango, cuartiles, box-plot 4.3 Otras medidas de forma • Medidas de asimetría • Medidas de apuntamiento • Medidas de asimetría Coeficiente de asimetría (de Fisher) •CA = 0; si la distribución es perfectamente simétrica •CA > 0; si hay asimetría positiva •CA < 0: si hay asimetría negativa 𝐶𝐴 = σ𝑖=1 𝑛 𝑥𝑖 − ҧ𝑥 3 𝑛𝑠𝑥 3 • Medidas de asimetría Coeficiente de asimetría de Fisher • CA = 0; si la distribución es perfectamente simétrica • CA > 0; si hay asimetría positiva • CA < 0: si hay asimetría negativa 𝐶𝐴 = σ𝑖=1 𝑛 𝑥𝑖 − ҧ𝑥 3 𝑛𝑠𝑥 3 Coeficientes de asimetría de Pearson (old-fashion) Sólo tiene sentido en distribuciones unimodales 𝑆𝑘 < 0 𝑆𝑘 = 0 𝑆𝑘 > 0 Primer coeficiente de Pearson: Segundo coeficiente de Pearson: • Medidas de apuntamiento Coeficiente de apuntamiento o Curtosis •CAp = 3; distribución con forma de campana •CAp>3; distribución más picuda que una campana •CAp<3; distribución menos picuda que una campana CAp=3CAp<3 CAp>3 Muchos programas de Estadística definen curtosis como CAp-3. Esta medida recibe también el nombre de ‘Exceso de curtosis’. 𝐾 = σ𝑖=1 𝑛 𝑥𝑖 − ҧ𝑥 4 𝑛𝑠𝑥 4 61ESTADÍSTICA BÁSICA (Curtosis-3: ‘exceso de curtosis’) Valores de curtosis muy bajos pueden ser indicio de ‘multimodalidad’ . • Medidas de apuntamiento 62ESTADÍSTICA BÁSICA Ejercicios • El fichero EDB_2016_II.xlsx contiene información de los alumnos de EDB del ciclo 2016-II. Haz un histograma de la variable IA (índice acumulado) utilizando un número de clases adecuado. Comenta sus características más importantes y busca un valor numérico que cuantifique cada una de ellas. • Usando este mismo fichero, la siguiente figura muestra las ojivas de la variable IA de cada programa académico. ¿En cuál te gustaría estar? 18,016,515,013,512,010,59,0 100 80 60 40 20 0 IA P o rc e n ta je a c u m u la d o IC IIS IME PA Histograma de IA EDB_2016_II.xlsx 63ESTADÍSTICA BÁSICA Ejercicios • Siguiendo con este mismo fichero, analiza con diagramas de barras la diferencias de sexo en el alumnado de cada programa académico. • Haz un análisis descriptivo del IA por programa académico. Específicamente, compara sus histogramas y medidas características que permitan comparar sus diferentes medidas de centralidad, dispersión y forma. • Compara el IA de cada programa académico con diagramas box-plot. • Calcula el porcentaje de estudiantes que hay en cada programa y el porcentaje de chicos y chicas en cada programa. Para ellos calcula medias de variables binarias EDB_2016_II.xlsx 64ESTADÍSTICA BÁSICA Ejercicios El fichero Peso_langostinos_semanas.xlsx tiene el peso de los langostinos que se cultivan en una piscifactoría del norte de Piura. Los langostinos se cultivan en grandes piscinas. Cada semana se registra el peso medio de los langostinos en cada piscina. El fichero tiene, por filas, los valores (medios) de cada piscina, y por columnas, los valores de cada semana. Utilizando las técnicas estadísticas que consideres apropiadas, compara la distribución de los pesos en la semana de siembras, la semana 5 y la semana 10. Peso_langostinos_semanas.xlsx euroweight.MTW • El fichero euroweight.MTW tiene el peso de 2000 monedas de un euro. Las monedas son nuevas, y vienen en paquetes (lotes) de 500. Haz un estudio descriptivo del peso de estas monedas. • Mediante box-plots, analiza las diferencias que pueda haber en el peso de cada lote
Compartir