Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Estadística para las Ciencias Sociales Unidad 4: Medidas de dispersión M.C.M. Rodrigo Hidalgo Linares Orden del día ● Objetivos ● Introducción ● Medidas de dispersión ● Análisis de Caso II ● Pregunta de investigación ● Conclusión(es) ● Preguntas • Resaltar la importancia de la estadística pero sobre todo de las matemáticas, así como del buen manejo de la información. • Calcular medidas de dispersión para datos no agrupados y agrupados. • Interpretar el significado de la desviación estándar, así como identificar las aplicaciones de la desviación estándar y el coeficiente de variación. Objetivos Introducción Reader’s Digest vs el Tabaco (1952 – Medición de tóxicos) Aprovechando la Estadística La conclusión a la que llegó la revista, publicada con cifras detalladas, fue que todas las marcas eran virtualmente idénticas y que no había ninguna diferencia fuera cual fuera la que se fumase. Pero alguien se fijo en un cosa: en las listas donde se detallaban las cantidades casi idénticas de los distintos venenos, algún cigarrillo debía figurar al final, y éste era el Old Gold. Le preguntaron a 113 597 médicos de todas las especialidades Los titulares y el texto decían simplemente que de todos los cigarrillos examinados por la gran revista nacional, el Old Gold era el que contenía menor cantidad de estas cosas indeseables. Se excluyeron todas las cifras, así como cualquier indicación de que la diferencia fuera de tan escaso valor. ¿Diferencia significativa? Un efecto significativo es aquel en el que el valor obtenido se encuentra a una distancia considerable, en términos de desviaciones típicas, de la media aritmética. Una desviación típica de la media no es un efecto significativo. Para algunas áreas de investigación en ciencias se considera algo realmente extraordinario cuando el resultado que se obtiene se encuentra a cinco desviaciones típicas de la media. Si queremos evaluar qué tan significativo es el hecho de que Old Gold esté por debajo de la media, debemos saber que tan dispersos están los datos. Resultó que los Old Gold se desvían de la media en sólo poco más de una desviación estándar (nicotina) y se desvían de la media en 2.2 desviaciones estándares (alquitranes), pero las diferencias no son significativas. Desafortunadamente esto sería el principio de las mentiras del marketing Medidas de dispersión Desarrollo del tema Aunque dos diferentes conjuntos de datos tengan la misma media, es importante saber cómo se dispersan éstos. 1 32 Rango Varianza Desviación Estándar Principales medidas de dispersión 4 65 Coeficiente de variación Índice de Asimetría Índice de Curtosis Rango (Range) Generalidades Es la medida de dispersión más fácil de calcular. Es especialmente útil cuando sólo queremos analizar el alcance de las variaciones. También se conoce como amplitud o recorrido. Es la diferencia entre el valor máximo y mínimo de un conjunto de datos. Rango Seguros de “vida” Una compañía de seguros desea conocerla variación que existe en las ventas de sus 8 vendedores y de esa manera determinar la productividad de cada uno de ellos. Ventas en un mes: 8, 11, 5, 14, 11, 8, 11, 16. 𝑹𝒂𝒏𝒈𝒐 = 𝑽𝒂𝒍𝒐𝒓 𝒎á𝒙𝒊𝒎𝒐 – 𝑽𝒂𝒍𝒐𝒓𝒎í𝒏𝒊𝒎𝒐 = 𝟏𝟔 – 𝟓 = 𝟏𝟏 El rango es 11, lo cual indica una gran dispersión o variabilidad, ya que sería ilógico que si un vendedor logra vender 16 seguros, el otro sólo venda 5 si se trata de los mismos seguros. Lo anterior puede atribuirse a la experiencia, a la capacitación o a la cartera de clientes que cada vendedor tiene. El ejemplo de la Bolsa de Valores El desempeño del precio de las acciones en el mercado bursátil se suele reconocer por los rangos (al citar los precios máximos y mínimos de cada sesión) y así interpretar qué tanta volatilidad manifestó la acción en una jornada o periodo. Si se comparan dos acciones, se puede interpretar que la acción que tiene mayor variación es aquella que tiene mayor rango. Ventajas y desventajas Es especialmente útil cuando se desea saber que tan extremos son los límites máximos y mínimos de una variable. Se ve afectada por valores extremos o atípicos (muy grandes o muy pequeños). V en ta ja s D esven tajas Características: • Es la medida de dispersión más fácil de calcular. • Se obtiene mediante la resta de los valores máximos y mínimos de un conjunto de datos. Varianza (Variance) Generalidades Toma en cuenta la dispersión que tienen los datos respecto de su media. Su resultado se expresa en unidades al cuadrado. Se representa mediante 𝜎2 (poblacional) y 𝑠2 (muestral). Para obtenerla hay que distinguir cuando los datos están (o no) agrupados. Varianza Varianza poblacional para datos no agrupados La varianza poblacional para una serie de datos no agrupada: 𝑥1, 𝑥2, 𝑥3, 𝑥4, … , 𝑥𝑁 se calcula de la siguiente manera: 𝜎2 = σ𝑖=1 𝑁 𝑥𝑖−𝜇 2 𝑁 Las diferencias se toman al cuadrado para evitar que la suma entre positivos y negativos sea cero. La varianza es igual a cero si y sólo si los datos son iguales entre sí. 0 2 4 6 8 10 12 14 A B C Varianza muestral para datos no agrupados La varianza muestral para una serie de datos no agrupada: 𝑥1, 𝑥2, 𝑥3, 𝑥4, … , 𝑥𝑛 se calcula de la siguiente manera: 𝑠2 = σ𝑖=1 𝑛 𝑥𝑖− ҧ𝑥 2 𝑛−1 La diferencia con la varianza poblacional es que el denominador no es igual al tamaño de la muestra, sino que el denominador es 𝑛 − 1. Método corto de la Varianza (no agrupados) Las ecuaciones anteriores se pueden transformar en las siguientes: 𝜎2 = σ𝑖=1 𝑁 𝑥𝑖 2 𝑁 − 𝜇2 𝑠2 = σ𝑖=1 𝑛 𝑥𝑖 2 − 𝑛 ҧ𝑥 𝑛 − 1 Cabe señalar que éstas fórmulas nos conducen al mismo resultado que si se hubieran empleado las fórmulas anteriores, siempre y cuando no se hayan omitido algunos dígitos en las distintas operaciones. Ejemplo: Venta de seguros Regresemos al caso de la venta de seguros, los datos son: 8, 11, 5, 14, 11, 8, 11, 16 y 𝛍 = 𝟏𝟎. 𝟓 𝝈𝟐 = σ𝒊=𝟏 𝑵 𝒙𝒊 − 𝝁 𝟐 𝑵 = 𝟖𝟔 𝟖 = 𝟏𝟎. 𝟕𝟓 𝝈𝟐 = σ𝒊=𝟏 𝑵 𝒙𝒊 𝟐 𝑵 − 𝝁𝟐 = 𝟗𝟔𝟖 𝟖 − 𝟏𝟎. 𝟓 𝟐 = 𝟏𝟐𝟏 − 𝟏𝟏𝟎. 𝟐𝟓 = 𝟏𝟎. 𝟕𝟓 Ejemplo: Venta de seguros Esta medida de variación no tiene un significado práctico debido a que el resultado obtenido está expresado en términos cuadrados, es decir, la variabilidad de seguros vendidos es de 10.75 seguros cuadrados. Por esa razón, la varianza sólo tiene sentido lógico cuando comparamos diferentes conjuntos de datos con la misma unidad de medida, es decir, su interpretación es una medida relativa en el sentido de que aquel conjunto que tenga la mayor varianza será el de mayor grado de dispersión. Tipo de cambio entre el peso mexicano y el dólar estadounidense en los años 1995 y 2000 Tipo de cambio entre el peso mexicano y el dólar estadounidense en los años 1995 y 2000 𝒔𝟏 𝟐 = 𝟓. 𝟏𝟓𝟖𝟒 𝟏𝟏 = 𝟎. 𝟒𝟔𝟖𝟗 𝒔𝟐 𝟐 = 𝟎. 𝟐𝟎𝟐𝟑 𝟏𝟏 = 𝟎. 𝟎𝟏𝟖𝟑 Varianza, contraste y comparaciones Este contraste se debe a la diferencia en los escenarios macroeconómicos que se vivieron durante esos años. Al ser mayor la varianza del año 1995, se refleja una gran volatilidad y nerviosismo en el mercado cambiario producido por una fuerte crisis económica que se vivía en ese año. En el año 2000 podemos observar que el peso mexicano gozó de una gran fortaleza, pues su cotización se mantuvo muy estable en el transcurso de los 12 meses, incluso en el mes de junio, cuando se presentaba la recta final de un proceso electoral en el país. Varianza para datos agrupados La varianza poblacional para una serie de datos agrupada se calcula así: 𝜎2 = σ𝑖=1 𝑁 [𝑓𝑖 𝑚𝑖−𝜇 2] 𝑁 La varianza muestral para una serie de datos agrupada se calcula así: 𝑠2 = σ𝑖=1 𝑛 [𝑓𝑖 𝑚𝑖− ҧ𝑥 2] 𝑛−1 Ventas telefónicas (muestral) Una gran empresa de ventas por teléfono quiere conocer la variación existente en las ventas realizadas (en miles de pesos) por sus operadores.Ventas telefónicas (muestral) 𝜇 = 15.635 𝑠2 = σ𝑖=1 𝑛 [𝑓𝑖 𝑚𝑖 − ҧ𝑥 2] 𝑛 − 1 = 693.76 24 = 28.9066 La varianza es de 28.9 miles de pesos al cuadrado Ventajas y Desventajas Se utiliza para comparar la dispersión de dos o mas conjuntos de datos que se encuentren expresados en la misma unidad. Las unidades en las que se expresa normalmente no tienen sentido lógico. No puede comparar la dispersión de conjuntos de datos que no estén expresados en las mismas unidades. V en ta ja s D esven tajas Características: • Mide la variabilidad tomando en cuenta el cuadrado de la “dispersión” de los datos respecto de su media. • Siempre adquiere valores mayores o iguales a cero. Desviación estándar Generalidades Es una medida de variabilidad de los datos respecto de su media. Su resultado se expresa en las mismas unidades que los datos. Se representa mediante 𝜎 (poblacional) y 𝑠 (muestral). Para obtenerla hay que distinguir cuando los datos están (o no) agrupados. Desviación estándar Desviación Estándar Datos no agrupados Poblacional: 𝜎 = 𝜎2 = σ𝑖=1 𝑁 𝑥𝑖 − 𝜇 2 𝑁 Muestral: 𝑠 = 𝑠2 = σ𝑖=1 𝑛 𝑥𝑖 − ҧ𝑥 2 𝑛 − 1 Datos agrupados Poblacional: 𝜎 = 𝜎2 = σ𝑖=1 𝑁 [𝑓𝑖 𝑚𝑖 − 𝜇 2] 𝑁 Muestral: 𝑠 = 𝑠2 = σ𝑖=1 𝑛 [𝑓𝑖 𝑚𝑖 − ҧ𝑥 2] 𝑛 − 1 Ventas telefónicas (muestral) 𝑠 = σ𝑖=1 𝑛 [𝑓𝑖 𝑚𝑖 − ҧ𝑥 2] 𝑛 − 1 = 693.76 24 = 28.9066 = 5.3764 La desviación típica de las ventas por teléfono es de 5.3764 miles de pesos Ventajas y Desventajas Indica la desviación o variabilidad que tienen los datos respecto de su media en las mismas unidades que las de la variable analizada. No puede comparar la dispersión de conjuntos de datos que no estén expresados en las mismas unidades. V en ta ja s D esven tajas Características: • Siempre adquiere valores mayores o iguales a cero. • Se puede utilizar para comparar dispersión entre distintos conjuntos de datos (con las mismas unidades). Coeficiente de variación Generalidades Señala que tan grande es la magnitud de la desviación estándar. Se representa mediante las siglas CV. Mide la dispersión en términos de porcentajes y no en las unidades de la variable. Se utiliza para comparar la dispersión entre conjuntos con distintas unidades de medida. Coeficiente de variación Coeficiente de variación Poblaciones 𝐶𝑉 = 𝜎 𝜇 × 100% Muestras 𝐶𝑉 = 𝑠 ҧ𝑥 × 100% En el caso de que nuestros datos se representen con números negativos, entonces deberemos tomar como denominador el valor absoluto de la media poblacional o el valor absoluto de la media muestral. Si el CV es menor o igual al 30%, significa que la media aritmética es representativa del conjunto de datos, por ende el conjunto de datos es "Homogéneo". Por el contrario, si el CV supera al 30%, el promedio no será representativo del conjunto de datos (por lo que resultará "Heterogéneo"). Los analistas de un centro financiero desean comparar el desempeño del tipo de cambio y el porcentaje de la participación extranjera en el mercado accionario de la Bolsa Mexicana de Valores durante el año 2000. 𝐶𝑉1 = 𝑠 ҧ𝑥 × 100% = 0.0183 9.44 × 100% = 0.1352 9.44 × 100% = 0.0143 × 100% = 𝟏. 𝟒𝟑𝟐𝟐% 𝐶𝑉2 = 𝑠 ҧ𝑥 × 100% = 2.6662 44.75 × 100% = 1.6328 44.75 × 100% = 0.0364 × 100% = 𝟑. 𝟔𝟒𝟖𝟕% Los analistas de este centro financiero pueden concluir que el mercado cambiario durante el año 2000 tuvo mayor estabilidad que la participación extranjera en el mercado accionario, pues el coeficiente de variación del primero fue de 1.43%, mientras que el del segundo fue de 3.64%. De esta forma, los analistas comparan la variación de dos mercados que tienen distintas unidades de medición. Ventajas y Desventajas Se utiliza para comparar conjuntos de datos que se expresan en las mismas o en distintas unidades de medida. Afecta si en uno de los conjuntos de mediciones sólo existen datos negativos y en el otro conjunto de datos únicamente hay datos positivos. V en ta ja s D esven tajas Características: • Debemos tener cuidado cuando la media aritmética se aproxima a 0. • Podemos arreglar la desventaja tomando el valor absoluto del denominador. Índice de Asimetría Generalidades El posicionamiento de las medidas de tendencia central está en función del sesgo (+ o -). El sesgo positivo es cuando la media es mayor que la mediana y que la moda. El sesgo negativo es cuando la media es menor que la moda. Cualquier tipo de sesgo refleja una “cola” alargada a la izquierda (-) o a la derecha (+). Índice de Asimetría Índice de Asimetría El índice de asimetría es una medida de dispersión mediante la cual se conoce el tipo y la magnitud de sesgo en una distribución de frecuencias. Se representa mediante la expresión 𝛼3. Poblacional (no agrupados): 𝛼3 = σ𝑖=1 𝑁 𝑥𝑖 − 𝜇 3 𝑁 𝜎3 Muestral (no agrupados): 𝛼3 = σ𝑖=1 𝑛 𝑥𝑖 − ҧ𝑥 3 𝑛 − 1 𝑠3 Poblacional (agrupados): 𝛼3 = σ𝑖=1 𝑁 𝑓𝑖 𝑚𝑖 − 𝜇 3 𝑁 𝜎3 Muestral (agrupados): 𝛼3 = σ𝑖=1 𝑛 𝑓𝑖 𝑚𝑖 − ҧ𝑥 3 𝑛 − 1 𝑠3 Ín d ic e d e a s im e tr ía 𝛼3 = 0 Distribución simétrica o insesgada. 𝛼3 < 0 Asimétricamente sesgada a la izquierda (negativa): cola hacia la izquierda y valor más alto hacia la derecha. 𝛼3 > 0 Asimétricamente sesgada a la derecha (positiva): cola hacia la derecha y valor más alto hacia la izquierda. De vuelta a las ventas por teléfono: 𝛼3 = σ𝑖=1 𝑛 𝑓𝑖 𝑚𝑖 − ҧ𝑥 3 𝑛 − 1 𝑠3 = 453.4272 24 5.3764 3 = 18.8928 155.4084 = 0.1215 Con el resultado se puede observar que el coeficiente es cercano a cero, así la distribución se caracteriza por ser insesgada, es decir, que la curva tiene una forma simétrica tal que las colas tienden a ser iguales. Índice de Curtosis Kurtosis Generalidades Es una medida de dispersión que mide la concentración o dispersión de los datos alrededor de la media. Representa el grado de apuntamiento de la gráfica (puntiaguda o aplanada). Si es puntiaguda entonces los datos se acumulan cerca de la media. Si es muy chata, entonces hay una gran dispersión entre los datos. Índice de Curtosis Índice de Curtosis Índice de Curtosis Poblacional (no agrupados): 𝛼4 = σ𝑖=1 𝑁 𝑥𝑖 − 𝜇 4 𝑁 𝜎4 Muestral (no agrupados): 𝛼4 = σ𝑖=1 𝑛 𝑥𝑖 − ҧ𝑥 4 𝑛 − 1 𝑠4 Poblacional (agrupados): 𝛼4 = σ𝑖=1 𝑁 𝑓𝑖 𝑚𝑖 − 𝜇 4 𝑁 𝜎4 Muestral (agrupados): 𝛼4 = σ𝑖=1 𝑛 𝑓𝑖 𝑚𝑖 − ҧ𝑥 4 𝑛 − 1 𝑠4 Ín d ic e d e C u rt o si s 𝛼4 = 3 Distribución mesocúrtica (ni tan puntiaguda ni tan aplanada). 𝛼4 < 3 Distribución platicúrtica (muy plana = mayor dispersión de los datos). 𝛼4 > 3 Distribución leptocúrtica (muy puntiaguda = menor dispersión de los datos). De vuelta a las ventas por teléfono: 𝛼4 = σ𝑖=1 𝑛 𝑓𝑖 𝑚𝑖 − ҧ𝑥 4 𝑛 − 1 𝑠4 = 45 258.7992 24 5.3764 4 = 1885.7833 835.5381 = 2.2569 Con el resultado se puede observar que el coeficiente es menor a tres, por lo que la distribución se caracteriza por ser platicúrtica, es decir, que la curva tiene una forma tal que su apuntamiento es achatado, tal y como se muestra a continuación: Análisis de Caso II Medidas de dispersión Análisis de Caso II Instrucciones: Para la resolución del análisis de caso, es necesario asistir a la Open Class de Semana 4 y resolver el análisis abriendo el micrófono en la sesión. De ser aprobada la participación por el docente, debes entregar este formato en el espacio de Trabajo Final semana 4 para obtener la calificación correspondiente. ¿De qué manera las medidas de dispersión te dan los elementos suficientes para afirmar o rechazar una suposición? Una pequeña empresa a realizado encuestas a una muestra de 100 personas respecto a sus preferencias sobre uno de sus productos. Para facilitar su análisis de datos han organizado las edadesde los encuestados en datos agrupados. Obtén la media, la varianza y la desviación estándar. Edades fi mi 𝒎𝒊 ⋅ 𝒇𝒊 𝒎𝒊 − ഥ𝒙 𝒎𝒊 − ഥ𝒙 𝟐 𝒇𝒊 ⋅ 𝒎𝒊 − ഥ𝒙 𝟐 60 - 64 12 55 - 59 26 50 - 54 34 45 - 49 20 40 - 44 8 Sumatoria • Media: • Varianza: • Desviación Estándar: • ¿Cómo podemos interpretar los resultados de la varianza y la media? Una empresa realizó una encuesta a 100 personas sobre la preferencia de uno de sus productos, dichas personas tienen una edad media de _____ años. Con base en ello se realizó un análisis estadístico y se obtuvieron medidas de dispersión que permiten describir lo siguiente: “Se obtuvo una desviación estándar de _____ años respecto a la media de _____ años, ello nos indica que la edad de las personas que prefieren dicho producto oscila entre _____ y _____ años.” Pregunta de investigación Existen diferentes conceptos de medias de variabilidad en matemáticas, como la desviación media (desviación absoluta promedio). ¿Estas variaciones del concepto tienen una aplicación en la estadística? Pregunta de investigación σ𝑖=1 𝑁 |𝑥𝑖 − 𝜇| 𝑁 Conclusión Conclusiones • La estadística es una herramienta para la descripción de datos que nos pueden ayudar a tomar decisiones. • Las diferentes medidas de dispersión son un auxiliar para averiguar cómo están distribuidos los datos alrededor de la media. • Existen ciertos índices que también me puntualizan si la gráfica de distribuciones tiene una forma alargada o achatada o una inclinación hacia la derecha o a la izquierda. Preguntas Referencias y material extra Referencias • Denuncian a Tik Tok por publicidad engañosa. • Curiosidades sobre los cigarros. • Donde se vive el sabor. • Emulador de Calculadora Casio. https://www.xataka.com/legislacion-y-derechos/denuncian-a-tiktok-comision-europea-publicidad-enganosa-menores-recoleccion-datos-practicas-abusivas https://mercado.com.ar/management-marketing/5-cosas-que-no-sabias-de-marlboro/ https://www.milenio.com/cultura/laberinto/donde-se-vive-el-sabor https://maralboran.eu/matematicas/2016/05/25/emuladores-de-calculadoras-casio/ Recomendaciones Sólo la Constancia y la Decisión lo consiguen todo
Compartir