Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 1 Universidad Abierta y a Distancia de México Licenciatura en Matemáticas Estadística I 3er semestre Unidad 1. Estadística descriptiva Clave: 05142318/06142318 Universidad Abierta y a Distancia de México Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 2 Í n d i c e Unidad 1. Estadística Descriptiva ................................................................................... 3 Presentación de la unidad ............................................................................................... 3 Propósitos de la unidad .................................................................................................. 3 Competencia específica .................................................................................................. 3 Introducción al estudio de la estadística ....................................................................... 3 Estadística .................................................................................................................................... 6 Estadística descriptiva ............................................................................................................. 6 Inferencia estadística ................................................................................................................ 7 Medidas de Tendencia Central ....................................................................................... 8 Escalas y tipos de variables .................................................................................................... 8 Media, moda, mediana media recortada. ........................................................................... 10 Medidas de dispersión .................................................................................................. 17 Varianza, desviación estándar, rango intercuartílico. .................................................... 17 Diagramas de caja .................................................................................................................... 19 Medidas de Asociación ................................................................................................. 28 Coeficiente correlación de Pearson y Spearman ............................................................ 28 Cierre de la unidad......................................................................................................... 32 Para saber más .............................................................................................................. 32 Fuentes de consulta ...................................................................................................... 32 Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 3 Unidad 1. Estadística Descriptiva Presentación de la unidad Esta primera unidad está dedicada a la Estadística descriptiva. Uno de los principales objetivos es la recolección de datos a través de muestras. Estas enormes cantidades de datos se han resumir en unos parámetros o medidas que le proporcionen al investigador, se trata de, la descripción lo más cercana posible al comportamiento real de la población que es objeto de estudio. Para este fin se cuenta con las medidas de tendencia central, dispersión y asociación, que serán vistas en esta unidad. Propósitos de la unidad Utilizar las medidas de tendencia central, así como las de dispersión y de asociación con la finalidad de describir e interpretar la información obtenida. Competencia específica Analizar un conjunto de datos agrupados y no agrupados que permiten resolver problemas de tipo estadístico utilizando las medidas de tendencia central, dispersión y asociación Introducción al estudio de la estadística A lo largo de la historia de las matemáticas se han desarrollado áreas de conocimiento específico, como el caso de la Estadística, cuyo uso data de las primeras civilizaciones. En textos antiguos se aprecia cómo algunos emperadores o reyes decidieron realizar censos de poblaciones conquistadas. La estadística se convirtió en una herramienta muy útil para el conocimiento y manejo de las nuevas conquistas. Identificar la situación de una población es muy importante a la hora de tomar decisiones. Al analizar actividades muy antiguas como los Juegos de azar, como lanzar un par de dados ¿a qué numero apostar? ¿lo dejaban a la suerte?¿Todos los números tienen la misma probabilidad de salir? Para contestar estas preguntas se desarrolló la Estadística. A continuación se revisarán los principales conceptos de esta rama de las Matemáticas: Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 4 Población: Todo estudio estadístico investiga una población para lo cual el investigador el científico o la empresa que paga el estudio define los límites de la población, la frontera. Por ejemplo: si se investiga el crecimiento demográfico en el Distrito Federal se analiza sólo este fenómeno en el territorio de esta ciudad. . . A otro investigador puede interesarle sólo la variación demográfica en la delegación Miguel Hidalgo, por tanto su población está acotada a la demarcación de esta delegación. En términos generales una población es un conjunto de cosas, objetos, individuos, que tienen características en común. La población es el objeto de estudio. Ejemplo1. Si se desea estudiar la edad promedio de los habitantes de la ciudad de México es importante limitar la investigación sólo en las 16 delegaciones que integran al Distrito Federal. En este ejemplo la Ciudad de México es la población objeto de estudio. En otro ejemplo la misma localidad puede ser sólo parte de la población objeto de estudio. A su vez puede darse el caso de que únicamente se interese conocer el dato de una delegación. Ejemplo 2. El delegado (a) en turno de la delegación Azcapotzalco desea saber el nivel de estudios de su población adulta. El estudio queda suscrito a esta localidad. . En este ejemplo la delegación Azcapotzalco es la población objeto de estudio. Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 5 Muestra: Una muestra es cualquier subconjunto de la población, es decir, cualquier pequeño grupo seleccionado de la totalidad de elementos. Ejemplo 3. Si se desea estudiar la edad promedio de los habitantes de la Ciudad de México, Nuestra población queda limitada al Distrito Federal. Otro ejemplo de muestra es si se toman los datos únicamente de la delegación Azcapotzalco (o Milpa Alta, o cualquier otra). En este ejemplo la Ciudad de México es la población objeto de estudio. La delegación Azcapotzalco puede ser una muestra de esa población, aunque probablemente poco representativa para todo el Distrito Federal. Muestra aleatoria: La muestra aleatoria es un subconjunto representativo de la población elegida. Significa que cada elemento de la población debe de tener la misma oportunidad de ser seleccionado. De este modo los resultados que se obtengan pueden ser generalizados al resto de la población. Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 6 Nota: Se pueden tener varias muestras aleatorias de una población. Y a pesar de ser aleatorias y representativas, estas van a arrojar valores diferentes, por lo tanto es necesariotener claro de que sólo nos dan idea de los valores, pero no la información real de la población. Estadística La Estadística es la rama de las Matemática que se encarga del estudio de los métodos, recolección de información e interpretación de ésta en forma adecuada. También se encarga del análisis de la información y la toma de decisiones con base en los resultados de este análisis. Actualmente la Estadística es la herramienta primordial de la investigación científica tanto para las Ciencias sociales como para las Ciencias exactas. Cabe señalar la importancia que la Estadística ha representado para los gobiernos y sus instituciones, pues se ha convertido en una herramienta imprescindible para conocer la magnitud de los nacimientos, muertes, nivel de estudios, nivel de ingresos, entre otros cosas, que constituyen datos poblaciones importantes para todo gobierno. La Estadística se divide en dos grandes campos de estudio: A lo largo de este curso se estudiarán los principales temas de ambas áreas. En la unidad uno se revisará la Estadística descriptiva; en tanto, las unidades restantes estarán dedicadas a la Estadística Inferencial. Estadística descriptiva La Estadística descriptiva es aquella rama o área de estudio de la Estadística que se Áreas de la Estadística Estadística descriptiva Estadística inferencial Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 7 encarga del conocimiento de los métodos adecuados para la recolección de datos, de la organización, presentación y descripción de toda la información numérica y describir las características principales de una población que es objeto de estudio. La Estadística descriptica emplea métodos que le permiten resumir los principales aspectos de los valores de la muestra de la población elegida. Asimismo, se basa en cálculos numéricos y gráficos para sus fines. Las graficas de barras, el gráfico circular, los pictogramas, los histogramas, los diagramas de árbol, entre otros son valiosas herramientas para presentar los resultados obtenidos. En este curso, se estudiarán las Medidas de Tendencia Central, las Medidas de Dispersión y las Medidas de Asociación. Medidas de tendencia central.- son quizá las más conocidas, consideradas como los pilares sobre los cuales se edifica el resto de la estadística. Estas medidas permiten la descripción (Estadística descriptiva) de los datos, ya que con los valores obtenidos se pueden realizar aseveraciones cuantitativas que indiquen las características de la población. Medidas de dispersión.- también se conocen como medidas de variabilidad y se utilizan para establecer la variación de los datos respecto al valor central. Para fines de este curso se verá la varianza, desviación estándar, rango intercuartílico y diagramas de caja. Medidas de asociación.- calculan la asociación entre varías variables estadísticas, en este curso se abordará únicamente el coeficiente de correlación. Inferencia estadística La Estadística inferencial se encarga del estudio de los métodos con los cuáles se pueden hacer generalizaciones. Saca conclusiones basadas en la probabilidad de una población determinada lo que permite la toma de decisiones para este conjunto de habitantes. Es la más usada en los trabajos de investigación. La Estadística inferencial permite deducir, a partir de los valores que arrojen las muestras extraídas de una población resultados o conclusiones acerca de la población investigada. Estimar es hacer una buena aproximación de los valores de las características principales de la población de interés. Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 8 Para fines de este curso se estudiarán las estimaciones, y las pruebas de hipótesis. Medidas de Tendencia Central Dentro de la rama de la Estadística descriptiva el tema más conocido es el de Medidas de tendencia central. ¿Quién no ha escuchado de la moda o ha calculado un promedio? En este curso las Medidas de tendencia central que se verán son: Antes de entrar al estudio de Medidas de tendencia central, se revisará un tema previo importante. Escalas y tipos de variables Escalas de medidas.- Se puede decir que existen 4 tipos de escalas desde el punto de vista estadístico: 1. Nominal 2. Ordinal 3. Escala por intervalos 4. Escala de razón o proporción Tipos de variables. Las variables en la Estadística se organizan en dos grandes grupos: 1. Las variables cuantitativas o numéricas. Están asociadas a un proceso cuantificable o medible.se refieren a datos numéricos. Por ejemplo el peso de una persona. 2. Las variables cualitativas o categóricas. M ed id as d e te n d en ci a ce n tr al la Media La media recortada La moda la mediana Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 9 Éstas se refieren a cualidades, características, o atributos no numerables. Los datos recolectados en estas variables son expresados en palabras. Por ejemplo el sexo de una persona no es un dato numérico. Generalmente se recurre a la asociación de un número a una determinada cualidad para poder trabajar la variable. A su vez cada una presenta una subdivisión. Se pueden resumir en el siguiente esquema: Existen otros tipos de variables: Nominal.- Cuando no se puede establecer una relación entre los datos, en cuanto a cual es mejor o peor. Por ejemplo el sexo. No se puede establecer que masculino sea peor que femenino o viceversa. Ordinal.- Se establece una relación de importancia entre los datos, o bien un orden jerárquico. Por ejemplo se ganó medalla de oro, plata o bronce. Discreta.- Se trata de una variable cuyos datos son números enteros. Por ejemplo el número de hermanos. pueden ser 1,2, 3,…, pero no se puede tener 1.23 hermanos. Continua.- Si puede asumir cualquier valor numérico,. generalmente se expresa en números con decimales. Por ejemplo la estatura de una persona es de 1.8 metros. Tipos de variables Cualitativa Nominal Ordinal Cuantitativa Discreta Continua Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 10 Ejemplo Se selecciona un grupo de usuarios de transporte colectivo metro. Se reportan las siguientes variables observables. {Color de ojos, sexo, estatura y peso}. Registramos las variables y el tipo al que corresponden. El problema radica en clasificar el tipo de variable. Solución: Variable Tipo de variable Color de ojos Cualitativa Sexo Cualitativa Estatura en metros Cuantitativa Peso en kilogramos Cuantitativa La estatura y el peso son variables cuantitativas porque esta medición arroja un valor numérico. El color de ojos y el sexo son variables cualitativas por que no se pueden medir. Media, moda, mediana media recortada. Existen métodos y técnicas que no permiten trabajar con las variables, pues hacen que la recolección e interpretación de datos sea más fácil de manejar, como es el caso de la media, moda, mediana, media recortada).Una vez que se comprenden los tipos de variables, es importante saber cómo se han de medir. Para ello se tienen las diferentes Medidas de tendencia central: Media Se trata de una de las medidas estadísticas más utilizadas por todos ¿Quien no ha calculado su promedio de calificaciones? Es importante mencionar que hay varios tipos de Media, por ejemplo, la media aritmética (que generalmente se conoce como promedio), la media geométrica y lamedia armónica. Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 11 En este curso se estudiará la media aritmética, pues es la que se utiliza más y está relacionada con los temas que se van a analizar. . A grosso modo se puede decir que la media es la suma de los valores de un conjunto de datos recolectados (observaciones, Etc.) dividida entre el tamaño de la muestra (total de datos recolectados). Estadísticamente representa el centro de un conjunto de datos como se puede apreciar en la siguiente figura: Para esta media se utiliza la siguiente expresión matemática: n xxx x n .......21 Ejemplo Se tienen los datos sobre la calificación que obtuvieron estudiantes que cursan la materia de Probabilidad y son los siguientes: 10, 8, 6, 5, 1, 5, 5, 6,7,6,7,5,6,7,8,7,6,5,8,9. Se desea calcular su media o promedio. Solución: Son 20 datos, por lo tanto n= 20 Se procede a calcular la media mediante la formula: n xxx x n .......21 Sustituyendo los valores: Media o promedio = 1+5+5+5+5+5+6+6+6+6+6+7+7+7+7+8+8+8+9+10 20 = 5.9 El resultado es: Media =5.9 Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 12 Media recortada (trimmed media 5%) La media recortada permite eliminar los datos muy extremos, tanto en la zona superior como en la inferior. Es idéntica a la media aritmética vista anteriormente, sólo que para calcularla primero se reduce el 5% de los valores en el extremo superior y también el 5% del extremo inferior. Se ordenan los valores en forma ascendente para identificar cuáles son los que quedan en los extremos. Esta media permite eliminar la distorsión producida al tener valores en los extremos muy alejados de la media. Ejemplo. Se cuenta con los siguientes datos, producto de una muestra aleatoria sobre la calificación que obtuvieron estudiantes que cursan la materia de Probabilidad: 10, 8, 6, 5, 1, 5, 5, 6,7,6,7,5,6,7,8,7,6,5,8,9. 1.- Se ordenan los datos en forma ascendente (o descendente) esto es : 1,5,5,5,5,5,6,6,6,6,6,7,7,7,7,8,8,8,9,10. 2.- Se elimina, el 5% para cada uno de los extremos (superior e inferior)... Si se tuvieran una muestra de 100 datos el 5% sería de 5 datos. 3.- Una vez que se han eliminado los datos de los extremos superior e inferior (que cada uno representa el 5% de la muestra), como se presenta abajo: Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 13 Se procede a calcular la media recortada de igual manera como se hizo para la media aritmética. Mediante la formula: n xxx x n .......21 Sustituyendo los valores: Media recortada = 5+5+5+5+5+6+6+6+6+6+7+7+7+7+8+8+8+9 18 = 6.44 El resultado por lo tanto es: Media recortada=6.44 Mediana. La mediana es el valor que divide en dos partes iguales una distribución de frecuencias, es decir aquel valor que deja igual numero de datos del lado derecho e izquierdo de él. En otras palabras, se puede definir como el valor que se encuentra justamente en medio de todos los valores ordenados en forma ascendente (o descendente), Esto se puede ver en la siguiente ilustración: 50 % ___!___ 50% . Mínimo Mediana Máximo Para localizar la mediana de una serie de datos se pueden presentar dos situaciones: Primer caso. - que el total de los datos sea impar Segundo caso.- que el total de los datos sea par. El procedimiento para localizar la mediana es el siguiente: Primero se ordenan todos los datos en forma ascendente (o descendente) Segundo. Si se trata del primer caso, (impar) el dato buscado se localiza exactamente en medio de la distribución. Ejemplo Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 14 Se va a hacer el cálculo basado en los siguientes datos, producto de tomar una muestra aleatoria sobre la calificación que obtuvieron estudiantes que cursan la materia de Probabilidad: 10, 8, 6, 5, 9, 10, 5, 6,7. Primero se ordenan en forma ascendente (o descendente) esto es : 5,5,6,6,7,8,9,10,10. Segundo. El total de los datos es impar por lo tanto basta con localizar el dato que divide en dos partes iguales la distribución. note el estudiante que una vez ordenados en forma ascendente los datos, quedan exactamente cuatro valores del lado izquierdo del siete y cuatro valores a la derecha de él, como se puede apreciar en seguida: Para este ejemplo la mediana es el “7”. se puede representar como: 5,5,6,6 _ __7___ 8,9,10,10 . mínimo Mediana máximo Por el contrario, si el total de los datos es par, quedaran dos valores justo en la mitad de la distribución. Por lo tanto se procederá a calcular la media aritmética de estos dos valores. Ejemplo Con los siguientes datos, producto de tomar una muestra aleatoria sobre la calificación que obtuvieron estudiantes que cursan la materia de Probabilidad, se buscará la Mediana: {10, 8, 6, 5, 9, 10,8, 5, 6,7.} Primero se ordenan en forma ascendente (o descendente) esto es : 5,5,6,6,7,8,8,9,10,10. Segundo el l total de los datos es par, hay que localizar los datos que dividen en dos partes iguales la distribución. Tercero Es necesario obtener la media aritmética de estas cantidades para calcular la Mediana: 7 + 8 2 = 7.5 Por lo tanto para este ejemplo la Mediana es el “7.5”. Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 15 Moda.- Se puede definir la moda como el valor de la variable que se presenta con mayor frecuencia en un conjunto de datos. Ejemplo. Ejemplo 9. Se tomó una muestra representativa de 20 alumnos de primer semestre que cursan el bachillerato, a los cuales se les preguntó su edad. Los datos recolectados fueron los siguientes: {15,16,15,16,17,17,15,18,19,15,16,17,15,16,15,15,15,16,18,21} Solución Nuestra variable es la edad hay que identificar ¿cual es la edad que se presenta con mayor frecuencia? Para contestar a la pregunta hagamos una tabla (distribución de frecuencias), con los datos. Variable (edad) Frecuencia (número de alumnos) 15 8 16 5 17 3 18 2 19 1 21 1 Por lo tanto la moda es 15, ya que es el dato que se presenta con más frecuencia. La moda también se presenta en variables categóricas o cualitativas ejemplo: Ejemplo Con una muestra representativa de 20 alumnos de primer semestre que cursan el bachillerato, a los cuales se les pregunto cuál es su calzado habitual, se obtuvieron los siguientes datos: los siguientes: {tenis, tenis,zapatos,tenis,botas,tenis,sandalias,botas,zapatos,tenis,zapatos,tenis, zapatos} {zapatos, tenis, sandalias, zapatos, sandalias, sandalias, zapatos} Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 16 Nuestra variable es el calzado habitual ¿Cuál es el calzado que se presenta con mayor frecuencia en esta muestra? Para contestar a la pregunta hagamos una tabla (distribución de frecuencias) con los datos. Variable (calzado) Frecuencia (número de alumnos) Tenis 7 Botas 2 Zapatos 7 Sandalias 4 En este caso se tienen dos datos con mayor frecuencia: tenis y zapatos con 7. Por lo tanto se tienen dos modas: tenis y zapatos. Es importante señalar que la moda es el único valor central con el cual se suele trabajarcon variables cualitativas. Cabe señalar que, si bien la moda está considerada una Medida de tendencia central, puede estar muy cerca de los extremos de la muestra, pues indica el valor que se presenta con mayor frecuencia. Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 17 Medidas de dispersión También se conocen como Medidas de variabilidad y se utilizan para establecer la variación de los datos respecto al valor central. Los conceptos más relevantes son la varianza y la desviación típica o estándar. Estos serán abordados en el presente apartado pero antes se revisarán los temas de cuartiles y diagramas de caja, correspondientes a las medidas de posición. Varianza, desviación estándar, rango intercuartílico. Rango.- el rango se define como la diferencia entre dos valores, el máximo y el mínimo Su expresión matemática para calcularlo es: Rango = Xmax. – Xmin Ejemplo. En una muestra representativa de 20 alumnos que cursan el primer semestre de bachillerato, se les pregunto su edad. Los datos recolectados fueron los siguientes: 15,16,15,16,17,17,15,18,19,15,16,17,15,16,15,15,15,16,18,21 Calcule el rango para la muestra recolectada. Solución: De acuerdo a la formula, se busca el dato con el valor máximo y el valor mínimo Por lo tanto se tiene: Xmax=21 Xmin= 15 Rango = Xmax. – Xmin Sustituyendo en la fórmula: Rango = 21-15 = 6 Cuartiles Los cuartiles son una medida de posición no central integrada por tres valores que Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 18 divide la totalidad de los datos en cuatro partes iguales. Por lo tanto, cada cuartíl representa el 25% del total, esto se aprecia en el siguiente diagrama: En esta representación se observa que el primer cuartil Q1divide a la totalidad de los datos dejando por debajo el 25%, y al mismo tiempo por encima el 75% de las cifras. . Al obtener el 50% de la información se divide en dos partes de 50% cada una, este valor corresponde para el segundo cuartil, Q2. Q1=N(25%) Q2=N(50%) Q3=N(75%) N= número total de datos Rango intercuartílico. Es muy parecido al concepto de rango visto líneas arriba. Sólo que para los cuartiles se va a emplear la expresión matemática: Rango intercuartilico= Q3- Q1 Ejemplo Con los siguientes datos correspondientes a una muestra aleatoria sobre la calificación de estudiantes que cursan la materia de Probabilidad10, 8, 6, 5, 9, 5, 6,7. obtener el rango intercuartílico Solución: 1.- Se ordenan los datos en forma ascendente o descendente: 5,5,6,6,7,8,9,10. 2.- Se obtienen los cuartiles: 3.- Se aplica la fórmula para encontrar los cuartiles:: Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 19 Q1=N(25%) = 8 (0.25)= 2 El cuartil Q1 está ubicado en el segundo lugar y corresponde al número “5”. Q3=N(75%) = 8 (0.75) = 6 El tercer cuartil está en el sexto dato y es el número, “8”. Nota: en caso de dar un resultado fraccionario o decimal hay que redondear hacia el número superior inmediato. Otra perspectiva de esta medida es considerar que como son 8 datos, al dividirlos en cuatro partes queda el 25%, 4 datos el 50%, 6 datos el 75% ya que los 8 datos son el 100%, por lo tanto se puede representar así: Con esta representación e pueden apreciar los valores para los cuartiles. Como se mencionó anteriormente, el primer cuartil representa el 25% de los datos, y el tercer cuartil el 75%. Así se tiene que : Q3= 8 Q1= 5 Por lo tanto el rango intercuartílico queda: Rango intercuartilico= Q3 - Q1 = 8-5 = 3 Diagramas de caja Los Diagramas de caja se utilizan para representar gráficamente las cinco Medidas de dispersión,: los valores extremos, (valor máximo, valor mínimo), la mediana y los cuartiles Q1, Q3. Lo que nos falta de estos valores es explicar cómo se trazan los diagramas correspondientes, lo que se hará mejor con un ejemplo: Ejemplo 13. Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 20 Se tienen los datos correspondientes a una muestra aleatoria sobre la calificación que obtuvieron estudiantes de la asignatura de Probabilidad: 10, 8, 6, 5, 9, 5, 6,7. Obtener el diagrama de caja Solución: 1.- Se ordenan en forma ascendente o descendente los datos: 5,5,6,6,7,8,9,10. 2.- Se obtienen los cuartiles: Del ejemplo anterior se obtuvieron los cuartiles: Q3= 8 Q1= 5 Los valores extremos son claramente: Xmax= 10 Xmin = 5 La mediana se calcula como una media aritmética de los dos valores centrales, dado que el tamaño de la muestra es par, así se tiene que: Mediana = 6+7 2 = 6.5 Ya se tienen los cinco valores necesarios para la construcción del diagrama de caja: Es conveniente trazar una línea que sirva de referente que contenga los datos de la muestra. Lo primero es trazar los “bigotes”, esto se logra usando los valores extremos, para este caso Xmax= 10, Xmin = 5, asi que: Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 21 La caja se construye con los cuartiles Q1, Q3. La caja tiene de largo el rango intercuartílico. En este ejemplo coincidió el “bigote” del valor mínimo, con el del primer cuartil Q1, de ahí que se observe la figura como si le faltara el “bigote” de la izquierda. Por ultimo se traza la mediana que para este ejemplo es de 6.5. La longitud de los “bigotes” indica qué tan concentrados están los valores en el primer Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 22 25%, y en el último 25% (que va del 75% al 100%). En este ejemplo lo que se nota es que en el último 25% los datos están poco concentrados pues su longitud es considerable, en tanto que para el primer 25% están muy concentrados y el “bigote” carece de longitud. La varianza Esta medida de dispersión sirve para calcular el grado de variabilidad de los datos con respecto a la media se calcula en unidades cuadradas. Para obtener la varianza se utilizará la siguiente expresión matemática: 1 2)( 1 n xxif Vx n i Nota: f= frecuencia absoluta del dato x Usualmente la varianza se representa con la letra griega 2cuando se trata de una población, y se divide entre “N”, que es el total de datos de la población. 2 N xxif n i 1 2)( Por otro lado, la letra “s2” se refiere a una muestra (tomada de una población). s2 1 2)( 1 n xxif n i Como puede verse en la expresión matemática, la varianza está definida como la media aritmética de los cuadrados de las desviaciones de cada uno de los valores respecto al promedio. Ejemplo En la siguiente distribución de frecuencias se reportan las edades de niños de una primaria. La muestra se tomó de manera aleatoria. Calcule la varianza de la muestra. Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 23 Variable (x) edad del niño Frecuencia (f) 6 15 7 8 8 16 9 20 10 13 11 24 Solución: La fórmula para su cálculo es: 1 2)( 1 n xxif Vx n i 1.- Obtener el promedio o media aritmética de la muestra. x N xi n i 1 N= tamaño de la muestra=numero de datos= 96 x = 6∗15+7∗8+8∗16+9∗20+10∗13+11∗24 96 x = 848 96 Por lo tanto sustituyendo se tiene que el valor de la media o promedio es: x = 8.833 Para el cálculo de la varianza resulta útil trabajar en la tabla de distribución de frecuencias la cual está formada con las siguientes columnas: Variable (x) Frecuencia (f) X- x (X- x )2 (X- x )2*f 6 15 6-8.83=-2.83 (-2.83)2=8.0 120 7 8 7-8.83=-1.83 =3.34 26.72 8 16 8-8.83=-0.83 =0.6889 11 9 20 9-8.83=0.17 =0.0289 0.578 10 13 10-8.83=1.17 =1.36 17.68 11 24 11-8.83= 2.17 =4.7 112.8 Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 24 n i xxif 1 2)( =288.778 Se tiene la ecuación: 1 2)( 1 n xxif Vx n i Se sustituyen datos: Vx= 288.778 96−1 Vx=3.04 Desviación estándar: La desviación estándar se obtiene al sacar la raíz cuadrada de la varianza. Esconveniente que las unidades que describen la variabilidad sean idénticas a las unidades del conjunto original para que pueda ser utilizada la desviación estándar en lugar de la varianza cuyas unidades son cuadráticas. Para calcular la desviación estándar se utilizará la siguiente expresión matemática: 1 2)( 1 n xxif Vx n i Usualmente la desviación típica o estándar se representa con la letra griega cuando se trata de una población N xxif Vx n i 1 2)( En el caso de la letra s se usa cuando se refiere a una muestra (tomada de una población). Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 25 1 2)( 1 n xxif Vxs n i Como puede verse en la expresión matemática, la desviación se define como la raíz cuadrada de la varianza. Gráficamente la desviación se puede representar de la siguiente manera (se ha tomado una distribución de tipo normal): Ejemplo En la siguiente distribución de frecuencias se reportan las edades de niños de una primaria. La muestra se tomó de manera aleatoria. Variable (x) edad del niño Frecuencia (f) 6 15 7 8 8 16 9 20 10 13 11 24 Calcular la desviación estándar. Solución: La fórmula para el cálculo de la desviación estándar nos indica que hay que obtener la varianza. Como se está retomando el problema para ejemplificar la varianza, nos vamos a saltar el Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 26 Coeficiente de variación. Este concepto es útil pues nos permite hacer una comparación entre dos variables que tengan unidad de medida diferente. La expresión matemática para su cálculo es: cv = s / x x 100 Como se puede apreciar en la ecuación, el coeficiente de variación es el cociente de la desviación estándar y el promedio aritmético. Si el valor del coeficiente de variación es menor o igual al 10% se dice que varía poco o presenta poca variación. Por el contrario, si es mayor a 50% se tiene una variación excesiva. En los rangos intermedios se considera que la variación es grande pero aceptable. Ejemplo En la siguiente distribución de frecuencias se reportan las edades de niños de una primaria. La muestra se tomo de manera aleatoria. Variable (x) edad del niño Frecuencia (f) 6 15 7 8 8 16 9 20 cálculo de ésta, y únicamente tomaremos el valor obtenido Vx=3.04 Así que para calcular la desviación bastará sustituir en la fórmula. 04.3s Por lo tanto el valor de la desviación estándar es S =1.74 𝑆 = 1 . Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 27 10 13 11 24 Calcular el coeficiente de variación. Solución: La ecuación matemática nos lleva a calcular la desviación estándar, lo que a su vez nos remite al cálculo previo de la varianza. Retomando el problema utilizado para ejemplificar la varianza, y la desviación estándar, nos vamos a saltar estos cálculos, y únicamente tomaremos el valor obtenido para la desviación. Así que para calcular la desviación bastará sustituir en la fórmula. 𝑆 = 1.74 = 8.833 𝑐𝑣 = ( 𝑠 𝑥 ) 100 𝑐𝑣 = ( 1.74 8.83 ) 100 por lo tanto el valor del cv es: 𝑐𝑣 = 19.74 % Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 28 Medidas de Asociación Miden la asociación entre diversas variables estadísticas. En este curso se abordará el coeficiente de correlación, para lo cual se requiere conocimientos previos, como es el caso de la contrastación de hipótesis. Sin embargo, se tratará el tema de manera sencilla para no causar contratiempos en el estudiante. Coeficiente correlación de Pearson y Spearman Hasta el momento se han revisado conceptos y se han realizado cálculos que involucran una sola variable. ¿Qué pasa cuando se tienen dos o más variables? Numerosos problemas requieren determinar la relación que existe entre una o más variables involucradas en el mismo problema. . Estas relaciones se convierten en correlaciones. Antes de iniciar el tema del coeficiente de correlación, es necesario revisar los siguientes conceptos: Correlación lineal. Donde puede haber dos tipos de correlación lineal: Una positiva, cuando se presenta una relación directamente proporcional entre las variables, es decir que si aumenta una aumenta la otra, y a la inversa si disminuyen los valores de una disminuirán los valores de la otra. La otra es una correlación que se denomina negativa, que se presenta cuando las variables tienen una relación inversamente proporcional, es decir que si los valores de una variable van en aumento, mientras que los de la otra irán en decremento y a la inversa. Regresión lineal. Es un modelo que permite describir la variación conjunta de dos variables continuas. Diagrama de dispersión. Muestra la localización de puntos, para lo cual se utiliza un sistema de coordenadas en donde el eje “y” y el “x” representan los valores de las variables que están correlacionadas. El diagrama de dispersión representa una idea clara del grado de correlación entre las variables. En seguida se muestran los principales grados de relación entre dos variables mediante el uso de estos diagramas. En estas primeras imágenes la correlación lineal es muy fuerte, sólo cambia el sentido de la pendiente y esto se verá reflejado en el signo del valor del coeficiente. Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 29 Diagrama 1 Diagrama 2 En los siguientes tres diagramas (del 3 al 5), la correlación es lineal pero no muy fuerte como en el caso anterior. Diagrama 3 Diagrama 4 Diagrama 5 Diagrama 6 En el diagrama 6 existe una correlación que no es de tipo lineal, se trata de una relación curva. Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 30 Diagrama 7 Este último diagrama representa el caso donde no se tiene relación entre las variables, pues no hay correlación. Coeficiente de correlación lineal. Expresa cuantitativamente qué tan relacionadas están las variables o qué tan estrecha es su relación. La expresión matemática para el cálculo del coeficiente de correlación, sobre una población estadística es: Para el caso de una muestra se tiene la expresión matemática: Los valores que puede tomar este coeficientevan de -1 a +1. El signo del valor del coeficiente debe coincidir con la pendiente de la recta de regresión. La magnitud de esta recta está relacionada íntimamente con el grado de dependencia lineal entre las variables. La correlación va a ser más fuerte o débil, dependiendo de que el valor del coeficiente de correlación esté aproximado a uno, cero o menos uno. El valor cero representa la ausencia de correlación lineal. Ejemplo Una empresa tiene ventas reportadas en los últimos cinco años, las cuales aparecen en la siguiente tabla, donde la utilidad está en millones de pesos: Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 31 Variable (x) años Variable (y) ventas en millones de pesos 1 8.3 2 10.2 3 11.1 4 12.5 5 14.6 x= 15 y=56.7 Calcular el coeficiente de correlación Solución: De acuerdo a la fórmula del cálculo del coeficiente resultará muy conveniente agregar varias columnas a la tabla de datos para simplificar los cálculos. x y x*y x2 y2 1 8.3 8.3 1 68.89 2 10.2 20.4 4 104.04 3 11.1 33.3 9 123.21 4 12.5 50.0 16 156.25 5 14.6 73.0 25 213.16 x= 15 y=56.7 y=185 x2= 55 y2= 665.55 Ahora vayamos a la ecuación. Sustituyendo los datos: 𝑟 = 5(185) − 15 (56.7) √5(55) − (15)(15) ∗ √5(665.55) − (56.7)(56.7) 𝑟 = (925) − (850.5) √275 − 225 ∗ √(3327.75) − (3214.89) 𝑟 = 74.5 √50 ∗ √112.86 Estadística I Unidad 1. Estadística descriptiva Ciencias exactas, ingenierías y tecnologías/Licenciatura en Matemáticas 32 𝑟 = 74.5 √50 ∗ √112.86 𝑟 = 74.5 75.11 r= 0.9917 El resultado muestra un coeficiente muy cercano a la unidad y esto representa la enorme correlación que existe entre las dos variables, es decir las ventas y el tiempo de la empresa están muy relacionados. Cierre de la unidad Las medidas estadísticas aprendidas en esta unidad son muy importantes y básicas para cualquier estudio estadístico. Con el dominio de estos conceptos será más fácil abordar la siguiente unidad, por lo que se recomienda al estudiante, revisar los temas cuantas veces sea necesario, pues son los pilares para cualquier estudio posterior. Para saber más Para que puedas repasar los conocimientos adquiridos durante la unidad, te recomiendo que revises esta página de internet, que te permitirá reforzar la teoría y ejemplos sobre la Estadística descriptiva. http://www.aves.edu.co/ovaunicor/recursos/8/Estadistica%20Descriptiva.swf También te recomiendo esta página para que recopiles mas información sobre cada uno de los temas y te auxilien en la solución de las actividades de la unidad. http://www.demre.cl/text/doc_tecnicos/p2009/estadistica_descriptiva.pdf Fuentes de consulta Kuby, J. (2012). Estadística elemental. México: Cengage. Ojer, L. (1990). Estadística básica. Madrid: Dossat. Huntsberger, D. (1983). Elementos de Estadística inferencial. España: Continental. http://www.aves.edu.co/ovaunicor/recursos/8/Estadistica%20Descriptiva.swf http://www.demre.cl/text/doc_tecnicos/p2009/estadistica_descriptiva.pdf
Compartir