Descarga la aplicación para disfrutar aún más
Esta es una vista previa del archivo. Inicie sesión para ver el archivo original
1 COMPILADO DE INFORMACIONES Y ACTIVIDADES PARA BIOESTADÍSTICA 2019 2 3 Indice Programa de estudios ........................................................................................................................... 5 Prólogo .................................................................................................................................................. 7 Unidad I ............................................................................................................................................... 11 Capitulo 1 ........................................................................................................................................ 11 1.3. Elementos. Población. Caracteres ............................................................................................ 14 Ejercicios del Capítulo 1 ...................................................................................................................... 17 DISTRIBUCIONES DE FRECUENCIAS .................................................................................................... 20 DATOS EN BRUTO............................................................................................................................ 20 ORDENACIONES.............................................................................................................................. 20 DISTRIBUCIONES DE FRECUENCIA .................................................................................................. 20 INTERVALOS DE CLASE Y LÍMITES DE CLASE .................................................................................... 21 FRONTERAS DE CLASE ..................................................................................................................... 21 TAMAÑO O AMPLITUD DE UN INTERVALO DE CLASE ...................................................................... 22 LA MARCA DE CLASE ....................................................................................................................... 22 REGLAS GENERALES PARA FORMAR UNA DISTRIBUCIÓN DE FRECUENCIAS ................................... 22 HISTOGRAMAS Y POLÍGONOS DE FRECUENCIAS ............................................................................ 23 DISTRIBUCIONES DE FRECUENCIAS RELATIVAS ............................................................................... 24 DISTRIBUCIONES DE FRECUENCIAS ACUMULADAS Y OJIVAS .......................................................... 24 DISTRIBUCIONES DE FRECUENCIAS ACUMULADAS RELATIVAS Y OJIVAS PORCENTUALES .............. 25 CURVAS DE FRECUENCIAS Y OJIVAS SUAVIZADAS ............................................................................ 26 TIPOS DE CURVAS DE FRECUENCIAS ............................................................................................... 26 Representaciones Gráficas .................................................................................................................. 28 Gráficos para variables cualitativas ................................................................................................. 28 Diagramas de sectores .................................................................................................................... 31 Pictogramas .................................................................................................................................... 33 MEDIA, MEDIANA, MODA, Y OTRAS MEDIDAS DE TENDENCIA CENTRAL .......................................... 50 ÍNDICES O SUBÍNDICES ................................................................................................................... 50 PROMEDIOS O MEDIDAS DE TENDENCIA CENTRAL ........................................................................ 51 LA MEDIA ARITMÉTICA ................................................................................................................... 51 CÁLCULO DE LA MEDIA ARITMÉTICA PARA DATOS AGRUPADOS ................................................... 51 LA MEDIANA ................................................................................................................................... 52 LA MODA ........................................................................................................................................ 53 CUARTILES, DECILES Y PERCENTILES ............................................................................................... 53 PROBLEMAS y EJERCICOS A RESOLVER ........................................................................................... 54 4 CUARTILES, DECILES Y PERCENTILES ............................................................................................... 62 Diagrama de cajas y Bigotes – Box –Plot ......................................................................................... 63 Ejercicios propuestos ...................................................................................................................... 66 DESVIACIÓN ESTÁNDAR Y OTRAS MEDIDAS DE DISPERSIÓN ............................................................. 76 DISPERSIÓN O VARIACIÓN .............................................................................................................. 76 RANGO ............................................................................................................................................ 76 DESVIACIÓN MEDIA ........................................................................................................................ 76 DESVIACIÓN ESTÁNDAR .................................................................................................................. 77 VARIANZA ....................................................................................................................................... 77 Coeficiente de Variación (C.V.) ....................................................................................................... 79 Problemas ....................................................................................................................................... 79 Métodos de Muestreo ........................................................................................................................ 88 Clasificación de los métodos de muestreo ...................................................................................... 89 Muestreos no probabilísticos ...................................................................................................... 89 Muestreo intencional u opinativo: .............................................................................................. 89 Muestreos probabilísticos ............................................................................................................... 89 Muestreo aleatorio simple .................................................................................................................. 89 La ventaja de este método de muestreo .................................................................................... 90 Ejemplo de muestreo aleatorio simple ........................................................................................... 90 Muestreo aleatorio sistemático .......................................................................................................... 93 Las ventajas ................................................................................................................................. 93 Su desventaja .............................................................................................................................. 93 Muestreo aleatorio estratificado ........................................................................................................ 95 Ventajas ...................................................................................................................................... 95 Desventajas ................................................................................................................................. 95 Muestreo aleatorio por conglomerados ............................................................................................. 97 Ventajas ...................................................................................................................................... 97 Desventajas ................................................................................................................................. 97 Miscelánea de muestreo..................................................................................................................... 98 Formulario ........................................................................................................................................ 100 Registro de Asistencia Individual ............................................................ ¡Error! Marcador no definido. 5 Programa de estudios UNIDAD I INTRODUCCION A LA BIOESTADISTICA Definición de la Bioestadística. Bioestadística como parte del método científico razonamiento deductivo e inductivo UNIDAD II ORGANIZACIÓN Y RESUMEN DE LOS DATOS Etapas del método estadístico. Etapas de ejecución para obtención de datos. Captación de datos. Proceso de elaboración. Distribución de datos en frecuencia. Presentación de datos. Presentación tabular. Presentación grafica UNIDAD III MEDIDAS DE VARIACION Medidas de tendencias central. Media aritmética. La mediana, la moda, ventajas y desventajas de cada una de las medidas de tendencias centrales. Medidas de dispersión. El rango. Disminución la varianza coeficiente de variación UNIDAD IV DISTRIBUICIONES MUESTRALES IMPORTANTES Definición y clasificación de muestra. Razonamiento para la aplicación de muestreo aleatorio simple. Razonamiento para la aplicación de la media y la desviación standart de la muestra UNIDAD V TASAS, RAZONES Y PROPORCIONES Cifras absolutas, usos y limitaciones. Frecuencia relativa. Razones. Proporciones. Tasas. Principales tasas usadas en salud publica 6 UNIDAD VI ESTADISTICA DE POBLACIONES Relación de la demografía con el nivel de salud. Crecimiento de la población. Utilización de las estadísticas. Población en salud publica 7 Prólogo El desarrollo y el nivel de aplicación que la Bioestadística, como herramienta útil y rigurosa en el campo de la investigación en todas las Ciencias Sociales, ha experimentado en los últimos años, ha sido espectacular. Es indudable que este progreso en el conocimiento y aplicación de la Estadística ha venido estrechamente vinculada al que ha experimentado el área de la computación, que nos ha llevado a una sociedad absolutamente informatizada donde el ordenador se ha convertido en un utensilio personal de uso habitual. Este auge y progreso de la informática, a nivel de software y hardware, ha hecho posible, a su vez, la realización de pruebas estadísticas que, de forma habitual, hubiesen sido muy costosas desde el punto de vista humano así como manejar volúmenes de información que habrían resultado absolutamente impensables. Un segundo factor asociado a este progreso del conocimiento en el ámbito estadístico, ha sido el cambio de actitud experimentado por todos los profesionales de las áreas de Ciencias Sociales y especialmente, en el ámbito de las Ciencias de la Salud. De una sociedad en la que los roles y el desempeño de la profesión estaban ajustados a la mera aplicación de los conocimientos adquiridos, hemos evolucionado a una Sociedad Científica donde la investigación ha pasado a formar parte esencial de su labor diaria. El interés por descubrir nuevos procedimientos a través de la experiencia acumulada, ha sido determinante en la necesidad de que todos estos profesionales se vean inmersos en la formación y aprendizaje de técnicas básicas de metodología de la investigación y de algunas más concretas como el análisis de datos. Este cambio en la dimensión del ejercicio profesional, determina que los planes de estudio de todas las licenciaturas y diplomaturas incluyan la Bioestadística para el ámbito de Salud y Biología, como materia troncal con entidad propia y de auténtica necesidad. Se pretende, con ello, que un profesional de la Salud, o de cualquier Ciencia Social, que se apoye en la cuantificación y en el estudio empírico de lo que observa a diario, entienda y conozca los conceptos básicos de la ciencia que le va a permitir, abandonando conductas pragmáticas, profundizar y comprender el fundamento científico de su área de trabajo. 8 No se trata de hacer expertos en Estadística. El principal objetivo de los docentes de esta materia se centra en generar, en los discentes, una actitud crítica ante cualquier lectura científica, adquirir un lenguaje común con estadísticos y otros profesionales del ´área y conocer a priori los pasos y los elementos imprescindibles en cualquier investigación empírica que se apoye en el manejo de volúmenes grandes de datos y cuyo propósito final sea condensar dicha información para que pueda ser transmitida o extrapolar las conclusiones a las poblaciones de las que fueron tomadas las medidas. Es importante saber que no existe investigación si no existen objetivos previos: no puede descartarse ni confirmarse lo que no se ha planteado. Ajena a esta transformación social se encuentran la gran mayoría de nuestros alumnos que cursan los primeros cursos de alguna de estas licenciaturas o diplomaturas de Ciencias Sociales o Ciencias de la Salud. Sus únicos objetivos se centran en llegar a ser médicos, biólogos, psicólogos. . . y no alcanzan a entender que utilidad les puede reportar una materia como la Bioestadística en su currículo. Es por ello que al margen de la dificultad intrínseca que genera el entendimiento de la materia, la enseñanza de la Bioestadística en estos cursos se ve agravada por la imposibilidad de usar cualquier tipo de motivación. En muy distinta situación se encuentran los alumnos de postgrado que ya han comenzado su vida profesional y han tenido, por tanto, ocasión de darse cuenta de que manera la Bioestadística les puede resultar útil y necesaria. Aunque no sea su deseo adentrarse en el mundo de la investigación, una parte importante en la transmisión de los nuevos hallazgos y conocimientos de otros colegas de su ´ámbito profesional, es el lenguaje estadístico. Es por ello que han de estar absolutamente familiarizados con dicha terminóloga si se pretende tener una actitud crítica y objetiva ante la lectura de cualquier literatura científica. Fruto del trabajo realizado con estos sectores de estudiantes e investigadores es nuestra experiencia, que nos ha animado a escribir el presente libro que podría definirse como un Manual de Estadística básica aplicada al ámbito de la Salud. Su contenido abarca desde los aspectos más básicos de la Estadística descriptiva, en su función de resumir, presentar y 9 comunicar los resultados de cualquier estudio a las diferentes técnicas de extrapolación de las conclusiones a una población, a partir de lo verificado en una muestra representativa de esta. Obviamente, para ello, se hace necesario revisar las nociones más básicas de aspectos como probabilidad, Variable aleatoria, Distribuciones de probabilidad, así como los elementos imprescindibles de toda la Inferencia Estadística: técnicas de muestreo, conceptos fundamentales, estimación confidencial y contrastes de hipótesis más importantes de la Estadística Invariante, abordando los test usados bajo supuesto de distribución gaussiana así como los de distribución libre. La variabilidad que han generado los nuevos planes de estudio no facilita la selección de unos contenidos que abarque la totalidad de los programas de todas las Universidades, sin embargo hay una parte troncal que constituye un porcentaje amplio del conjunto de todos ellos. Esta es la parte que hemos seleccionado, para nuestro contenido, de manera que podamos acercarnos lo máximo posible a lo que pudiera ser un libro de texto para las asignaturas de Bioestadística que se imparten en la mayoría de las Facultades de Medicina y Escuelas de Ciencias de la Salud. En lo que concierne al modo y la forma, la experiencia acumulada a través de los años de docencia y el apoyo en el ´área de la investigación de los profesionales de la salud de nuestro entorno, nos condiciona a que teoría y práctica avancen de manera simultánea, en este manual, complementándose la una a la otra y apoyándose mutuamente, con numerosos ejemplos que puedan acercar al lector a situaciones más cotidianas de su entorno. Pretendemos con ello ayudarles a entender las nociones más abstractas y a relacionarlas con un futuro no lejano como profesional del mundo de la salud. No obstante, no hemos querido evitar tratar algunos temas con algo más de rigor, para que el lector que esté interesado en profundizar algo más, pueda hacerlo; siempre teniendo en cuenta que la lectura de dichas partes es algo optativo y que dependerá de las necesidades individuales. A todos esos alumnos y compañeros queremos dedicarle nuestro más sincero agradecimiento, por su inestimable colaboración al orientarnos, a través de sus opiniones sinceras, sobre nuestra metodología docente y haber podido observar cual ha sido su evolución a lo largo de los años y de las diferentes etapas que se han ido sucediendo. 10 Esperamos que la ilusión puesta en la realización de este texto nos haya permitido suavizar, en la medida de lo posible, la aridez del tema que tratamos, y solo comprobar que realmente pueda ser un elemento eficaz de ayuda, apoyo y consulta entre nuestros discípulos y compañeros, justificar a todas las horas que hay detrás de estas líneas. 11 Unidad I Capitulo 1 Conceptos previos 1.1. Introducción El conocimiento de la estadística se torna cada día mas indispensable para el médico, y aún para el estudiante. A poco que se deseen extraer conclusiones generales de hechos observados, sean éstos datos clínicos, diagnósticos, tratamientos o lo que fuere para verificar el grado de probabilidad de que la conclusión sacada es aplicable a la generalidad de los casos, es imprescindible someter dichos hechos al examen estadístico. Es sabido que la probabilidad de curación o de muerte de enfermos afectados de una misma enfermedad y sometidos a una misma medicación, es siempre variable y distinta para cada enfermo como dice MORICE GARAVET en Methodes Statistiques, Ed, Masson, Paris 1947, X; afirmación ésta que está de acuerdo con la experiencia personal de todos los médicos. Es pues, aventurado extraer conclusiones generales de los casos observados, si esas conclusiones no son sometidas a la prueba de fuego de las estadísticas. Bien dice HULDA BANCROFT, en la Introducción a la Bioestadística (Ed. Eudeba, Bs. As., 1960, 14), que, para juzgar correctamente los resultados de actuaciones o investigaciones médicas, propias o ajenas, “debemos recurrir a la Estadística”, Esa nos Pondrá a cubierto de las conclusiones incorrectas a que nos conduce el deseo inconsciente de que un hecho sea de una forma determinada. Aun cuando hayamos puerto la mayor objetividad y la máxima escrupulosidad en la extracción de las conclusiones, los hechos mismos pueden resultar engañosos si no sabemos apreciar cuánto se debe a la casualidad y cuánto a la causalidad, es decir, si no sometemos el resultado al examen de la estadística. Pero, en general, los médicos no necesitan ser estadísticos completos, como no necesitan, para manejar algunos aparatos médicos o algunos productos químicos, ser físicos ni químicos consumados. En la gran mayoría de los casos bastara con que tengan algunos conceptos, con tal de que sean claros, suficientes y bien entendidos. 12 1.2. ¿Qué es la estadística? La estadística es el arte y la ciencia de manejar los números cuando éstos represan los valoro cuantitativos de hechos similares. También podría decirse que la estadística es el arte y la ciencia de valorar observaciones o experiencias similares cuando éstas se expresan cuantitativamente, es decir, mediante números. Por ejemplo, si se administra un hipnótico a varios pacientes y se registre el número de horas dormidas por cada uno, éstas podrán ser 8, 6, 8, 6, 10. Decimos que estas observaciones podrían ser analizadas estadísticamente porque se expresan mediante números, En otra forma no podrán serlo, por ejemplo, si se dijese solamente a unos les produjo un poco de sueño y a otros no mucho. A su vez estos números 8 — 6 — 8 — 6 — 10 pueden ser objeto de un tratamiento estadístico porque se refieren a hechos similares: horas de sueño provocadas por un hipnótico. Pero no podrían serlo si solo fuesen números sueltos, o se refiriesen a observaciones diferentes, por ejemplo, unos a horas de suelto, otros a dosis del hipnótico, otros la edad de los pacientes, etcétera. La Estadística se ocupa de los métodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones. Podríamos por tanto clasificar la Estadística en descriptiva, cuando los resultados del análisis no pretenden ir más allá del conjunto de datos, e inferencial cuando el objetivo del estudio es derivar las conclusiones obtenidas a un conjunto de datos más amplio. Estadística descriptiva: Describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos. Estadística inferencial: Apoyándose en el cálculo de probabilidades y a partir de datos muéstrales, efectúa estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos. La estadística, es la ciencia que recolecta, organiza, resume, analiza y toma decisiones ante situaciones de incertidumbre. La complejidad de los sistemas biológicos y de salud asociada a la variabilidad experimental requiere la aplicación de matemáticas y estadísticas para 13 entender las diversas problemáticas y situaciones, con el objeto de analizar datos experimentales de una manera cuantitativa. El conocimiento de las matemáticas es necesario para entender los conceptos asociados con la construcción de modelos matemáticos y las bases de las pruebas estadísticas. Por otra parte, el software computacional facilita e incrementa la aplicación de las matemáticas en estudios biológicos y de salud, lo que hace evidente el perjuicio de aceptar resultados sin entender completamente su significado. Muchas investigaciones requieren solamente datos cualitativos, los cuales pueden ser suficientes, por ejemplo para conocer que determinado organismo está presente en un ambiente, o que un proceso está operando. Sin embargo, otros estudios requieren la obtención de datos cuantitativos. La cuantificación requiere algunas aplicaciones matemáticas. Utilidad Existen dos diferentes aplicaciones: Modelos matemáticos y Análisis estadístico. La primera involucra las funciones y técnicas involucradas en la construcción de tales modelos. La segunda describe las pruebas estadísticas utilizadas para analizar datos experimentales. El análisis estadístico tiene dos funciones: 1. Organizar y describir datos experimentales que han sido recolectados 2. Proporcionar conclusiones inferenciales acerca de una población, a partir de datos experimentales de la(s) muestra(s) consideradas. Es esencial que antes de llevar a cabo el estudio experimental y el análisis estadístico se clarifiquen e identifiquen los propósitos del estudio. De hecho, algunos experimentos no requieren estadística, por lo que el análisis se requiere generalmente para aquellos que 14 generan datos cuantitativos. Cuando este es el caso, el tipo de análisis estadístico a utilizar debe ser identificado antes de comenzar el experimento. Cabe mencionar que la Bioestadística, es una rama de la estadística aplicada a la biología y la salud, la cual ha sido clave en el desarrollo de nuevos fármacos, en el entendimiento de enfermedades crónicas; la estrecha relación de la Estadística con el método científico hace de la Bioestadística una disciplina imprescindible en la mayoría de los proyectos en el área tecnológica; el pensamiento estadístico no sólo resuelve y entiende compleja metodología para dar respuesta a hipótesis, sino que es capaz de organizar el “sistema” que involucra la investigación desde el diseño general, diseño de muestreo, control de calidad de la información, análisis y presentación de resultados. 1.3. Elementos. Población. Caracteres Establecemos a continuació n algunas definiciones de conceptos bá sicos y fundamentales bá sicas como son: elemento, població n, muestra, caracteres, variables, etc., a las cuales haremos referencia continuamente a lo largo del texto Individuos o elementos: personas u objetos que contienen cierta informació n que se desea estudiar. Població n: conjunto de individuos o elementos que cumplen ciertas propiedades comunes. Muestra: subconjunto representativo de una població n. Pará metro: funció n definida sobre los valores numé ricos de caracterí sticas medibles de una població n. Estadí stico: funció n definida sobre los valores numé ricos de una muestra. En relació n al tamañ o de la població n, esta puede ser: Finita, como es el caso del número de personas que llegan al servicio de urgencia de un hospital en un día; Infinita, si por ejemplo estudiamos el mecanismo aleatorio que describe la secuencia de caras y cruces obtenida en el lanzamiento repetido de una moneda al aire. Variables o Caracteres: propiedades, rasgos o cualidades de los elementos de la población. Estos caracteres pueden dividirse en cualitativos y cuantitativos. 15 Modalidades: diferentes situaciones posibles de un carácter. Las modalidades deben ser a la vez exhaustivas y mutuamente excluyentes cada elemento posee una y sólo una de las modalidades posibles. Clases: conjunto de una o más modalidades en el que se verifica que cada modalidad pertenece a una y sólo una de las clases. 1.4. Organización de los datos 1.4.1. Variables estadísticas Cuando hablemos de variable haremos referencia a un símbolo (X,Y,A,B,. . . ) que puede tomar cualquier modalidad (valor) de un conjunto determinado, que llamaremos dominio de la variable o rango. En función del tipo de dominio, las variables las clasificamos del siguiente modo: Variables cualitativas, cuando las modalidades posibles son de tipo nominal. Por ejemplo, el grupo sanguíneo tiene por modalidades: Grupos Sanguíneos posibles: A, B, AB, O Variables cualitativas ordinales son las que, aunque sus modalidades son de tipo nominal, es posible establecer un orden entre ellas. Por ejemplo, si estudiamos el grado de recuperación de un paciente al aplicarle un tratamiento, podemos tener como modalidades: Grado de recuperación: Nada, Poco, Moderado, Bueno, Muy Bueno. A veces se representan este tipo de variables en escalas numéricas, por ejemplo, puntuar el dolor en una escala de 1 a 5. Debemos evitar sin embargo realizar operaciones algebraicas con estas cantidades. ¡Un dolor de intensidad 4 no duele el doble que otro de intensidad 2! Variables cuantitativas o numéricas son las que tienen por modalidades cantidades numéricas con las que podemos hacer operaciones aritméticas. Dentro de este tipo de variables podemos distinguir dos grupos: Discretas, cuando no admiten siempre una modalidad intermedia entre dos cualesquiera de sus modalidades. Un ejemplo es el número de hijos en una población de familias: Número de hijos posibles: 0, 1, 2, 3, 4, 5, . . . Continuas, cuando admiten una modalidad intermedia entre dos cualesquiera de sus modalidades, v.g. el peso X de un niño al nacer. 16 Ocurre a veces que una variable cuantitativa continua por naturaleza, aparece como discreta. Este es el caso en que hay limitaciones en lo que concierne a la precisión del aparato de medida de esa variable, v.g. si medimos la altura en metros de personas con una regla que ofrece dos decimales de precisión, podemos obtener Alturas medidas en cm: 1.50, 1.51, 1.52, 1.53,. . . En realidad lo que ocurre es que con cada una de esas mediciones expresamos que el verdadero valor de la misma se encuentra en un intervalo de radio 0,005. Por tanto cada una de las observaciones de X representa más bien un intervalo que un valor concreto. Tal como hemos citado anteriormente, las modalidades son las diferentes situaciones posibles que puede presentar la variable. A veces estas son muy numerosas (v.g. cuando una variable es continua) y conviene reducir su número, agrupándolas en una cantidad inferior de clases. Estas clases deben ser construidas, tal como hemos citado anteriormente, de modo que sean exhaustivas y excluyentes, es decir, cada modalidad debe pertenecer a una y sólo una de las clases. Variable cualitativa nominal: Aquella cuyas modalidades son de tipo nominal. Variable cualitativa ordinal: Modalidades de tipo nominal, en las que existe un orden. Variable cuantitativa discreta: Sus modalidades son valores enteros. Variable cuantitativa continua: Sus modalidades son valores reales. 17 Ejercicios del Capítulo 1 Ejercicio 1.1. Clasifica las siguientes variables según un su tipo: cualitativas nominales, cualitativas ordinales, cuantitativas continuas o cuantitativas discretas. Estado civil de una persona _______________________________________________________ Numero de teléfono _______________________________________________________ Temperatura corporal de un paciente _______________________________________________________ E-mail de una persona _______________________________________________________ Número de hijos _______________________________________________________ Ciudad en la que reside _______________________________________________________ Grado de aceptación de una decisión (de acuerdo, neutral, en desacuerdo) _______________________________________________________ Ingreso económico mensual _______________________________________________________ Línea del autobús que tomo más frecuentemente _______________________________________________________ Número de asignaturas aprobadas el último curso. _______________________________________________________ Ejercicio 1.2. En una farmacia se está recogiendo información sobre el grado de satisfacción de los clientes respecto a su servicio nocturno, concretamente se está preguntando cual es la opinión de los clientes en cuanto la relación calidad-precio de este servicio nocturno. Las respuestas dadas por los clientes encuestados han sido codificadas según los códigos: 0: Muy desfavorable 1: Desfavorable 2: Favorable 3: Muy favorable 18 Se ha preguntado a un total de 50 clientes, y sus respuestas codificadas numéricamente han sido las siguientes: 0 1 3 0 1 1 2 3 0 0 3 3 3 2 1 2 0 3 0 2 1 0 0 2 3 2 2 2 1 1 2 2 0 3 0 2 2 0 3 3 0 3 0 1 2 2 2 0 2 1 1. Indica la variable en estudio _____________________________________________________________________ 2. El tipo de variable _____________________________________________________________________ 3. La población _____________________________________________________________________ 4. La muestra _____________________________________________________________________ 5. Individuo _____________________________________________________________________ Resumir estos datos de una manera que se considere más conveniente Ejercicio 1.3. Se han tomado muestras a 40 niños de entre 1 y 5 años del nivel de cobre en orina, obteniéndoselos siguientes valores: 0.1 0.5 0.65 0.75 0.88 0.3 0.52 0.66 0.76 0.9 0.34 0.55 0.69 0.77 0.94 0.36 0.58 0.7 0.78 0.98 0.42 0.62 0.72 0.81 1.04 0.42 0.63 0.73 0.83 1.12 0.45 0.64 0.74 0.85 1.16 0.48 0.65 0.74 0.86 1.24 1. Indica la variable en estudio _____________________________________________________________________ 2. El tipo de variable _____________________________________________________________________ 3. La población _____________________________________________________________________ 4. La muestra _____________________________________________________________________ 5. Individuo _____________________________________________________________________ 19 Resumir estos datos de una manera que se considere más conveniente Ejercicio 1.4. Se dispone del peso (en gramos) de 16 niños de un mes de edad. Los datos se muestran a continuación: 4123 4336 4160 4165 4422 3853 3281 3990 4096 4166 3596 4127 4017 3769 4240 4194 1. Indica la variable en estudio _____________________________________________________________________ 2. El tipo de variable _____________________________________________________________________ 3. La población _____________________________________________________________________ 4. La muestra _____________________________________________________________________ 5. Individuo _____________________________________________________________________ Ejercicio 1.5 En una farmacia se realiza seguimiento de la Hipertensión Arterial de algunos pacientes. Se dispone de 30 mediciones de la tensión arterial sistólica (TAS) realizadas en el día de hoy, las cuales se muestran a continuación 173.03 150.29 147.47 162.04 143.35 165.54 154.53 152.83 176.77 154.06 141.59 162.5 166.99 159.97 160.82 158.66 158.49 135.62 152.99 180.08 158.81 151.11 138.77 161.92 172.93 156.66 166.13 168.11 167.7 158.72 1. Indica la variable en estudio _____________________________________________________________________ 2. El tipo de variable _____________________________________________________________________ 3. La población _____________________________________________________________________ 4. La muestra _____________________________________________________________________ 5. Individuo _____________________________________________________________________ 20 2 DISTRIBUCIONES DE FRECUENCIAS DATOS EN BRUTO Los datos en bruto son los datos recolectados que aún no se han organizado. Por ejemplo, las estaturas de 100 estudiantes tomados de la lista alfabética de una universidad. ORDENACIONES Ordenación se llama a los datos numéricos en bruto dispuestos en orden creciente o decreciente de magnitud. A la diferencia entre el número mayor y el número menor se le conoce como el rango de los datos. Por ejemplo, si la estatura mayor en los 100 estudiantes es 74 pulgadas (in) y la menor es 60 in, el rango es 74−60 =14 pulgadas (in). DISTRIBUCIONES DE FRECUENCIA Al organizar una gran cantidad de datos en bruto, suele resultar útil distribuirlos en clases o categorías y determinar la cantidad de datos que pertenece a cada clase, esta cantidad se conoce como la frecuencia de clase. A la disposición tabular de los datos en clases con sus respectivas frecuencias de clase se le conoce como distribución de frecuencias o tabla de frecuencias. La tabla 2.1 es una distribución de frecuencias de las estaturas (registradas a la pulgada más cercana) de 100 estudiantes de la universidad XYZ. Tabla 2.1 Estaturas de 100 estudiantes de la universidad XYZ Estatura (in) Cantidad de estudiantes 60-62 63-65 66-68 69-71 72-74 5 18 42 27 8 Total 100 La primera clase (o categoría), por ejemplo, consta de las estaturas que van desde 60 hasta 62 pulgadas y queda identificada por el símbolo 60-62. Como hay cinco estudiantes cuyas estaturas pertenecen a esta clase, la frecuencia de clase correspondiente es 5. 21 A los datos organizados y resumidos como en la distribución de frecuencias anterior se les llama datos agrupados. Aunque al agrupar los datos se pierden muchos de los detalles originales de los datos, esto tiene la ventaja de que se obtiene una visión general clara y se hacen evidentes las relaciones. INTERVALOS DE CLASE Y LÍMITES DE CLASE Al símbolo que representa una clase, como 60-62 en la tabla2.1, se le conoce como intervalo de clase. A los números de los extremos, 60y62, se les conoce como límites de clase, el número menor (60) es el límite inferior de clase, y el número mayor (62) es el límite superior de clase. Los términos clase e intervalo de clase se suelen usar indistintamente, aunque el intervalo de clase en realidad es un símbolo para la clase. Un intervalo de clase que, por lo menos teóricamente, no tenga indicado el límite de clase superior o el límite de clase inferior, se conoce como intervalo de clase abierto. Por ejemplo, al considerar grupos de edades de personas, un intervalo que sea “65 años o mayores” es un intervalo de clase abierto. FRONTERAS DE CLASE Si las estaturas se registran a la pulgada más cercana, el intervalo de clase 60-62 comprende teóricamente todas las mediciones desde 59.5000 hasta 62.5000 in. Estos números que se indican brevemente mediante los números exactos 59.5 y 62.5 son las fronteras de clase o los límites de clase reales, el menor de los números (59.5) es la frontera inferior de clase y el número mayor (62.5) es la frontera superior de clase. En la práctica, las fronteras de clase se obtienen sumando el límite superior de un intervalo de clase al límite inferior del intervalo de clase inmediato superior y dividiendo entre 2. Algunas veces, las fronteras de clase se usan para representar a las clases. Por ejemplo, las clases de la tabla 2.1 pueden indicarse como 59.5-62.5, 62.5-65.5, etc. Para evitar ambigüedades cuando se usa esta notación, las fronteras de clase no deben coincidir con las observaciones. Por lo tanto, si una observación es 62.5, no es posible decidir si pertenece al intervalo 59.5-62.5 o al intervalo 62.5-65.5 22 TAMAÑO O AMPLITUD DE UN INTERVALO DE CLASE El tamaño, o la amplitud, de un intervalo de clase es la diferencia entre sus fronteras superior e inferior y se le conoce también como amplitud de clase, tamaño de clase o longitud de clase. Si en una distribución de frecuencia todos los intervalos de clase tienen la misma amplitud, esta amplitud común se denota c. En este caso, c es igual a la diferencia entre dos límites inferiores de clases sucesivas o entre dos límites superiores de clases sucesivas. Por ejemplo, en los datos de la tabla 2.1, el intervalo de clase es c =62.5 −59.5 =65.5 −62.5 =3. LA MARCA DE CLASE La marca de clase es el punto medio del intervalo de clase y se obtiene sumando los límites de clase inferior y superior y dividiendo entre2. Así, la marca de clase del intervalo 60-62 es (60+62)/2=61. A la marca de clase también se le conoce como punto medio de clase. Para los análisis matemáticos posteriores, se supone que todas las observaciones que pertenecen a un intervalo de clase dado coinciden con la marca de clase. Así, se considera que todas las estaturas en el intervalo de clase 60-62 in son de 61 in. REGLAS GENERALES PARA FORMAR UNA DISTRIBUCIÓN DE FRECUENCIAS 1. En el conjunto de los datos en bruto, se determina el número mayor y el número menor y se halla, así, el rango (la diferencia entre los números mayor y menor). 2. Se divide el rango en una cantidad adecuada de intervalos de clase de una misma amplitud. Si esto no es posible, se usan intervalos de clase de diferentes amplitudes o intervalos de clase abiertos. La cantidad de intervalos suele ser de 5 a 20, dependiendo de los datos. Los intervalos de clase también suelen elegirse de manera que las marcas de clase (o puntos medios de clase) coincidan con datos observados. Esto tiende a disminuir el llamado error de agrupamiento en los análisis matemáticos subsiguientes. En cambio, las fronteras de clase no deben coincidir con datos observados. Para evitar errores en el momento de calcular los tamaños de las clases, resulta conveniente sumarle el valor 1 al rango antes de dividir, así se evita errores en los momentos en que el residuo de la división sea nula, en los ejercicios se verán los casos posibles. 23 Fr ec u e n ci as Resulta importante destacar que cuando no tenemos decidido o previsto el tamaño del intervalo de clase podemos recurrir a la Formula que Sturges ha propuesto para esta situación, en donde K= 1 + 3.322(Log10 n), K= 1 + Log2 n. 3. Se determina la cantidad de observaciones que caen dentro de cada intervalo de clase, es decir, se encuentran las frecuencias de clase. La mejor manera de hacer esto es utilizando una hoja de conteo. HISTOGRAMAS Y POLÍGONOS DE FRECUENCIAS Los histogramas y los polígonos de frecuencias son dos representaciones gráficas de las distribuciones de frecuencias. 1. Un histograma o histograma de frecuencias consiste en un conjunto de rectángulos que tienen: a) sus bases sobre un eje horizontal (el eje X), con sus centros coincidiendo con las marcas de clase de longitudes iguales a la amplitud del intervalo de clase, y b) áreas proporcionales a las frecuencias de clase. 2. Un polígono de frecuencias es una gráfica de línea que presenta las frecuencias de clase graficadas contra las marcas de clase. Se puede obtener conectando los puntos medios de las partes superiores de los rectángulos de un histograma. En las figuras 2.1 y 2.2 se muestran el histograma y el polígono de frecuencias correspondientes a la distribución de frecuencias de las estaturas presentada en la tabla 2.1. 40 30 20 10 61 64 67 70 73 Figura 2-1 Histograma que muestra los puntos medios y las frecuencias de clase. Obsérvese en la figura 2.2 cómo el polígono de frecuencias se ha anclado por sus extremos, es decir, en 58 y 76. 24 Fr ec u e n ci as DISTRIBUCIONES DE FRECUENCIAS RELATIVAS La frecuencia relativa de una clase es la frecuencia de la clase dividida entre la suma de las frecuencias de todas las clases y generalmente se expresa como porcentaje. Por ejemplo, en la tabla2.1, la frecuencia relativa de la clase 66-68 es 42/100 =42%. Por supuesto, la suma de las frecuencias relativas de todas las clases es 1, o 100%. Si en la tabla 2.1 las frecuencias se sustituyen por frecuencias relativas, la tabla que se obtiene es una distribución de frecuencias relativas, distribución porcentual o tabla de frecuencias relativas. Las representaciones gráficas de las distribuciones de frecuencias relativas se obtienen a partir de los histogramas o polígonos de frecuencias, cambiando únicamente, en la escala vertical, las frecuencias por las frecuencias relativas y conservando la gráfica exactamente igual. A las gráficas que se obtienen se les llama histogramas de frecuencias relativas (o histogramas porcentuales) y polígonos de frecuencias relativas (o polígonos porcentuales), respectivamente. DISTRIBUCIONES DE FRECUENCIAS ACUMULADAS Y OJIVAS A la suma de todas las frecuencias menores que la frontera superior de un intervalo de clase dado se le llama frecuencia acumulada hasta ese intervalo de clase inclusive. Por ejemplo, en la tabla 2.1, la frecuencia acumulada hasta el intervalo de clase 66-68 inclusive es 5+18+42=65, lo que significa que 65 estudiantes tienen una estatura menor a 68.5 in. 40 30 20 10 58 61 64 67 70 73 76 Estatura Figura 2-2 polígono de frecuencias de las estaturas de los estudiantes. 25 A una tabla en la que se presentan las frecuencias acumuladas se le llama distribución de frecuencias acumuladas, tabla de frecuencias acumuladas o simplemente distribución acumulada, y se presenta en la tabla 2.2 para la distribución de las estaturas de los estudiantes de la tabla 2.1. Tabla 2.2 Estatura (in) Cantidad de estudiantes Menos de 59.5 Menos de 62.5 Menos de 65.5 Menos de 68.5 Menos de 71.5 Menos de 74.5 0 5 23 65 92 100 Una gráfica que muestra las frecuencias acumuladas menores de cada frontera superior de clase respecto a cada frontera superior de clase se le conoce como gráfica de frecuencias acumuladas u ojiva. En algunas ocasiones se desea considerar distribuciones de frecuencias mayores o iguales que la frontera inferior de cada intervalo de clase. Como en ese caso se consideran las estaturas de 59.5 in o más, de 62.5 in o más, etc., a estas distribuciones se les suele llamar distribuciones acumuladas “o más que”, en tanto que las distribuciones consideradas antes son distribuciones acumuladas “o menos que”. Una puede obtenerse fácilmente de la otra. A las ojivas correspondientes se les llama ojivas “más que” y ojivas “menos que”. Aquí, siempre que se hable de distribuciones acumuladas o de ojivas, sin más, se tratará del tipo “menos que”. DISTRIBUCIONES DE FRECUENCIAS ACUMULADAS RELATIVAS Y OJIVAS PORCENTUALES La frecuencia acumulada relativa o frecuencia acumulada porcentual es la frecuencia acumulada dividida entre la suma de todas las frecuencias (frecuencia total). Por ejemplo, la frecuencia acumulada relativa de las estaturas menores que 68.5 in es 65/100=0.65 o 65%, lo que significa que 65% de los estudiantes tienen estaturas menores a 68.5 in. Si en la tabla 2.2 se emplean las frecuencias acumuladas relativas en lugar de las frecuencias acumuladas, se obtiene una distribución de frecuencias acumuladas relativas (o distribución 26 acumulada porcentual) y una gráfica de frecuencias acumuladas relativas (u ojiva porcentual), respectivamente. CURVAS DE FRECUENCIAS Y OJIVAS SUAVIZADAS Suele considerarse que los datos recolectados pertenecen a una muestra obtenida de una población grande. Como de esta población se pueden obtener muchas observaciones, teóricamente es posible (si son datos continuos) elegir intervalos de clase muy pequeños y, a pesar de eso, tener un número adecuado de observaciones que caigan en cada clase. De esta manera, cuando se tienen poblaciones grandes puede esperarse que los polígonos de frecuencias, o los polígonos de frecuencias relativas, correspondientes a estas poblaciones estén formados por una gran cantidad de pequeños segmentos de recta de manera que sus formas se aproximen a las de unas curvas, a las cuales se les llama curvas de frecuencias o curvas de frecuencias relativas, respectivamente. Es razonable esperar que estas curvas teóricas puedan ser aproximadas suavizando los polígonos de frecuencias o los polígonos de frecuencias relativas de la muestra, esta aproximación mejorará a medida que aumenta el tamaño de la muestra. Ésta es la razón por la que a las curvas de frecuencias se les suele llamar polígonos de frecuencias suavizados. De igual manera, suavizando las gráficas de frecuencias acumuladas u ojivas, se obtienen ojivas suavizadas. Por lo general, es más fácil suavizar una ojiva que un polígono de frecuencias. TIPOS DE CURVAS DE FRECUENCIAS Las curvas de frecuencias que surgen en la práctica toman ciertas formas características, como las que se muestran en la figura 2-3. Simétrica o en forma de campana Sesgada a la derecha Sesgada a la izquierda Uniforme Figura 2-3 Cuatro distribuciones con los que se encuentran por lo común. 27 1. Las curvas simétricas o en forma de campana se caracterizan porque las observaciones equidistantes del máximo central tienen la misma frecuencia. Las estaturas tanto de hombres como de mujeres adultos tienen distribuciones en forma de campana. 2. Las curvas que tienen colas hacia la izquierda se dice que son sesgadas a la izquierda. Las curvas de la cantidad de años que viven hombres y mujeres son sesgadas a la izquierda. Pocos mueren jóvenes y la mayoría muere entre los 60 y los 80 años. En general, las mujeres viven en promedio diez años más que los hombres. 3. Las curvas que tienen colas hacia la derecha se dice que son sesgadas a la derecha. Las curvas de las edades a las que se casan tanto hombres como mujeres son sesgadas a la derecha. La mayoría se casa entre los veinte y treinta años y pocos se casan alrededor de cuarenta, cincuenta, sesenta o setenta años. 4. Las curvas que tienen aproximadamente las mismas frecuencias para todos sus valores se dice que son curvas distribuidas uniformemente. Por ejemplo, las máquinas dispensadoras de refresco lo hacen de manera uniforme entre 15.9 y 16.1 onzas. 5. Las curvas de frecuencias en forma de J o en forma de J inversa son curvas en las que el máximo se presenta en uno de sus extremos. 6. Las curvas de frecuencias en forma de U son curvas que tienen un máximo en cada extremo y un mínimo en medio. 7. Las curvas bimodales son curvas que tienen dos máximos. 8. Las curvas multimodales tienen más de dos máximos. 28 Representaciones Gráficas Hemos visto que la tabla estadí stica resume los datos que disponemos de una població n, de forma que ´esta se puede analizar de una manera má s sistemá tica y resumida. Para darnos cuenta de un só lo vistazo de las caracterí sticas de la població n resulta aú n má s esclarecedor el uso de grá ficos y diagramas, cuya construcció n abordamos en esta secció n. Gráficos para variables cualitativas Los grá ficos má s usuales para representar variables de tipo nominal son los siguientes: Diagramas de barras: Siguiendo la figura 1.1, representamos en el eje de ordenadas las modalidades y en abscisas las frecuencias absolutas o bien, las frecuencias relativas. Si, mediante el grafico, se intenta comparar varias poblaciones entre sí , existen otras modalidades, como las mostradas en la figura 1.2. Cuando los tamañ os de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro caso podrí an resultar engañ osas. Fig 1.1 29 30 Figura 1.2: Diagramas de barras para comparar una variable cualitativa en diferentes poblaciones. Se ha de tener en cuenta que la altura de cada barra es proporcional al nú mero de observaciones (frecuencias relativas). 31 Diagramas de sectores (tambié n llamados tartas). Se divide un cí rculo en tantas porciones como clases existan, de modo que a cada clase le corresponde un arco de cí rculo proporcional a su frecuencia absoluta o relativa (figura 1.3). 32 33 Pictogramas Expresan con dibujos alusivos al tema de estudio las frecuencias de las modalidades de la variable. Estos grá ficos se hacen representado a diferentes escalas un mismo dibujo, como vemos en la figura 1.5. El escalamiento de los dibujos debe ser tal que el ´area1 de cada uno de ellos sea proporcional a la frecuencia de la modalidad que representa. Este tipo de grá ficos suele usarse en los medios de comunicació n, para que sean comprendidos por el pú blico no especializado, sin que sea necesaria una explicació n compleja. 34 35 36 PROBLEMAS ORDENACIONES 2.1 a) Disponer los números en una ordenación ascendente y descendente 73 67 52 84 89 54 63 64 86 98 b) Determinar el rango de estos números. _________________________________________________________________________ _________________________________________________________________________ _________________________________________________________________________ _________________________________________________________________________ _________________________________________________________________________ _________________________________________________________________________ _________________________________________________________________________ 2.2 En la tabla siguiente se presentan las calificaciones finales que obtuvieron en estadísticas 80 alumnos de una universidad. 74 98 71 83 72 91 98 57 75 98 57 87 60 54 98 81 85 96 77 76 54 63 50 72 74 65 68 70 59 61 97 59 85 55 50 55 81 61 99 65 92 85 74 89 79 76 80 56 81 78 77 61 70 91 83 56 50 63 62 57 61 98 67 70 68 99 58 61 82 63 98 74 53 61 84 76 96 78 71 51 De acuerdo con esta tabla, encontrar: a) Elaborar un Diagrama de Tallos y hojas 37 b) La calificación más alta. ____________________________________ c) La calificación más baja. ____________________________________ d) El rango. ____________________________________ e) Las calificaciones de los cinco mejores estudiantes. ____________________________________ f) Las calificaciones de los cinco peores estudiantes. ____________________________________ g) La calificación del alumno que tiene el décimo lugar entre las mejores calificaciones. ____________________________________ h) El número de estudiantes que obtuvieron 75 o más. ____________________________________ i) El número de estudiantes que obtuvieron 85 o menos. ____________________________________ j) El porcentaje de los estudiantes que obtuvieron calificaciones mayores a 65 pero no mayores a 85. ____________________________________ k) Las calificaciones que no aparecen en esta tabla. ____________________________________ ____________________________________ ____________________________________ 38 DISTRIBUCIONES DE FRECUENCIAS, HISTOGRAMAS YPOLÍGONOS DE FRECUENCIAS 2.3 La tabla 2.5 muestra una distribución de frecuencias de los salarios semanales de 65 empleados del hospital P&R. Tabla 2.5 Salarios Número de empleados Frecuencia relativa Frecuencia Porcentual Frecuencias Acumuladas $250 - $259 $260 - $269 $270 - $279 $280 - $289 $290 - $299 $300 - $309 $310 - $319 8 10 16 14 10 5 2 Total 65 Con los datos de esta tabla, determinar: a) El límite inferior de la sexta clase. ____________________________________ b) El límite superior de la cuarta clase. ____________________________________ a) La marca de clase (o punto medio de clase) de la tercera clase. ____________________________________ d) Las fronteras de clase de la quinta clase. ____________________________________ e) La amplitud del intervalo de la quinta clase. ____________________________________ f ) La frecuencia de la tercera clase. ____________________________________ 39 g) La frecuencia relativa de la tercera clase. ____________________________________ h) El intervalo de clase de mayor frecuencia. A este intervalo se le suele llamar intervalo de clase modal y a su frecuencia se le conoce como frecuencia de la clase modal. ____________________________________ i) El porcentaje de empleados que gana menos de $280.00 por semana. ____________________________________ j) El porcentaje de empleados que gana menos de $300.00 por semana, pero por lo menos $260.00 por semana. ____________________________________ 2.4 Si las marcas de clase en una distribución de frecuencias de pesos de estudiantes son 128, 137, 146, 155, 164, 173 y 182 libras, encuentre: a) la amplitud del intervalo de clase, __________________________________________________________________________ __________________________________________________________________________ __________________________________________________________________________ __________________________________________________________________________ b) las fronteras de clase __________________________________________________________________________ __________________________________________________________________________ __________________________________________________________________________ __________________________________________________________________________ c) los límites de clase, suponiendo que los pesos se hayan redondeado a la libra más cercana. __________________________________________________________________________ __________________________________________________________________________ __________________________________________________________________________ __________________________________________________________________________ 40 2.5 Se toma una muestra de la cantidad de tiempo, en horas por semana, que los estudiantes universitarios usan su celular. Usando SPSS, la secuencia “Analyze⇒DescripiveStatistics⇒Frequencies” da el resultado mostrado en la figura 2-4. Tiempo Horas por semana Frecuencias Porcentajes Porcentajes acumulados 3.00 4.00 5.00 6.00 7.00 8.00 9.00 10.00 11.00 12.00 13.00 14.00 15.00 16.00 17.00 18.00 19.00 20.00 Total 3 3 5 3 4 4 3 4 2 2 3 1 2 5 2 1 2 1 50 6.0 6.0 10.0 6.0 8.0 8.0 6.0 8.0 4.0 4.0 6.0 2.0 4.0 10.0 4.0 2.0 4.0 2.0 100.0 6.0 12.0 22.0 28.0 36.0 44.0 50.0 58.0 62.0 66.0 72.0 74.0 78.0 88.0 92.0 94.0 98.0 100.0 Figura 2-4 SPSS, resultados para el problema 2.5. a) ¿Qué porcentaje usa su celular 15 o menos horas por semana? __________________________________________________________________________________ __________________________________________________________________________________ __________________________________________________________________________________ b) ¿Qué porcentaje usa su celular 10 o más horas por semana? ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ 41 2.6 De 150 mediciones, la menor es 5.18 in y la mayor es 7.44 in. Determinar un conjunto adecuado: a) de intervalos de clase, b) de fronteras de clase, c) de marcas de clase que se pueda usar para elaborar una distribución de frecuencias con estas mediciones 2.7 Al resolver el problema 2.6 a) un estudiante elige como intervalos de clase 5.10-5.40,5.40-5.70,...,6.90-7.20 y 7.20-7.50. ¿Hay algún problema con esta elección? ________________________________________________________________________________ ________________________________________________________________________________ ________________________________________________________________________________ ________________________________________________________________________________ ________________________________________________________________________________ 2.8 En la tabla siguiente se presentan los pesos, redondeados al kilogramo más cercano, de 50 estudiantes de una universidad. Elaborar una distribución de frecuencias. 80 78 67 64 72 73 84 85 85 81 93 94 82 73 62 65 89 102 79 87 79 88 70 84 72 68 73 62 82 91 63 81 81 72 82 90 71 82 81 81 68 69 68 87 82 65 89 79 67 88 _________________________________________________________________________ 42 2.9 Se toman las estaturas de 45 estudiantes del sexo femenino de una universidad, a continuación, se presentan estas estaturas registradas a la pulgada más cercana. Elaborar un histograma o grafico de barras considerando K=5. 67 67 64 64 74 61 68 71 69 61 65 64 62 63 59 70 66 66 63 59 64 67 70 65 66 66 56 65 67 69 64 67 68 67 67 65 74 64 62 68 65 65 65 66 67 tabla de frecuencias LI LS f Totales 0 5 10 15 20 25 30 59 63 67 71 75 56 60 64 68 72 C an ti d ad d e es tu d ia n te s Estaturas de los estudiantes Gráfico de las estudiantes en cantidades por estaturas 43 DISTRIBUCIONES DE FRECUENCIAS ACUMULADAS Y OJIVAS 2.14 A partir de la distribución de frecuencias dada en la tabla 2.5, construir: a) una distribución de frecuencias acumuladas, b) una distribución acumulada porcentual, c) una ojiva y d) una ojiva porcentual. Tabla 2.5 Salarios Número de empleados $250 - $259 $260 - $269 $270 - $279 $280 - $289 $290 - $299 $300 - $309 $310 - $319 8 10 16 14 10 5 2 Total 65 Tabla 2.10 Limite Superior o menos Salarios Frecuencias acumuladas Distribución acumulada porcentual 44 2.15 A partir de las ojivas de las figuras 2-9 y 2-10 (problemas 2.14 y 2.15, respectivamente), estimar la cantidad de empleados que ganan: a) menos de$ 288.00 por semana, b) $296.00 o más por semana, c) por lo menos $263.00 por semana, pero menos de $275.00 por semana. Límite Inferior o más Frecuencias acumuladas Distribución acumulada porcentual 45 Fr ec u e n ci as a cu m u la d as “ o m ás ” 70 60 50 40 30 20 10 0 250 260 270 280 290 300 310 320 330 340 350 Salarios Figura 2-10, gráfica de frecuencias acumuladas “o más” 2.16 A partir de las ojivas de las figuras 2-9 y 2-10 (problemas 2.14 y 2.15, respectivamente), estimar la cantidad de empleados que ganan: a) menos de$ 288.00 por semana, b) $296.00 o más por semana, c) por lo menos $263.00 por semana, pero menos de $275.00 por semana. ________________________________________________________ ________________________________________________________ ________________________________________________________ ________________________________________________________ ________________________________________________________ ________________________________________________________ ________________________________________________________ ________________________________________________________ ________________________________________________________ ________________________________________________________ 46 PROBLEMAS SUPLEMENTARIOS 2.19 a) Disponga los números 12, 56, 42, 21, 5, 18, 10, 3, 61, 34, 65 y 24 en una ordenación, y b) determine el rango. 2.20 En la tabla 2.14 se presenta una distribución de frecuencias de la cantidad de minutos por semana que ven televisión 400 estudiantes. De acuerdo con esta tabla, determinar: a) El límite superior de la quinta clase. b) El límite inferior de la octava clase. c) La marca de clase de la séptima clase. d) Las fronteras de clase de la última clase. e) El tamaño del intervalo de clase. f ) La frecuencia de la cuarta clase. g) La frecuencia relativa de la sexta clase. h) El porcentaje de estudiantes que no ven televisión más de 600 minutos por semana. i) El porcentaje de estudiantes que ven televisión 900 o más minutos por semana. j) El porcentaje de estudiantes que ven televisión por lo menos 500 minutos por semana, pero menos de 1000 minutos por semana. Tabla 2.14 Tiempo (minutos) Número de estudiantes 300-399 400-499 500-599 600-699 700-799 800-899 900-999 1 000-1 099 1 100-1 199 14 46 58 76 68 62 48 22 6 2.21 Elaborar: 47 a) un histograma y b) un polígono de frecuencias para la distribución de frecuencias de la tabla 2.14. 2.23 Con los datos de la tabla 2.14, construir: a) una distribución de frecuencias acumuladas, b) una distribución acumulada porcentual, c) una ojiva y d) una ojiva porcentual. 2.24 Repetir el problema 2.23, pero para el caso en que las frecuencias acumuladas sean del tipo “o mayor”. 2.25 Con los datos de la tabla 2.14, estimar el porcentaje de estudiantes que ven la televisión: a) menos de 560 minutos por semana, b) 970 o más minutos por semana c) entre 620 y 890 minutos por semana. 2.26 Si una medición se mide con una exactitud de milésimas de pulgada. Si las marcas de clase de la distribución de estos datos en pulgadas son 0.321, 0.324, 0.327, 0.330, 0.333 y 0.336, encontrar: a) la amplitud del intervalo de clase, b) las fronteras de clase y c) los límites de clase. 2.27 En la tabla siguiente se dan cantidad de nacidos en los diferentes centros de atención de un departamento. Elaborar una distribución de frecuencias empleando los intervalos de clase adecuados. 20 18 43 44 50 50 45 34 36 43 32 40 48 11 39 29 18 42 21 49 43 13 44 19 26 18 38 25 33 43 26 2 23 50 14 18 4 37 50 21 13 22 38 30 35 7 18 6 50 1 22 4 1 5 41 18 19 11 29 20 38 48 32 24 38 7 29 34 29 40 19 16 4 47 20 27 42 36 9 24 2.28 Con los datos del problema 2.27, construir: a) un histograma, b) un polígono de frecuencias, c) una distribución de frecuencias relativas, d) una distribución de frecuencias acumuladas, e) una distribución acumulada porcentual, 48 f) una ojiva. 49 2.31 De acuerdo con la Oficina de los Censos de Estados Unidos, en 1996 la población de este país era de 265284000. La tabla 2.15 da la distribución porcentual en los diversos grupos de edad. a. ¿Cuál es la amplitud o el tamaño del segundo intervalo de clase? ¿Y la del cuarto intervalo de clase? ______________________________________________________________________________________________ b. ¿Cuántos tamaños distintos de intervalos de clase hay? ______________________________________________________________________________________________ c. ¿Cuántos intervalos de clase abiertos hay? ______________________________________________________________________________________________ d. Cómo se deberá escribir el último intervalo de clase de manera que su amplitud sea igual a la del penúltimo intervalo de clase e. ¿Cuál es la marca de clase del segundo intervalo de clase? ¿Y la del cuarto intervalo de clase? ______________________________________________________________________________________________ f. ¿Cuáles son las fronteras de clase del cuarto intervalo de clase? ______________________________________________________________________________________________ g. ¿Qué porcentaje de la población tiene 35 años o más? ¿Qué porcentaje de la población tiene 64 años o menos? ______________________________________________________________________________________________ h. ¿Qué porcentaje de la población tiene entre 20 y 49 inclusive?, Y la cantidad? ______________________________________________________________________________________________ i. ¿Qué porcentaje de la población tiene más de 70 años?, Cuantas personas serian? ______________________________________________________________________________________________ Grupo de edad en años % de Estados Unidos Menos de 5 5-9 10-14 15-19 20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59 60-64 65-74 75-84 85 o más 7.3 7.3 7.2 7.0 6.6 7.2 8.1 8.5 7.8 6.9 5.3 4.3 3.8 7.0 4.3 1.4 Tabla 2.15 50 3 MEDIA, MEDIANA, MODA, Y OTRAS MEDIDAS DE TENDENCIA CENTRAL ÍNDICES O SUBÍNDICES El símbolo, Xj (que se lee “X subíndice j”) representa cualquiera de los N valores X1,X2,X3,...,XN que puede tomar la variable X. A la letra j que aparece en Xj representando a cualquiera de los números1,2,3,..., N se le llama subíndice o índice. En lugar de j se puede usar, por supuesto, cualquier otra letra, i, k, p, q o s. SUMATORIA El símbolo ∑ 𝑋𝑗 𝑁 𝑗=1 se emplea para denotar la suma de todas las Xj desde j = 1 hasta j = N, por definición, ∑ 𝑋𝑗 𝑁 𝑗=1 = 𝑋1 + 𝑋2 + 𝑋3 + 𝑋4 … … . +𝑋𝑁 Cuando no puede haber confusión, esta suma se denota simplemente como ∑X, ∑Xj o ∑jXj. El símbolo ∑ es la letra griega mayúscula sigma y denota suma. EJEMPLO 1 ∑ 𝑋𝑗 𝑁 𝑗=1 𝑌𝑗 = 𝑋1𝑌1 + 𝑋2𝑌2 + 𝑋3𝑌3 + 𝑋4𝑌4 … … . +𝑋𝑁𝑌𝑁 EJEMPLO 2 ∑ 𝑎 𝑁 𝑗=1 𝑌𝑗 = 𝑎𝑌1 + 𝑎𝑌2 + 𝑎𝑌3 + 𝑎𝑌4 … … . +𝑎𝑌𝑁 = 𝑎(𝑌1 + 𝑌2 + 𝑌3 + 𝑌4 … + 𝑌𝑁) = 𝑎 ∑ 𝑌𝑗 𝑁 𝑗=1 donde a es una constante. O bien simplemente ∑aY = a∑Y. 51 PROMEDIOS O MEDIDAS DE TENDENCIA CENTRAL Un promedio es un valor típico o representativo de un conjunto de datos. Como estos valores típicos tienden a encontrarse en el centro de los conjuntos de datos, ordenados de acuerdo con su magnitud, a los promedios se les conoce también como medidas de tendencia central. Se pueden definir varios tipos de promedios, los más usados son la media aritmética, la mediana, la moda, la media geométrica y la media armónica. Cada una de ellas tiene ventajas y desventajas de acuerdo con el tipo de datos y el propósito de su uso. LA MEDIA ARITMÉTICA La media aritmética, o brevemente la media, de un conjunto de N números X1,X2,X3,...,XN se denota así: Ẋ(que se lee “X barra”) y está definida como �̅� = ∑ 𝑋 𝑛 EJEMPLO 4 La media aritmética de los números 8, 3, 5, 12 y 10 es �̅� = (8 + 3 + 5 + 12 + 10) 5 = 38 5 = 7.6 PROPIEDADES DE LA MEDIA ARITMÉTICA En un conjunto de números, la suma algebraica de las desviaciones de estos números respecto a su media aritmética es cero. EJEMPLO 7 Las desviaciones de los números 8, 3, 5, 12 y 10 de su media aritmética, 7.6, son 8 − 7.6, 3 − 7.6, 5 − 7.6, 12 − 7.6 y 10 −7.6 o bien 0.4, −4.6, −2.6, 4.4 y 2.4, cuya suma algebraica es 0.4 − 4.6 − 2.6 + 4.4 + 2.4 = 0 CÁLCULO DE LA MEDIA ARITMÉTICA PARA DATOS AGRUPADOS Cuando se presentan los datos en una distribución de frecuencias, se considera que todos los datos que caen en un intervalo de clase dado coinciden con la marca o punto medio del intervalo. Para datos agrupados, interpretando a las Xj como las marcas de clase, a las fj como las correspondientes frecuencias de clase, a A como cualquier marca de clase supuesta y dj = Xj − A como la desviación de Xj respecto de A, las fórmulas (2) y (6) son válidas. A los cálculos empleando las fórmulas (2) y (6) se les suele conocer como método largo y método abreviado, respectivamente (ver los problemas 3.15 y 3.20). Si todos los 52 En donde: X= marca de clase ƒ=frecuencia de clase µ= código de trasformación C= tamaño de clase n= tamaño de muestra estudiada (∑ƒ) intervalos de clase son de una misma amplitud c, las desviaciones d j = Xj − A se pueden expresar como cu j, donde uj puede tener valores enteros positivos o negativos o cero (es decir, 0, ±1, ±2, ±3, . . .) con lo que la fórmula (6) se convierte en �̅� = 𝑋 + ∑ 𝑓.𝜇 𝑛 . 𝐶 (Método codificado) �̅� = ∑ 𝑓.𝑋 𝑛 (Método largo) lo que es equivalente a la ecuación Ẋ = A + c.u . A esta ecuación se le conoce como método codificado para calcular la media. Es un método muy breve recomendado para datos agrupados cuando los intervalos de clase tienen todos la misma amplitud. Obsérvese que en el método codificado los valores de la variable X se transforman en valores de la variable u de acuerdo con X = A + cu. LA MEDIANA La mediana de un conjunto de números acomodados en orden de magnitud (es decir, en una ordenación) es el valor central o la media de los dos valores centrales. EJEMPLO 8 La mediana del conjunto de números 3, 4, 5, 6, 8, 8 y 10 es 6. EJEMPLO 9 La mediana del conjunto de números 5, 5, 7, 9, 11, 12, 15 y 18 es (9 + 11)/2 = 10. En datos agrupados, la mediana se obtiene por interpolación, como se expresa por la fórmula 𝑀𝑒 = 𝐹𝐼 + 𝑛 2 − 𝑓𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎.𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑓𝑚𝑒𝑑 . 𝐶 Donde: FI = frontera inferior de la clase mediana (es decir, de la clase que contiene la mediana) n = número de datos (es decir, la frecuencia total) 𝑓𝑎𝑐𝑢𝑚.𝑎𝑛𝑡= suma de las frecuencias de todas las clases anteriores a la clase mediana 𝑓𝑚𝑒𝑑 = frecuencia de la clase mediana C = amplitud del intervalo de la clase mediana 53 LA MODA La moda de un conjunto de números es el valor que se presenta con más frecuencia, es decir, es el valor más frecuente. Puede no haber moda y cuando la hay, puede no ser única. EJEMPLO10 La moda del conjunto 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12 y 18 es 9. EJEMPLO11 El conjunto 3, 5, 8, 10, 12, 15 y 16 no tiene moda. EJEMPLO12 El conjunto 2, 3, 4, 4, 4, 5, 5, 7, 7, 7 y 9 tiene dos modas, 4 y 7, por lo que se le llama bimodal. A una distribución que sólo tiene una moda se le llama unimodal. En el caso de datos agrupados, para los que se ha construido una curva de frecuencia que se ajuste a los datos, la moda es el valor (o los valores) de X que corresponden al punto (o puntos) máximos de la curva. A este valor de X se le suele denotar X^. En una distribución de frecuencia o en un histograma la moda se puede obtener mediante la fórmula siguiente: 𝑀𝑜 = 𝐹𝐼 + ∆1 ∆1 + ∆2 . 𝐶 Donde FI=frontera inferior de la clase modal (es decir, de la clase que contiene la moda) ∆1=exceso de frecuencia modal sobre la frecuencia en la clase inferior inmediata ∆2=exceso de frecuencia modal sobre la frecuencia en la clase superior inmediata C=amplitud del intervalo de la clase modal CUARTILES, DECILES Y PERCENTILES En un conjunto de datos en el que éstos se hallan ordenados de acuerdo con su magnitud, el valor de en medio (o la media aritmética de los dos valores de en medio), que divide al conjunto en dos partes iguales, es la mediana. Continuando con esta idea se puede pensar en aquellos valores que dividen al conjunto de datos en cuatro partes iguales. Estos valores, denotados Q1,Q2yQ3 son el primero ,segundo y tercer cuartiles ,respectivamente, el valor Q2 coincide con la mediana. De igual manera, los valores que dividen al conjunto en diez partes iguales son los deciles y se denotan D1, D2,...,D9, y los valores que dividen al conjunto en 100 partes iguales son los percentiles y se les denota P1,P2,..., P99. El quinto decil y el percentil 50 coinciden con la mediana. Los percentiles 25 y 75 coinciden con el primero y tercer cuartiles, respectivamente. 54 A los cuartiles, deciles, percentiles y otros valores obtenidos dividiendo al conjunto de datos en partes iguales se les llama en conjunto cuantiles. Para el cálculo de estos valores cuando se tienen datos agrupados ver los problemas 3.44 a 3.46. 𝑄𝑘 = 𝐹𝐼 + 𝑘.𝑛 4 − ∑ 𝑓𝑎𝑛𝑡 𝑓𝑘 . 𝐶 𝐷𝑘 = 𝐹𝐼 + 𝑘.𝑛 10 − ∑ 𝑓𝑎𝑛𝑡 𝑓𝑘 . 𝐶 𝑃𝑘 = 𝐹𝐼 + 𝑘.𝑛 100 − ∑ 𝑓𝑎𝑛𝑡 𝑓𝑘 . 𝐶 PROBLEMAS y EJERCICOS A RESOLVER 3.6 Las calificaciones de un estudiante en seis exámenes fueron 84, 91, 72, 68, 87 y 78. Hallar la media, mediana y moda de estas calificaciones. ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ 3.7 Un científico mide diez veces el diámetro de un cilindro y obtiene los valores 3.88, 4.09, 3.92, 3.97, 4.02, 3.95, 4.03, 3.92, 3.98 y 4.06 centímetros (cm). Hallar las medidas de tendencia central de estas mediciones. ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ 55 3.10 De 100 números, 20 fueron 4 , 40 fueron 5, 30 fueron 6 y los restantes fueron 7. Encuéntrese la media aritmética, mediana y moda de estos números. ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ 3.15 Usando la distribución de frecuencias de las estaturas que se presenta en la tabla, hallar la estatura media de los 100 estudiantes de la universidad XYZ. Estatura (in) Frecuencias ( f ) Marcas de clase (X) 60-62 63-65 66-68 69-71 72-74 5 18 42 27 8 ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ 56 3.22 Emplee la tabla del ejercicio anterior para hallar la estatura media de los 100 estudiantes de la universidad XYZ utilizando la fórmula para datos agrupados por el método de compilación (codificado). Estatura (in) F X fac µ F µ ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________ ___________________________________________________________________________
Compartir