Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Fundamentos de Estadística Pablo Cazau Alejandro Nota adhesiva www.ALEIVE.org Prefacio Capítulo 1: Introducción a la estadística 1.1 Definición y utilidad de la estadística 1.2 Clasificaciones de la estadística 1.3 Población y muestra 1.4 Estructura del dato 1.5 La medición Capítulo 2: Estadística descriptiva 2.1 Generalidades 2.2 Ordenamiento y agrupación de los datos: matrices y tablas 2.3 Visualización de los datos: gráficos 2.4 Síntesis de los datos: medidas estadísticas de posición 2.5 Síntesis de los datos: medidas estadísticas de dispersión 2.6 Síntesis de los datos: asimetría y curtosis Notas Capítulo 3: Probabilidad y curva normal 3.1 El concepto de probabilidad 3.2 Definición y características de la curva normal 3.3 Puntajes brutos y puntajes estandarizados 3.4 Aplicaciones de la curva normal Notas Capítulo 4: Correlación y regresión 4.1 Introducción 4.2 El análisis de correlación 4.3 Cálculo gráfico de la correlación 4.4 Cálculo analítico de la correlación 4.5 Un ejemplo: construcción y validación de tests 4.6 El análisis de regresión 4.7 Cálculo analítico de la regresión 4.8 Cálculo gráfico de la correlación Notas Capítulo 5: Estadística inferencial 5.1 Introducción 5.2 Estimación de parámetros 5.3 Prueba de hipótesis 5.4 Ejemplos de pruebas de hipótesis 5.5 El concepto de significación estadística Notas Referencias bibliográficas Otras fuentes consultadas Anexos ANEXO 1: NOMENCLATURA UTILIZADA EN ESTA GUÍA ANEXO 2: TABLA DE ÁREAS BAJO LA CURVA NORMAL ESTANDARIZADA Tabla 1 – Áreas desde z hacia la izquierda Tabla 2 – Áreas desde z = 0 hacia la izquierda o hacia la derecha ANEXO 3: TABLA DE LA DISTRIBUCIÓN t Fundamentos de estadística Pablo Cazau PREFACIO El presente texto fue pensado como un manual de consulta para alumnos de diversas carreras universitarias de grado y posgrado que cursan asignaturas donde se enseña la estadística como herramienta de la metodología de la investigación científica. Se brinda aquí un panorama general e introductorio de los principales temas de una disciplina que opera en dos grandes etapas: la estadística descriptiva y la estadística inferencial. También se desarrollan los conceptos de probabilidad y curva normal, básicos para la comprensión de la estadística inferencial, y los conceptos de correlación y regresión vinculados, respectivamente, con las etapas descriptiva e inferencial. Pablo Cazau. Licenciado en Psicología y Profesor de Enseñanza Media y Superior en Psicología (UBA). Buenos Aires, Enero 2006. Todos los derechos reservados CAPÍTULO 1: INTRODUCCION A LA ESTADISTICA 1.1 DEFINICIÓN Y UTILIDAD DE LA ESTADÍSTICA La Estadística es una disciplina que utiliza recursos matemáticos para organizar y resumir una gran cantidad de datos obtenidos de la realidad, e inferir conclusiones respecto de ellos. Por ejemplo, la estadística interviene cuando se quiere conocer el estado sanitario de un país, a través de ciertos parámetros como la tasa de morbilidad o mortalidad de la población. En este caso la estadística describe la muestra en términos de datos organizados y resumidos, y luego infiere conclusiones respecto de la población. Por ejemplo, aplicada a la investigación científica, hace inferencias cuando emplea medios matemáticos para establecer si una hipótesis debe o no ser rechazada. La estadística puede aplicarse a cualquier ámbito de la realidad, y por ello es utilizada en física, química, biología, medicina, astronomía, psicología, sociología, lingüística, demografía, etc. Cuando en cualquiera de estas disciplinas se trata de establecer si una hipótesis debe o no ser rechazada, no siempre es indispensable la estadística inferencial. Por ejemplo, si sobre 60 veces que se mira un dado, sale un dos 10 veces, no se requiere la estadística para rechazar la hipótesis “el dado está cargado”. Si sale un dos en 58 ocasiones sobre 60, tampoco se necesita la estadística para aceptar la hipótesis “el dado está cargado”. Pero, ¿qué ocurre si el número dos sale 20, 25 o 30 veces? En estos casos de duda, la estadística interviene para determinar hasta qué cantidad de veces se considerará rechazada la hipótesis (o bien desde qué cantidad de veces se la considerará aceptada). En otras palabras, la estadística interviene cuando debe determinarse si los datos obtenidos son debidos al azar o son el resultado de un dado cargado. Otro ejemplo. Si una persona adivina el color (rojo o negro) de las cartas en un 50% de los casos, se puede rechazar la hipótesis “la persona es adivina”. Si, en cambio, acierta en el 99% de los casos el color de las cartas, se puede aceptar la mencionada hipótesis. Los casos de duda corresponden a porcentajes de acierto intermedios, como el 60%, el 70%, etc., en cuyos casos debe intervenir la estadística para despejarlos. La importancia de la estadística en la investigación científica radica en que la gran mayoría de las investigaciones son „casos de duda‟. 1.2 CLASIFICACIONES DE LA ESTADÍSTICA Existen varias formas de clasificar los estudios estadísticos. 1) Según la etapa.- Hay una estadística descriptiva y una estadística inferencial. La primera etapa se ocupa de describir la muestra, y la segunda etapa infiere conclusiones a partir de los datos que describen la muestra (por ejemplo, conclusiones con respecto a la población). Tanto la estadística descriptiva como la estadística inferencial se ocupan de obtener datos nuevos. La diferencia radica en que la estadística descriptiva procede a resumir y organizar esos datos para facilitar su análisis e interpretación, y la estadística inferencial procede a formular estimaciones y probar hipótesis acerca de la población a partir de esos datos resumidos y obtenidos de la muestra. Puesto que estas últimas operaciones llevarán siempre a conclusiones que tienen algún grado de probabilidad, la teoría de la probabilidad constituye una de sus herramientas principales. Téngase presente que en sí misma la teoría de la probabilidad no forma parte de la estadística porque es otra rama diferente de la matemática, pero es utilizada por la estadística como instrumento para lograr sus propios objetivos. La estadística descriptiva también incluye –explícita o implícitamente- consideraciones probabilísticas, aunque no resultan ser tan importantes como en la estadística inferencial. Por ejemplo, la elección de un determinado estadístico para caracterizar una muestra (modo, mediana o media aritmética) se funda sobre ciertas consideraciones implícitas acerca de cuál de ellos tiene más probabilidades de representar significativamente el conjunto de los datos que se intenta resumir. Tanto la estadística descriptiva como la inferencial implican, entonces, el análisis de datos. “Si se realiza un análisis con el fin de describir o caracterizar los datos que han sido reunidos, entonces estamos en el área de la estadística descriptiva… Por otro lado, la estadística inferencial no se refiere a la simple descripción de los datos obtenidos, sino que abarca las técnicas que nos permiten utilizar los datos muestrales para inferir u obtener conclusiones sobre las poblaciones de las cuales fueron extraídos dichos datos” (Pagano, 1998:19). Kohan, por su parte, sintetiza así su visión de las diferencias entre ambos tipos de estadística: “Si estudiamos una característica de un grupo, sea en una población o en una muestra, por ejemplo talla, peso, edad, cociente intelectual, ingreso mensual, etc, y lo describimos sin sacar de ello conclusiones estamos en la etapa de la estadística descriptiva. Si estudiamos en una muestra una característica cualquiera e inferimos, a partir de los resultados obtenidos en la muestra, conclusiones sobre la población correspondiente, estamos haciendo estadística inductiva o inferencial, y como estas inferencias no pueden ser exactamente ciertas, aplicamos el lenguaje probabilístico para sacar las conclusiones”(Kohan, 1994:25). Kohan emplea la palabra inductiva porque las inferencias realizadas en este tipo de estadística son razonamientos inductivos, modernamente definidos como razonamientos cuya conclusión es sólo probable. 2) Según la cantidad de variables estudiada.- Desde este punto de vista hay una estadística univariada (estudia una sola variable, como por ejemplo la inteligencia), una estadística bivariada (estudia la relación entre dos variables, como por ejemplo inteligencia y alimentación), y una estadística multivariada (estudia tres o más variables, como por ejemplo como están relacionados el sexo, la edad y la alimentación con la inteligencia). El siguiente esquema ilustra la relación entre dos clasificaciones de la estadística: descriptiva / inferencial y univariada / bivariada. La estadística descriptiva se ocupa de muestras, y la estadística inferencial infiere características de la población a partir de muestras. A su vez, ambas etapas de la estadística pueden estudiar una variable por vez o la relación entre dos o más variables. Por ejemplo, a) en el caso de la estadística univariada, el cálculo de medidas de posición y dispersión en una muestra corresponde a la estadística descriptiva, mientras que la prueba de la media corresponde a la estadística inferencial; b) en el caso de la estadística bivariada, el análisis de correlación de variables en una muestra corresponde estrictamente hablando a la estadística descriptiva, mientras que el análisis de regresión o las pruebas de hipótesis para coeficientes de correlación (Kohan N, 1994:234) corresponden a la estadística inferencial. 3) Según el tiempo considerado.- Si se considera a la estadística descriptiva, se distingue la estadística estática o estructural, que describe la población en un momento dado (por ejemplo la tasa de nacimientos en determinado censo), y la estadística dinámica o evolutiva, que describe como va cambiando la población en el tiempo (por ejemplo el aumento anual en la tasa de nacimientos). 1.3 POBLACIÓN Y MUESTRA Puesto que la estadística se ocupa de una gran cantidad de datos, debe primeramente definir de cuáles datos se va a ocupar. El conjunto de datos de los cuales se ocupa un determinado estudio estadístico se llama población. No debe confundirse la población en sentido demográfico y la población en sentido estadístico. La población en sentido demográfico es un conjunto de individuos (todos los habitantes de un país, todas las ratas de una ciudad), mientras que una población en sentido estadístico es un conjunto de datos referidos a determinada característica o atributo de los individuos (las edades de todos los individuos de un país, el color de todas las ratas de una ciudad). Incluso una población en sentido estadístico no tiene porqué referirse a muchos individuos. Una población estadística puede ser también el conjunto de calificaciones obtenidas por un individuo a lo largo de sus estudios universitarios. En el siguiente esquema pueden apreciarse algunas formas de considerar los datos individuales, según que correspondan a muchas personas o a una sola, y también según que hayan sido recolectados en un instante de tiempo determinado, o bien a lo largo del tiempo. De muchos individuos De un solo individuo En un instante de tiempo Notas de todos los alumnos en el primer parcial de tal mes y tal año. Notas de un solo alumno en el primer parcial de las materias que POBLACION MUESTRA Parámetros x1 x2 xn Estadísticos x1 y1 x y x y Una variable Dos (o más) variables cursa en ese momento. A lo largo del tiempo Notas de todos los alumnos durante los 6 años de carrera. Notas de un alumno a lo largo de los 6 años de carrera. Los datos de la totalidad de una población pueden obtenerse a través de un censo. Sin embargo, en la mayoría de los casos no es posible hacerlo por razones de esfuerzo, tiempo y dinero, razón por la cual se extrae, de la población, una muestra, mediante un procedimiento llamado muestreo. Se llama muestra a un subconjunto de la población, y que puede o no ser representativa de la misma. Por ejemplo, si la población es el conjunto de todas las edades de los estudiantes de la provincia de Buenos Aires, una muestra podría ser el conjunto de edades de 2000 estudiantes de la provincia de Buenos Aires tomados al azar. 1.4 ESTRUCTURA DEL DATO Los datos son la materia prima con que trabaja la estadística, del mismo modo que la madera es la materia prima con que trabaja el carpintero. Así como este procesa o transforma la madera para obtener un producto útil, así también el estadístico procesa o transforma los datos para obtener información útil. Tanto los datos como la madera no se inventan: se extraen de la realidad; en todo caso el secreto está en recoger la madera o los datos más adecuados a los objetivos del trabajo a realizar. De una manera general, puede definirse técnicamente dato como una categoría asignada a una variable de una unidad de análisis. Por ejemplo, “Luis tiene 1.70 metros de estatura” es un dato, donde „Luis‟ es la unidad de análisis, „estatura‟ es la variable, y „1.70 metros‟ es la categoría asignada. Como puede apreciarse, todo dato tienen al menos tres componentes: una unidad de análisis, una variable y una categoría. La unidad de análisis es el elemento del cual se predica una propiedad y característica. Puede ser una persona, una familia, un animal, una sustancia química, o un objeto como una dentadura o una mesa. La variable es la característica, propiedad o atributo que se predica de la unidad de análisis. Por ejemplo puede ser la edad para una persona, el grado de cohesión para una familia, el nivel de aprendizaje alcanzado para un animal, el peso específico para una sustancia química, el nivel de „salud‟ para una dentadura, y el tamaño para una mesa. Pueden entonces también definirse población estadística (o simplemente población) como el conjunto de datos acerca de unidades de análisis (individuos, objetos) en relación a una misma característica, propiedad o atributo (variable). Sobre una misma población demográfica pueden definirse varias poblaciones de datos, una para cada variable. Por ejemplo, en el conjunto de habitantes de un país (población demográfica), puede definirse una población referida a la variable edad (el conjunto de edades de los habitantes), a la variable ocupación (el conjunto de ocupaciones de los habitantes), a la variable sexo (el conjunto de condiciones de sexo de los habitantes). La categoría es cada una de las posibles variaciones de una variable. Categorías de la variable sexo son masculino y femenino, de la variable ocupación pueden ser arquitecto, médico, etc, y de la variable edad pueden ser 10 años, 11 años, etc. Cuando la variable se mide cuantitativamente, es decir cuando se expresa numéricamente, a la categoría suele llamársela valor. En estos casos, el dato incluye también una unidad de medida, como por ejemplo años, cantidad de hijos, grados de temperatura, cantidad de piezas dentarias, centímetros, etc. El valor es, entonces, cada una de las posibles variaciones de una variable cuantitativa. Datos individuales y datos estadísticos.- Un dato individual es un dato de un solo individuo, mientras que un dato estadístico es un dato de una muestra o de una población en su conjunto. Por ejemplo, la edad de Juan es un dato individual, mientras que el promedio de edades de una muestra o población de personas es un dato estadístico. Desde ya, puede ocurrir que ambos no coincidan: la edad de Juan puede ser 37 años, y el promedio de edades de la muestra donde está incluído Juan es 23 años. Por esta razón un dato estadístico nada dice respecto de los individuos, porque solamente describe la muestra o población. Los datos estadísticos que describen una muestra suelen llamarse estadísticos (por ejemplo, el promedio de ingresosmensuales de las personas de una muestra), mientras que los datos estadísticos descriptores de una población suelen llamarse parámetros (por ejemplo, el promedio de ingresos mensuales de las personas de una población) (Kohan N, 1994:143). 1.5 LA MEDICIÓN Los datos se obtienen a través un proceso llamado medición. Desde este punto de vista, puede definirse medición como el proceso por el cual asignamos una categoría (o un valor) a una variable, para determinada unidad de análisis. Ejemplo: cuando decimos que Martín es varón, estamos haciendo una medición, porque estamos asignando una categoría (varón) a una variable (sexo) para una unidad de análisis (Martín). A veces se ha definido medir como comparar, lo cual puede referirse a diversos tipos de comparación: 1) comparar una cantidad con otra tomada como unidad Sentido clásico de comparación); 2) comparar dos categorías de una misma variable en el mismo sujeto y distinto tiempo; 3) comparar dos categorías de una misma variable en distintos sujetos al mismo tiempo; y 4) categorías de variables distintas (debe usarse puntaje estandarizado), en el mismo sujeto o en sujetos distintos. Se pueden hacer mediciones con mayor o menor grado de precisión. Cuanto más precisa sea la medición, más información nos suministra sobre la variable y, por tanto, sobre la unidad de análisis. No es lo mismo decir que una persona es alta, a decir que mide 1,83 metros. Los diferentes grados de precisión o de contenido informativo de una medición se suelen caracterizar como niveles de medición. Típicamente se definen cuatro niveles de medición, y en cada uno de ellos la obtención del dato o resultado de la medición será diferente: Ejemplos de datos en diferentes niveles de medición Nivel de medición Nivel nominal Nivel ordinal Nivel cuantitativo discreto Nivel cuantitativo continuo DATO Martín es electricista Elena terminó la secundaria Juan tiene 32 dientes María tiene 70 pulsaciones por minuto Unidad de análisis Martín Elena Juan María Variable Oficio Nivel de instrucción Cantidad de piezas dentarias Frecuencia cardíaca Categoría o valor Electricista Secundaria completa 32 70 Unidad de medida ------------- ------------ Diente Pulsaciones por minuto En el nivel nominal, medir significa simplemente asignar un atributo a una unidad de análisis (Martín es electricista). En el nivel ordinal, medir significa asignar un atributo a una unidad de análisis cuyas categorías pueden ser ordenadas en una serie creciente o decreciente (la categoría „secundaria completa‟ puede ordenarse en una serie, pues está entre „secundaria incompleta‟ y „universitaria incompleta‟). En el nivel cuantitativo, medir significa además asignar un atributo a una unidad de análisis de modo tal que la categoría asignada permita saber „cuánto‟ mayor o menor es respecto de otra categoría, es decir, especifica la distancia o intervalo entre categorías (por ejemplo, la categoría 70 es el doble de la categoría 35). Las variables medibles en el nivel cuantitativo pueden ser discretas o continuas. Una variable discreta es aquella en la cual, dados dos valores consecutivos, no puede adoptar ningún valor intermedio (por ejemplo entre 32 y 33 dientes, no puede hablarse de 32.5 dientes). En cambio, una variable es continua cuando, dados dos valores consecutivos, la variable puede adoptar muchos valores intermedios (por ejemplo entre 1 y 2 metros, puede haber muchas longitudes posibles). Algunas veces una misma variable puede ser considerada como discreta o continua. Por ejemplo, la variable peso es discreta si solamente interesan los pesos sin valores intermedios (50 kg, 51 kg, etc), mientras que será continua si interesan también los valores intermedios (50,3 kg, 50,35 kg, 50,357 kg, etc). Obviamente, al considerar una variable como continua se obtendrá mayor precisión, es decir, mayor información. La precisión es una cualidad importante de la medición. Se pueden hacer mediciones más precisas y menos precisas, o tan precisas como lo permita el instrumento de medición. El primer nivel de medición es el menos preciso, y el último el más preciso. Por ejemplo, una mujer puede estar interesada en „medir‟ el amor de su pareja, para lo cual podrá interrogarla solicitándole diferentes grados de precisión: ¿me querés? (nivel nominal), ¿me querés más que a la otra? (nivel ordinal), ¿Cuánto me querés, del 1 al 10? (nivel cuantitativo). De la misma manera, diferentes grados de precisión para la variable temperatura pueden ser: A es un objeto caliente (nivel nominal), A es más caliente que B (nivel ordinal), A tiene 25 grados Celsius (nivel cuantitativo). Los ejemplos del amor y de la temperatura ilustran también el hecho de que una variable puede en principio medirse en cualquiera de los niveles de medición. Los niveles de medición pueden también ser clasificados de acuerdo a un criterio diferente, que afecta específicamente a los dos últimos. Así, los niveles de medición pueden ser clasificados como nominal, ordinal, de intervalos iguales y de cocientes o razones. Más allá de sus diferentes propiedades matemáticas, el nivel de intervalos iguales incluye un cero relativo o arbitrario, mientras que el nivel de cocientes o razones incluye un cero absoluto o real. Un cero absoluto o real representa la ausencia „real‟ de la variable (cero metros implica ausencia de longitud), mientras que un cero relativo o arbitrario no (cero grado centígrados no implica ausencia de temperatura). Existen ciertas variables a las cuales no puede asignársele un „cero real‟, por cuanto no se considera que esa variable pueda estar ausente en la realidad. Tal es el caso de la ansiedad o la inteligencia: nadie, por menos ansioso o por menos inteligente que sea, puede tener ansiedad o inteligencia nulas. CAPÍTULO 2: ESTADÍSTICA DESCRIPTIVA 2.1 GENERALIDADES El propósito fundamental de la estadística descriptiva es resumir y organizar una gran cantidad de datos referentes a una muestra (lo más habitual) o a una población. Se supone que los datos resumidos y organizados permiten describir adecuadamente la muestra o la población a los efectos de conocerla y, eventualmente, utilizarlos en la estadística inferencial para obtener conclusiones a partir de ellos. Para resumir y organizar los datos se utilizan diferentes procedimientos, llamados técnicas descriptivas: la matriz de datos permite ordenarlos, las tablas de frecuencias (o tablas de distribución de frecuencias) permiten agruparlos, los gráficos permiten visualizarlos, y las medidas estadísticas y las medidas de asimetría y curtosis permiten resumirlos reduciéndolos a un solo dato. Secuencia para organizar y resumir datos individuales A medida que se van utilizando estos procedimientos, los datos van quedando cada vez más resumidos y organizados. El empleo de dichos procedimientos propios de la estadística descriptiva sigue un orden determinado, como puede apreciarse en el siguiente esquema: Como puede verse: a) Los datos quedan recolectados mediante entrevistas, cuestionarios, tests, etc. b) Los datos quedan ordenados mediante una matriz de datos (lo cual permite resumir la información en unas pocas páginas). c) Los datos quedan agrupados mediante tablas de frecuencias (lo cual permite resumir la información en una sola página). d) Los datos quedan visualizados mediante gráficos. e) Los datos quedan sintetizados mediante las medidas estadísticas y otras (lo cual permite resumir la información en uno o dos renglones). Puede entonces decirse que, mediante una matriz de datos, una tabla de frecuencias (1), un gráfico o con medidas estadísticas, etc, la muestra o la población (conjuntos de datos) puede quedar adecuadamente descrita. Estas sucesivas abstracciones estadísticas implican: a) la reducción del espacio físico donde queda guardada la nueva información, y b) la desaparición de considerable informaciónirrelevante. Debe distinguirse el fin o propósito perseguido (por ejemplo ordenar los datos), del medio utilizado para ello, que e la técnica descriptiva (por ejemplo, la matriz de datos). 2.2 ORDENAMIENTO Y AGRUPACIÓN DE LOS DATOS: MATRICES Y TABLAS Una vez que los datos han sido recolectados, se procede a continuación a ordenarlos en una matriz de datos y luego a agruparlos en una tabla de frecuencias. DATOS RECOLECTADOS (entrevistas, cuestionarios, tests, etc) DATOS ORDENADOS (matriz de datos) DATOS AGRUPADOS POR FRECUENCIA (tabla de frecuencias) DATOS AGRUPADOS POR INTERVALOS (tabla de frecuencias por intervalos) DATOS VISUALIZADOS (gráficos) DATOS SINTETIZADOS (medidas estadísticas y medidas de asimetría y curtosis) La forma de ordenarlos y agruparlos dependerá del tipo de variable considerada. Por ejemplo, si son datos relativos a variables cualitativas (niveles de medición nominal y ordinal), no podremos utilizar tablas de frecuencias por intervalos. El siguiente cuadro indica de qué manera se pueden ordenar y agrupar los datos según cada nivel de medición de la variable: Ejemplos de organización de los datos según el nivel de medición Datos ordenados Datos agrupados por frecuencia Datos agrupados por intervalos Nivel nominal (Ejemplo: variable religión) Matriz de datos Sujeto x (religión) Juan Católica Pedro Católica María Judía Antonio Protestante Luis Protestante José Protestante Tabla de frecuencias x (religión) f Católica 2 Judía 1 Protestante 3 n = 6 f = frecuencia n = tamaño de la muestra Nivel ordinal (Ejemplo: variable clase social) Matriz de datos Sujeto x (clase social) Juan Alta Pedro Media María Media Antonio Media Luis Baja José Baja Tabla de frecuencias x (clase social) f Alta 1 Media 3 Baja 2 n = 6 f = frecuencia n = tamaño de la muestra Nivel cuantitativo (Ejemplo: variable edad) Matriz de datos Sujeto x (edad) Juan 15 Pedro 15 María 15 Antonio 16 Luis 16 José 16 Ana 16 Gabriela 16 Susana 17 Martín 17 Sergio 17 Pablo 17 Daniel 17 Graciela 17 Daniela 17 Beatriz 17 Oscar 18 Felipe 18 Alberto 18 Mónica 19 Marta 19 Mariana 20 Tabla de frecuencias x (edad) f 15 3 16 5 17 8 18 3 19 2 20 1 n = 22 f = frecuencia n = tamaño de la muestra Tabla de frecuencias por intervalos x (edad) f 15-16 8 17-18 11 19-20 3 n = 22 f = frecuencia n = tamaño de la muestra Una vez confeccionada la matriz de datos, se procede luego a resumir aún más esta información mediante una tabla de frecuencias o, si cabe, en una tabla de frecuencias por intervalos. Una tabla de este último tipo se justifica cuando la tabla de frecuencias original es demasiado grande y por tanto de difícil manejo para procesar la información. Sea de la forma que fuere, los datos ordenados según sus frecuencias suelen denominarse distribución de frecuencias (13). Las tablas de frecuencias contienen tres elementos importantes: las frecuencias, el tamaño de la muestra y los intervalos (en este último caso sólo para variables cuantitativas). a) Frecuencia.- La frecuencia (f) se define como la cantidad de datos iguales o que se repiten. Por ejemplo: la frecuencia 2 indica que el dato „católico‟ se repite dos veces, la frecuencia 3 que el dato “clase media” se repite tres veces, y la frecuencia 8 que el dato “17 años” se repite ocho veces. A veces resulta necesario expresar las frecuencias de otra manera, como puede apreciarse en la siguiente tabla ilustrativa: Tipos de frecuencias que pueden indicarse en una tabla de frecuencias x (edad) f f% F F% fr Fr 15 3 15% 3 15% 0.15 0.15 16 7 35% 10 50% 0.35 0.50 17 8 40% 18 90% 0.40 0.90 18 2 10% 20 100% 0.10 1 n = 20 n = 100% ------ ------ n = 1 ------ Frecuencia absoluta (f).- Es la cantidad de datos que se repiten. Por ejemplo, la frecuencia 3 indica que hay tres personas de 15 años. La suma de todas las frecuencias absolutas equivale al tamaño de la muestra. Frecuencia porcentual (f%).- Es el porcentaje de datos que se repiten. Por ejemplo, la frecuencia porcentual 15% indica que el 15% de la muestra tiene la edad de 15 años. La suma de todas las frecuencias porcentuales es 100%. Frecuencia acumulada (F).- Es el resultado de haber sumado las frecuencias anteriores. Por ejemplo, la frecuencia acumulada 10 resulta de sumar 7+3, e indica la cantidad de veces que se repiten las edades 16 y 15. La última de todas las frecuencias acumuladas, que en el ejemplo es 20, debe coincidir con el tamaño de la muestra. Frecuencia acumulada porcentual (F%).- Es el porcentaje de las frecuencias acumuladas. Frecuencia relativa (fr).- A veces también llamada proporción, es el cociente entre la frecuencia de un dato x y la frecuencia total o tamaño de la muestra. En la práctica, el tamaño de la muestra se considera como 1, a diferencia del tamaño de la muestra en la frecuencia porcentual, que se considera 100%. Frecuencia relativa acumulada (Fr).- Es el resultado de haber sumado las frecuencias relativas anteriores. Por ejemplo: la frecuencia relativa 0.90 indica que en 0.90 casos sobre 1 las edades están comprendidas entre 15 y 17 años. Frecuencias parciales y frecuencia total.- Tanto las frecuencias absolutas como las porcentuales o las relativas pueden ser frecuencias parciales o una frecuencia total, siendo ésta última la suma de todas frecuencias parciales. Las frecuencias porcentuales y las frecuencias relativas comparan la frecuencia parcial con la frecuencia total, y sirven para establecer comparaciones entre muestras distintas. Por ejemplo, si en una muestra de 1000 hombres, solo votaron 200, y en una muestra de 600 mujeres solo votaron 200 mujeres, en términos de frecuencias absolutas existe la misma cantidad de votantes masculinos y femeninos, es decir 200, pero en „proporción‟, las mujeres votaron más (la tercera parte del total) que los hombres (la quinta parte del total). Esta información se obtiene al convertir las frecuencias absolutas en frecuencias porcentuales o en frecuencias relativas (o proporciones). 2) Tamaño de la muestra.- Otro concepto importante es el tamaño de la muestra (n), que designa la cantidad total de datos. Obviamente, la suma de todas las frecuencias f debe dar como resultado el tamaño n de la muestra, por lo que el tamaño de la muestra coincide con la frecuencia total. 3) Intervalos.- Un intervalo, también llamado intervalo de clase, es cada uno de los grupos de valores ubicados en una fila en una tabla de frecuencias. Por ejemplo el intervalo 15-16 significa que en esa fila se están considerando las edades de 15 a 16 años. La frecuencia correspondiente a un intervalo es igual a la suma de frecuencias de los valores en él incluídos (2). Los intervalos presentan algunas características, que son las siguientes: Tamaño del intervalo (a).- También llamado amplitud o anchura del intervalo, es la cantidad de valores de la variable que se consideran conjuntamente en ese intervalo. Por ejemplo, el intervalo 15-16 años tiene una amplitud de 2, puesto que se consideran dos valores: 15 y 16. En otro ejemplo, el intervalo 20- 25 años tiene una amplitud de 6, puesto que se consideran seis valores. En general, puede calcularse el tamaño de un intervalo restando el límite superior y el inferior y sumando al resultado el número 1. Por ejemplo, 25 menos 20 da 5, y sumándole 1 da 6. Los ejemplos indicados corresponden a variables discretas, lo que significa que no podrán encontrarse valores intermedios entre dos intervalos. Por ejemplo, entre los intervalos 15-16 y 17-18 no se encontrarán valores intermedios entre 16 y 17 años. Téngase presente que: a) preferiblemente los intervalos deben tener un tamaño constante, de manera tal que no se pueden considerar como intervalos 15-16 y 17-20, porque tienen diferentes tamaños; y b) los intervalos han de ser mutuamente excluyentes,de manera tal que cuando se trata de variables discretas, no pueden definirse los intervalos 15-16 y 16-17, porque el valor 16 años está en ambos intervalos y no se podrá saber con seguridad en qué intervalo ubicar dicho valor. El problema se puede presentar con las variables continuas, donde, por definición, podría aparecer algún valor intermedio entre dos intervalos. Por ejemplo, si se considera la variable continua „ingresos mensuales‟ y se consideran en ella los intervalos 1000-2000 dólares y 3000-4000 dólares, puede ocurrir que un dato obtenido de la realidad sea 2500 dólares, con lo cual no podrá ser registrado en ningún intervalo. En tal caso se deberían reorganizar los intervalos como 1000-2999 dólares y 3000-4999 dólares, con lo cual el problema estaría resuelto. Desde ya, puede ocurrir que aparezca un ingreso mensual de 2999,50 dólares, en cuyo caso en principio deberían reorganizarse nuevamente los intervalos como 1000-2999,50 dólares y 2999,51-4999 dólares. La forma de reorganizar los intervalos dependerá entonces del grado de precisión que pretenda el investigador o del grado de precisión del instrumento de medición disponible. Límites del intervalo.- Todo intervalo debe quedar definido por dos límites: un límite inferior y un límite superior. Estos límites, a su vez, pueden ser aparentes o reales (Pagano, 1998:38-39). Considérese el siguiente ejemplo: Límites aparentes Límites reales 95-99 94.5-99.5 90-94 89.5-94.5 85-89 84.5-89.5 80-84 79.5-84.5 75-79 74.5-79.5 Si la variable considerada es discreta, carecerá de sentido la distinción entre límites reales o aparentes. Si se conviene que los valores que la variable puede adoptar son números enteros, se considerarán solamente los intervalos 95-99, 90-94, etc. Estos intervalos son en rigor reales, porque expresan los valores „reales‟ que puedan haber, que no son fraccionarios. Sólo en el caso de las variables continuas adquiere sentido la distinción entre límites reales y aparentes. Si la variable es continua, deberían tenerse en cuenta los límites reales. Por ejemplo, si un valor resulta ser 94.52, entonces será ubicado en el intervalo 94.5-99.5. Sin embargo, aún en estos casos, lo usual es omitir los límites reales y presentar sólo los límites aparentes (Pagano, 1998:39). En todo caso, los límites reales se utilizan a veces cuando se intenta transformar la tabla de frecuencias por intervalos en un gráfico. En principio, en ningún caso deberá haber una superposición de valores, como en el caso de los intervalos 20-21 y 21-22, donde el valor 21 está incluído en ambos intervalos, violándose así la regla de la mutua exclusión. Si acaso se presentara esta situación, o bien podrá ser adjudicada a un error del autor de la tabla, o bien deberá traducírsela como 20-20.99 y 21-22.99. Punto medio del intervalo (xm).- Es el valor que resulta de la semisuma de los límites superior e inferior, es decir, el punto medio del intervalo se calcula sumando ambos límites y dividiendo el resultado por dos. Por ejemplo, el punto medio del intervalo 15-20 es 17.5. El punto medio del intervalo sirve para calcular la media aritmética. Intervalos abiertos y cerrados.- Idealmente, todos los intervalos deberían ser cerrados, es decir, deberían estar especificados un límite superior y uno inferior de manera definida. Sin embargo, en algunos casos se establecen también intervalos abiertos, donde uno de los límites queda sin definir. En el siguiente ejemplo, ‟18 o menos‟ y ‟29 o más‟ son intervalos abiertos. Obviamente, en este tipo de distribución los intervalos dejan de ser de tamaño constante. Intervalos 18 o menos 19-23 24-28 29 o más Cantidad de intervalos.- La cantidad de intervalos es inversamente proporcional al tamaño de los mismos: cuanto menor tamaño tienen los intervalos, más numerosos serán. El solo hecho de emplear intervalos supone una cierta pérdida de la información. Por ejemplo, si se considera el intervalo 15-18 años, quedará sin saber cuántas personas de 16 años hay. Para reducir esta incertidumbre, podría establecerse un intervalo menor (15-16 años), pero con ello habrá aumentado la cantidad de intervalos hasta un punto donde la información se procesará de manera más difícil. Consiguientemente, al agrupar los datos hay que resolver el dilema entre perder información y presentar los datos de manera sencilla (Pagano R, 1998:37) (Botella, 1993:54), es decir, encontrar el justo equilibrio entre el tamaño de los intervalos y su cantidad. En la práctica, por lo general (Pagano, 1998:37) se consideran de 10 a 20 intervalos, ya que la experiencia indica que esa cantidad de intervalos funciona bien con la mayor parte de las distribuciones de datos (3). Se pueden sintetizar algunas reglas importantes para la construcción de intervalos de la siguiente manera: a) Los intervalos deben ser mutuamente excluyentes. b) Cada intervalo debe incluir el mismo número de valores (constancia de tamaño). c) La cantidad de intervalos debe ser exhaustiva (todos los valores deben poder ser incluídos en algún intervalo). d) El intervalo superior debe incluir el mayor valor observado (Botella, 1993:54). e) El intervalo inferior debe incluir al menor valor observado (Botella, 1993:54). f) En variables continuas, es aconsejable expresar los límites aparentes de los intervalos, que los límites reales. 2.3 VISUALIZACIÓN DE LOS DATOS: GRÁFICOS Una vez que los datos han sido organizados en tablas de frecuencias, es posible seguir avanzando organizándolos, desde allí, de otras maneras diferentes y con distintos propósitos. Una de estas maneras es la utilización de representaciones gráficas, algunas de las cuales son aptas para representar variables cualitativas (niveles nominal y ordinal) y otras para variables cuantitativas. Al tratarse de esquemas visuales, los gráficos permiten apreciar de un „golpe de vista‟ la información obtenida. Diagrama de tallo y hojas Esta técnica de visualización de datos es aquí mencionada en primer lugar porque puede ser considerada un procedimiento intermedio entre la tabla de frecuencias y el gráfico. Fue creada por Tukey en 1977 (citado por Botella, 1993:59) y presenta, entre otras, las siguientes ventajas: a) permite conocer cada puntuación individual (a diferencia de la tabla de frecuencias por intervalos, donde desaparecen en ellos); y b) puede ser considerada un „gráfico‟ si hacemos girar 90° el listado de puntuaciones o datos. A continuación se describe la forma de construir un diagrama de tallo y hojas, tomando como ejemplo la siguiente distribución de datos ordenados: 32-33-37-42-46-49-51-54-55-57-58-61-63-63-65-68-71-72-73-73-73-75-77-77-78-83-85-85-91-93 Tallo Hojas Procedimiento para realizar el diagrama de tallo y hojas a) Se construye una tabla como la de la izquierda con dos columnas: tallos y hojas. b) Se identifican cuáles son los valores extremos: 32 y 93. c) Se consideran los primeros dígitos de cada valor: 3 y 9. d) En la columna “tallos” se colocan los números desde el 3 hasta el 9. e) En la columna “hojas” se colocan los segundos dígitos de cada valor que empiece con 3, con 4, con 5, etc. 3 237 4 269 5 14578 6 13358 7 123335778 8 355 9 13 Girando la tabla obtenida 90° hacia la izquierda, se obtendrá algo similar a un gráfico de barras, que muestra por ejemplo que la mayor concentración de valores es la que comienza con 7. Una utilidad adicional del diagrama de tallo y hojas es que permite comparar visualmente dos variables, es decir, dos conjuntos de datos en los análisis de correlación, como puede apreciarse en el siguiente ejemplo: Hojas (Grupo control) Tallo Hojas (Grupo experimental) 87655 1 9 44322110 2 124 876655 3 5667788899 111000 4 00023344 5 555 Visualmente es posible darse una idea de los resultados del experimento: los datos del grupo experimental tienden a concentrarse en los valores altos, y los del grupo de control en los valoresbajos. Pictograma Es una representación gráfica en la cual se utilizan dibujos. Por ejemplo, en el siguiente pictograma cada cara puede representar 100 personas: Sector circular Representación gráfica de forma circular donde cada porción de la „torta‟ representa una frecuencia. Para confeccionarlo se parte de una tabla de frecuencias donde están especificadas las frecuencias en grados (f°), las cuales se calculan mediante una sencilla regla de tres simple a partir de las frecuencias absolutas (f). Por ejemplo, si 825 es a 360°, entonces 310 es igual a 360° x 310 dividido por 825, lo cual da un resultado de 135°. Por lo tanto, para representar la frecuencia 310 deberá trazarse un ángulo de 135°. Estos valores pueden verse en el ejemplo siguiente, donde se han representado dos sectores circulares distintos, uno para varones y otro para mujeres: x (patología) Sexo Total f° (varones) f° (mujeres) Varones Mujeres Angina 310 287 597 135° 113° Bronquitis 297 429 726 130° 169° Sarampión 123 120 243 54° 47° Otras 95 80 175 41° 31° Total 825 916 1691 360° 360° Para realizar estos sectores se traza un ángulo de por ejemplo 130° y dentro de coloca la palabra “bronquitis”, y así sucesivamente. El círculo para mujeres es algo mayor que el círculo para hombres, porque en la muestra hay más mujeres que hombres. Para lograr estos tamaños debe calcularse el radio. Por ejemplo, si se ha elegido un radio masculino de 4 cm, el radio femenino puede calcularse mediante la fórmula siguiente: El radio femenino es igual al radio masculino multiplicado por la raíz cuadrada del n femenino, resultado que se dividirá por la raíz cuadrada del n masculino, donde n = tamaño de la muestra de cada sexo. Si el radio masculino es 4 cm, con esta fórmula se obtendrá un radio femenino de 4,22 cm. Diagrama de barras Representación gráfica donde cada barra representa una frecuencia parcial. En el eje de las ordenadas se indican las frecuencias absolutas, y en el eje de absisas se representan los valores de la variable x. De esta manera, las barras „más altas‟ tienen mayor frecuencia. Varones Mujeres 100 personas Varones Mujeres Bronquitis Angina Saram pión Otras Bronquitis Angina Saram pión Otras Existen diferentes tipos de diagramas de barras, de los cuales se ilustran tres: las barras simples, las barras superpuestas y las barras adyacentes. Los dos últimos tipos dan información sobre dos variables al mismo tiempo, que son sexo y estado civil en los ejemplos que siguen: Las barras también pueden disponerse horizontalmente. Mediante el diagrama de barras pueden representarse variables cualitativas y cuantitativas discretas. Histograma de Pearson Utilizado para representar variables cuantitativas continuas agrupadas en intervalos, este gráfico se compone de barras adyacentes cuya altura es proporcional a las respectivas frecuencias parciales. En el ejemplo siguiente, se presenta la tabla de frecuencias por intervalos y su histograma correspondiente: x (longitud) f 1-1.99 3 2-2.99 5 3-3.99 2 Total 10 f 25 20 15 10 5 Barras simples f 25 20 15 10 5 Solteros Casados Separados x Barras superpuestas f 25 20 15 10 5 Solteros Casados Separados x Barras adyacentes Solteros Casados Separados x Adolescentes Adultos Como pude apreciarse, en las absisas se indican los límites inferiores de los intervalos. Cuando los intervalos no son iguales, en lugar de indicar las frecuencias absolutas pueden indicarse las alturas (h). Esta última se obtiene dividiendo la frecuencia parcial por el tamaño del intervalo correspondiente. Polígono de frecuencias Es un gráfico de líneas rectas que unen puntos, siendo cada punto la intersección del punto medio del intervalo (indicado en las absisas) y la frecuencia correspondiente. Tomando el ejemplo anterior, el polígono de frecuencias sería el siguiente: Un polígono de frecuencias puede obtenerse también a partir del histograma correspondiente. Para ello basta con indicar los puntos medios de cada línea horizontal superior de cada barra del histograma, y luego unirlos con líneas rectas. Otra alternativa para este tipo de diagrama es el polígono de frecuencias acumuladas, donde se indican las frecuencias acumuladas en lugar de las frecuencias habituales. Ojiva de Galton Gráfico en el cual se consignan en las ordenadas las frecuencias acumuladas y en las absisas los límites superiores de cada intervalo (aunque también pueden indicarse los puntos medios de cada intervalo). Por ejemplo: x (longitud) f F 1-1.99 3 3 2-2.99 5 8 3-3.99 2 10 Total 10 f 5 4 3 2 1 1 2 3 4 x f 5 4 3 2 1 1.5 2.5 3.5 punto medio (xm) La ojiva de Galton también puede representar frecuencias acumuladas decrecientes. 2.4 SÍNTESIS DE LOS DATOS: MEDIDAS ESTADÍSTICAS DE POSICIÓN Los datos individuales pueden ser sintetizados mediante medidas de posición, medidas de dispersión (ambas se llaman medidas estadísticas), medidas de asimetría y medidas de curtosis. En este ítem se describen las medidas de posición. Definición Las medidas de posición pueden ser definidas de diversas formas (4). En esta nota proponemos la siguiente definición: Las medidas de posición son datos estadísticos que intentan representar un conjunto de datos individuales respecto de una variable. Esta definición se refiere a tres cuestiones: 1) Son medidas estadísticas, es decir, no son medidas individuales. Una medida de posición representa a todo un conjunto de datos, y no son los datos individuales. Por ejemplo, un promedio de edades representa a todas las edades del grupo, y no es la edad individual de uno de sus miembros, aunque pueda coincidir numéricamente con ella. Así, si el promedio de edades es 20 años y una de las personas del grupo tiene 20 años, el primer dato es una medida estadística y el segundo una medida individual. En otros términos, las medidas estadísticas no describen individuos, sino poblaciones o muestras. Por ejemplo, no tiene sentido explicar que una persona es anciana porque vive en una población cuyo promedio de edad es 70 años. 2) Son medidas representativas, es decir, intentan representar y sintetizar a todas las medidas individuales. El conjunto de todas las medidas individuales puede recibir diversos nombres, tales como muestra y población, con lo cual tiene sentido afirmar proposiciones tales como „una medida de posición representa una muestra o una población‟. Por ejemplo, es posible representar las notas obtenidas por un grupo de alumnos de diversas maneras: a) El promedio de las notas es de 7.35 puntos (en este caso usamos una medida de posición llamada media aritmética). b) La mitad de los alumnos ha obtenido una nota superior a 6,5 puntos (en este caso utilizamos otra medida de posición llamada mediana). c) La nota que más se ha repetido fue 7 puntos (en este caso usamos la medida de posición llamada modo). La pregunta acerca de cuál de las tres medidas de posición representa „mejor‟ al conjunto de datos individuales es el problema de la representatividad de la medida de posición, y la estadística suministra, F 10 9 8 7 6 5 4 3 2 1 1.99 2.99 3.99 lím superior (Ls) como se verá, diversos criterios para evaluar la mejor forma de representar un cierto número de datos individuales. 3) Son medidas que miden una variable, es decir, algún atributo o propiedad de los objetos. En el ejemplo anterior la variable medida es el rendimiento académico, pero también pueden obtenersemedidas de posición representativas de un conjunto de edades, de profesiones, de clases sociales, de puntuaciones de un test, de cantidad de dientes, etc. De otra manera: no tiene sentido decir que una medida de posición represente un conjunto de personas, pero sí tiene sentido decir que representan las edades de un conjunto de personas. Características de las principales medidas de posición Las medidas de posición pueden ser de tendencia central y de tendencia no central. Las primeras “se refieren a los valores de la variable que suelen estar en el centro de la distribución” (Kohan, 1994:69). Por ejemplo: la media aritmética, la mediana y el modo son las más conocidas, pero también está la media aritmética ponderada (útil cuando hay valores que se repiten y que requieren atención diferencial), la media geométrica (Kohan, 1994:71-72), la media armónica, la media antiarmónica, la media cuadrática, la media cúbica, etc. Las medidas de posición no centrales son los cuartiles, deciles y percentiles (Kohan, 1994:79), que reciben genéricamente el nombre de cuantiles o fractiles (5). De acuerdo a Botella (1993:99), las medidas de posición no centrales son datos o valores que ocupan una posición especial en la serie de datos. Cuando una medida de posición es un dato que ocupa un lugar central, la llamamos medida de tendencia central. En el siguiente cuadro se especifican las definiciones y características principales de las medidas de posición. Medida Definición Características MODO Es el dato o valor que más se repite, o sea, el de mayor frecuencia. Resulta útil si hay muchos datos repetidos (altas frecuencias). Puede calcularse cuando hay valores muy extremos. El modo muestral no es un estimador suficiente del modo poblacional porque no incluye todos los datos. En distribuciones multimodales es posible que la muestra no sea homogénea, y que esté constituída por varios estratos. Es posible convertir una distribución multimodal en una modal reorganizando los intervalos. Si una distribución no tiene modo, podría obtenerse reorganizando los datos en intervalos. MEDIANA Es el dato o valor que divide por la mitad la serie de datos ordenados creciente o decrecienteme nte, es decir, es el valor central de la serie. Es la medida más útil en escalas ordinales siempre que los valores centrales sean iguales. No está influenciada por los valores extremos (por ello por ejemplo puede aplicarse desconociendo estos o sea cuando hay límites superiores o inferiores abiertos). Puede usarse cuando hay intervalos abiertos, siempre que el orden de la mediana no se corresponda con ellos. Es útil cuando unos pocos datos difieren mucho del resto. No es útil si hay muchos datos repetidos (altas frecuencias). La mediana muestral no es un estimador suficiente de la mediana poblacional porque no incluye todos los datos. Es útil es distribuciones muy asimétricas (extremos no compensados). La mediana coincide con el Q2 (cuartil 2), el D5 (decil 5) y el P50 (percentil 50) (8). MEDIA ARITMÉTICA Es el promedio aritmético de todos los datos o valores. Está influenciada por los valores extremos (por ejemplo, no puede utilizarse cuando hay valores extremos desconocidos o intervalos abiertos, salvo que estos puedan cerrarse). No conviene cuando los valores extremos son muy altos o muy bajos. Es útil en distribuciones simétricas (con extremos compensados). No puede usarse en escalas nominales ni ordinales. Es siempre superior a la media geométrica y a la media armónica. La media muestral es un estimador suficiente de la media poblacional porque incluye todos los datos. No necesariamente coincide con alguno de los valores. La media aritmética tiene varios otras propiedades (7). CUANTIL Es el dato o valor que divide la serie ordenada de Es útil cuando hay gran cantidad de valores. Puede también utilizarse como medida de dispersión. Suelen utilizarse los cuartiles, los deciles y los percentiles. datos en partes iguales. -Cuartiles Valores que dividen la serie en cuatro partes iguales. Tres cuartiles dividen la serie en cuatro partes iguales. -Deciles Valores que dividen la serie en diez partes iguales. Nueve deciles dividen la serie en diez partes iguales. -Percentiles Valores que dividen la serie en cien partes iguales. Noventa y nueve percentiles dividen la serie en cien partes iguales. También se llaman centiles. Relación entre modo, mediana y media aritmética.- a) La experiencia indica que la relación entre estas tres medidas es: Modo = (3 . Mediana) – (2 . Media aritmética). Esta relación es conocida como la fórmula de Pearson. b) Cuanto más simétrica es una distribución (por ejemplo en una curva normal), más tienden a coincidir los valores de las tres medidas. Cálculo analítico de las medidas de posición: fórmulas Para calcular una determinada medida de posición puede haber diversas fórmulas. La elección de la fórmula adecuada dependerá de la forma en que estén organizados los datos individuales. En principio, los datos pueden estar organizados de cuatro maneras: 1) Datos desordenados. Por ejemplo, las edades de un grupo de cuatro personas son 17, 29, 17 y 14. Cuando se recolecta información, generalmente se obtienen datos desordenados, frente a lo cual convendrá ordenarlos. 2) Datos ordenados. Por ejemplo, las edades del mismo grupo de personas son 14, 17, 17 y 29, si hemos decidido ordenarlas en forma creciente, aunque también podemos ordenarlas decrecientemente. 3) Datos agrupados por frecuencia. Por ejemplo, hay dos edades de 17 años, una edad de 14 años y una edad de 29 años. O, lo que es lo mismo, la frecuencia de la edad 17 es 2, y la frecuencia de las restantes edades es 1. 4) Datos agrupados por intervalos. Por ejemplo, hay 3 edades comprendidas en el intervalo 14-17 años, y una edad comprendida en el intervalo 18-29 años. La estadística va agrupando los datos siguiendo el orden anterior. Cuanto más avance en este proceso, más habrá logrado sintetizar y organizar los datos individuales. En el siguiente cuadro se sintetizan las diversas reglas o fórmulas para calcular las medidas de posición, según como estén organizados los datos individuales y según los niveles de medición que admiten. Nótese que en algunos casos no es posible especificar ninguna fórmula, y entonces el cálculo se hará siguiendo la regla indicada para los mismos. Por ejemplo: “para calcular el modo de un conjunto de datos ordenados, debe buscarse el dato o valor que más se repite” (6). Cálculo de medidas de posición según los niveles de medición que admiten y según la forma de organización de los datos individuales. Preparado por: Pablo Cazau Medida de posición Nivel de medición Datos ordenados Datos agrupados por frecuencia Datos agrupados por intervalos Modo Nominal Valor que más se repite Valor con la mayor frecuencia ------------ Ordinal Valor que más se repite Valor con la mayor frecuencia ------------ Cuantitativo Valor que más se repite Valor con la mayor frecuencia f - fant Mo = Li + ---------------------- . a (f - fant) + (f- fpos) Mediana Ordinal Valor central de la serie ordenada de valores Valor que corresponde a la frecuencia acumulada n/2 ------------ Cuantitativo Valor central de la serie ordenada de valores Valor que corresponde a la frecuencia acumulada n/2 n/2 - Fant Mn = Li + ---------------------- . a f Media aritmética Cuantitativo x X = ----- n x.f) X = --------- n xm.f) X = --------- n Cuartil Cuantitativo Valores que dividen la serie en cuatro partes iguales. Por tanto, hay 3 cuartiles: Q1, Q2 y Q3 Valor que corresponde a la frecuencia acumulada t.n/4, expresión llamada cuartil de orden o Q 0 (1) Donde t puede valer 1, 2 o 3. Por tanto, hay 3 cuartiles: Q1,Q2 y Q3 t.n/4 - Fant Qt = Li + ---------------- . a f Decil Cuantitativo Valores que dividen la serie en diez partes iguales. Por tanto, hay 9 deciles: desde el D1 hasta el D9 Valor que corresponde a la frecuencia acumulada t.n/10, expresión llamada decil de orden o D 0 (1) Donde t puede valer entre 1 y 9. Por tanto, hay 9 deciles: desde el D1 hasta el D9 t.n/10 - Fant Dt = Li + ---------------- . a f Percentil Cuantitativo Valores que dividen la serie en cien parte iguales. Por tanto, hay 99 percentiles: desde el P1 hasta el P99 Valor que corresponde a la frecuencia acumulada t.n/100, expresión llamada percentil de orden o P 0 (1) Donde t puede valer entre 1 y 99. Por tanto, hay 99 percentiles: desde el P1 hasta el P99 t.n/100 - Fant Pt = Li + ---------------- . a f (1) Si no puede identificarse unívocamente una frecuencia acumulada, y por tanto un valor determinado de x, puede ser calculada por interpolación. En realidad, los cuantiles se utilizan preferentemente cuando los datos están agrupados por intervalos. A continuación, se suministran ejemplos de cómo calcular cada medida de posición teniendo en cuenta las reglas y fórmulas del esquema anterior. a) Cálculo del modo para datos ordenados (niveles nominal, ordinal y cuantitativo) Nivel nominal: perro, perro, gato, gato, gato, gato (por tanto, el modo es gato) Nivel ordinal: grande, grande, mediano, mediano, mediano, chico, chico, chico, chico (por tanto, el modo es chico) Nivel cuantitativo: 6, 6, 7, 7, 7, 7, 8, 9, 10, 10, 11 (por tanto, el modo es 7) b) Cálculo del modo para datos agrupados en frecuencia (niveles nominal, ordinal y cuantitativo) Nivel nominal Nivel ordinal Nivel cuantitativo x (religión) f Católicos 56 Protestantes 78 Judíos 45 Budistas 24 Otros 31 x (dureza) f Muy duro 18 Duro 8 Intermedio 13 Blando 16 Muy blando 7 x (edad) f 30 años 6 31 años 14 32 años 19 33 años 24 34 años 15 El modo es “Protestantes” El modo es “Muy duro” El modo es “33” años Como puede verse, el modo es el valor de la variable x que está más repetido. c) Cálculo del modo para datos agrupados por intervalos (nivel cuantitativo) x (cantidad piezas dentarias) f 10-18 6 19-27 8 28-36 24 37-45 2 n=40 Una vez confeccionada la tabla de frecuencias por intervalos, se procede en dos pasos: a) Se identifica cuál es el intervalo de mayor frecuencia. En este caso, es 28-36. b) Se aplica la fórmula correspondiente: f - fant Mo = Li + ---------------------- . a (f - fant) + (f- fpos) 24 - 8 Mo = 28 + ---------------------- . 8 = 31.37 piezas dentarias (24 - 8) + (24 - 2) d) Cálculo de la mediana para datos ordenados (niveles ordinal y cuantitativo) Para hallar la mediana de un conjunto de datos, primero hay que organizarlos en orden descendente o ascendente. Si el conjunto de datos contiene un número impar de elementos, el central es la mediana. Si hay un número par, la mediana es el promedio de los dos datos centrales. Ejemplos para el nivel ordinal: Número impar de datos: alto, alto, alto, alto, medio, medio, medio, medio, medio, medio, bajo (por tanto, la mediana es = medio). Número par de datos: En el nivel ordinal no puede calcularse un promedio si los dos valores centrales son distintos. Si los dos valores centrales son iguales, ese es el valor de la mediana. Ejemplos para el nivel cuantitativo: Número impar de datos: 13, 13, 13, 14, 14, 17, 18, 19, 19 (por tanto, la mediana es 14) Número par de datos: 11, 11, 12, 13, 14, 15, 16, 18, 18, 18 (por tanto, la mediana es el promedio entre 14 y 15, o sea 14.5). e) Cálculo de la mediana para datos agrupados por frecuencia (niveles ordinal y cuantitativo) x (días) f F 1 7 7 2 9 16 3 14 30 4 10 40 5 2 42 n = 42 La variable es aquí cantidad de días de posoperatorio. El procedimiento es el siguiente: a) Se calcula la mediana de orden: Mn0 = n/2 = 42/2 = 21 b) Se identifica cuál es el valor de x que corresponde a la frecuencia acumulada que contiene el valor 21: Dicha frecuencia acumulada es 30, y, por lo tanto Mn = 3 días f) Cálculo de la mediana para datos agrupados por intervalos (nivel cuantitativo) x f F 0-3 8 8 3-6 10 18 6-9 11 29 9-12 12 41 12-15 9 50 15-18 7 57 18-21 6 63 21-24 5 68 n = 68 Nótese que para calcular la mediana se precisa información sobre frecuencias acumuladas, razón por la cual se ha agregado la columna respectiva. Se procede en dos pasos: a) Se identifica cuál es el intervalo que debe ser considerado, para lo cual se calcula la mediana de orden: Mn0 = n/2 = 68/2 = 34 Tomando en cuenta las frecuencias acumuladas, el valor 34 entra en la frecuencia acumulada 41, y, por lo tanto, el intervalo a considerar será 9-12. b) Se aplica la fórmula de mediana: n/2 - Fant Mn = Li + ---------------------- . a f 34 - 29 Mn = 9 + ---------------------- . 3 = 10.25 12 Téngase presente que si la variable fuera discreta y medible sólo en números enteros, sería Mn = 10. Si la variable fuese cantidad de materias aprobadas, el alumno con 10 materias aprobadas está en el lugar central de la serie, es decir, habría un 50% de compañeros con menos materias aprobadas y un 50% con más materias aprobadas. g) Cálculo de la media aritmética para datos ordenados (nivel cuantitativo) Dados los siguientes dados ordenados: 2-2-3-4-4-4-5-5-6-7-8-10 Se puede calcular la media aritmética aplicando la fórmula: x X = ----- n X = ---------------------------------------- = --------- = 5 12 12 h) Cálculo de la media aritmética para datos agrupados por frecuencia (nivel cuantitativo) x (edad) f f . x 18 3 54 19 1 19 20 2 40 23 4 42 25 2 50 26 2 52 28 2 56 n = 16 363 Nótese que para el cálculo de la media aritmética se ha agregado una columna con los productos de x . f. Se aplica la fórmula de media aritmética: x.f) 54+19+40+42+50+52+56 363 X = --------- = ----------------------------------- = -------- = 22.68 años = 23 años. n 16 16 i) Cálculo de la media aritmética para datos agrupados por intervalos (nivel cuantitativo) x f xm xm.f 0-3 8 1.5 12 3-6 10 4.5 45 6-9 11 7.5 82.5 9-12 12 10.5 126 12-15 9 13.5 121.5 15-18 7 16.5 115.5 18-21 6 19.5 117.6 21-24 5 22.5 112.5 n = 68 732.5 Nótese que para el cálculo de la media aritmética se ha agregado una columna con los puntos medios de los intervalos y otra con los productos de las frecuencias por los puntos medios. Se aplica la fórmula de media aritmética: xm.f) 732.5 X = ------------- = ---------- = 10.77 n 68 El método corto y el método clave son dos métodos alternativos para calcular la media aritmética, siendo el último sólo aplicable cuando el tamaño de los intervalos es constante. De acuerdo al método corto, la media aritmética se calcula sumando al punto medio del intervalo de mayor frecuencia, el cociente entre la sumatoria de los productos entre cada frecuencia y la diferencia entre el punto medio de cada intervalo menos el punto medio del intervalo de mayor frecuencia, y la sumatoria de frecuencias (n). De acuerdo al método clave, la media aritmética se calcula sumando al punto medio del intervalo de mayor frecuencia, el producto entre el tamaño del intervalo y un cociente, donde el numerador es la sumatoria de los productos entre las frecuencias y el llamado intervalo unitario (que resulta de dividirla diferencia entre cada punto medio y el punto medio del intervalo de mayor frecuencia, por el tamaño del intervalo), y donde el denominador es la sumatoria de frecuencias (n). j) Cálculo del cuantil para datos ordenados (nivel cuantitativo) 1-1-1-1-1-2-2-2-3-3-3-3-4-5-6-6-6-6-7-7-8-8-9 Si en la serie anterior resaltamos los tres valores que la dividen en cuatro partes iguales, esos valores serán los cuartiles Q1, Q2 y Q3: 1-1-1-1-1-2-2-2-3-3-3-3-4-5-6-6-6-6-7-7-8-8-9 Q1 = 2 Q2 = 3 Q3 = 6 Sin embargo, es más práctico agrupar los datos por frecuencias o por intervalos, a los efectos del cálculo de los cuantiles (cuartiles, deciles o percentiles). k) Cálculo del cuantil para datos agrupados por frecuencia (nivel cuantitativo) x (edad) f F 18 3 3 19 1 4 20 2 6 23 4 10 25 2 12 26 2 14 28 2 16 n = 16 Se pueden calcular, por ejemplo, Q1, Q2 y Q3. El primer paso consiste en averiguar los respectivos cuartiles de orden. Para Q1 es Q 0 = t.n/4 = 1.16/4 = 4 Para Q2 es Q 0 = t.n/4 = 2.16/4 = 8 Para Q3 es Q 0 = t.n/4 = 3.16/4 = 12 El segundo y último paso consiste en identificar el valor de x correspondiente al cuartil de orden respectivo. Q1 = 4 Q2 = Está entre 20 y 23 Q3 = 25 l) Cálculo del cuantil para datos agrupados por intervalos (nivel cuantitativo) x (puntaje) f F 0-10 1 1 10-20 3 4 20-30 5 9 30-40 6 15 40-50 10 25 50-60 12 37 60-70 13 50 70-80 9 59 80-90 4 63 90-100 3 66 n = 66 Se pueden calcular, por ejemplo, Q3, D7 y P45. El primer paso consiste en averiguar los cuantiles de orden: Para Q3 es Q 0 = t.n/4 = 3.66/4 = 49.5 Para D7 es D 0 = t.n/10 = 7.66/10 = 46.2 Para P45 es P 0 = t.n/100 = 45.66/100 = 29,7 El segundo paso consiste en identificar el intervalo que corresponde al cuantil de orden en la columna de frecuencias acumuladas: El valor 49.5 corresponde al intervalo 60-70 El valor 46.2 corresponde al intervalo 60-70 El valor 29.7 corresponde al intervalo 50-60 El tercer y último paso consiste en aplicar la fórmula basándose en la información del intervalo identificado. Si la fórmula pide el dato de la frecuencia acumulada anterior y esta no existe, se coloca 0 (cero). En el ejemplo del cálculo del D7, se aplica la siguiente fórmula: t.n/10 - Fant Dt = Li + ------------------- . a f 46.2 - 37 D7 = 60 + ---------------- . 11 = 67.78 13 Cálculo visual de las medidas de posición: gráficos Es posible utilizar un procedimiento gráfico para calcular ciertas medidas de posición, tales como el modo y la mediana. Por ejemplo, el modo se puede calcular a partir de un histograma. La mediana también puede calcularse con un histograma, aunque lo más habitual es hacerlo mediante una ojiva. a) Cálculo del modo mediante un histograma Una vez construido el histograma a partir de una tabla de datos agrupados por intervalos: 1) Se considera el rectángulo de mayor frecuencia (mayor altura). 2) Dentro del mismo se trazan dos rectas como está indicado en el gráfico siguiente. 3) Por la intersección de ambas rectas se traza una recta perpendicular al eje de absisas. 4) El punto del eje de las absisas por donde pasa la recta perpendicular corresponde al modo (en el ejemplo, el modo es 4.80). b) Cálculo de la mediana mediante una ojiva En este caso pueden utilizarse dos procedimientos: 1) Una vez trazada la ojiva, a) se ubica en el eje de las ordenadas a la mediana de orden (Mn 0 ); b) por la mediana se orden se traza una recta paralela al eje x hasta que intersecte la ojiva; c) por este punto de intersección se traza una recta paralela al eje y hasta que intersecte el eje x. En este punto estará ubicada la mediana. 2) Se trazan en el mismo eje de coordenadas las ojivas creciente y decreciente de la misma distribución de datos. Luego, a) se traza una recta paralela al eje y que pase por la intersección de ambas ojivas y por algún punto del eje x; b) el punto del eje x por donde pasa dicha recta corresponde a la mediana. Criterios de elección de medidas de posición 1) La elección de una medida de posición debe tener en cuenta el nivel de medición de la variable que se mide: Nivel nominal Nivel ordinal Nivel cuantitativo Modo SI SI SI Mediana NO SI. Siempre y cuando los dos valores centrales con n = par sean iguales. En caso contrario usar el Modo. SI Media aritmética NO NO SI Cuando no haya valores extremos alejados ni valores extremos abiertos. En caso contrario, usar el Modo o la Mediana (*). Cuantiles NO NO SI (*) Hay al menos tres situaciones donde se preferirá la mediana a la media (Botella, 1993:115): a) cuando la variable es ordinal, b) cuando haya valores extremos que distorsionen la interpretación de la media, y c) cuando haya intervalos abiertos, como en el caso de variables como ingresos mensuales. 2) La elección de una medida de posición debe tener en cuenta la forma en que están organizados los datos. Por ejemplo: “en ocasiones, el azar hace que un solo elemento no representativo se repita lo suficiente para ser el valor más frecuente del conjunto de datos. Es por esta razón que rara vez utilizamos el modo de un conjunto de datos no agrupados como medida de tendencia central. Por esta razón, debemos calcular el modo en datos agrupados en una distribución de frecuencias” (Levin y Rubin, 1996). 3) La elección de una medida de posición de una muestra debe tener en cuenta el grado de fidelidad con que representa a la medida de posición poblacional. f 5 4 3 2 1 1 4 7 10 x Botella (1993:114) afirma, en este sentido, que si no hay ningún argumento en contra, siempre se preferirá la media, no sólo porque permite la utilización de otras medidas estadísticas (por ejemplo el desvío estándar), sino porque es más representativa de la media poblacional que el modo o la mediana con respecto al modo o la mediana poblacional. 2.5 SÍNTESIS DE LOS DATOS: MEDIDAS ESTADÍSTICAS DE DISPERSIÓN Definición Las medidas de dispersión, llamadas también medidas de variabilidad o de variación, son datos estadísticos que informan acerca del grado de dispersión o variabilidad de los datos individuales de una muestra o una población, respecto de una variable. En otras palabras, indican el grado de homogeneidad o de heterogeneidad del conjunto de los datos. Por ejemplo, indican cuán alejados o cuán cercanos se encuentran los datos de algún valor central como la media aritmética: una muestra cuyos datos son 3-4-5 es menos dispersa que una muestra cuyos datos son 1-4-7. Algunos autores (Botella, 1993:325) han relacionado la dispersión de los datos -para los niveles de medición nominal y ordinal- con los conceptos de entropía y de incertidumbre e incluso han propuesto a la primera como una medida que permite cuantificar la dispersión: a mayor dispersión de los datos, hay mayor entropía y mayor incertidumbre. Por ejemplo, las siguientes dos muestras tienen cada una 40 sujetos que han elegido determinados colores para representar la idea de paz: Blanco Verde Amarillo Celeste Rosa Muestra A: 28 3 3 3 3 Muestra B: 8 8 8 8 8 Si habría que adivinar qué color eligió determinado sujeto de la muestra A, cabría proponer el color blanco porque fue el más elegido. En cambio, la incertidumbre aumenta si habría que elegir lo mismo en la muestra B. En esta muestra hay más entropía, es decir, más desorden, mientras que en la muestra A los datos están más ordenados alrededor de un valor muy repetido, como el blanco. La muestra B es más dispersa, es decir, más heterogénea, mientras que la muestra A es menos dispersa, es decir, más homogénea. La homogeneidad no debe relacionarse con la repetición de frecuencias (3-3-3-3) sino con la repetición de valores iguales o muy cercanosentre sí (28 sujetos eligieron blanco). Una medida de posición no alcanza para describir adecuadamente una muestra. Se obtiene una información más precisa y completa de ella cuando además se utiliza una medida de dispersión. Por ejemplo, la muestra 1 de datos 3-4-5 y la muestra 2 de datos 1-4-7 tienen la misma medida de posición: la media aritmética en ambos casos es 4. Sin embargo, se trata evidentemente de dos muestras diferentes, por cuanto la segunda es más dispersa que la primera, es decir, sus datos están más alejados de la media aritmética. En la primera muestra el promedio de las desviaciones respecto de la media es 1 (de 3 a 4 hay 1, y de 5 a 4 hay 1), mientras que el promedio de las desviaciones en la segunda muestra es 3 (de 1 a 4 hay 3, y de 7 a 4 hay 3). Por lo tanto, ambas muestras pueden representarse de la siguiente manera: Muestra 1: 4 + 1 (se lee 4 más/menos 1) Muestra 2: 4 + 3 (se lee 4 más/menos 3). Las medidas de dispersión tienen una importancia adicional porque (Levin y Rubin: 1996): a) Proporcionan información adicional que permite juzgar la confiabilidad de la medida de tendencia central. Si los datos se encuentran ampliamente dispersos, la posición central es menos representativa de los datos. b) A veces resulta indispensable conocer la dispersión de una muestra porque muestras demasiado dispersas pueden no ser útiles para poder sacar conclusiones útiles sobre la muestra. Levin y Rubin indican que, “ya que existen problemas característicos para datos ampliamente dispersos, debemos ser capaces de distinguir los que presentan esa dispersión antes de abordar esos problemas”. Características de las principales medidas de dispersión En general, las medidas de dispersión más utilizadas sirven para la medición de variables en el nivel cuantitativo. Seguidamente se examinarán las siguientes medidas de dispersión: rango, desviación media, varianza, desvío estándar, desvío intercuartílico y coeficiente de variación. En el siguiente cuadro se especifican las definiciones y características principales de las medidas de dispersión. Medida Definición Características RANGO Es la diferencia entre los valores máximo y mínimo de la variable. De uso limitado, no es una buena medida de dispersión. Es muy sensible a los valores extremos e insensible a los valores intermedios. Está muy vinculada al tamaño de la muestra: es probable que la muestra de mayor tamaño presente mayor rango aunque las poblaciones de referencia tengan igual dispersión (Botella, 1993). Se llama también amplitud. DESVIACION MEDIA Es el promedio de las desviaciones de todos los valores respecto de la media aritmética. Considera desviaciones absolutas, es decir, no las considera con valores negativos (de otro modo, el promedio de las desviaciones, por un teorema de la media aritmética, daría cero). Esto representa una dificultad de cálculo, por lo que se utiliza la varianza. VARIANZA Es el promedio de los cuadrados de las desviaciones con respecto a la media aritmética. Es un valor esencialmente no negativo (10). Matemáticamente es buena medida de dispersión, pero da valores muy altos, por lo cual en estadística descriptiva se utiliza el desvío estándar (9). Se apoya en una propiedad de la media aritmética según la cual la suma de los cuadrados de las desviaciones respecto a la media es un valor mínimo. La varianza permite comparar la dispersión de dos o más muestras si sus medias aritméticas son similares (Botella, 1993). Si se suma una constante a un conjunto de valores, la varianza no se modifica (Botella, 1993). Si se multiplica por una constante a un conjunto de valores, la varianza de los nuevos valores el igual al producto de la varianza de las originales por el cuadrado de la constante (Botella, 1993). DESVIO ESTÁNDAR Es la raíz cuadrada de la varianza (11) Es un valor esencialmente no negativo (10). Es la medida de dispersión más utilizada. Se la emplea conjuntamente con la media aritmética como medida de posición. La raíz cuadrada permite compensar el cuadrado de la varianza. Si se suma una constante a un conjunto de valores, el desvío estándar no se modifica (Botella, 1993). Si se multiplica por una constante a un conjunto de valores, el desvío estándar de los nuevos valores el igual al producto del desvío estándar de las originales por el cuadrado de la constante (Botella, 1993). Se llama también desviación típica, o también desviación estándar (Pagano, 1998:71). DESVIO INTER CUARTILICO Es la diferencia entre el Q3 y el Q1. Expresa el rango del 50% central de la serie de valores. Se llama también amplitud intercuartil. COEFICIENTE DE VARIACION Es el cociente entre el desvío estándar y la media aritmética. Permite comparar la dispersión de dos o más muestras con diferentes medias aritméticas: a mayor coeficiente de variación, mayor dispersión. No se expresa en unidades como la variable en estudio (por ejemplo, para edad, no se expresa en años). Puede considerarse como un índice de la representatividad de la media aritmética: cuanto mayor es el coeficiente de variación, menos representativa es la media (Botella, 1993). Cálculo analítico de las medidas de dispersión: fórmulas En este ítem se indican las fórmulas para calcular medidas de dispersión, y se suministran ejemplos de cada caso. Cálculo de las medidas de dispersión según la forma de organización de los datos individuales Preparado por: Pablo Cazau Medida de dispersión Datos ordenados Datos agrupados por frecuencia Datos agrupados por intervalos Rango R = xmay - xmen R = xmay - xmen No Desviación media | x – X | Dm = --------------- n | x – X | . f Dm = ------------------ n | xm – X | . f Dm = -------------------- n Desvío estándar ( x – X )2 S = ---------------- n El segundo miembro es a la raíz cuadrada ( x – X )2 . f S = ------------------- n El segundo miembro es a la raíz cuadrada ( xm – X ) 2 . f S = ---------------------- n El segundo miembro es a la raíz cuadrada Varianza Es el cuadrado del desvío estándar (S 2 ) Es el cuadrado del desvío estándar (S 2 ) Es el cuadrado del desvío estándar (S 2 ) Desvío intercuartílico DQ = Q3 – Q1 DQ = Q3 – Q1 DQ = Q3 – Q1 Coeficiente de variación S CV = ----- X S CV = ----- X S CV = ----- X Cuando hay que calcular varianza o desvío estándar poblacionales, se utiliza „n‟ en el denominador, pero cuando se calculan las correspondientes medidas muestrales (o cuando la muestra es muy pequeña), se utilizará „n–1‟ (12). a) Cálculo del rango para datos ordenados y para datos agrupados por frecuencia Se puede aplicar a estas muestras la fórmula del Rango R = xmay - xmen Muestra 1: 80, 100, 100, 110, 120. Aquí el rango R es = 120 – 80 = 40. Muestra 2: 30, 50, 70, 120, 180. Aquí el rango R es = 180 – 30 = 150 Como se ve, la muestra 2 es más dispersa porque tiene mayor rango. No se puede calcular el rango para datos agrupados por intervalos porque se desconocen cuáles son los valores máximo y mínimo. b) Cálculo de la desviación media para datos ordenados La serie ordenada de datos puede ser la siguiente: 2, 3, 5, 6, 7, 9, 10 Como primer paso se calcula la media aritmética: 2+3+5+6+7+9+10 X = --------------------------- = 6 7 Como segundo y último paso, se calcula la desviación media: | x – X | |2-6| + |3-6| + |5-6| + |6-6| + |7-6| + |9-6| + |10-6| Dm = --------------- = --------------------------------------------------------------------- = 2.29 N 7 c) Cálculo de la desviación media para datos agrupados por frecuencia A la siguiente
Compartir