Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Bioestadística cualitativa Bioestadística cualitativa.indd 1 25/06/2010 12:19:36 p.m. Bioestadística cualitativa M. Sc. Esteban Egaña Morales Profesor de Bioestadística del Instituto de Ciencias Básicas y Preclínicas Victoria de Girón Bioestadística cualitativa.indd 3 25/06/2010 12:19:36 p.m. Edición, composición e ilustraciones: Ing. José Quesada Pantoja Diseño: Yisleidy Llufrío © Esteban Egaña Morales, 2010 © Sobre la presente edición: Editorial Ciencias Médicas, 2010 ISBN 978-959-212-617-6 Editorial Ciencias Médicas Centro Nacional de Información de Ciencias Médicas Calle 23, No. 117 e/ N y O, Edificio Soto, El Vedado, Ciudad de La Habana, CP 10400, Cuba. http:///www.sld.cu/sitios/ecimed/ Correo electrónico: ecimed@infomed.sld.cu Teléfonos: 838 3375 / 832 5338 Catalogación Editorial Ciencias Médicas Egaña Morales, Esteban Bioestadística cualitativa. —La Habana: Editorial Ciencias Médicas, 2010. 294 p.: il., tab. WA 950 Bioestadística, interpretación estadística de datos, estadística como asunto Bioestadística cualitativa.indd 4 25/06/2010 12:19:36 p.m. A mi esposa, Olga Fernández Alonso, estadística también, que con amor me ha ayudado mucho, y a mi hijo Giani, que ha seguido nuestros pasos en la matemática y ya comienza a superarnos, lo que nos reconforta. Bioestadística cualitativa.indd 5 25/06/2010 12:19:36 p.m. Prefacio Las pruebas de hipótesis estadísticas que no exigen el conocimiento previo de la distribución poblacional se denominan no paramétricas o de libre distribución, en contraposición a las más conocidas pruebas paramétricas, que si lo exigen. En este libro solo se tratarán pruebas de hipótesis para datos en escalas nominales y ordinales que constituyen la gran mayoría de las no paramétricas, además de elementos de la estadística descriptiva, correspondientes a estos datos, a esto se debe la denominación de estadística cualitativa, teniendo en cuenta la clasi- ficación, poco precisa, de las variables en cualitativas y cuantitativas, así como la reciente proliferación del término investigación cualitativa, que se escucha frecuentemente en los medios sociales. A causa del desconocimiento de las pruebas no paramétricas, en las ciencias sociales y otras afines han aparecido artículos, libros, po- nencias y cursos de la llamada investigación cualitativa y metodología de la investigación, que por lo común niegan el uso de la estadística en la investigación. Las investigaciones se dividen al efecto en dos grandes grupos: las experimentales, que se basan en la realización de experimentos con objetos y procesos de la realidad objetiva que generan datos, que es necesario cuantificar y procesar estadísticamente, y las teóricas que no necesitan realizar experimentos en la realidad objetiva porque por ser teóricas solo trabajan con sus modelos teóricos y el ra- zonamiento lógico y matemático a partir de axiomas y proposiciones. Pero estas investigaciones teóricas son mucho menos frecuentes que las experimentales y es por eso que los métodos estadísticos se usan en la mayoría de las investigaciones, es decir, en las experimentales. Lo que sucede es que hay gran desconocimiento de los métodos estadísticos en general y de los no paramétricos en particular. Muchas personas no saben que las variables cualitativas también se cuantifican, mediante las frecuencias las nominales y por el orden y el rangueo las ordinales, en este libro se ofrecen más de 40 procedimientos estadísticos de esta índole. Las pruebas de hipótesis no paramétricas son menos po- tentes que las paramétricas por utilizar menos información de los datos, Bioestadística cualitativa.indd 7 25/06/2010 12:19:37 p.m. solo la nominal unas, otras la nominal y ordinal, pero ninguna la métrica, o sea se utilizan sólo cuando las variables están en escalas nominal u ordinal o cuando están en escala de intervalo o razón y no cumplen las condiciones que exigen las pruebas paramétricas correspondientes, algo muy corriente. Lo de menor potencia se puede resolver aumentando un poco el tamaño de las muestras. En la investigación médica y biológica aparecen con frecuencia datos en escalas nominales y ordinales, es decir, cualitativas, pero hay que tener cuidado con esta última denominación, porque un número n es también una cualidad, la común a todos los conjuntos de n elementos. Este libro está orientado a superar el desconocimiento acerca de gran cantidad de métodos estadísticos ampliamente aplicables en esta y otras ciencias y tecnologías, de las que la investigación médica se nutre y a las que también tributa. La introducción de conocimientos debe empezar por la enseñanza en los centros académicos y de investigación médica, por lo que este texto es para los estudiantes, incluidos los residentes y demás cursos de superación, así como de consulta para los profesionales que investigan, principalmente. La necesidad obligó a las investigaciones biológicas y médicas a utilizar la estadística y a reconocerla como una especialidad propia, la bioestadística, que no es más que la estadística aplicada en la biología y la medicina, o sea, la que abarca los métodos estadísticos más aplicados en estas, aunque, ¿cuáles métodos estadísticos no se usan en ellas? Algu- nos matemáticos y estadísticos desdeñan los métodos no paramétricos, incluidos los aplicables a variables en escalas nominales y ordinales, por ser menos potentes, pero, ¿qué hacer si se presentan en la realidad datos en estas escalas o no se cumplen las condiciones que exigen los correspondientes métodos paramétricos que son bastante restrictivos?, ¿aplicárselos indebidamente como hacen algunos por desconocimiento o comodidad? Desde todos los puntos de vista, resulta más apropiado y beneficioso aplicar rigurosamente los métodos no paramétricos y utilizar en cada caso el más apropiado y el que más información pueda extraer de los datos. La tecnología estadística, basada fundamentalmente en la teoría de las probabilidades y la matemática en general, ofrece métodos y procedi- mientos para estudiar la realidad objetiva, ya hace algún tiempo el gran Laplace afirmaba que: “en el fondo la teoría de probabilidades es apenas el sentido común expresado en números”. Pero las teorías, incluida la de probabilidades, por su naturaleza, trabajan con entes y procesos ideales, así como con sus relaciones. Para el tratamiento de los entes y procesos de la realidad objetiva, y por tanto no ideales, están las tecnologías, como es el caso de la estadística. Bioestadística cualitativa.indd 8 25/06/2010 12:19:37 p.m. Ambas, la teoría de probabilidades y la estadística, permiten una mejor y mayor comprensión del mundo, mediante el estudio de los fenómenos aleatorios que constituyen la inmensa mayoría de los exis- tentes y permiten orientarse mejor en ellos, a no aceptar afirmaciones a priori, sin fundamentación, al menos estadística, e interpretar con mayor conciencia la confiabilidad de una estimación y la significación o no de una diferencia o una asociación, la probabilidad de equivocación en una decisión, así como diferenciar el procesamiento estadístico, cons- ciente y riguroso, de los datos de la manipulación con mala intención o errónea por desconocimiento o a propósito. Esto nos situará en mejores condiciones de argumentar nuestras propias afirmaciones. La mayoría de los fenómenos de la naturaleza y la sociedad son aleatorios, algunos evidentemente y otros se revelan como tales al afinar la medición y tratarlos multilateralmente en la madeja de los múltiples factores que sobre ellos influyen. Para su estudio, a menudo todos o una buena parte de ellos, juntos se consideran un único factor aleatorio. De modo que los profesionales de la medicina como los de la biología, armados de al menos algunos conocimientos de esta teoría y su aplicación a la realidad, estarán más capacitados para interpretar y transformar, en beneficio de la sociedad, los fenómenosde nuestro mundo y habrán abierto la puerta de acceso al conocimiento de las leyes probabilísticas que gobiernan una buena parte de él, en fin tendrán una mejor concepción del mundo. La tecnología informática ha aportado y aporta la posibilidad de sua- vizar extraordinariamente la aplicación de los métodos probabilístico- estadísticos, de modo que ya no se requiere, necesariamente, dominar el aparato de cálculo y procesamiento numérico, sino solamente interpretar los resultados del método estadístico aplicado y claro está, conocer algún manejo de los datos en algún software estadístico actual; esto es muy conveniente para la difusión de la estadística entre los profesionales y estudiantes no matemáticos. La medicina, inmersa en este mundo no es ajena a este proceso universal y por tanto tampoco debe ser ajena al estudio y dominio de una buena parte de los métodos estadísticos menos conocidos como los no paramétricos. No obstante estar dedicado este libro al procesamiento estadístico de datos en escalas nominales y ordinales, se han incluido como modelos para introducir los métodos no paramétricos unos pocos y básicos mé- todos paramétricos como los de correlación lineal, así como pruebas de hipótesis para la media de una población, como punto de partida para las correspondientes pruebas para las variables nominales y ordinales. El resto es estadística descriptiva y pruebas de hipótesis para variables en Bioestadística cualitativa.indd 9 25/06/2010 12:19:37 p.m. escalas nominales y ordinales ordenadas por escalas de cuantificación y número de poblaciones. La clasificación en escalas nominales, ordinales, de intervalo y de razón es más amplia y por tanto más discriminatoria que la clasificación en solo dos clases como son las discretas y continuas, cualitativas y cuantitativas, categóricas y numéricas. Los métodos o procedimientos estadísticos se ajustan mejor a esta clasificación, por la necesidad de diferenciar entre la escala nominal y la ordinal y, claro está, la de in- tervalo y razón, cuyos métodos o procedimientos estadísticos no trata, teniendo en cuenta que la mayoría de los textos se limitan a estos, que son más conocidos y si acaso mencionan unos pocos métodos no paramétricos. En realidad se escribió este libro como complemento al tomo 2 de Informática médica, o Bioestadística, de un colectivo de autores encabezado por José A. Torres Delgado, que solo trata los métodos paramétricos, elementos de metodología de la investigación y de esta- dísticas de salud y de los no paramétricos solo la prueba ji cuadrado y una prueba de proporciones muy limitadas. También se incluye en este libro, como complementos, además de cuestiones de interés de la estadística, algunos elementos del procesa- miento de datos con las facilidades que proporciona la hoja de cálculos de Microsoft Excel, muy útiles para conformar los archivos o matrices de datos en la forma que lo requieren los distintos métodos estadísticos y calcular los estadígrafos y probabilidades que no aparecen programados en el software estadístico actual. Bioestadística cualitativa.indd 10 25/06/2010 12:19:37 p.m. Contenido Introducción / 1 Capítulo 1. Estadística descriptiva / 5 1.1. Escalas de cuantificación / 5 1.2. Distribuciones de frecuencias según las escalas de cuantificación / 7 1.3. Representaciones gráficas de las distribuciones de frecuencias / 13 1.4. Distribuciones de frecuencias por intervalos de clase y bivariada / 18 1.5. Indicadores de tendencia central / 24 1.6. Indicadores de posición / 28 1.7. Indicadores de dispersión / 30 1.8. Conjuntos, matrices, ficheros o archivos de datos en las diferentes escalas / 33 1.9. Indicadores de correlación / 35 1.10. Coeficientes de correlación de Spearman, punto biserial y V de Cramér / 39 1.11. Coeficientes de correlación de Kendall / 54 1.12. Valores críticos de los coeficientes de correlación / 60 1.13. Diseño de experimentos / 65 Capítulo 2. Pruebas de hipótesis / 68 2.1. Conceptos básicos de pruebas de hipótesis / 68 2.2. Algoritmo general para realizar una dócima de hipótesis / 70 2.3. Dócimas para la media de una población / 71 2.4. Decisión sobre la base de una probabilidad / 77 Capítulo 3. Dócimas para muestrasen escalas nominales / 79 3.1. Dócimas para una población / 79 3.2. Dócimas para dos poblaciones / 96 3.3. Dócimas para más de dos poblaciones / 116 Capítulo 4. Dócimas para muestras en escalas ordinales / 121 4.1. Dócimas para una población / 121 4.2. Dócimas para dos poblaciones / 134 4.3. Dócimas para más de dos poblaciones / 167 Bioestadística cualitativa.indd 11 25/06/2010 12:19:37 p.m. http://booksmedicos.org Capítulo 5. Problemas y suplementos / 175 5.1. Opciones de Excel para el procesamiento estadístico / 175 5.2. Problemas resueltos y propuestos / 222 5.3. Distribución de las pruebas (dócimas o test) de hipótesis por escala de cuantificación de las variables, el número de poblaciones y el tipo de muestras / 240 5.4. Ejemplo de cómo informar el resultado de la aplicación de una prueba de hipótesis con un software estadístico / 242 5.5. Elementos de regresión logística / 243 5.6. Registro de la información observada como variables / 253 5.7. Hacer comparables las variables mediante rangueo, estandarización y recodificación / 261 5.8. Proporciones y algunas de sus aplicaciones en medicina / 264 5.9. Estimación puntual y por intervalo de una proporción / 266 5.10. Media, varianza y coeficiente de correlaciónde las variables dicotómica / 269 5.11. Confiabilidad y validez / 271 5.12. Transformación de una tabla de contingencia en matriz de datos / 273 5.13. Demostración de la relación entre los coeficientes de correlación rangos de Spearman y lineal de Pearson / 275 5.14. Deducción de la fórmula del estadígrafo ji cuadrado de la dócima de independencia en tablas de contingencia de dos por dos / 276 5.15. ¿Son cualitativas las “investigaciones cualitativas”? / 278 Bibliografía / 289 Índice de materias / 291 Bioestadística cualitativa.indd 12 25/06/2010 12:19:38 p.m. http://booksmedicos.org 1 Introducción En toda investigación experimental se requiere cuantificar la infor- mación obtenida del experimento para registrarla en un medio en que se pueda anotar, generalmente en forma de una matriz de datos o base de datos en una simple hoja de papel o un archivo de algún software de computadora tabulado habitualmente en columnas encabezadas por los nombres de las variables (campos) y filas en que aparecen los valores de las variables (registros de los individuos). Salvo por un objetivo es- pecífico que recomiende otra cosa, se debe registrar lo observado en la escala de cuantificación superior, para obtener la máxima información posible en lo registrado y poder discriminar adecuadamente el tipo de procesamiento estadístico a utilizar. Por esta razón y por el hecho de que el método estadístico a aplicar depende de la escala de cuantificación en que se encuentren los datos es que lo primero que se tratará son las escalas de cuantificación con la máxima capacidad discriminadora posible que es la que considera cuatro escalas: nominal, ordinal, de intervalo y de razón. Inmediatamente después se aborda el problema de las distribuciones de frecuencias según las escalas de cuantificación: – Si la escala es nominal solamente se pueden construir con ellas distribuciones de frecuencias absolutas y relativas. – Si la escala es ordinal se pueden construir, además, distribuciones acumulativas absolutas y relativas y aplicar métodos estadísticos basados en el orden o los rangos de los puntajes. El primer procedimiento estadístico empleado en las investigaciones experimentales son las distribuciones de frecuencias, que sirven para explorar los datos y descubrir sus primeras regularidades. Muchos trabajos investigativos experimentales aplican estas distribuciones, comentando separadamente una frecuencia absoluta o porcentual aquíy otra más adelante aisladamente, es preferible situarlas todas en una tabla de frecuencias que puede, además, representarse gráficamente con varios tipos de gráficas estadísticas que permitirán evidenciar regulari- dades en el conjunto de datos muestrales. Bioestadística cualitativa.indd 1 25/06/2010 12:19:38 p.m. http://booksmedicos.org 2 Una distribución de frecuencia no es más que una agrupación de los datos para simplificar su interpretación inicial. A menudo hay que llegar a un máximo agrupamiento y simplificación de los datos al calcular con ellos indicadores de tendencia central, posición, dispersión, asociación y correlación, consistentes en un único puntaje que describe e identifica a todo un conjunto de datos. Tanto las distribuciones de frecuencias como estos indicadores describen conjuntos de datos, valores de una variable, o la relación de una variable con otra u otras. Es objetivo de la estadística describir, estimar parámetros, decidir acerca de las distribuciones o parámetros poblacionales a partir de datos muestrales consistentes en conjuntos de datos o de observaciones de un grupo de individuos o repetidas de un único individuo. Pero los datos son “tercos”, para aplicar los métodos estadísticos se requiere, además, un manejo eficiente de los datos, que incluye la creación de archivos, bases o matrices de datos, su transformación o recodificación por fila o columna, su transposición, su división para crear subconjuntos de datos, la mezcla de dos o más filas o columnas de una matriz de datos o de dos matrices de datos en una sola. También es conveniente saber identificar cuando las variables son independientes y cuando apareadas o igualadas, la escala de cuantificación en que están y como están dispuestas. En general se trata de acomodar los datos al procedimiento estadístico que se desea aplicar o a como lo exige el software estadístico a utilizar, pero todo eso sin perder de vista el no alterar la información que los datos originales contienen. Todas estas situaciones se pueden observar en los ejemplos que acompañan a cada procedimiento, que se pide repetir creadoramente en los problemas propuestos para que el lector adquiera habilidad en ello. Para el proce- samiento requerido son muy útiles los software estadísticos, las hojas de cálculo como el Microsoft Excel y los procesadores de texto, así como la vinculación creadora entre ellos. Un curso de estadística moderno es inconcebible sin el uso de un conjunto de computadoras personales y software estadísticos y de uso general como apoyo, es muy conveniente que el profesor cree previa- mente un archivo o matriz de datos con unas 11 variables de todas las escalas: tres en escalas nominales comparables, tres en escalas ordinales con seis o siete valores comparables entre sí, tres en escalas de intervalo o razón también comparables y dos para facilitar la formación de grupos o muestras independientes, una con dos valores y la otra con tres. Al menos dos de estas variables deben tener distribución normal y corre- lación alta entre varios pares de variables. Las parejas y ternas tanto de las variables en una misma escala representarán variables apareadas o igualadas y las que tienen pocos valores servirán para dividir los datos Bioestadística cualitativa.indd 2 25/06/2010 12:19:38 p.m. http://booksmedicos.org 3 en grupos o muestras independientes. El total de datos se sugiere que sea de 50 como mínimo, para que cuando se subdividan en grupos estos sean de un tamaño no muy pequeño. Se debe tener en cuenta, además, que el estudiante debe saber trabajar con un número grande de elementos, lo que se acerca más a la realidad. Con esta tabla o archivo de datos, de 11 columnas por 50 filas o más, se podrán resolver prácticamente todos los problemas de apli- cación de los distintos métodos estadísticos básicos que incluyan los programas, en particular los de pruebas de hipótesis. Con este archivo de datos habrá la posibilidad de aplicar pruebas de dos, tres y más variables independientes o igualadas, así como de construir tablas de frecuencias bivariadas con dos, tres y más categorías, pero este archivo necesariamente tendría que ser de datos ficticios en mayor o menor grado, salvo que se tenga mucha experiencia en la especialidad hacia la cual va dirigido, para lograr que sea representativo de muchas situa- ciones que se dan en la realidad relacionadas con ellas. Dos modelos de estos archivos son el denominado DatosM2 elaborado con registros de psiquiatría y dirigido hacia la docencia en las distintas carreras de ciencias médicas, y DatosMT para la evaluación de los estudiantes, que se incluyen en el libro. Bioestadística cualitativa.indd 3 25/06/2010 12:19:38 p.m. http://booksmedicos.org 5 Capítulo 1 Estadística descriptiva Se tratarán procedimientos estadísticos que permitirán descubrir regula- ridades en los conjuntos de datos, reduciendo las variables a un conjunto de clases o categorías acompañadas de sus frecuencias llamadas distribuciones de frecuencias univariadas y bivariadas, así como sus representaciones gráficas, indicadores numéricos de tendencia central, posición, dispersión y correlación, que incluyen elementos descriptivos de regresión lineal y cuatro coeficientes de correlación que cubren prácticamente todos los casos que se dan en una matriz de datos. 1.1. Escalas de cuantificación De forma general una medición consiste en establecer una correspondencia entre un conjunto de manifestaciones de una propiedad a medir y un conjunto de entes que se asumen como los valores de la medición. Si a este conjunto de elementos se le provee de una estructura, es decir, se define en él una o más relaciones entre sus elementos de forma tal que reflejen las relaciones existentes entre la forma de manifestación de la propiedad que se mide, entonces este conjunto provisto de esa estructura pasa a ser un modelo por medio del cual es posible el estudio de esa propiedad, es decir, a partir de este momento se sustituye la investigación directa sobre los objetos y fenómenos que la poseen por el estudio de esa estructura. Este modelo por medio del cual se concreta el proceso de medición, que determina qué procesamiento estadístico puede realizarse, posteriormente, con esa información recopilada se denomina escala de medición o mejor de cuantificación. Hay cuatro escalas de cuantificación: nominal, ordinal, intervalo y razón o proporción. Se parte de un conjunto A. Se dirá que sus elementos están en: – Escala nominal: cuando se define una relación de equivalencia entre ellos; esto es, se establece un número determinado de clases o categorías tales que cada elemento pertenezca a una y solo una clase. Bioestadística cualitativa.indd 5 25/06/2010 12:19:38 p.m. http://booksmedicos.org 6 – Escala ordinal: si están en una escala nominal entre cuyas clases está definido un orden de modo que cualesquiera que sean dos de ellas una será mayor o superior, en algún sentido, que la otra. Esta estructura satisface las exigencias de una relación de orden. A partir de esta escala las clases se denominan puntajes. – Escala de intervalo: si están en una escala ordinal en que se ha definido una métrica esto es una unidad de medida, una distancia entre sus puntajes consecutivos de modo tal que la proporción o razón entre las longitudes de dos intervalos cualesquiera permanece invariable ante toda transformación de la escala en otra escala de intervalo, o sea. ante toda transformación del tipo y = ax + b. – Escala de razón: si están en una escala de intervalo que posee un cero absoluto, en ella la razón entre dos puntajes cualesquiera permanece invariable ante toda transformación de la escala en otra escala de razón, o sea, ante toda transformación del tipo y = ax. Por ejemplo, la clasificación de las personas que van a una consulta médica puede incluir: – Si presentan o no una patología y se obtiene una variable dicotómica o binaria.− El tipo de patología que presenta (variable en escala nominal). − El grado en que presentan la patología principal (variable en escala ordinal). − Su temperatura corporal en grados Celsius (variable en escala de intervalo). − Su peso en kilogramos (variable en escala de razón). Esta clasificación en cuatro escalas permite una mayor y mejor discrimina- ción de los métodos estadísticos que las que se mencionarán a continuación. 1.1.1. Otras clasificaciones de las variables Una variable es un ente que puede tomar los distintos valores de un conjunto determinado, se denotan habitualmente con letras mayúsculas X, Y, Z y sus po- sibles valores forman el conjunto que se ha denominado conjunto de datos. – Variable discreta: la que solo puede tomar un conjunto a lo sumo numerable de valores (sus valores pueden representarse por letras subindizadas con los números naturales, en forma de una sucesión: X1, X2, X3,..., por ejemplo, la cantidad de hijos de un matrimonio, el puntaje obtenido en una prueba, el color del pelo, el número de días transcurridos desde el nacimiento, entre otros. – Variable continua: la que puede tomar todos los valores de un intervalo de números reales no reducido a un punto ni vacío, por ejemplo, el tiempo de reacción ante un estímulo y el peso de un conjunto de personas. Bioestadística cualitativa.indd 6 25/06/2010 12:19:38 p.m. http://booksmedicos.org 7 – Variable de conteo: la variable discreta y en escala ordinal, que cuenta unidades. En ocasiones, y cuando el número de sus valores posibles distintos es grande, puede considerarse en escala de intervalo o razón e incluso, por aproximación, una variable continúa. – Variable dicotómica o binaria: la que tiene solo dos valores posibles distintos cualesquiera, los más simples son 0 y 1, y pueden interpretarse como ausencia y presencia, respectivamente, de una propiedad o cualidad. La variable dicotómica, independientemente de los valores que tome se considerará, a los efectos estadísticos, en escala nominal. También suelen clasificarse como variables cualitativas o categóricas a las no numéricas en escalas nominales y ordinales, y como cuantitativas a todas las numéricas. Por esta razón dentro de las cualitativas hay que distinguir adicionalmente los casos de escala nominal y ordinal y dentro de las cuantita- tivas también las variables en escalas ordinales y las en escalas de intervalo y razón, todo esto hace a esta clasificación compleja y no discrimina más que la clasificación en continua y discreta, por lo que es más práctico no utilizar, por lo menos en la clasificación de los métodos estadísticos, esta clasificación de variables cualitativas y cuantitativas y utilizar las cuatro escalas de cuantificación directamente para describir las variables. Una vez discutidos y precisados los tipos de variables y sus escalas se está en condiciones de abordar las distribuciones de frecuencias, el cálculo de algunos indicadores numéricos de tendencia central, dispersión y asociación, así como las pruebas de hipótesis, diferenciando siempre, su comportamiento, según la escala de cuantificación al aplicarlas. Su necesidad se comenzará a ver de inmediato. 1.2. Distribuciones de frecuencias según las escalas de cuantificación Ejemplo 1.1: En un análisis realizado se registraron 48 pacientes femeninos con valores de la hemoglobina por debajo de 120 g/L y se anotó su municipio de residencia: Marianao (M), Cerro (C), Playa (P) y Guanabacoa (G) obteniéndose: M G P P C G M P M G P C P G M P M G P P C G M P M G P C P G M P M G P P C G M P M G P C P G M P Se puede observar a simple vista que son cuatro los municipios de residencia de los 48 pacientes, que cada paciente reside en uno y solo un municipio y que entre estos municipios no hay definido un orden ni unidad de medida, por lo que se puede afirmar que los datos anteriores están en escala nominal. Bioestadística cualitativa.indd 7 25/06/2010 12:19:38 p.m. http://booksmedicos.org 8 En la tabla 1.1 se muestra lo que se denomina una distribución de frecuencias de estos 48 datos en cuatro clases. Tabla 1.1. Distribución de frecuencias Municipio Frecuencia Marianao 12 Playa 18 Cerro 6 Guanabacoa 12 Total 48 Se puede observar, además, que Playa tiene la mayor frecuencia (18), Cerro tiene la menor (6), y Marianao y Guanabacoa tienen la misma (12). Una distribución de frecuencias es todo agrupamiento de los datos en clases o categorías acompañadas de las frecuencias de clase. La utilidad de la misma radica en que permite descubrir regularidades en un conjunto de datos. La distribución de frecuencias de la tabla 1.1 recibe el nombre de distribu- ción por conteo de valores distintos, porque para construirlas se toman como clases los valores distintos del conjunto de datos, de la variable en cuestión y luego se contabiliza cuantos valores del conjunto coinciden con cada clase y esta cantidad será la frecuencia de la clase en cuestión. Así se procede con cada una de las clases restantes para completar la distribución de frecuencias. Esta distribución se utiliza cuando el número de clases distintas es pequeño. Una distribución de frecuencias, de datos en escala nominal como estos, puede contener cualquiera de los tipos de frecuencias que aparecen en la tabla 1.2. Tabla 1.2. Tipos de frecuencias variables en escalas nominales Frecuencia Municipio Absoluta Relativa Porcentual Tasa por 10 000 Marianao 12 0,250 25,0 2 500 Playa 18 0,375 37,5 3 750 Cerro 6 0,125 12,5 1 250 Guanabacoa 12 0,250 25,0 2 500 Total 48 1,000 100,0 10 000 La tabla 1.2 constituye un ejemplo de distribución de frecuencias de datos en escala nominal en que las clases son los municipios de residencia que aparecen representados por la letra inicial de su nombre. – La frecuencia absoluta de una clase es igual al número de observaciones que pertenecen a esta clase. La suma de las frecuencias absolutas de Bioestadística cualitativa.indd 8 25/06/2010 12:19:39 p.m. http://booksmedicos.org 9 todas las clases de una distribución de frecuencias es igual al número total de observaciones. – La frecuencia relativa de una clase es igual a su frecuencia absoluta dividida entre la suma de las frecuencias absolutas de todas las clases. La suma de las frecuencias relativas de todas las clases de una distribución de frecuencias es igual a 1, salvo por cuestiones de aproximación. La frecuencia relativa de una clase coincide además con la proporción de individuos que caen en esa clase – La frecuencia porcentual de una clase es igual a su frecuencia relativa multiplicada por 100. – La tasa por 10000 de una clase es igual a su frecuencia relativa multiplicada por 10 000. Se denomina tasa a la frecuencia relativa multiplicada por un múltiplo k de 10, así la taza por 10k es igual a la frecuencia relativa multiplicada por 10k, para k = 2 se tiene la frecuencia porcentual que es igual a la relativa multiplicada por 102, por ejemplo, para k = 4 será taza por 10 000, ya que 104 = 10 000. Las tasas se utilizan para evitar dar porcentajes con muchos decimales o fracciones de unidades, que no son asequibles a una amplia población y pueden crear problemas de interpretación como, por ejemplo, cuando se dice que la taza de mortalidad infantil es de 4,7 por 1000 nacidos vivos, de expresarse en porcen- taje sería 0,047 % además de la dificultad propia de los decimales y algunos podrían interpretar que se muere 4 niños y algo más de la mitad de otro niño por cada mil. En este caso es más apropiado decir 47 por 10 000 para que no se hagan semejantes interpretaciones. Otro ejemplo, la frecuencia relativa de de siameses unidos por la cabeza en un lugar es de 0,00000002 (2 x 10–8), la taza porcentual es del 0,000002 % (2 x 10–6 %) y la tasa por 10 000 es 0,0002 (2 x 10–4) , pero mejor se expresa diciendo que es de 2 por 10 000. Problema propuesto 1.1: Construya distribuciones de frecuencias absolutas, relativas, porcentuales y acumulativasde las tres variables: sexo, raza y grado de retrazo mental de la tabla 1.3, matriz de datos DatosM2. Tabla 1.3. Matriz de datos DatosM2 Idvd Sexo Raza GRM EV1 EV2 EV3 EdC CI1 CI2 CI3 1 M N L 3 2 2 9,88 67,1 69,2 29,5 2 F O M 6 2 3 7,31 70,5 70,1 39,1 3 M N L 3 5 3 3,04 50,8 41,8 35 4 F O M 4 5 3 12,8 53,1 47,6 35,4 Bioestadística cualitativa.indd 9 25/06/2010 12:19:39 p.m. http://booksmedicos.org 10 Idvd Sexo Raza GRM EV1 EV2 EV3 EdC CI1 CI2 CI3 5 F N G 5 3 6 7,23 63,2 63,6 60,4 6 F B M 5 2 4 14,67 57,1 51,9 47,7 7 M B G 3 2 2 7,33 73 71,3 53,4 8 F N S 3 4 5 17,45 32,5 27,1 52,9 9 F N L 3 3 2 16,26 63,8 67,5 23,9 10 F O L 2 5 2 6,08 43,1 34,8 33,8 11 M O M 6 3 3 7,02 43 31,6 36,1 12 M O S 6 1 5 7,61 46,3 37,7 53,3 13 M O M 6 6 3 10,35 57,9 52,5 37,1 14 M B G 3 4 6 7,8 57,3 52,2 75,5 15 F B L 5 2 3 8,33 52,4 46 34,7 16 M O M 2 6 4 9,16 28,9 22,7 46,7 17 M B M 5 5 3 5,13 40,2 28,8 39,4 18 M N M 2 3 3 11,81 60,2 59,2 42,7 19 M B S 5 4 4 6,37 23,8 17,3 49,5 20 M N M 4 5 3 20,51 45,2 37,2 39,4 21 M O M 6 6 3 13,34 28,6 21,6 40,8 22 F O S 4 2 4 12,28 51,9 45,8 51 23 F B M 5 6 3 9,19 37,8 28,5 39,9 24 F O M 2 2 3 13,94 52,5 46,3 40,2 25 M O G 3 3 2 8,69 17 15,2 53,9 26 F N G 5 4 5 18,12 61,2 62,5 56,4 27 F N L 5 5 2 9,33 73,1 75,3 23,6 28 M N L 4 3 2 19,63 60,1 59 30,1 29 F N M 3 3 3 Au-sente 58,6 55,9 42,5 30 F O M 4 4 3 4,75 55 49,4 40,9 31 M B S 5 2 4 12,37 54,7 49,1 48,6 32 M O G 3 5 2 7,96 37,6 28,3 55,3 33 M O G 4 3 4 9,38 56,3 49,9 55,5 34 F B M 5 5 3 9,75 50,2 40,8 39,8 35 M B L 6 4 2 5,8 55,6 49,6 24 36 M O S 1 6 4 12,22 31,3 26,8 47,7 37 M B S 2 5 4 12,11 51,8 44,3 49,9 38 M B S 2 6 4 12,06 49,7 40,5 52,6 39 M O M 4 6 3 3,7 79,3 75,7 45,2 40 M O S 6 3 4 8,82 53,5 48,5 48,2 41 M B L 6 3 2 5,42 34,7 28,1 30,6 Bioestadística cualitativa.indd 10 25/06/2010 12:19:39 p.m. http://booksmedicos.org 11 42 F B L 3 3 2 12,12 42 28,9 28,4 43 F N L 5 2 2 13,75 28,7 22,4 24,4 44 F O M 2 5 3 11,11 43,4 36,4 40,8 45 M N L 4 2 2 1 47,6 38,6 28,8 46 M N M 4 3 4 11,56 48,9 38,6 47,5 47 F O M 6 2 3 11,01 61 60,6 43,9 48 M O S 1 6 4 7,27 38,8 28,6 48,5 49 M O G 3 2 6 4,09 30,3 26,7 57,3 50 M O M 2 4 3 7,52 56,9 50,2 45,3 Leyenda: GRM: grado de retraso mental. EV1, EV2 y EV3: representan las escalas de Mad Vinelad en que valores más altos más grave el retraso mental. CI1, CI2 y CI3: representan los coeficientes de inteligencia registrados en tres momentos distintos de la vida de los individuos. EdC: representa la edad cronológica. Observación: Hay paquetes estadísticos modernos que asignan números a los valores de las variables no numéricas para poder procesarlas como numé- ricas, esto trae como consecuencia que realice operaciones con ellas que no proceden, que no se corresponden, como por ejemplo, ofrecen como resultado las distribuciones de frecuencias acumulativas de sexo y raza, que no es posible obtener a menos que se defina un orden entre sus valores. Ejemplo 1.2: Se observan 300 personas y se clasifican según su aspecto físico o peso en obe- sa (O), gruesa (G), buen peso (B), delgada (D) y muy delgada (M) (tabla 1.4) Tabla 1.4. Resultados de la clasificación según aspecto físico y peso M G B D G B O B O M D D G B D G D O O O O D M D G O M G D B D G B D O B M D B G B B G O B B M D G B O O D O B O B O D M B B G B B O O B M O O O B D G M B O O M D O B G M D D B D O G B M G D G G D B B G D O O M B B D G M M M D G G G B D D G D B O M B B D B D D G D M M B B D D B B G B G D B D O B M G D D O D D B B G B B B G D D M M G G B B B G B B B B B D G G G M D D D O B B D G O G D G M D G O B O O G D B B G M D M B D D D B G D G B M G B B G G O G O D B G D G O O B G G O G O G B B B B O D M B B D M O M D O B B B D G B M M O D B B M B B B D D B M M O M B O O G O D M D G B B D O B G D D D D M D Bioestadística cualitativa.indd 11 25/06/2010 12:19:40 p.m. http://booksmedicos.org 12 Se ejemplifica con 300 datos a propósito para que ver que no es un proble- ma grave procesar tantos datos con el software estadístico y para que quede en evidencia la necesidad de construir distribuciones de frecuencia para descubrir regularidades en el conjunto de datos. Observando detenidamente en estos datos se registran solo cinco clases distintas, cada individuo pertenece a una y solo una clase, entre estas clases está definido un orden, que va de menor a mayor: muy delgado, delgado, buen peso, grueso y obeso, pero no existe una unidad de medida que permita saber cuanto más pesado es el obeso que el grueso o el buen peso que el delgado, por lo que se puede afirmar que estos datos están en escala ordinal, aunque provengan de una variable continua. Se puede construir con ellos una distribución de frecuencias con los distintos tipos de frecuencias (tabla 1.5). Tabla 1.5. Distribución de frecuencias del aspecto físico del grupo 1 Aspecto físico Frecuencias Absolutas Relativas Acumulativas Acumulativas relativas Muy delgado 38 0,127 38 0,127 Delgado 71 0,237 109 0,363 Buen Peso 86 0,287 195 0,650 Obeso 48 0,160 243 0,810 Grueso 57 0,190 300 1,000 Suma 300 1,001 La suma de las frecuencias relativas no da 1,000 por error de redondeo de los números a tres cifras decimales. – La frecuencia acumulativa de una clase es igual a la suma de las frecuencias absolutas de esta clase y de las clases anteriores. Puede ser relativa, porcentual, acumulativa. Solo tiene sentido para datos en escalas ordinales o superior. Observaciones: 1. En el caso de las variables en escalas nominales no se pueden construir frecuencias acumulativas porque entre sus clases no hay orden, en ellas no está definido el concepto de clase anterior a otra. 2. Las clases de esta distribución de frecuencias están ordenadas de menor a mayor peso. También se podrían ordenar de mayor a menor peso o sencillamente considerarlas ordenadas de mayor a menor delgadez. De menor a mayor es el ordenamiento que se considera en lo ulterior, salvo que se diga lo contrario. Bioestadística cualitativa.indd 12 25/06/2010 12:19:40 p.m. http://booksmedicos.org 13 3. Si en la distribución de frecuencias de la tabla 1.1 se eliminan las clases y se quedan solo las cuatro frecuencias, estos números que representarán las cuatro clases distintas y no se habrá perdido información relevante para el procesamiento estadístico de estos datos. De modo que las frecuencias han cuantificado el conjunto de datos en escala nominal o cualitativos. 1.3. Representaciones gráficas de las distribuciones de frecuencias 1.3.1. Histograma de frecuencias Es una gráfica de barras, generalmente verticales, cuyas alturas son pro- porcionales a las frecuencias y cuyo ancho es común. Se traza sobre un eje horizontal, donde se marcan las clases, y sobre ellas las barras correspondientes, y se consideran en un eje vertical, las frecuencias. Por ejemplo para los datos del ejemplo 1.2, se tienen las figuras 1.1 y 1.2. Figura 1.1. Histograma de frecuencias o gráfica de barras en el plano. Figura 1.2. Histograma de frecuencias tridimensional. Bioestadística cualitativa.indd 13 25/06/2010 12:19:41 p.m. http://booksmedicos.org 14 1.3.2. Gráfica circular o de pastel Consiste en un círculo (pastel) dividido en tantos sectores (tajadas del pas- tel) como clases haya y cuyas áreas (ángulos o arcos) son proporcionales a las frecuencias de las correspondientes clases (figuras 1.3 y 1.4). Figura 1.3. Gráfica circular o de pastel en el plano. Figura 1.4. Gráfica circular o de pastel tridimensional. 1.3.3. Polígono de frecuencias También llamada gráfica de líneas o poligonal es una gráfica en que sobre un eje de coordenadas se trazan, sobre las marcas de clase, puntos a alturas proporcionales a las frecuencias de cada clase que luego se unen con segmentos de rectas, que pueden no trazarse, para formar la línea poligonal, a veces se trazan segmentos de rectas adicionales desde la última y la primera clase hasta el eje horizontal para cerrar el polígono. Por ejemplo, para los datos del ejemplo 1.2, se tienen las figuras 1.5, 1.6 y1.7. Ejemplo 1.3 En la tabla 1.6 aparece la distribución de frecuencias del aspecto físico de otro grupo de 300 individuos cuya distribución se compara con la de la tabla 1.5 en las figuras 1.8 y 1.9. Bioestadística cualitativa.indd 14 25/06/2010 12:19:41 p.m. http://booksmedicos.org 15 Figura 1.5. Polígono de frecuencias o gráfica de líneas. Figura 1.6. Histograma y polígono de frecuencias del aspecto físico. Figura 1.7. Histograma y polígono acumulativo de la distribución de aspecto físico. Tabla 1.6. Distribución de frecuencias del aspecto físico del grupo 2 Aspecto físico Frecuencia absoluta Obeso 50 Grueso 70 Buen peso 90 Delgado 60 Muy delgado 30 Suma 300 Bioestadística cualitativa.indd 15 25/06/2010 12:19:41 p.m. http://booksmedicos.org 16 Figura 1.8. Histograma comparativo de los dos grupos. Figura 1.9. Polígono comparativo de los dos grupos. Para comparar mediante gráficas de pastel se requiere construir, por separa- do, un pastel de cada variable. Existen, además, otros muchos tipos de gráficas de distribuciones de frecuencias que en general son combinaciones o variantes de los descritos. Problema propuesto 1.2: Construya el histograma, el polígono y la gráfica circular de la variable del ejemplo 1.3, así como las gráficas de pastel comparativas de los grupos 1 y 2. Las gráficas estudiadas pueden tener distintos usos, por lo general: – La gráfica de pastel se usa preferentemente para datos en escala nominal, pues no se puede definir en ella un orden preciso – El polígono, gráfica poligonal o de líneas da idea de continuidad en la variable en cuestión y, por tanto, es apropiada preferentemente para datos que provengan de variables continuas. Bioestadística cualitativa.indd 16 25/06/2010 12:19:41 p.m. http://booksmedicos.org 17 – La gráfica de barras o histograma en el caso de barras separadas es apropiada para datos de variables discretas y, en el caso de barras pegadas una a continuación de la otra para variables continuas. Observaciones: 1. En la actualidad, como se pueden construir las gráficas fácilmente con un software, habitualmente se hacen los distintos tipos de gráficas que más gusten y se observan para escoger luego de compararlas, la más apropiada para la distribución o la que mejor refleje lo que se desea representar o simplemente la que más le guste al investigador. 2. En los histogramas se pueden sustituir las barras por figuras convenientes. La gráfica de pastel solo es apropiada para una sola variable, pero se pueden presentar varios pasteles comparativos de varias variables, en este caso pueden graficarse mejor mediante una barra o figura divididas en partes con áreas correspondientes a las distintas variables. Las gráficas poligonales se pueden trazar con cintas u otros elementos similares. Ejemplo 1.4: Se registra el estado de salud de 40 niños como mal (M), regular (R), bien (B) y excelente (E) y se obtiene la lista: R, M, E, E, M, M, R, B, M, M, B, B, B, B, B, E, B, B, R, R, R, E, B, B, B, R, B, B, R, M, E, B, B, R, R, B, B, R, R, R En las tablas 1.7 y 1.8 se muestra la construcción de una distribución de frecuencias con las frecuencias relativas y acumulativas y su representación gráfica elemental mediante un histograma en posición horizontal. Con un determinado objetivo se decide agrupar los excelentes y bien en la categoría satisfactorio y regular y mal en la categoría no satisfactorio, entonces se obtiene la tabla 1.9 con otra distribución de frecuencias del estado de salud de los 40 niños, agrupados en solo dos clases. Se han reagrupado las clases y reducido a dos valores solamente. Tablas 1.7. Distribución de frecuencias e histograma Clases Frecuencia Histograma Absoluta Mal 6 ▄▄▄▄▄▄ Regular 12 ▄▄▄▄▄▄▄▄▄▄▄▄ Bien 17 ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ Excelente 5 ▄▄▄▄▄ Total 40 Bioestadística cualitativa.indd 17 25/06/2010 12:19:42 p.m. http://booksmedicos.org 18 Tabla 1.8. Distribución de frecuencias relativas y acumulativas Clases Frecuencia acumulativa Relativa Absoluta Relativa Mal 0,150 6 0,150 Regular 0,300 18 0,450 Bien 0,425 35 0,875 Excelente 0,125 40 1,000 Total 1,000 Tabla 1.9. Distribución de frecuencias con dos clases Clases Frecuencia Satisfactorio 22 No satisfactorio 18 Total 40 1.4. Distribuciones de frecuencias por intervalos de clase y bivariada 1. 4.1. Distribución de frecuencias por intervalos de clase Las distribuciones de frecuencias pueden ser: – Por conteo de valores distintos como las de las tablas 1.1 a la 1.9, se aplica cuando el número de valores distintos de la variable es muy escaso y entonces se toman estos valores como clases, esto es común en el caso de variables en escalas nominales y ordinales. – Por intervalos de clase como las que se verán en las tablas 1.10 y 1.11, y se aplica cuando el número de valores distintos de la variable es muy numeroso y no conviene construir un número muy grande de clases, que por lo general es el caso de las variables en escalas de intervalos y razón. De modo que lo que decide es que si la variable tiene muchos valores distintos la distribución debe ser por intervalos y si tiene pocos o muy pocos valores distintos la distribución debe ser por conteo de valores distintos. No se excluye el uso de distribuciones por intervalos de algunas variables en escalas nominal y ordinal, que en realidad no son verdaderos intervalos sino más bien agrupaciones de clases. Un ejemplo de lo expresado son las distribuciones de las tablas 1.8 y 1.9 en que los valores de la variable peso están agrupados. En las nominales, en ocasiones, se pueden encontrar agrupamientos de clases, como por ejemplo si se trata de datos de colores se pudieran agrupar, por ejemplo, en muy oscuros, oscuros, claros y muy claros. Bioestadística cualitativa.indd 18 25/06/2010 12:19:42 p.m. http://booksmedicos.org 19 1.4.2. Algoritmo para construirlas Si los las variables están al menos en escala de intervalo se procede así: 1. Se halla el recorrido: R = dato mayor – dato menor, en el ejemplo. 2. Se fija el número k de intervalos de clases. Se recomienda no menos de cinco ni más de veinte. 3. Se halla la longitud o amplitud común de los intervalos L. k R L = siempre aproximada por exceso. También se puede fijar primero la longitud de intervalo L y hallar después el número de intervalos k por la fórmula k R L = . 4. El dato menor o un número menor suficientemente cercano será el límite inferior d del primer intervalo de clase y a partir de él se hallan los demás límites o extremos de los intervalos de clase sumando L sucesivamente de modo que los k intervalos serán: ]d , d + L]; ]d + L, d + 2L]; ]d + 2L, d + 3L];...; ]d + (k – 1)L, (d + kL)], si d + kL supera al máximo. Donde d es el mínimo o un número menor suficientemente cercano y k el número de clases propuesto. Estos intervalos son abiertos por la izquierda, por lo que no incluyen los extremos inferiores, que se incluyen en el intervalo de clase anterior, y cerrados por la derecha que si incluyen el extremo superior. 5. Una vez construidos los intervalos de clase se procede a calcular las frecuencias de cada clase. El ejemplo 1.5 muestra el cumplimiento de estos pasos. Ejemplo 1.5: Los datos de la tabla 1.10 corresponden a la cantidad de veces, en 1 año, que han asistido a la consulta 50 niños asmáticos de un área de salud de Marianao. Las observaciones se han ordenando previamente para facilitar el trabajo. Tabla 1.10. Veces que asistieron a consulta 50 niños asmáticos de Marianao 31 36 36 37 39 41 41 42 42 42 42 43 44 44 44 44 44 44 44 45 45 45 45 45 46 46 46 46 46 47 47 47 48 48 48 48 49 49 50 50 51 52 52 53 53 55 55 56 57 59 El número de veces que ha asistido a consulta es una variable de conteo, en escala ordi- nal. El máximo, 59 y el mínimo, 31 del conjunto se han destacado. Bioestadística cualitativa.indd 19 25/06/2010 12:19:42 p.m. http://booksmedicos.org 20 – Paso 1: R = 59 – 31 = 28. –Pasos 2 y 3: fijando k = 6 se tiene que . – Paso 4: comenzando por el número 30, menor y no muy distante del mínimo 31 y sumando la longitud calculada a 30 sucesivamente se obtienen 35, 40, 45, 50, 55 y 60, se para en 60 porque es el primer resultado que supera el máximo valor de los datos, que es 59 y también igual a 30 + 6(5). Se obtendrán los seis intervalos: ]30; 35], ]35; 40 ], ]40; 45 ], ]45; 50 ], ]50; 55], ]55; 60]. Estos intervalos son abiertos por la izquierda, por lo que no se incluyen en los intervalos sus extremos inferiores y cerrados por la derecha, si se incluyen los extremos superiores en cada uno de ellos. – Paso 5: para el cálculo manual de las frecuencias de cada clase se ofrece en la tabla 1.11 el llamado tarjado, que consiste en revisar cada dato original y anotar una rayita vertical en el intervalo de la distribución que le corresponde, se marcarán de alguna manera los números ya revisados para evitar equivocaciones posteriores que provocan tener que empezar de nuevo. Al final, la suma de las rayitas verticales de una celda será su frecuencia absoluta. Las rayitas verticales se agrupan en mazos de 5 o 10 si conviene para facilitar el cómputo. Tabla 1.11. Cálculo manual de la distribución de frecuencias Intervalo de clase Tarjado Frecuencia 30-35 | 1 35-40 |||| 4 40-45 ||||| ||||| ||||| |||| 19 45-50 ||||| ||||| ||||| | 16 50-55 ||||| || 7 55-60 |||| 3 En la tabla 1.11 se ha incluido, además del tarjado, las frecuencias absolutas, y por último, la tabla 1.12 muestra las distribuciones de frecuencia absoluta, relativa y acumulativa del número de asistencias a la consulta, se ha utilizado una notación más precisa para los intervalos. Tabla 1.12. Distribución con distintos tipos de frecuencias y clases. Número de asistencias a consulta en 5 años Marca de clase Frecuencia Absoluta Relativa Acumulativa 30 < x ≤ 35 35 1 0,02 1 35 < x ≤ 40 40 4 0,08 5 40 < x ≤ 45 45 19 0,38 24 45 < x ≤ 50 50 16 0,32 40 50 < x ≤ 55 55 7 0,14 47 55 < x ≤ 60 60 3 0,06 50 Bioestadística cualitativa.indd 20 25/06/2010 12:19:42 p.m. http://booksmedicos.org 21 La marca de clase de un intervalo puede ser un representante cualquiera del intervalo, pero habitualmente se toma el punto medio del intervalo. Pero como por lo general las variables en escala ordinal no tienen media, no se pueden sumar y dividir entre 2, se tomará según el caso uno u otro representante como marca de clase, se tomó el extremo superior de cada clase En distintos textos se consideran los intervalos abiertos por la derecha, abiertos o cerrados por ambos extremos, en otros se definen intervalos de clase reales, teniendo en cuenta la corrección por continuidad (el redondeo); todas estas variantes tienen sus ventajas y desventajas, la del redondeo proporciona precisión en el cálculo. Se prefirió la de intervalos múltiplos de 5 o 10 que re- sulta más asequible a un amplio público, que se ajusta bastante bien al caso de las variables en escala ordinal. El elegir una u otra depende del objetivo, y en última instancia, todo depende de la naturaleza de los datos y del objetivo de la distribución en la construcción de distribuciones de frecuencias. Como las distribuciones univariadas, las distribuciones bivariadas de fre- cuencia permiten descubrir también regularidades, pero entre sus regularidades están también las de asociación o relación entre las dos variables en cuestión. 1.4.3. Gráfica piramidal de frecuencias Es una gráfica muy usual en demografía es la llamada piramidal, utilizada fundamentalmente para comparar la distribución de dos variables. Consiste en dos histogramas o gráficas de barras horizontales con las mismas clases, que se colocan uno con las barras hacia la izquierda del eje vertical y el otro con las barras hacia la derecha de modo que en el eje vertical coincidan los pares de barras izquierdas y derechas de las dos distribuciones. Para lograr esto, en la distribución de frecuencias conjunta se cambian los signos de las frecuencias de la variable que se desea que sus barras queden hacia la izquierda. Se pueden construir con el software Microsoft Excel, por ejemplo, si se desea construir la gráfica piramidal de frecuencias de la distribución por sexo de variable EV1 de la matriz de datos DatosM2 de la tabla 1.3: 1. Se construyen las distribuciones de frecuencias de EV1 de los varones y la de las hembras. 2. Se le ponen signos menos (–) delante a las frecuencias de los varones 3. Se colocan las dos columnas (o filas) de frecuencias una al lado de la otra. 4. Se selecciona la distribución de frecuencias, si las clases son numéricas es preferible seleccionar solo las dos columnas de frecuencias. 5. Se selecciona el asistente para gráficas y se escoge en él la grafica de barra horizontal apilada, preferiblemente tridimensional o cilíndrica apilada y se hace clic en Siguiente. Bioestadística cualitativa.indd 21 25/06/2010 12:19:42 p.m. http://booksmedicos.org 22 6. Si es necesario se selecciona la pestaña Líneas de división y se deseleccionan las líneas de división que aparezcan seleccionadas y se hace clic en Siguiente. O bien, en lugar de 6 seleccione en el asistente para gráficos la opción Gráfico piramidal tipo barra apilada con forma piramidal y Finalizar. Haga, a continuación, clic derecho en alguna barra para obtener el cuadro de diálogos Formato de serie de datos en que se seleccionará la pestaña Formas y de ellas la 1, la cilíndrica o rectangular y en la pestaña Opciones o en Ancho de rango, para unir las barras o cilindros. En la tabla 1.13 aparece la distribución final de la variable EV1 de la matriz de datos DatosM2 con los las frecuencias del sexo con signos cambiados y la gráfica pirámidal en tercera dimensión (figura 1.10). Tabla 1.13. Distribución de la variable EV1 agrupada por sexos Sexo EV11 2 3 4 5 6 Femenino 0 –3 –4 –3 –8 –2 Masculino 2 5 7 6 3 7 Figura 1.10. Gráfica piramidal de la variable EV1 agrupada por sexos. Se observa lo diferentes que son las distribuciones de los dos sexos, aunque en los valores 2, 3 y 4 se comportan de modo casi proporcional, más bajo en los del sexo femenino y para los 5 y la 6 aproximadamente se invierten sus frecuencias. La interpretación y el nombre de piramidal depende de los datos, se realizaron de estos pocos datos para simplificar, pero deben construirse a partir de muchos datos para que se aprecien bien las regularidades. 1.4.4. Distribuciones bivariadas de frecuencia Es una distribución de frecuencias de un vector de dos variables, en que las clases de una encabezan columnas y los de la otra las filas, la intersec- ción de filas y columnas determina celdas en que se ponen las frecuencias conjuntas. Bioestadística cualitativa.indd 22 25/06/2010 12:19:43 p.m. http://booksmedicos.org 23 Ejemplo 1.6: Las distribuciones de las tablas 1.13 y 1.14 son bivariadas, a partir de esta última se construirán las distribuciones marginales y una distribución con la variable día del mes agrupada por intervalos de clase. Tabla 1.14. Frecuencia de visitas al médico por día del mes, sexo y total Día Sexo Suma M F 1 3 5 8 2 2 4 6 3 5 4 9 4 8 10 18 5 10 14 24 6 1 6 7 7 12 18 30 8 15 25 40 9 9 7 16 10 5 9 14 11 13 17 30 12 16 23 39 13 5 7 12 14 17 22 39 15 2 8 10 16 6 14 20 17 4 11 15 18 21 23 44 19 4 10 14 20 21 19 40 21 11 9 20 22 13 11 24 23 14 11 25 24 11 16 27 25 11 18 29 26 6 11 17 27 9 14 23 28 9 12 21 29 17 12 29 30 19 13 32 Bioestadística cualitativa.indd 23 25/06/2010 12:19:43 p.m. http://booksmedicos.org 24 Las distribución de la variable sexo, llamada marginal, se obtiene en la tabla 1.15 sumando las columnas de ambos sexos de la tabla 1.14. Tablas 1.15. Distribución marginal de la variable sexo Clases Frecuencia Masculino 299 Femenino 383 La distribución marginal de la variable día del mes la constituyen la primera y la última columna de la tabla 1.14. En la tabla 1.16 se ofrece la distribución bivariada de la tabla 1.14, pero conlos días del mes agrupados por intervalos de clase ya que sus valores distintos son bastantes; los intervalos son de longitud 5, y, por ejemplo, 0 < x ≤ 5 significa entre los días primero y quinto del mes, incluyendo el 5 pero no el 0, entonces muestra las cantidades personas por sexo y por intervalo de días a diferencia de la tabla 1.14, la distribución de los días es por conteo de valores distintos. Tabla 1.16. Cantidades personas por sexo y por intervalo de días Clase M F Total 0 < x ≤ 5 28 37 65 5 < x ≤ 10 42 65 107 10 < x ≤ 15 53 77 130 15 < x ≤ 20 56 77 133 20 < x ≤ 25 60 65 125 25 < x ≤ 30 60 62 122 Total 299 383 682 1.5. Indicadores de tendencia central 1.5.1. La moda En un conjunto de datos es el dato más frecuente, es decir, el que más se repite. Ejemplo 1.7: En el ejemplo 1.1 la moda es Playa (P), en el ejemplo 1.2 la clase buen peso (B) y en el ejemplo 1.4 bien (B). A veces en lugar de la moda se define el concepto de clase modal, que es la clase con mayor frecuencia de una distribución. Bioestadística cualitativa.indd 24 25/06/2010 12:19:43 p.m. http://booksmedicos.org 25 En el ejemplo 1.5 la clase modal es el intervalo de 40 a 45 y la moda es 44 que se repite siete veces. Problema propuesto 1.3: Diga cuáles son las modas de los siguientes conjuntos de datos: 1. A, A, B, C, A, B. 2. D, E, F, F, G, D, E. 3. A, B, C, D, E, F. 4. A, B, C, A, B, C, A, B, C. Respuestas: 1. A. 2. D, E y F. 3. No hay (o las seis letras). 4. No hay (o las tres letras A, B y C). 1.5.2. La mediana En un conjunto es el elemento que ocupa la posición central en la lista de los elementos ordenados. Pero la mediana se define para variables continuas, solo en este caso es única y exacta. Implica que por debajo de ella hay un 50 % de los datos y por encima de ella otro 50 %, porque ella es un punto y, por tanto no cuenta, porque no tiene dimensiones o porque entre la mediana y otro punto cualquiera hay infinitos puntos tan cercanos a ella como se quiera. Para distribuciones discretas la definición es solo aproximada, y puede darse el caso de que más de un elemento aparezca como mediana, porque su valor es uno del conjunto de datos y cada valor representa un porcentaje, que influye y por tanto la suma de los porcentajes de datos por encima o por debajo de las mediana no será nunca igual a 100 % si no se incluye en ellos la mediana. Cuando más de un elemento aparezca como mediana se escogerá uno y, si los datos son numéricos y admiten promedio, se tomará el promedio de todas las posibles medianas, si no se tomará uno de los dos como mediana, pero mencionando que hay otro que también cumple. En el ejemplo 1.4, de los 300 datos de la variable aspecto, la mediana es la clase buen peso (B) y tiene frecuencia 86. En el ejemplo 1.5 la mediana es 46. A veces en lugar de la mediana se define el concepto de clase de la mediana, que es la clase que contiene la mediana de una distribución, este es el caso de las distribuciones por intervalos, en las que es mucho más fácil de calcular y la única forma si solo se cuenta con la distribución de frecuencia y no con los datos originales. En el ejemplo 1.5 la mediana es el intervalo de 40 a 45. Bioestadística cualitativa.indd 25 25/06/2010 12:19:44 p.m. http://booksmedicos.org 26 A continuación se exponen, en dos filas, 40 datos ordenados de menor a mayor: 1 2 2 3 4 4 4 4 5 5 5 5 6 6 7 7 8 8 8 9 10 11 11 11 12 13 14 14 15 16 16 17 17 18 21 22 23 23 24 25 Se tiene que la clase de la mediana está entre 9 y 10, porque el número total de datos es 40 y ser ellos los de órdenes 20 y 21; pero si es posible se toma como mediana que tiene el 50 % de los 40 datos por debajo de él y el otro 50 % por encima, pero pudiera ser que el 9,5 no se admitiera como dato en esta lista y entonces ocurriría que no se sabe cual es la mediana porque el 9 tiene por debajo el 48 % de los datos y por encima el 50 % y el 10 tiene por debajo el 50 % y por encima el 48 % de los datos. Ninguno de los dos es mediana de acuerdo con la definición, porque, además, ninguno está en el centro de la lista ordenada. De modo que se tiene que cambiar la definición de mediana para poder calcular la mediana de datos discretos. Una caracterización que mejora el cálculo de la mediana de un conjunto de datos en el caso de variables discretas plantea que: La mediana es un número mayor y también menor que a lo sumo el 50 % de los datos del conjunto. Esta caracterización garantiza que al menos haya una mediana, porque con la definición original a menudo ninguno de los elementos del conjunto cumple con la definición de mediana. No excluye que haya más de un elemento que cumpla estas condiciones, y si lo hay se acostumbra a tomar el promedio de ellos como mediana, si tiene sentido, si no uno cualquiera de ellos. Problema propuesto 1.4: Diga cuáles son las medianas de los siguientes conjuntos de datos: 1. 1, 2, 5, 7, 9. 2. 1, 2, 5, 7. 3. Considerando el orden alfabético: a) A, B, C, D, E. b) A, B, C, D, E, F. Respuestas: 1. 5. 2. Está entre 2 y 5, es ; 2 o 5. 3. a) C. b) Está entre C y D, es C o D. Las clases modal y de la mediana son aproximaciones de la moda y la me- diana, respectivamente, que se usan cuando se tiene solamente una distribución de frecuencias y no los datos originales. Bioestadística cualitativa.indd 26 25/06/2010 12:19:44 p.m. http://booksmedicos.org 27 Para datos en escala nominal, sin orden entre las clases, no tienen sentido los conceptos de mediana porque no lo tiene ordenar las clases, ni el de punto central ni el de por debajo ni el por encima ni a la izquierda ni a la derecha de un puntaje. 1.5.3. La media Es el indicador de tendencia central más usual, pero solo cuando la variable está en escala de intervalo o razón, no obstante, es tan buen indicador que a ve- ces se usa incorrectamente con datos numéricos en escala ordinal, cuando esta proviene de variables que admiten la media, porque ofrece más información que la mediana. Además, muchos indicadores o medidas que se conocen y se utilizan frecuentemente en realidad son medias, por ejemplo, la velocidad de un móvil, el peso de una persona, la cantidad de sangre en el cuerpo de una persona, la distancia hasta un punto, entre otras, comúnmente son medias; por esto y por su uso como referencia en la estadística no paramétrica se ofrece su definición. Si la variable se denota por X la media se denotará y se definirá entonces mediante: n XXX X n +++= ···21 Y se denota por: ∑ = = n i iXn X 1 1 Donde el símbolo ∑ = n i iX 1 indica la suma de los valores Xi que tienen subíndice comprendido entre 1 y n, ambos inclusive. Por ejemplo la media de 2, –4, 0, 8 es igual a 5,1 4 8042 =++− . 1.5.4. La media ponderada Considere los datos 5, 9, 8, 5, 8, 9, 6, 5, 6, 7, 8, 6, 6, 6, 8. Su suma se cal- culará de manera más fácil así: En este caso k = 5 es el número de valores distintos: 5, 6, 7, 8 y 9, del total de n = 15 valores. En el caso de una distribución de frecuencias con marcas de clase x1, x2,…, xk con frecuencias respectivas f1, f2,..., fk, entonces: ∑ = = k i ii xfn X 1 1 Bioestadística cualitativa.indd 27 25/06/2010 12:19:44 p.m. http://booksmedicos.org 28 Donde f1, f2,..., fk son las frecuencias absolutas y ∑ = = k i ifn 1 . Por ejemplo, para hallar la media de la distribución de frecuencias, de la tabla 1.12, teniendo en cuenta que lo que se registró cada día fue si asistió o no, que tiene sentido la media y que daría un valor más próximo al verdadero de 46,18, el valor aproximado de: 1(32,5) + 4(37,5) + 19(42,5) + 16(47,5) + 7(52,5) + 3(57,5) = 2 290 divi- diendo entre 50 Tomando como marcas de clase los puntos medios de los intervalos, que deben brindar el valor más aproximado, en este caso la media es igual a . Sean w1, w2,..., wk las frecuencias relativas de la distribución n f w ii = , en- tonces: y i k i i xwn X ∑ = = 1 1 Esta última fórmula es la de la media ponderaday a las wi se les denomina ponderaciones de los puntos xi. Por ejemplo, si las ponderaciones de –3, 0, 5, 7 son 0,2; 0,4; 0,3 y 0,1, entonces su media ponderada es igual a 0,2(–3) + 0,4(0) + 0,3(5) + 0,1(7) = –0,6 + 0 + 1,5 + 0,7 =1,6. La media ponderada es un buen indicador cuando se tienen varias columnas de datos con valores similares comparables y que admitan medias o sumas, puede ser conveniente promediar esos valores por fila y si las columnas tienen distintas ponderaciones, es decir, los valores de una tiene mayor peso que los de otra, entonces el promedio o la suma deben ser ponderado y estos promedios constituirán una variable cuyos valores representan los valores promedios o sumas de las filas. Algo análogo puede hacerse con las columnas. 1.6. Indicadores de posición 1.6.1. Percentil de orden p Sea P un porcentaje, el percentil de orden P de la variable X es el puntaje xP tal que por debajo de él se halla el P % de la distribución de X. Pero el percentil de orden P es único y exacto solo para variables continuas y en tal caso por encima de él se halla el (100 − P) % de los valores de la variable. Para utilizarlo en el caso de variables discretas hay que hacer aproximaciones y estimaciones para tratar de precisarlo. Bioestadística cualitativa.indd 28 25/06/2010 12:19:44 p.m. http://booksmedicos.org 29 Por ejemplo, el percentil de orden 80 de los puntos del segmento de la figura 1.11, comprendido entre los números reales 0 y 5, es el punto correspondiente al número 4, por debajo de él se halla el 80 % de los puntos del segmento y por encima el 20 %. El percentil de orden 50 o mediana es igual a 2,5, que si está entre los valores posibles de la variable, aunque no coincida con ningún valor entero. En este caso si se quitara el punto cuyo valor es 2,5, la mediana seguiría siendo 2,5 o un número tan próximo a él como se quiera, porque entre ellos hay infinitos números. Figura 1.11. Segmento de recta. A menudo resulta más práctico usar una caracterización similar a la usada en la definición de la mediana, para abordar en particular los casos discretos en que no es aplicable la definición. El percentil de orden P de una variable X es el puntaje xP tal que por debajo de él se halla a lo sumo el P% y por encima de él a lo sumo el (100 – P)% de los valores de X. Observaciones: 1. Los percentiles se denominan también cuantiles. 2. La mediana coincide con el percentil de orden 50. 3. Se denominan cuartiles los percentiles de órdenes múltiplos de 25. 4. Se denominan deciles los percentiles de órdenes múltiplos de 10. En los casos, 3 y 4, se incluyen los percentiles de órdenes extremos 0 y 100, pero se acostumbra a llamar primer cuartil o cuartil inferior al percentil de orden 25 y tercer cuartil o cuartil superior al percentil de orden 75, por su amplio uso, ignorando los cuartiles de orden 0 y 100. En este caso la mediana constituye el segundo cuartil. 5. En la teoría de probabilidades se considera la proporción o probabilidad p (minúscula) comprendida entre 0 y 1 y se habla entonces del percentil de orden p que concide con el definido respecto al porcentaje P pues se tiene que P = np. Por ejemplo el percentil de orden 0,95 será igual a nuestro percentil de orden 95. Ejemplo 1.8: Con los datos de la tabla 1.10 del ejemplo 1.5, ordenados por fila y acom- pañados del porcentaje que acumula cada uno, se obtiene: 312% 364% 366% 378% 3910% 4112% 4114% 4216% 4218% 4220% 4222% 4324% 4426% 4428% 4430% 4432% 4434% 4436% 4438% 4540% 4542% 4544% 4546% 4548% 4650% 4652% 4654% 4656% 4658% 4760% Bioestadística cualitativa.indd 29 25/06/2010 12:19:45 p.m. http://booksmedicos.org 30 472% 474% 4866% 4868% 4870% 4872% 4974% 4976%$ 5078% 5080% 5182% 5284% 5286% 5388% 5390% 5592% 5594% 5696% 5798% 59100% Por ser 50 números cada número de ellos acumula un 2 % del total de nú- meros, por tanto, el percentil de orden 80 está entre los números 50 y 51, que ocupan las posiciones 39 y 40 los dos 50 y la posición 41 el 51. El 50 tiene por debajo 38 números que representan el 76 % del total, y por encima 10 números, que representan el 20 % del total. El 51 tiene por debajo 40 números que representan el 80 % del total, pero por encima tiene 9 números que representa el 18 % del total 50. Luego, según la definición ninguno es el percentil de orden 80. Para resolver el problema se utiliza la caracterización dada después de la definición, y según ella ambos números 50 y 51 son percentiles de orden 80 porque cada uno tiene por debajo a lo sumo el 80 % y por encima a lo sumo el 20 % de los datos. Si tuviera sentido promediarlos se obtendría una solución mejor diciendo que el percentil de orden 80 es , pero no necesariamente 50,5 es admisible, pues no es un número de la lista. Problema propuesto 1.5: Diga cuáles son los percentiles de órdenes 0,50; 0,90 y 0,25 de los siguientes conjuntos de datos: 1. Los puntos del segmento de recta de la figura 1.11. 2. 2, 4, 7, 9, 11. 3. A, B, C, D, E, E, F, F, F, G, asumiendo el orden alfabético. Respuestas: 1. X50 = 2,5; X90 = 4,5; X25 = 1,25 (exactos por ser continuo el conjunto de datos). 2. X50 = 7; X90 = 11; X25 = 4. 3. X50 = E; X90 está entre F y G (es F o G); X25 = C. 1.7. Indicadores de dispersión 1.7.1. Recorrido o amplitud En un conjunto de datos numéricos es igual a la diferencia entre su valor máximo y su valor mínimo, por ejemplo, el recorrido de los 50 números de la va- riable EdC de la matriz DatosM2 de la tabla 1.3 es igual a 20,51 – 1 = 19,51. Bioestadística cualitativa.indd 30 25/06/2010 12:19:45 p.m. http://booksmedicos.org 31 1.7.2. Recorrido intercuartílico En un conjunto de datos numéricos es igual a la diferencia entre su percentil de orden 75 y su percentil de orden 25, es decir, entre el sus cuartiles tercero y primero. Por ejemplo, el recorrido intercuartílico de los la variable EdC de la ma- triz DatosM2 de la tabla 1.3 es igual a la diferencia entre 12,22 − 7,27 = 4,95. 1.7.3. La varianza Es igual a la media de las diferencias cuadráticas de cada dato respecto a la media del conjunto, o sea: ∑ = −= n i i XXn S 1 22 )( 1 1.7.4. Desviación estándar Es igual a la raíz cuadrada de la varianza. La varianza y la desviación estándar exigen escalas de cuantificación de intervalo o razón. Son los mejores indicadores de dispersión pero para varia- bles en estas escalas. De ella dependen el coeficiente de variación y el error estándar de la media. La varianza se denota por S2 o por V(X) y se tiene que la desviación estándar: ∑ = −= n i i XXn S 1 2)( 1 Donde S y S2 son indicadores de dispersión absolutos. 1.7.5. Coeficiente de variación Es igual a la desviación estándar entre la media, o sea: X S , es un indicador relativo de dispersión, se acostumbra a multiplicarlo por 100 y expresarlo como porcentaje. 1.7.6. Gráficas de cajas y bigotes También conocidos como de cajas y alambres, reflejan la distribución de los cuartiles mínimo y máximo en los extremos de los bigotes, los percentiles de órdenes 25 y 75 en los extremos de la caja y la mediana dentro de la caja. Se usa también con los indicadores media dentro de la caja, y la media más y menos funciones de la desviación estándar en los extremos de la caja y de los bigotes. También se puede construir con la media más y menos desviación estándar (SD) y más y menos 1,96SD y con la media más y menos el error estándar (EE) y la media más y menos 1,96EE. Bioestadística cualitativa.indd 31 25/06/2010 12:19:45 p.m. http://booksmedicos.org 32 Por ejemplo, para las variables EV1, EV2, EV3, CI1, CI2 y CI3 de la matriz DatosM2 de la tabla 1.3, se pueden construir estas gráficas individuales, como las de la figura 1.12, de las tres variables en escalas ordinales comparables EV1, EV2, EV3 con la mediana, la diferencia entre los percentiles de órdenes 75 y 25 y el recorrido, o sea, la diferencia del máximo y el mínimo o percentiles de orden 100 menos el de orden 0. Figura1.12. Gráfica de cajas y bigotes de EV1, EV2 y EV3. En la figura 1.12 se observa en EV3 que el mínimo coincide con el percen- til 25 y que EV2 es simétricas respecto a la mediana, no así EV1 que está un poco desplazada hacia los valores altos. Los valores de EV2 entre los cuartiles inferior y superior están bastante dispersos, al igual que los valores de EV1 comprendidos entre el mínimo y el primer cuartil y los de EV3 comprendidos entre el tercer cuartil y el máximo. Para las tres variables en escalas de intervalo o razón CI1, CI2 y CI3 cada gráfica de la figura 1.13 muestra la media y la media más menos el error estándar de la media, media ± SE, y la media más menos el producto de 1,96 por el errror estándar de la media, media ± 1,96SE. También se observan distintos recorridos de las tres variables, en particular los valores de CI1 difieren notablemente de los de CI2 y de CI3. Se puede decir que las tres son simétricas. La de menor dispersión es CI3 y la de mayor dispersión CI2. Problema propuesto 1.6: Construya las gráficas de cajas y bigotes apropiadas para la variable GRM y EdC de la matriz de DatosM2 (tabla 1.3). Bioestadística cualitativa.indd 32 25/06/2010 12:19:45 p.m. http://booksmedicos.org 33 Figura 1.13. Gráfica de cajas y bigotes de CI1, CI2 y CI3. 1.8. Conjuntos, matrices, ficheros o archivos de datos en las diferentes escalas Es costumbre presentar los conjuntos de datos, obtenidos en las investiga- ciones en forma tabular o matricial por columnas y filas, y en la terminología computacional llamarles ficheros, archivos de datos y bases de datos. Un ejemplo de tal matriz de datos es la tabla 1.3 con el nombre de DatosM2, aunque también se mostrará otro que se utilizará fundamentalmente para problemas propuestos y evaluaciones. Se trata de modelos de matrices de datos de investigaciones experimentales donde se presentan variables medidas en los cuatro tipos de escalas, variables de conteo y variables discretas y continuas. Tales matrices prestan un gran servicio puesto que representan un resumen, relativamente fácil de manipular, de una gran cantidad de puntajes de mediciones y registros de observaciones con muy poca o ninguna pérdida de información. Estas matrices de datos prestan una gran ayuda en la preparación de la clase porque el maestro no tiene necesariamente que buscar datos apropiados para ejemplificar, con estos se pueden ejemplificar casi todos los casos de una, dos y más de dos poblaciones, en los casos de muestras independientes e igualadas en cada una de las escalas de cuantificación. Las variables repetidas terminadas en números distintos corresponden a registros efectuados en distintos momentos o a muestras apareadas o igua- ladas. Bioestadística cualitativa.indd 33 25/06/2010 12:19:45 p.m. http://booksmedicos.org 34 Observación: Para cerrar el estudio de las característica o indicadores numé- ricos de una variable, un ejemplo de otro aspecto de mucho interés, que debemos tomar en cuenta, relacionado con la forma o el procedimiento necesario, para obtener semejantes matrices de datos, se puede consultar en el epígrafe 5.7. La tabla 1.17, denominada matriz de DatosMT, contiene los datos de una muestra aleatoria de 50 pacientes de un área de salud. P1, P2 y P3 indican las tres patologías sufridas en tres distintos momentos de su vida. G1, G2 y G3 indican el grado correspondiente de cada una de ellas. T1, T2 y T3 el tiempo de recuperación en horas expresados con dos decimales. Tabla 1.17. Matriz de datos DatosMT Grupo Sexo P1 P2 P3 G1 G2 G3 T1 T2 T3 B M E D D B RB R 84,19 93,25 84,59 A F F D E RB B MB 72,67 68,35 72,67 B M E E E MB MB MB 86,89 86,89 86,89 A F F E E MB MB R 88,97 69,33 78,97 A F D D D RB RB RB 71,45 71,45 71,45 B M D E E R E B 68,55 74,58 70,01 B M F F E MB MB RB 76,28 75,86 76,28 A F F F E B B B 72,56 72,56 65,89 B M E E E B B B 72,45 72,45 72,45 A F F F E E E E 75,88 75,88 75,88 A F D D D E R RB 84,41 90,51 84,41 B M F F D B E RB 90,96 75,6 90,96 B M E E E MB MB MB 75,46 75,46 75,46 B M D D D E M MB 77,88 75,92 78,87 B M E D E RB MB RB 79,81 76,81 79,81 C M F F E E RB R 72,84 86,43 72,84 C M D D E MM MM MM 70,76 70,76 70,76 A F F D E MB R RB 81,92 79,43 81,92 A F F E E RB RB R 76,78 87,06 76,78 C M E E E MB MB MB 86,91 86,91 86,91 C M E E E MB MB MB 86,96 86,96 80,96 C M D E E E B R 83,16 80,94 83,16 C M D D E M E B 72,48 74,86 72,48 A F D E E MB B MB 85,23 79,86 85,23 Bioestadística cualitativa.indd 34 25/06/2010 12:19:46 p.m. http://booksmedicos.org 35 A F E F D MB R R 68,43 82,3 68,43 C M F D D M E B 75,86 83,05 75,86 C M E E D R MB B 79,83 73,53 79,83 A F D D D MB MB MB 86,73 86,73 86,73 A F F F D E R RB 87,66 86,82 87,66 A F D D E MB RB E 85,67 71,79 85,67 A F F F D MB R B 83,55 81,8 84,45 C M E F E B MB RB 77,59 96,01 77,59 A F F F E B B B 72,56 72,56 72,56 C M D F D E RB RB 77,1 76,36 77,1 C M F F E MB B B 66,29 75,59 66,29 A F D D E R R R 76,76 76,76 76,76 B F D E D RB RB R 86,6 77,27 86,6 B F F F E R R RB 82,08 75,35 82,08 C M F E E B RB B 83,27 82,83 83,27 C M D D D MB R B 82,57 70,77 82,57 C M D D D RB MB R 73,96 74,07 74,44 B F E E E MB MB MB 75,46 75,46 75,46 C M E E E MB MB MB 75,88 75,88 75,88 B F D D D RB RB RB 71,45 71,45 71,45 B F D D D MB MB MB 86,74 86,74 86,74 C M F F E E RB B 82,53 90,12 82,53 B F F F E B B B 86,62 86,62 86,62 C M E E E R RB RB 84,29 86,99 84,29 B F D E D B B RB 83,15 88,78 83,15 B F F F E E E E 75,88 75,88 75,88 1.9. Indicadores de correlación Hasta ahora se han introducido indicadores de una variable, pero cuando se tienen dos variables, además, de los indicadores de ambas por separado, aparecen nuevos indicadores como son los que miden el grado de variación conjunta, relación o asociación entre ellas. Las distribuciones de frecuencia bivariada, entre las regularidades que descubren están las de asociación o correlación entre las dos variables en cuestión. Ahora se introducirán tales indicadores de asociación o correlación pero primero se precisarán las notaciones. Bioestadística cualitativa.indd 35 25/06/2010 12:19:46 p.m. http://booksmedicos.org 36 Sean (x1, y1), (x2, y2)..., (xn, yn) los valores observados del vector (X, Y), o sea, los valores de las variables X e Y apareados. Se denotarán por X la media de los valores de X, por Y la media de los valores de Y, y por SX y SY, respectivamente, sus desviaciones estándar. 1.9.1. Covarianza y coeficiente de correlación lineal de Pearson Si dos variables X e Y están en escalas de intervalo o razón se puede cal- cular la covarianza entre X e Y que se denota por SXY o Cov(X, Y) y se define como: ( )( )yyxxS i n i inXY −−= ∑ =1 1 Y también se puede expresar como yxyxS n i iinXY −= ∑ =1 1 . O sea, se puede expresar como la media de los productos menos el producto de las medias y es un indicador de variación conjunta de los dos conjuntos de valores en escala de intervalo o razón, pero su valor es absoluto, no es relativo, lo que dificulta su interpretación. El coeficiente de correlación lineal de Pearson r es igual al cociente de la covarianza de las dos variables entre el producto de las dos desviaciones es- tándares. Mide lo mismo que la covarianza, pero carece de unidad de medida, es un índice relativo, por lo que su interpretación es más simple, sus valores están comprendidos entre –1 y 1 y solo es aplicable, al igual que la covarianza, cuando ambas variables están al menos en escala de intervalo: YX XY SS S r = Su fórmula de cálculo es: ∑ ∑∑ ∑ ∑ ∑ ∑ = == = = = = − − − = n i n i ii n i n i ii n i n i n i iiii yynxxn yxyxn r 1 2 1 2 1 2 1 2 1 1 1 Aparentemente más compleja, pero que como se puede ver se compone solo de las sumas de las columnas de la tabla 1.18, de modo que si se tiene que calcular a mano r basta solo con disponer los datos en una tabla como esta, apropiada incluso para verificaciones posteriores. La tabla
Compartir