Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Bioestadística EL LIBRO MUERE CUANDO LO FOTOCOPIA AMIGO LECTOR: La obra que usted tiene en sus manos posee un gran valor. En ella, su autor ha vertido conocimientos, experiencia y mucho trabajo. El editor ha procurado una presentación digna de su contenido y está poniendo todo su empe- ño y recursos para que sea ampliamente difundida, a través de su red de comerciali- zación. Al fotocopiar este libro, el autor y el editor dejan de percibir lo que corresponde a la inversión que ha realizado y se desalienta la creación de nuevas obras. Rechace cualquier ejemplar “pirata” o fotocopia ilegal de este libro, pues de lo contrario estará contribuyendo al lucro de quienes se aprovechan ilegítimamente del esfuer- zo del autor y del editor. La reproducción no autorizada de obras protegidas por el derecho de autor no sólo es un delito, sino que atenta contra la creatividad y la difusión de la cultura. Para mayor información comuníquese con nosotros: III Bioestadística Dr. Alfredo de Jesús Celis de la Rosa Médico Cirujano y Partero, Maestro en Salud Pública y Doctor en Epidemiología por la Universidad de Guadalajara. Investigador Titular “C” en el Departamento de Salud Pública del Centro Universitario de Ciencias de la Salud, Universidad de Guadalajara. Docente de los cursos de Bioestadística y Análisis Multivariado en la Maestría y el Doctorado en Ciencias de la Salud Pública. Director de la División de Disciplinas para el Desarrollo Promoción y Preservación de la Salud del Centro Universitario de Ciencias de la Salud de la Universidad de Guadalajara. Dra. Vanessa Labrada Martagón Licenciada en Biología, Centro Universitario de Ciencias Biológicas y Agropecuarias, Universidad de Guadalajara Maestra en Ciencias con Especialidad en Manejo de Recursos Marinos, Centro Interdisciplinario de Ciencias Marinas, Instituto Politécnico Nacional Doctora en Ciencias en el Uso, Manejo y Preservación de los Recursos Naturales, Centro de Investigaciones Biológicas del Noroeste, S. C. Posdoctorado en Modelación Matemática Teórica, Departamento de Matemática Aplicada y Estadística, Universidad de California Santa Cruz. Investigador Colaborador en el Programa de Planeación Ambiental del Centro de Investigaciones Biológicas del Noroeste, S. C. TERCERA EDICIÓN Editor responsable: Dr. Raúl Ossio Vela Editorial El Manual Moderno Bioestadística, tercera edición D.R. © 2014 por Editorial El Manual Moderno, S.A. de C.V. ISBN: 978-607-448-423-6 ISBN: 978-607-448-424-3 versión electrónica Miembro de la Cámara Nacional de la Industria Editorial Mexicana, Reg. núm. 39 Todos los derechos reservados. Ninguna parte de esta publicación puede ser reproducida, almacenada en sistema alguno de tarjetas perforadas o transmitida por otro medio —electrónico, mecánico, fotocopiador, registrador, etcétera— sin permiso previo por escrito del titular de los derechos patrimoniales. Director editorial y de producción: Dr. José Luis Morales Saavedra Editora asociada: LCC Tania Uriza Gómez Diseño de portada: DP Karina Oropeza Heredia Para mayor información en: • Catálogo del producto • Novedades • Distribuciones y más www.manualmoderno.com Editorial El Manual Moderno, S.A. de C.V. , Av. Sonora núm. 206, Col. Hipódromo, Deleg. Cuauhtémoc, 06100 México, D.F. (52-55)52-65-11-00 info@manualmoderno.com quejas@manualmoderno.com@ Nos interesa su opinión, comuníquese con nosotros: Celis de la Rosa, Alfredo de Jesús, autor Bioestadística / Alfredo de Jesús Celis de la Rosa, Vanessa Labrada Martagón. –- Tercera edición. -- México : Editorial El Manual Moderno, 2014. xiv, 338 páginas : ilustraciones ; 28 cm. Incluye índice ISBN 978-607-448-423-6 ISBN 978-607-448-424-3 (versión electrónica) 1. Biometría. 2. Biometría – Programas de computación. 3. Epide- miología – Métodos estadísticos. 4. Estadística. 5. Ecuaciones dife- renciales. I. Labrada Martagón, Vanessa, autor. II. Título. 570.15195-scdd21 Biblioteca Nacional de México IMPORTANTE Los autores y editores de esta obra se han ������� � � �� ���� � �������� � � � � �� ������ por proporcionar información completa y en concordancia con los estándares aceptados a la fecha de la publicación. Sin embargo, en vista de la posibilidad de errores humanos o cambios � � ���� �� ���� ���� ���� �� ���� ���� � ���� ��� contenido sea exacto o completo en todos los aspectos y no se hacen responsables de errores, omisiones o resultados obtenidos por el uso de la información proporcionada en esta publicación. Se invita a los lectores a corroborar con otras �� �������������� �� � �� ��� ������ ���� �� � ���������� ����� V μ 2 2 1= = ( )x N i i N = x N i i N 1 = xi i N 1 Contenido Prefacio a la tercera edición ..................................................................................................................................... IX Prefacio a la segunda edición ................................................................................................................................... XI Prefacio a la primera edición .................................................................................................................................. XIII SECCIÓN I: Características, recolección, revisión y cómputo de datos Capítulo 1. Características de los datos ..................................................................................................................... 3 Capítulo 2. Recolección y revisión de datos .............................................................................................................. 7 Capítulo 3. Cómputo de datos ................................................................................................................................. 11 Capítulo 4. Introducción a los programas de cómputo ........................................................................................... 15 Capítulo 5. Introducción a los diseños de investigación epidemiológica .................................................................21 SECCIÓN II: Estadística descriptiva Capítulo 6. Escala cualitativa ................................................................................................................................... 29 Capítulo 7. Escala cuantitativa ................................................................................................................................. 43 Capítulo 8. Presentación de los datos ..................................................................................................................... 51 Capítulo 9. Indicadores básicos de salud ................................................................................................................. 59 VI Bioestadística SECCIÓN III: Estadística descriptiva Capítulo 10. Muestreo ............................................................................................................................................. 63 Capítulo 11. Elementos de probabilidad para la inferencia estadística ...................................................................71 Capítulo 12. Distribuciones de probabilidad y distribuciones muestrales con variables cuantitativas .................................................................................................................. 79 Capítulo 13. Distribuciones de probabilidad y distribuciones muestrales con variables cualitativas .................................................................................................................... 89 Capítulo 14. Inferencia estadística........................................................................................................................... 95 SECCIÓN IV: Inferencia estadística para una variable dependiente y una independiente Capítulo 15. Pruebas de hipótesis para una y dos variables cualitativas ...............................................................105Capítulo 16. Estimaciones de intervalo para una y dos variables cualitativas .......................................................119 Capítulo 17. Tamaño de muestra para variables dependientes cualitativas .........................................................129 Capítulo 18. Pruebas de hipótesis para una y dos variables cuantitativas ............................................................135 Capítulo 19. Intervalos de confianza para la estimación de medias ......................................................................147 Capítulo 20. Análisis de varianza ........................................................................................................................... 153 Capítulo 21. Tamaño de muestra para variables dependientes cuantitativas .......................................................159 Capítulo 22. Pruebas no paramétricas .................................................................................................................. 163 Capítulo 23. Regresión y correlación simple ......................................................................................................... 173 SECCIÓN V: Inferencia estadística para una variable dependiente y dos o más variables independientes Capítulo 24. Regresión y correlación múltiple ....................................................................................................... 185 Capítulo 25. Análisis estratificado y regresión logística ......................................................................................... 209 Capítulo 26. Análisis de supervivencia .................................................................................................................. 231 Capítulo 27. Introducción a los modelos lineales generalizados ...........................................................................239 Respuestas a los ejercicios .................................................................................................................................... 255 VIIContenido ANEXOS Anexo A. Tabla de números aleatorios .................................................................................................................. 263 Anexo B. Áreas de la curva normal ........................................................................................................................ 265 Anexo C. Distribución binomial de probabilidad ................................................................................................... 267 Anexo D. Distribución de probabilidad de Poisson ................................................................................................ 295 Anexo E. Percentiles de distribución t ................................................................................................................... 303 Anexo F. Percentiles de distribución F ................................................................................................................... 307 Anexo G. Percentiles de distribución �2 ................................................................................................................ 323 Anexo H. Valores críticos para una prueba Mann-Whitney-Wilcoxon ...................................................................325 Anexo I. Valores críticos para una prueba de Kruskal-Wallis .................................................................................329 Anexo J. Valores críticos para una prueba Wilcoxon ............................................................................................. 331 Índice ..................................................................................................................................................................... 333 IX μ 2 2 1= = ( )x N i i N = x N i i N 1 = xi i N 1 Prefacio a la tercera edición Dicen que la tercera es la vencida, y ya llegamos. Pero no sin el apoyo de aquellos que han adquirido y recomendado las ediciones anteriores: a ellos, todo mi agradecimiento. Para esta nueva edición hemos seguido la misma pro- puesta de las anteriores: un libro de texto de Bioestadística, orientado principalmente a estudiantes de medicina, desde la perspectiva de la Salud Pública y la Epidemiología, pero que también puede ser utilizado por estudiantes de pregra- do y posgrado de otras disciplinas del campo de la salud. Y digo “seguimos” porque con solo leer la pasta de este libro habrán notado que para esta edición la autoría de la misma la comparto con la Dra. Vanessa Labrada Martagón. Aclaro que ella no es la única adición: esta tercera edición incluye tres nuevos capítulos: consideramos importante que aquellos interesados en aplicar la bioestadística a sus investigaciones tengan (al menos) una “introducción a los diseños de inves- tigación epidemiológica”; también consideramos de utilidad que se incluyera la definición de algunos “indicadores básicos de salud”; finalmente, creímos importante que los estudiosos de los fenómenos de la salud en la población conozcan algu- nos enfoques relativamente novedosos, por lo que también incluimos una “introducción a los modelos lineales generali- zados”. Estos no fueron los únicos cambios, ya que también agregamos el uso de “R” (que es un programa gratuito muy útil para el análisis estadístico), los conceptos de sensibilidad, especificidad, VPP y VPN (en el apartado de proporciones), y el Teorema de Bayes (en el capítulo de probabilidad); de- jamos atrás Epi Info 6 y Epi Info 2000 para incluir Epi Info 7 y OpenEpi. No obstante, buscamos que el texto mantuviera la misma claridad y simplicidad en las explicaciones, y que los ejemplos pudieran conducir a los estudiantes sin demasiados obstáculos durante su estudio. Finalmente, quiero expresar nuestro agradecimiento a todos los que han contribuido a la publicación de este libro. Y sin miedo a ser reiterativo, quiero mencionar a mis alumnos y exalumnos, que siguen enriqueciéndome con sus observaciones y comentarios, a los docentes e investigadores que siguen utilizando y recomendando esta obra, al equipo de Editorial El Manual Moderno (que para esta edición les costó más trabajo motivarme para concluirla), a Vanessa por aceptar mi invitación para incorporarse como coautora, y a mi familia (particularmente a María, Alfredo y Victoria) que siempre me han apoyado en cuanta locura se me ha ocurrido. Sólo me resta agradecerles por el tiempo que le dediquen a estas líneas, esperando que sean de utilidad para Uds., con la promesa de que si no llega a convencerlos, la quinta edición (si no es que la siguiente) seguramente será muy buena, por aquello de que no hay “quinto malo”. Dr. Alfredo de Jesús Celis de la Rosa Este trabajo fue escrito durante la estancia posdoctoral de VLM en: Center for Stock Assessment Research, CSTAR, una colaboración entre University of California Santa Cruz y el Fisheries Ecology Division, Southwest Fisheries Science Center, NOAA Fisheries, Santa Cruz. Dra. Vanessa Labrada Martagón XI μ 2 2 1= = ( )x N i i N = x N i i N 1 = xi i N 1 Prefacio a la segunda edición La primera edición de este libro se gestó como un apunte que fui escribiendo como apoyo personal al primer curso de Bioestadística que impartí a los residentes de Salud Pública en el Instituto Mexicano del Seguro Social, y fue creciendo con los cursos que le siguieron en varias maestrías del Centro Universitario de Ciencias de la Salud en la Universidad de Gua- dalajara. Durante esos primeros años de docencia, los apuntes llegaron a manos de mis alumnos, y cuando ellos me pidieron incluir ejemplos fue adquiriendo forma de libro. No confor- mes con los ejemplos, algunos de ellos empezaron a criticar la redacción de algunas partes y a señalarme errores; así fue que atendiendo sus solicitudes y comentarios se completó el manuscrito de la primera edición. Por último, para verlo en los estantes de las librerías fueron necesarias las propuestas yel apoyo decidido de los editores de la Editorial El Manual Moderno, que empeñaron su prestigio en la publicación. La segunda edición ha tenido una historia semejante: Los capítulos y anexos que se agregaron, también empezaron como apuntes de clase, pasaron por las manos de mis alum- nos, se enriquecieron con sus comentarios y nuevamente se incorporaron propuestas y apoyos del equipo editorial de la Editorial El Manual Moderno. Esta edición, al igual que la anterior, busca ser un texto de Bioestadística comprensible para alumnos de pregrado y posgrado en ciencias de la salud. A esta edición le hemos agregado cuatro capítulos (uno que trata acerca del tema de los cuestionarios, y tres de análi- sis multivariado), dos anexos y un CD con los programas de Epi Info, y la base de datos con que se podrán repetir los ejemplos, así como los ejercicios que se describen en esta obra. Nos hemos decidido por incorporar el programa Epi Info por varios motivos, entre los que se destacan dos: el programa incluye la mayoría de los procedimientos estadísticos que se presentan en el libro y su distribución universal, y gratuita. Termino estas líneas expresando mi agradecimiento a los que me dieron la oportunidad de incorporarme como docente de Bioestadística, a los alumnos que me apoyaron con su asistencia, aliento y comentarios, a todo el personal de la Editorial El Manual Moderno que hizo posible su publi- cación; a mi esposa e hijos por su apoyo continuo y por todo ese tiempo no compartido. A todos ellos les dedico esta obra. XIII μ 2 2 1= = ( )x N i i N = x N i i N 1 = xi i N 1 Prefacio a la primera edición La necesidad de contar se pierde en la historia de la hu- manidad. Desde la perspectiva del Estado y sus propósitos militares o impositivos, nació con el objetivo de conocer los recursos que poseían los gobernantes. Quizá por ello, para la Edad Media la iglesia cristiana registraba los matrimonios, los nacimientos y las muertes. Pero no fue, sino hasta mediados del siglo XVII que John Graunt mostró su aplicación en el área de la salud, al estudiar la mortalidad de Londres. Por ello, a Graunt se le conoce como el padre de las estadísticas de salud. La estadística es una disciplina de las matemáticas aplica- das que se dedica al manejo de los datos numéricos; es decir: es el método para recolectar, elaborar, analizar e interpretar datos numéricos. En el uso del lenguaje es necesario distinguir el concepto estadística del de estadísticas. El segundo, en plural, es sinónimo de datos numéricos. Así, por ejemplo, las estadísticas de mortalidad son las cantidades que se presentan en los tabulados de mortalidad. La estadística no es una ciencia, sino un método que enseña procedimientos lógicos de observación y análisis, los cuales es necesario tener en cuenta para aprovechar al máxi- mo las experiencias de otros campos del conocimiento. En tal sentido, es un auxiliar irreemplazable del método científico y su importancia se hace notar. Este libro fue escrito pensando principalmente en es- tudiantes de medicina. Sin embargo, también puede ser de mucha utilidad para estudiantes de cualquier otra área rela- cionada con ciencias de la salud, para estudiantes de posgrado y para todos aquellos profesionales de la salud que requieran un libro de referencia sobre metodología estadística. Incluye 20 capítulos en los que se explica de manera dinámica todo el proceso estadístico aplicado a la medicina. También se agregó un capítulo introductorio a los programas de cómpu- to y otro sobre metaanálisis, el cual se ha convertido en un método estándar para el análisis de resultados en muchas áreas científicas. © E d it o r ia l E l m a n u a l m o d e r n o F o to c o p ia r s in a u to ri z a c ió n e s u n d e lit o . 1 Sección I: Características, recolección, revisión y cómputo de datos Capítulo 1. Características de los datos .....................................................................................................................3 Capítulo 2. Recolección y revisión de datos ..............................................................................................................7 Capítulo 3. Cómputo de datos .................................................................................................................................11 Capítulo 4. Introducción a los programas de cómputo ...........................................................................................15 Capítulo 5. Introducción a los diseños de investigación epidemiológica .................................................................21 © E d it o r ia l E l m a n u a l m o d e r n o F o to c o p ia r s in a u to ri z a c ió n e s u n d e lit o . 3 μ 2 2 1= = ( )x N i i N = x N i i N 1 = xi i N 1 CARACTERÍSTICAS DE LOS DATOS Los datos con los cuales se realizan los trabajos estadísticos varían entre individuos y se obtienen a partir de elementos que en conjunto conforman un universo. Con frecuencia dato e información se utilizan como sinó- nimos. Sin embargo, por información entendemos los datos procesados de manera significativa para el receptor, con valor real y perceptible para tomar decisiones presentes y futuras, los cuales se nos presentan en forma de indicadores. La infor- mación así planteada se obtiene como resultado o producto del proceso que se muestra en la figura 1-1. Los datos no son útiles o significativos como tales, sino hasta que son procesados y convertidos en información. De alguna manera, la información es el conocimiento derivado del análisis de los datos. Ésta es la diferencia básica entre datos e información. Hay que hacer notar que la información obtenida en un proceso puede servir como dato para otro proceso. Universo En estadística universo o población se definen como el con- junto de valores por los cuales existe algún interés. El total del universo o población se representa con la letra mayúscula N. Las poblaciones pueden definirse especificando una regla (o reglas). Éstas pueden ser: características de individuos, lími- tes geográficos, grupos ya existentes, límites de tiempo, etc. Por ejemplo: residentes de Guadalajara, asistentes a un paseo escolar, derechohabientes del IMSS, enfermos de cólera. Elementos del universo Los elementos del universo pueden ser personas, lugares o cosas, ya sean individuos únicos o agrupados. Por ejemplo: los pacientes encamados son elementos que conforman parte del universo definido como hospital, pero también el personal, el mobiliario y los diversos servicios que en él se prestan pueden ser elementos del mismo conjunto. Para individualizarlo, cada elemento de la población se identifica con un número pro- gresivo, que inicia en 1 y termina en N. Esta identificación de cada sujeto se representa como un subíndice y se le conoce como valor “i” o valor i-ésimo. Variables Normalmente, el interés del investigador se dirige a las ca- racterísticas de los elementos que conforman el universo. A dichas características se les designa como variables. Ejemplos de variables pueden ser: talla, peso, sexo, temperatura corpo- ral, condición social y escolaridad. Si el valor de la variable no puede predecirse con anticipación, se le denomina variable aleatoria y para representarla se utilizan letras mayúsculas (X, Y, Z). Así pues, la variable aleatoria “edad” se puede representar con la letra X y las variables aleatorias “sexo” y “escolaridad”, con Y y Z. Los valores individuales de una va- riable aleatoria se representan con letras minúsculas (x, y, z) y un subíndice i-ésimo que identifica el elemento del conjunto que posee la característica. Ejemplo explicativo 1–1 Un investigador está interesado en los valores de hemoglo- bina en sangre de los trabajadores de un taller dedicado al mantenimiento de automóviles. Para ello, decide estudiar a todos los trabajadoresque laboran en el taller. Después de recabar los datos de interés, decide organizarlos de la manera que se presenta en el cuadro 1–1. De acuerdo con los datos reportados, el universo se compone de cinco trabajadores; por tanto, N = 5. En el cuadro 1–1, el investigador representa la variable “sexo” con la letra X, la variable “edad en años cumplidos” con la letra Y, y la variable “hemoglobina en sangre” con la letra Datos Datos Datos PROCESO Información Figura 1-1. Generación de información a partir de datos. 1 Características de los datos © E d it o r ia l E l m a n u a l m o d e r n o F o to c o p ia r s in a u to ri z a c ió n e s u n d e lit o . 4 Bioestadística Z. Identifica a Miguel Domínguez con el valor i-ésimo 1, “sexo” x1 = masculino, “edad en años cumplidos” y1 = 45 y “hemoglobina en sangre (mg/dl)” z1 = 12. Para el caso de Domitila Hernández, los valores x2, y2, z2 son femenino, 23 y 13, respectivamente. Lo mismo se hace con el resto de los trabajadores hasta completar todos los elementos que conforman el universo definido por el investigador. Definición operativa Todas las variables que se utilicen en cualquier trabajo de estadística han de ser definidas con claridad, de tal manera que se eviten confusiones, se facilite la búsqueda y análisis de los datos, y se garantice la comparabilidad de los resultados con los obtenidos en otros estudios previos o posteriores. Esto es particularmente importante cuando las variables pueden definirse de maneras diferentes. Ejemplo explicativo 1–2 El sarampión es una enfermedad viral caracterizada por síntomas prodrómicos (fiebre, conjuntivitis, coriza, tos y manchas de Koplik en la mucosa bucal) que del tercer al séptimo días presenta en cara erupción exantemática que se generaliza al resto del cuerpo y desaparece de 4 a 7 días después. Durante el periodo de incubación, enfermedad y convalecencia, se presentan modificaciones inmunes características del proceso morboso. El término “enfermo de sarampión” puede definirse operativamente de diversas maneras, entre las que se pueden encontrar las siguientes: • Pacientes con manchas de Koplik en mucosa bucal. • Pacientes con exantema maculopapular de tres o más días de duración, fiebre y cualquiera de las tres siguien- tes: tos, coriza o conjuntivitis. • Pacientes con IgM específica para virus del sarampión. La selección de una de éstas como definición operativa de sarampión tiene implicaciones importantes en el desarrollo de la investigación. El equipo de trabajo tendrá que utilizar una de ellas, u otra que se adapte a sus necesidades, y preci- sarla de tal manera que quienes conozcan su trabajo sepan a qué se refiere con el término “enfermo de sarampión”. Una vez que la variable ha sido definida operativamente, se debe especificar la escala de valores que se utilizará para cla- sificar los elementos en estudio. Cuando se trata de variables cuantitativas la decisión suele ser sencilla, pero no cuando la variable es cualitativa o cuando una variable cuantitativa se presenta agrupada. En cualquier caso, se espera que la escala de la variable permita clasificar a todos los elementos, sin excepción, y que cada elemento sea contado sólo una vez en relación con esa variable: en otras palabras, la escala ha de ser exhaustiva y excluyente. Tipos de variables Las variables se pueden clasificar en cualitativas y cuantitati- vas. Cuando sus características se expresan como categorías se dice que se trata de variables cualitativas, mientras que cuando se expresan como valores se les identifica como va- riables cuantitativas. 1. Las variables cualitativas proporcionan datos nominales (en los que se tiene, o no se tiene, la característica de interés) y datos ordinales (en los que la característica es graduable). a) Una variable nominal es aquélla cuya característica se define por un nombre y no implica ser más o menos que la característica definida por un nombre diferente. Por ejemplo, “sexo” es una variable nominal, ya que ser “masculino” no significa ser más o menos que “femenino”; la ocupación también es una variable nominal, ya que ser “ingeniero” o “abogado” no sig- nifica ser más o menos que “médico”. Aquellas varia- bles nominales que se conforman de dos categorías (nacional, extranjero; con diarrea, sin diarrea, etc.) se designan como dicotómicas. b) Las variables ordinales son aquéllas cuyas caracterís- ticas pueden recibir algún orden subjetivo. Su carac- terística principal es que, al ser clasificadas de alguna manera, se puede asumir que se es más o menos que las otras, aunque se desconozca qué tanto más o qué tanto menos. En relación con el dolor, por ejemplo, el paciente puede decir que le duele “poco” o “mucho” y quien lo interroga puede asumir con seguridad que “mucho” significa más dolor que “poco”, aunque no se podría saber qué tanto es “mucho” ni qué “distancia” existe entre “poco” y “mucho”. Aun se podría asignar- Cuadro 1-1. Algunas características de trabajadores que laboran en un taller de automóviles Nombre del trabajador Número progresivo que identifica al trabajador Sexo Edad en años cumplidos Hemoglobina en sangre (mg/dL) i X Y Z Miguel Domínguez 1 Masculino 45 12 Domitila Hernández 2 Femenino 23 13 Manuel Benítez 3 Masculino 32 11 Jesús Ortiz 4 Masculino 18 15 Sergio Martínez 5 Masculino 21 14 © E d it o r ia l E l m a n u a l m o d e r n o F o to c o p ia r s in a u to ri z a c ió n e s u n d e lit o . 5Características de los datos le una graduación subjetiva más detallada y no por eso dejaría de ser ordinal. Tal es el caso cuando se le pide al paciente que ubique, entre el “0” y el “100”, qué tanto dolor siente. En este caso, al igual que al clasificarlo como “mucho” o “poco”, se le asigna un orden en el cual “25” significa más que “15” y menos que “35”, pero se desconoce qué tan grande es la distancia entre “15” y “25” y no se puede asumir que sea la misma que existe entre “25” y “35”, ni que el “15” en una persona corresponda al “15” en otra. Las variables ordinales, al igual que las nominales, también pueden dicotomizarse sin que cambie su escala de medición. Por ejemplo, al definir el comportamiento como “bueno” o “malo” se divide la variable en dos categorías, en las cuales “bueno” representa algo más deseable (o indeseable) que “malo”. 2. Las variables cuantitativas también permiten diferenciar entre los individuos, pero además señalan cuán gran- des son las diferencias observadas. Las observaciones cuantitativas brindan datos discretos (en los que sólo se admiten valores individuales en números enteros) y datos continuos (en los cuales es posible un número infinito de fracciones entre dos puntos de la escala). a) Se definen como variables discretas aquéllas cuyos valores en la escala están separados entre sí por una cantidad determinada, por ejemplo, el número de consultas otorgadas por médico en un día o el conteo de linfocitos en sangre. A diferencia de las variables ordinales, la “distancia” absoluta entre 5 y 7 consultas es la misma que entre 105 y 107 consultas, y también se puede saber qué tantas más son 100 consultas en relación con 10 consultas. Un rasgo distintivo de estas variables es que la unidad no puede fraccionarse, por- que pierde su naturaleza. Así, si se parte por la mitad un paciente, éste deja de serlo para convertirse en dos mitades de cadáver. b) Las variables continuas son aquéllas en las cuales la escala de medición se puede dividir en una cantidad infinita de valores entre dos puntos cualquiera. Entre éstas se encuentran las medidas de longitud, peso, tiempo y volumen. Por ejemplo: entre 0 y 100 metros existe un número infinito de valores que pueden carac- terizar al elemento en estudio, pero también es infinito el número de valores que se encuentran entre 0 y 10 metros o entre 0 y 10 centímetros. Al igual que con las variables discretas, la “distancia”absoluta entre dos puntos se mantiene a lo largo de la escala. Algunas variables parecen no respetar la última característica; tal es el caso de las titulaciones que se reportan como 1:1, 1:2, 1:4, 1:8, etc. Sin embargo, mediante una transformación matemática (logarítmica para el caso) se puede observar que sí se apegan a las características señaladas para las variables continuas. Las variables cuantitativas también pueden clasificarse según tengan o no en su escala un valor de cero absoluto en variables de intervalo (no tienen cero absoluto) y variables de razón (sí lo tienen). Por ejemplo, la temperatura medida en grados centígrados tiene un valor de 0° C, pero éste es arbitrario y no es un valor absoluto porque existen otros valores por debajo de esa temperatura. La edad en años cumplidos, por otra parte, sí tiene un valor de 0 absoluto, porque nadie llega a tener menos de cero años de edad. La temperatura en grados Kelvin también tiene una escala de razón, porque no existe una temperatura por debajo de 0° Kelvin. La distinción de estas dos escalas resulta importante para la interpretación de una razón. Por ejemplo: supongamos un niño que pesaba 50 kg y ahora tiene 60 kg. Podemos decir correctamente que el aumento del peso fue de 20%. Por otra parte, si un líquido que tenía una temperatura de 50° C llega a los 60° C no podremos afirmar lo mismo, porque la escala de temperatura en grados Celsius no tiene un cero absoluto. Ejemplo explicativo 1–3 Una investigadora estaba interesada en identificar algunas condiciones de la madre que pudieran relacionarse con el bajo peso de los niños al nacer. Para ello, decidió estudiar las variables que se muestran en el cuadro 1–2, en el cual las variables se clasifican según su escala de medición. Regularmente, la clasificación de las variables es una tarea sencilla, pero en ocasiones genera algunas dificultades meno- res. Por ejemplo, el tiempo es una variable continua porque entre un instante y otro cualquiera existe una cantidad infinita de divisiones, pero la edad (al menos como frecuentemente se registra) es una variable discreta: un niño que cumple 10 años sigue reportando la misma edad durante todo el año hasta su siguiente cumpleaños, fecha a partir de la cual em- pezará a decir que tiene 11 años. Por otra parte, el número de moléculas de glucosa (o de cualquier otra sustancia) es una variable discreta, porque al dividirse la molécula deja de ser glucosa, pero la concentración de glucosa en sangre es una variable continua, porque la dilución (mg/dl) está medida en una escala que tiene un número infinito de divisiones. Cuadro 1-2. Algunas características de mujeres durante el embarazo Variable Escala de medición · Edad de la madre (en años cumplidos) Discreta, de razón · Talla de la madre (en centímetros) Continua, de razón · Estado civil (soltera, casada, unión libre, otro) Nominal · Escolaridad (menos de primaria, primaria, secundaria, preparatoria o más) Ordinal · Temperatura (en grados Celsius) Continua, de inter- valo · Ocupación durante el embarazo (según la Clasificación Mexicana de Ocupaciones) Nominal · Exposición al humo de tabaco durante el embarazo (no, fumadora pasiva, fumado- ra activa) Ordinal · Hemoglobina en sangre (mg/dl) en la primera consulta prenatal Continua, de razón · Número de consultas prenatales antes del tercer trimestre del embarazo Discreta, de razón © E d it o r ia l E l m a n u a l m o d e r n o F o to c o p ia r s in a u to ri z a c ió n e s u n d e lit o . 6 Bioestadística Ejercicios REFERENCIAS Camel, F. (1991). Estadística Médica y Planificación de la Salud (Vol. 1, 1a. ed.). Mérida, Venezuela: Universidad de los Andes. Nunnally, J. C., & Bernstein, I. (1997). Psychometric Theory (3a. ed.). EUA: McGraw-Hill. 1. En las variables que se presentan a continuación, indique de qué tipo de variable se trata mediante las siguientes abreviaturas: N para una variable cualitativa nominal, O para una variable cualitativa ordinal, D para una variable cuantitativa discreta y C para una variable cuantitativa continua. Variable 1. Concentración de triglicéridos en sangre (mg/dl) ( ) 2. Diabetes (sí, no) ( ) 3. Colesterol total (mg/dl) ( ) 4. Creatinina (�mol/L) ( ) 5. Número de cigarrillos fumados el día anterior ( ) 6. Índice de masa corporal (peso/talla2) ( ) 7. Número de consultorios en la clínica ( ) 8. Presión arterial diastólica (mm Hg) ( ) 9. Intensidad del dolor (escala de 0 a 10) ( ) 10. Opinión del servicio (bueno, regular, malo) ( ) 11. Edad en años cumplidos ( ) 12. Uso de drogas antihipertensivas (sí, no) ( ) 13. Presencia de cefalea (sí, no) ( ) 14. Sexo (masculino, femenino) ( ) 15. Porcentaje de grasa corporal ( ) 16. Depósito de agua (aljibe, balde, alberca, tina, otro) ( ) 2. Observe el cuadro que se le presenta a continuación. Los datos que contiene se refieren a las características de seis pacientes. Identificación (número progresivo) Índice de masa corporal (IMC) Colesterol HDL Glucosa en sangre Fuma- dor 1 24 52 110 sí 2 27 50 95 no 3 25 57 103 no 4 27 48 115 sí 5 26 49 100 no 6 29 56 120 no Primero identifique la variable IMC con la letra W, la variable Colesterol-HDL con la letra X, la variable glucosa en sangre con la letra Y, y la variable Fumador con la letra Z. Luego escriba cuáles son los valores individuales que representan las siguientes referencias: Referencia Valor Referencia Valor w1 ( ) y3 ( ) w2 ( ) y4 ( ) w3 ( ) y5 ( ) x2 ( ) z4 ( ) x3 ( ) z5 ( ) x4 ( ) z6 ( ) © E d it o r ia l E l m a n u a l m o d e r n o F o to c o p ia r s in a u to ri z a c ió n e s u n d e lit o . 7 μ 2 2 1= = ( )x N i i N = x N i i N 1 = xi i N 1 RECOLECCIÓN DE DATOS Idealmente, los datos que el investigador registra se obtie- nen directamente de los elementos en estudio mediante la observación (observación directa, medición física, medición química) o el interrogatorio (entrevistas personales, cuestio- narios autoadministrados, diarios). Cuando éste es el caso, se dice que los datos proceden de fuente primaria. Los datos de fuente secundaria son los que se toman de registros previos, generalmente elaborados con propósitos diferentes a los de nuestra investigación. Su utilidad para el análisis dependerá de la calidad de la información y de su accesibilidad admi- nistrativa. Los datos que proceden de una fuente primaria tienen que ser registrados por el investigador. Ocasionalmente, los datos de fuente secundaria están disponibles en archivos de cómputo y se capturaron de tal manera que están listos para su tabulación, pero lo más frecuente es que el investigador también tenga que buscarlos y registrarlos. En ambos casos, lo más común es que el investigador deba registrarlos en alguna forma especialmente diseñada para este objetivo: una forma de registro de datos. Forma de registro de datos Las formas de registro de datos se tratan con mayor profun- didad en los textos dedicados a la medición de la exposición (Armstrong et al., 1992), de la salud (McDowell y Newell, 1996) o a la elaboración de cuestionarios (Fink, 1995). En este capítulo solamente presentamos algunos aspectos que se deben considerar al elaborarlas. Antes de empezar a diseñar un instrumento, es necesario que el investigador enumere todas las variables de interés. En cada una de ellas se deberán definir tres aspectos: • Su naturaleza, que debe ser específica (que distinga la va- riable de interés de posibles confusores) y sensitiva (que incluya todas las maneras en que el sujeto se encuentra con la variable de interés). • La dosis, en sus diferentes expresiones: dosis acumulada, tasa de exposición, exposición promedio, dosis pico. • El tiempo, o periodo relevante en que se presentó la característica de interés. Estos tres aspectos de las variables deberán ser interpretados por el investigador y traducidosen preguntas, que en conjunto integrarán la forma de registro de datos. Para algunas variables estas definiciones son muy sencillas y generalmente pueden ser exploradas con una pregunta (sexo, edad en años cum- plidos) o medir directamente en el sujeto en estudio (talla, peso, presión arterial). Otras son engañosamente sencillas, como el alcoholismo, la escolaridad o la ocupación. En algunos casos, el proceso puede ser muy complejo y la medición se tiene que realizar de manera indirecta por medio de varias preguntas cuyas respuestas se resumen en un índice. A este grupo pertenecen las mediciones de la calidad de vida, el estrés, la depresión y la inteligencia. Al pensar en la forma de registro, es necesario considerar las siguientes alternativas: 1) Utilizar uno ya existente. Esta debería ser nuestra primera opción. Al hacerlo ahorramos tiempo y recursos; ade- más, la comparación de nuestros resultados con los de otros estudios puede ser más sencilla cuando en ambos trabajos se utilizó el mismo instrumento. Sin embargo, es necesario tener cuidado porque un instrumento uti- lizado previamente no necesariamente es el mejor para una nueva investigación, aunque ya estuviera probado y validado. 2) Adaptar uno ya existente. Esta es una opción muy útil cuando ya existe un instrumento previo, pero tiene al- guno de los siguientes inconvenientes: • El instrumento es muy extenso para el estudio. Puede ser que el instrumento original se haya diseñado para una entrevista, pero se desea utilizar en un cuestiona- rio autocontestado, o que el tiempo en que se contesta excede el tiempo que se dispone para captar los datos. • La población es diferente. Un instrumento desarro- llado para un grupo de población urbana puede no ser adecuado para una población rural, sobre todo si los niveles de escolaridad o el uso del lenguaje son diferentes. • El instrumento está escrito en otra lengua. En estos casos, el instrumento deberá ser traducido. 2 Recolección y revisión de datos © E d it o r ia l E l m a n u a l m o d e r n o F o to c o p ia r s in a u to ri z a c ió n e s u n d e lit o . 8 Bioestadística • Es necesario extender, reordenar o realizar otros cam- bios en la manera en que los datos se colectan. Esto es necesario cuando el investigador considera que al instrumento se le deben agregar más preguntas, cuan- do el orden de éstas debe ser cambiado o cuando el instrumento original fue diseñado para una entrevista y las preguntas se aplicarán por medio de un equipo de cómputo. 3) Desarrollar un instrumento propio. Muchos investigado- res lo hacen, pero no es un trabajo sencillo que pueda realizarse en poco tiempo. Con frecuencia el desarrollo de un nuevo instrumento toma tiempo y requiere habi- lidades que no todos los investigadores dominan. Sin importar que adoptemos un instrumento ya existente, que lo adaptemos o que desarrollemos uno propio, en términos generales el instrumento que utilicemos estará compuesto por preguntas y respuestas. De alguna manera, la forma en que queramos registrar la respuesta determinará el tipo de pregunta. Las preguntas La selección y el fraseo de las preguntas están determina- dos por el contexto de la investigación, por lo que es muy importante tener claridad en los diferentes componentes de este contexto antes de decidir qué forma de registro de datos utilizar. El contexto de la investigación que determina el instrumento incluye los siguientes aspectos: • Identificar el objetivo general y los específicos de la in- vestigación. • Definir con claridad las variables en estudio. • Recordar que las preguntas se realizan en un contexto social, cultural y económico. • Conocer a los encuestados, es decir, quién responde. • Identificar a los encuestadores, es decir, quién pregunta. • Estandarizar las preguntas, es decir, cómo se pregunta. • Estandarizar el formato de las respuestas, es decir, cómo se responde. • Conciliar lo que se quiere preguntar con el tiempo que se dispone para hacerlo. Al momento de redactar y seleccionar las preguntas, es útil tomar en cuenta las siguientes recomendaciones: • Realizar preguntas útiles, relacionadas con la investiga- ción que se pretende realizar. • Hacer preguntas concretas utilizando un lenguaje con- vencional. • Utilizar oraciones completas. En español, la sintaxis de la oración tiene la siguiente estructura: primero va el sujeto, luego un verbo conjugado y termina con un complemento (Cohen, 2010). • Utilizar un lenguaje fácil de comprender para los entrevistados o para quien llene el instrumento. Para ello, conviene no utilizar abreviaturas, expresiones coloquiales o en jerga o expresiones técnicas. • Utilizar periodos de tiempo pertinentes a la importancia de la pregunta. • Preguntas y respuestas cortas cuando se quiera ahorrar tiempo, pero sin sacrificar su claridad. • En caso de temas sensibles al entrevistado, se pueden utilizar preguntas cargadas. Por ejemplo, si existe in- terés en preguntar sobre consumo de drogas ilegales, podríamos redactar una pregunta en los siguientes términos: “Algunas personas, por experimentar, han probado la mariguana. ¿Usted ha probado la marigua- na en alguna oportunidad de su vida?”. Al plantear la pregunta de esta manera, facilitamos que los entrevis- tados la contesten, pero es necesario tener cuidado, porque la redacción puede ser tan compleja que llega a dificultar su interpretación por el entrevistado. • Evitar frases y palabras sesgadas. Éstas son las que orientan la respuesta. Por ejemplo, la pregunta “¿Verdad que usted quiere a sus hijos?” anticipa la respuesta que queremos escuchar. • Evitar preguntas con dos respuestas. • Evitar preguntas en negativo. • Hacer que las preguntas sean revisadas por expertos y por respondientes potenciales. • Las preguntas son precisas y sin ambigüedades cuan- do dos o más personas entrevistadas potenciales están de acuerdo con las palabras usadas para con- testarla. • Recordar que se pueden adoptar o adaptar preguntas que ya han sido utilizadas satisfactoriamente por otros investigadores. El objetivo al seleccionar, modificar o diseñar una forma de registro de datos será obtener una medida que sea la mínima necesaria para cumplir con los objetivos de la investigación, y que el instrumento reúna los tres requisitos siguientes: confiabilidad, validez y objetividad. • La confiabilidad se refiere a la consistencia en los resul- tados. Es decir, que cada vez que se mida lo mismo se obtenga el mismo resultado. Por ejemplo, si nos pesamos en una báscula y registramos 70 kg, nos bajamos de la misma y luego nos pesamos nuevamente, esperamos que la segunda lectura sea igual (o muy cercana) a 70 kg. Si éste es el caso, hablamos de una lectura confiable. En caso contrario (que la segunda lectura sea, por ejemplo, de 80 kg), las lecturas no son confiables. • La validez se refiere a que el instrumento realmente mida la variable que se quiere medir. Por ejemplo, si queremos medir la grasa corporal de una persona, ten- dríamos varias opciones: podríamos pesarla (sabemos que a mayor grasa corporal mayor peso corporal, pero también la masa muscular aumenta el peso, por lo que el peso total no sería la mejor opción), calcular el índice de masa corporal (peso/talla2), medir pliegues cutáneos o medir la impedancia. El último tendría mayor validez que los anteriores. • La objetividad se refiere al grado potencial en que los resultados pueden ser influidos o sesgados por el inves- tigador o quien registra el dato. © E d it o r ia l E l m a n u a l m o d e r n o F o to c o p ia r s in a u to ri z a c ió n e s u n d e lit o . 9Recolección y revisión de los datos Las respuestas Las respuestas se clasifican en cerradas o abiertas según sea la forma en que las registramos. En el caso de las respuestas cerradas, el que llena la forma de registro de datos selecciona una o varias opciones entre una lista limitadade respuestas posibles. En las respuestas abiertas, estas opciones predefi- nidas no existen, por lo que quien responde deberá utilizar sus propias palabras. Respuestas cerradas. Entre las respuestas cerradas po- demos encontrar varios modelos; las más frecuentes pueden clasificarse en dicotómicas, múltiples nominales y múltiples ordinales. • Las respuestas dicotómicas presuponen sólo dos opciones posibles. Las más frecuentes en esta categoría son SÍ o NO. Por ejemplo: ¿Ha tenido usted tres o más evacuaciones líquidas en las últimas 24 horas? No Sí • Las respuestas múltiples nominales presuponen más de dos opciones posibles, sin que exista entre ellas una rela- ción de orden, por lo que la secuencia en que se anotan generalmente no tiene tanto impacto en la respuesta. Sin embargo, no es raro que algunas opciones tengan que situarse después de otras, como es el caso de la opción “otro”. Por ejemplo: Ayer que regresó del trabajo a su casa, ¿qué medio de transporte utilizó? Automóvil o camioneta Autobús o minibús Motocicleta Otro vehículo de motor Bicicleta Otro vehículo Ninguno de los anteriores, sólo caminé • Las respuestas múltiples ordinales presuponen varias opciones posibles que mantienen una relación de orden entre ellas. Por ejemplo: ¿Qué tan de acuerdo o en desacuerdo está usted con el siguiente enunciado?: Los accidentes son causados por el destino. Completamente de acuerdo Casi de acuerdo No sabe Casi en desacuerdo Completamente en desacuerdo Al considerar el uso de esta opción, es necesario tomar en cuenta las siguientes consideraciones: a) Utilizar escalas que tengan sentido con los objetivos. b) Considerar cinco tipos de respuestas: • Aprobación: Definitivamente cierto, cierto, no sé, falso, definitivamente falso. • Frecuencia: Siempre, frecuentemente, regularmente, algunas veces, casi nunca, nunca. • Intensidad: Nada, muy poco, regular, moderado, se- vero. • Influencia: Gran problema, problema regular, proble- ma pequeño, casi sin problema, sin problema. • Comparación: Mucho más que los otros, poco más que los otros, aproximadamente igual que los otros, algo menos que los otros, mucho menos que los otros. c) Balancear las respuestas. d) Usar escalas de 5 o 7 categorías. e) Poner las categorías negativas al principio de la escala. f) Mantener las escalas en la misma página y fáciles de completar. g) Usar escalas sólo cuando los encuestados pueden ver o recordar con facilidad todas las opciones. Para el caso de cualquiera de los tres modelos de respuestas anteriores (dicotómicas, múltiples nominales, múltiples or- dinales), siempre es necesario considerar la opción “otra”. Es preciso tener cuidado, porque no es raro que la opción “otra” resulte la respuesta más frecuente. Por otra parte, también es necesario tomar en cuenta las respuestas “no sé”, “sin datos”, “no aplica” o “no quiso contestar” que llegan a ser importantes durante el análisis aunque no sean categorías de la variable en estudio. Respuestas abiertas. Con frecuencia se afirma que las res- puestas abiertas no son adecuadas para el análisis estadístico, pero esto no es cierto para el caso de las variables cuantitativas que deben registrarse mediante respuestas abiertas, ni para algunas respuestas que cuentan con sistemas de codificación ya establecidos. • En el caso de las variables cuantitativas, la mejor opción es la respuesta abierta. De esta manera, el investigador, o quien responde, podrá registrar el número que corres- ponda a la pregunta. Por ejemplo: ¿Cuál es su edad en años cumplidos? Antes de que tuviéramos las facilidades de cómputo que nos brindan los ordenadores, las tabulaciones tenían que hacerse manualmente y se acostumbraba agrupar las posibles respuestas numéricas. Así, para la edad las opciones de respuesta podrían haber sido las siguientes: menores de 1 año, 1 a 4 años, 5 a 9 años, 10 a 14 años. Pero desde que tenemos acceso a computadoras y pa- quetes estadísticos, lo mejor es registrar el dato como tal para después agruparlo durante el análisis, si es que así lo queremos presentar. • Hay un grupo de variables que ya han sido codificadas con anticipación, para las que incluso existen acuerdos internacionales. Tal es el caso para la codificación de las enfermedades que está normada por la Clasificación Internacional de Enfermedades, actualmente en su décima revisión. En este tipo de respuestas también se incluyen la descripción de los eventos en que los sujetos resultan lesionados por causa externa, las intervenciones quirúrgicas y las ocupaciones laborales. Al registrar estas variables, no es raro que sea necesario contestar a dos © E d it o r ia l E l m a n u a l m o d e r n o F o to c o p ia r s in a u to ri z a c ió n e s u n d e lit o . 10 Bioestadística o más preguntas, como en el caso de la ocupación. Por ejemplo: En su trabajo usted es (sólo seleccione una) Empleado, obrero, jornalero o peón Trabaja por su cuenta Patrón o empresario ¿A qué se dedica el negocio, empresa o institución donde trabaja? ¿Cuál es el oficio, puesto o cargo que tiene en el trabajo? ¿Cuáles son las funciones o tareas que hace en el trabajo? Tomando en cuenta las respuestas anteriores, y con el auxilio del catálogo de ocupaciones que esté utilizando, se podrán asignar códigos específicos a las diferentes ocupaciones laborales de los sujetos que se estudien. • Por último, y desde una perspectiva cuantitativa, las respuestas abiertas deben evitarse cuando no existan criterios claros de codificación, porque consumen mucho tiempo durante el llenado del instrumento, su manejo posterior es muy complejo y generalmente no son ade- cuadas para el tratamiento estadístico. Revisión y corrección de datos recogidos Después de que los datos han sido captados en los formatos diseñados para este fin, será necesario revisarlos con cuidado con la intención de identificar si están completos y se han lle- nado de manera correcta. Esta revisión deberá realizarse, de preferencia, el mismo día en que los datos fueron recogidos. De otra manera, podría ser muy difícil, o imposible, hacer las correcciones pertinentes. Cuando los datos son registrados en un archivo de cómpu- to, es necesario que la revisión y corrección de datos incluya los que están guardados en estos medios de almacenamiento. Este tema se trata con mayor amplitud en el capítulo 4. REFERENCIAS Fink, A. (1995). The survey kit (Vol. 2, How to ask survey questions). Thousand Oaks, California: Sage. McDowell, I., & Newell, C. (1996). Measuring Health: a guide to rating scales and questionnaires (2a. ed.). New York: Oxford University Press. Armstrong, B. K., White, E., & Saracci, R. (1992). Principles of Exposure Measurement in Epidemiology. Oxford: Oxford University Press. Cohen, S. (2010). Redacción sin dolor (5a. ed.). México: Planeta. © E d it o r ia l E l m a n u a l m o d e r n o F o to c o p ia r s in a u to ri z a c ió n e s u n d e lit o . 11 μ 2 2 1= = ( )x N i i N = x N i i N 1 = xi i N 1 El cómputo de datos incluye dos operaciones básicas: en el caso de las variables cualitativas, se cuenta cuántos elementos del universo tienen una o varias características en común; en el de las cuantitativas, se suman los valores de esas caracte- rísticas y, en ocasiones, se clasifican o relacionan con otras variables cualitativas o cuantitativas. Hay varios procedimientos de computación y la selección de uno en particular depende de varios aspectos, entre los que destacan: el número de individuos en la población o muestra, la complejidad del análisis y los recursos económicos de que se dispone. Entre los que se usan con mayor frecuencia se encuentran: • Listas • Palotes • Tarjetas simples • Tarjetas con perforaciones marginales • Computadoras Listas La información se registra en hojas de cálculo (por lo gene- ral, con rayado de columnas y renglones), como se hace con frecuenciaen trabajos de contabilidad. Los datos correspon- dientes a cada elemento del universo estudiado se anotan en un renglón, tal como se muestra en el cuadro 3–1. El conteo se limita a calcular sumatorias de las variables cuantitativas o frecuencias de categorías en las variables cualitativas. Mientras se tabulan los conteos, se registran en la memoria hasta que se termina con una columna. Dada la capacidad reducida de la memoria, este procedimiento de conteo sólo es útil cuando la cantidad de información se limita a unos cuantos registros (alrededor de 50). Aunque con una lista se podría clasificar los elementos por dos variables a la vez, sería muy difícil hacerlo por tres o más variables. Palotes Cuando la información contenida en las listas es muy nume- rosa y su cómputo se dificulta mediante el procedimiento anterior, entonces se puede utilizar el método de los palotes para su contabilidad. Para ello, primero se elabora una tabla de vaciado de información semejante a la que se muestra en la figura 3–1. En ésta se encuentran renglones (variable “grupo de edad”) y columnas (variable “sexo”) que al unirse forman las celdas en que se registrará un “palote” (|) por cada individuo que reúna las dos características que correspondan a la celda definida por la columna y el renglón. Para facilitar el conteo final, es convencional que el quinto palote sea una línea que atraviese a los cuatro anteriores, de modo que cada grupo represente cinco observaciones. Este método, que aún se utiliza, presenta muchas des- ventajas: a) aunque permite tabular un número de datos mayor que las listas, es difícil utilizarlo cuando hay más de 100 elementos; b) si existe alguna distracción durante el conteo, Cuadro 3-1. Lista de algunas características de los elemen- tos de un universo a estudiar i X Y Z 1 Masculino 45 12 2 Femenino 23 13 3 Masculino 32 11 4 Masculino 18 15 5 Masculino 21 14 3 Cómputo de datos Sexo Masculino Femenino Grupo de edad 14 a 19 años 20 a 24 años 25 a 29 años 30 a 34 años Figura 3-1. Formato de concentración de datos para uso de “palotes”. © E d it o r ia l E l m a n u a l m o d e r n o F o to c o p ia r s in a u to ri z a c ió n e s u n d e lit o . 12 Bioestadística es fácil olvidar si el elemento que se está señalando ha sido o no contado, por lo que con frecuencia se cometen errores que son difíciles de corregir; c) el número de clasificaciones simultáneas que se puede realizar es limitado (difícilmente más de 3 o 4); y d) es imposible realizar sumatorias de valores no agrupados. Tarjetas simples Consisten en un rectángulo de papel grueso (p. ej., bristol o cartulina) del cual se ha recortado una esquina. Las caracte- rísticas de los individuos registrados se anotan en pequeños espacios indicados en una de sus caras, de preferencia con letras grandes y siempre en la misma localización de la tarje- ta. La esquina recortada facilita el acomodo previo al conteo (véase figura 3-2). Para la tabulación procedemos así: 1. Acomodamos todas las tarjetas en un solo fajo, teniendo cuidado de colocar la esquina recortada en la misma posición para todas las tarjetas. Cuando hacemos esto, todas las tarjetas nos mostrarán el mismo frente de la hoja. 2. Identificamos la localización de la variable a tabular (pre- sencia de vómito, estado civil, etc.). 3. Separamos las tarjetas en dos o más montones según las categorías de la variable de interés (diarrea sí, diarrea no; masculino, femenino, etc.) 4. En caso necesario, cada montón de tarjetas puede sepa- rarse nuevamente en atención a otras variables. 5. Una vez completadas las separaciones necesarias, se procede a contar el número de tarjetas de cada montón. Este procedimiento presenta varias ventajas: a) puede ser utilizado en la mayoría de las investigaciones que se realizan en el campo de la salud, b) facilita la verificación de conteos y disminuye el potencial de error, c) el número de clasificaciones simultáneas no está limitado a nuestra memoria, ni a la com- plejidad de un cuadro tabular, d) las tarjetas son relativamente económicas y e) el mismo investigador puede elaborarlas. No obstante, presenta algunas desventajas, entre las que encon- tramos: a) dificultad para obtener sumatorias de variables cuantitativas, b) facilidad para perder una o varias tarjetas y c) dificultad para manejar grandes cantidades de datos. Tarjetas con perforaciones marginales Son tarjetas de tamaño variable, cuya característica más importante son sus perforaciones marginales (figura 3–3). Al igual que las tarjetas simples, una de sus esquinas debe recortarse con la finalidad de facilitar su acomodo. En una cara de la tarjeta se anota, anexo a una perforación marginal, la categoría de interés. Si el elemento al cual corresponde la información contenida en la tarjeta posee la característica señalada, se realiza un recorte entre la perforación marginal y el borde de la tarjeta. El recorte debe ser lo suficientemente grande para evitar que exista algún “gancho” que impida el manejo de las tarjetas. Para contabilizar los datos se procede de la siguiente manera: 1. Las tarjetas se acomodan atendiendo al recorte de la esquina. 2. Se pasa un punzón o aguja de tejer (según el número de tarjetas) a través de las perforaciones que corresponden a la variable y categoría de interés. 3. Tomando de cada extremo el instrumento punzante utilizado, se procede a levantar y agitar suavemente las tarjetas. Aquellas tarjetas que tengan la perforación recortada caerán y corresponderán a los individuos que presentan la característica de interés. 4. El procedimiento se puede repetir a partir del paso 1 el número de veces necesarias para completar las clasifica- ciones simultáneas de interés. 5. Al final, sólo resta contar el número de tarjetas separadas en la última clasificación. Este tipo de tarjetas permite manejar con facilidad grandes volúmenes de información. Al igual que las tarjetas simples, facilitan la verificación de conteos y la realización de un gran número de clasificaciones simultáneas. Sin embargo, ya que han de elaborarse en imprenta, son caras y, al igual que con las tarjetas simples, existe la dificultad para obtener sumato- rias de variables cuantitativas y la posibilidad de perder una o varias tarjetas. Masculino Diarrea: Sí Vómito: No Ensalada: Sí Sopa: Sí Figura 3-2. Modelo de tarjeta simple. Figura 3-3. Modelo de tarjeta con perforación marginal. Sexo masculino Comió sopa Comió ensalada Comió guisado Comió postre Presentó diarrea Presentó vómito Hipertermia > 37º C Presentó prurito © E d it o r ia l E l m a n u a l m o d e r n o F o to c o p ia r s in a u to ri z a c ió n e s u n d e lit o . 13Cómputo de datos Computadoras Los equipos de cómputo brindan muchas facilidades ideales para el manejo estadístico de datos. Durante muchos años, esta tecnología sólo estuvo disponible en las instituciones que podían pagar uno de esos equipos, que eran muy caros. Sin embargo, el desarrollo tecnológico de las computadoras y su abaratamiento nos permiten utilizarlas con una facilidad asombrosa. Además, el uso amplio de equipo personal ha favorecido el desarrollo de programas auxiliares útiles no únicamente para el cómputo de datos, sino también para su análisis estadístico. Entre las ventajas del uso de los sistemas de cómputo se encuentran: a) rapidez en el proceso, b) disminución de los errores y facilidad de corrección de los mismos, c) facilidad para manejar grandes volúmenes de datos (p. ej., registros nacionales de mortalidad, censo de población de un país, etc.), d) oportunidad de almacenar gran cantidad de datos, información y procesos estadísticos, e) recurso tecnológico relativamente económico y f) disponibilidad de programas de cómputo que permiten realizar procedimientos estadísticos complejos en poco tiempo. Por otra parte, las desventajas más notables son: a)demanda de personal capacitado en su manejo, b) facilidad con que los archivos se dañan y c) debido a los rápidos cambios en el campo tecnológico, los equipos de cómputo pierden actualidad y se deprecian pronto. REFERENCIAS Camel, F. (1991). Estadística Médica y Planificación de la Salud (Vol. 1). Mérida, Venezuela: Universidad de los Andes. © E d it o r ia l E l m a n u a l m o d e r n o F o to c o p ia r s in a u to ri z a c ió n e s u n d e lit o . 15 μ 2 2 1= = ( )x N i i N = x N i i N 1 = xi i N 1 “Había una vez” Así empiezan los cuentos. Pero ésta es una historia que se vivió a partir de mediados del siglo XX. Durante muchos años, el ejercicio de la estadística incluyó el trabajo penoso de tabular datos durante horas antes de realizar la primera operación, lo cual, por lo general, se ha- cía con la ayuda de una calculadora (pero también con los dedos). Este trabajo era tardado, cansado y, en ocasiones, aburrido. Además, los errores frecuentes obligaban a repetir los conteos, o ¡a redondear los datos! Las ecuaciones esta- dísticas se limitaban al cálculo de proporciones y promedios, y las regresiones no pasaban de dos variables. Los cálculos de probabilidad (p) en que se basaban las inferencias se apoyaban en las tablas de los anexos al final del libro, y sólo algunos pocos matemáticos expertos se atrevían a realizar pruebas más avanzadas. La entrega de resultados siempre se retrasaba y con frecuencia quedaba poco tiempo para su discusión. Y así reinó el caos durante años, hasta que un día llegaron las computadoras; al principio las cosas no fueron más fáciles. Las primeras computadoras, que eran equipos muy grandes y costosos, estaban al cuidado de un grupo selecto de iniciados: los programadores. Los humildes mor- tales sólo las podían ver a través de los grandes cristales que las protegían del polvo y del calor. Fue en esa época, cuando las computadoras podían “equivocarse”, que aparecieron los primeros programas de cómputo especialmente diseñados para el análisis estadístico, pero ese recurso estaba dedicado a cumplir funciones administrativas y todavía se encontraba alejado del investigador. Por tanto, la entrega de resultados aún se retrasaba y con frecuencia tampoco había tiempo para su discusión. Pero luego sucedió lo que nadie esperaba: las computadoras llegaron a los escritorios de las oficinas y a las mesas de las casas, y no sólo ellas, también llegaron los programas de cómputo. Los programadores salieron de la vista y los propios investigadores podían hacer los análisis sin necesidad de intermediarios, pero la entrega de resultados sigue retrasándose y con frecuencia sigue sin haber tiempo para la discusión. Sólo que ahora ya se han encontrado a las culpables: las computadoras. Gracias al contacto con los hu- manos, estos equipos han adquirido características propias de ellos: además de “equivocarse” también se entretienen “echando a perder” los archivos de datos. Hemos querido empezar este capítulo ironizando, porque es importante dejar bien claro que la computadora es una herramienta muy útil en el análisis estadístico de los datos, pero que no piensa ni actúa por sí sola. La computadora sigue instrucciones en lenguaje binario, y las cumple a una velocidad que no deja de ser impresionante. Si se le alimenta correctamente y las instrucciones que se le dan son las ade- cuadas, los resultados serán sorprendentes. Pero si esto se hace incorrectamente, los resultados también serán sorpren- dentes por la magnitud de los errores. Vale la pena insistir: la computadora es una herramienta y en ningún momento sustituye la labor del investigador en el análisis estadístico. Con la ayuda de la computadora, se agiliza la tabulación y también las operaciones, pero es el investigador quien tiene que decidir qué análisis es el más adecuado para sus datos, y es él quien tiene que interpretar los resultados. Si lo anterior ha quedado claro, entonces ya se puede continuar con el tema de los programas de cómputo que pueden ser de gran ayuda en el análisis estadístico. Durante el análisis estadístico, el investigador tiene que realizar varias tareas: • Presentación de la propuesta o proyecto • Búsqueda y registro de datos • Captura y transformación de datos • Revisión de la captura • Tabulación de datos • Cálculo de estadísticos • Interpretación de resultados • Reporte final del trabajo Para realizar estas tareas, el investigador usa varios programas de cómputo. Algunos son exclusivos del trabajo estadístico, otros son menos específicos. En términos generales, entre los programas de cómputo que se utilizan se incluyen los procesadores de texto, los administradores de bases de da- tos, las hojas de cálculo, los programas para presentaciones y los programas estadísticos. A esta lista también podríamos agregar algunas utilerías y páginas de la web que funcionan como calculadoras estadísticas/epidemiológicas. El uso que se hace de ellos difiere de muchas maneras, pero con frecuencia realizan tareas comunes. A continuación se harán comentarios sobre algunos programas de cómputo. Es necesario aclarar que no se trata de una revisión sistemática de los programas 4 Introducción a los programas de cómputo © E d it o r ia l E l m a n u a l m o d e r n o F o to c o p ia r s in a u to ri z a c ió n e s u n d e lit o . 16 Bioestadística existentes, más bien se escribe sobre algunos que los autores han tenido oportunidad de utilizar. PROCESADORES DE TEXTO Estos programas son los más genéricos de todos los que se utilizan. Básicamente sirven para escribir las propuestas iniciales, reportes finales del trabajo y formas para captar datos (cuestionarios, cédulas de captura). Algunos incluyen utilerías capaces de elaborar cuadros y gráficos. Otros incluso permiten escribir fórmulas como las que se presentan en este libro. Entre estos programas destaca Word para Windows. ADMINISTRADORES DE BASES DE DATOS Cumplen una función muy importante durante el trabajo es- tadístico: ayudan a capturar datos en los archivos de cómputo en los que se almacenan. Además de generar la estructura de la base y de permitir capturar los datos, estos programas tam- bién permiten editar y transformar datos, así como generar nuevas variables y asignarles valores a partir de los existentes. Pueden ayudar a generar pantallas de captura que faciliten el trabajo de introducir datos, limitando así, el número de errores que se pueden cometer. La verificación de la captura se puede realizar comparando los datos en pantalla con la forma en la que se registraron. Si existe algún error, el programa permite corregirlo. Si alguien cuenta con un poco de experiencia en programación, también puede utilizar estos programas para tabular datos y realizar operaciones estadísticas, como el cálculo de proporciones, promedios y desviaciones estándar, o pruebas de chi-cuadrada y t de Student, por ejemplo. El potencial de estos programas en el análisis estadístico es enorme, pero la limitación más importante reside en que es necesario conocer los programas con mucha profundidad y saber programar. Entre los programas de esta categoría están dBase, Fox y Access. HOJAS DE CÁLCULO Su estructura de celdas, construidas a partir de columnas y renglones, además de las funciones que incluyen, las hace muy útiles para el trabajo estadístico. Entre estos programas, los más conocidos son Excel y Lotus. Su primera aplicación suele ser la captura de datos; es mucho más sencilla que la que se puede hacer en los administradores de bases de datos, pero menos versátil. Para capturar datos en una hoja de cálculo, se procede a identificar las columnas con las variables y los renglones con los registros. En las celdas del primer renglón se anotan los nombres de las variables y, a partir del segun- do renglón, se capturan los datos que corresponden a cada elemento del grupo.Por brevedad, en la captura suelen uti- lizarse códigos y no etiquetas. Por ejemplo, en vez de escribir “masculino” en la columna de sexo se puede anotar “1” y en lugar de “femenino”, “2”. De esta manera se ahorra mucho tiempo y se reduce el número de errores. Ejemplo explicativo 4–1 Recuérdese el cuadro 1-1 en el que se presentaron los datos de un grupo de trabajadores de un taller de automóviles. En una hoja de cálculo, los mismos datos tendrían la presenta- ción del cuadro 4-1, en el cual los renglones (identificados con un número en la primera columna) y las columnas (identificadas con letras mayúsculas en el primer renglón) definen las referencias de cada celda. En el renglón 1 se identifican las variables: “registro” en la columna “A”, “sexo” en la columna “B”, “edad” en la columna “C” y hemoglobina con la etiqueta “Hb” en la columna “D”. Bajo la etiqueta “registro” se anota el número i-ésimo que corresponde a la captura, generalmente un número progresivo, en susti- tución del nombre del sujeto o elemento del conjunto que se estudia. Bajo la etiqueta “sexo” el código “1” significa “varón”, mientras que el “2” se refiere a “mujer”. En las celdas debajo de “edad” y “Hb”, se anotan los valores que corresponden a cada lectura. La verificación de datos puede realizarse de varias maneras. En primer lugar, los datos en la pantalla se pueden comparar con la forma en la cual se registraron los datos. Otro proce- dimiento más ventajoso por su facilidad es la utilización de filtros, a partir de los cuales se pueden ordenar los datos según diferentes criterios. Por ejemplo, si los datos del cuadro 4-1 fueran muy extensos, entonces se podría pedir al programa que los ordenara según los valores anotados en la columna del sexo. Si por algún motivo alguien hubiera anotado un tres en esa columna, se podría identificar al principio o al final de ella después de ordenar los registros según un criterio ascen- dente o descendente, respectivamente. Los filtros reconocen todos los criterios o secuencias de datos capturados en cada Cuadro 4-1. Representación de la captura de datos del cuadro 1-1 en una hoja de cálculo A B C D E 1 registro sexo edad Hb 2 1 1 45 12 3 2 2 23 13 4 3 1 32 11 5 4 1 18 15 6 5 1 21 14 © E d it o r ia l E l m a n u a l m o d e r n o F o to c o p ia r s in a u to ri z a c ió n e s u n d e lit o . 17Introducción a los programas de cómputo variable, lo cual permite identificar cualquier error de regis- tro, como el número tres capturado en la variable sexo del ejemplo anterior. Una tercera opción para verificar la captura incluye registrar dos veces los datos en la misma secuencia: la primera en una hoja y la segunda en otra hoja del mismo archivo. Para comparar las capturas, se utilizaría una tercera hoja que contraste las dos primeras y destaque las capturas que no fueran iguales. Ejemplo explicativo 4–2 Supóngase que se han capturado los datos del ejemplo 4-1 por duplicado, tal como se presentan en el cuadro 4–2. Si se observa con detenimiento, se puede encontrar, en primer plano, la misma captura que en el cuadro 4–1. En segundo plano, se aprecian los primeros dos renglones con los mis- mos datos excepto dos cambios: en las celdas B2 y C3 los datos no son los mismos que en la primera hoja. En el tercer plano, se muestra una hoja que identifica la diferencia de valores y los señala con la palabra “ERROR”. Para que el programa Excel muestre las diferencias de la captura en la tercera hoja, se puede utilizar la función =SI() en cada una de las celdas de la tercera hoja (que es la que compara): en la celda A1 se escribe la fórmula =SI(Hoja1!A1<>Hoja2!A1 ;”ERROR”;” “), y luego se copia a todas las demás celdas en la hoja de cálculo. Una vez que las capturas diferentes han sido identificadas, se busca en las formas de captura cuál de las dos es la correcta para cambiarla en la hoja en la cual se tiene el error. Las hojas de cálculo incluyen funciones que, a partir de un bloque de datos, permiten realizar varias operaciones, entre las que se encuentran los cálculos de la media, mediana, moda, varianza, desviación estándar, coeficiente de corre- lación, intercepción y pendiente de la regresión lineal. Tam- bién pueden mostrar los valores de varias distribuciones de probabilidad, como la normal, binomial, Poisson, t, F, �2, así como realizar las pruebas de chi-cuadrada, t de Student, F y z. Varias funciones matemáticas y trigonométricas también están incluidas en las hojas de cálculo, y éstas son muy útiles cuando se desea redondear los resultados o transformar los valores de las variables mediante logaritmos o antilogaritmos, por ejemplo. Una función que puede ser de mucha utilidad está relacionada con la generación de números aleatorios. Las hojas también pueden servir para simplificar el tra- bajo, de tal manera que, una vez que se ha introducido una fórmula, ya no sea necesario capturarla nuevamente, sólo es necesario cambiar los valores que resulten de procesos intermedios para actualizar el resultado, derivado de la fór- mula, automáticamente. Ejemplo explicativo 4–3 Con frecuencia, el investigador tiene que hacer muchas veces las mismas operaciones, pero con valores diferentes. Por ejemplo, cuando se prepara un reporte final, podría existir interés en presentar los resultados mediante dife- rencias de proporciones con intervalos de confianza de 95%. En la hoja de cálculo se pueden poner los valores y las fórmulas necesarias una vez y, después, sólo modificar los valores para que cambien los intervalos de confianza de acuerdo con cada cuadro. En el cuadro 4–3 se representa una hoja de cálculo mediante la cual es posible calcular los intervalos de confianza. En las celdas de la columna B se anotan las proporciones y el número de observaciones en las muestras A y B, mientras que en la columna E se colocan las ecuaciones para los resultados: la diferencia de propor- ciones se obtendría mediante la fórmula (en Excel) =B1–B3 en la celda E1; el límite inferior del intervalo de confianza se obtendría en la celda E3 mediante =E1–1.96*(B1*(1–B1)/ B2+B3*(1–B3)/B4)^0,5; mientras que el límite superior se tendría en la celda E4 con la fórmula =E1+1.96*(B1*(1–B1)/ B2+B3*(1–B3)/B4)^0,5. Estas fórmulas se presentan con mayor detalle en el capítulo 16. Una vez que se tiene la hoja con los valores y las ecuaciones en posición (cuadro 4-3), para el resto de los cálculos sólo es Cuadro 4-2. Representación de la captura de datos del cuadro 1-1, por duplicado, en hojas de cálculo A B C 1 registro sexo edad 2 ERROR 3 ERROR A B C D 1 registro sexo edad hg 2 1 2 45 12 3 2 2 26 13 A B C D E 1 registro sexo edad hg 2 1 1 45 12 3 2 2 23 13 4 3 1 32 11 5 4 1 18 15 6 5 1 21 14 Cuadro 4-3. Presentación de proporciones e intervalos de confianza de 95% A B C D E 1 Proporción A 0.5 Pa - Pb 0.2 2 n de A 150 IC 95% 3 Proporción B 0.3 límite inferior 0.095 4 n de B 175 límite superior 0.305 5 6 © E d it o r ia l E l m a n u a l m o d e r n o F o to c o p ia r s in a u to ri z a c ió n e s u n d e lit o . 18 Bioestadística necesario cambiar los valores de B1, B2, B3 y B4 para obtener las diferencias de proporciones y los intervalos de confianza de 95% que correspondan a los datos. Las hojas de cálculo también son de gran ayuda para reali- zar los gráficos necesarios en el análisis estadístico. La facilidad con la cual se puede realizar un gráfico en estos programas permite ensayar con varias formas diferentes hasta que se encuentre la que mejor presenta los resultados. Además de todas las facilidades que brindan las hojas de cálculo, también se debe mencionar la gran capacidad que tienen para importar y exportar archivos generados en otros formatos, lo cual los hace muy útiles cuando se trabaja en varias plataformas de datos. Parecería que un programa de hoja de cálculo cubriría todas las necesidades para el trabajo.
Compartir