Logo Studenta

Bioestadística - Celis y Labrada (3 ed)

¡Este material tiene más páginas!

Vista previa del material en texto

Bioestadística
EL LIBRO MUERE CUANDO LO FOTOCOPIA
AMIGO LECTOR:
La obra que usted tiene en sus manos posee un gran valor.
En ella, su autor ha vertido conocimientos, experiencia y mucho trabajo. El editor
ha procurado una presentación digna de su contenido y está poniendo todo su empe-
ño y recursos para que sea ampliamente difundida, a través de su red de comerciali-
zación.
Al fotocopiar este libro, el autor y el editor dejan de percibir lo que corresponde a la
inversión que ha realizado y se desalienta la creación de nuevas obras. Rechace
cualquier ejemplar “pirata” o fotocopia ilegal de este libro, pues de lo contrario
estará contribuyendo al lucro de quienes se aprovechan ilegítimamente del esfuer-
zo del autor y del editor.
La reproducción no autorizada de obras protegidas por el derecho de autor no sólo
es un delito, sino que atenta contra la creatividad y la difusión de la cultura.
Para mayor información comuníquese con nosotros:
III
Bioestadística
Dr. Alfredo de Jesús Celis de la Rosa
Médico Cirujano y Partero, Maestro en Salud Pública y Doctor en Epidemiología 
por la Universidad de Guadalajara. Investigador Titular “C” 
en el Departamento de Salud Pública del Centro Universitario 
de Ciencias de la Salud, Universidad de Guadalajara. 
Docente de los cursos de Bioestadística y Análisis Multivariado 
en la Maestría y el Doctorado en Ciencias de la Salud Pública. 
Director de la División de Disciplinas para el Desarrollo Promoción 
y Preservación de la Salud del Centro Universitario de Ciencias 
de la Salud de la Universidad de Guadalajara.
Dra. Vanessa Labrada Martagón
Licenciada en Biología, Centro Universitario de Ciencias Biológicas 
y Agropecuarias, Universidad de Guadalajara
Maestra en Ciencias con Especialidad en Manejo de Recursos Marinos, 
Centro Interdisciplinario de Ciencias Marinas, Instituto Politécnico Nacional
Doctora en Ciencias en el Uso, Manejo y Preservación 
de los Recursos Naturales, Centro de Investigaciones 
Biológicas del Noroeste, S. C.
Posdoctorado en Modelación Matemática Teórica, 
Departamento de Matemática Aplicada y Estadística, 
Universidad de California Santa Cruz.
Investigador Colaborador en el Programa de Planeación Ambiental 
del Centro de Investigaciones Biológicas del Noroeste, S. C.
TERCERA EDICIÓN
Editor responsable:
Dr. Raúl Ossio Vela 
Editorial El Manual Moderno
Bioestadística, tercera edición
D.R. © 2014 por
Editorial El Manual Moderno, S.A. de C.V.
ISBN: 978-607-448-423-6 
ISBN: 978-607-448-424-3 versión electrónica
Miembro de la Cámara Nacional
de la Industria Editorial Mexicana, Reg. núm. 39
Todos los derechos reservados. Ninguna parte de
esta publicación puede ser reproducida, almacenada
en sistema alguno de tarjetas perforadas o transmitida
por otro medio —electrónico, mecánico, fotocopiador, 
registrador, etcétera— sin permiso previo por escrito
del titular de los derechos patrimoniales.
Director editorial y de producción: 
Dr. José Luis Morales Saavedra
Editora asociada: 
LCC Tania Uriza Gómez
Diseño de portada:
DP Karina Oropeza Heredia
Para mayor información en:
• Catálogo del producto
• Novedades
• Distribuciones y más
www.manualmoderno.com
Editorial El Manual Moderno, S.A. de C.V. , 
Av. Sonora núm. 206,
Col. Hipódromo,
Deleg. Cuauhtémoc,
06100 México, D.F. 
(52-55)52-65-11-00
info@manualmoderno.com
quejas@manualmoderno.com@
Nos interesa su opinión,
comuníquese con nosotros:
Celis de la Rosa, Alfredo de Jesús, autor
Bioestadística / Alfredo de Jesús Celis de la Rosa, Vanessa Labrada
Martagón. –- Tercera edición. -- México : Editorial El Manual Moderno, 
2014. 
xiv, 338 páginas : ilustraciones ; 28 cm. 
Incluye índice 
ISBN 978-607-448-423-6 
ISBN 978-607-448-424-3 (versión electrónica)
1. Biometría. 2. Biometría – Programas de computación. 3. Epide-
miología – Métodos estadísticos. 4. Estadística. 5. Ecuaciones dife-
renciales. I. Labrada Martagón, Vanessa, autor. II. Título. 
570.15195-scdd21 Biblioteca Nacional de México
 
IMPORTANTE
Los autores y editores de esta obra se han 
������� �	� 
��	���� 
�	�������� �	� �	� ��
������
por proporcionar información completa y en 
concordancia con los estándares aceptados a la 
fecha de la publicación. Sin embargo, en vista 
de la posibilidad de errores humanos o cambios 
�	� ���� 
��	
���� ����
���� 	�� ����	����	� ���� ���
contenido sea exacto o completo en todos los 
aspectos y no se hacen responsables de errores, 
omisiones o resultados obtenidos por el uso de la 
información proporcionada en esta publicación. 
Se invita a los lectores a corroborar con otras 
��	��������������
��	�
��	���
������	
����
��	�
����������	�����
V
μ
2
2
1= =
( )x
N
i
i
N
=
x
N
i
i
N
1
=
xi
i
N
1
 Contenido
Prefacio a la tercera edición ..................................................................................................................................... IX
Prefacio a la segunda edición ................................................................................................................................... XI
Prefacio a la primera edición .................................................................................................................................. XIII
SECCIÓN I: 
Características, recolección, revisión 
y cómputo de datos
Capítulo 1. Características de los datos ..................................................................................................................... 3
Capítulo 2. Recolección y revisión de datos .............................................................................................................. 7
Capítulo 3. Cómputo de datos ................................................................................................................................. 11
Capítulo 4. Introducción a los programas de cómputo ........................................................................................... 15
Capítulo 5. Introducción a los diseños de investigación epidemiológica .................................................................21
SECCIÓN II: 
Estadística descriptiva
Capítulo 6. Escala cualitativa ................................................................................................................................... 29
Capítulo 7. Escala cuantitativa ................................................................................................................................. 43
Capítulo 8. Presentación de los datos ..................................................................................................................... 51
Capítulo 9. Indicadores básicos de salud ................................................................................................................. 59
VI Bioestadística
SECCIÓN III: 
Estadística descriptiva
Capítulo 10. Muestreo ............................................................................................................................................. 63
Capítulo 11. Elementos de probabilidad para la inferencia estadística ...................................................................71
Capítulo 12. Distribuciones de probabilidad y distribuciones muestrales 
con variables cuantitativas .................................................................................................................. 79
Capítulo 13. Distribuciones de probabilidad y distribuciones muestrales 
con variables cualitativas .................................................................................................................... 89
Capítulo 14. Inferencia estadística........................................................................................................................... 95
SECCIÓN IV: 
Inferencia estadística para una variable dependiente 
y una independiente
Capítulo 15. Pruebas de hipótesis para una y dos variables cualitativas ...............................................................105Capítulo 16. Estimaciones de intervalo para una y dos variables cualitativas .......................................................119
Capítulo 17. Tamaño de muestra para variables dependientes cualitativas .........................................................129
Capítulo 18. Pruebas de hipótesis para una y dos variables cuantitativas ............................................................135
Capítulo 19. Intervalos de confianza para la estimación de medias ......................................................................147
Capítulo 20. Análisis de varianza ........................................................................................................................... 153
Capítulo 21. Tamaño de muestra para variables dependientes cuantitativas .......................................................159
Capítulo 22. Pruebas no paramétricas .................................................................................................................. 163
Capítulo 23. Regresión y correlación simple ......................................................................................................... 173
SECCIÓN V: 
Inferencia estadística para una variable dependiente 
y dos o más variables independientes
Capítulo 24. Regresión y correlación múltiple ....................................................................................................... 185
Capítulo 25. Análisis estratificado y regresión logística ......................................................................................... 209
Capítulo 26. Análisis de supervivencia .................................................................................................................. 231
Capítulo 27. Introducción a los modelos lineales generalizados ...........................................................................239
Respuestas a los ejercicios .................................................................................................................................... 255
VIIContenido
ANEXOS
Anexo A. Tabla de números aleatorios .................................................................................................................. 263
Anexo B. Áreas de la curva normal ........................................................................................................................ 265
Anexo C. Distribución binomial de probabilidad ................................................................................................... 267
Anexo D. Distribución de probabilidad de Poisson ................................................................................................ 295
Anexo E. Percentiles de distribución t ................................................................................................................... 303
Anexo F. Percentiles de distribución F ................................................................................................................... 307
Anexo G. Percentiles de distribución �2 ................................................................................................................ 323
Anexo H. Valores críticos para una prueba Mann-Whitney-Wilcoxon ...................................................................325
Anexo I. Valores críticos para una prueba de Kruskal-Wallis .................................................................................329
Anexo J. Valores críticos para una prueba Wilcoxon ............................................................................................. 331
Índice ..................................................................................................................................................................... 333
IX
μ
2
2
1= =
( )x
N
i
i
N
=
x
N
i
i
N
1
=
xi
i
N
1
 Prefacio a la 
tercera edición
Dicen que la tercera es la vencida, y ya llegamos. Pero no sin 
el apoyo de aquellos que han adquirido y recomendado las 
ediciones anteriores: a ellos, todo mi agradecimiento.
Para esta nueva edición hemos seguido la misma pro-
puesta de las anteriores: un libro de texto de Bioestadística, 
orientado principalmente a estudiantes de medicina, desde 
la perspectiva de la Salud Pública y la Epidemiología, pero 
que también puede ser utilizado por estudiantes de pregra-
do y posgrado de otras disciplinas del campo de la salud. Y 
digo “seguimos” porque con solo leer la pasta de este libro 
habrán notado que para esta edición la autoría de la misma 
la comparto con la Dra. Vanessa Labrada Martagón. Aclaro 
que ella no es la única adición: esta tercera edición incluye 
tres nuevos capítulos: consideramos importante que aquellos 
interesados en aplicar la bioestadística a sus investigaciones 
tengan (al menos) una “introducción a los diseños de inves-
tigación epidemiológica”; también consideramos de utilidad 
que se incluyera la definición de algunos “indicadores básicos 
de salud”; finalmente, creímos importante que los estudiosos 
de los fenómenos de la salud en la población conozcan algu-
nos enfoques relativamente novedosos, por lo que también 
incluimos una “introducción a los modelos lineales generali-
zados”. Estos no fueron los únicos cambios, ya que también 
agregamos el uso de “R” (que es un programa gratuito muy 
útil para el análisis estadístico), los conceptos de sensibilidad, 
especificidad, VPP y VPN (en el apartado de proporciones), 
y el Teorema de Bayes (en el capítulo de probabilidad); de-
jamos atrás Epi Info 6 y Epi Info 2000 para incluir Epi Info 7 y 
OpenEpi. No obstante, buscamos que el texto mantuviera la 
misma claridad y simplicidad en las explicaciones, y que los 
ejemplos pudieran conducir a los estudiantes sin demasiados 
obstáculos durante su estudio.
Finalmente, quiero expresar nuestro agradecimiento 
a todos los que han contribuido a la publicación de este 
libro. Y sin miedo a ser reiterativo, quiero mencionar a mis 
alumnos y exalumnos, que siguen enriqueciéndome con sus 
observaciones y comentarios, a los docentes e investigadores 
que siguen utilizando y recomendando esta obra, al equipo 
de Editorial El Manual Moderno (que para esta edición les 
costó más trabajo motivarme para concluirla), a Vanessa por 
aceptar mi invitación para incorporarse como coautora, y a 
mi familia (particularmente a María, Alfredo y Victoria) que 
siempre me han apoyado en cuanta locura se me ha ocurrido.
Sólo me resta agradecerles por el tiempo que le dediquen 
a estas líneas, esperando que sean de utilidad para Uds., con 
la promesa de que si no llega a convencerlos, la quinta edición 
(si no es que la siguiente) seguramente será muy buena, por 
aquello de que no hay “quinto malo”.
Dr. Alfredo de Jesús Celis de la Rosa
Este trabajo fue escrito durante la estancia posdoctoral de 
VLM en: Center for Stock Assessment Research, CSTAR, una 
colaboración entre University of California Santa Cruz y el 
Fisheries Ecology Division, Southwest Fisheries Science Center, 
NOAA Fisheries, Santa Cruz.
Dra. Vanessa Labrada Martagón
XI
μ
2
2
1= =
( )x
N
i
i
N
=
x
N
i
i
N
1
=
xi
i
N
1
 Prefacio a la 
segunda edición
La primera edición de este libro se gestó como un apunte 
que fui escribiendo como apoyo personal al primer curso de 
Bioestadística que impartí a los residentes de Salud Pública 
en el Instituto Mexicano del Seguro Social, y fue creciendo 
con los cursos que le siguieron en varias maestrías del Centro 
Universitario de Ciencias de la Salud en la Universidad de Gua-
dalajara. Durante esos primeros años de docencia, los apuntes 
llegaron a manos de mis alumnos, y cuando ellos me pidieron 
incluir ejemplos fue adquiriendo forma de libro. No confor-
mes con los ejemplos, algunos de ellos empezaron a criticar 
la redacción de algunas partes y a señalarme errores; así fue 
que atendiendo sus solicitudes y comentarios se completó el 
manuscrito de la primera edición. Por último, para verlo en 
los estantes de las librerías fueron necesarias las propuestas 
yel apoyo decidido de los editores de la Editorial El Manual 
Moderno, que empeñaron su prestigio en la publicación. 
La segunda edición ha tenido una historia semejante: 
Los capítulos y anexos que se agregaron, también empezaron 
como apuntes de clase, pasaron por las manos de mis alum-
nos, se enriquecieron con sus comentarios y nuevamente se 
incorporaron propuestas y apoyos del equipo editorial de 
la Editorial El Manual Moderno. Esta edición, al igual que la 
anterior, busca ser un texto de Bioestadística comprensible 
para alumnos de pregrado y posgrado en ciencias de la salud. 
A esta edición le hemos agregado cuatro capítulos (uno 
que trata acerca del tema de los cuestionarios, y tres de análi-
sis multivariado), dos anexos y un CD con los programas de Epi 
Info, y la base de datos con que se podrán repetir los ejemplos, 
así como los ejercicios que se describen en esta obra. 
Nos hemos decidido por incorporar el programa Epi Info 
por varios motivos, entre los que se destacan dos: el programa 
incluye la mayoría de los procedimientos estadísticos que se 
presentan en el libro y su distribución universal, y gratuita. 
Termino estas líneas expresando mi agradecimiento a 
los que me dieron la oportunidad de incorporarme como 
docente de Bioestadística, a los alumnos que me apoyaron 
con su asistencia, aliento y comentarios, a todo el personal 
de la Editorial El Manual Moderno que hizo posible su publi-
cación; a mi esposa e hijos por su apoyo continuo y por todo 
ese tiempo no compartido. A todos ellos les dedico esta obra. 
XIII
μ
2
2
1= =
( )x
N
i
i
N
=
x
N
i
i
N
1
=
xi
i
N
1
 Prefacio a la 
primera edición
La necesidad de contar se pierde en la historia de la hu-
manidad. Desde la perspectiva del Estado y sus propósitos 
militares o impositivos, nació con el objetivo de conocer los 
recursos que poseían los gobernantes. Quizá por ello, para la 
Edad Media la iglesia cristiana registraba los matrimonios, los 
nacimientos y las muertes. Pero no fue, sino hasta mediados 
del siglo XVII que John Graunt mostró su aplicación en el 
área de la salud, al estudiar la mortalidad de Londres. Por 
ello, a Graunt se le conoce como el padre de las estadísticas 
de salud. 
La estadística es una disciplina de las matemáticas aplica-
das que se dedica al manejo de los datos numéricos; es decir: 
es el método para recolectar, elaborar, analizar e interpretar 
datos numéricos. En el uso del lenguaje es necesario distinguir 
el concepto estadística del de estadísticas. El segundo, en 
plural, es sinónimo de datos numéricos. Así, por ejemplo, las 
estadísticas de mortalidad son las cantidades que se presentan 
en los tabulados de mortalidad. 
La estadística no es una ciencia, sino un método que 
enseña procedimientos lógicos de observación y análisis, los 
cuales es necesario tener en cuenta para aprovechar al máxi-
mo las experiencias de otros campos del conocimiento. En tal 
sentido, es un auxiliar irreemplazable del método científico y 
su importancia se hace notar. 
Este libro fue escrito pensando principalmente en es-
tudiantes de medicina. Sin embargo, también puede ser de 
mucha utilidad para estudiantes de cualquier otra área rela-
cionada con ciencias de la salud, para estudiantes de posgrado 
y para todos aquellos profesionales de la salud que requieran 
un libro de referencia sobre metodología estadística. Incluye 
20 capítulos en los que se explica de manera dinámica todo 
el proceso estadístico aplicado a la medicina. También se 
agregó un capítulo introductorio a los programas de cómpu-
to y otro sobre metaanálisis, el cual se ha convertido en un 
método estándar para el análisis de resultados en muchas 
áreas científicas.
©
 E
d
it
o
r
ia
l 
E
l 
m
a
n
u
a
l 
m
o
d
e
r
n
o
 
F
o
to
c
o
p
ia
r 
s
in
 a
u
to
ri
z
a
c
ió
n
 e
s
 u
n
 d
e
lit
o
. 
1
Sección I: 
Características, recolección, 
revisión y cómputo de datos
Capítulo 1. Características de los datos .....................................................................................................................3
Capítulo 2. Recolección y revisión de datos ..............................................................................................................7
Capítulo 3. Cómputo de datos .................................................................................................................................11
Capítulo 4. Introducción a los programas de cómputo ...........................................................................................15
Capítulo 5. Introducción a los diseños de investigación epidemiológica .................................................................21
©
 E
d
it
o
r
ia
l 
E
l 
m
a
n
u
a
l 
m
o
d
e
r
n
o
 
F
o
to
c
o
p
ia
r 
s
in
 a
u
to
ri
z
a
c
ió
n
 e
s
 u
n
 d
e
lit
o
. 
3
μ
2
2
1= =
( )x
N
i
i
N
=
x
N
i
i
N
1
=
xi
i
N
1
CARACTERÍSTICAS DE LOS DATOS
Los datos con los cuales se realizan los trabajos estadísticos 
varían entre individuos y se obtienen a partir de elementos 
que en conjunto conforman un universo.
Con frecuencia dato e información se utilizan como sinó-
nimos. Sin embargo, por información entendemos los datos 
procesados de manera significativa para el receptor, con valor 
real y perceptible para tomar decisiones presentes y futuras, 
los cuales se nos presentan en forma de indicadores. La infor-
mación así planteada se obtiene como resultado o producto 
del proceso que se muestra en la figura 1-1.
Los datos no son útiles o significativos como tales, sino 
hasta que son procesados y convertidos en información. De 
alguna manera, la información es el conocimiento derivado del 
análisis de los datos. Ésta es la diferencia básica entre datos e 
información. Hay que hacer notar que la información obtenida 
en un proceso puede servir como dato para otro proceso.
Universo
En estadística universo o población se definen como el con-
junto de valores por los cuales existe algún interés. El total del 
universo o población se representa con la letra mayúscula N.
Las poblaciones pueden definirse especificando una regla 
(o reglas). Éstas pueden ser: características de individuos, lími-
tes geográficos, grupos ya existentes, límites de tiempo, etc. 
Por ejemplo: residentes de Guadalajara, asistentes a un paseo 
escolar, derechohabientes del IMSS, enfermos de cólera.
Elementos del universo
Los elementos del universo pueden ser personas, lugares o 
cosas, ya sean individuos únicos o agrupados. Por ejemplo: los 
pacientes encamados son elementos que conforman parte del 
universo definido como hospital, pero también el personal, el 
mobiliario y los diversos servicios que en él se prestan pueden 
ser elementos del mismo conjunto. Para individualizarlo, cada 
elemento de la población se identifica con un número pro-
gresivo, que inicia en 1 y termina en N. Esta identificación de 
cada sujeto se representa como un subíndice y se le conoce 
como valor “i” o valor i-ésimo.
Variables
Normalmente, el interés del investigador se dirige a las ca-
racterísticas de los elementos que conforman el universo. A 
dichas características se les designa como variables. Ejemplos 
de variables pueden ser: talla, peso, sexo, temperatura corpo-
ral, condición social y escolaridad. Si el valor de la variable no 
puede predecirse con anticipación, se le denomina variable 
aleatoria y para representarla se utilizan letras mayúsculas 
(X, Y, Z). Así pues, la variable aleatoria “edad” se puede 
representar con la letra X y las variables aleatorias “sexo” y 
“escolaridad”, con Y y Z. Los valores individuales de una va-
riable aleatoria se representan con letras minúsculas (x, y, z) y 
un subíndice i-ésimo que identifica el elemento del conjunto 
que posee la característica.
Ejemplo explicativo 1–1
Un investigador está interesado en los valores de hemoglo-
bina en sangre de los trabajadores de un taller dedicado al 
mantenimiento de automóviles. Para ello, decide estudiar 
a todos los trabajadoresque laboran en el taller. Después 
de recabar los datos de interés, decide organizarlos de la 
manera que se presenta en el cuadro 1–1.
De acuerdo con los datos reportados, el universo se 
compone de cinco trabajadores; por tanto, N = 5. En el 
cuadro 1–1, el investigador representa la variable “sexo” 
con la letra X, la variable “edad en años cumplidos” con la 
letra Y, y la variable “hemoglobina en sangre” con la letra 
Datos
Datos
Datos
PROCESO Información
Figura 1-1. Generación de información a partir de datos.
1 Características de los datos
©
 E
d
it
o
r
ia
l 
E
l 
m
a
n
u
a
l 
m
o
d
e
r
n
o
 
F
o
to
c
o
p
ia
r 
s
in
 a
u
to
ri
z
a
c
ió
n
 e
s
 u
n
 d
e
lit
o
. 
4 Bioestadística
Z. Identifica a Miguel Domínguez con el valor i-ésimo 1, 
“sexo” x1 = masculino, “edad en años cumplidos” y1 = 45 y 
“hemoglobina en sangre (mg/dl)” z1 = 12. Para el caso de 
Domitila Hernández, los valores x2, y2, z2 son femenino, 23 
y 13, respectivamente. Lo mismo se hace con el resto de 
los trabajadores hasta completar todos los elementos que 
conforman el universo definido por el investigador.
Definición operativa
Todas las variables que se utilicen en cualquier trabajo de 
estadística han de ser definidas con claridad, de tal manera 
que se eviten confusiones, se facilite la búsqueda y análisis de 
los datos, y se garantice la comparabilidad de los resultados 
con los obtenidos en otros estudios previos o posteriores. Esto 
es particularmente importante cuando las variables pueden 
definirse de maneras diferentes.
Ejemplo explicativo 1–2
El sarampión es una enfermedad viral caracterizada por 
síntomas prodrómicos (fiebre, conjuntivitis, coriza, tos y 
manchas de Koplik en la mucosa bucal) que del tercer al 
séptimo días presenta en cara erupción exantemática que 
se generaliza al resto del cuerpo y desaparece de 4 a 7 días 
después. Durante el periodo de incubación, enfermedad 
y convalecencia, se presentan modificaciones inmunes 
características del proceso morboso. El término “enfermo 
de sarampión” puede definirse operativamente de diversas 
maneras, entre las que se pueden encontrar las siguientes:
• Pacientes con manchas de Koplik en mucosa bucal.
• Pacientes con exantema maculopapular de tres o más 
días de duración, fiebre y cualquiera de las tres siguien-
tes: tos, coriza o conjuntivitis.
• Pacientes con IgM específica para virus del sarampión.
La selección de una de éstas como definición operativa de 
sarampión tiene implicaciones importantes en el desarrollo 
de la investigación. El equipo de trabajo tendrá que utilizar 
una de ellas, u otra que se adapte a sus necesidades, y preci-
sarla de tal manera que quienes conozcan su trabajo sepan 
a qué se refiere con el término “enfermo de sarampión”.
Una vez que la variable ha sido definida operativamente, se 
debe especificar la escala de valores que se utilizará para cla-
sificar los elementos en estudio. Cuando se trata de variables 
cuantitativas la decisión suele ser sencilla, pero no cuando la 
variable es cualitativa o cuando una variable cuantitativa se 
presenta agrupada. En cualquier caso, se espera que la escala 
de la variable permita clasificar a todos los elementos, sin 
excepción, y que cada elemento sea contado sólo una vez en 
relación con esa variable: en otras palabras, la escala ha de 
ser exhaustiva y excluyente.
Tipos de variables
Las variables se pueden clasificar en cualitativas y cuantitati-
vas. Cuando sus características se expresan como categorías 
se dice que se trata de variables cualitativas, mientras que 
cuando se expresan como valores se les identifica como va-
riables cuantitativas.
1. Las variables cualitativas proporcionan datos nominales 
(en los que se tiene, o no se tiene, la característica de 
interés) y datos ordinales (en los que la característica es 
graduable).
a) Una variable nominal es aquélla cuya característica se 
define por un nombre y no implica ser más o menos 
que la característica definida por un nombre diferente. 
Por ejemplo, “sexo” es una variable nominal, ya que 
ser “masculino” no significa ser más o menos que 
“femenino”; la ocupación también es una variable 
nominal, ya que ser “ingeniero” o “abogado” no sig-
nifica ser más o menos que “médico”. Aquellas varia-
bles nominales que se conforman de dos categorías 
(nacional, extranjero; con diarrea, sin diarrea, etc.) se 
designan como dicotómicas.
b) Las variables ordinales son aquéllas cuyas caracterís-
ticas pueden recibir algún orden subjetivo. Su carac-
terística principal es que, al ser clasificadas de alguna 
manera, se puede asumir que se es más o menos que 
las otras, aunque se desconozca qué tanto más o qué 
tanto menos. En relación con el dolor, por ejemplo, el 
paciente puede decir que le duele “poco” o “mucho” 
y quien lo interroga puede asumir con seguridad que 
“mucho” significa más dolor que “poco”, aunque no se 
podría saber qué tanto es “mucho” ni qué “distancia” 
existe entre “poco” y “mucho”. Aun se podría asignar-
Cuadro 1-1. Algunas características de trabajadores que laboran en un taller de automóviles
Nombre del trabajador Número progresivo 
que identifica al 
trabajador
Sexo Edad en años 
cumplidos
Hemoglobina en 
sangre (mg/dL)
i X Y Z
Miguel Domínguez 1 Masculino 45 12
Domitila Hernández 2 Femenino 23 13
Manuel Benítez 3 Masculino 32 11
Jesús Ortiz 4 Masculino 18 15
Sergio Martínez 5 Masculino 21 14
©
 E
d
it
o
r
ia
l 
E
l 
m
a
n
u
a
l 
m
o
d
e
r
n
o
 
F
o
to
c
o
p
ia
r 
s
in
 a
u
to
ri
z
a
c
ió
n
 e
s
 u
n
 d
e
lit
o
. 
5Características de los datos
le una graduación subjetiva más detallada y no por 
eso dejaría de ser ordinal. Tal es el caso cuando se le 
pide al paciente que ubique, entre el “0” y el “100”, 
qué tanto dolor siente. En este caso, al igual que al 
clasificarlo como “mucho” o “poco”, se le asigna un 
orden en el cual “25” significa más que “15” y menos 
que “35”, pero se desconoce qué tan grande es la 
distancia entre “15” y “25” y no se puede asumir que 
sea la misma que existe entre “25” y “35”, ni que el 
“15” en una persona corresponda al “15” en otra. Las 
variables ordinales, al igual que las nominales, también 
pueden dicotomizarse sin que cambie su escala de 
medición. Por ejemplo, al definir el comportamiento 
como “bueno” o “malo” se divide la variable en dos 
categorías, en las cuales “bueno” representa algo más 
deseable (o indeseable) que “malo”.
2. Las variables cuantitativas también permiten diferenciar 
entre los individuos, pero además señalan cuán gran-
des son las diferencias observadas. Las observaciones 
cuantitativas brindan datos discretos (en los que sólo se 
admiten valores individuales en números enteros) y datos 
continuos (en los cuales es posible un número infinito de 
fracciones entre dos puntos de la escala).
a) Se definen como variables discretas aquéllas cuyos 
valores en la escala están separados entre sí por una 
cantidad determinada, por ejemplo, el número de 
consultas otorgadas por médico en un día o el conteo 
de linfocitos en sangre. A diferencia de las variables 
ordinales, la “distancia” absoluta entre 5 y 7 consultas 
es la misma que entre 105 y 107 consultas, y también 
se puede saber qué tantas más son 100 consultas en 
relación con 10 consultas. Un rasgo distintivo de estas 
variables es que la unidad no puede fraccionarse, por-
que pierde su naturaleza. Así, si se parte por la mitad 
un paciente, éste deja de serlo para convertirse en dos 
mitades de cadáver.
b) Las variables continuas son aquéllas en las cuales la 
escala de medición se puede dividir en una cantidad 
infinita de valores entre dos puntos cualquiera. Entre 
éstas se encuentran las medidas de longitud, peso, 
tiempo y volumen. Por ejemplo: entre 0 y 100 metros 
existe un número infinito de valores que pueden carac-
terizar al elemento en estudio, pero también es infinito 
el número de valores que se encuentran entre 0 y 10 
metros o entre 0 y 10 centímetros. Al igual que con las 
variables discretas, la “distancia”absoluta entre dos 
puntos se mantiene a lo largo de la escala. Algunas 
variables parecen no respetar la última característica; 
tal es el caso de las titulaciones que se reportan como 
1:1, 1:2, 1:4, 1:8, etc. Sin embargo, mediante una 
transformación matemática (logarítmica para el caso) 
se puede observar que sí se apegan a las características 
señaladas para las variables continuas.
Las variables cuantitativas también pueden clasificarse según 
tengan o no en su escala un valor de cero absoluto en variables 
de intervalo (no tienen cero absoluto) y variables de razón 
(sí lo tienen). Por ejemplo, la temperatura medida en grados 
centígrados tiene un valor de 0° C, pero éste es arbitrario y no 
es un valor absoluto porque existen otros valores por debajo 
de esa temperatura. La edad en años cumplidos, por otra 
parte, sí tiene un valor de 0 absoluto, porque nadie llega a 
tener menos de cero años de edad. La temperatura en grados 
Kelvin también tiene una escala de razón, porque no existe 
una temperatura por debajo de 0° Kelvin. La distinción de 
estas dos escalas resulta importante para la interpretación de 
una razón. Por ejemplo: supongamos un niño que pesaba 50 
kg y ahora tiene 60 kg. Podemos decir correctamente que el 
aumento del peso fue de 20%. Por otra parte, si un líquido que 
tenía una temperatura de 50° C llega a los 60° C no podremos 
afirmar lo mismo, porque la escala de temperatura en grados 
Celsius no tiene un cero absoluto.
Ejemplo explicativo 1–3
Una investigadora estaba interesada en identificar algunas 
condiciones de la madre que pudieran relacionarse con el 
bajo peso de los niños al nacer. Para ello, decidió estudiar 
las variables que se muestran en el cuadro 1–2, en el cual 
las variables se clasifican según su escala de medición. 
Regularmente, la clasificación de las variables es una tarea 
sencilla, pero en ocasiones genera algunas dificultades meno-
res. Por ejemplo, el tiempo es una variable continua porque 
entre un instante y otro cualquiera existe una cantidad infinita 
de divisiones, pero la edad (al menos como frecuentemente 
se registra) es una variable discreta: un niño que cumple 10 
años sigue reportando la misma edad durante todo el año 
hasta su siguiente cumpleaños, fecha a partir de la cual em-
pezará a decir que tiene 11 años. Por otra parte, el número de 
moléculas de glucosa (o de cualquier otra sustancia) es una 
variable discreta, porque al dividirse la molécula deja de ser 
glucosa, pero la concentración de glucosa en sangre es una 
variable continua, porque la dilución (mg/dl) está medida en 
una escala que tiene un número infinito de divisiones.
Cuadro 1-2. Algunas características de mujeres durante el 
embarazo
Variable Escala 
de medición
· Edad de la madre (en años cumplidos) Discreta, de razón
· Talla de la madre (en centímetros) Continua, de razón
· Estado civil (soltera, casada, unión libre, 
otro)
Nominal
· Escolaridad (menos de primaria, primaria, 
secundaria, preparatoria o más)
Ordinal
· Temperatura (en grados Celsius) Continua, de inter-
valo
· Ocupación durante el embarazo (según la 
Clasificación Mexicana de Ocupaciones)
Nominal
· Exposición al humo de tabaco durante el 
embarazo (no, fumadora pasiva, fumado-
ra activa)
Ordinal
· Hemoglobina en sangre (mg/dl) en la 
primera consulta prenatal
Continua, de razón
· Número de consultas prenatales antes 
del tercer trimestre del embarazo
Discreta, de razón
©
 E
d
it
o
r
ia
l 
E
l 
m
a
n
u
a
l 
m
o
d
e
r
n
o
 
F
o
to
c
o
p
ia
r 
s
in
 a
u
to
ri
z
a
c
ió
n
 e
s
 u
n
 d
e
lit
o
. 
6 Bioestadística
Ejercicios
REFERENCIAS
Camel, F. (1991). Estadística Médica y Planificación de la Salud (Vol. 
1, 1a. ed.). Mérida, Venezuela: Universidad de los Andes.
Nunnally, J. C., & Bernstein, I. (1997). Psychometric Theory (3a. ed.). 
EUA: McGraw-Hill.
1. En las variables que se presentan a continuación,
indique de qué tipo de variable se trata mediante las
siguientes abreviaturas: N para una variable cualitativa 
nominal, O para una variable cualitativa ordinal, D para 
una variable cuantitativa discreta y C para una variable
cuantitativa continua.
Variable
1. Concentración de triglicéridos en sangre (mg/dl) ( )
2. Diabetes (sí, no) ( )
3. Colesterol total (mg/dl) ( )
4. Creatinina (�mol/L) ( )
5. Número de cigarrillos fumados el día anterior ( )
6. Índice de masa corporal (peso/talla2) ( )
7. Número de consultorios en la clínica ( )
8. Presión arterial diastólica (mm Hg) ( )
9. Intensidad del dolor (escala de 0 a 10) ( )
10. Opinión del servicio (bueno, regular, malo) ( )
11. Edad en años cumplidos ( )
12. Uso de drogas antihipertensivas (sí, no) ( )
13. Presencia de cefalea (sí, no) ( )
14. Sexo (masculino, femenino) ( )
15. Porcentaje de grasa corporal ( )
16. Depósito de agua (aljibe, balde, alberca, tina, otro) ( )
2. Observe el cuadro que se le presenta a continuación.
Los datos que contiene se refieren a las características
de seis pacientes.
Identificación 
(número 
progresivo)
Índice de 
masa 
corporal 
(IMC)
Colesterol 
HDL
Glucosa 
en 
sangre
Fuma-
dor
1 24 52 110 sí
2 27 50 95 no
3 25 57 103 no
4 27 48 115 sí
5 26 49 100 no
6 29 56 120 no
Primero identifique la variable IMC con la letra W, la variable 
Colesterol-HDL con la letra X, la variable glucosa en sangre 
con la letra Y, y la variable Fumador con la letra Z. Luego 
escriba cuáles son los valores individuales que representan 
las siguientes referencias:
Referencia Valor Referencia Valor
w1 ( ) y3 ( )
w2 ( ) y4 ( )
w3 ( ) y5 ( )
x2 ( ) z4 ( )
x3 ( ) z5 ( )
x4 ( ) z6 ( )
©
 E
d
it
o
r
ia
l 
E
l 
m
a
n
u
a
l 
m
o
d
e
r
n
o
 
F
o
to
c
o
p
ia
r 
s
in
 a
u
to
ri
z
a
c
ió
n
 e
s
 u
n
 d
e
lit
o
. 
7
μ
2
2
1= =
( )x
N
i
i
N
=
x
N
i
i
N
1
=
xi
i
N
1
RECOLECCIÓN DE DATOS
Idealmente, los datos que el investigador registra se obtie-
nen directamente de los elementos en estudio mediante la 
observación (observación directa, medición física, medición 
química) o el interrogatorio (entrevistas personales, cuestio-
narios autoadministrados, diarios). Cuando éste es el caso, se 
dice que los datos proceden de fuente primaria. Los datos de 
fuente secundaria son los que se toman de registros previos, 
generalmente elaborados con propósitos diferentes a los de 
nuestra investigación. Su utilidad para el análisis dependerá 
de la calidad de la información y de su accesibilidad admi-
nistrativa. 
Los datos que proceden de una fuente primaria tienen 
que ser registrados por el investigador. Ocasionalmente, los 
datos de fuente secundaria están disponibles en archivos de 
cómputo y se capturaron de tal manera que están listos para 
su tabulación, pero lo más frecuente es que el investigador 
también tenga que buscarlos y registrarlos. En ambos casos, lo 
más común es que el investigador deba registrarlos en alguna 
forma especialmente diseñada para este objetivo: una forma 
de registro de datos.
Forma de registro de datos
Las formas de registro de datos se tratan con mayor profun-
didad en los textos dedicados a la medición de la exposición 
(Armstrong et al., 1992), de la salud (McDowell y Newell, 
1996) o a la elaboración de cuestionarios (Fink, 1995). En 
este capítulo solamente presentamos algunos aspectos que 
se deben considerar al elaborarlas.
Antes de empezar a diseñar un instrumento, es necesario 
que el investigador enumere todas las variables de interés. En 
cada una de ellas se deberán definir tres aspectos:
• Su naturaleza, que debe ser específica (que distinga la va-
riable de interés de posibles confusores) y sensitiva (que 
incluya todas las maneras en que el sujeto se encuentra 
con la variable de interés).
• La dosis, en sus diferentes expresiones: dosis acumulada, 
tasa de exposición, exposición promedio, dosis pico.
• El tiempo, o periodo relevante en que se presentó la 
característica de interés.
Estos tres aspectos de las variables deberán ser interpretados 
por el investigador y traducidosen preguntas, que en conjunto 
integrarán la forma de registro de datos. Para algunas variables 
estas definiciones son muy sencillas y generalmente pueden 
ser exploradas con una pregunta (sexo, edad en años cum-
plidos) o medir directamente en el sujeto en estudio (talla, 
peso, presión arterial). Otras son engañosamente sencillas, 
como el alcoholismo, la escolaridad o la ocupación. En algunos 
casos, el proceso puede ser muy complejo y la medición se 
tiene que realizar de manera indirecta por medio de varias 
preguntas cuyas respuestas se resumen en un índice. A este 
grupo pertenecen las mediciones de la calidad de vida, el 
estrés, la depresión y la inteligencia.
Al pensar en la forma de registro, es necesario considerar 
las siguientes alternativas:
1) Utilizar uno ya existente. Esta debería ser nuestra primera 
opción. Al hacerlo ahorramos tiempo y recursos; ade-
más, la comparación de nuestros resultados con los de 
otros estudios puede ser más sencilla cuando en ambos 
trabajos se utilizó el mismo instrumento. Sin embargo, 
es necesario tener cuidado porque un instrumento uti-
lizado previamente no necesariamente es el mejor para 
una nueva investigación, aunque ya estuviera probado y 
validado.
2) Adaptar uno ya existente. Esta es una opción muy útil 
cuando ya existe un instrumento previo, pero tiene al-
guno de los siguientes inconvenientes:
• El instrumento es muy extenso para el estudio. Puede 
ser que el instrumento original se haya diseñado para 
una entrevista, pero se desea utilizar en un cuestiona-
rio autocontestado, o que el tiempo en que se contesta 
excede el tiempo que se dispone para captar los datos.
• La población es diferente. Un instrumento desarro-
llado para un grupo de población urbana puede no 
ser adecuado para una población rural, sobre todo 
si los niveles de escolaridad o el uso del lenguaje son 
diferentes.
• El instrumento está escrito en otra lengua. En estos 
casos, el instrumento deberá ser traducido.
2 Recolección y revisión de datos
©
 E
d
it
o
r
ia
l 
E
l 
m
a
n
u
a
l 
m
o
d
e
r
n
o
 
F
o
to
c
o
p
ia
r 
s
in
 a
u
to
ri
z
a
c
ió
n
 e
s
 u
n
 d
e
lit
o
. 
8 Bioestadística
• Es necesario extender, reordenar o realizar otros cam-
bios en la manera en que los datos se colectan. Esto 
es necesario cuando el investigador considera que al 
instrumento se le deben agregar más preguntas, cuan-
do el orden de éstas debe ser cambiado o cuando el 
instrumento original fue diseñado para una entrevista 
y las preguntas se aplicarán por medio de un equipo 
de cómputo.
3) Desarrollar un instrumento propio. Muchos investigado-
res lo hacen, pero no es un trabajo sencillo que pueda 
realizarse en poco tiempo. Con frecuencia el desarrollo 
de un nuevo instrumento toma tiempo y requiere habi-
lidades que no todos los investigadores dominan.
Sin importar que adoptemos un instrumento ya existente, que 
lo adaptemos o que desarrollemos uno propio, en términos 
generales el instrumento que utilicemos estará compuesto 
por preguntas y respuestas. De alguna manera, la forma en 
que queramos registrar la respuesta determinará el tipo de 
pregunta.
Las preguntas
La selección y el fraseo de las preguntas están determina-
dos por el contexto de la investigación, por lo que es muy 
importante tener claridad en los diferentes componentes 
de este contexto antes de decidir qué forma de registro de 
datos utilizar. El contexto de la investigación que determina 
el instrumento incluye los siguientes aspectos:
• Identificar el objetivo general y los específicos de la in-
vestigación.
• Definir con claridad las variables en estudio.
• Recordar que las preguntas se realizan en un contexto 
social, cultural y económico.
• Conocer a los encuestados, es decir, quién responde.
• Identificar a los encuestadores, es decir, quién pregunta.
• Estandarizar las preguntas, es decir, cómo se pregunta.
• Estandarizar el formato de las respuestas, es decir, cómo 
se responde.
• Conciliar lo que se quiere preguntar con el tiempo que 
se dispone para hacerlo.
Al momento de redactar y seleccionar las preguntas, es útil 
tomar en cuenta las siguientes recomendaciones:
• Realizar preguntas útiles, relacionadas con la investiga-
ción que se pretende realizar.
• Hacer preguntas concretas utilizando un lenguaje con-
vencional.
• Utilizar oraciones completas. En español, la sintaxis 
de la oración tiene la siguiente estructura: primero va 
el sujeto, luego un verbo conjugado y termina con un 
complemento (Cohen, 2010).
• Utilizar un lenguaje fácil de comprender para los 
entrevistados o para quien llene el instrumento. Para 
ello, conviene no utilizar abreviaturas, expresiones 
coloquiales o en jerga o expresiones técnicas.
• Utilizar periodos de tiempo pertinentes a la importancia 
de la pregunta.
• Preguntas y respuestas cortas cuando se quiera 
ahorrar tiempo, pero sin sacrificar su claridad.
• En caso de temas sensibles al entrevistado, se pueden 
utilizar preguntas cargadas. Por ejemplo, si existe in-
terés en preguntar sobre consumo de drogas ilegales, 
podríamos redactar una pregunta en los siguientes 
términos: “Algunas personas, por experimentar, han 
probado la mariguana. ¿Usted ha probado la marigua-
na en alguna oportunidad de su vida?”. Al plantear la 
pregunta de esta manera, facilitamos que los entrevis-
tados la contesten, pero es necesario tener cuidado, 
porque la redacción puede ser tan compleja que llega 
a dificultar su interpretación por el entrevistado.
• Evitar frases y palabras sesgadas. Éstas son las que 
orientan la respuesta. Por ejemplo, la pregunta “¿Verdad 
que usted quiere a sus hijos?” anticipa la respuesta que 
queremos escuchar.
• Evitar preguntas con dos respuestas.
• Evitar preguntas en negativo.
• Hacer que las preguntas sean revisadas por expertos y 
por respondientes potenciales.
• Las preguntas son precisas y sin ambigüedades cuan-
do dos o más personas entrevistadas potenciales 
están de acuerdo con las palabras usadas para con-
testarla.
• Recordar que se pueden adoptar o adaptar preguntas 
que ya han sido utilizadas satisfactoriamente por otros 
investigadores.
El objetivo al seleccionar, modificar o diseñar una forma de 
registro de datos será obtener una medida que sea la mínima 
necesaria para cumplir con los objetivos de la investigación, 
y que el instrumento reúna los tres requisitos siguientes: 
confiabilidad, validez y objetividad.
• La confiabilidad se refiere a la consistencia en los resul-
tados. Es decir, que cada vez que se mida lo mismo se 
obtenga el mismo resultado. Por ejemplo, si nos pesamos 
en una báscula y registramos 70 kg, nos bajamos de la 
misma y luego nos pesamos nuevamente, esperamos que 
la segunda lectura sea igual (o muy cercana) a 70 kg. Si 
éste es el caso, hablamos de una lectura confiable. En 
caso contrario (que la segunda lectura sea, por ejemplo, 
de 80 kg), las lecturas no son confiables.
• La validez se refiere a que el instrumento realmente 
mida la variable que se quiere medir. Por ejemplo, si 
queremos medir la grasa corporal de una persona, ten-
dríamos varias opciones: podríamos pesarla (sabemos 
que a mayor grasa corporal mayor peso corporal, pero 
también la masa muscular aumenta el peso, por lo que 
el peso total no sería la mejor opción), calcular el índice 
de masa corporal (peso/talla2), medir pliegues cutáneos 
o medir la impedancia. El último tendría mayor validez 
que los anteriores.
• La objetividad se refiere al grado potencial en que los 
resultados pueden ser influidos o sesgados por el inves-
tigador o quien registra el dato.
©
 E
d
it
o
r
ia
l 
E
l 
m
a
n
u
a
l 
m
o
d
e
r
n
o
 
F
o
to
c
o
p
ia
r 
s
in
 a
u
to
ri
z
a
c
ió
n
 e
s
 u
n
 d
e
lit
o
. 
9Recolección y revisión de los datos
Las respuestas
Las respuestas se clasifican en cerradas o abiertas según sea 
la forma en que las registramos. En el caso de las respuestas 
cerradas, el que llena la forma de registro de datos selecciona 
una o varias opciones entre una lista limitadade respuestas 
posibles. En las respuestas abiertas, estas opciones predefi-
nidas no existen, por lo que quien responde deberá utilizar 
sus propias palabras.
Respuestas cerradas. Entre las respuestas cerradas po-
demos encontrar varios modelos; las más frecuentes pueden 
clasificarse en dicotómicas, múltiples nominales y múltiples 
ordinales.
• Las respuestas dicotómicas presuponen sólo dos opciones 
posibles. Las más frecuentes en esta categoría son SÍ o
NO. Por ejemplo:
¿Ha tenido usted tres o más evacuaciones líquidas en 
las últimas 24 horas?
No
Sí
• Las respuestas múltiples nominales presuponen más de
dos opciones posibles, sin que exista entre ellas una rela-
ción de orden, por lo que la secuencia en que se anotan
generalmente no tiene tanto impacto en la respuesta. Sin 
embargo, no es raro que algunas opciones tengan que
situarse después de otras, como es el caso de la opción
“otro”. Por ejemplo:
Ayer que regresó del trabajo a su casa, ¿qué medio 
de transporte utilizó?
Automóvil o camioneta
Autobús o minibús
Motocicleta
Otro vehículo de motor
Bicicleta
Otro vehículo
Ninguno de los anteriores, sólo caminé
• Las respuestas múltiples ordinales presuponen varias
opciones posibles que mantienen una relación de orden 
entre ellas. Por ejemplo:
¿Qué tan de acuerdo o en desacuerdo está usted con 
el siguiente enunciado?: Los accidentes son causados 
por el destino.
Completamente de acuerdo
Casi de acuerdo
No sabe
Casi en desacuerdo
Completamente en desacuerdo
Al considerar el uso de esta opción, es necesario tomar en 
cuenta las siguientes consideraciones:
a) Utilizar escalas que tengan sentido con los objetivos.
b) Considerar cinco tipos de respuestas:
• Aprobación: Definitivamente cierto, cierto, no sé, falso, 
definitivamente falso.
• Frecuencia: Siempre, frecuentemente, regularmente, 
algunas veces, casi nunca, nunca.
• Intensidad: Nada, muy poco, regular, moderado, se-
vero.
• Influencia: Gran problema, problema regular, proble-
ma pequeño, casi sin problema, sin problema.
• Comparación: Mucho más que los otros, poco más que 
los otros, aproximadamente igual que los otros, algo
menos que los otros, mucho menos que los otros.
c) Balancear las respuestas.
d) Usar escalas de 5 o 7 categorías.
e) Poner las categorías negativas al principio de la escala.
f) Mantener las escalas en la misma página y fáciles de
completar.
g) Usar escalas sólo cuando los encuestados pueden ver o
recordar con facilidad todas las opciones.
Para el caso de cualquiera de los tres modelos de respuestas 
anteriores (dicotómicas, múltiples nominales, múltiples or-
dinales), siempre es necesario considerar la opción “otra”. Es 
preciso tener cuidado, porque no es raro que la opción “otra” 
resulte la respuesta más frecuente. Por otra parte, también 
es necesario tomar en cuenta las respuestas “no sé”, “sin 
datos”, “no aplica” o “no quiso contestar” que llegan a ser 
importantes durante el análisis aunque no sean categorías 
de la variable en estudio.
Respuestas abiertas. Con frecuencia se afirma que las res-
puestas abiertas no son adecuadas para el análisis estadístico, 
pero esto no es cierto para el caso de las variables cuantitativas 
que deben registrarse mediante respuestas abiertas, ni para 
algunas respuestas que cuentan con sistemas de codificación 
ya establecidos.
• En el caso de las variables cuantitativas, la mejor opción
es la respuesta abierta. De esta manera, el investigador,
o quien responde, podrá registrar el número que corres-
ponda a la pregunta. Por ejemplo:
¿Cuál es su edad en años cumplidos?
Antes de que tuviéramos las facilidades de cómputo 
que nos brindan los ordenadores, las tabulaciones tenían 
que hacerse manualmente y se acostumbraba agrupar 
las posibles respuestas numéricas. Así, para la edad las 
opciones de respuesta podrían haber sido las siguientes: 
menores de 1 año, 1 a 4 años, 5 a 9 años, 10 a 14 años. 
Pero desde que tenemos acceso a computadoras y pa-
quetes estadísticos, lo mejor es registrar el dato como tal 
para después agruparlo durante el análisis, si es que así 
lo queremos presentar.
• Hay un grupo de variables que ya han sido codificadas
con anticipación, para las que incluso existen acuerdos
internacionales. Tal es el caso para la codificación de las
enfermedades que está normada por la Clasificación
Internacional de Enfermedades, actualmente en su
décima revisión. En este tipo de respuestas también se
incluyen la descripción de los eventos en que los sujetos 
resultan lesionados por causa externa, las intervenciones 
quirúrgicas y las ocupaciones laborales. Al registrar estas 
variables, no es raro que sea necesario contestar a dos
©
 E
d
it
o
r
ia
l 
E
l 
m
a
n
u
a
l 
m
o
d
e
r
n
o
 
F
o
to
c
o
p
ia
r 
s
in
 a
u
to
ri
z
a
c
ió
n
 e
s
 u
n
 d
e
lit
o
. 
10 Bioestadística
o más preguntas, como en el caso de la ocupación. Por 
ejemplo:
En su trabajo usted es (sólo seleccione una)
Empleado, obrero, jornalero o peón
Trabaja por su cuenta
Patrón o empresario
¿A qué se dedica el negocio, empresa o institución 
donde trabaja?
¿Cuál es el oficio, puesto o cargo que tiene en el 
trabajo?
¿Cuáles son las funciones o tareas que hace en el 
trabajo?
Tomando en cuenta las respuestas anteriores, y con el 
auxilio del catálogo de ocupaciones que esté utilizando, 
se podrán asignar códigos específicos a las diferentes 
ocupaciones laborales de los sujetos que se estudien.
• Por último, y desde una perspectiva cuantitativa, las 
respuestas abiertas deben evitarse cuando no existan 
criterios claros de codificación, porque consumen mucho 
tiempo durante el llenado del instrumento, su manejo 
posterior es muy complejo y generalmente no son ade-
cuadas para el tratamiento estadístico.
Revisión y corrección 
de datos recogidos
Después de que los datos han sido captados en los formatos 
diseñados para este fin, será necesario revisarlos con cuidado 
con la intención de identificar si están completos y se han lle-
nado de manera correcta. Esta revisión deberá realizarse, de 
preferencia, el mismo día en que los datos fueron recogidos. 
De otra manera, podría ser muy difícil, o imposible, hacer las 
correcciones pertinentes.
Cuando los datos son registrados en un archivo de cómpu-
to, es necesario que la revisión y corrección de datos incluya 
los que están guardados en estos medios de almacenamiento. 
Este tema se trata con mayor amplitud en el capítulo 4.
REFERENCIAS
Fink, A. (1995). The survey kit (Vol. 2, How to ask survey questions). 
Thousand Oaks, California: Sage.
McDowell, I., & Newell, C. (1996). Measuring Health: a guide to 
rating scales and questionnaires (2a. ed.). New York: Oxford 
University Press.
Armstrong, B. K., White, E., & Saracci, R. (1992). Principles of Exposure 
Measurement in Epidemiology. Oxford: Oxford University Press.
Cohen, S. (2010). Redacción sin dolor (5a. ed.). México: Planeta.
©
 E
d
it
o
r
ia
l 
E
l 
m
a
n
u
a
l 
m
o
d
e
r
n
o
 
F
o
to
c
o
p
ia
r 
s
in
 a
u
to
ri
z
a
c
ió
n
 e
s
 u
n
 d
e
lit
o
. 
11
μ
2
2
1= =
( )x
N
i
i
N
=
x
N
i
i
N
1
=
xi
i
N
1
El cómputo de datos incluye dos operaciones básicas: en el 
caso de las variables cualitativas, se cuenta cuántos elementos 
del universo tienen una o varias características en común; en 
el de las cuantitativas, se suman los valores de esas caracte-
rísticas y, en ocasiones, se clasifican o relacionan con otras 
variables cualitativas o cuantitativas.
Hay varios procedimientos de computación y la selección 
de uno en particular depende de varios aspectos, entre los que 
destacan: el número de individuos en la población o muestra, 
la complejidad del análisis y los recursos económicos de que 
se dispone. Entre los que se usan con mayor frecuencia se 
encuentran:
• Listas
• Palotes
• Tarjetas simples
• Tarjetas con perforaciones marginales
• Computadoras
Listas
La información se registra en hojas de cálculo (por lo gene-
ral, con rayado de columnas y renglones), como se hace con 
frecuenciaen trabajos de contabilidad. Los datos correspon-
dientes a cada elemento del universo estudiado se anotan en 
un renglón, tal como se muestra en el cuadro 3–1.
El conteo se limita a calcular sumatorias de las variables 
cuantitativas o frecuencias de categorías en las variables 
cualitativas. Mientras se tabulan los conteos, se registran en 
la memoria hasta que se termina con una columna. Dada la 
capacidad reducida de la memoria, este procedimiento de 
conteo sólo es útil cuando la cantidad de información se limita 
a unos cuantos registros (alrededor de 50). Aunque con una 
lista se podría clasificar los elementos por dos variables a la 
vez, sería muy difícil hacerlo por tres o más variables.
Palotes
Cuando la información contenida en las listas es muy nume-
rosa y su cómputo se dificulta mediante el procedimiento 
anterior, entonces se puede utilizar el método de los palotes 
para su contabilidad. Para ello, primero se elabora una tabla 
de vaciado de información semejante a la que se muestra 
en la figura 3–1. En ésta se encuentran renglones (variable 
“grupo de edad”) y columnas (variable “sexo”) que al unirse 
forman las celdas en que se registrará un “palote” (|) por cada 
individuo que reúna las dos características que correspondan 
a la celda definida por la columna y el renglón. Para facilitar 
el conteo final, es convencional que el quinto palote sea una 
línea que atraviese a los cuatro anteriores, de modo que cada 
grupo represente cinco observaciones.
Este método, que aún se utiliza, presenta muchas des-
ventajas: a) aunque permite tabular un número de datos 
mayor que las listas, es difícil utilizarlo cuando hay más de 100 
elementos; b) si existe alguna distracción durante el conteo, 
Cuadro 3-1. Lista de algunas características de los elemen-
tos de un universo a estudiar
i X Y Z
1 Masculino 45 12
2 Femenino 23 13
3 Masculino 32 11
4 Masculino 18 15
5 Masculino 21 14
3 Cómputo de datos
Sexo Masculino Femenino
Grupo
de edad
14 a 19 años
20 a 24 años
25 a 29 años
30 a 34 años
Figura 3-1. Formato de concentración de datos para uso 
de “palotes”.
©
 E
d
it
o
r
ia
l 
E
l 
m
a
n
u
a
l 
m
o
d
e
r
n
o
 
F
o
to
c
o
p
ia
r 
s
in
 a
u
to
ri
z
a
c
ió
n
 e
s
 u
n
 d
e
lit
o
. 
12 Bioestadística
es fácil olvidar si el elemento que se está señalando ha sido 
o no contado, por lo que con frecuencia se cometen errores 
que son difíciles de corregir; c) el número de clasificaciones 
simultáneas que se puede realizar es limitado (difícilmente 
más de 3 o 4); y d) es imposible realizar sumatorias de valores 
no agrupados.
Tarjetas simples
Consisten en un rectángulo de papel grueso (p. ej., bristol o 
cartulina) del cual se ha recortado una esquina. Las caracte-
rísticas de los individuos registrados se anotan en pequeños 
espacios indicados en una de sus caras, de preferencia con 
letras grandes y siempre en la misma localización de la tarje-
ta. La esquina recortada facilita el acomodo previo al conteo 
(véase figura 3-2).
Para la tabulación procedemos así:
1. Acomodamos todas las tarjetas en un solo fajo, teniendo 
cuidado de colocar la esquina recortada en la misma 
posición para todas las tarjetas. Cuando hacemos esto, 
todas las tarjetas nos mostrarán el mismo frente de la 
hoja.
2. Identificamos la localización de la variable a tabular (pre-
sencia de vómito, estado civil, etc.).
3. Separamos las tarjetas en dos o más montones según las 
categorías de la variable de interés (diarrea sí, diarrea no; 
masculino, femenino, etc.)
4. En caso necesario, cada montón de tarjetas puede sepa-
rarse nuevamente en atención a otras variables.
5. Una vez completadas las separaciones necesarias, se 
procede a contar el número de tarjetas de cada montón.
Este procedimiento presenta varias ventajas: a) puede ser 
utilizado en la mayoría de las investigaciones que se realizan 
en el campo de la salud, b) facilita la verificación de conteos y 
disminuye el potencial de error, c) el número de clasificaciones 
simultáneas no está limitado a nuestra memoria, ni a la com-
plejidad de un cuadro tabular, d) las tarjetas son relativamente 
económicas y e) el mismo investigador puede elaborarlas. No 
obstante, presenta algunas desventajas, entre las que encon-
tramos: a) dificultad para obtener sumatorias de variables 
cuantitativas, b) facilidad para perder una o varias tarjetas y 
c) dificultad para manejar grandes cantidades de datos.
Tarjetas con perforaciones marginales
Son tarjetas de tamaño variable, cuya característica más 
importante son sus perforaciones marginales (figura 3–3). 
Al igual que las tarjetas simples, una de sus esquinas debe 
recortarse con la finalidad de facilitar su acomodo. En una 
cara de la tarjeta se anota, anexo a una perforación marginal, 
la categoría de interés. Si el elemento al cual corresponde la 
información contenida en la tarjeta posee la característica 
señalada, se realiza un recorte entre la perforación marginal 
y el borde de la tarjeta. El recorte debe ser lo suficientemente 
grande para evitar que exista algún “gancho” que impida el 
manejo de las tarjetas.
Para contabilizar los datos se procede de la siguiente 
manera:
1. Las tarjetas se acomodan atendiendo al recorte de la 
esquina.
2. Se pasa un punzón o aguja de tejer (según el número de 
tarjetas) a través de las perforaciones que corresponden 
a la variable y categoría de interés.
3. Tomando de cada extremo el instrumento punzante 
utilizado, se procede a levantar y agitar suavemente 
las tarjetas. Aquellas tarjetas que tengan la perforación 
recortada caerán y corresponderán a los individuos que 
presentan la característica de interés.
4. El procedimiento se puede repetir a partir del paso 1 el 
número de veces necesarias para completar las clasifica-
ciones simultáneas de interés.
5. Al final, sólo resta contar el número de tarjetas separadas 
en la última clasificación.
Este tipo de tarjetas permite manejar con facilidad grandes 
volúmenes de información. Al igual que las tarjetas simples, 
facilitan la verificación de conteos y la realización de un gran 
número de clasificaciones simultáneas. Sin embargo, ya que 
han de elaborarse en imprenta, son caras y, al igual que con 
las tarjetas simples, existe la dificultad para obtener sumato-
rias de variables cuantitativas y la posibilidad de perder una 
o varias tarjetas.
Masculino Diarrea: Sí
Vómito: No
Ensalada: Sí
Sopa: Sí
Figura 3-2. Modelo de tarjeta simple. Figura 3-3. Modelo de tarjeta con perforación marginal.
Sexo masculino
Comió sopa
Comió ensalada
Comió guisado
Comió postre
Presentó diarrea
Presentó vómito
Hipertermia > 37º C
Presentó prurito
©
 E
d
it
o
r
ia
l 
E
l 
m
a
n
u
a
l 
m
o
d
e
r
n
o
 
F
o
to
c
o
p
ia
r 
s
in
 a
u
to
ri
z
a
c
ió
n
 e
s
 u
n
 d
e
lit
o
. 
13Cómputo de datos
Computadoras
Los equipos de cómputo brindan muchas facilidades ideales 
para el manejo estadístico de datos. Durante muchos años, 
esta tecnología sólo estuvo disponible en las instituciones 
que podían pagar uno de esos equipos, que eran muy caros. 
Sin embargo, el desarrollo tecnológico de las computadoras 
y su abaratamiento nos permiten utilizarlas con una facilidad 
asombrosa. Además, el uso amplio de equipo personal ha 
favorecido el desarrollo de programas auxiliares útiles no 
únicamente para el cómputo de datos, sino también para su 
análisis estadístico.
Entre las ventajas del uso de los sistemas de cómputo se 
encuentran: a) rapidez en el proceso, b) disminución de los 
errores y facilidad de corrección de los mismos, c) facilidad 
para manejar grandes volúmenes de datos (p. ej., registros 
nacionales de mortalidad, censo de población de un país, 
etc.), d) oportunidad de almacenar gran cantidad de datos, 
información y procesos estadísticos, e) recurso tecnológico 
relativamente económico y f) disponibilidad de programas de 
cómputo que permiten realizar procedimientos estadísticos 
complejos en poco tiempo. Por otra parte, las desventajas 
más notables son: a)demanda de personal capacitado en su 
manejo, b) facilidad con que los archivos se dañan y c) debido 
a los rápidos cambios en el campo tecnológico, los equipos de 
cómputo pierden actualidad y se deprecian pronto.
REFERENCIAS
Camel, F. (1991). Estadística Médica y Planificación de la Salud (Vol. 
1). Mérida, Venezuela: Universidad de los Andes.
©
 E
d
it
o
r
ia
l 
E
l 
m
a
n
u
a
l 
m
o
d
e
r
n
o
 
F
o
to
c
o
p
ia
r 
s
in
 a
u
to
ri
z
a
c
ió
n
 e
s
 u
n
 d
e
lit
o
. 
15
μ
2
2
1= =
( )x
N
i
i
N
=
x
N
i
i
N
1
=
xi
i
N
1
“Había una vez” Así empiezan los cuentos. Pero ésta es 
una historia que se vivió a partir de mediados del siglo XX. 
Durante muchos años, el ejercicio de la estadística incluyó 
el trabajo penoso de tabular datos durante horas antes de 
realizar la primera operación, lo cual, por lo general, se ha-
cía con la ayuda de una calculadora (pero también con los 
dedos). Este trabajo era tardado, cansado y, en ocasiones, 
aburrido. Además, los errores frecuentes obligaban a repetir 
los conteos, o ¡a redondear los datos! Las ecuaciones esta-
dísticas se limitaban al cálculo de proporciones y promedios, 
y las regresiones no pasaban de dos variables. Los cálculos 
de probabilidad (p) en que se basaban las inferencias se 
apoyaban en las tablas de los anexos al final del libro, y sólo 
algunos pocos matemáticos expertos se atrevían a realizar 
pruebas más avanzadas. La entrega de resultados siempre 
se retrasaba y con frecuencia quedaba poco tiempo para su 
discusión. Y así reinó el caos durante años, hasta que un día 
llegaron las computadoras; al principio las cosas no fueron 
más fáciles. Las primeras computadoras, que eran equipos 
muy grandes y costosos, estaban al cuidado de un grupo 
selecto de iniciados: los programadores. Los humildes mor-
tales sólo las podían ver a través de los grandes cristales que 
las protegían del polvo y del calor. Fue en esa época, cuando 
las computadoras podían “equivocarse”, que aparecieron los 
primeros programas de cómputo especialmente diseñados 
para el análisis estadístico, pero ese recurso estaba dedicado 
a cumplir funciones administrativas y todavía se encontraba 
alejado del investigador. Por tanto, la entrega de resultados 
aún se retrasaba y con frecuencia tampoco había tiempo 
para su discusión. Pero luego sucedió lo que nadie esperaba: 
las computadoras llegaron a los escritorios de las oficinas y 
a las mesas de las casas, y no sólo ellas, también llegaron los 
programas de cómputo. Los programadores salieron de la 
vista y los propios investigadores podían hacer los análisis sin 
necesidad de intermediarios, pero la entrega de resultados 
sigue retrasándose y con frecuencia sigue sin haber tiempo 
para la discusión. Sólo que ahora ya se han encontrado a las 
culpables: las computadoras. Gracias al contacto con los hu-
manos, estos equipos han adquirido características propias 
de ellos: además de “equivocarse” también se entretienen 
“echando a perder” los archivos de datos.
Hemos querido empezar este capítulo ironizando, porque 
es importante dejar bien claro que la computadora es una 
herramienta muy útil en el análisis estadístico de los datos, 
pero que no piensa ni actúa por sí sola. La computadora 
sigue instrucciones en lenguaje binario, y las cumple a una 
velocidad que no deja de ser impresionante. Si se le alimenta 
correctamente y las instrucciones que se le dan son las ade-
cuadas, los resultados serán sorprendentes. Pero si esto se 
hace incorrectamente, los resultados también serán sorpren-
dentes por la magnitud de los errores. Vale la pena insistir: 
la computadora es una herramienta y en ningún momento 
sustituye la labor del investigador en el análisis estadístico. 
Con la ayuda de la computadora, se agiliza la tabulación y 
también las operaciones, pero es el investigador quien tiene 
que decidir qué análisis es el más adecuado para sus datos, y 
es él quien tiene que interpretar los resultados. Si lo anterior 
ha quedado claro, entonces ya se puede continuar con el tema 
de los programas de cómputo que pueden ser de gran ayuda 
en el análisis estadístico.
Durante el análisis estadístico, el investigador tiene que 
realizar varias tareas:
• Presentación de la propuesta o proyecto
• Búsqueda y registro de datos
• Captura y transformación de datos
• Revisión de la captura
• Tabulación de datos
• Cálculo de estadísticos
• Interpretación de resultados
• Reporte final del trabajo
Para realizar estas tareas, el investigador usa varios programas 
de cómputo. Algunos son exclusivos del trabajo estadístico, 
otros son menos específicos. En términos generales, entre 
los programas de cómputo que se utilizan se incluyen los 
procesadores de texto, los administradores de bases de da-
tos, las hojas de cálculo, los programas para presentaciones 
y los programas estadísticos. A esta lista también podríamos 
agregar algunas utilerías y páginas de la web que funcionan 
como calculadoras estadísticas/epidemiológicas. El uso que se 
hace de ellos difiere de muchas maneras, pero con frecuencia 
realizan tareas comunes. A continuación se harán comentarios 
sobre algunos programas de cómputo. Es necesario aclarar 
que no se trata de una revisión sistemática de los programas 
4 Introducción a los programas 
de cómputo
©
 E
d
it
o
r
ia
l 
E
l 
m
a
n
u
a
l 
m
o
d
e
r
n
o
 
F
o
to
c
o
p
ia
r 
s
in
 a
u
to
ri
z
a
c
ió
n
 e
s
 u
n
 d
e
lit
o
. 
16 Bioestadística
existentes, más bien se escribe sobre algunos que los autores 
han tenido oportunidad de utilizar.
PROCESADORES DE TEXTO
Estos programas son los más genéricos de todos los que 
se utilizan. Básicamente sirven para escribir las propuestas 
iniciales, reportes finales del trabajo y formas para captar 
datos (cuestionarios, cédulas de captura). Algunos incluyen 
utilerías capaces de elaborar cuadros y gráficos. Otros incluso 
permiten escribir fórmulas como las que se presentan en este 
libro. Entre estos programas destaca Word para Windows.
ADMINISTRADORES 
DE BASES DE DATOS
Cumplen una función muy importante durante el trabajo es-
tadístico: ayudan a capturar datos en los archivos de cómputo 
en los que se almacenan. Además de generar la estructura de 
la base y de permitir capturar los datos, estos programas tam-
bién permiten editar y transformar datos, así como generar 
nuevas variables y asignarles valores a partir de los existentes. 
Pueden ayudar a generar pantallas de captura que faciliten el 
trabajo de introducir datos, limitando así, el número de errores 
que se pueden cometer. La verificación de la captura se puede 
realizar comparando los datos en pantalla con la forma en la 
que se registraron. Si existe algún error, el programa permite 
corregirlo. Si alguien cuenta con un poco de experiencia en 
programación, también puede utilizar estos programas para 
tabular datos y realizar operaciones estadísticas, como el 
cálculo de proporciones, promedios y desviaciones estándar, 
o pruebas de chi-cuadrada y t de Student, por ejemplo. El 
potencial de estos programas en el análisis estadístico es 
enorme, pero la limitación más importante reside en que es 
necesario conocer los programas con mucha profundidad y 
saber programar. Entre los programas de esta categoría están 
dBase, Fox y Access.
HOJAS DE CÁLCULO
Su estructura de celdas, construidas a partir de columnas y 
renglones, además de las funciones que incluyen, las hace muy 
útiles para el trabajo estadístico. Entre estos programas, los 
más conocidos son Excel y Lotus. Su primera aplicación suele 
ser la captura de datos; es mucho más sencilla que la que se 
puede hacer en los administradores de bases de datos, pero 
menos versátil. Para capturar datos en una hoja de cálculo, 
se procede a identificar las columnas con las variables y los 
renglones con los registros. En las celdas del primer renglón 
se anotan los nombres de las variables y, a partir del segun-
do renglón, se capturan los datos que corresponden a cada 
elemento del grupo.Por brevedad, en la captura suelen uti-
lizarse códigos y no etiquetas. Por ejemplo, en vez de escribir 
“masculino” en la columna de sexo se puede anotar “1” y en 
lugar de “femenino”, “2”. De esta manera se ahorra mucho 
tiempo y se reduce el número de errores.
Ejemplo explicativo 4–1
Recuérdese el cuadro 1-1 en el que se presentaron los datos 
de un grupo de trabajadores de un taller de automóviles. En 
una hoja de cálculo, los mismos datos tendrían la presenta-
ción del cuadro 4-1, en el cual los renglones (identificados 
con un número en la primera columna) y las columnas 
(identificadas con letras mayúsculas en el primer renglón) 
definen las referencias de cada celda. En el renglón 1 se 
identifican las variables: “registro” en la columna “A”, “sexo” 
en la columna “B”, “edad” en la columna “C” y hemoglobina 
con la etiqueta “Hb” en la columna “D”. Bajo la etiqueta 
“registro” se anota el número i-ésimo que corresponde a 
la captura, generalmente un número progresivo, en susti-
tución del nombre del sujeto o elemento del conjunto que 
se estudia. Bajo la etiqueta “sexo” el código “1” significa 
“varón”, mientras que el “2” se refiere a “mujer”. En las 
celdas debajo de “edad” y “Hb”, se anotan los valores que 
corresponden a cada lectura.
La verificación de datos puede realizarse de varias maneras. 
En primer lugar, los datos en la pantalla se pueden comparar 
con la forma en la cual se registraron los datos. Otro proce-
dimiento más ventajoso por su facilidad es la utilización de 
filtros, a partir de los cuales se pueden ordenar los datos según 
diferentes criterios. Por ejemplo, si los datos del cuadro 4-1 
fueran muy extensos, entonces se podría pedir al programa 
que los ordenara según los valores anotados en la columna 
del sexo. Si por algún motivo alguien hubiera anotado un tres 
en esa columna, se podría identificar al principio o al final de 
ella después de ordenar los registros según un criterio ascen-
dente o descendente, respectivamente. Los filtros reconocen 
todos los criterios o secuencias de datos capturados en cada 
Cuadro 4-1. Representación de la captura de datos del 
cuadro 1-1 en una hoja de cálculo
A B C D E
1 registro sexo edad Hb
2 1 1 45 12
3 2 2 23 13
4 3 1 32 11
5 4 1 18 15
6 5 1 21 14
©
 E
d
it
o
r
ia
l 
E
l 
m
a
n
u
a
l 
m
o
d
e
r
n
o
 
F
o
to
c
o
p
ia
r 
s
in
 a
u
to
ri
z
a
c
ió
n
 e
s
 u
n
 d
e
lit
o
. 
17Introducción a los programas de cómputo
variable, lo cual permite identificar cualquier error de regis-
tro, como el número tres capturado en la variable sexo del 
ejemplo anterior. Una tercera opción para verificar la captura 
incluye registrar dos veces los datos en la misma secuencia: 
la primera en una hoja y la segunda en otra hoja del mismo 
archivo. Para comparar las capturas, se utilizaría una tercera 
hoja que contraste las dos primeras y destaque las capturas 
que no fueran iguales.
Ejemplo explicativo 4–2
Supóngase que se han capturado los datos del ejemplo 4-1 
por duplicado, tal como se presentan en el cuadro 4–2. Si se 
observa con detenimiento, se puede encontrar, en primer 
plano, la misma captura que en el cuadro 4–1. En segundo 
plano, se aprecian los primeros dos renglones con los mis-
mos datos excepto dos cambios: en las celdas B2 y C3 los 
datos no son los mismos que en la primera hoja. En el tercer 
plano, se muestra una hoja que identifica la diferencia de 
valores y los señala con la palabra “ERROR”. Para que el 
programa Excel muestre las diferencias de la captura en la 
tercera hoja, se puede utilizar la función =SI() en cada una 
de las celdas de la tercera hoja (que es la que compara): en 
la celda A1 se escribe la fórmula =SI(Hoja1!A1<>Hoja2!A1
;”ERROR”;” “), y luego se copia a todas las demás celdas 
en la hoja de cálculo. Una vez que las capturas diferentes 
han sido identificadas, se busca en las formas de captura 
cuál de las dos es la correcta para cambiarla en la hoja en 
la cual se tiene el error.
Las hojas de cálculo incluyen funciones que, a partir de un 
bloque de datos, permiten realizar varias operaciones, entre 
las que se encuentran los cálculos de la media, mediana, 
moda, varianza, desviación estándar, coeficiente de corre-
lación, intercepción y pendiente de la regresión lineal. Tam-
bién pueden mostrar los valores de varias distribuciones de 
probabilidad, como la normal, binomial, Poisson, t, F, �2, así 
como realizar las pruebas de chi-cuadrada, t de Student, F y 
z. Varias funciones matemáticas y trigonométricas también 
están incluidas en las hojas de cálculo, y éstas son muy útiles 
cuando se desea redondear los resultados o transformar los 
valores de las variables mediante logaritmos o antilogaritmos, 
por ejemplo. Una función que puede ser de mucha utilidad 
está relacionada con la generación de números aleatorios.
Las hojas también pueden servir para simplificar el tra-
bajo, de tal manera que, una vez que se ha introducido una 
fórmula, ya no sea necesario capturarla nuevamente, sólo 
es necesario cambiar los valores que resulten de procesos 
intermedios para actualizar el resultado, derivado de la fór-
mula, automáticamente.
Ejemplo explicativo 4–3
Con frecuencia, el investigador tiene que hacer muchas 
veces las mismas operaciones, pero con valores diferentes. 
Por ejemplo, cuando se prepara un reporte final, podría 
existir interés en presentar los resultados mediante dife-
rencias de proporciones con intervalos de confianza de 
95%. En la hoja de cálculo se pueden poner los valores y 
las fórmulas necesarias una vez y, después, sólo modificar 
los valores para que cambien los intervalos de confianza de 
acuerdo con cada cuadro. En el cuadro 4–3 se representa 
una hoja de cálculo mediante la cual es posible calcular los 
intervalos de confianza. En las celdas de la columna B se 
anotan las proporciones y el número de observaciones en 
las muestras A y B, mientras que en la columna E se colocan 
las ecuaciones para los resultados: la diferencia de propor-
ciones se obtendría mediante la fórmula (en Excel) =B1–B3 
en la celda E1; el límite inferior del intervalo de confianza 
se obtendría en la celda E3 mediante =E1–1.96*(B1*(1–B1)/
B2+B3*(1–B3)/B4)^0,5; mientras que el límite superior se 
tendría en la celda E4 con la fórmula =E1+1.96*(B1*(1–B1)/
B2+B3*(1–B3)/B4)^0,5. Estas fórmulas se presentan con 
mayor detalle en el capítulo 16.
Una vez que se tiene la hoja con los valores y las ecuaciones 
en posición (cuadro 4-3), para el resto de los cálculos sólo es 
Cuadro 4-2. Representación de la captura de datos del 
cuadro 1-1, por duplicado, en hojas de cálculo
A B C
1 registro sexo edad
2 ERROR
3 ERROR
A B C D
1 registro sexo edad hg
2 1 2 45 12
3 2 2 26 13
A B C D E
1 registro sexo edad hg
2 1 1 45 12
3 2 2 23 13
4 3 1 32 11
5 4 1 18 15
6 5 1 21 14
Cuadro 4-3. Presentación de proporciones e intervalos de 
confianza de 95%
A B C D E
1 Proporción A 0.5 Pa - Pb 0.2
2 n de A 150 IC 95%
3 Proporción B 0.3 límite inferior 0.095
4 n de B 175 límite superior 0.305
5
6
©
 E
d
it
o
r
ia
l 
E
l 
m
a
n
u
a
l 
m
o
d
e
r
n
o
 
F
o
to
c
o
p
ia
r 
s
in
 a
u
to
ri
z
a
c
ió
n
 e
s
 u
n
 d
e
lit
o
. 
18 Bioestadística
necesario cambiar los valores de B1, B2, B3 y B4 para obtener 
las diferencias de proporciones y los intervalos de confianza 
de 95% que correspondan a los datos.
Las hojas de cálculo también son de gran ayuda para reali-
zar los gráficos necesarios en el análisis estadístico. La facilidad 
con la cual se puede realizar un gráfico en estos programas 
permite ensayar con varias formas diferentes hasta que se 
encuentre la que mejor presenta los resultados.
Además de todas las facilidades que brindan las hojas de 
cálculo, también se debe mencionar la gran capacidad que 
tienen para importar y exportar archivos generados en otros 
formatos, lo cual los hace muy útiles cuando se trabaja en 
varias plataformas de datos.
Parecería que un programa de hoja de cálculo cubriría 
todas las necesidades para el trabajo.

Continuar navegando