Logo Studenta

Bioestadistica cualitativa-Esteban Egaña Morales

¡Este material tiene más páginas!

Vista previa del material en texto

Bioestadística cualitativa
Bioestadística cualitativa.indd 1 25/06/2010 12:19:36 p.m.
Bioestadística cualitativa
M. Sc. Esteban Egaña Morales
Profesor de Bioestadística del Instituto de Ciencias Básicas 
y Preclínicas Victoria de Girón
Bioestadística cualitativa.indd 3 25/06/2010 12:19:36 p.m.
Edición, composición e ilustraciones: Ing. José Quesada Pantoja
Diseño: Yisleidy Llufrío
© Esteban Egaña Morales, 2010
© Sobre la presente edición:
 Editorial Ciencias Médicas, 2010
ISBN 978-959-212-617-6
Editorial Ciencias Médicas
Centro Nacional de Información de Ciencias Médicas
Calle 23, No. 117 e/ N y O, Edificio Soto, El Vedado,
Ciudad de La Habana, CP 10400, Cuba.
http:///www.sld.cu/sitios/ecimed/
Correo electrónico: ecimed@infomed.sld.cu
Teléfonos: 838 3375 / 832 5338
Catalogación Editorial Ciencias Médicas
Egaña Morales, Esteban
 Bioestadística cualitativa. —La Habana: Editorial 
Ciencias Médicas, 2010.
 294 p.: il., tab.
WA 950
Bioestadística, interpretación estadística de datos, estadística como asunto 
Bioestadística cualitativa.indd 4 25/06/2010 12:19:36 p.m.
A mi esposa, Olga Fernández Alonso, estadística también, que con amor me 
ha ayudado mucho, y a mi hijo Giani, que ha seguido nuestros pasos en la 
matemática y ya comienza a superarnos, lo que nos reconforta.
Bioestadística cualitativa.indd 5 25/06/2010 12:19:36 p.m.
Prefacio
Las pruebas de hipótesis estadísticas que no exigen el conocimiento 
previo de la distribución poblacional se denominan no paramétricas o 
de libre distribución, en contraposición a las más conocidas pruebas 
paramétricas, que si lo exigen. En este libro solo se tratarán pruebas de 
hipótesis para datos en escalas nominales y ordinales que constituyen 
la gran mayoría de las no paramétricas, además de elementos de la 
estadística descriptiva, correspondientes a estos datos, a esto se debe 
la denominación de estadística cualitativa, teniendo en cuenta la clasi-
ficación, poco precisa, de las variables en cualitativas y cuantitativas, 
así como la reciente proliferación del término investigación cualitativa, 
que se escucha frecuentemente en los medios sociales.
A causa del desconocimiento de las pruebas no paramétricas, en 
las ciencias sociales y otras afines han aparecido artículos, libros, po-
nencias y cursos de la llamada investigación cualitativa y metodología 
de la investigación, que por lo común niegan el uso de la estadística 
en la investigación. Las investigaciones se dividen al efecto en dos 
grandes grupos: las experimentales, que se basan en la realización de 
experimentos con objetos y procesos de la realidad objetiva que generan 
datos, que es necesario cuantificar y procesar estadísticamente, y las 
teóricas que no necesitan realizar experimentos en la realidad objetiva 
porque por ser teóricas solo trabajan con sus modelos teóricos y el ra-
zonamiento lógico y matemático a partir de axiomas y proposiciones. 
Pero estas investigaciones teóricas son mucho menos frecuentes que las 
experimentales y es por eso que los métodos estadísticos se usan en la 
mayoría de las investigaciones, es decir, en las experimentales.
Lo que sucede es que hay gran desconocimiento de los métodos 
estadísticos en general y de los no paramétricos en particular. Muchas 
personas no saben que las variables cualitativas también se cuantifican, 
mediante las frecuencias las nominales y por el orden y el rangueo las 
ordinales, en este libro se ofrecen más de 40 procedimientos estadísticos 
de esta índole. Las pruebas de hipótesis no paramétricas son menos po-
tentes que las paramétricas por utilizar menos información de los datos, 
Bioestadística cualitativa.indd 7 25/06/2010 12:19:37 p.m.
solo la nominal unas, otras la nominal y ordinal, pero ninguna la métrica, 
o sea se utilizan sólo cuando las variables están en escalas nominal u 
ordinal o cuando están en escala de intervalo o razón y no cumplen las 
condiciones que exigen las pruebas paramétricas correspondientes, algo 
muy corriente. Lo de menor potencia se puede resolver aumentando un 
poco el tamaño de las muestras. 
En la investigación médica y biológica aparecen con frecuencia 
datos en escalas nominales y ordinales, es decir, cualitativas, pero hay 
que tener cuidado con esta última denominación, porque un número n es 
también una cualidad, la común a todos los conjuntos de n elementos. 
Este libro está orientado a superar el desconocimiento acerca de gran 
cantidad de métodos estadísticos ampliamente aplicables en esta y otras 
ciencias y tecnologías, de las que la investigación médica se nutre y a 
las que también tributa. La introducción de conocimientos debe empezar 
por la enseñanza en los centros académicos y de investigación médica, 
por lo que este texto es para los estudiantes, incluidos los residentes y 
demás cursos de superación, así como de consulta para los profesionales 
que investigan, principalmente.
La necesidad obligó a las investigaciones biológicas y médicas a 
utilizar la estadística y a reconocerla como una especialidad propia, la 
bioestadística, que no es más que la estadística aplicada en la biología y 
la medicina, o sea, la que abarca los métodos estadísticos más aplicados 
en estas, aunque, ¿cuáles métodos estadísticos no se usan en ellas? Algu-
nos matemáticos y estadísticos desdeñan los métodos no paramétricos, 
incluidos los aplicables a variables en escalas nominales y ordinales, 
por ser menos potentes, pero, ¿qué hacer si se presentan en la realidad 
datos en estas escalas o no se cumplen las condiciones que exigen los 
correspondientes métodos paramétricos que son bastante restrictivos?, 
¿aplicárselos indebidamente como hacen algunos por desconocimiento 
o comodidad? Desde todos los puntos de vista, resulta más apropiado 
y beneficioso aplicar rigurosamente los métodos no paramétricos y 
utilizar en cada caso el más apropiado y el que más información pueda 
extraer de los datos.
La tecnología estadística, basada fundamentalmente en la teoría de 
las probabilidades y la matemática en general, ofrece métodos y procedi-
mientos para estudiar la realidad objetiva, ya hace algún tiempo el gran 
Laplace afirmaba que: “en el fondo la teoría de probabilidades es apenas 
el sentido común expresado en números”. Pero las teorías, incluida la de 
probabilidades, por su naturaleza, trabajan con entes y procesos ideales, 
así como con sus relaciones. Para el tratamiento de los entes y procesos 
de la realidad objetiva, y por tanto no ideales, están las tecnologías, como 
es el caso de la estadística.
Bioestadística cualitativa.indd 8 25/06/2010 12:19:37 p.m.
Ambas, la teoría de probabilidades y la estadística, permiten una 
mejor y mayor comprensión del mundo, mediante el estudio de los 
fenómenos aleatorios que constituyen la inmensa mayoría de los exis-
tentes y permiten orientarse mejor en ellos, a no aceptar afirmaciones a 
priori, sin fundamentación, al menos estadística, e interpretar con mayor 
conciencia la confiabilidad de una estimación y la significación o no 
de una diferencia o una asociación, la probabilidad de equivocación en 
una decisión, así como diferenciar el procesamiento estadístico, cons-
ciente y riguroso, de los datos de la manipulación con mala intención o 
errónea por desconocimiento o a propósito. Esto nos situará en mejores 
condiciones de argumentar nuestras propias afirmaciones. 
La mayoría de los fenómenos de la naturaleza y la sociedad son 
aleatorios, algunos evidentemente y otros se revelan como tales al afinar 
la medición y tratarlos multilateralmente en la madeja de los múltiples 
factores que sobre ellos influyen. Para su estudio, a menudo todos o una 
buena parte de ellos, juntos se consideran un único factor aleatorio.
De modo que los profesionales de la medicina como los de la 
biología, armados de al menos algunos conocimientos de esta teoría 
y su aplicación a la realidad, estarán más capacitados para interpretar 
y transformar, en beneficio de la sociedad, los fenómenosde nuestro 
mundo y habrán abierto la puerta de acceso al conocimiento de las leyes 
probabilísticas que gobiernan una buena parte de él, en fin tendrán una 
mejor concepción del mundo.
La tecnología informática ha aportado y aporta la posibilidad de sua-
vizar extraordinariamente la aplicación de los métodos probabilístico-
estadísticos, de modo que ya no se requiere, necesariamente, dominar el 
aparato de cálculo y procesamiento numérico, sino solamente interpretar 
los resultados del método estadístico aplicado y claro está, conocer algún 
manejo de los datos en algún software estadístico actual; esto es muy 
conveniente para la difusión de la estadística entre los profesionales y 
estudiantes no matemáticos.
La medicina, inmersa en este mundo no es ajena a este proceso 
universal y por tanto tampoco debe ser ajena al estudio y dominio de 
una buena parte de los métodos estadísticos menos conocidos como 
los no paramétricos.
No obstante estar dedicado este libro al procesamiento estadístico de 
datos en escalas nominales y ordinales, se han incluido como modelos 
para introducir los métodos no paramétricos unos pocos y básicos mé-
todos paramétricos como los de correlación lineal, así como pruebas de 
hipótesis para la media de una población, como punto de partida para las 
correspondientes pruebas para las variables nominales y ordinales. El 
resto es estadística descriptiva y pruebas de hipótesis para variables en 
Bioestadística cualitativa.indd 9 25/06/2010 12:19:37 p.m.
escalas nominales y ordinales ordenadas por escalas de cuantificación 
y número de poblaciones.
La clasificación en escalas nominales, ordinales, de intervalo y de 
razón es más amplia y por tanto más discriminatoria que la clasificación 
en solo dos clases como son las discretas y continuas, cualitativas y 
cuantitativas, categóricas y numéricas. Los métodos o procedimientos 
estadísticos se ajustan mejor a esta clasificación, por la necesidad de 
diferenciar entre la escala nominal y la ordinal y, claro está, la de in-
tervalo y razón, cuyos métodos o procedimientos estadísticos no trata, 
teniendo en cuenta que la mayoría de los textos se limitan a estos, 
que son más conocidos y si acaso mencionan unos pocos métodos no 
paramétricos. 
En realidad se escribió este libro como complemento al tomo 2 
de Informática médica, o Bioestadística, de un colectivo de autores 
encabezado por José A. Torres Delgado, que solo trata los métodos 
paramétricos, elementos de metodología de la investigación y de esta-
dísticas de salud y de los no paramétricos solo la prueba ji cuadrado y 
una prueba de proporciones muy limitadas. 
También se incluye en este libro, como complementos, además de 
cuestiones de interés de la estadística, algunos elementos del procesa-
miento de datos con las facilidades que proporciona la hoja de cálculos 
de Microsoft Excel, muy útiles para conformar los archivos o matrices 
de datos en la forma que lo requieren los distintos métodos estadísticos y 
calcular los estadígrafos y probabilidades que no aparecen programados 
en el software estadístico actual.
Bioestadística cualitativa.indd 10 25/06/2010 12:19:37 p.m.
Contenido
Introducción / 1
Capítulo 1. Estadística descriptiva / 5
1.1. Escalas de cuantificación / 5
1.2. Distribuciones de frecuencias según las escalas de cuantificación / 7
1.3. Representaciones gráficas de las distribuciones de frecuencias / 13
1.4. Distribuciones de frecuencias por intervalos de clase y bivariada / 18
1.5. Indicadores de tendencia central / 24
1.6. Indicadores de posición / 28
1.7. Indicadores de dispersión / 30
1.8. Conjuntos, matrices, ficheros o archivos de datos en las diferentes 
escalas / 33
1.9. Indicadores de correlación / 35
1.10. Coeficientes de correlación de Spearman, punto biserial 
y V de Cramér / 39
1.11. Coeficientes de correlación de Kendall / 54
1.12. Valores críticos de los coeficientes de correlación / 60
1.13. Diseño de experimentos / 65
Capítulo 2. Pruebas de hipótesis / 68
2.1. Conceptos básicos de pruebas de hipótesis / 68
2.2. Algoritmo general para realizar una dócima de hipótesis / 70
2.3. Dócimas para la media de una población / 71
2.4. Decisión sobre la base de una probabilidad / 77
Capítulo 3. Dócimas para muestrasen escalas nominales / 79
3.1. Dócimas para una población / 79
3.2. Dócimas para dos poblaciones / 96
3.3. Dócimas para más de dos poblaciones / 116
Capítulo 4. Dócimas para muestras en escalas ordinales / 121
4.1. Dócimas para una población / 121
4.2. Dócimas para dos poblaciones / 134
4.3. Dócimas para más de dos poblaciones / 167
Bioestadística cualitativa.indd 11 25/06/2010 12:19:37 p.m.
http://booksmedicos.org
Capítulo 5. Problemas y suplementos / 175
5.1. Opciones de Excel para el procesamiento estadístico / 175
5.2. Problemas resueltos y propuestos / 222
5.3. Distribución de las pruebas (dócimas o test) de hipótesis por escala 
de cuantificación de las variables, el número de poblaciones 
y el tipo de muestras / 240
5.4. Ejemplo de cómo informar el resultado de la aplicación de una 
prueba de hipótesis con un software estadístico / 242
5.5. Elementos de regresión logística / 243
5.6. Registro de la información observada como variables / 253
5.7. Hacer comparables las variables mediante rangueo, estandarización 
y recodificación / 261
5.8. Proporciones y algunas de sus aplicaciones en medicina / 264
5.9. Estimación puntual y por intervalo de una proporción / 266
5.10. Media, varianza y coeficiente de correlaciónde las variables 
dicotómica / 269
5.11. Confiabilidad y validez / 271
5.12. Transformación de una tabla de contingencia en matriz de datos / 273
5.13. Demostración de la relación entre los coeficientes de correlación 
rangos de Spearman y lineal de Pearson / 275
5.14. Deducción de la fórmula del estadígrafo ji cuadrado de la dócima 
de independencia en tablas de contingencia de dos por dos / 276
5.15. ¿Son cualitativas las “investigaciones cualitativas”? / 278
Bibliografía / 289
Índice de materias / 291
Bioestadística cualitativa.indd 12 25/06/2010 12:19:38 p.m.
http://booksmedicos.org
1
Introducción
En toda investigación experimental se requiere cuantificar la infor-
mación obtenida del experimento para registrarla en un medio en que 
se pueda anotar, generalmente en forma de una matriz de datos o base 
de datos en una simple hoja de papel o un archivo de algún software de 
computadora tabulado habitualmente en columnas encabezadas por los 
nombres de las variables (campos) y filas en que aparecen los valores 
de las variables (registros de los individuos). Salvo por un objetivo es-
pecífico que recomiende otra cosa, se debe registrar lo observado en la 
escala de cuantificación superior, para obtener la máxima información 
posible en lo registrado y poder discriminar adecuadamente el tipo de 
procesamiento estadístico a utilizar.
Por esta razón y por el hecho de que el método estadístico a aplicar 
depende de la escala de cuantificación en que se encuentren los datos 
es que lo primero que se tratará son las escalas de cuantificación con 
la máxima capacidad discriminadora posible que es la que considera 
cuatro escalas: nominal, ordinal, de intervalo y de razón. 
Inmediatamente después se aborda el problema de las distribuciones 
de frecuencias según las escalas de cuantificación:
– Si la escala es nominal solamente se pueden construir con ellas 
distribuciones de frecuencias absolutas y relativas.
– Si la escala es ordinal se pueden construir, además, distribuciones 
acumulativas absolutas y relativas y aplicar métodos estadísticos 
basados en el orden o los rangos de los puntajes. 
El primer procedimiento estadístico empleado en las investigaciones 
experimentales son las distribuciones de frecuencias, que sirven para 
explorar los datos y descubrir sus primeras regularidades. Muchos 
trabajos investigativos experimentales aplican estas distribuciones, 
comentando separadamente una frecuencia absoluta o porcentual aquíy otra más adelante aisladamente, es preferible situarlas todas en una 
tabla de frecuencias que puede, además, representarse gráficamente con 
varios tipos de gráficas estadísticas que permitirán evidenciar regulari-
dades en el conjunto de datos muestrales.
Bioestadística cualitativa.indd 1 25/06/2010 12:19:38 p.m.
http://booksmedicos.org
2
Una distribución de frecuencia no es más que una agrupación de los 
datos para simplificar su interpretación inicial. A menudo hay que llegar 
a un máximo agrupamiento y simplificación de los datos al calcular con 
ellos indicadores de tendencia central, posición, dispersión, asociación 
y correlación, consistentes en un único puntaje que describe e identifica 
a todo un conjunto de datos. Tanto las distribuciones de frecuencias 
como estos indicadores describen conjuntos de datos, valores de una 
variable, o la relación de una variable con otra u otras. Es objetivo 
de la estadística describir, estimar parámetros, decidir acerca de las 
distribuciones o parámetros poblacionales a partir de datos muestrales 
consistentes en conjuntos de datos o de observaciones de un grupo de 
individuos o repetidas de un único individuo.
Pero los datos son “tercos”, para aplicar los métodos estadísticos 
se requiere, además, un manejo eficiente de los datos, que incluye la 
creación de archivos, bases o matrices de datos, su transformación o 
recodificación por fila o columna, su transposición, su división para 
crear subconjuntos de datos, la mezcla de dos o más filas o columnas de 
una matriz de datos o de dos matrices de datos en una sola. También es 
conveniente saber identificar cuando las variables son independientes y 
cuando apareadas o igualadas, la escala de cuantificación en que están 
y como están dispuestas. En general se trata de acomodar los datos al 
procedimiento estadístico que se desea aplicar o a como lo exige el 
software estadístico a utilizar, pero todo eso sin perder de vista el no 
alterar la información que los datos originales contienen. Todas estas 
situaciones se pueden observar en los ejemplos que acompañan a cada 
procedimiento, que se pide repetir creadoramente en los problemas 
propuestos para que el lector adquiera habilidad en ello. Para el proce-
samiento requerido son muy útiles los software estadísticos, las hojas 
de cálculo como el Microsoft Excel y los procesadores de texto, así 
como la vinculación creadora entre ellos.
Un curso de estadística moderno es inconcebible sin el uso de un 
conjunto de computadoras personales y software estadísticos y de uso 
general como apoyo, es muy conveniente que el profesor cree previa-
mente un archivo o matriz de datos con unas 11 variables de todas las 
escalas: tres en escalas nominales comparables, tres en escalas ordinales 
con seis o siete valores comparables entre sí, tres en escalas de intervalo 
o razón también comparables y dos para facilitar la formación de grupos 
o muestras independientes, una con dos valores y la otra con tres. Al 
menos dos de estas variables deben tener distribución normal y corre-
lación alta entre varios pares de variables. Las parejas y ternas tanto de 
las variables en una misma escala representarán variables apareadas o 
igualadas y las que tienen pocos valores servirán para dividir los datos 
Bioestadística cualitativa.indd 2 25/06/2010 12:19:38 p.m.
http://booksmedicos.org
3
en grupos o muestras independientes. El total de datos se sugiere que sea 
de 50 como mínimo, para que cuando se subdividan en grupos estos sean 
de un tamaño no muy pequeño. Se debe tener en cuenta, además, que 
el estudiante debe saber trabajar con un número grande de elementos, 
lo que se acerca más a la realidad.
Con esta tabla o archivo de datos, de 11 columnas por 50 filas o 
más, se podrán resolver prácticamente todos los problemas de apli-
cación de los distintos métodos estadísticos básicos que incluyan los 
programas, en particular los de pruebas de hipótesis. Con este archivo 
de datos habrá la posibilidad de aplicar pruebas de dos, tres y más 
variables independientes o igualadas, así como de construir tablas de 
frecuencias bivariadas con dos, tres y más categorías, pero este archivo 
necesariamente tendría que ser de datos ficticios en mayor o menor 
grado, salvo que se tenga mucha experiencia en la especialidad hacia 
la cual va dirigido, para lograr que sea representativo de muchas situa-
ciones que se dan en la realidad relacionadas con ellas. Dos modelos 
de estos archivos son el denominado DatosM2 elaborado con registros 
de psiquiatría y dirigido hacia la docencia en las distintas carreras de 
ciencias médicas, y DatosMT para la evaluación de los estudiantes, que 
se incluyen en el libro. 
Bioestadística cualitativa.indd 3 25/06/2010 12:19:38 p.m.
http://booksmedicos.org
5
Capítulo 1
Estadística descriptiva
Se tratarán procedimientos estadísticos que permitirán descubrir regula-
ridades en los conjuntos de datos, reduciendo las variables a un conjunto de 
clases o categorías acompañadas de sus frecuencias llamadas distribuciones de 
frecuencias univariadas y bivariadas, así como sus representaciones gráficas, 
indicadores numéricos de tendencia central, posición, dispersión y correlación, 
que incluyen elementos descriptivos de regresión lineal y cuatro coeficientes 
de correlación que cubren prácticamente todos los casos que se dan en una 
matriz de datos.
1.1. Escalas de cuantificación
De forma general una medición consiste en establecer una correspondencia 
entre un conjunto de manifestaciones de una propiedad a medir y un conjunto 
de entes que se asumen como los valores de la medición.
Si a este conjunto de elementos se le provee de una estructura, es decir, se 
define en él una o más relaciones entre sus elementos de forma tal que reflejen 
las relaciones existentes entre la forma de manifestación de la propiedad que se 
mide, entonces este conjunto provisto de esa estructura pasa a ser un modelo por 
medio del cual es posible el estudio de esa propiedad, es decir, a partir de este 
momento se sustituye la investigación directa sobre los objetos y fenómenos 
que la poseen por el estudio de esa estructura.
Este modelo por medio del cual se concreta el proceso de medición, que 
determina qué procesamiento estadístico puede realizarse, posteriormente, 
con esa información recopilada se denomina escala de medición o mejor de 
cuantificación.
Hay cuatro escalas de cuantificación: nominal, ordinal, intervalo y razón 
o proporción.
Se parte de un conjunto A. Se dirá que sus elementos están en:
– Escala nominal: cuando se define una relación de equivalencia entre 
ellos; esto es, se establece un número determinado de clases o categorías 
tales que cada elemento pertenezca a una y solo una clase.
Bioestadística cualitativa.indd 5 25/06/2010 12:19:38 p.m.
http://booksmedicos.org
6
– Escala ordinal: si están en una escala nominal entre cuyas clases está 
definido un orden de modo que cualesquiera que sean dos de ellas una 
será mayor o superior, en algún sentido, que la otra. Esta estructura 
satisface las exigencias de una relación de orden. A partir de esta escala 
las clases se denominan puntajes.
– Escala de intervalo: si están en una escala ordinal en que se ha definido 
una métrica esto es una unidad de medida, una distancia entre sus 
puntajes consecutivos de modo tal que la proporción o razón entre las 
longitudes de dos intervalos cualesquiera permanece invariable ante 
toda transformación de la escala en otra escala de intervalo, o sea. ante 
toda transformación del tipo y = ax + b.
– Escala de razón: si están en una escala de intervalo que posee un cero 
absoluto, en ella la razón entre dos puntajes cualesquiera permanece 
invariable ante toda transformación de la escala en otra escala de razón, 
o sea, ante toda transformación del tipo y = ax.
Por ejemplo, la clasificación de las personas que van a una consulta médica 
puede incluir:
– Si presentan o no una patología y se obtiene una variable dicotómica o 
binaria.− El tipo de patología que presenta (variable en escala nominal).
− El grado en que presentan la patología principal (variable en escala 
ordinal).
− Su temperatura corporal en grados Celsius (variable en escala de 
intervalo).
− Su peso en kilogramos (variable en escala de razón).
Esta clasificación en cuatro escalas permite una mayor y mejor discrimina-
ción de los métodos estadísticos que las que se mencionarán a continuación. 
1.1.1. Otras clasificaciones de las variables
Una variable es un ente que puede tomar los distintos valores de un conjunto 
determinado, se denotan habitualmente con letras mayúsculas X, Y, Z y sus po-
sibles valores forman el conjunto que se ha denominado conjunto de datos. 
– Variable discreta: la que solo puede tomar un conjunto a lo sumo 
numerable de valores (sus valores pueden representarse por letras 
subindizadas con los números naturales, en forma de una sucesión: 
X1, X2, X3,..., por ejemplo, la cantidad de hijos de un matrimonio, el 
puntaje obtenido en una prueba, el color del pelo, el número de días 
transcurridos desde el nacimiento, entre otros.
– Variable continua: la que puede tomar todos los valores de un intervalo 
de números reales no reducido a un punto ni vacío, por ejemplo, el tiempo 
de reacción ante un estímulo y el peso de un conjunto de personas. 
Bioestadística cualitativa.indd 6 25/06/2010 12:19:38 p.m.
http://booksmedicos.org
7
– Variable de conteo: la variable discreta y en escala ordinal, que cuenta 
unidades. En ocasiones, y cuando el número de sus valores posibles 
distintos es grande, puede considerarse en escala de intervalo o razón 
e incluso, por aproximación, una variable continúa.
– Variable dicotómica o binaria: la que tiene solo dos valores posibles 
distintos cualesquiera, los más simples son 0 y 1, y pueden interpretarse 
como ausencia y presencia, respectivamente, de una propiedad o 
cualidad. La variable dicotómica, independientemente de los valores 
que tome se considerará, a los efectos estadísticos, en escala nominal.
También suelen clasificarse como variables cualitativas o categóricas a las 
no numéricas en escalas nominales y ordinales, y como cuantitativas a todas 
las numéricas. Por esta razón dentro de las cualitativas hay que distinguir 
adicionalmente los casos de escala nominal y ordinal y dentro de las cuantita-
tivas también las variables en escalas ordinales y las en escalas de intervalo y 
razón, todo esto hace a esta clasificación compleja y no discrimina más que la 
clasificación en continua y discreta, por lo que es más práctico no utilizar, por 
lo menos en la clasificación de los métodos estadísticos, esta clasificación de 
variables cualitativas y cuantitativas y utilizar las cuatro escalas de cuantificación 
directamente para describir las variables.
Una vez discutidos y precisados los tipos de variables y sus escalas se está en 
condiciones de abordar las distribuciones de frecuencias, el cálculo de algunos 
indicadores numéricos de tendencia central, dispersión y asociación, así como las 
pruebas de hipótesis, diferenciando siempre, su comportamiento, según la escala 
de cuantificación al aplicarlas. Su necesidad se comenzará a ver de inmediato. 
1.2. Distribuciones de frecuencias según las escalas 
de cuantificación
Ejemplo 1.1: 
En un análisis realizado se registraron 48 pacientes femeninos con valores 
de la hemoglobina por debajo de 120 g/L y se anotó su municipio de residencia: 
Marianao (M), Cerro (C), Playa (P) y Guanabacoa (G) obteniéndose:
M G P P C G M P M G P C P G M P M G P P C G M P
M G P C P G M P M G P P C G M P M G P C P G M P
Se puede observar a simple vista que son cuatro los municipios de residencia 
de los 48 pacientes, que cada paciente reside en uno y solo un municipio y que 
entre estos municipios no hay definido un orden ni unidad de medida, por lo 
que se puede afirmar que los datos anteriores están en escala nominal.
Bioestadística cualitativa.indd 7 25/06/2010 12:19:38 p.m.
http://booksmedicos.org
8
En la tabla 1.1 se muestra lo que se denomina una distribución de frecuencias 
de estos 48 datos en cuatro clases.
Tabla 1.1. Distribución de frecuencias 
Municipio Frecuencia 
Marianao 12
Playa 18
Cerro 6
Guanabacoa 12
Total 48
Se puede observar, además, que Playa tiene la mayor frecuencia (18), Cerro 
tiene la menor (6), y Marianao y Guanabacoa tienen la misma (12).
Una distribución de frecuencias es todo agrupamiento de los datos en clases 
o categorías acompañadas de las frecuencias de clase. 
La utilidad de la misma radica en que permite descubrir regularidades en 
un conjunto de datos.
La distribución de frecuencias de la tabla 1.1 recibe el nombre de distribu-
ción por conteo de valores distintos, porque para construirlas se toman como 
clases los valores distintos del conjunto de datos, de la variable en cuestión y 
luego se contabiliza cuantos valores del conjunto coinciden con cada clase y 
esta cantidad será la frecuencia de la clase en cuestión. Así se procede con cada 
una de las clases restantes para completar la distribución de frecuencias. Esta 
distribución se utiliza cuando el número de clases distintas es pequeño.
Una distribución de frecuencias, de datos en escala nominal como estos, puede 
contener cualquiera de los tipos de frecuencias que aparecen en la tabla 1.2.
Tabla 1.2. Tipos de frecuencias variables en escalas nominales
Frecuencia
Municipio Absoluta Relativa Porcentual Tasa por 10 000
Marianao 12 0,250 25,0 2 500
Playa 18 0,375 37,5 3 750
Cerro 6 0,125 12,5 1 250
Guanabacoa 12 0,250 25,0 2 500
Total 48 1,000 100,0 10 000
La tabla 1.2 constituye un ejemplo de distribución de frecuencias de datos en 
escala nominal en que las clases son los municipios de residencia que aparecen 
representados por la letra inicial de su nombre.
– La frecuencia absoluta de una clase es igual al número de observaciones 
que pertenecen a esta clase. La suma de las frecuencias absolutas de 
Bioestadística cualitativa.indd 8 25/06/2010 12:19:39 p.m.
http://booksmedicos.org
9
todas las clases de una distribución de frecuencias es igual al número 
total de observaciones.
– La frecuencia relativa de una clase es igual a su frecuencia absoluta 
dividida entre la suma de las frecuencias absolutas de todas las 
clases. 
 La suma de las frecuencias relativas de todas las clases de una distribución 
de frecuencias es igual a 1, salvo por cuestiones de aproximación. La 
frecuencia relativa de una clase coincide además con la proporción de 
individuos que caen en esa clase
– La frecuencia porcentual de una clase es igual a su frecuencia relativa 
multiplicada por 100. 
– La tasa por 10000 de una clase es igual a su frecuencia relativa 
multiplicada por 10 000.
Se denomina tasa a la frecuencia relativa multiplicada por un múltiplo k de 
10, así la taza por 10k es igual a la frecuencia relativa multiplicada por 10k, para 
k = 2 se tiene la frecuencia porcentual que es igual a la relativa multiplicada 
por 102, por ejemplo, para k = 4 será taza por 10 000, ya que 104 = 10 000. Las 
tasas se utilizan para evitar dar porcentajes con muchos decimales o fracciones 
de unidades, que no son asequibles a una amplia población y pueden crear 
problemas de interpretación como, por ejemplo, cuando se dice que la taza de 
mortalidad infantil es de 4,7 por 1000 nacidos vivos, de expresarse en porcen-
taje sería 0,047 % además de la dificultad propia de los decimales y algunos 
podrían interpretar que se muere 4 niños y algo más de la mitad de otro niño 
por cada mil. En este caso es más apropiado decir 47 por 10 000 para que no 
se hagan semejantes interpretaciones. Otro ejemplo, la frecuencia relativa de 
de siameses unidos por la cabeza en un lugar es de 0,00000002 (2 x 10–8), la 
taza porcentual es del 0,000002 % (2 x 10–6 %) y la tasa por 10 000 es 0,0002 
(2 x 10–4) , pero mejor se expresa diciendo que es de 2 por 10 000.
Problema propuesto 1.1:
Construya distribuciones de frecuencias absolutas, relativas, porcentuales 
y acumulativasde las tres variables: sexo, raza y grado de retrazo mental de la 
tabla 1.3, matriz de datos DatosM2.
Tabla 1.3. Matriz de datos DatosM2
Idvd Sexo Raza GRM EV1 EV2 EV3 EdC CI1 CI2 CI3
1 M N L 3 2 2 9,88 67,1 69,2 29,5
2 F O M 6 2 3 7,31 70,5 70,1 39,1
3 M N L 3 5 3 3,04 50,8 41,8 35
4 F O M 4 5 3 12,8 53,1 47,6 35,4
Bioestadística cualitativa.indd 9 25/06/2010 12:19:39 p.m.
http://booksmedicos.org
10
Idvd Sexo Raza GRM EV1 EV2 EV3 EdC CI1 CI2 CI3
5 F N G 5 3 6 7,23 63,2 63,6 60,4
6 F B M 5 2 4 14,67 57,1 51,9 47,7
7 M B G 3 2 2 7,33 73 71,3 53,4
8 F N S 3 4 5 17,45 32,5 27,1 52,9
9 F N L 3 3 2 16,26 63,8 67,5 23,9
10 F O L 2 5 2 6,08 43,1 34,8 33,8
11 M O M 6 3 3 7,02 43 31,6 36,1
12 M O S 6 1 5 7,61 46,3 37,7 53,3
13 M O M 6 6 3 10,35 57,9 52,5 37,1
14 M B G 3 4 6 7,8 57,3 52,2 75,5
15 F B L 5 2 3 8,33 52,4 46 34,7
16 M O M 2 6 4 9,16 28,9 22,7 46,7
17 M B M 5 5 3 5,13 40,2 28,8 39,4
18 M N M 2 3 3 11,81 60,2 59,2 42,7
19 M B S 5 4 4 6,37 23,8 17,3 49,5
20 M N M 4 5 3 20,51 45,2 37,2 39,4
21 M O M 6 6 3 13,34 28,6 21,6 40,8
22 F O S 4 2 4 12,28 51,9 45,8 51
23 F B M 5 6 3 9,19 37,8 28,5 39,9
24 F O M 2 2 3 13,94 52,5 46,3 40,2
25 M O G 3 3 2 8,69 17 15,2 53,9
26 F N G 5 4 5 18,12 61,2 62,5 56,4
27 F N L 5 5 2 9,33 73,1 75,3 23,6
28 M N L 4 3 2 19,63 60,1 59 30,1
29 F N M 3 3 3 Au-sente 58,6 55,9 42,5
30 F O M 4 4 3 4,75 55 49,4 40,9
31 M B S 5 2 4 12,37 54,7 49,1 48,6
32 M O G 3 5 2 7,96 37,6 28,3 55,3
33 M O G 4 3 4 9,38 56,3 49,9 55,5
34 F B M 5 5 3 9,75 50,2 40,8 39,8
35 M B L 6 4 2 5,8 55,6 49,6 24
36 M O S 1 6 4 12,22 31,3 26,8 47,7
37 M B S 2 5 4 12,11 51,8 44,3 49,9
38 M B S 2 6 4 12,06 49,7 40,5 52,6
39 M O M 4 6 3 3,7 79,3 75,7 45,2
40 M O S 6 3 4 8,82 53,5 48,5 48,2
41 M B L 6 3 2 5,42 34,7 28,1 30,6
Bioestadística cualitativa.indd 10 25/06/2010 12:19:39 p.m.
http://booksmedicos.org
11
42 F B L 3 3 2 12,12 42 28,9 28,4
43 F N L 5 2 2 13,75 28,7 22,4 24,4
44 F O M 2 5 3 11,11 43,4 36,4 40,8
45 M N L 4 2 2 1 47,6 38,6 28,8
46 M N M 4 3 4 11,56 48,9 38,6 47,5
47 F O M 6 2 3 11,01 61 60,6 43,9
48 M O S 1 6 4 7,27 38,8 28,6 48,5
49 M O G 3 2 6 4,09 30,3 26,7 57,3
50 M O M 2 4 3 7,52 56,9 50,2 45,3
Leyenda:
GRM: grado de retraso mental.
EV1, EV2 y EV3: representan las escalas de Mad Vinelad en que valores más altos más grave el 
retraso mental. 
CI1, CI2 y CI3: representan los coeficientes de inteligencia registrados en tres momentos distintos 
de la vida de los individuos. 
EdC: representa la edad cronológica.
Observación: Hay paquetes estadísticos modernos que asignan números a 
los valores de las variables no numéricas para poder procesarlas como numé-
ricas, esto trae como consecuencia que realice operaciones con ellas que no 
proceden, que no se corresponden, como por ejemplo, ofrecen como resultado 
las distribuciones de frecuencias acumulativas de sexo y raza, que no es posible 
obtener a menos que se defina un orden entre sus valores. 
Ejemplo 1.2:
Se observan 300 personas y se clasifican según su aspecto físico o peso en obe-
sa (O), gruesa (G), buen peso (B), delgada (D) y muy delgada (M) (tabla 1.4)
Tabla 1.4. Resultados de la clasificación según aspecto físico y peso
M G B D G B O B O M D D G B D G D O O O O D M D G
O M G D B D G B D O B M D B G B B G O B B M D G B
O O D O B O B O D M B B G B B O O B M O O O B D G
M B O O M D O B G M D D B D O G B M G D G G D B B
G D O O M B B D G M M M D G G G B D D G D B O M B
B D B D D G D M M B B D D B B G B G D B D O B M G
D D O D D B B G B B B G D D M M G G B B B G B B B
B B D G G G M D D D O B B D G O G D G M D G O B O
O G D B B G M D M B D D D B G D G B M G B B G G O
G O D B G D G O O B G G O G O G B B B B O D M B B
D M O M D O B B B D G B M M O D B B M B B B D D B
M M O M B O O G O D M D G B B D O B G D D D D M D
Bioestadística cualitativa.indd 11 25/06/2010 12:19:40 p.m.
http://booksmedicos.org
12
Se ejemplifica con 300 datos a propósito para que ver que no es un proble-
ma grave procesar tantos datos con el software estadístico y para que quede en 
evidencia la necesidad de construir distribuciones de frecuencia para descubrir 
regularidades en el conjunto de datos. 
Observando detenidamente en estos datos se registran solo cinco clases 
distintas, cada individuo pertenece a una y solo una clase, entre estas clases está 
definido un orden, que va de menor a mayor: muy delgado, delgado, buen peso, 
grueso y obeso, pero no existe una unidad de medida que permita saber cuanto 
más pesado es el obeso que el grueso o el buen peso que el delgado, por lo que 
se puede afirmar que estos datos están en escala ordinal, aunque provengan de 
una variable continua.
Se puede construir con ellos una distribución de frecuencias con los distintos 
tipos de frecuencias (tabla 1.5).
Tabla 1.5. Distribución de frecuencias del aspecto físico del grupo 1
Aspecto físico
Frecuencias
Absolutas Relativas Acumulativas Acumulativas relativas
Muy delgado 38 0,127 38 0,127
Delgado 71 0,237 109 0,363
Buen Peso 86 0,287 195 0,650
Obeso 48 0,160 243 0,810
Grueso 57 0,190 300 1,000
Suma 300 1,001
La suma de las frecuencias relativas no da 1,000 por error de redondeo de los números a 
tres cifras decimales.
– La frecuencia acumulativa de una clase es igual a la suma de las 
frecuencias absolutas de esta clase y de las clases anteriores. Puede 
ser relativa, porcentual, acumulativa. Solo tiene sentido para datos en 
escalas ordinales o superior.
Observaciones: 
1. En el caso de las variables en escalas nominales no se pueden construir 
frecuencias acumulativas porque entre sus clases no hay orden, en ellas 
no está definido el concepto de clase anterior a otra.
2. Las clases de esta distribución de frecuencias están ordenadas de menor 
a mayor peso. También se podrían ordenar de mayor a menor peso o 
sencillamente considerarlas ordenadas de mayor a menor delgadez. De 
menor a mayor es el ordenamiento que se considera en lo ulterior, salvo 
que se diga lo contrario. 
Bioestadística cualitativa.indd 12 25/06/2010 12:19:40 p.m.
http://booksmedicos.org
13
3. Si en la distribución de frecuencias de la tabla 1.1 se eliminan las clases 
y se quedan solo las cuatro frecuencias, estos números que representarán 
las cuatro clases distintas y no se habrá perdido información relevante 
para el procesamiento estadístico de estos datos. De modo que las 
frecuencias han cuantificado el conjunto de datos en escala nominal o 
cualitativos.
1.3. Representaciones gráficas de las distribuciones 
de frecuencias
1.3.1. Histograma de frecuencias
Es una gráfica de barras, generalmente verticales, cuyas alturas son pro-
porcionales a las frecuencias y cuyo ancho es común. Se traza sobre un eje 
horizontal, donde se marcan las clases, y sobre ellas las barras correspondientes, 
y se consideran en un eje vertical, las frecuencias. Por ejemplo para los datos 
del ejemplo 1.2, se tienen las figuras 1.1 y 1.2.
Figura 1.1. Histograma de frecuencias o gráfica de barras en el plano.
Figura 1.2. Histograma de frecuencias tridimensional.
Bioestadística cualitativa.indd 13 25/06/2010 12:19:41 p.m.
http://booksmedicos.org
14
1.3.2. Gráfica circular o de pastel
Consiste en un círculo (pastel) dividido en tantos sectores (tajadas del pas-
tel) como clases haya y cuyas áreas (ángulos o arcos) son proporcionales a las 
frecuencias de las correspondientes clases (figuras 1.3 y 1.4).
Figura 1.3. Gráfica circular o de pastel en el plano.
Figura 1.4. Gráfica circular o de pastel tridimensional.
1.3.3. Polígono de frecuencias
También llamada gráfica de líneas o poligonal es una gráfica en que sobre 
un eje de coordenadas se trazan, sobre las marcas de clase, puntos a alturas 
proporcionales a las frecuencias de cada clase que luego se unen con segmentos 
de rectas, que pueden no trazarse, para formar la línea poligonal, a veces se 
trazan segmentos de rectas adicionales desde la última y la primera clase hasta el 
eje horizontal para cerrar el polígono. Por ejemplo, para los datos del ejemplo 1.2, 
se tienen las figuras 1.5, 1.6 y1.7.
Ejemplo 1.3
En la tabla 1.6 aparece la distribución de frecuencias del aspecto físico de 
otro grupo de 300 individuos cuya distribución se compara con la de la tabla 
1.5 en las figuras 1.8 y 1.9.
Bioestadística cualitativa.indd 14 25/06/2010 12:19:41 p.m.
http://booksmedicos.org
15
Figura 1.5. Polígono de frecuencias o gráfica de líneas.
Figura 1.6. Histograma y polígono de frecuencias del aspecto físico.
Figura 1.7. Histograma y polígono acumulativo de la distribución de aspecto físico.
Tabla 1.6. Distribución de frecuencias del aspecto físico del grupo 2
Aspecto físico Frecuencia absoluta
Obeso 50
Grueso 70
Buen peso 90
Delgado 60
Muy delgado 30
Suma 300
Bioestadística cualitativa.indd 15 25/06/2010 12:19:41 p.m.
http://booksmedicos.org
16
Figura 1.8. Histograma comparativo de los dos grupos.
Figura 1.9. Polígono comparativo de los dos grupos.
Para comparar mediante gráficas de pastel se requiere construir, por separa-
do, un pastel de cada variable. Existen, además, otros muchos tipos de gráficas 
de distribuciones de frecuencias que en general son combinaciones o variantes 
de los descritos.
Problema propuesto 1.2:
Construya el histograma, el polígono y la gráfica circular de la variable del 
ejemplo 1.3, así como las gráficas de pastel comparativas de los grupos 1 y 2. 
Las gráficas estudiadas pueden tener distintos usos, por lo general:
– La gráfica de pastel se usa preferentemente para datos en escala nominal, 
pues no se puede definir en ella un orden preciso 
– El polígono, gráfica poligonal o de líneas da idea de continuidad en 
la variable en cuestión y, por tanto, es apropiada preferentemente para 
datos que provengan de variables continuas.
Bioestadística cualitativa.indd 16 25/06/2010 12:19:41 p.m.
http://booksmedicos.org
17
– La gráfica de barras o histograma en el caso de barras separadas es 
apropiada para datos de variables discretas y, en el caso de barras 
pegadas una a continuación de la otra para variables continuas.
Observaciones:
1. En la actualidad, como se pueden construir las gráficas fácilmente con 
un software, habitualmente se hacen los distintos tipos de gráficas que 
más gusten y se observan para escoger luego de compararlas, la más 
apropiada para la distribución o la que mejor refleje lo que se desea 
representar o simplemente la que más le guste al investigador. 
2. En los histogramas se pueden sustituir las barras por figuras convenientes. 
La gráfica de pastel solo es apropiada para una sola variable, pero se 
pueden presentar varios pasteles comparativos de varias variables, en 
este caso pueden graficarse mejor mediante una barra o figura divididas 
en partes con áreas correspondientes a las distintas variables. Las gráficas 
poligonales se pueden trazar con cintas u otros elementos similares. 
Ejemplo 1.4:
Se registra el estado de salud de 40 niños como mal (M), regular (R), bien 
(B) y excelente (E) y se obtiene la lista:
R, M, E, E, M, M, R, B, M, M, B, B, B, B, B, E, B, B, R, R,
R, E, B, B, B, R, B, B, R, M, E, B, B, R, R, B, B, R, R, R
En las tablas 1.7 y 1.8 se muestra la construcción de una distribución de 
frecuencias con las frecuencias relativas y acumulativas y su representación 
gráfica elemental mediante un histograma en posición horizontal.
Con un determinado objetivo se decide agrupar los excelentes y bien en la 
categoría satisfactorio y regular y mal en la categoría no satisfactorio, entonces 
se obtiene la tabla 1.9 con otra distribución de frecuencias del estado de salud 
de los 40 niños, agrupados en solo dos clases. Se han reagrupado las clases y 
reducido a dos valores solamente. 
Tablas 1.7. Distribución de frecuencias e histograma
Clases
Frecuencia
Histograma
Absoluta
Mal 6 ▄▄▄▄▄▄
Regular 12 ▄▄▄▄▄▄▄▄▄▄▄▄
Bien 17 ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄
Excelente 5 ▄▄▄▄▄
Total 40
Bioestadística cualitativa.indd 17 25/06/2010 12:19:42 p.m.
http://booksmedicos.org
18
Tabla 1.8. Distribución de frecuencias relativas y acumulativas
 
Clases
Frecuencia acumulativa
Relativa Absoluta Relativa
Mal 0,150 6 0,150
Regular 0,300 18 0,450
Bien 0,425 35 0,875
Excelente 0,125 40 1,000
Total 1,000
Tabla 1.9. Distribución de frecuencias con dos clases 
Clases Frecuencia
Satisfactorio 22
No satisfactorio 18
Total 40
1.4. Distribuciones de frecuencias por intervalos 
de clase y bivariada 
1. 4.1. Distribución de frecuencias por intervalos de clase
Las distribuciones de frecuencias pueden ser:
– Por conteo de valores distintos como las de las tablas 1.1 a la 1.9, se 
aplica cuando el número de valores distintos de la variable es muy 
escaso y entonces se toman estos valores como clases, esto es común 
en el caso de variables en escalas nominales y ordinales.
– Por intervalos de clase como las que se verán en las tablas 1.10 y 1.11, 
y se aplica cuando el número de valores distintos de la variable es muy 
numeroso y no conviene construir un número muy grande de clases, que por 
lo general es el caso de las variables en escalas de intervalos y razón. 
De modo que lo que decide es que si la variable tiene muchos valores 
distintos la distribución debe ser por intervalos y si tiene pocos o muy pocos 
valores distintos la distribución debe ser por conteo de valores distintos. No se 
excluye el uso de distribuciones por intervalos de algunas variables en escalas 
nominal y ordinal, que en realidad no son verdaderos intervalos sino más bien 
agrupaciones de clases. Un ejemplo de lo expresado son las distribuciones de 
las tablas 1.8 y 1.9 en que los valores de la variable peso están agrupados. En 
las nominales, en ocasiones, se pueden encontrar agrupamientos de clases, como 
por ejemplo si se trata de datos de colores se pudieran agrupar, por ejemplo, en 
muy oscuros, oscuros, claros y muy claros. 
Bioestadística cualitativa.indd 18 25/06/2010 12:19:42 p.m.
http://booksmedicos.org
19
1.4.2. Algoritmo para construirlas 
Si los las variables están al menos en escala de intervalo se procede así:
1. Se halla el recorrido: R = dato mayor – dato menor, en el ejemplo.
2. Se fija el número k de intervalos de clases. Se recomienda no menos de 
cinco ni más de veinte. 
3. Se halla la longitud o amplitud común de los intervalos L.
 
k
R
L = siempre aproximada por exceso. 
 También se puede fijar primero la longitud de intervalo L y hallar después 
el número de intervalos k por la fórmula k
R
L
= . 
4. El dato menor o un número menor suficientemente cercano será el límite 
inferior d del primer intervalo de clase y a partir de él se hallan los demás 
límites o extremos de los intervalos de clase sumando L sucesivamente 
de modo que los k intervalos serán: ]d , d + L]; ]d + L, d + 2L]; ]d + 2L, 
d + 3L];...; ]d + (k – 1)L, (d + kL)], si d + kL supera al máximo. 
 Donde d es el mínimo o un número menor suficientemente cercano y k 
el número de clases propuesto.
 Estos intervalos son abiertos por la izquierda, por lo que no incluyen los 
extremos inferiores, que se incluyen en el intervalo de clase anterior, y 
cerrados por la derecha que si incluyen el extremo superior.
5. Una vez construidos los intervalos de clase se procede a calcular las 
frecuencias de cada clase.
El ejemplo 1.5 muestra el cumplimiento de estos pasos.
Ejemplo 1.5:
Los datos de la tabla 1.10 corresponden a la cantidad de veces, en 1 año, que 
han asistido a la consulta 50 niños asmáticos de un área de salud de Marianao. 
Las observaciones se han ordenando previamente para facilitar el trabajo.
Tabla 1.10. Veces que asistieron a consulta 50 niños asmáticos 
 de Marianao
31 36 36 37 39 41 41 42 42 42
42 43 44 44 44 44 44 44 44 45
45 45 45 45 46 46 46 46 46 47
47 47 48 48 48 48 49 49 50 50
51 52 52 53 53 55 55 56 57 59
El número de veces que ha asistido a consulta es una variable de conteo, en escala ordi-
nal. El máximo, 59 y el mínimo, 31 del conjunto se han destacado.
Bioestadística cualitativa.indd 19 25/06/2010 12:19:42 p.m.
http://booksmedicos.org
20
– Paso 1: R = 59 – 31 = 28.
–Pasos 2 y 3: fijando k = 6 se tiene que . 
– Paso 4: comenzando por el número 30, menor y no muy distante del 
mínimo 31 y sumando la longitud calculada a 30 sucesivamente se 
obtienen 35, 40, 45, 50, 55 y 60, se para en 60 porque es el primer 
resultado que supera el máximo valor de los datos, que es 59 y también 
igual a 30 + 6(5). Se obtendrán los seis intervalos: ]30; 35], ]35; 40 ], 
]40; 45 ], ]45; 50 ], ]50; 55], ]55; 60]. Estos intervalos son abiertos por 
la izquierda, por lo que no se incluyen en los intervalos sus extremos 
inferiores y cerrados por la derecha, si se incluyen los extremos 
superiores en cada uno de ellos.
– Paso 5: para el cálculo manual de las frecuencias de cada clase se ofrece 
en la tabla 1.11 el llamado tarjado, que consiste en revisar cada dato 
original y anotar una rayita vertical en el intervalo de la distribución que 
le corresponde, se marcarán de alguna manera los números ya revisados 
para evitar equivocaciones posteriores que provocan tener que empezar 
de nuevo. Al final, la suma de las rayitas verticales de una celda será su 
frecuencia absoluta. Las rayitas verticales se agrupan en mazos de 5 o 
10 si conviene para facilitar el cómputo.
Tabla 1.11. Cálculo manual de la distribución de frecuencias
Intervalo de clase Tarjado Frecuencia
30-35 | 1
35-40 |||| 4
40-45 ||||| ||||| ||||| |||| 19
45-50 ||||| ||||| ||||| | 16
50-55 ||||| || 7
55-60 |||| 3
En la tabla 1.11 se ha incluido, además del tarjado, las frecuencias absolutas, 
y por último, la tabla 1.12 muestra las distribuciones de frecuencia absoluta, 
relativa y acumulativa del número de asistencias a la consulta, se ha utilizado 
una notación más precisa para los intervalos.
Tabla 1.12. Distribución con distintos tipos de frecuencias y clases.
Número de asistencias a 
consulta en 5 años Marca de clase
Frecuencia
Absoluta Relativa Acumulativa
30 < x ≤ 35 35 1 0,02 1
35 < x ≤ 40 40 4 0,08 5
40 < x ≤ 45 45 19 0,38 24
45 < x ≤ 50 50 16 0,32 40
50 < x ≤ 55 55 7 0,14 47
55 < x ≤ 60 60 3 0,06 50
Bioestadística cualitativa.indd 20 25/06/2010 12:19:42 p.m.
http://booksmedicos.org
21
La marca de clase de un intervalo puede ser un representante cualquiera del 
intervalo, pero habitualmente se toma el punto medio del intervalo. Pero como 
por lo general las variables en escala ordinal no tienen media, no se pueden 
sumar y dividir entre 2, se tomará según el caso uno u otro representante como 
marca de clase, se tomó el extremo superior de cada clase 
En distintos textos se consideran los intervalos abiertos por la derecha, 
abiertos o cerrados por ambos extremos, en otros se definen intervalos de clase 
reales, teniendo en cuenta la corrección por continuidad (el redondeo); todas 
estas variantes tienen sus ventajas y desventajas, la del redondeo proporciona 
precisión en el cálculo. Se prefirió la de intervalos múltiplos de 5 o 10 que re-
sulta más asequible a un amplio público, que se ajusta bastante bien al caso de 
las variables en escala ordinal. El elegir una u otra depende del objetivo, y en 
última instancia, todo depende de la naturaleza de los datos y del objetivo de 
la distribución en la construcción de distribuciones de frecuencias.
Como las distribuciones univariadas, las distribuciones bivariadas de fre-
cuencia permiten descubrir también regularidades, pero entre sus regularidades 
están también las de asociación o relación entre las dos variables en cuestión. 
1.4.3. Gráfica piramidal de frecuencias
Es una gráfica muy usual en demografía es la llamada piramidal, utilizada 
fundamentalmente para comparar la distribución de dos variables. 
Consiste en dos histogramas o gráficas de barras horizontales con las 
mismas clases, que se colocan uno con las barras hacia la izquierda del eje 
vertical y el otro con las barras hacia la derecha de modo que en el eje vertical 
coincidan los pares de barras izquierdas y derechas de las dos distribuciones. 
Para lograr esto, en la distribución de frecuencias conjunta se cambian los 
signos de las frecuencias de la variable que se desea que sus barras queden 
hacia la izquierda.
Se pueden construir con el software Microsoft Excel, por ejemplo, si se 
desea construir la gráfica piramidal de frecuencias de la distribución por sexo 
de variable EV1 de la matriz de datos DatosM2 de la tabla 1.3:
1. Se construyen las distribuciones de frecuencias de EV1 de los varones 
y la de las hembras. 
2. Se le ponen signos menos (–) delante a las frecuencias de los varones
3. Se colocan las dos columnas (o filas) de frecuencias una al lado de la 
otra.
4. Se selecciona la distribución de frecuencias, si las clases son numéricas 
es preferible seleccionar solo las dos columnas de frecuencias. 
5. Se selecciona el asistente para gráficas y se escoge en él la grafica de 
barra horizontal apilada, preferiblemente tridimensional o cilíndrica 
apilada y se hace clic en Siguiente.
Bioestadística cualitativa.indd 21 25/06/2010 12:19:42 p.m.
http://booksmedicos.org
22
6. Si es necesario se selecciona la pestaña Líneas de división y se 
deseleccionan las líneas de división que aparezcan seleccionadas y se 
hace clic en Siguiente. 
O bien, en lugar de 6 seleccione en el asistente para gráficos la opción 
Gráfico piramidal tipo barra apilada con forma piramidal y Finalizar. Haga, 
a continuación, clic derecho en alguna barra para obtener el cuadro de diálogos 
Formato de serie de datos en que se seleccionará la pestaña Formas y de ellas 
la 1, la cilíndrica o rectangular y en la pestaña Opciones o en Ancho de rango, 
para unir las barras o cilindros.
En la tabla 1.13 aparece la distribución final de la variable EV1 de la matriz 
de datos DatosM2 con los las frecuencias del sexo con signos cambiados y la 
gráfica pirámidal en tercera dimensión (figura 1.10).
Tabla 1.13. Distribución de la variable EV1 agrupada por sexos
 Sexo EV11 2 3 4 5 6
Femenino 0 –3 –4 –3 –8 –2
Masculino 2 5 7 6 3 7
Figura 1.10. Gráfica piramidal de la variable EV1 agrupada por sexos. 
Se observa lo diferentes que son las distribuciones de los dos sexos, aunque 
en los valores 2, 3 y 4 se comportan de modo casi proporcional, más bajo en 
los del sexo femenino y para los 5 y la 6 aproximadamente se invierten sus 
frecuencias. La interpretación y el nombre de piramidal depende de los datos, 
se realizaron de estos pocos datos para simplificar, pero deben construirse a 
partir de muchos datos para que se aprecien bien las regularidades.
1.4.4. Distribuciones bivariadas de frecuencia
Es una distribución de frecuencias de un vector de dos variables, en que 
las clases de una encabezan columnas y los de la otra las filas, la intersec-
ción de filas y columnas determina celdas en que se ponen las frecuencias 
conjuntas. 
Bioestadística cualitativa.indd 22 25/06/2010 12:19:43 p.m.
http://booksmedicos.org
23
Ejemplo 1.6:
Las distribuciones de las tablas 1.13 y 1.14 son bivariadas, a partir de esta 
última se construirán las distribuciones marginales y una distribución con la 
variable día del mes agrupada por intervalos de clase.
Tabla 1.14. Frecuencia de visitas al médico por día del mes, sexo y total
Día
Sexo
Suma
M F
1 3 5 8
2 2 4 6
3 5 4 9
4 8 10 18
5 10 14 24
6 1 6 7
7 12 18 30
8 15 25 40
9 9 7 16
10 5 9 14
11 13 17 30
12 16 23 39
13 5 7 12
14 17 22 39
15 2 8 10
16 6 14 20
17 4 11 15
18 21 23 44
19 4 10 14
20 21 19 40
21 11 9 20
22 13 11 24
23 14 11 25
24 11 16 27
25 11 18 29
26 6 11 17
27 9 14 23
28 9 12 21
29 17 12 29
30 19 13 32
Bioestadística cualitativa.indd 23 25/06/2010 12:19:43 p.m.
http://booksmedicos.org
24
Las distribución de la variable sexo, llamada marginal, se obtiene en la tabla 
1.15 sumando las columnas de ambos sexos de la tabla 1.14.
Tablas 1.15. Distribución marginal de la variable sexo
Clases Frecuencia
Masculino 299
Femenino 383
 La distribución marginal de la variable día del mes la constituyen la primera 
y la última columna de la tabla 1.14. En la tabla 1.16 se ofrece la distribución 
bivariada de la tabla 1.14, pero conlos días del mes agrupados por intervalos de 
clase ya que sus valores distintos son bastantes; los intervalos son de longitud 
5, y, por ejemplo, 0 < x ≤ 5 significa entre los días primero y quinto del mes, 
incluyendo el 5 pero no el 0, entonces muestra las cantidades personas por sexo 
y por intervalo de días a diferencia de la tabla 1.14, la distribución de los días 
es por conteo de valores distintos.
Tabla 1.16. Cantidades personas por sexo y por intervalo de días
Clase M F Total
0 < x ≤ 5 28 37 65
5 < x ≤ 10 42 65 107
10 < x ≤ 15 53 77 130
15 < x ≤ 20 56 77 133
20 < x ≤ 25 60 65 125
25 < x ≤ 30 60 62 122
Total 299 383 682
1.5. Indicadores de tendencia central
1.5.1. La moda
En un conjunto de datos es el dato más frecuente, es decir, el que más se 
repite.
Ejemplo 1.7: 
En el ejemplo 1.1 la moda es Playa (P), en el ejemplo 1.2 la clase buen peso 
(B) y en el ejemplo 1.4 bien (B).
A veces en lugar de la moda se define el concepto de clase modal, que es 
la clase con mayor frecuencia de una distribución. 
Bioestadística cualitativa.indd 24 25/06/2010 12:19:43 p.m.
http://booksmedicos.org
25
En el ejemplo 1.5 la clase modal es el intervalo de 40 a 45 y la moda es 44 
que se repite siete veces.
Problema propuesto 1.3:
Diga cuáles son las modas de los siguientes conjuntos de datos:
1. A, A, B, C, A, B.
2. D, E, F, F, G, D, E.
3. A, B, C, D, E, F.
4. A, B, C, A, B, C, A, B, C.
Respuestas: 
1. A.
2. D, E y F.
3. No hay (o las seis letras). 
4. No hay (o las tres letras A, B y C).
1.5.2. La mediana
En un conjunto es el elemento que ocupa la posición central en la lista de 
los elementos ordenados. Pero la mediana se define para variables continuas, 
solo en este caso es única y exacta. Implica que por debajo de ella hay un 50 % 
de los datos y por encima de ella otro 50 %, porque ella es un punto y, por 
tanto no cuenta, porque no tiene dimensiones o porque entre la mediana y otro 
punto cualquiera hay infinitos puntos tan cercanos a ella como se quiera. Para 
distribuciones discretas la definición es solo aproximada, y puede darse el caso 
de que más de un elemento aparezca como mediana, porque su valor es uno del 
conjunto de datos y cada valor representa un porcentaje, que influye y por tanto 
la suma de los porcentajes de datos por encima o por debajo de las mediana 
no será nunca igual a 100 % si no se incluye en ellos la mediana. Cuando más 
de un elemento aparezca como mediana se escogerá uno y, si los datos son 
numéricos y admiten promedio, se tomará el promedio de todas las posibles 
medianas, si no se tomará uno de los dos como mediana, pero mencionando 
que hay otro que también cumple. 
En el ejemplo 1.4, de los 300 datos de la variable aspecto, la mediana es 
la clase buen peso (B) y tiene frecuencia 86. En el ejemplo 1.5 la mediana 
es 46.
A veces en lugar de la mediana se define el concepto de clase de la mediana, 
que es la clase que contiene la mediana de una distribución, este es el caso de 
las distribuciones por intervalos, en las que es mucho más fácil de calcular y 
la única forma si solo se cuenta con la distribución de frecuencia y no con los 
datos originales.
En el ejemplo 1.5 la mediana es el intervalo de 40 a 45. 
Bioestadística cualitativa.indd 25 25/06/2010 12:19:44 p.m.
http://booksmedicos.org
26
A continuación se exponen, en dos filas, 40 datos ordenados de menor a 
mayor:
1 2 2 3 4 4 4 4 5 5 5 5 6 6 7 7 8 8 8 9
10 11 11 11 12 13 14 14 15 16 16 17 17 18 21 22 23 23 24 25
Se tiene que la clase de la mediana está entre 9 y 10, porque el número 
total de datos es 40 y ser ellos los de órdenes 20 y 21; pero si es posible se 
toma como mediana que tiene el 50 % de los 40 datos por debajo
de él y el otro 50 % por encima, pero pudiera ser que el 9,5 no se admitiera 
como dato en esta lista y entonces ocurriría que no se sabe cual es la mediana 
porque el 9 tiene por debajo el 48 % de los datos y por encima el 50 % y el 
10 tiene por debajo el 50 % y por encima el 48 % de los datos. Ninguno de 
los dos es mediana de acuerdo con la definición, porque, además, ninguno 
está en el centro de la lista ordenada. De modo que se tiene que cambiar la 
definición de mediana para poder calcular la mediana de datos discretos.
Una caracterización que mejora el cálculo de la mediana de un conjunto de 
datos en el caso de variables discretas plantea que: 
La mediana es un número mayor y también menor que a lo sumo el 50 % de los 
datos del conjunto. Esta caracterización garantiza que al menos haya una mediana, 
porque con la definición original a menudo ninguno de los elementos del conjunto 
cumple con la definición de mediana. No excluye que haya más de un elemento 
que cumpla estas condiciones, y si lo hay se acostumbra a tomar el promedio de 
ellos como mediana, si tiene sentido, si no uno cualquiera de ellos.
Problema propuesto 1.4: 
Diga cuáles son las medianas de los siguientes conjuntos de datos:
1. 1, 2, 5, 7, 9.
2. 1, 2, 5, 7.
3. Considerando el orden alfabético:
a) A, B, C, D, E.
b) A, B, C, D, E, F. 
Respuestas:
1. 5.
2. Está entre 2 y 5, es
 
; 2 o 5.
3. a) C. b) Está entre C y D, es C o D.
Las clases modal y de la mediana son aproximaciones de la moda y la me-
diana, respectivamente, que se usan cuando se tiene solamente una distribución 
de frecuencias y no los datos originales.
Bioestadística cualitativa.indd 26 25/06/2010 12:19:44 p.m.
http://booksmedicos.org
27
Para datos en escala nominal, sin orden entre las clases, no tienen sentido 
los conceptos de mediana porque no lo tiene ordenar las clases, ni el de punto 
central ni el de por debajo ni el por encima ni a la izquierda ni a la derecha de 
un puntaje. 
1.5.3. La media
Es el indicador de tendencia central más usual, pero solo cuando la variable 
está en escala de intervalo o razón, no obstante, es tan buen indicador que a ve-
ces se usa incorrectamente con datos numéricos en escala ordinal, cuando esta 
proviene de variables que admiten la media, porque ofrece más información que 
la mediana. Además, muchos indicadores o medidas que se conocen y se utilizan 
frecuentemente en realidad son medias, por ejemplo, la velocidad de un móvil, 
el peso de una persona, la cantidad de sangre en el cuerpo de una persona, la 
distancia hasta un punto, entre otras, comúnmente son medias; por esto y por su 
uso como referencia en la estadística no paramétrica se ofrece su definición.
Si la variable se denota por X la media se denotará y se definirá entonces 
mediante:
n
XXX
X n
+++= ···21
Y se denota por:
∑
=
=
n
i
iXn
X
1
1
Donde el símbolo ∑
=
n
i
iX
1
 indica la suma de los valores Xi que tienen subíndice 
comprendido entre 1 y n, ambos inclusive. Por ejemplo la media de 2, –4, 0, 8 
es igual a 5,1
4
8042 =++− .
1.5.4. La media ponderada
Considere los datos 5, 9, 8, 5, 8, 9, 6, 5, 6, 7, 8, 6, 6, 6, 8. Su suma se cal-
culará de manera más fácil así: 
En este caso k = 5 es el número de valores distintos: 5, 6, 7, 8 y 9, del total 
de n = 15 valores. 
En el caso de una distribución de frecuencias con marcas de clase x1, x2,…, 
xk con frecuencias respectivas f1, f2,..., fk, entonces: 
∑
=
=
k
i
ii xfn
X
1
1
 
Bioestadística cualitativa.indd 27 25/06/2010 12:19:44 p.m.
http://booksmedicos.org
28
Donde f1, f2,..., fk son las frecuencias absolutas y ∑
=
=
k
i
ifn
1
.
Por ejemplo, para hallar la media de la distribución de frecuencias, de la 
tabla 1.12, teniendo en cuenta que lo que se registró cada día fue si asistió o 
no, que tiene sentido la media y que daría un valor más próximo al verdadero 
de 46,18, el valor aproximado de:
1(32,5) + 4(37,5) + 19(42,5) + 16(47,5) + 7(52,5) + 3(57,5) = 2 290 divi-
diendo entre 50
Tomando como marcas de clase los puntos medios de los intervalos, 
que deben brindar el valor más aproximado, en este caso la media es igual a 
.
Sean w1, w2,..., wk las frecuencias relativas de la distribución n
f
w ii = , en-
tonces:
 y i
k
i
i xwn
X ∑
=
=
1
1 
Esta última fórmula es la de la media ponderaday a las wi se les denomina 
ponderaciones de los puntos xi.
Por ejemplo, si las ponderaciones de –3, 0, 5, 7 son 0,2; 0,4; 0,3 y 0,1, 
entonces su media ponderada es igual a 0,2(–3) + 0,4(0) + 0,3(5) + 0,1(7) = 
–0,6 + 0 + 1,5 + 0,7 =1,6. 
La media ponderada es un buen indicador cuando se tienen varias columnas 
de datos con valores similares comparables y que admitan medias o sumas, 
puede ser conveniente promediar esos valores por fila y si las columnas tienen 
distintas ponderaciones, es decir, los valores de una tiene mayor peso que los 
de otra, entonces el promedio o la suma deben ser ponderado y estos promedios 
constituirán una variable cuyos valores representan los valores promedios o 
sumas de las filas. Algo análogo puede hacerse con las columnas. 
1.6. Indicadores de posición 
1.6.1. Percentil de orden p
Sea P un porcentaje, el percentil de orden P de la variable X es el puntaje xP 
tal que por debajo de él se halla el P % de la distribución de X. Pero el percentil 
de orden P es único y exacto solo para variables continuas y en tal caso por 
encima de él se halla el (100 − P) % de los valores de la variable. Para utilizarlo 
en el caso de variables discretas hay que hacer aproximaciones y estimaciones 
para tratar de precisarlo.
Bioestadística cualitativa.indd 28 25/06/2010 12:19:44 p.m.
http://booksmedicos.org
29
Por ejemplo, el percentil de orden 80 de los puntos del segmento de la figura 
1.11, comprendido entre los números reales 0 y 5, es el punto correspondiente 
al número 4, por debajo de él se halla el 80 % de los puntos del segmento y 
por encima el 20 %. El percentil de orden 50 o mediana es igual a 2,5, que si 
está entre los valores posibles de la variable, aunque no coincida con ningún 
valor entero. En este caso si se quitara el punto cuyo valor es 2,5, la mediana 
seguiría siendo 2,5 o un número tan próximo a él como se quiera, porque entre 
ellos hay infinitos números. 
Figura 1.11. Segmento de recta.
A menudo resulta más práctico usar una caracterización similar a la usada 
en la definición de la mediana, para abordar en particular los casos discretos 
en que no es aplicable la definición. 
El percentil de orden P de una variable X es el puntaje xP tal que por debajo 
de él se halla a lo sumo el P% y por encima de él a lo sumo el (100 – P)% de 
los valores de X. 
Observaciones:
1. Los percentiles se denominan también cuantiles.
2. La mediana coincide con el percentil de orden 50. 
3. Se denominan cuartiles los percentiles de órdenes múltiplos de 25.
4. Se denominan deciles los percentiles de órdenes múltiplos de 10.
 En los casos, 3 y 4, se incluyen los percentiles de órdenes extremos 0 
y 100, pero se acostumbra a llamar primer cuartil o cuartil inferior al 
percentil de orden 25 y tercer cuartil o cuartil superior al percentil de 
orden 75, por su amplio uso, ignorando los cuartiles de orden 0 y 100. 
En este caso la mediana constituye el segundo cuartil. 
5. En la teoría de probabilidades se considera la proporción o probabilidad 
p (minúscula) comprendida entre 0 y 1 y se habla entonces del percentil 
de orden p que concide con el definido respecto al porcentaje P pues 
se tiene que P = np. Por ejemplo el percentil de orden 0,95 será igual a 
nuestro percentil de orden 95. 
Ejemplo 1.8:
Con los datos de la tabla 1.10 del ejemplo 1.5, ordenados por fila y acom-
pañados del porcentaje que acumula cada uno, se obtiene:
312% 364% 366% 378% 3910% 4112% 4114% 4216% 4218% 4220%
4222% 4324% 4426% 4428% 4430% 4432% 4434% 4436% 4438% 4540%
4542% 4544% 4546% 4548% 4650% 4652% 4654% 4656% 4658% 4760%
Bioestadística cualitativa.indd 29 25/06/2010 12:19:45 p.m.
http://booksmedicos.org
30
472% 474% 4866% 4868% 4870% 4872% 4974%
 
4976%$
5078% 5080%
5182% 5284% 5286% 5388% 5390% 5592% 5594% 5696% 5798% 59100%
Por ser 50 números cada número de ellos acumula un 2 % del total de nú-
meros, por tanto, el percentil de orden 80 está entre los números 50 y 51, que 
ocupan las posiciones 39 y 40 los dos 50 y la posición 41 el 51.
El 50 tiene por debajo 38 números que representan el 76 % del total, y por 
encima 10 números, que representan el 20 % del total.
El 51 tiene por debajo 40 números que representan el 80 % del total, pero 
por encima tiene 9 números que representa el 18 % del total 50.
Luego, según la definición ninguno es el percentil de orden 80. Para resolver 
el problema se utiliza la caracterización dada después de la definición, y según 
ella ambos números 50 y 51 son percentiles de orden 80 porque cada uno tiene 
por debajo a lo sumo el 80 % y por encima a lo sumo el 20 % de los datos. Si 
tuviera sentido promediarlos se obtendría una solución mejor diciendo que el 
percentil de orden 80 es , pero no necesariamente 50,5 es 
admisible, pues no es un número de la lista. 
Problema propuesto 1.5:
Diga cuáles son los percentiles de órdenes 0,50; 0,90 y 0,25 de los siguientes 
conjuntos de datos:
1. Los puntos del segmento de recta de la figura 1.11. 
2. 2, 4, 7, 9, 11. 
3. A, B, C, D, E, E, F, F, F, G, asumiendo el orden alfabético.
Respuestas: 
1. X50 = 2,5; X90 = 4,5; X25 = 1,25 (exactos por ser continuo el conjunto 
de datos).
2. X50 = 7; X90 = 11; X25 = 4.
3. X50 = E; X90 está entre F y G (es F o G); X25 = C.
1.7. Indicadores de dispersión
1.7.1. Recorrido o amplitud 
En un conjunto de datos numéricos es igual a la diferencia entre su valor 
máximo y su valor mínimo, por ejemplo, el recorrido de los 50 números de la va-
riable EdC de la matriz DatosM2 de la tabla 1.3 es igual a 20,51 – 1 = 19,51.
Bioestadística cualitativa.indd 30 25/06/2010 12:19:45 p.m.
http://booksmedicos.org
31
1.7.2. Recorrido intercuartílico
En un conjunto de datos numéricos es igual a la diferencia entre su percentil 
de orden 75 y su percentil de orden 25, es decir, entre el sus cuartiles tercero y 
primero. Por ejemplo, el recorrido intercuartílico de los la variable EdC de la ma-
triz DatosM2 de la tabla 1.3 es igual a la diferencia entre 12,22 − 7,27 = 4,95. 
1.7.3. La varianza
Es igual a la media de las diferencias cuadráticas de cada dato respecto a 
la media del conjunto, o sea:
∑
=
−=
n
i
i XXn
S
1
22 )(
1
1.7.4. Desviación estándar
Es igual a la raíz cuadrada de la varianza.
La varianza y la desviación estándar exigen escalas de cuantificación de 
intervalo o razón. Son los mejores indicadores de dispersión pero para varia-
bles en estas escalas. De ella dependen el coeficiente de variación y el error 
estándar de la media. La varianza se denota por S2 o por V(X) y se tiene que la 
desviación estándar:
∑
=
−=
n
i
i XXn
S
1
2)(
1
 
Donde S y S2 son indicadores de dispersión absolutos.
1.7.5. Coeficiente de variación
Es igual a la desviación estándar entre la media, o sea: 
X
S , es un indicador relativo
de dispersión, se acostumbra a multiplicarlo por 100 y expresarlo como porcentaje.
1.7.6. Gráficas de cajas y bigotes
También conocidos como de cajas y alambres, reflejan la distribución de 
los cuartiles mínimo y máximo en los extremos de los bigotes, los percentiles 
de órdenes 25 y 75 en los extremos de la caja y la mediana dentro de la caja. 
Se usa también con los indicadores media dentro de la caja, y la media más 
y menos funciones de la desviación estándar en los extremos de la caja y de 
los bigotes. También se puede construir con la media más y menos desviación 
estándar (SD) y más y menos 1,96SD y con la media más y menos el error 
estándar (EE) y la media más y menos 1,96EE.
Bioestadística cualitativa.indd 31 25/06/2010 12:19:45 p.m.
http://booksmedicos.org
32
Por ejemplo, para las variables EV1, EV2, EV3, CI1, CI2 y CI3 de la matriz 
DatosM2 de la tabla 1.3, se pueden construir estas gráficas individuales, como 
las de la figura 1.12, de las tres variables en escalas ordinales comparables EV1, 
EV2, EV3 con la mediana, la diferencia entre los percentiles de órdenes 75 y 
25 y el recorrido, o sea, la diferencia del máximo y el mínimo o percentiles de 
orden 100 menos el de orden 0. 
Figura1.12. Gráfica de cajas y bigotes de EV1, EV2 y EV3.
En la figura 1.12 se observa en EV3 que el mínimo coincide con el percen-
til 25 y que EV2 es simétricas respecto a la mediana, no así EV1 que está un 
poco desplazada hacia los valores altos. Los valores de EV2 entre los cuartiles 
inferior y superior están bastante dispersos, al igual que los valores de EV1 
comprendidos entre el mínimo y el primer cuartil y los de EV3 comprendidos 
entre el tercer cuartil y el máximo.
Para las tres variables en escalas de intervalo o razón CI1, CI2 y CI3 cada 
gráfica de la figura 1.13 muestra la media y la media más menos el error estándar 
de la media, media ± SE, y la media más menos el producto de 1,96 por el errror 
estándar de la media, media ± 1,96SE. También se observan distintos recorridos 
de las tres variables, en particular los valores de CI1 difieren notablemente de 
los de CI2 y de CI3. Se puede decir que las tres son simétricas. La de menor 
dispersión es CI3 y la de mayor dispersión CI2.
Problema propuesto 1.6: 
Construya las gráficas de cajas y bigotes apropiadas para la variable GRM 
y EdC de la matriz de DatosM2 (tabla 1.3).
Bioestadística cualitativa.indd 32 25/06/2010 12:19:45 p.m.
http://booksmedicos.org
33
Figura 1.13. Gráfica de cajas y bigotes de CI1, CI2 y CI3.
1.8. Conjuntos, matrices, ficheros o archivos de datos en las 
diferentes escalas
Es costumbre presentar los conjuntos de datos, obtenidos en las investiga-
ciones en forma tabular o matricial por columnas y filas, y en la terminología 
computacional llamarles ficheros, archivos de datos y bases de datos. Un ejemplo 
de tal matriz de datos es la tabla 1.3 con el nombre de DatosM2, aunque también 
se mostrará otro que se utilizará fundamentalmente para problemas propuestos 
y evaluaciones. Se trata de modelos de matrices de datos de investigaciones 
experimentales donde se presentan variables medidas en los cuatro tipos de 
escalas, variables de conteo y variables discretas y continuas. Tales matrices 
prestan un gran servicio puesto que representan un resumen, relativamente fácil 
de manipular, de una gran cantidad de puntajes de mediciones y registros de 
observaciones con muy poca o ninguna pérdida de información. Estas matrices 
de datos prestan una gran ayuda en la preparación de la clase porque el maestro 
no tiene necesariamente que buscar datos apropiados para ejemplificar, con estos 
se pueden ejemplificar casi todos los casos de una, dos y más de dos poblaciones, 
en los casos de muestras independientes e igualadas en cada una de las escalas 
de cuantificación. 
Las variables repetidas terminadas en números distintos corresponden a 
registros efectuados en distintos momentos o a muestras apareadas o igua-
ladas.
Bioestadística cualitativa.indd 33 25/06/2010 12:19:45 p.m.
http://booksmedicos.org
34
Observación: Para cerrar el estudio de las característica o indicadores numé-
ricos de una variable, un ejemplo de otro aspecto de mucho interés, que debemos 
tomar en cuenta, relacionado con la forma o el procedimiento necesario, para 
obtener semejantes matrices de datos, se puede consultar en el epígrafe 5.7.
La tabla 1.17, denominada matriz de DatosMT, contiene los datos de una 
muestra aleatoria de 50 pacientes de un área de salud. 
P1, P2 y P3 indican las tres patologías sufridas en tres distintos momentos 
de su vida.
G1, G2 y G3 indican el grado correspondiente de cada una de ellas. 
T1, T2 y T3 el tiempo de recuperación en horas expresados con dos decimales. 
Tabla 1.17. Matriz de datos DatosMT
Grupo Sexo P1 P2 P3 G1 G2 G3 T1 T2 T3
B M E D D B RB R 84,19 93,25 84,59
A F F D E RB B MB 72,67 68,35 72,67
B M E E E MB MB MB 86,89 86,89 86,89
A F F E E MB MB R 88,97 69,33 78,97
A F D D D RB RB RB 71,45 71,45 71,45
B M D E E R E B 68,55 74,58 70,01
B M F F E MB MB RB 76,28 75,86 76,28
A F F F E B B B 72,56 72,56 65,89
B M E E E B B B 72,45 72,45 72,45
A F F F E E E E 75,88 75,88 75,88
A F D D D E R RB 84,41 90,51 84,41
B M F F D B E RB 90,96 75,6 90,96
B M E E E MB MB MB 75,46 75,46 75,46
B M D D D E M MB 77,88 75,92 78,87
B M E D E RB MB RB 79,81 76,81 79,81
C M F F E E RB R 72,84 86,43 72,84
C M D D E MM MM MM 70,76 70,76 70,76
A F F D E MB R RB 81,92 79,43 81,92
A F F E E RB RB R 76,78 87,06 76,78
C M E E E MB MB MB 86,91 86,91 86,91
C M E E E MB MB MB 86,96 86,96 80,96
C M D E E E B R 83,16 80,94 83,16
C M D D E M E B 72,48 74,86 72,48
A F D E E MB B MB 85,23 79,86 85,23
Bioestadística cualitativa.indd 34 25/06/2010 12:19:46 p.m.
http://booksmedicos.org
35
A F E F D MB R R 68,43 82,3 68,43
C M F D D M E B 75,86 83,05 75,86
C M E E D R MB B 79,83 73,53 79,83
A F D D D MB MB MB 86,73 86,73 86,73
A F F F D E R RB 87,66 86,82 87,66
A F D D E MB RB E 85,67 71,79 85,67
A F F F D MB R B 83,55 81,8 84,45
C M E F E B MB RB 77,59 96,01 77,59
A F F F E B B B 72,56 72,56 72,56
C M D F D E RB RB 77,1 76,36 77,1
C M F F E MB B B 66,29 75,59 66,29
A F D D E R R R 76,76 76,76 76,76
B F D E D RB RB R 86,6 77,27 86,6
B F F F E R R RB 82,08 75,35 82,08
C M F E E B RB B 83,27 82,83 83,27
C M D D D MB R B 82,57 70,77 82,57
C M D D D RB MB R 73,96 74,07 74,44
B F E E E MB MB MB 75,46 75,46 75,46
C M E E E MB MB MB 75,88 75,88 75,88
B F D D D RB RB RB 71,45 71,45 71,45
B F D D D MB MB MB 86,74 86,74 86,74
C M F F E E RB B 82,53 90,12 82,53
B F F F E B B B 86,62 86,62 86,62
C M E E E R RB RB 84,29 86,99 84,29
B F D E D B B RB 83,15 88,78 83,15
B F F F E E E E 75,88 75,88 75,88
1.9. Indicadores de correlación
Hasta ahora se han introducido indicadores de una variable, pero cuando se 
tienen dos variables, además, de los indicadores de ambas por separado, aparecen 
nuevos indicadores como son los que miden el grado de variación conjunta, 
relación o asociación entre ellas. Las distribuciones de frecuencia bivariada, 
entre las regularidades que descubren están las de asociación o correlación 
entre las dos variables en cuestión. Ahora se introducirán tales indicadores de 
asociación o correlación pero primero se precisarán las notaciones. 
Bioestadística cualitativa.indd 35 25/06/2010 12:19:46 p.m.
http://booksmedicos.org
36
Sean (x1, y1), (x2, y2)..., (xn, yn) los valores observados del vector (X, Y), o 
sea, los valores de las variables X e Y apareados.
Se denotarán por X la media de los valores de X, por Y la media de los 
valores de Y, y por SX y SY, respectivamente, sus desviaciones estándar.
1.9.1. Covarianza y coeficiente de correlación lineal de Pearson
Si dos variables X e Y están en escalas de intervalo o razón se puede cal-
cular la covarianza entre X e Y que se denota por SXY o Cov(X, Y) y se define 
como:
( )( )yyxxS i
n
i
inXY −−= ∑
=1
1
Y también se puede expresar como yxyxS
n
i
iinXY −= ∑
=1
1 .
O sea, se puede expresar como la media de los productos menos el producto 
de las medias y es un indicador de variación conjunta de los dos conjuntos de 
valores en escala de intervalo o razón, pero su valor es absoluto, no es relativo, 
lo que dificulta su interpretación. 
El coeficiente de correlación lineal de Pearson r es igual al cociente de la 
covarianza de las dos variables entre el producto de las dos desviaciones es-
tándares. Mide lo mismo que la covarianza, pero carece de unidad de medida, 
es un índice relativo, por lo que su interpretación es más simple, sus valores 
están comprendidos entre –1 y 1 y solo es aplicable, al igual que la covarianza, 
cuando ambas variables están al menos en escala de intervalo:
YX
XY
SS
S
r =
 
Su fórmula de cálculo es:
∑ ∑∑ ∑
∑ ∑ ∑
= == =
= = =








−







−
−
=
n
i
n
i
ii
n
i
n
i
ii
n
i
n
i
n
i
iiii
yynxxn
yxyxn
r
1
2
1
2
1
2
1
2
1 1 1
Aparentemente más compleja, pero que como se puede ver se compone 
solo de las sumas de las columnas de la tabla 1.18, de modo que si se tiene que 
calcular a mano r basta solo con disponer los datos en una tabla como esta, 
apropiada incluso para verificaciones posteriores.
La tabla

Continuar navegando