Logo Studenta
¡Este material tiene más páginas!

Vista previa del material en texto

CURSO DE BIOESTADISTICA 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Documento elaborado por: 
Luis A. Villarroel del Pino 
Magíster en Estadística 
Instructor Asociado Departamento de Salud Pública 
Facultad de Medicina 
P. Universidad Católica de Chile 
 
 Pág.2 
CURSO DE BIOESTADISTICA 
I. Estadística Descriptiva 
 
L.Villarroel 
 
 
Generalmente la investigación científica en medicina está dirigida al estudio de una determinada 
población. Esta población habitualmente la componen personas con cierta patología o alguna 
cualidad de interés. 
 
Como generalmente no se puede estudiar toda la población, es necesario tomar una muestra de 
ésta, estudiarla e inferir que los resultados que se obtienen de la muestra son representativos de 
lo que se habría obtenido en la población, si se hubiese estudiado. 
 
Este proceso requiere el uso de la estadística en dos etapas: primero, obtener una estadística 
descriptiva de los datos muestrales; segundo, hacer inferencias a la población mediante 
estadística analítica. 
 
Ambas etapas requieren seguir pasos en forma rigurosa, de modo que los resultados tengan 
validez. En este primer capítulo revisaremos los elementos necesarios para hacer una buena 
estadística descriptiva de los datos. En el segundo, revisaremos los test estadísticos que nos 
permitan hacer inferencias a la población. 
 
 
DEFINICIONES 
 
Población y Muestra 
Generalmente las inquietudes de investigación nacen del desconocimiento que se tiene de alguna 
población de interés: personas que mueren a causa de un infarto, población que sufre de 
colelitiasis, afectados de cáncer gástrico, niños con bajo peso de nacimiento, diabéticos, etc. 
 
Población: "Es el Conjunto total de objetos o de personas, con algo en común, de interés en un 
estudio". 
 
)Por qué no estudiar la población completa? 
 
i Problemas presupuestarios. Es de un alto costo hacer un censo. 
ii Limitaciones de tiempo. Además de que un estudio prolongado necesariamente debe 
considerar cambios que se produzcan en las variables importantes a causa del tiempo. 
iii Dificultad de acceso. No necesariamente dificultad geográfica, sino de identificación de 
los individuos que componen la población (ejemplo: población de portadores de VIH). 
 
Debido a estos problemas, debemos conformarnos con trabajar con una muestra de la población 
de interés. 
 
Muestra: "Es un subconjunto de la población en estudio. Subconjunto que es realmente 
observado". 
 
 Pág.3 
 
El objetivo, entonces, es trabajar con una muestra de la población de interés, pero a la vez 
queremos ganar información sobre la población de la cual proviene. Es decir, deseamos que las 
características de la población se vean reflejadas en la muestra que obtengamos. 
 
Para cumplir con lo anterior, la muestra seleccionada debe cumplir con ciertos requisitos. 
 
-Debe ser una muestra aleatoria. 
-Debe ser de un tamaño mínimo. 
-Debe ser una muestra representativa de la población. 
 
Una muestra es aleatoria cuando todas las personas u objetos de la población tienen la misma 
probabilidad de ser elegidos en la muestra. 
 
Una muestra es de tamaño mínimo adecuado cuando las inferencias que se puedan hacer en 
base a ésta tienen un error de estimación acotado (generalmente, el error máximo aceptado es de 
5%). 
 
Una muestra es representativa de una población cuando la o las características más importantes 
de la población están presentes en la misma proporción o promedio en la muestra. Es decir, si la 
población tiene 30% de hombres y 70% de mujeres, esta proporción se mantiene en la muestra. 
Si la edad promedio de la población es 50 años, en la muestra se observa más o menos lo mismo, 
etc. 
 
Si una muestra es aleatoria y de tamaño adecuado, entonces esta suele ser además 
representativa de la población de interés. 
 
Nótese que la aleatoriedad y el tamaño mínimo son elementos controlables (existen métodos de 
selección aleatoria de los datos y podemos calcular el tamaño mínimo adecuado). En cambio, la 
representatividad es una cualidad de la muestra obtenida. 
 
 
 
MÉTODOS DE SELECCIÓN DE UNA MUESTRA ALEATORIA. 
 
1. Muestreo Aleatorio Simple 
Es una muestra en que cada sujeto u objeto tiene una probabilidad igual e ser seleccionado en la 
muestra. 
 
Las formas usuales de seleccionar una muestra aleatoria simple es mediante una tabla de 
números aleatorios o una lista de números aleatorios generada por un computador. También se 
puede recurrir a una tómbola o una bolsa con papeles numerados para este tipo de muestreo. 
 
Si se desea obtener una muestra aleatoria representativa de los alumnos de un colegio que tiene 
800 alumnos en educación básica y 400 en media, de modo de ESTIMAR la edad promedio de 
los alumnos de todo el colegio, )Es conveniente una muestra aleatoria simple? 
 
 Pág.4 
2. Muestreo Estratificado 
Es una muestra en que se divide primero la población en estratos o grupos separados y luego se 
obtiene una muestra aleatoria simple al interior de cada estrato. 
 
El muestreo aleatorio estratificado es llamado proporcional (o con afijación proporcional), si los 
estratos están presentes en la muestra en igual proporción que en la población. En ocasiones, si 
un estrato presenta mucha variabilidad (o dispersión), es recomendable hacer un muestreo 
proporcional al tamaño de la variabilidad de cada estrato. Esta variante se denomina afijación no 
proporcional. 
 
 
3. Muestreo Sistemático. 
Este método es útil cuando se cuenta con una población ordenada de alguna forma conocida 
(por ejemplo, por número de ficha, por fecha de ingreso al hospital, etc.). 
 
Si "N" es el tamaño de la población, “n" el tamaño de la muestra, una muestra aleatoria 
sistemática es aquella donde se selecciona un sujeto al azar de entre los primeros k=N/n 
pacientes en la población ordenada, seleccionando luego cada k-ésimo dato hasta completar los 
"n" necesarios en la muestra. 
 
Por ejemplo, si la población es de tamaño N=5000 y se quieren n=200 casos en la muestra, se 
deben seguir los siguientes pasos: 
 
i Calcular k. En este caso, k=5000/200 = 25. 
ii Seleccionar un sujeto al azar (muestreo aleatorio simple) de entre los primeros 25 casos 
en la muestra ordenada. 
iii Posteriormente, seleccionar un sujeto cada 25, contando desde el primer sujeto 
seleccionado, hasta llegar al n-ésimo sujeto. 
 
 
 
 
TIPOS DE VARIABLE. 
Una vez tomada la muestra, cada sujeto que la compone será caracterizado según ciertas 
cualidades o cantidades de interés. Cada una de estas características, como la edad, sexo, estado 
civil, peso, etc., son denominadas variables. 
 
Variable: "Característica que puede tomar uno o más valores en los elementos de la población". 
 
Nosotros nos abocaremos a estudiar sólo variables aleatorias, para las cuales no es posible 
anticipar su resultado, aún cuando se intente controlar los demás factores que puedan afectarlas. 
Visto de otra forma, si al mantener constantes las condiciones experimentales no es posible 
predecir el valor de una variable, entonces se está frente a una variable aleatoria. 
 
Todas las variables, con la sola excepción de las usadas como variables de identificación 
(nombre, número de ficha clínica, etc.), se pueden clasificar en uno de los 3 grupos siguientes: 
 
 
 Pág.5 
 
Nominal: Sólo podemos clasificar sus valores en clases (o categorías), entre las cuales no se 
puede establecer ningún ordenamiento sugerido por la magnitud de sus valores. 
Ejemplos: Sexo, Estado Civil, Profesión, Actividad. 
 
Ordinal: Sus valores se pueden clasificar en categorías y si bién no tienen magnitudes 
asociadas, se pueden ordenar las clases. 
Ejemplos: Nivel Socioeconómico, Apgar, Puntaje Apache de Gravedad cardíaca. 
 
Intervalar: Existe un orden natural en sus valores y es posible cuantificar la diferencia entre 
dos valores intervalares. Generalmente tienen unidad de medida. 
 
Una variable intervalar es discreta cuando sólo puede tomar un conjunto 
numerable de valores (por ejemplo: número de hijos); o bién es contínua si 
puedetomar cualquier valor en un intervalo (por ejemplo.: peso, talla, IMC, etc). 
 
 
Notas: (1) Una variable intervalar puede transformarse en ordinal o nominal construyendo 
rangos para ésta. Por ejemplo, el peso del recién nacido (intervalar), puede 
expresarse también como: 
 
Ordinal: Hasta 2000 grs, 2001-3000, 3001-4000, 4001-Más. 
Nominal: Bajo Peso (<3000 grs), No Bajo Peso (>=3000 grs). 
 
(2) El tamaño muestral que se requiere para describir y analizar una variable 
intervalar suele ser mucho menor que el requerido para analizar una nominal u 
ordinal. 
 
 
 
 
Los Dos Tipos de Variables a Describir. 
Un paso importante en el estudio del comportamiento de una o más poblaciones, luego de tomar 
una muestra aleatoria de cada una, consiste en describir adecuadamente estas muestras, de modo 
que las medidas resumen que obtengamos reflejen bién el comportamiento poblacional. 
 
La forma de describir las variables muestrales depende del TIPO al que pertenezca cada variable, 
y para efecto de simplificar esta descripción basta con considerar dos grandes tipos: 
 
1. Variables Categóricas. Incluye a todas las variables para las cuales no es posible (y no 
tiene sentido) obtener su promedio. Incluye a las nominales (sexo, profesión, etc.), las 
ordinales que sólo tienen categorías ordenadas (Nivel socioeconómico, grado de dolor, 
etc.) y las intervalares en rangos (como el peso de nacimiento en rangos). 
 
2. Variables Numéricas. Incluye a todas las variables para las cuales tiene sentido obtener 
su promedio. Incluye a todas las intervalares (edad, peso, talla) y las ordinales 
promediables (apgar, puntaje apache, etc). 
 
 Pág.6 
DESCRIPCIÓN DE VARIABLES CATEGORICAS (NO PROMEDIABLES). 
 
En este caso, las medidas resúmen más adecuadas son el número de casos y el porcentaje en 
que se presenta cada categoría de la variable. 
 
Al usar un computador para obtener las medidas resumen, éstas se presentan en una tabla de 
frecuencias. Estas tablas son también útiles en presentaciones orales, aunque no así en 
publicaciones. 
 
 
Tablas de Frecuencias 
Estas tablas sirven para resumir en forma ordenada el número de casos y porcentaje obtenido 
para cada categoría de una variable. Aunque hay muchas formas de tabular resultados, la 
presentación habitual de la tabla es la siguiente: 
 
 Nro.de Frecuencia Porcentaje 
 Variable Casos Relativa Porcentaje Acumulado 
 
 categoría-1 n1 n1/n 100*n1/n 100*n1/n 
 categoría-2 n2 n2/n 100*n2/n 100*(n1+n2)/n 
 : : : : : 
 categoría-k nk nk/n 100*nk/n 100*(n1+..+nk)/n 
 n 1.0 100.0 
 
La frecuencia relativa y el porcentaje muestran la misma información en diferente escala: la 
frecuencia relativa varía entre 0 y 1 y el porcentaje entre 0 y 100%. El porcentaje acumulado se 
usa cuando la variable tabulada está medida al menos a nivel ordinal. 
 
 
Ejemplo: La siguiente datos son de una muestra de 12 recién nacidos: 5 que presentaron 
alguna patología de nacimiento y 7 sanos. Obtenga tablas de frecuencias de las 
variables tabuladas. Use rangos para el peso del recién nacido: Hasta 3000 grs.; 
3001-3300 grs.; y más de 3300 grs. 
 
Ident Sexo Patología Peso Nac. Edad Gest 
 (M=Masc F=Fem) (S=Si N=No) (Gramos) (Semanas) 
 
 1 M S 2500 36 
 2 M N 3000 39 
 3 M N 3050 41 
 4 M S 2900 40 
 5 M S 2800 39 
 6 M S 2590 38 
 7 F N 3080 39 
 8 F N 3500 40 
 9 F N 3320 40 
10 F S 3005 39 
11 F N 3270 40 
12 F N 3330 36 
Nota: Cuando se tabula una variable en rangos no es necesario que éstos tengan igual longitud. 
 
 Pág.7 
A veces es más útil recurrir a intervalos de uso habitual en la literatura respecto al tema. 
 
Para "k" intervalos de igual longitud, determine los valores mínimo y máximo de la 
variable y calcule: Longitud= (Máximo - Mínimo)/k. Por ejemplo, si se quieren 3 
intervalos de igual largo para el Peso RN, la longitud es: (3500-2500)/3=333.3. 
Entonces, los intervalos son: 2500-2833; 2834-3167 y 3168-3500. 
 
El problema de estos rangos es que se puede tener intervalos vacíos o con cantidades de 
datos muy desbalanceados. 
 
 
 
Presentación Gráfica de Variables Categóricas. 
Las formas habituales de graficación de una tabla univariada son: 
 
Barras Simples: Son gráficos de barras rectangulares cuya altura es proporcional al 
porcentaje que de casos en cada categoría o nivel de la variable. Si la 
variable tiene muchas categorías, una alternativa es hacer el gráfico con 
barras horizontales en vez de verticales. 
 
Si el gráfico muestra una variable para una sola población también puede 
graficarse el número de casos en cada categoría. Si es de dos o más 
poblaciones debe graficarse el porcentaje para poder hacer 
comparaciones. 
 
Gráfico Circular: También llamado Gráfico Sectorial o Torta, es un círculo dividido en 
porciones proporcionales al porcentaje de cada nivel respecto al total de 
datos. Cada porción se obtiene multiplicando las frecuencias relativas 
por 360°, obteniéndose los grados para cada porción de la torta. 
 
Ejemplo: Gráfico de distribución porcentual del Peso RN obtenidos en la tabla de 
frecuencias del ejemplo previo. 
 
 
Peso del Recién Nacido
Hasta 3000
3001-3300
>3300
 
 Pág.8 
DESCRIPCIÓN DE VARIABLES NUMERICAS (PROMEDIABLES). 
 
Si la variable es intervalar u ordinal promediable, la mejor forma de describirla es mediante 
medidas que resuman la posición y dispersión de los datos. Es decir, ahora necesitamos medidas 
que indiquen el centro u otras posiciones importantes de la distribución de la variable, además 
del grado de variabilidad respecto al valor central. 
 
 
MEDIDAS DE POSICIÓN 
 
Las medidas de posición tienen como objetivo resumir en un solo valor las mediciones obtenidas 
de una variable. Las más importantes son las medidas de tendencia central, que tratan de ubicar 
el centro de la distribución, destacando el promedio aritmético, la mediana y la moda. 
 
Promedio Aritmético 
Este es el promedio de uso habitual en investigación en medicina. Se simboliza 0 y se calcula 
como la suma de las mediciones de la variable dividido por el número de observaciones. 
Simbólicamente se escribe como: 
 
 
Ejercicio: Calcule la media aritmética de los pesos de nacimiento según patología. Según lo 
observado, )Existe alguna relación entre la patología y el peso? 
 
 
 
Mediana 
La mediana es la observación justo al centro de la muestra, cuando ésta es ordenada en forma 
ascendente. Se simboliza generalmente como Md y su forma de cálculo es la siguiente: 
 
1. Ordene los datos de menor a mayor. 
2. Si el tamaño muestral n es impar, ubique la observación n/2 en la muestra ordenada. Este 
valor corresponde a la mediana. 
3. Si n es par, promedie las dos observaciones al centro de la muestra ordenada. Este valor 
corresponde a la mediana. 
 
La interpretación de la mediana de una variable es que el 50% de los casos muestrales tienen 
valores inferiores a la mediana y el otro 50% tiene valores superiores a ésta. 
 
Una importante característica de la mediana es su poca sensibilidad ante valores extremos u 
"outliers". En cambio, el promedio puede sufrir cambios de importancia que la alejen del centro 
de los datos. 
 
Ejercicio: Calcule la mediana del peso del recién nacido. 
 
n
xxx
n
x
x ni +++== ∑ ...21
_
 
 Pág.9 
Moda o Modo 
La moda es el valor observado con mayor frecuencia en una variabley es utilizada generalmente 
cuando se tiene un gran conjunto de datos. Esta medida no es muy práctica cuando la variable es 
intervalar, dado lo difícil que ocurran al menos dos casos con un mismo valor. 
 
 
 
 
MEDIDAS DE DISPERSIÓN 
 
Las medidas de posición no son suficientes por sí solas para describir el comportamiento de una 
variable, ya que no nos dicen nada acerca de la variabilidad de los datos. 
 
Las medidas de dispersión de uso habitual en medicina son el rango, la varianza, la desviación 
estándar y el error estándar. 
 
Rango 
Es la diferencia entre el valor m=aximo y mínimo de la variable. Por ejemplo, el peso del recién 
nacido tiene un rango de 3500-2500=1000 gr. Es decir, la diferencia entre el mínimo y el 
máximo es de 1000 gramos. 
 
En ocasiones se opta por presentar los valores mínimo y máximo en vez del rango, ya que 
aportan más información sobre la dispersión de los datos. 
 
El rango es muy sensible a outliers, ya que se construye justamente con los valores extremos. 
Además, el rango muestral siempre subestima al rango poblacional. 
 
 
Varianza 
Aunque no es la medida de dispersión más usada, es necesario calcularla para obtener la 
desviación estándar. 
 
Si x1, x2,...,xn son las n observaciones muestrales de la variable X, la varianza, simbolizada s5, 
se define como: 
 
Es decir, la varianza es una especie de promedio de las desviaciones cuadráticas de los datos con 
respecto al promedio. La razón por la que la varianza es poco utilizada es que el resultado queda 
expresado en la unidad de medida al cuadrado (por ejemplo, kg5, mts5, etc.), mientras que los 
datos y el promedio están expresados en la unidad de medida original. 
 
 
 
Ejercicio: Calcule la varianza del peso del recién nacido. (Peso Promedio: 0 = 3028.75) 
 
1
)( 2
_
2
−
−
= ∑
n
xx
s i
 
 Pág.10 
Id Peso x-0 (x-0)5 
1 2500 -528.70 279576.56 
2 3000 -28.75 826.56 
3 3050 21.25 451.56 
4 2900 -128.70 16576.56 
5 2800 -228.70 52326.56 
6 2590 -438.70 192501.56 
7 3080 51.25 2626.56 
8 3500 471.25 222076.56 
9 3320 291.25 84826.56 
10 3005 -23.75 564.06 
11 3270 241.25 58201.56 
12 3330 301.25 90751.56 
 Σ= 1001306.25 
 
Luego: s5 = 1001306.25/(12-1) = 91027.84 grs5 
 
 
 
Desviación Estándar 
Esta es la medida de dispersión de mayor uso en investigación científica y se deriva directamente 
de la varianza. 
 
Si x1, x2,...,xn son las n observaciones muestrales de la variable X, la desviación estándar, 
simbolizada s, se define como: 
 
 Nótese que si la varianza está en la unidad de medida al cuadrado, la desviación estándar está en 
la unidad de medida original de los datos. 
 
Ejercicio: Calcule la desviación estándar del peso del recién nacido. 
s = %91027.84 = 301.7 grs. 
 
 
En la descripción de los resultados de un estudio generalmente se mencionan tres valores: el 
número de casos (n), la media aritmética (0) y la desviación estándar (s). Por ejemplo, respecto al 
peso del recién nacido se dice que con n=12 casos, el promedio fue 3028.7 grs. y la desviación 
estándar 301.7 grs. 
 
Generalmente se escribe: 0=3028.7 grs. ∀ 301.7 grs (n=12 casos) 
1
)( 2
_
−
−
= ∑
n
xx
s i
 
 Pág.11 
El valor obtenido para s no quiere decir que todos los datos se sitúen entre 0-s y 0+s. Las reglas 
que sí se cumplen son: 
 
1. Sin importar la distribución de los datos, al menos el 75% de los casos siempre se sitúa 
entre 0-2s y 0+2s. 
 
2. Si la distribución de los datos es simétrica en torno al promedio, entonces: 
 
-Aproximadamente el 68% de los casos se sitúa entre 0-s y 0+s 
-Aproximadamente el 95% de los casos se sitúa entre 0-2s y 0+2s 
-Aproximadamente el 99% de los casos se sitúa entre 0-3s y 0+3s 
 
 
 
Error Estándar 
El error estándar es útil como medida de dispersión cuando se quieren presentar los resultados de 
una misma variable para diferentes grupos poblacionales, ya que es una dispersión 
estandarizada por el número de observaciones. El error estándar se calcula a partir de la 
desviación estándar, y se define como: 
 
 Error Estándar = e.s. = s/%n 
 
Es decir, el error estándar es igual a la desviación estándar dividido por la raíz cuadrada del 
número de observaciones. 
 
Se usa generalmente cuando la desviación estándar es muy grande y se quiere graficar el 
comportamiento del promedio de una variable en una o más poblaciones y sus respectivas 
variabilidades. 
 
 
 
 
OTRAS MEDIDAS DE POSICIÓN: PERCENTILES 
 
Para cualquier variable intervalar, un percentil de orden p (0<p<100%) es un valor muestral que 
deja el p% de los datos bajo ese valor y el (100-p)% de los datos restantes sobre él. El cálculo de 
percentiles requiere tener la muestra ordenada en forma ascendente según la variable a describir. 
 
Por ejemplo, el percentil 20% de una variable X corresponde al valor en la muestra que deja un 
20% de los valores observados bajo el percentil y el 80% restante sobre el percentil. 
 
En general, para calcular un percentil en una muestra ordenada de tamaño "n", el valor Xp que 
corresponde a ese percentil se encuentra en la posición: 
 
 k = (n+1)*p/100 
 
Es decir, si x(1),.., x(n) son los n valores ordenados de X, el percentil de orden p corresponde al 
 
 Pág.12 
valor en la posición x(k). Si k es un número entero, entonces x(k) queda perfectamente 
determinado. Si k tiene decimales hay que aproximarlo al entero más cercano. Si k tiene decimal 
0.5 (3.5, 9.5, etc.), se promedian los valores superior e inferior a la posición k (3 y 4; 9 y 10, 
etc.). 
 
Ejemplo: Calcule e interprete los percentiles 25 y 50 del peso del recién nacido. 
 
* Los valores ordenador de peso de nacimiento son: 
 2500 2590 2800 2900 3000 3005 3050 3080 3270 3320 3330 3500 
 
* Para calcular percentil 25: n=12 p=25. Luego, k = (12+1)*25/100 = 3.25 
 De esta forma, el percentil 25 corresponde a x(3) = 2800 grs 
 
* Para calcular percentil 50: n=12 p=50. Luego, k = (12+1)*50/100 = 6.5 
 Así, el percentil 50 corresponde a ( x(6)+x(7) )/2 = 3027.5 
 
* Interpretación: "El 25% de los recién nacidos tienen peso de nacimiento inferior a 2800 
grs, mientras que el 50% tiene peso inferior a 3027 grs." 
 
 
 
Algunos Percentiles Especiales 
Los percentiles más utilizados en medicina son los cuartiles, correspondientes a los percentiles 
25%, 50% y 75%; los deciles, que dividen la muestra en grupos de 10%; y la mediana, que 
corresponde al percentil 50%, al segundo cuartil o al quinto decil. 
 
Además, para construcción de patrones de normalidad se utilizan con frecuencia los percentiles 
5%, 10%, 90% y 95%, de modo que datos muestrales que se sitúan entre los percentiles 5 y 95 se 
consideran "normales" y los casos bajo el percentil 5% o sobre el percentil 95% son considerados 
"anormales" o "patológicos". 
 
 
 
NOTAS: 
1. Si los datos presentan una dispersión moderada, la presentación de los datos suele 
hacerse usando el número de casos, promedio y desviación estándar. 
2. Si los datos presentan mucha dispersión (o hay valores extremos u Αoutliers≅), de modo 
que el promedio se ve distorsionado por estos valores, la presentación de los datos se 
hace usando el número de casos, mediana y rango. 
3. En ocasiones, se usa la media geométrica como alternativa al uso de la mediana, si hay 
mucha dispersión (actualmente esta opción se ha hecho muy popular), siempre 
acompañada del número de casos y del rango como medida de dispersión. 
 
 Pág.13 
Representación Gráfica de Variables Promediables. 
 
Histograma: 
Un histograma es un gráfico de barras agrupadas que permite observar la distribución de una 
variable intervalar. 
 
Si la variable es discreta (o discretizada), cada barra puede representar el porcentaje de casos que 
toma cada valor de la variable. Si la variable es contínua, cada barra representa un intervalo de 
valores. En este gráfico los intervalos deben tener la misma longitud, de modo que las barras 
muestren en forma proporcional el porcentajeque representa el intervalo en el total de datos. 
 
Ejemplo: Construya un histograma para el peso RN. (Rangos de 2400-2600, 2601-2800, 
2801-3000, 3001-3200, 3201-3400, 3401-3600 grs). 
 
 
 
 
A medida que el tamaño muestral aumenta, es posible hacer intervalos más angostos de la 
variable, para observar mejor la distribución.. De esta forma, podremos observar el grado de 
simetría de los datos, con tres posibilidades: 
 
Simetría: Los datos se distribuyen en forma similar a ambos lados del 
centro. En este caso el promedio aritmético es igual a la mediana. 
 
Asimetría a la izquierda: Los datos se concentran en menor proporción a la izquierda del 
punto central. En este caso el promedio es menor que la mediana. 
 
Asimetría a la derecha: Los datos se concentran en menor proporción a la derecha del 
punto central. En este caso el promedio es mayor que la mediana. 
 
 
Distribución de Peso RN
2
1
2
3 3
1
0
1
2
3
4
2400-
2600
2601-
2800
2801-
3000
3001-
3200
3201-
3400
3401-
3600
 
 Pág.14 
 
Cajón con Bigotes (Box Plot) 
Su objetivo es mostrar gráficamente medidas de posición, ya sea basado en el promedio y 
desviación estándar o en cuartiles. El gráfico siguiente muestra un box plot para el peso del 
recién nacido basado en percentiles. 
 
---> Máximo = 3500 grs 
 
 
---> Tercer Cuartil = 3320 grs 
 
 
---> Mediana = 3027.5 grs 
 
 
---> Primer Cuartil = 2800 grs 
 
 
---> Mínimo = 2500 grs 
 
 
 
El box plot es una caja en la que el borde inferior, la línea media y el borde superior 
corresponden al primer, segundo y tercer cuartil, respectivamente. Las lineas inferior y superior 
unen la caja con los valores mínimo y máximo, respectivamente. 
 
Si el gráfico se hace con promedio y desviación estándar, el borde inferior corresponde a 0-s, la 
línea media es 0 y el borde superios es 0+s. 
 
 
 
 
 
 
Gráfico de Promedio y Desviación Estándar (o Error Estándar) 
Este gráfico es alternativo al cajón con bigotes hecho con el promedio y desviación estándar. Se 
usa principalmente cuando se grafica más de una población (o sea, más de un promedio ∀ 
desv.estándar), o cuando se grafica el promedio de una variable en el tiempo. 
 
A continuación se muestra el gráfico del promedio y desviación estándar del peso del recién 
nacido según patología: 
 0-s 0+s 
 Con patología: n=5, 0=2759.0∀210.8 2548.2 2969.8 
 Sin patología: n=7 0=3221.4∀182.5 3038.9 3403.9 
 
 
 
 
 
 Pág.15 
 
 
 
 
El gráfico de promedio ∀ error estándar se utiliza para representación gráfica cuando las 
desviaciones estándar de los datos son muy grandes y distorsionan la escala. A veces se 
grafica también0∀2*e.s., lo cual tiene como propiedad mostrar un intervalo de confianza al 
95% para el promedio poblacional. 
P e s o R N s e g ú n P a to lo g ía
(p r o m e d io ± D S )
2 0 0 0
2 2 0 0
2 4 0 0
2 6 0 0
2 8 0 0
3 0 0 0
3 2 0 0
3 4 0 0
3 6 0 0
 C o n
P at o lo g ia
 S in 
P at o lo g ia
 
 Pág.16 
 
DESCRIPCIÓN DE DOS VARIABLES CATEGORICAS. 
 
Este es el caso cuando se quiere describir simultáneamente dos variables nominales, ordinales no 
promediables e intervalares en rangos. 
 
En esta situación el resultado se presenta generalmente en una tabla de contingencia. Al igual 
que en el caso de una variable categórica, las medidas resumen adecuadas son el número de 
casos y porcentaje, pero esta vez para cada combinación de niveles o categorías de las variables. 
 
Por ejemplo, supongamos que un estudio busca determinar si existe relación entre fumar y cáncer 
pulmonar. Para esto, se tomaron 70 personas con cáncer y 380 sin cáncer y se observó en sus 
antecedentes si estas 450 personas eran fumadoras. La tabla resultante es la siguiente: 
 
 
 
 
 
Cáncer Pulmonar 
 
 
 
Si 
 
No 
 
Total 
 
Si 
 
30 
 
120 
 
150 
 
No 
 
40 
 
260 
 
300 
 
 
 
Fuma 
 
Total 
 
70 
 
380 
 
450 
 
 
La tabla anterior permite observar los resultados del estudio, pero no incluye porcentajes. La 
pregunta es: )Qué porcentaje se debe calcular: porcentaje de fumadores con cáncer o el 
porcentaje de cancerosos que fuman? 
 
 
 
 
 
Cáncer Pulmonar 
 
 
 
Si 
 
No 
 
Total 
 
 
 
n 
 
% 
 
n 
 
% 
 
 
 
Si 
 
30 
 
42.9 
 
120 
 
31.6 
 
150 
 
No 
 
40 
 
57.1 
 
260 
 
86.4 
 
300 
 
 
 
 
 
Fuma 
 
Total 
 
70 
 
100 
 
380 
 
100 
 
450 
 
 
Nótese que la primera tabla muestra un mayor número de personas con cáncer en el grupo de no 
fumadores. De otra forma, el mayor número de fumadores se observa en el grupo sin cáncer. 
Ninguna de estas observaciones toma en cuenta el mayor número de no fumadores (o el mayor 
número de personas sin cáncer). 
 
 Pág.17 
Presentación Gráfica. 
La graficación de dos o más variables simultaneas generalmente muestra porcentajes, los cuales 
deben ser bien definidos, como en la tabla. 
 
Gráfico Circular: En este caso se hace un gráfico para cada población. Es una buena 
alternativa a los gráficos de barras, principalmente en presentaciones. 
 
Barras Agrupadas: Muestra los porcentajes en cada categoría de la variable en barras 
adyacentes, separado por cada población. 
 
Barras Subdivididas Muestra una sola barra para cada población, todas de altura 100%, 
divididas en forma proporcional al porcentaje de cada categoría de la 
variable. Es muy útil cuando se grafican muchas poblaciones. 
 
 
Ejemplo: Construya un gráfico que muestre la relación entre patología de nacimiento y peso 
inferior a 3000 gramos. 
 
 
 Pág.18 
DESCRIPCION DE UNA VARIABLE CATEGORICA Y UNA NUMERICA. 
 
La asociación de una variable categórica y una numérica no requiere hacer cálculos adicionales. 
 Se recurre a descripciones y gráficos ya vistos. 
 
Medidas Resumen 
Se obtienen medidas resumen de la variable numérica (n, 0, s, Md, percentiles, etc.) para cada 
nivel de la variable categórica. 
 
Por ejemplo, si interesa describir el peso del recién nacido según patología, las medidas resumen 
pueden ser: 
 
 Con patología: n=5 0=2759.0 ∀ 210.8 
 Sin patología: n=7 0=3221.4 ∀ 182.5 
 
 
 
Representación Gráfica 
La representación gráfica en este caso son: 
 
Box Plot: De la variable numérica, separado para cada nivel de la categórica. 
 
0 ∀ s: De la variable numérica, separado para cada nivel de la categórica. 
 
0∀ e.s.: De la variable numérica, separado para cada nivel de la categórica. 
 
 Pág.19 
DESCRIPCIÓN DE DOS VARIABLES NUMERICAS. 
 
Cuando es de interés observar la relación entre dos variables numéricas, la medida resumen más 
utilizada es el Coeficiente de Correlación Lineal, que se simboliza "r". Hay dos métodos de 
obtener la correlación: 
 
Correlación Muestral de Pearson: Se usa cuando las dos variables a relacionar son 
 intervalares. 
 
Correlación por Rangos de Spearman: Se usa cuando al menos una de las variables a 
 relacionar es ordinal. 
 
Como en este caso tenemos dos variables X e Y en una muestra de tamaño n, los datos son pares 
(x1,y1), (x2,y2), ..., (xn,yn). La forma de calcular la correlación de Pearson es la siguiente: 
 
Ejemplo: Supongamos que se tomó una muestra de 5 madres, registrándose las variables 
edad materna y peso de sus hijos recién nacidos. Los datos son: (31,3500), 
(26,2990), (17,2800), (20,3000) y (28,3100). 
 
El promedio de edad es x=24.4 y de peso RN es y=3078. El cálculo de la 
correlación de Pearson es el siguiente: 
 _ _ _ _ _ _ 
x y x-x y-y (x-x)(y-y) (x-x)5 (y-y)5 
 
31 3500 6.6 422 2785.2 43.56 178084 
26 2990 1.6 -88 -140.8 2.56 7744 
17 2800 -7.4 -278 2057.2 54.76 77284 
20 3000 -4.4 -78 343.2 19.36 6084 
28 3100 3.6 22 79.2 12.96 484 
 _ _ _ _Luego: Σ(x-x)(y-y) = 5124 Σ(x-x)5=133.2 Σ(y-y)5=269680 
 
Finalmente: 
 5124 
 r = ------------------ = 0.855 
 %133.2*269680 
 
para calcular la correlación de Spearman es necesario que al menos una de las variables sea 
ordinal. En este caso, es necesario calcular los rangos para cada variable por separado, es 
decir, el orden que tiene cada observación al interior de cada variable y luego calcular la 
correlación usando estos rangos en vez de los datos originales. 
 
Por ejemplo, si calculamos la correlación de Spearman para la edad y peso RN, y los rangos de la 
2
_
2
_
__
)()(
))((
∑∑
∑
−−
−−
=
yyxx
yyxx
r
ii
ii
 
 Pág.20 
edad son E1,E2,..E5 y los de peso son P1,P2,...,P5, el cálculo es: 
 _ _ 
 Σ(E-E)(P-P) 
 r = _________________ 
 _ _ 
 %Σ(E-E)5 %Σ(P-P)5 
 _ _ 
En este caso, el promedio de rangos de edad es E=3.0 y de peso RN es P=3.0 
 
 _ _ _ _ _ _ 
 E P E-E P-P (E-E)(P-P) (E-E)5 (P-P)5 
 
 5 5 2 2 4 4 4 
 3 2 0 -1 0 0 1 
 1 1 -2 -2 4 4 4 
 2 3 -1 0 0 1 0 
 4 4 1 1 1 1 1 
 
 _ _ _ _ 
 Luego: Σ(E-E)(P-P) = 9 Σ(E-E)5=10 Σ(P-P)5=10 
 
 Finalmente: 9 
 r = ----------- = 0.900 
 %10*10 
 
 
Interpretación del Coeficiente de Correlación 
 
El coeficiente de correlación (Pearson o Spearman) varía siempre entre -1 y 1. 
 
Si r es cercano a 1, existe una asociación lineal directa entre X e Y. 
Si r es cercano a -1, existe una asociación lineal inversa entre X e Y. 
Si r es cercano a 0, no existe asociación lineal entre X e Y. 
 
Algunos autores coinciden en valorar de la siguiente forma un coeficiente de correlación: 
 
a. Si r está entre 0 y 0.25 (o -0.25) indica que no hay asociación lineal entre X e Y. 
b. Si r está entre 0.25 y 0.50 (o entre -0.25 y -0.50) hay una pobre o muy baja asociación 
lineal entre X e Y. 
c. Si r está entre 0.50 y 0.75 (o entre -0.50 y -0.75) hay una buena o satisfactoria 
asociación lineal entre X e Y. 
d. Si r es mayor que 0.75 (o -0.75) hay una muy buena o excelente asociación lineal 
entre X e Y. 
Representación Gráfica 
 
la mejor forma de observar el grado de asociación entre X e Y es mediante un gráfico de 
dispersión (o Scattergram). La variable explicatoria X debe graficarse en el eje X o abscisa. La 
 
 Pág.21 
variable explicada Y debe graficarse en el eje Y u ordenada. Las posibilidades son las siguientes: 
 
 
 
 
 
 
 
 
 
* 
 
 
 
* 
 
* 
 
 
 
 
 
 
 
* 
 
* 
 
 
 
 
 
 
 
 
 
 
 
 
 
 * 
 
 
 
 
 
 
 
* 
 
 
 
* 
 
* 
 
 
 
 
 
 
 
 
 
 
 
* 
 
 
 
 
 
 
 
 
 
 
 
 * 
 
 
 
* 
 
* 
 
 
 
 
 
 
 
** 
 
* 
 
 
 
 
 
* 
 
** 
 
 
 
 
 
 
 
 
 
 
 
 
 
** 
 
 
 
** 
 
* 
 
 
 
 
 
 
 
 
 
 
 
** 
 
 
 
 
 
** 
 
* 
 
* 
 
 
 
 
 
 
 
** 
 
 
 
* 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
* 
 
** 
 
 
 
 
 
 
 
* 
 
** 
 
 
 
 
 
Asociación Asociación Sin Asociación Sin Asociación 
Lineal Directa Lineal Inversa Lineal Lineal 
 (r.1) (r.-1) (r.0) (r.0) 
 
 
Nótese que el cuarto gráfico muestra una correlación cercana a cero (indicador de asociación 
lineal nula). Sin embargo, es claro que sí existe asociación entre X e Y. Luego, es importante 
recordar que los coeficientes de correlación de Pearson y Spearman sólo permiten determinar si 
existe asociación lineal entre dos variables numéricas. 
 
 
 Pág.22 
ESTIMACIÓN DE PARÁMETROS POBLACIONALES. 
 
La estadística descriptiva vista hasta ahora no sólo nos permite obtener un perfil del 
comportamiento de los datos muestrales; nos permite también obtener estimaciones de 
parámetros poblacionales, lo que generalmente es lo más importante. 
 
Por una parte, en la población tenemos medidas de tendencia central, de posición y de dispersión 
que son fijas e invariables. Estas medidas son llamadas parámetros poblacionales o 
simplemente parámetros. Por ejemplo, la talla promedio de la mujer chilena en la población es 
constante, así como su desviación estándar, cuartiles, etc. 
 
Por otra parte, el cálculo de promedios, medianas, etc. obtenidos en una muestra son 
estimaciones de esos parámetros. Estas medidas son llamadas parámetros estimados o 
estimadores. A diferencia de los parámetros poblacionales, los estimadores muestrales no son 
únicos, ya que varían al tomar distintas muestras de la misma población. En su dimensión 
muestral, los estimadores son llamados medidas resumen, estadígrafos o estadísticos. 
 
Los parámetros poblacionales habitualmente se simbolizan con una letra griega y sus 
estimadores con una letra latina. También es posible estimar distribuciones, conglomerados, etc. 
 
 Característica Parámetro Estimador 
 Media o Promedio µ 0 
 Desv. estándar σ s 
 Varianza σ5 s5 
 Error Estándar σ/%N s/%n 
 Proporción P ó π p (frec.relativa) 
 Distribución -- Histograma 
 
 
Los estimadores muestrales también suelen representarse con la letra griega que representa al 
parámetro con un tilde ^ sobre ella. Por ejemplo: 0 = µ^ es un estimador de µ. 
 
 
Sesgo. 
Se llama sesgo a la diferencia que existe entre un estimador y el parámetro al cual estima. Este 
sesgo (o error) se presenta cuando hay problemas en la selección de los sujetos que componen la 
muestra, la calidad de los instrumentos utilizados, la confiabilidad de las respuestas de personas 
encuestadas, etc. Evidentemente, mientras mayor es el sesgo, peor es la estimación del parámetro 
de interés. Mientras mayor es la precisión, menor es el sesgo cometido. 
 
Cuando un estimador se "acerca" o "aproxima" cada vez más al parámetro al cual estima, a 
medida que el tamaño muestral aumenta, se denomina un estimador insesgado. 
 
Finalmente, dado que una medida resumen obtenida en una muestra es al fin y al cabo un sólo 
valor destinado a estimar un parámetro, y dado además que este estimador no es único, suele 
llamarse un estimador puntual. 
 
Resumen Estadística Descriptiva 
 
Antes de hacer la estadística descriptiva, clasificar cada variable como nominal, ordinal o intervalar. 
Reclasificar las variables en sólo 2 grupos: No promediables (categóricas) y Promediables (numéricas). 
 
 
Variable(s) Medida Resumen Representación Gráfica 
 
 
1 Categórica Tabla de Frecuencias Barras ∝ nro.casos ó % en cada categoría 
∝ Incluye como mínimo el nro. de casos y Porcentaje Pie ∝ nro.casos ó % en cada 
categoría 
∝ Si la variable es ordinal, puede incluir % acumulado. 
1 Numérica 0, Md Medidas de Tendencia Central Histograma ∝ Para ver la Distribución 
s, s2, e.s., rango Medidas de Dispersión ∝Simetría (0 = Md) 
Q1, Q3, deciles Medidas de Posición ∝Asim. Izquierda (0 < Md) 
Percentiles. ∝Asim.Derecha (0 > Md) 
 
Use: n, 0 ∀ s. Poca/Moderada dispersióny/o Simetría Box-Plot ∝ 0 ∀ s 
 ∝ Md ∀ Cuartiles 
Siempre cumple: Mínimo 75% en (0-2s,0+2s) 
Gráfico de Tallo y Hoja 
Si hay 68% en (0-s,0+s) Gráfico de 0 ∀ s 
Normalidad: 95% en (0-2s,0+2s) Gráfico de 0 ∀ e.s. 
99% en (0-3s,0+3s) 
También puede graficar percentiles 5,10, 50, 
Use: Md,Rango Mucha dispersión y/o Asimetría 90 y 95 para establecer criterios de 
ΑNormalidad≅ 
(si el caso cae entre p5-p95 o entre p10-p90) 
Cuartiles Medidas de Posición 25% y 75% y ΑAnormalidad≅ (si cae fuera de los 
rangos). 
 
p5, p10 Límite Inferior (perc.5 o 10) y Superior 
p90, p95 (perc.90 o 95) para Patrón Normal. 
 
2 Categóricas Tabla de Contingencia Barras ∝ % de cada categoría de una de las 
∝ Las categorías de una de las variables se ponen como variables, agrupadas para cada 
 filas y las categorías de la otra como columnas. categoría de la otra. 
∝ Incluir nro. de casos y porcentaje (por filas o columnas) Pie ∝ Igual criterio que en Barras. 
 
2 Numéricas Correlación de Pearson (ambas intervalares) Gráfico de Dispersión 
Correlación de Spearman (al menos una ordinal) (o Scattergram) 
r varía entre -1 y 1. 
r cercano a 1 ∝ Asoc.Lineal Directa El gráfico de dispersión requiere poner 
la 
r cercano a -1 ∝ Asoc.Lineal Inversa variable explicatoria en la abscisa (Eje 
X) 
r cercano a 0 ∝ Sin Asoc.Lineal y la explicada en la ordenada (Eje Y). 
r entre -0.25 y 0.25 ∝ Sin asoc. Lineal 
r entre -0.50 y 0.50 ∝ Regular Asoc. Lineal 
r entre -0.75 y 0.75 ∝ Buena Asoc. Lineal 
r <-0.75 o r > 0.75 ∝ Excelente Asoc. Lineal 
 
 
1 Categ-1 Numérica Descripción de la variable numérica (n, 0, s, e.s., Histograma 
 Md, Q1, Q3, rango, etc.) En forma separada para Box-Plot 
cada nivel de la variable categórica Gráfico de 0 ∀ s o bién 0 ∀ e.s. 
(Todos los gráficos son de variable numérica 
para cada nivel de la variable categórica). 
L.Villarroel 
 
 Pág.24 
CURSO DE BIOESTADISTICA 
II. Estadística Analítica Univariada 
 
 
Presentación habitual de un problema de estadística analítica. 
 
Generalmente en un estudio en medicina interesa determinar si la presencia, ausencia o valores de una 
variable (como peso de nacimiento, presencia o ausencia de una patología, muerte, recidiva, etc.) está 
relacionada con la presencia, ausencia o valores de otra variable, ya sea porque se sospecha una 
relación causal o al menos una asociación entre ambas. 
 
Cuando interesa determinar esta asociación univariada (asociación entre una variable explicatoria y la 
variable explicada) hay cuatro situaciones posibles de encontrar, las cuales se pueden identificar según 
el tipo al que pertenece cada variable. A continuación se ejemplifican estas situaciones: 
 
 
(i) Pertenencia a un grupo étnico y su asociación con la presencia de colelitiasis. 
 
(ii) Presencia de hipertensión arterial y su influencia en la ganancia de peso durante el Embarazo. 
 
(iii) Valor del Score Apache Ingreso como predictor de mortalidad cardiaca. 
 
(iv) El peso del recién nacido y su asociación con la edad materna. 
 
 
Las situaciones descritas son hipótesis posibles de plantear en distintos ámbitos de la Medicina. En 
cualquier caso, se deben seguir los siguientes pasos antes de hacer cualquier estadística analítica: 
 
(a) Identifique las variables involucradas en la asociación. 
(b) Identifique el tipo al que pertenece cada variable (nominal, ordinal, intervalar) y clasifique 
cada una como categórica o numérica. 
(c) Identifique cual de ellas es la variable explicada y cual la explicatoria. 
 
 
 
Variable Explicada y Explicatoria 
El objetivo de un proyecto de investigación suele ser el buscar una explicación a un fenómeno propio 
de la medicina. Este fenómeno bajo estudio es medido a través de una variable, la cual es llamada 
variable explicada, dependiente o respuesta. 
 
Por otra parte, la búsqueda de una explicación para el fenómeno se hace a través de otro conjunto de 
variables que podrían estar asociadas al problema. Estas son llamadas variables explicatorias, 
independientes o factores. 
 
La variable explicada suele simbolizarse con la letra Y, mientras la explicatoria se simboliza con la 
letra X (o X1, X2,..., Xk si son más de una). 
 
 
 Pág.25 
En un mismo estudio es posible encontrar más de una expresión para la variable explicada. Por 
ejemplo, en (ii) la variable HTA puede expresarse como presente/ausente (variable categórica) o como 
el valor de las presiones arteriales sistólica y diastólica (variable numérica). Lo mismo ocurre con las 
variables explicatorias. 
 
Además, una variable que es explicatoria en un estudio puede ser el fenómeno bajo estudio en otro. 
 
Ejercicio: - Para cada una de las situaciones planteadas en (i) a (iv), identifique las variables, su 
tipo y las variables explicada y explicatoria. 
 
 
 
LAS POSIBLES ASOCIACIONES. 
 
En todo estudio, la variable explicada y cada una de las variables explicatorias pueden ser encasilladas 
como nominal (categórica) o numérica. De este modo, cuando se busca determinar la asociación de la 
variable explicada y una variable explicatoria, se tiene sólo una de las siguientes combinaciones: 
 
 
Situación Var.Explicatoria Var.Explicada 
--------------------------------------------------------------- 
 1 CATEGORICA CATEGORICA 
 2 CATEGORICA NUMERICA 
 3 NUMERICA CATEGORICA 
 4 NUMERICA NUMERICA 
 
 
Para efecto de análisis estadístico, las situaciones 2 y 3 son tratadas de la misma forma, cambiando sólo 
la interpretación de su resultado. 
 
 
 
Nota: 1. Si se observa primero en el tiempo la variable X y posteriormente la variable Y, el estudio es 
prospectivo (de Cohorte). La pregunta de interés es: Dado el valor de X (conocido), )Qué 
ocurrirá con Y en el futuro? 
 
Ejemplo: Un estudio en el que se toma una muestra de fumadores y otra de no fumadores, 
determinándose después de un tiempo de seguimiento (que pueden ser varios años) el 
porcentaje que hace un cáncer pulmonar en cada grupo. 
 
 
2. Si se observa primero la variable Y y luego X, el estudio es retrospectivo (Caso-control). La 
pregunta de interés es: Dado que ocurrió Y, )Qué pasó con X en el pasado? 
 
Ejemplo: Un estudio en el que se toma una muestra de personas que hicieron un cáncer 
pulmonar y otra muestra de personas sanas, determinándose mediante sus fichas clínicas el 
porcentaje que fumaba en cada grupo. 
 
 Pág.26 
 
3. Si se observan X e Y simultáneamente el estudio es transversal (Prevalencia). La pregunta 
de interés es: )Qué está ocurriendo con X e Y en este momento? 
 
Ejemplo: Un estudio en el que se aplica una encuesta a una muestra de tamaño n de la 
población general, con dos preguntas: (i) )Usted fuma? (ii) )Usted tiene cáncer pulmonar?, 
determinándose el porcentaje de fumadores con cáncer y de no fumadores con cáncer. 
 
 
 
 Pág.27 
SITUACION 1: EXPLICATORIA CATEGORICA - EXPLICADA CATEGORICA. 
 
Como en este caso las variables X e Y tienen 2 o más niveles cada una, es posible construir una tabla 
de contingencia. La tabla de 2x2 como la siguiente es la más reducida posible de construir: 
 
Y 
y1 y2 
X x1 a b 
x2 c d
 
-En la tabla se calculan porcentajes por fila, por columna o respecto al total, según corresponda 
(depende del tipo de estudio: prospectivo, retrospectivo o de prevalencia). Por ejemplo, suponga que los 
datos siguientes corresponden a un estudio diseñado para determinar la asociación entre fumar y cáncer 
al pulmón: 
 
Cáncer Pulmonar 
Si No Total 
-------------------------------------- 
Si 31 28 59 )Qué porcentajes se deben calcular: 
Fuma Ψ Porcentaje de fumadores con cáncer 
 No 89 172 261 o porcentaje de cancerosos que fuman? 
-------------------------------------- 
Total 120 200 320 
 
-En tablas de 2x2 se comparan los porcentajes con test de Chi-cuadrado o Exacto de Fisher. Si la 
tabla tiene más de 2 filas o columnas, sólo es posible calcular test de Chi-cuadrado.n(ad-bc)2 
-En tablas de 2x2, el valor de Chi-cuadrado se obtiene con la fórmula: χc2 = -------------------- 
 (a+c)(b+d)(a+b)(c+d) 
 
Si χc2 > 3.841, el test es significativo con p<0.05; Si χc2 > 6.635 es significativo p<0.01. Si se usa 
n(∗ad-bc∗ - 0.5)2 como numerador, se obtiene el χ2 con corrección de Yates o con corrección por 
continuidad, el cual es más conservador que el χ2 original. (En el ejemplo, χc2 =6.98, p<0.01 ) 
 
-Si interesa comparar dos porcentajes (p1 vs p2) dados por: 
 
(i) p1=%fumadores con cáncer = 31/59=52.5% vs p2=%no fumadores con cáncer = 89/261=34.1% 
(ii) p1=%cancerosos que fuma=31/120=25.8% vs p2=% no cancerosos que fuma = 28/200=14.0% 
 
En ambos casos, las hipótesis estadísticas planteadas son: Ho: p1 = p2 vs Ha: p1 p2 
También en ambos casos, el valor de χc2 =6.98, p<0.01. La conclusión estadística es que existen 
diferencias significativas entre los porcentajes. La conclusión médica es que hay asociación entre fumar 
y cáncer pulmonar. 
 
-Si es necesario (o útil), es posible colapsar categorías de la variable X ó Y para construir tablas más 
chicas. En ocasiones esto permite dar mayor consistencia a un análisis. 
 
 Pág.28 
Casos Especiales en Tablas de 2x2: Razón de Chances (Odds Ratio, OR) 
 
El test de Chi-cuadrado determina si existe o no asociación entre dos variables cualitativas, pero no 
indica el grado de asociación. 
 
Por ejemplo, supongamos que un estudio retrospectivo diseñado para determinar si fumar (x) está 
asociado con la presencia de cáncer pulmonar (y) se observaron dos grupos de sujetos: 120 con 
cáncer pulmonar y 200 sin cáncer. Al clasificar ambos grupos según hábito tabáquico se obtuvo la 
siguiente tabla: 
 
Ca Pulmón 
Si No Total 
---------------------------------- 
Si 31 28 59 
Fuma 
 No 89 172 261 
---------------------------------- 
Total 120 200 320 
 
El test de chi-cuadrado es igual a 6.98 (p=0.0082). Por lo tanto existe asociación entre fumar y la 
presencia de cáncer. El grado de asociación lo podemos cuantificar mediante la razón de chances 
(OR), como: 
 
 (31/120)/(89/120) 0.3483 
 OR = ────────────── = ───── = 2.14 
 (28/200)/(172/200) 0.1628 
 
Es decir, la chance de hacer un cáncer pulmonar es 2.14 veces más alta entre los fumadores que entre 
los no fumadores. 
 
En realidad, la interpretación del 2.14 debiera ser: "la chance de fumar es 2.14 veces más alta entre los 
cancerosos que entre los no cancerosos". )Porqué entonces se interpreta de otra manera? La respuesta 
está en que el OR se puede calcular en estudios retrospectivos o prospectivos. Si la tabla anterior fuese 
el resultado de un estudio prospectivo, el OR sería: 
 
 (31/59)/(28/59) 1.107 
 OR = ───────────── = ──── = 2.14 
 (89/261)/(172/261) 0.517 
 
Cualquiera sea el caso, el OR puede calcularse como: OR = (31*172)/(89*28) = 2.14. 
 
Es decir, el producto de la diagonal principal dividido por el producto de la diagonal secundaria. Por 
este motivo el OR es también conocido como la razón de productos cruzados. 
 
 Pág.29 
Casos Especiales en Tablas de 2x2: Riesgo Relativo (RR) 
 
Si el estudio anterior hubiese sido PROSPECTIVO (es decir, se siguieron 59 fumadores y 261 no 
fumadores por un lapso de tiempo, al cabo del cual se determinó cuantos habían hecho un cáncer 
pulmonar en cada grupo), la tabla resultante habría sido la misma, pero habría sido posible calcular el 
riesgo relativo de hacer un cáncer entre los fumadores en relación a los no fumadores. El cálculo en 
este caso es el siguiente: 
 
 31/59 0.525 
 RR = ───── = ──── = 1.54 
 89/261 0.341 
 
Es decir, hay un 54% más de riesgo de hacer un cáncer al pulmón entre los fumadores que entre los no 
fumadores. 
 
Notas: (1) El RR no se calcula si el estudio es retrospectivo, ya que al variar el número de casos o 
controles se altera el valor del riesgo. Por ejemplo, si en la tabla aumentamos al doble 
los casos de cáncer, manteniendo la proporción de fumadores en ese grupo, la tabla 
sería: 
 
Ca Pulmón 
Si No Total 
---------------------------------- 
Si 62 28 90 
Fuma 
 No 178 172 350 
---------------------------------- 
Total 240 200 440 
 
En este caso el riesgo relativo es: RR= [62/90] / [178/350] = 1.35. El RR resulta ser menor al 
original. El OR, en cambio, sigue siendo 2.14. 
 
(2) Si la patología estudiada es de rara ocurrencia, el Riesgo Relativo y la Razón de Chances 
deben mostrar valores similares. Al contrario, mientras más frecuente es la patología, mayor es 
la diferencia entre RR y OR. 
 
(3) Es posible construir un intervalo al 95% de confianza para el verdadero valor de RR o de 
OR, usando la siguiente expresión: 
 
donde LN es el logaritmo natural y "e" es 2.71828, base de los logaritmos naturales. Ambas 
funciones se encuentran en cualquier calculadora científica. 
e RR )d
1+
c
1+
b
1+
a
11.96 + (RR)( LN= 
 
 Pág.30 
Casos Especiales en Tablas de 2x2: Test de McNemar 
 
Si las variables X e Y están CORRELACIONADAS (el valor de X determina en cierta medida el valor 
de Y), entonces los test de Chi-cuadrado y Exacto de Fisher no son de utilidad, ya que obviamente dirán 
que existe asociación entre X e Y. En este caso, interesa determinar si X e Y son concordantes o 
discordantes. 
 
Por ejemplo, en un estudio en que interesa determinar la exactitud de dos métodos diagnósticos de 
trombosis (termografía y venografía), se clasificaron 55 pacientes según ambos métodos. El resultado 
fue el siguiente: 
 
Venografía 
(+) (-) Total 
---------------------------------- 
(+) 19 8 27 
Termografía 
 (-) 1 27 28 
---------------------------------- 
Total 20 35 55 
 
 
Hipótesis: Ho: Los métodos hacen el mismo diagnóstico 
Ha: Hay diferencias entre los métodos 
 
 
 (│b-c │ - 1)5 (│8 - 1│ -1)5 
El test de McNemar es: x5 = ───────── = ──────── = 4.0 
 b+c 8 + 1 
 
El valor obtenido debe compararse con un Chi-cuadrado con 1 grado de libertad (valor crítico al 5% es 
x5=3.841). Luego, con p<0.05, se concluye que hay una diferencia en la proporción de diagnósticos de 
trombosis entre ambos métodos. 
 
El test de McNemar es útil también cuando se quiere determinar si dos especialistas llegan a una misma 
conclusión respecto a un diagnóstico. Nótese que en este caso no interesa si el diagnóstico es correcto o 
incorrecto, sólo interesa la discordancia. 
 
Existe otro test muy utilizado para esta situación: Test Kappa. 
 
Este test se puede usar en tablas de más de 2x2 (tablas de 3x3, 4x4, etc.). Por ejemplo, cuando se pide a 
dos observadores clasificar un conjunto de enfermos como leve, moderado y severo, e interesa 
determinar la concordancia entre los observadores. 
 
 Pág.31 
Casos Especiales en Tablas de 2x2: Sensibilidad y Especificidad 
 
En este caso interesa evaluar la efectividad de un procedimiento para diagnosticar una patología, por lo 
que los test tradicionales tampoco son muy utiles. La construcción del test diagnóstico se hace mediante 
un estudio retrospectivo. Por ejemplo, supongamos un estudio retrospectivo con los siguientes 
resultados: 
 
Patología 
(+) (-) Total 
---------------------------------- 
(+) 161 6 167 
Proc.Diagnóstico 
 (-) 19 194 213 
---------------------------------- 
Total 180 200 380 
 
Sensibilidad (S) = Probabilidad de diagnóstico (+) cuando la 
enfermedad está presente = 161/180 = 89.4% 
 
Especificidad (E)= Probabilidad de diagnóstico (-) cuando la 
enfermedadestá ausente = 194/200 = 97.0% 
 
También es posible calcular el porcentaje de falsos positivos (procedimiento resulta positivo pero la 
enfermedad está ausente) y falsos negativos (cuando resulta negativo pero la enfermedad está 
presente). 
 
Falsos Negativos = 19/180 = 10.6% Falsos Positivos = 6/200 = 3.0% 
 
 
Notas: -La posterior aplicación clínica del test construido requiere de un estudio prospectivo. En este 
caso, se calculan los valores predictivo positivo y negativo del procedimiento diagnóstico. En 
la tabla anterior, estos valores serían: VP(+) = 161/167 = 94.4% y VP(-) = 194/213 = 91.1%. 
 
-La comparación de dos procedimientos diagnósticos respecto a su habilidad predictiva puede 
hacerme mediante el test de Chi-cuadrado. (La sensibilidad y especificidad son proporciones). 
 
-Un caso especial se produce cuando se busca el mejor punto de corte en una variable intervalar 
que arroje la más alta sensibilidad y especificidad posibles para una determinada patología. La 
comparación de dos variables intervalares "candidatas" se hace usando curvas ROC (curvas de 
sensibilidad y especificidad). El area bajo estas curvas se comparan usando un test "z", según 
un procedimiento descrito por Hantley & McNeil el año 1983. 
 
 Pág.32 
SITUACION 2: EXPLICATORIA CATEGORICA - EXPLICADA NUMERICA. 
SITUACION 3: EXPLICATORIA NUMERICA - EXPLICADA CATEGORICA. 
 
Esta forma de análisis se usa cuando una de las variables es categórica y la otra numérica, sin importar 
cuál es la variable explicada, cambiando sólo la interpretación del resultado. A continuación se describe 
el método para el caso en que X es categórica e Y numérica. 
 
En este caso, la variable X tiene 2 o más niveles y la variable Y toma un amplio rango de valores 
numéricos. Esta condición de Y impide hacer una tabla de contingencia como en 3.1. La situación en 
este caso es la siguiente: 
Niveles de Variable X 
 
 
 
x1 x2 .... xk 
y11 y21 yk1 
 
 
y12 ... yk2 
 
 
... y2n2 ... 
 
 
y1n1 
 
 
 
 
 
yknk 
 
No.Casos 
 
n1 n2 ... nk
Promedio y1 y2 ... yk
Dv.Est. s1 s2 ... sk 
 
-Se calcula el promedio y desv. estándar de la variable Y para cada categoría de X. Para este análisis 
los valores yi deben ser independientes entre sí y entre las categorías de X. Además, los yi deben tener 
distribución normal al interior de cada categoría de X. 
 
-Si la variable X tiene sólo 2 niveles, se comparan los promedios con test t de Student para muestras 
independientes. 
 
-Si X tiene más de 2 niveles, se comparan los promedios con Análisis de la Varianza. Si la ANOVA 
arroja diferencias significativas entre los promedios, se debe usar un test de comparaciones múltiples 
para detectar el o los promedios distintos. (test de Student-Newman-Keuls, Duncan, Bonferroni, 
Scheffé, etc.) 
 
-Si los yi no tienen distribución normal, pueden probarse transformaciones de los datos, como el 
logaritmo, raíz cuadrada, arcoseno, etc., y usar los test descritos antes. La normalidad de un conjunto de 
datos puede probarse con el test de Kolmogorov-Smirnov. 
 
-Si persiste la no normalidad, o no es posible asumir normalidad debido a tamaños muestrales 
reducidos, deben usarse test no paramétricos: Test de Wilcoxon en vez de t de Student; Test de 
Kruskal-Wallis en vez de ANOVA y test de Dunn para las comparaciones múltiples. 
 
-Es posible transformar la variable Y en una variable NOMINAL construyendo RANGOS. En este 
caso, la asociación de X e Y se reduce al caso descrito en el punto 3.1. 
 
 Pág.33 
Caso Especial de Comparación de Promedios: Medidas Repetidas. 
 
El análisis descrito en 3.2 debe cumplir un requisito importante además de la normalidad: los 
promedios y1, y2,...,yk deben ser independientes entre sí. Es decir, los pacientes al interior de cada 
nivel de X son distintos e independientes de los pacientes del resto de los niveles de X. 
 
Lo anterior no se cumple si el estudio considera a un mismo grupo de pacientes a los que se les mide 
una variable respuesta intervalar en distintos tiempos o bajo condiciones diferentes. En este caso, X 
sigue siendo nominal (representa a los distintos tiempos o las diferentes condiciones) e Y sigue siendo 
intervalar, pero no se cumple el supuesto de independencia. 
 
Si la muestra considera "n" pacientes estudiados, el esquema es el siguiente: 
 
Tiempo, Tratamiento o Condición (X). 
 
Paciente 
 
x1 x2 .... xk 
1
 
y11 y21 yk1 
2 
 
y12 y22 yk2 
: 
 
... ... ... 
n 
 
y1n y2n ykn 
Promedio: 
 
y1 
 
y2 
 
 
 
yk 
 
 
Ejemplos: -Comparación de la P.A.Media de un grupo de pacientes hipertensos sometidos a un 
medicamento, en tiempos basal (pre-tratamiento), 1 mes, 6 meses y 1 año. 
 
-Comparación del peso corporal antes y después de un tratamiento para la obesidad. 
 
 
-Si X tiene sólo 2 niveles, se calcula la diferencia de la variable Y pre y post intervención (δ) para cada 
paciente y se hace un test t de student para muestras pareadas, para docimar la hipótesis Ho: δ 
promedio = 0. Si se rechaza Ho, significa que hay diferencias significativas entre los dos tiempos o 
condiciones. 
 
-Si X tiene más de 2 niveles, se comparan los promedios con análisis de la varianza para medidas 
repetidas. Los test de comparaciones múltiples son los mismos que en el caso de independencia: test de 
Student-Newman-Keuls, Duncan, Bonferroni, etc. 
 
-Si la variable Y no tiene distribución normal al interior de cada categoría de X, se pueden hacer test no 
paramétricos: test de rangos signados de Wilcoxon en vez de test t de Student para muestras pareadas 
y test de Friedman en vez de ANOVA para medidas repetidas. El test de comparaciones múltiples 
sigue siendo el test de Dunn. 
 
 Pág.34 
SITUACION 4: EXPLICATORIA NUMERICA - EXPLICADA NUMERICA. 
 
En este caso el mejor análisis posible de hacer es construir un gráfico de dispersión (o scattergram), el 
cual arrojará una de las siguientes situaciones: 
 
 
 
 
 
 
 
 
 
 
* 
 
 
 
* 
 
* 
 
 
 
 
 
 
 
* 
 
* 
 
 
 
 
 
 
 
 
 
 
 
 
 
 * 
 
 
 
 
 
 
 
* 
 
 
 
* 
 
* 
 
 
 
 
 
 
 
 
 
 
 
* 
 
 
 
 
 
 
 
 
 
 
 
 * 
 
 
 
* 
 
* 
 
 
 
 
 
 
 
** 
 
* 
 
 
 
 
 
* 
 
** 
 
 
 
 
 
 
 
 
 
 
 
 
 
** 
 
 
 
** 
 
* 
 
 
 
 
 
 
 
 
 
 
 
** 
 
 
 
 
 
** 
 
* 
 
* 
 
 
 
 
 
 
 
** 
 
 
 
* 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
* 
 
** 
 
 
 
 
 
 
 
* 
 
** 
 
 
 
 
 
 
 
 
-La variable explicatoria siempre debe graficarse en el eje X o abscisa; La variable explicada debe 
graficarse en el eje Y u ordenada. 
 
-Se calcula el coeficiente de correlación muestral de Pearson (si las 2 variables tienen unidad de 
medida) o de Spearman (si al menos una es ordinal). 
 
-Se determina mediante la correlación si hay asociación lineal directa (r cercano a 1, como en gráfico 
1), inversa (r cercano a -1, como en gráfico 2) o sin asociación lineal (r cercano a 0, como en gráficos 
3 y 4). 
 
-Nótese que la no existencia de asociación lineal no implica necesariamente que no exista asociación 
entre X e Y (como en gráfico 4, en que la asociación es exponencial). 
 
-Es posible hacer un análisis de Regresión Lineal Simple, si la correlación es alta, para estimar la 
constante y la pendiente asociadas a X que permitan PREDECIR el valor de Y para cada valor de X. 
 
-Es posible transformar una de las variables en NOMINAL construyendo RANGOS para esa variable. 
En este caso, el tipo de análisis es el descrito en 3.2. Si se discretizan ambas variables, el análisis es el 
descrito en 3.1. 
 
 Pág.35 
EJEMPLOS PROPUESTOS. 
 
Indique las variables explicada y explicatoria, tipos de variable y el enfoque estadístico más adecuado 
para las siguientes situaciones: 
 
1. Interesa valorar el uso de la tomografía computarizada en el diagnóstico de hernia de disco 
lumbar. El “gold estándar” fue una confirmación de la presencia o ausencia de hernia mediante 
cirugía. 
 
2. Interesa determinar si existen diferencias significativas en elporcentaje de complicaciones post 
operatorias entre las intervenciones quirúrgicas A y B. 
 
3. Determinación del riesgo de cáncer mamario entre mujeres que usan píldoras anticonceptivas. 
 
4. Comparación de la concentración de colesterol sanguíneo entre pacientes que siguen una dieta 
moderada en grasa, los que toman algún medicamento para reducir el colesterol y los que 
reciben un placebo. 
 
5. Determinar la asociación del consumo de alcohol durante el embarazo (medido en 
mililitros/semana) y el peso del niño al nacer. 
 
6. Determinar la asociación del consumo de alcohol durante el embarazo (medido en 
mililitros/semana) y bajo peso de nacimiento (peso inferior a 3000 gramos). 
 
7. Comparación del peso corporal antes y después de un programa de abstención de tabaco. 
 
8. Interesa determinar si la interpretación que hace un especialista de una radiografía es la misma 
que hace otro especialista que observa la radiografía en un computador de alta resolución, a 
través de un programa de medicina a distancia. 
 
9. En un estudio realizado con 500 personas en Valparaíso, se informó que la prevalencia estimada 
de alcoholismo crónico en la ciudad es de 5%. Otro estudio, hecho con 700 personas en 
Santiago, encontró que 43 de ellos padecían de alcoholismo crónico. )Qué test se puede usar 
para comparar ambos resultados?. 
 
10. En cierto hospital A se encontró que en 45 trasplantes renales se presentaron 6 casos de 
rechazo. En otro hospital B se presentaron 11 casos en 72 trasplantes. )Qué problema puede 
presentar la comparación de ambos resultados?. 
 
11. Un equipo de psiquiatras diseñó un puntaje de estrés laboral, el cual toma valores cercanos a 
100 puntos si la persona está muy estresada o cercanos a cero puntos si no hay estrés. Interesa 
determinar si este puntaje está asociado con la edad del trabajador. 
 
 Pág.36 
CURSO DE BIOESTADISTICA 
III. Cálculo de Tamaños Muestrales. 
 
 
 
Cálculo del tamaño muestral para estimar una PREVALENCIA. 
Cuando se desconoce el porcentaje P de casos que tiene alguna característica de interés en una 
población, puede ser necesario estimar esta prevalencia mediante una muestra aleatoria. 
 
En este caso, interesa determinar un tamaño muestral mínimo, de modo que la prevalencia poblacional 
P quede bién estimada por la prevalencia muestral p. Para un nivel de significancia α=5%, el tamaño 
muestral esta dado por: 
Nótese que n aumenta a medida que la prevalencia observada p está más cerca de la prevalencia real. Es 
decir, a mayor precisión en la estimación, mayor es el tamaño muestral requerido. 
 
El cálculo requiere un valor aproximado para la prevalencia poblacional. Si no es posible dar un valor 
tentativo para P, debe asumir P=0.5, el cual entrega el mayor tamaño muestral para un mismo nivel de 
precisión. 
Si la población es finita, el tamaño muestral debe corregirse de la siguiente forma: 
donde n* es el tamaño definitivo de la muestra. 
 
 
 
 
Cálculo del tamaño muestral para comparar dos PROPORCIONES. 
La situación más común en que interesa determinar dos tamaños muestrales es cuando se quiere 
comparar el porcentaje de personas con cierta característica entre dos poblaciones: una de casos 
(Población A) y otra de controles (Población B). Supongamos que esta característica se da en 
proporción Pa en los casos y Pb en los controles. 
 
Las hipótesis de interés en este caso son: 
 
Ho: Pa = Pb 
Ha: Pa Pb 
 
Interesa determinar tamaños muestrales mínimos, na y nb, generalmente na=nb=n, de modo de rechazar 
Ho, para un nivel de significancia α y una potencia 1-β. 
)p(P
P)P(1961. = n 2
2
−
− 
N
n + 1
n = n * 
 
 Pág.37 
En el cálculo del tamaño muestral participa un factor que depende de α y β. El factor se obtiene de la 
siguiente tabla: 
 
 
α \ β 
 
0.05 
 
0.1 
 
0.2 
 
0.5 
 
0.1 
 
10.8 
 
8.6 
 
6.2 
 
2.7 
 
0.05 
 
13.0 
 
10.5 
 
7.9 
 
3.8 
 
0.02 
 
15.8 
 
13.0 
 
10.0 
 
5.4 
 
0.01 
 
17.8 
 
14.9 
 
11.7 
 
6.6 
 
 
De esta forma, el tamaño muestral mínimo está dado por: 
Donde el valor de f(α,β) se obtiene de la tabla previa. Por ejemplo, para una significancia α=5% y 
potencia 1-β=80%, f(α,β)=7.9 
 
Nótese que la fórmula entrega el tamaño muestral mínimo para cada muestra. (Es decir, las dos 
muestras deben ser de tamaño n). 
 
 
 
 
Cálculo del tamaño muestral mínimo para comparar dos PROMEDIOS. 
En ocasiones interesa determinar el tamaño muestral mínimo de casos y controles para encontrar 
diferencias significativas entre dos promedios. 
 
Si las poblaciones son A y B, con promedios µa y µb respectivamente, ambas con varianza común σ2, 
las hipótesis de intérés son: 
Ho: µa = µb 
Ha: µa µb 
 
Para un nivel de significancia α y una potencia 1-β, el tamaño muestral mínimo necesario en cada 
muestra es: 
La función f(α,β) se obtiene de la tabla de la página previa, al igual que en la comparación de 
proporciones. 
),f(
)P P(
)P(1P + )P(1P = n 2
ba
bbaa βα
−
−−
 
),f(
) (
2 = n 2
ba
2
βα
µµ
σ
−
 
 
 Pág.38 
EJEMPLOS PROPUESTOS. 
 
Los siguientes ejemplos pueden ser resueltos usando las fórmulas anteriores y una calculadora. 
 
1. Un departamento local de salud quiere calcular la prevalencia de tuberculosis entre los menores de 5 
años de su circunscripción. )Cuantos niños han de figurar en la muestra para estimar la prevalencia con 
una precisión de 5 puntos porcentuales del valor real y un 95% de confianza, si se sabe que es poco 
probable que la verdadera tasa exceda del 20%? 
 
 
2. El investigador de cierto programa nacional de inmunización desea calcular la proporción de niños 
que reciben vacunación apropiada durante la infancia. )Cuantos niños habrá que estudiar para que la 
estimación resultante se sitúe en un intervalo del 10% (no de 10 puntos porcentuales) de la proporción 
real con un 95% de confianza? 
 
 
3. Se estima que la proporción de casos con complicaciones a raiz de cierta intervención quirúrgica es 
de 5%, mientras que la proporción de complicaciones a raiz de otra intervención es de 15%. )Cual 
tendría que ser el tamaño de la muestra de cada grupo de pacientes si se desea comprobar, con una 
potencia de 90%, que existe una diferencia significativa en la tasa de complicaciones, a un nivel de 
significancia del 5%?