Logo Studenta

e) 1 Estadísticas básicas para clínicos, español

¡Estudia con miles de materiales!

Vista previa del material en texto

Estadísticas básicas para clínicos. 
 
1. Pruebas de hipótesis 
Gordon Guyatt, MD; Roman Jaeschke, MD; Nancy Heddle, MSc; Deborah Cook, MD; Harry Shannon, PhD; Stephen Walter, PhD 
Canadian Medical Association Journal 1995; 152: 27-32 
currículum 
 
Las reimpresiones en papel del texto completo se pueden obtener de: Dr. Gordon Guyatt, Rm. 2C12, Centro de Ciencias de la 
Salud de la Universidad McMaster, 1200 Main St. W, Hamilton ON L8N 3Z5. 
 
Contenido 
 Resumen 
 Currículum 
 Introducción 
 Técnicas estadísticas de uso común. 
 Prueba de hipótesis 
 El papel del azar 
 El valor p 
 Riesgo de un resultado falso negativo. 
 Medidas continuas de resultado. 
 Diferencias basales 
 Pruebas multiples 
 Limitaciones de la prueba de hipótesis. 
 Conclusión 
 Referencias 
 
Resumen 
En el primero de una serie de cuatro artículos, los autores explican los conceptos estadísticos de las pruebas de hipótesis y 
los valores de p . En muchos ensayos clínicos, los investigadores prueban una hipótesis nula de que no hay diferencia entre un 
nuevo tratamiento y un placebo o entre dos tratamientos. El resultado de un solo experimento casi siempre mostrará alguna 
diferencia entre los grupos experimental y de control. 
¿Es la diferencia debida al azar, o es lo suficientemente grande como para rechazar la hipótesis nula y concluir que existe una 
verdadera diferencia en los efectos del tratamiento? 
Las pruebas estadísticas arrojan un valor de p : la probabilidad de que el experimento muestre una diferencia tan grande o 
mayor que la observada si la hipótesis nula fuera cierta. 
Por convención, p los valores inferiores a 0.05 se consideran estadísticamente significativos, y los investigadores concluyen que 
existe una diferencia real. 
Sin embargo, cuanto menor sea el tamaño de la muestra, mayor será la posibilidad de concluir erróneamente que el tratamiento 
experimental no difiere del control; en términos estadísticos, el poder de la prueba puede ser inadecuado. Las pruebas de varios 
resultados de un conjunto de datos pueden llevar a una conclusión errónea de que un resultado es significativo si la probabilidad 
conjunta de los resultados no se tiene en cuenta. La prueba de hipótesis tiene limitaciones, que se tratarán en el próximo 
artículo de la serie. 
 
 
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#resume
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#abstract
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#resume
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#intro
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#common
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#hypoth
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#chance
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#pvalue
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#falseneg
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#outcome
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#baseline
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#multiple
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#limits
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#conclus
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#reference
En Clínica a menudo se dice que se supone que no sólo leer artículos de revistas, sino también entenderlos y hacer una 
evaluación crítica de su validez [1,2]. Los clínicos pueden ofrecer una mejor atención si pueden evaluar críticamente la literatura 
original y aplicar los resultados a su práctica [3,4]. Los criterios para evaluar la fortaleza de los métodos informados en los 
artículos médicos pueden proporcionar a los médicos una guía para reconocer las fortalezas y debilidades de la investigación 
clínica [5,6]. Sin embargo, estas pautas tienden a hacer una referencia pasajera a los métodos estadísticos o la interpretación de 
las conclusiones del estudio basadas en estadísticas. 
Algunos autores han intentado llenar este vacío [7-11]. Esta serie tiene metas modestas. No pretendemos, por ejemplo, permitir 
que los lectores identifiquen o comprendan las pruebas estadísticas utilizadas para calcular un valor de p , pero estamos 
interesados en ayudarlos a interpretar los valores de p generados por dichas pruebas. Deseamos que los lectores comprendan 
las conclusiones derivadas de los procedimientos estadísticos que encuentran en los artículos clínicos. Esta serie complementa 
nuestras guías para el uso de la literatura médica, que se centran en el diseño del estudio y la aplicación de los resultados del 
estudio [12]. 
 
Técnicas estadísticas de uso común. 
Elegimos abordar solo las técnicas y los enfoques que los clínicos enfrentan con mayor frecuencia. Para identificarlos, revisamos 
las contribuciones recientes a tres revistas médicas principales: artículos originales, especiales y de revisión en el New England 
Journal of Medicine (1991; 324: 1352); diagnóstico y tratamiento, revisión y artículos académicos en Annals of Internal 
Medicine (1991; 114: 345834), e investigación original, revisión actual y artículos de estudios clínicos y comunitarios en Canadian 
Medical Association Journal (1991; 144: 6231265). Dos de nosotros (NH y RJ) revisaron de forma independiente 100 artículos y 
anotaron las técnicas estadísticas utilizadas. Las discrepancias entre los hallazgos de los dos revisores se resolvieron por 
consenso. 
Los resultados de esta revisión (Tabla 1) son consistentes con los de una revisión similar [13]. Aunque se informó una amplia 
variedad de técnicas estadísticas, las pruebas de hipótesis, los intervalos de confianza, los valores de p y las medidas de 
asociación ocurrieron con mayor frecuencia. Sobre la base de esta información, nuestra serie tratará las pruebas de hipótesis, la 
estimación, las medidas de asociación, el análisis de supervivencia y la regresión y correlación. Se extraerán ejemplos de los 
artículos encuestados y otros. 
Tabla 1: Frecuencia de conceptos y técnicas estadísticas en 100 artículos publicados en tres revistas médicas 
Concepto o tecnica No. de articulos 
valor de p 66 
Intervalo de confianza 43 
Prueba de hipótesis 
 Método paramétrico 
 Método no paramétrico 
 
36 
25 
Regresión o correlación 22 
Medida de asociacion 19 
Análisis de supervivencia 19 
Medida de acuerdo 8 
 
 
Prueba de hipótesis 
Cuando llevamos a cabo un ensayo de un nuevo tratamiento, podemos suponer que hay un verdadero efecto subyacente del 
tratamiento que cualquier experimento solo puede estimar. Los investigadores usan métodos estadísticos para ayudar a 
comprender el verdadero efecto de los resultados de un experimento. Desde hace algún tiempo el paradigma de la inferencia 
estadística ha sido la prueba de hipótesis. El investigador comienza a partir de lo que se llama una "hipótesis nula": la hipótesis 
de que el procedimiento estadístico está diseñado para probar y, posiblemente, refutar. Normalmente, la hipótesis nula es que 
no hay diferencia entre los resultados como resultado de los tratamientos que se comparan. En un ensayo controlado aleatorio 
para comparar un tratamiento experimental con un placebo, la hipótesis nula se puede establecer: " 
Por ejemplo, en una comparación de dos tratamientos vasodilatadores para pacientes con insuficiencia cardíaca, la proporción 
de pacientes tratados con enalapril que sobrevivieron se comparó con la proporción de sobrevivientes entre los pacientes que 
recibieron una combinación de hidralazina y nitratos [14]. Comenzamos con el supuesto de que los tratamientos son igualmenteefectivos y se mantienen en esta posición a menos que los datos lo hagan insostenible. La hipótesis nula en el ensayo 
vasodilatador podría establecerse: "La verdadera diferencia en la proporción que sobrevive entre los pacientes tratados con 
enalapril y los tratados con hidralazina y nitratos es cero". 
En el marco de prueba de hipótesis, preguntamos si los datos observados son consistentes con esta hipótesis nula. La lógica 
detrás de este enfoque es la siguiente. Incluso si la diferencia real en el efecto es cero, los resultados observados rara vez serán 
exactamente los mismos; es decir, habrá alguna diferencia entre los resultados para los grupos experimental y de control. A 
medida que los resultados divergen más y más lejos del hallazgo de no diferencia, la hipótesis nula de que no hay diferencia 
entre los tratamientos se vuelve cada vez menos creíble. Si la diferencia entre los resultados en los grupos de tratamiento y 
control es lo suficientemente grande, el investigador debe abandonar la creencia en la hipótesis nula. Una explicación del papel 
del azar ayuda a demostrar esta lógica subyacente. 
 
El papel del azar 
Imagine una moneda justa o "imparcial" en la que la probabilidad real de obtener caras en un solo lanzamiento de moneda sea 
0.5. Si lanzáramos semejante moneda 10 veces, nos sorprenderíamos si viéramos exactamente cinco caras y cinco 
colas. Ocasionalmente, obtendríamos resultados muy divergentes de la división de cinco a cinco, como ocho a dos, o incluso 
nueve a uno. Con muy poca frecuencia, 10 lanzamientos de monedas darían como resultado 10 caras o colas consecutivas. 
El azar es responsable de esta variación en los resultados. Los juegos de azar ilustran la manera en que opera el azar. En 
ocasiones, la tirada de dos dados no sesgados (con la misma probabilidad de tirar cualquier número entre uno y seis) dará como 
resultado dos o dos seis. El crupier en un juego de póquer, en ocasiones (y para el deleite del receptor), entregará una mano que 
consta de cinco cartas de un solo palo. Incluso con menos frecuencia, las cinco cartas no solo pertenecerán a un solo palo, sino 
que también serán consecutivas. 
El azar no se limita al mundo de los lanzamientos de monedas, dados y juegos de cartas. Si se selecciona una muestra de 
pacientes de una comunidad, la posibilidad puede dar lugar a distribuciones inusuales de la enfermedad en la muestra. Chance 
puede ser responsable de un desequilibrio sustancial en las tasas de un evento en particular en dos grupos de pacientes que 
reciben diferentes tratamientos que, de hecho, son igualmente efectivos. La investigación estadística está orientada a 
determinar si las distribuciones desbalanceadas pueden atribuirse al azar o si deberían atribuirse a otra causa (efectos del 
tratamiento, por ejemplo). Como demostraremos, las conclusiones que pueden extraerse de la investigación estadística están en 
gran parte determinadas por el tamaño de la muestra del estudio. 
 
El valor p 
Una forma en que un investigador puede equivocarse es concluir que existe una diferencia en los resultados entre un 
tratamiento y un grupo de control cuando, de hecho, no existe tal diferencia. En terminología estadística, la conclusión errónea 
de que existe una diferencia se denomina error de Tipo I, y la probabilidad de cometer dicho error se designa como alfa. Imagina 
una situación en la que no estamos seguros de si una moneda está sesgada. Es decir, sospechamos (pero no sabemos a ciencia 
cierta) que es más probable que un sorteo de moneda dé como resultado cabezas que cola. Podríamos construir una hipótesis 
nula de que las proporciones reales de cabezas y colas son iguales. Es decir, la probabilidad de cualquier cabeza de aterrizaje de 
lanzamiento dada es 0.5, y también lo es la probabilidad de que cualquier cola de aterrizaje de lanzamiento dado. Podríamos 
probar esta hipótesis en un experimento en el que la moneda se lanza varias veces. 
Llevemos a cabo un experimento mental en el que la moneda sospechosa se lanza 10 veces, y en las 10 ocasiones el resultado es 
cara. ¿Qué tan probable es este resultado si la moneda es imparcial? La mayoría de las personas concluirían que es muy poco 
probable que este resultado extremo se explique por casualidad. Por lo tanto, rechazarían la hipótesis nula y concluirían que la 
moneda está sesgada. Los métodos estadísticos nos permiten ser más precisos e indicar cuán poco probable es que el resultado 
se haya producido simplemente por casualidad si la hipótesis nula es cierta. La probabilidad de 10 cabezas consecutivas se 
puede encontrar multiplicando la probabilidad de una sola cabeza (0.5) por sí misma 10 veces: 0.5 × 0.5 × 0.5 y así 
sucesivamente. Por lo tanto, la probabilidad es ligeramente menor que uno en 1000. En un artículo probablemente veríamos 
esta probabilidad expresada como un valor de p :p<0,001. ¿Cuál es el significado preciso de este valor p ? Si la hipótesis nula 
fuera cierta (es decir, la moneda fuera imparcial) y tuviéramos que repetir el experimento de los 10 lanzamientos de monedas 
muchas veces, se esperaría que ocurrieran 10 caras consecutivas por casualidad menos de una vez en 1000 veces. La 
probabilidad de obtener 10 cabezas o 10 colas es de aproximadamente 0.002, o dos en 1000. 
En el marco de la prueba de hipótesis, el experimento no habría terminado, ya que todavía tenemos que tomar una 
decisión. ¿Estamos dispuestos a rechazar la hipótesis nula y concluir que la moneda está sesgada? ¿Qué tan improbable sería un 
resultado antes de que estuviéramos dispuestos a descartar la posibilidad de que la moneda fuera imparcial? En otras palabras, 
¿qué posibilidades de cometer un error de Tipo I estamos dispuestos a aceptar? Este razonamiento implica que hay una 
probabilidad de umbral que marca un límite; en un lado del límite no estamos dispuestos a rechazar la hipótesis nula, pero en el 
otro concluimos que el azar ya no es una explicación plausible del resultado. Para volver al ejemplo de 10 cabezas consecutivas, 
la mayoría de las personas estaría dispuesta a rechazar la hipótesis nula cuando se esperaría que los resultados observados 
ocurrieran por casualidad menos de una vez en 1000 veces. 
Repitamos el experimento mental con una nueva moneda. Esta vez obtenemos nueve colas y una cabeza. Una vez más, es poco 
probable que el resultado se deba solo al azar. Esta vez el valor de p es 0.02. Es decir, si la hipótesis nula fuera cierta y la moneda 
fuera imparcial, los resultados observados o más extremos que los observados (10 cabezas o 10 colas, 9 cabezas y 1 cola o 9 
colas y 1 cabeza) se espera que ocurran. Por casualidad dos veces en 100 repeticiones del experimento. 
Dado este resultado, ¿estamos dispuestos a rechazar la hipótesis nula? La decisión es arbitraria y una cuestión de juicio. Sin 
embargo, por convención estadística, el límite o umbral que separa lo plausible y lo inverosímil es cinco veces en 100 ( p = 
0.05). Esta frontera está dignificada por una larga tradición, aunque otras opciones de valor límite podrían ser igualmente 
razonables. Los resultados que caen más allá de este límite (es decir, p <0.05) se consideran "estadísticamente significativos". La 
importancia estadística, por lo tanto, significa que un resultado es "lo suficientemente improbable como para que sea posible 
que estemos listos para rechazar la hipótesis nula". 
Repitamos nuestro experimento dos veces más con una nueva moneda. En la primera repetición se obtienen ocho cabezas y dos 
colas. El valor de pasociado con tal división nos dice que, si la moneda fuera imparcial, un resultado tan extremo como ocho a 
dos (o dos a ocho), o más extremo, se produciría por casualidad 11 veces en 100 ( p = 0.11) . Este resultado ha cruzado el límite 
convencional entre lo plausible y lo inverosímil. Si aceptamos la convención, los resultados no son estadísticamente significativos 
y la hipótesis nula no se rechaza. 
En nuestra repetición final del experimento se obtienen siete colas y trescabezas. La experiencia nos dice que tal resultado, 
aunque no es el más común, no sería inusual incluso si la moneda fuera imparcial. El valor p confirma nuestra intuición: los 
resultados son tan extremos como esta división ocurriría bajo la hipótesis nula 34 veces en 100 ( p = 0,34). De nuevo, la hipótesis 
nula no es rechazada. 
Aunque la investigación médica no se ocupa de determinar si las monedas son imparciales, el razonamiento detrás de 
los valores de p reportados en los artículos es idéntico. Cuando se comparan dos tratamientos, ¿qué tan probable es que la 
diferencia observada se deba solo al azar? Si aceptamos el límite o umbral convencional ( p <0.05), rechazaremos la hipótesis 
nula y concluiremos que el tratamiento tiene algún efecto cuando la respuesta a esta pregunta es que las repeticiones del 
experimento producirían diferencias tan extremas como las que hemos observado. Menos del 5% del tiempo. 
En el ensayo aleatorio mencionado anteriormente, el tratamiento con enalapril se comparó con el tratamiento mediante una 
combinación de hidralazina y nitratos en 804 pacientes varones con insuficiencia cardíaca. Este ensayo ilustra la prueba de 
hipótesis cuando hay un resultado dicotómico (SíNo), en este caso, vida o muerte.14 Durante el período de seguimiento, que 
varió de 6 meses a 5.7 años, 132 (33%) de los 403 pacientes asignados al grupo de enalapril murió, al igual que 153 (38%) de los 
401 asignados al grupo de hidralazina y nitratos. La aplicación de una prueba estadística que compara proporciones (la prueba 
de Chi²) muestra que si realmente no hubo diferencias en la mortalidad entre los dos grupos, se esperarán diferencias tan 
grandes o mayores que las observadas realmente 11 veces en 100 (Chi² = 0.11) . 
 
Riesgo de un resultado falso negativo. 
Un médico podría comentar sobre los resultados de la comparación de enalapril con hidralazina y nitratos de la siguiente 
manera: "Aunque acepto el umbral de 0.05 y, por lo tanto, estoy de acuerdo en que no podemos rechazar la hipótesis nula, aún 
sospecho que el tratamiento con enalapril produce una tasa de mortalidad más baja. que el tratamiento con la combinación de 
hidralazina y nitratos. El experimento me deja en un estado de incertidumbre ". Este médico reconoce un segundo tipo de error 
que un investigador puede cometer: concluir falsamente que un tratamiento eficaz es inútil. Se produce un error de Tipo II 
cuando erróneamente no rechazamos la hipótesis nula (y, por lo tanto, descartamos un tratamiento útil). 
En la comparación del tratamiento con enalapril y con hidralazina y nitratos, la posibilidad de concluir erróneamente que no hay 
diferencia entre los tratamientos es importante. Los investigadores encontraron que un 5% menos de pacientes que recibieron 
enalapril murieron en comparación con los que recibieron el régimen vasodilatador alternativo. Si la verdadera diferencia en la 
mortalidad realmente fuera del 5%, fácilmente concluiríamos que los pacientes se benefician del enalapril. A pesar de este 
resultado, sin embargo, no pudimos rechazar la hipótesis nula. 
¿Por qué los investigadores no pudieron concluir que el enalapril es superior a la hidralazina y los nitratos a pesar de haber 
observado una diferencia importante entre las tasas de mortalidad? El estudio no incluyó pacientes suficientes para que los 
investigadores confiaran en que la diferencia que observaron era real. La probabilidad de perder una diferencia importante (y de 
cometer un error de Tipo II) disminuye a medida que la muestra aumenta de tamaño. Cuando existe un alto riesgo de cometer 
un error de Tipo II, decimos que el estudio tiene un poder inadecuado. Cuanto mayor sea la muestra, menor será el riesgo de 
error de Tipo II y mayor será la potencia. Aunque los investigadores que realizaron el ensayo vasodilatador reclutaron a 804 
pacientes, para resultados dicotómicos, como la vida o la muerte, a menudo se requieren muestras muy grandes para detectar 
pequeñas diferencias en los efectos del tratamiento. Por ejemplo, 
Cuando un ensayo no rechaza la hipótesis nula ( p > 0.05), los investigadores pueden haber perdido un verdadero efecto de 
tratamiento, y debemos considerar si el poder del ensayo fue adecuado. En tales estudios "negativos", cuanto más fuerte es la 
tendencia a favor del tratamiento experimental, más probable es que el ensayo no detecte un verdadero efecto del tratamiento 
[15]. Explicaremos más sobre cómo decidir si un ensayo tuvo el poder adecuado en el siguiente artículo de esta serie. 
Algunos estudios están diseñados para determinar no si un tratamiento nuevo es mejor que el actual, sino si un tratamiento 
menos costoso, más fácil de administrar o menos tóxico produce el mismo efecto de tratamiento que el tratamiento 
estándar. En tales estudios (a menudo llamados "estudios de equivalencia" [16]), el reclutamiento de una muestra adecuada 
para garantizar que no se pierdan los efectos del tratamiento pequeños pero importantes es aún más importante. Si el tamaño 
de la muestra en un estudio de equivalencia es inadecuado, el investigador se arriesga a concluir que los tratamientos son 
equivalentes cuando, de hecho, los pacientes que reciben la terapia estándar obtienen importantes beneficios en comparación 
con los que reciben la alternativa más fácil, más barata o menos tóxica. 
 
Medidas continuas de resultado. 
Todos nuestros ejemplos hasta ahora han usado resultados como Sí o No, cabezas o colas, morir o no morir, que pueden 
expresarse como proporciones. A menudo, los investigadores comparan los efectos de dos o más tratamientos utilizando 
variables numéricas u ordinales, como la medición espirométrica, el gasto cardíaco, el aclaramiento de creatinina o la 
puntuación en un cuestionario de calidad de vida. Estos resultados son continuos: es posible un gran número de valores. 
Por ejemplo, en el estudio de enalapril versus hidralazina y nitratos en el tratamiento de la insuficiencia cardíaca, los 
investigadores compararon el efecto de los dos regímenes sobre la capacidad de ejercicio (una variable continua). En contraste 
con el efecto sobre la mortalidad, que mostró mejores resultados con el tratamiento con enalapril, la capacidad de ejercicio 
mejoró con hidralazina y nitratos, pero no con enalapril. Los investigadores compararon el cambio en la capacidad de ejercicio 
desde el inicio hasta los 6 meses en los dos grupos de tratamiento con el uso de una prueba estadística para las variables 
continuas ( prueba de la t de Student). La capacidad de ejercicio en el grupo que recibió hidralazina y nitratos mejoró más que en 
el otro grupo, y es poco probable que la diferencia entre los dos grupos haya ocurrido por casualidad ( p = 0.02).Los valores de p 
para la prueba t de Students y otros similares se obtienen de las tablas estándar. 
 
Diferencias basales 
Los autores de los artículos a menudo afirman que las pruebas de hipótesis se han "ajustado" para las diferencias de referencia 
en los grupos estudiados. La asignación aleatoria, en la que el azar solo dicta a qué grupo se asigna un paciente, generalmente 
produce grupos comparables. Sin embargo, si el investigador no tiene suerte, los factores que determinan el resultado podrían 
estar distribuidos de manera desigual entre los dos grupos. Por ejemplo, en un ensayo para comparar dos tratamientos, digamos 
que se sabe que los pacientes mayores tienen un peor resultado. Después de la asignación aleatoria, el investigador descubre 
que una mayor proporción de los pacientes mayores se asignan a uno de los dos tratamientos. Este desequilibrio de edad podría 
amenazar la validez de un análisis que no tenga en cuenta la edad. Entonces el investigador realiza un ajuste en la prueba 
estadística para obtener una pValor corregido por diferencias en la distribución por edades de los dos grupos. En este ejemplo, a 
los lectores se les presenta la probabilidad que se habría generado si la distribución por edades en los dos grupos hubiera sido la 
misma. Engeneral, se pueden hacer ajustes para varias variables a la vez, y el valor p se puede interpretar de manera regular. 
 
Pruebas multiples 
Los estudiantes universitarios han sido durante mucho tiempo temas populares para los experimentos. De acuerdo con esta 
tradición, hemos elegido a los estudiantes de medicina como sujetos para nuestro próximo experimento mental. 
Imagine una escuela de medicina en la que dos instructores enseñan un curso introductorio sobre estadísticas médicas, uno de 
los cuales es más popular que el otro. El decano de la escuela de medicina no tiene sustituto para el miembro de la facultad 
menos popular. Ella tiene una pasión particular por la imparcialidad y decide que tratará la situación asignando a los 200 
estudiantes de primer año de medicina a un instructor u otro por asignación aleatoria, en el que cada estudiante tiene la misma 
posibilidad (0.5) de ser asignado a Uno de los dos instructores. 
Los instructores deciden utilizar esta decisión para ilustrar algunos principios importantes de las estadísticas médicas. Por lo 
tanto, preguntan: ¿Las características de los dos grupos de estudiantes difieren más allá de un nivel que podría explicarse por 
casualidad? Las características que eligen son sexo, color de ojos, altura, promedio de calificaciones en el año anterior a la 
universidad, estatus socioeconómico y tipo de música favorita. Los instructores formulan hipótesis nulas para cada una de sus 
pruebas. Por ejemplo, la hipótesis nula asociada con la distribución del sexo es la siguiente: los estudiantes proceden del mismo 
grupo de personas; por lo tanto, la verdadera proporción de mujeres en los dos grupos es idéntica. Como los investigadores 
saben de antemano que la hipótesis nula en cada caso es verdadera, cada vez que se rechace la hipótesis representa un 
resultado falso positivo. 
Los instructores encuestan a sus estudiantes para determinar su estado en cada una de las seis variables de interés. Para cinco 
de estas variables, encuentran que las distribuciones son similares en los dos grupos, y los valores de p asociados con las 
pruebas estadísticas de las diferencias entre los grupos son todos mayores de 0.10. Ellos encuentran que para el color de los 
ojos, sin embargo, 25 de 100 estudiantes en un grupo tienen ojos azules y 38 de 100 en el otro grupo tienen ojos azules. Un 
análisis estadístico revela que si la hipótesis nula fuera cierta (lo que es), tal diferencia en la proporción de personas con ojos 
azules en los dos grupos se produciría algo menos de cinco veces en 100 repeticiones del experimento. Si los investigadores 
usaran el límite convencional, la hipótesis nula sería rechazada. 
¿Qué tan probable es que, en seis pruebas de hipótesis independientes en dos grupos similares de estudiantes, al menos una 
prueba haya cruzado el umbral de 0.05 solo por casualidad? ("Independiente" significa que el resultado de una prueba de una 
hipótesis no depende, de ninguna manera, de los resultados de las pruebas de ninguna de las otras hipótesis). Esta probabilidad 
se calcula de la siguiente manera: la probabilidad de que no crucemos la El umbral de 0.5 en la prueba de una sola hipótesis es 
0.95; al probar dos hipótesis, la probabilidad de que ninguna de ellas cruce el umbral es de 0.95 multiplicada por 0.95 (el 
cuadrado de 0.95); al probar seis hipótesis, la probabilidad de que no una sola cruce el umbral de 0.5 es de 0.95 a la sexta 
potencia, o 0.74. Por lo tanto,el valor de p es seis, de modo que cada una de las seis pruebas utiliza un valor límite de p = 
0,008. Es decir, rechazaría la hipótesis nula de que ninguna de las características difería significativamente solo si cualquiera de 
las diferencias era significativa en 
p <0,008. 
Hay dos mensajes aquí. Primero, los hallazgos raros ocurren en ocasiones por casualidad. Incluso con una sola prueba, un 
hallazgo con una pEl valor de 0.01 ocurrirá el 1% del tiempo. En segundo lugar, debemos tener cuidado con las pruebas de 
hipótesis múltiples, ya que pueden dar resultados engañosos. Ejemplos de este fenómeno abundan en la literatura 
clínica. Pocock, Hughes y Lee [2], en una encuesta de 45 ensayos de tres revistas médicas líderes, encontraron que la mediana 
del número de puntos finales era de 6 y que la mayoría de los resultados se probaron con significación estadística. Un ejemplo 
específico de los peligros de usar múltiples puntos finales se encuentra en un ensayo aleatorizado del efecto de la rehabilitación 
después del infarto de miocardio en la calidad de vida [17]. Los investigadores asignaron aleatoriamente a los pacientes a 
atención estándar, un programa de ejercicios o un programa de asesoramiento y obtuvieron informes de pacientes sobre el 
trabajo, el ocio, la actividad sexual, la satisfacción con el resultado, el cumplimiento del asesoramiento, la calidad del ocio y el 
trabajo, los síntomas psiquiátricos, Síntomas cardíacos y salud general. Para casi todas estas variables, no hubo diferencia entre 
los tres grupos. Sin embargo, los pacientes estaban más satisfechos con el ejercicio que con los otros dos regímenes, las familias 
en el grupo de asesoramiento trataron de proteger a los pacientes menos que los de los otros grupos y las horas de trabajo y la 
frecuencia de la actividad sexual fueron mayores a los 18 meses. -upro en el grupo de consejería que en los otros 
grupos. ¿Significa esto que los programas de ejercicio y asesoramiento deberían implementarse debido a la pequeña cantidad 
de resultados a su favor, o que deberían rechazarse porque la mayoría de los resultados no mostraron diferencias? Los autores 
concluyeron que sus resultados no apoyaban la efectividad de los programas de ejercicio o de asesoramiento para mejorar la 
calidad de vida. Sin embargo, un defensor del programa podría argumentar que, aunque solo unos pocos de los resultados 
favorecieran tales programas, valen la pena. Por lo tanto, el uso de múltiples variables abre la puerta a la controversia. 
Existen varias estrategias estadísticas para tratar las pruebas de hipótesis múltiples de los mismos datos. Hemos ilustrado uno 
de estos en un ejemplo anterior: dividir el valor de p por el número de pruebas. También podemos especificar, antes de 
emprender el estudio, un resultado primario único sobre el que dependerán las conclusiones principales. Un tercer enfoque es 
derivar una estadística de prueba global que combine los múltiples resultados en una sola medida. La discusión completa de 
estas estrategias para tratar resultados múltiples está fuera del alcance de este artículo, pero está disponible en otra parte [18]. 
 
Limitaciones de la prueba de hipótesis. 
Algunos lectores pueden, en este punto, tener preguntas que los inquieten. ¿Por qué usar un solo punto de corte cuando la 
elección de tal punto es arbitraria? ¿Por qué plantear la pregunta de si un tratamiento es efectivo o una dicotomía (una decisión 
de YesNo) cuando puede ser más apropiado verlo como un continuo (desde muy poco probable que sea efectivo hasta casi 
seguro que sea efectivo)? 
Somos extremadamente comprensivos con tales lectores; están en el camino correcto. Trataremos más a fondo las limitaciones 
de las pruebas de hipótesis en el próximo artículo, que presentará un enfoque alternativo para evaluar la presencia de un efecto 
de tratamiento y para estimar un rango de valores plausibles de tal efecto. 
 
Conclusión 
Evitamos enumerar los procedimientos estadísticos utilizados para probar las hipótesis nulas en los estudios que hemos 
citado; no esperamos que los lectores reconozcan los muchos métodos disponibles o cuestionen si se ha elegido la prueba 
apropiada. Más bien, proporcionamos una guía para interpretar los valores de p y una advertencia sobre su interpretación 
cuando se examinan múltiples medidas de resultado. Hemos aludido a las limitaciones de la prueba de hipótesis y los valores p 
resultantes . En el próximo artículo, que tratará los intervalos de confianza, describiremos técnicas complementariaspara 
abordar algunas de estas deficiencias. 
 
Referencias 
1. Departamento de Epidemiología Clínica y Bioestadística, Centro de Ciencias de la Salud de la Universidad 
McMaster. Cómo leer revistas clínicas: I. Por qué leerlas y cómo comenzar a leerlas de forma crítica. CMAJ 1981; 124: 
555-8. 
2. Pocock SJ, Hughes MD, Lee RJ. Problemas estadísticos en la notificación de ensayos clínicos. Una encuesta de tres 
revistas médicas. N Engl J Med1987; 317: 426-32. 
3. Grupo de trabajo de medicina basada en evidencia. Medicina basada en la evidencia: un nuevo enfoque para enseñar la 
práctica de la medicina. JAMA 1992; 268: 2420-5. 
4. Guyatt GH, Rennie D. Guías del usuario para leer literatura médica. [editorial] JAMA 1993; 270: 2096-7. 
5. Sackett DL, Haynes RB, Guyatt GH, et al. Epidemiología clínica, una ciencia básica para la medicina clínica , Little, Brown 
and Company, Boston, 1991. 
6. Wasson JH, Sox HC, Neff RK, et al. Reglas de predicción clínica. Aplicaciones y estándares metodológicos. N Engl J 
Med 1985; 313: 793-9. 
7. Clegg F. Introducción a las estadísticas. I: Estadística descriptiva. Br J Hosp Med 1987; 37: 356-7. 
8. O'Brien PC, Shampo MA. Serie de estadísticas. Consideraciones estadísticas para realizar múltiples pruebas en un solo 
experimento. 1. Introducción. Mayo Clin Proc 1988; 63: 813-5. 
9. Altman DG, Gore SM, Gardner MJ, et al. Pautas estadísticas para colaboradores de revistas médicas. BMJ 1983; 286: 
1489-93. 
10. Gardner MJ, Altman DG. Estimando con confianza. BMJ 1988; 296: 1210-1. 
11. Gardner MJ, Altman DG. Estadísticas con confianza: intervalos de confianza y pautas estadísticas , British Medical 
Journal, Londres, Inglaterra, 1989. 
12. Oxman AD, Sackett DL, Guyatt GH para el Grupo de Trabajo de Medicina Basada en la Evidencia. Una guía de usuarios 
de la literatura médica. Por qué y cómo empezar. JAMA 1993; 270: 2093-5. 
13. Emerson JD, Colditz GA. Uso del análisis estadístico en el New England Journal of Medicine . N Engl J Med 1983; 309: 
709-13. 
14. Cohn JN, Johnson G, Ziesche S, y col. Una comparación de enalapril con dinitrato de hidralazina-isosorbida en el 
tratamiento de la insuficiencia cardíaca congestiva crónica. N Engl J Med 1991; 325: 303-10. 
15. Detsky AS, Sackett DL. ¿Cuándo fue lo suficientemente grande una prueba "negativa"? La cantidad de pacientes que 
necesita depende de lo que encontró. Arch Intern Med 1985; 145: 709-15. 
16. Kirshner B. Estándares metodológicos para evaluar la equivalencia terapéutica. J Clin Epidemiol 1991; 44: 839-49. 
17. Mayou R, MacMahon D, Sleight P, et al. Rehabilitación precoz tras infarto de miocardio. Lancet 1981; 2: 1399-401. 
18. Pocock SJ, Geller NL, Tsiatis AA. El análisis de múltiples criterios de valoración en ensayos clínicos. Biometrics 1987; 43: 
487-98. 
 
|

Continuar navegando