Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Estadísticas básicas para clínicos. 1. Pruebas de hipótesis Gordon Guyatt, MD; Roman Jaeschke, MD; Nancy Heddle, MSc; Deborah Cook, MD; Harry Shannon, PhD; Stephen Walter, PhD Canadian Medical Association Journal 1995; 152: 27-32 currículum Las reimpresiones en papel del texto completo se pueden obtener de: Dr. Gordon Guyatt, Rm. 2C12, Centro de Ciencias de la Salud de la Universidad McMaster, 1200 Main St. W, Hamilton ON L8N 3Z5. Contenido Resumen Currículum Introducción Técnicas estadísticas de uso común. Prueba de hipótesis El papel del azar El valor p Riesgo de un resultado falso negativo. Medidas continuas de resultado. Diferencias basales Pruebas multiples Limitaciones de la prueba de hipótesis. Conclusión Referencias Resumen En el primero de una serie de cuatro artículos, los autores explican los conceptos estadísticos de las pruebas de hipótesis y los valores de p . En muchos ensayos clínicos, los investigadores prueban una hipótesis nula de que no hay diferencia entre un nuevo tratamiento y un placebo o entre dos tratamientos. El resultado de un solo experimento casi siempre mostrará alguna diferencia entre los grupos experimental y de control. ¿Es la diferencia debida al azar, o es lo suficientemente grande como para rechazar la hipótesis nula y concluir que existe una verdadera diferencia en los efectos del tratamiento? Las pruebas estadísticas arrojan un valor de p : la probabilidad de que el experimento muestre una diferencia tan grande o mayor que la observada si la hipótesis nula fuera cierta. Por convención, p los valores inferiores a 0.05 se consideran estadísticamente significativos, y los investigadores concluyen que existe una diferencia real. Sin embargo, cuanto menor sea el tamaño de la muestra, mayor será la posibilidad de concluir erróneamente que el tratamiento experimental no difiere del control; en términos estadísticos, el poder de la prueba puede ser inadecuado. Las pruebas de varios resultados de un conjunto de datos pueden llevar a una conclusión errónea de que un resultado es significativo si la probabilidad conjunta de los resultados no se tiene en cuenta. La prueba de hipótesis tiene limitaciones, que se tratarán en el próximo artículo de la serie. http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#resume http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#abstract http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#resume http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#intro http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#common http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#hypoth http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#chance http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#pvalue http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#falseneg http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#outcome http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#baseline http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#multiple http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#limits http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#conclus http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#reference En Clínica a menudo se dice que se supone que no sólo leer artículos de revistas, sino también entenderlos y hacer una evaluación crítica de su validez [1,2]. Los clínicos pueden ofrecer una mejor atención si pueden evaluar críticamente la literatura original y aplicar los resultados a su práctica [3,4]. Los criterios para evaluar la fortaleza de los métodos informados en los artículos médicos pueden proporcionar a los médicos una guía para reconocer las fortalezas y debilidades de la investigación clínica [5,6]. Sin embargo, estas pautas tienden a hacer una referencia pasajera a los métodos estadísticos o la interpretación de las conclusiones del estudio basadas en estadísticas. Algunos autores han intentado llenar este vacío [7-11]. Esta serie tiene metas modestas. No pretendemos, por ejemplo, permitir que los lectores identifiquen o comprendan las pruebas estadísticas utilizadas para calcular un valor de p , pero estamos interesados en ayudarlos a interpretar los valores de p generados por dichas pruebas. Deseamos que los lectores comprendan las conclusiones derivadas de los procedimientos estadísticos que encuentran en los artículos clínicos. Esta serie complementa nuestras guías para el uso de la literatura médica, que se centran en el diseño del estudio y la aplicación de los resultados del estudio [12]. Técnicas estadísticas de uso común. Elegimos abordar solo las técnicas y los enfoques que los clínicos enfrentan con mayor frecuencia. Para identificarlos, revisamos las contribuciones recientes a tres revistas médicas principales: artículos originales, especiales y de revisión en el New England Journal of Medicine (1991; 324: 1352); diagnóstico y tratamiento, revisión y artículos académicos en Annals of Internal Medicine (1991; 114: 345834), e investigación original, revisión actual y artículos de estudios clínicos y comunitarios en Canadian Medical Association Journal (1991; 144: 6231265). Dos de nosotros (NH y RJ) revisaron de forma independiente 100 artículos y anotaron las técnicas estadísticas utilizadas. Las discrepancias entre los hallazgos de los dos revisores se resolvieron por consenso. Los resultados de esta revisión (Tabla 1) son consistentes con los de una revisión similar [13]. Aunque se informó una amplia variedad de técnicas estadísticas, las pruebas de hipótesis, los intervalos de confianza, los valores de p y las medidas de asociación ocurrieron con mayor frecuencia. Sobre la base de esta información, nuestra serie tratará las pruebas de hipótesis, la estimación, las medidas de asociación, el análisis de supervivencia y la regresión y correlación. Se extraerán ejemplos de los artículos encuestados y otros. Tabla 1: Frecuencia de conceptos y técnicas estadísticas en 100 artículos publicados en tres revistas médicas Concepto o tecnica No. de articulos valor de p 66 Intervalo de confianza 43 Prueba de hipótesis Método paramétrico Método no paramétrico 36 25 Regresión o correlación 22 Medida de asociacion 19 Análisis de supervivencia 19 Medida de acuerdo 8 Prueba de hipótesis Cuando llevamos a cabo un ensayo de un nuevo tratamiento, podemos suponer que hay un verdadero efecto subyacente del tratamiento que cualquier experimento solo puede estimar. Los investigadores usan métodos estadísticos para ayudar a comprender el verdadero efecto de los resultados de un experimento. Desde hace algún tiempo el paradigma de la inferencia estadística ha sido la prueba de hipótesis. El investigador comienza a partir de lo que se llama una "hipótesis nula": la hipótesis de que el procedimiento estadístico está diseñado para probar y, posiblemente, refutar. Normalmente, la hipótesis nula es que no hay diferencia entre los resultados como resultado de los tratamientos que se comparan. En un ensayo controlado aleatorio para comparar un tratamiento experimental con un placebo, la hipótesis nula se puede establecer: " Por ejemplo, en una comparación de dos tratamientos vasodilatadores para pacientes con insuficiencia cardíaca, la proporción de pacientes tratados con enalapril que sobrevivieron se comparó con la proporción de sobrevivientes entre los pacientes que recibieron una combinación de hidralazina y nitratos [14]. Comenzamos con el supuesto de que los tratamientos son igualmenteefectivos y se mantienen en esta posición a menos que los datos lo hagan insostenible. La hipótesis nula en el ensayo vasodilatador podría establecerse: "La verdadera diferencia en la proporción que sobrevive entre los pacientes tratados con enalapril y los tratados con hidralazina y nitratos es cero". En el marco de prueba de hipótesis, preguntamos si los datos observados son consistentes con esta hipótesis nula. La lógica detrás de este enfoque es la siguiente. Incluso si la diferencia real en el efecto es cero, los resultados observados rara vez serán exactamente los mismos; es decir, habrá alguna diferencia entre los resultados para los grupos experimental y de control. A medida que los resultados divergen más y más lejos del hallazgo de no diferencia, la hipótesis nula de que no hay diferencia entre los tratamientos se vuelve cada vez menos creíble. Si la diferencia entre los resultados en los grupos de tratamiento y control es lo suficientemente grande, el investigador debe abandonar la creencia en la hipótesis nula. Una explicación del papel del azar ayuda a demostrar esta lógica subyacente. El papel del azar Imagine una moneda justa o "imparcial" en la que la probabilidad real de obtener caras en un solo lanzamiento de moneda sea 0.5. Si lanzáramos semejante moneda 10 veces, nos sorprenderíamos si viéramos exactamente cinco caras y cinco colas. Ocasionalmente, obtendríamos resultados muy divergentes de la división de cinco a cinco, como ocho a dos, o incluso nueve a uno. Con muy poca frecuencia, 10 lanzamientos de monedas darían como resultado 10 caras o colas consecutivas. El azar es responsable de esta variación en los resultados. Los juegos de azar ilustran la manera en que opera el azar. En ocasiones, la tirada de dos dados no sesgados (con la misma probabilidad de tirar cualquier número entre uno y seis) dará como resultado dos o dos seis. El crupier en un juego de póquer, en ocasiones (y para el deleite del receptor), entregará una mano que consta de cinco cartas de un solo palo. Incluso con menos frecuencia, las cinco cartas no solo pertenecerán a un solo palo, sino que también serán consecutivas. El azar no se limita al mundo de los lanzamientos de monedas, dados y juegos de cartas. Si se selecciona una muestra de pacientes de una comunidad, la posibilidad puede dar lugar a distribuciones inusuales de la enfermedad en la muestra. Chance puede ser responsable de un desequilibrio sustancial en las tasas de un evento en particular en dos grupos de pacientes que reciben diferentes tratamientos que, de hecho, son igualmente efectivos. La investigación estadística está orientada a determinar si las distribuciones desbalanceadas pueden atribuirse al azar o si deberían atribuirse a otra causa (efectos del tratamiento, por ejemplo). Como demostraremos, las conclusiones que pueden extraerse de la investigación estadística están en gran parte determinadas por el tamaño de la muestra del estudio. El valor p Una forma en que un investigador puede equivocarse es concluir que existe una diferencia en los resultados entre un tratamiento y un grupo de control cuando, de hecho, no existe tal diferencia. En terminología estadística, la conclusión errónea de que existe una diferencia se denomina error de Tipo I, y la probabilidad de cometer dicho error se designa como alfa. Imagina una situación en la que no estamos seguros de si una moneda está sesgada. Es decir, sospechamos (pero no sabemos a ciencia cierta) que es más probable que un sorteo de moneda dé como resultado cabezas que cola. Podríamos construir una hipótesis nula de que las proporciones reales de cabezas y colas son iguales. Es decir, la probabilidad de cualquier cabeza de aterrizaje de lanzamiento dada es 0.5, y también lo es la probabilidad de que cualquier cola de aterrizaje de lanzamiento dado. Podríamos probar esta hipótesis en un experimento en el que la moneda se lanza varias veces. Llevemos a cabo un experimento mental en el que la moneda sospechosa se lanza 10 veces, y en las 10 ocasiones el resultado es cara. ¿Qué tan probable es este resultado si la moneda es imparcial? La mayoría de las personas concluirían que es muy poco probable que este resultado extremo se explique por casualidad. Por lo tanto, rechazarían la hipótesis nula y concluirían que la moneda está sesgada. Los métodos estadísticos nos permiten ser más precisos e indicar cuán poco probable es que el resultado se haya producido simplemente por casualidad si la hipótesis nula es cierta. La probabilidad de 10 cabezas consecutivas se puede encontrar multiplicando la probabilidad de una sola cabeza (0.5) por sí misma 10 veces: 0.5 × 0.5 × 0.5 y así sucesivamente. Por lo tanto, la probabilidad es ligeramente menor que uno en 1000. En un artículo probablemente veríamos esta probabilidad expresada como un valor de p :p<0,001. ¿Cuál es el significado preciso de este valor p ? Si la hipótesis nula fuera cierta (es decir, la moneda fuera imparcial) y tuviéramos que repetir el experimento de los 10 lanzamientos de monedas muchas veces, se esperaría que ocurrieran 10 caras consecutivas por casualidad menos de una vez en 1000 veces. La probabilidad de obtener 10 cabezas o 10 colas es de aproximadamente 0.002, o dos en 1000. En el marco de la prueba de hipótesis, el experimento no habría terminado, ya que todavía tenemos que tomar una decisión. ¿Estamos dispuestos a rechazar la hipótesis nula y concluir que la moneda está sesgada? ¿Qué tan improbable sería un resultado antes de que estuviéramos dispuestos a descartar la posibilidad de que la moneda fuera imparcial? En otras palabras, ¿qué posibilidades de cometer un error de Tipo I estamos dispuestos a aceptar? Este razonamiento implica que hay una probabilidad de umbral que marca un límite; en un lado del límite no estamos dispuestos a rechazar la hipótesis nula, pero en el otro concluimos que el azar ya no es una explicación plausible del resultado. Para volver al ejemplo de 10 cabezas consecutivas, la mayoría de las personas estaría dispuesta a rechazar la hipótesis nula cuando se esperaría que los resultados observados ocurrieran por casualidad menos de una vez en 1000 veces. Repitamos el experimento mental con una nueva moneda. Esta vez obtenemos nueve colas y una cabeza. Una vez más, es poco probable que el resultado se deba solo al azar. Esta vez el valor de p es 0.02. Es decir, si la hipótesis nula fuera cierta y la moneda fuera imparcial, los resultados observados o más extremos que los observados (10 cabezas o 10 colas, 9 cabezas y 1 cola o 9 colas y 1 cabeza) se espera que ocurran. Por casualidad dos veces en 100 repeticiones del experimento. Dado este resultado, ¿estamos dispuestos a rechazar la hipótesis nula? La decisión es arbitraria y una cuestión de juicio. Sin embargo, por convención estadística, el límite o umbral que separa lo plausible y lo inverosímil es cinco veces en 100 ( p = 0.05). Esta frontera está dignificada por una larga tradición, aunque otras opciones de valor límite podrían ser igualmente razonables. Los resultados que caen más allá de este límite (es decir, p <0.05) se consideran "estadísticamente significativos". La importancia estadística, por lo tanto, significa que un resultado es "lo suficientemente improbable como para que sea posible que estemos listos para rechazar la hipótesis nula". Repitamos nuestro experimento dos veces más con una nueva moneda. En la primera repetición se obtienen ocho cabezas y dos colas. El valor de pasociado con tal división nos dice que, si la moneda fuera imparcial, un resultado tan extremo como ocho a dos (o dos a ocho), o más extremo, se produciría por casualidad 11 veces en 100 ( p = 0.11) . Este resultado ha cruzado el límite convencional entre lo plausible y lo inverosímil. Si aceptamos la convención, los resultados no son estadísticamente significativos y la hipótesis nula no se rechaza. En nuestra repetición final del experimento se obtienen siete colas y trescabezas. La experiencia nos dice que tal resultado, aunque no es el más común, no sería inusual incluso si la moneda fuera imparcial. El valor p confirma nuestra intuición: los resultados son tan extremos como esta división ocurriría bajo la hipótesis nula 34 veces en 100 ( p = 0,34). De nuevo, la hipótesis nula no es rechazada. Aunque la investigación médica no se ocupa de determinar si las monedas son imparciales, el razonamiento detrás de los valores de p reportados en los artículos es idéntico. Cuando se comparan dos tratamientos, ¿qué tan probable es que la diferencia observada se deba solo al azar? Si aceptamos el límite o umbral convencional ( p <0.05), rechazaremos la hipótesis nula y concluiremos que el tratamiento tiene algún efecto cuando la respuesta a esta pregunta es que las repeticiones del experimento producirían diferencias tan extremas como las que hemos observado. Menos del 5% del tiempo. En el ensayo aleatorio mencionado anteriormente, el tratamiento con enalapril se comparó con el tratamiento mediante una combinación de hidralazina y nitratos en 804 pacientes varones con insuficiencia cardíaca. Este ensayo ilustra la prueba de hipótesis cuando hay un resultado dicotómico (SíNo), en este caso, vida o muerte.14 Durante el período de seguimiento, que varió de 6 meses a 5.7 años, 132 (33%) de los 403 pacientes asignados al grupo de enalapril murió, al igual que 153 (38%) de los 401 asignados al grupo de hidralazina y nitratos. La aplicación de una prueba estadística que compara proporciones (la prueba de Chi²) muestra que si realmente no hubo diferencias en la mortalidad entre los dos grupos, se esperarán diferencias tan grandes o mayores que las observadas realmente 11 veces en 100 (Chi² = 0.11) . Riesgo de un resultado falso negativo. Un médico podría comentar sobre los resultados de la comparación de enalapril con hidralazina y nitratos de la siguiente manera: "Aunque acepto el umbral de 0.05 y, por lo tanto, estoy de acuerdo en que no podemos rechazar la hipótesis nula, aún sospecho que el tratamiento con enalapril produce una tasa de mortalidad más baja. que el tratamiento con la combinación de hidralazina y nitratos. El experimento me deja en un estado de incertidumbre ". Este médico reconoce un segundo tipo de error que un investigador puede cometer: concluir falsamente que un tratamiento eficaz es inútil. Se produce un error de Tipo II cuando erróneamente no rechazamos la hipótesis nula (y, por lo tanto, descartamos un tratamiento útil). En la comparación del tratamiento con enalapril y con hidralazina y nitratos, la posibilidad de concluir erróneamente que no hay diferencia entre los tratamientos es importante. Los investigadores encontraron que un 5% menos de pacientes que recibieron enalapril murieron en comparación con los que recibieron el régimen vasodilatador alternativo. Si la verdadera diferencia en la mortalidad realmente fuera del 5%, fácilmente concluiríamos que los pacientes se benefician del enalapril. A pesar de este resultado, sin embargo, no pudimos rechazar la hipótesis nula. ¿Por qué los investigadores no pudieron concluir que el enalapril es superior a la hidralazina y los nitratos a pesar de haber observado una diferencia importante entre las tasas de mortalidad? El estudio no incluyó pacientes suficientes para que los investigadores confiaran en que la diferencia que observaron era real. La probabilidad de perder una diferencia importante (y de cometer un error de Tipo II) disminuye a medida que la muestra aumenta de tamaño. Cuando existe un alto riesgo de cometer un error de Tipo II, decimos que el estudio tiene un poder inadecuado. Cuanto mayor sea la muestra, menor será el riesgo de error de Tipo II y mayor será la potencia. Aunque los investigadores que realizaron el ensayo vasodilatador reclutaron a 804 pacientes, para resultados dicotómicos, como la vida o la muerte, a menudo se requieren muestras muy grandes para detectar pequeñas diferencias en los efectos del tratamiento. Por ejemplo, Cuando un ensayo no rechaza la hipótesis nula ( p > 0.05), los investigadores pueden haber perdido un verdadero efecto de tratamiento, y debemos considerar si el poder del ensayo fue adecuado. En tales estudios "negativos", cuanto más fuerte es la tendencia a favor del tratamiento experimental, más probable es que el ensayo no detecte un verdadero efecto del tratamiento [15]. Explicaremos más sobre cómo decidir si un ensayo tuvo el poder adecuado en el siguiente artículo de esta serie. Algunos estudios están diseñados para determinar no si un tratamiento nuevo es mejor que el actual, sino si un tratamiento menos costoso, más fácil de administrar o menos tóxico produce el mismo efecto de tratamiento que el tratamiento estándar. En tales estudios (a menudo llamados "estudios de equivalencia" [16]), el reclutamiento de una muestra adecuada para garantizar que no se pierdan los efectos del tratamiento pequeños pero importantes es aún más importante. Si el tamaño de la muestra en un estudio de equivalencia es inadecuado, el investigador se arriesga a concluir que los tratamientos son equivalentes cuando, de hecho, los pacientes que reciben la terapia estándar obtienen importantes beneficios en comparación con los que reciben la alternativa más fácil, más barata o menos tóxica. Medidas continuas de resultado. Todos nuestros ejemplos hasta ahora han usado resultados como Sí o No, cabezas o colas, morir o no morir, que pueden expresarse como proporciones. A menudo, los investigadores comparan los efectos de dos o más tratamientos utilizando variables numéricas u ordinales, como la medición espirométrica, el gasto cardíaco, el aclaramiento de creatinina o la puntuación en un cuestionario de calidad de vida. Estos resultados son continuos: es posible un gran número de valores. Por ejemplo, en el estudio de enalapril versus hidralazina y nitratos en el tratamiento de la insuficiencia cardíaca, los investigadores compararon el efecto de los dos regímenes sobre la capacidad de ejercicio (una variable continua). En contraste con el efecto sobre la mortalidad, que mostró mejores resultados con el tratamiento con enalapril, la capacidad de ejercicio mejoró con hidralazina y nitratos, pero no con enalapril. Los investigadores compararon el cambio en la capacidad de ejercicio desde el inicio hasta los 6 meses en los dos grupos de tratamiento con el uso de una prueba estadística para las variables continuas ( prueba de la t de Student). La capacidad de ejercicio en el grupo que recibió hidralazina y nitratos mejoró más que en el otro grupo, y es poco probable que la diferencia entre los dos grupos haya ocurrido por casualidad ( p = 0.02).Los valores de p para la prueba t de Students y otros similares se obtienen de las tablas estándar. Diferencias basales Los autores de los artículos a menudo afirman que las pruebas de hipótesis se han "ajustado" para las diferencias de referencia en los grupos estudiados. La asignación aleatoria, en la que el azar solo dicta a qué grupo se asigna un paciente, generalmente produce grupos comparables. Sin embargo, si el investigador no tiene suerte, los factores que determinan el resultado podrían estar distribuidos de manera desigual entre los dos grupos. Por ejemplo, en un ensayo para comparar dos tratamientos, digamos que se sabe que los pacientes mayores tienen un peor resultado. Después de la asignación aleatoria, el investigador descubre que una mayor proporción de los pacientes mayores se asignan a uno de los dos tratamientos. Este desequilibrio de edad podría amenazar la validez de un análisis que no tenga en cuenta la edad. Entonces el investigador realiza un ajuste en la prueba estadística para obtener una pValor corregido por diferencias en la distribución por edades de los dos grupos. En este ejemplo, a los lectores se les presenta la probabilidad que se habría generado si la distribución por edades en los dos grupos hubiera sido la misma. Engeneral, se pueden hacer ajustes para varias variables a la vez, y el valor p se puede interpretar de manera regular. Pruebas multiples Los estudiantes universitarios han sido durante mucho tiempo temas populares para los experimentos. De acuerdo con esta tradición, hemos elegido a los estudiantes de medicina como sujetos para nuestro próximo experimento mental. Imagine una escuela de medicina en la que dos instructores enseñan un curso introductorio sobre estadísticas médicas, uno de los cuales es más popular que el otro. El decano de la escuela de medicina no tiene sustituto para el miembro de la facultad menos popular. Ella tiene una pasión particular por la imparcialidad y decide que tratará la situación asignando a los 200 estudiantes de primer año de medicina a un instructor u otro por asignación aleatoria, en el que cada estudiante tiene la misma posibilidad (0.5) de ser asignado a Uno de los dos instructores. Los instructores deciden utilizar esta decisión para ilustrar algunos principios importantes de las estadísticas médicas. Por lo tanto, preguntan: ¿Las características de los dos grupos de estudiantes difieren más allá de un nivel que podría explicarse por casualidad? Las características que eligen son sexo, color de ojos, altura, promedio de calificaciones en el año anterior a la universidad, estatus socioeconómico y tipo de música favorita. Los instructores formulan hipótesis nulas para cada una de sus pruebas. Por ejemplo, la hipótesis nula asociada con la distribución del sexo es la siguiente: los estudiantes proceden del mismo grupo de personas; por lo tanto, la verdadera proporción de mujeres en los dos grupos es idéntica. Como los investigadores saben de antemano que la hipótesis nula en cada caso es verdadera, cada vez que se rechace la hipótesis representa un resultado falso positivo. Los instructores encuestan a sus estudiantes para determinar su estado en cada una de las seis variables de interés. Para cinco de estas variables, encuentran que las distribuciones son similares en los dos grupos, y los valores de p asociados con las pruebas estadísticas de las diferencias entre los grupos son todos mayores de 0.10. Ellos encuentran que para el color de los ojos, sin embargo, 25 de 100 estudiantes en un grupo tienen ojos azules y 38 de 100 en el otro grupo tienen ojos azules. Un análisis estadístico revela que si la hipótesis nula fuera cierta (lo que es), tal diferencia en la proporción de personas con ojos azules en los dos grupos se produciría algo menos de cinco veces en 100 repeticiones del experimento. Si los investigadores usaran el límite convencional, la hipótesis nula sería rechazada. ¿Qué tan probable es que, en seis pruebas de hipótesis independientes en dos grupos similares de estudiantes, al menos una prueba haya cruzado el umbral de 0.05 solo por casualidad? ("Independiente" significa que el resultado de una prueba de una hipótesis no depende, de ninguna manera, de los resultados de las pruebas de ninguna de las otras hipótesis). Esta probabilidad se calcula de la siguiente manera: la probabilidad de que no crucemos la El umbral de 0.5 en la prueba de una sola hipótesis es 0.95; al probar dos hipótesis, la probabilidad de que ninguna de ellas cruce el umbral es de 0.95 multiplicada por 0.95 (el cuadrado de 0.95); al probar seis hipótesis, la probabilidad de que no una sola cruce el umbral de 0.5 es de 0.95 a la sexta potencia, o 0.74. Por lo tanto,el valor de p es seis, de modo que cada una de las seis pruebas utiliza un valor límite de p = 0,008. Es decir, rechazaría la hipótesis nula de que ninguna de las características difería significativamente solo si cualquiera de las diferencias era significativa en p <0,008. Hay dos mensajes aquí. Primero, los hallazgos raros ocurren en ocasiones por casualidad. Incluso con una sola prueba, un hallazgo con una pEl valor de 0.01 ocurrirá el 1% del tiempo. En segundo lugar, debemos tener cuidado con las pruebas de hipótesis múltiples, ya que pueden dar resultados engañosos. Ejemplos de este fenómeno abundan en la literatura clínica. Pocock, Hughes y Lee [2], en una encuesta de 45 ensayos de tres revistas médicas líderes, encontraron que la mediana del número de puntos finales era de 6 y que la mayoría de los resultados se probaron con significación estadística. Un ejemplo específico de los peligros de usar múltiples puntos finales se encuentra en un ensayo aleatorizado del efecto de la rehabilitación después del infarto de miocardio en la calidad de vida [17]. Los investigadores asignaron aleatoriamente a los pacientes a atención estándar, un programa de ejercicios o un programa de asesoramiento y obtuvieron informes de pacientes sobre el trabajo, el ocio, la actividad sexual, la satisfacción con el resultado, el cumplimiento del asesoramiento, la calidad del ocio y el trabajo, los síntomas psiquiátricos, Síntomas cardíacos y salud general. Para casi todas estas variables, no hubo diferencia entre los tres grupos. Sin embargo, los pacientes estaban más satisfechos con el ejercicio que con los otros dos regímenes, las familias en el grupo de asesoramiento trataron de proteger a los pacientes menos que los de los otros grupos y las horas de trabajo y la frecuencia de la actividad sexual fueron mayores a los 18 meses. -upro en el grupo de consejería que en los otros grupos. ¿Significa esto que los programas de ejercicio y asesoramiento deberían implementarse debido a la pequeña cantidad de resultados a su favor, o que deberían rechazarse porque la mayoría de los resultados no mostraron diferencias? Los autores concluyeron que sus resultados no apoyaban la efectividad de los programas de ejercicio o de asesoramiento para mejorar la calidad de vida. Sin embargo, un defensor del programa podría argumentar que, aunque solo unos pocos de los resultados favorecieran tales programas, valen la pena. Por lo tanto, el uso de múltiples variables abre la puerta a la controversia. Existen varias estrategias estadísticas para tratar las pruebas de hipótesis múltiples de los mismos datos. Hemos ilustrado uno de estos en un ejemplo anterior: dividir el valor de p por el número de pruebas. También podemos especificar, antes de emprender el estudio, un resultado primario único sobre el que dependerán las conclusiones principales. Un tercer enfoque es derivar una estadística de prueba global que combine los múltiples resultados en una sola medida. La discusión completa de estas estrategias para tratar resultados múltiples está fuera del alcance de este artículo, pero está disponible en otra parte [18]. Limitaciones de la prueba de hipótesis. Algunos lectores pueden, en este punto, tener preguntas que los inquieten. ¿Por qué usar un solo punto de corte cuando la elección de tal punto es arbitraria? ¿Por qué plantear la pregunta de si un tratamiento es efectivo o una dicotomía (una decisión de YesNo) cuando puede ser más apropiado verlo como un continuo (desde muy poco probable que sea efectivo hasta casi seguro que sea efectivo)? Somos extremadamente comprensivos con tales lectores; están en el camino correcto. Trataremos más a fondo las limitaciones de las pruebas de hipótesis en el próximo artículo, que presentará un enfoque alternativo para evaluar la presencia de un efecto de tratamiento y para estimar un rango de valores plausibles de tal efecto. Conclusión Evitamos enumerar los procedimientos estadísticos utilizados para probar las hipótesis nulas en los estudios que hemos citado; no esperamos que los lectores reconozcan los muchos métodos disponibles o cuestionen si se ha elegido la prueba apropiada. Más bien, proporcionamos una guía para interpretar los valores de p y una advertencia sobre su interpretación cuando se examinan múltiples medidas de resultado. Hemos aludido a las limitaciones de la prueba de hipótesis y los valores p resultantes . En el próximo artículo, que tratará los intervalos de confianza, describiremos técnicas complementariaspara abordar algunas de estas deficiencias. Referencias 1. Departamento de Epidemiología Clínica y Bioestadística, Centro de Ciencias de la Salud de la Universidad McMaster. Cómo leer revistas clínicas: I. Por qué leerlas y cómo comenzar a leerlas de forma crítica. CMAJ 1981; 124: 555-8. 2. Pocock SJ, Hughes MD, Lee RJ. Problemas estadísticos en la notificación de ensayos clínicos. Una encuesta de tres revistas médicas. N Engl J Med1987; 317: 426-32. 3. Grupo de trabajo de medicina basada en evidencia. Medicina basada en la evidencia: un nuevo enfoque para enseñar la práctica de la medicina. JAMA 1992; 268: 2420-5. 4. Guyatt GH, Rennie D. Guías del usuario para leer literatura médica. [editorial] JAMA 1993; 270: 2096-7. 5. Sackett DL, Haynes RB, Guyatt GH, et al. Epidemiología clínica, una ciencia básica para la medicina clínica , Little, Brown and Company, Boston, 1991. 6. Wasson JH, Sox HC, Neff RK, et al. Reglas de predicción clínica. Aplicaciones y estándares metodológicos. N Engl J Med 1985; 313: 793-9. 7. Clegg F. Introducción a las estadísticas. I: Estadística descriptiva. Br J Hosp Med 1987; 37: 356-7. 8. O'Brien PC, Shampo MA. Serie de estadísticas. Consideraciones estadísticas para realizar múltiples pruebas en un solo experimento. 1. Introducción. Mayo Clin Proc 1988; 63: 813-5. 9. Altman DG, Gore SM, Gardner MJ, et al. Pautas estadísticas para colaboradores de revistas médicas. BMJ 1983; 286: 1489-93. 10. Gardner MJ, Altman DG. Estimando con confianza. BMJ 1988; 296: 1210-1. 11. Gardner MJ, Altman DG. Estadísticas con confianza: intervalos de confianza y pautas estadísticas , British Medical Journal, Londres, Inglaterra, 1989. 12. Oxman AD, Sackett DL, Guyatt GH para el Grupo de Trabajo de Medicina Basada en la Evidencia. Una guía de usuarios de la literatura médica. Por qué y cómo empezar. JAMA 1993; 270: 2093-5. 13. Emerson JD, Colditz GA. Uso del análisis estadístico en el New England Journal of Medicine . N Engl J Med 1983; 309: 709-13. 14. Cohn JN, Johnson G, Ziesche S, y col. Una comparación de enalapril con dinitrato de hidralazina-isosorbida en el tratamiento de la insuficiencia cardíaca congestiva crónica. N Engl J Med 1991; 325: 303-10. 15. Detsky AS, Sackett DL. ¿Cuándo fue lo suficientemente grande una prueba "negativa"? La cantidad de pacientes que necesita depende de lo que encontró. Arch Intern Med 1985; 145: 709-15. 16. Kirshner B. Estándares metodológicos para evaluar la equivalencia terapéutica. J Clin Epidemiol 1991; 44: 839-49. 17. Mayou R, MacMahon D, Sleight P, et al. Rehabilitación precoz tras infarto de miocardio. Lancet 1981; 2: 1399-401. 18. Pocock SJ, Geller NL, Tsiatis AA. El análisis de múltiples criterios de valoración en ensayos clínicos. Biometrics 1987; 43: 487-98. |
Compartir