e) 1 Estadísticas básicas para clínicos, español

Bioquímica I

•

SIN SIGLA

nesibago2

4/9/2023

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Bioquímica I

141.536 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Estadísticas básicas para clínicos.

1. Pruebas de hipótesis
Gordon Guyatt, MD; Roman Jaeschke, MD; Nancy Heddle, MSc; Deborah Cook, MD; Harry Shannon, PhD; Stephen Walter, PhD
Canadian Medical Association Journal 1995; 152: 27-32
currículum

Las reimpresiones en papel del texto completo se pueden obtener de: Dr. Gordon Guyatt, Rm. 2C12, Centro de Ciencias de la
Salud de la Universidad McMaster, 1200 Main St. W, Hamilton ON L8N 3Z5.

Contenido
 Resumen
 Currículum
 Introducción
 Técnicas estadísticas de uso común.
 Prueba de hipótesis
 El papel del azar
 El valor p
 Riesgo de un resultado falso negativo.
 Medidas continuas de resultado.
 Diferencias basales
 Pruebas multiples
 Limitaciones de la prueba de hipótesis.
 Conclusión
 Referencias

Resumen
En el primero de una serie de cuatro artículos, los autores explican los conceptos estadísticos de las pruebas de hipótesis y
los valores de p . En muchos ensayos clínicos, los investigadores prueban una hipótesis nula de que no hay diferencia entre un
nuevo tratamiento y un placebo o entre dos tratamientos. El resultado de un solo experimento casi siempre mostrará alguna
diferencia entre los grupos experimental y de control.
¿Es la diferencia debida al azar, o es lo suficientemente grande como para rechazar la hipótesis nula y concluir que existe una
verdadera diferencia en los efectos del tratamiento?
Las pruebas estadísticas arrojan un valor de p : la probabilidad de que el experimento muestre una diferencia tan grande o
mayor que la observada si la hipótesis nula fuera cierta.
Por convención, p los valores inferiores a 0.05 se consideran estadísticamente significativos, y los investigadores concluyen que
existe una diferencia real.
Sin embargo, cuanto menor sea el tamaño de la muestra, mayor será la posibilidad de concluir erróneamente que el tratamiento
experimental no difiere del control; en términos estadísticos, el poder de la prueba puede ser inadecuado. Las pruebas de varios
resultados de un conjunto de datos pueden llevar a una conclusión errónea de que un resultado es significativo si la probabilidad
conjunta de los resultados no se tiene en cuenta. La prueba de hipótesis tiene limitaciones, que se tratarán en el próximo
artículo de la serie.

http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#resume
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#abstract
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#resume
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#intro
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#common
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#hypoth
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#chance
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#pvalue
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#falseneg
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#outcome
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#baseline
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#multiple
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#limits
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#conclus
http://epe.lac-bac.gc.ca/100/201/300/cdn_medical_association/cmaj/vol-152/0027.htm#reference
En Clínica a menudo se dice que se supone que no sólo leer artículos de revistas, sino también entenderlos y hacer una
evaluación crítica de su validez [1,2]. Los clínicos pueden ofrecer una mejor atención si pueden evaluar críticamente la literatura
original y aplicar los resultados a su práctica [3,4]. Los criterios para evaluar la fortaleza de los métodos informados en los
artículos médicos pueden proporcionar a los médicos una guía para reconocer las fortalezas y debilidades de la investigación
clínica [5,6]. Sin embargo, estas pautas tienden a hacer una referencia pasajera a los métodos estadísticos o la interpretación de
las conclusiones del estudio basadas en estadísticas.
Algunos autores han intentado llenar este vacío [7-11]. Esta serie tiene metas modestas. No pretendemos, por ejemplo, permitir
que los lectores identifiquen o comprendan las pruebas estadísticas utilizadas para calcular un valor de p , pero estamos
interesados en ayudarlos a interpretar los valores de p generados por dichas pruebas. Deseamos que los lectores comprendan
las conclusiones derivadas de los procedimientos estadísticos que encuentran en los artículos clínicos. Esta serie complementa
nuestras guías para el uso de la literatura médica, que se centran en el diseño del estudio y la aplicación de los resultados del
estudio [12].

Técnicas estadísticas de uso común.
Elegimos abordar solo las técnicas y los enfoques que los clínicos enfrentan con mayor frecuencia. Para identificarlos, revisamos
las contribuciones recientes a tres revistas médicas principales: artículos originales, especiales y de revisión en el New England
Journal of Medicine (1991; 324: 1352); diagnóstico y tratamiento, revisión y artículos académicos en Annals of Internal
Medicine (1991; 114: 345834), e investigación original, revisión actual y artículos de estudios clínicos y comunitarios en Canadian
Medical Association Journal (1991; 144: 6231265). Dos de nosotros (NH y RJ) revisaron de forma independiente 100 artículos y
anotaron las técnicas estadísticas utilizadas. Las discrepancias entre los hallazgos de los dos revisores se resolvieron por
consenso.
Los resultados de esta revisión (Tabla 1) son consistentes con los de una revisión similar [13]. Aunque se informó una amplia
variedad de técnicas estadísticas, las pruebas de hipótesis, los intervalos de confianza, los valores de p y las medidas de
asociación ocurrieron con mayor frecuencia. Sobre la base de esta información, nuestra serie tratará las pruebas de hipótesis, la
estimación, las medidas de asociación, el análisis de supervivencia y la regresión y correlación. Se extraerán ejemplos de los
artículos encuestados y otros.
Tabla 1: Frecuencia de conceptos y técnicas estadísticas en 100 artículos publicados en tres revistas médicas
Concepto o tecnica No. de articulos
valor de p 66
Intervalo de confianza 43
Prueba de hipótesis
Método paramétrico
Método no paramétrico

36
25
Regresión o correlación 22
Medida de asociacion 19
Análisis de supervivencia 19
Medida de acuerdo 8

Prueba de hipótesis
Cuando llevamos a cabo un ensayo de un nuevo tratamiento, podemos suponer que hay un verdadero efecto subyacente del
tratamiento que cualquier experimento solo puede estimar. Los investigadores usan métodos estadísticos para ayudar a
comprender el verdadero efecto de los resultados de un experimento. Desde hace algún tiempo el paradigma de la inferencia
estadística ha sido la prueba de hipótesis. El investigador comienza a partir de lo que se llama una "hipótesis nula": la hipótesis
de que el procedimiento estadístico está diseñado para probar y, posiblemente, refutar. Normalmente, la hipótesis nula es que
no hay diferencia entre los resultados como resultado de los tratamientos que se comparan. En un ensayo controlado aleatorio
para comparar un tratamiento experimental con un placebo, la hipótesis nula se puede establecer: "
Por ejemplo, en una comparación de dos tratamientos vasodilatadores para pacientes con insuficiencia cardíaca, la proporción
de pacientes tratados con enalapril que sobrevivieron se comparó con la proporción de sobrevivientes entre los pacientes que
recibieron una combinación de hidralazina y nitratos [14]. Comenzamos con el supuesto de que los tratamientos son igualmenteefectivos y se mantienen en esta posición a menos que los datos lo hagan insostenible. La hipótesis nula en el ensayo
vasodilatador podría establecerse: "La verdadera diferencia en la proporción que sobrevive entre los pacientes tratados con
enalapril y los tratados con hidralazina y nitratos es cero".
En el marco de prueba de hipótesis, preguntamos si los datos observados son consistentes con esta hipótesis nula. La lógica
detrás de este enfoque es la siguiente. Incluso si la diferencia real en el efecto es cero, los resultados observados rara vez serán
exactamente los mismos; es decir, habrá alguna diferencia entre los resultados para los grupos experimental y de control. A
medida que los resultados divergen más y más lejos del hallazgo de no diferencia, la hipótesis nula de que no hay diferencia
entre los tratamientos se vuelve cada vez menos creíble. Si la diferencia entre los resultados en los grupos de tratamiento y
control es lo suficientemente grande, el investigador debe abandonar la creencia en la hipótesis nula. Una explicación del papel
del azar ayuda a demostrar esta lógica subyacente.

El papel del azar
Imagine una moneda justa o "imparcial" en la que la probabilidad real de obtener caras en un solo lanzamiento de moneda sea
0.5. Si lanzáramos semejante moneda 10 veces, nos sorprenderíamos si viéramos exactamente cinco caras y cinco
colas. Ocasionalmente, obtendríamos resultados muy divergentes de la división de cinco a cinco, como ocho a dos, o incluso
nueve a uno. Con muy poca frecuencia, 10 lanzamientos de monedas darían como resultado 10 caras o colas consecutivas.
El azar es responsable de esta variación en los resultados. Los juegos de azar ilustran la manera en que opera el azar. En
ocasiones, la tirada de dos dados no sesgados (con la misma probabilidad de tirar cualquier número entre uno y seis) dará como
resultado dos o dos seis. El crupier en un juego de póquer, en ocasiones (y para el deleite del receptor), entregará una mano que
consta de cinco cartas de un solo palo. Incluso con menos frecuencia, las cinco cartas no solo pertenecerán a un solo palo, sino
que también serán consecutivas.
El azar no se limita al mundo de los lanzamientos de monedas, dados y juegos de cartas. Si se selecciona una muestra de
pacientes de una comunidad, la posibilidad puede dar lugar a distribuciones inusuales de la enfermedad en la muestra. Chance
puede ser responsable de un desequilibrio sustancial en las tasas de un evento en particular en dos grupos de pacientes que
reciben diferentes tratamientos que, de hecho, son igualmente efectivos. La investigación estadística está orientada a
determinar si las distribuciones desbalanceadas pueden atribuirse al azar o si deberían atribuirse a otra causa (efectos del
tratamiento, por ejemplo). Como demostraremos, las conclusiones que pueden extraerse de la investigación estadística están en
gran parte determinadas por el tamaño de la muestra del estudio.

El valor p
Una forma en que un investigador puede equivocarse es concluir que existe una diferencia en los resultados entre un
tratamiento y un grupo de control cuando, de hecho, no existe tal diferencia. En terminología estadística, la conclusión errónea
de que existe una diferencia se denomina error de Tipo I, y la probabilidad de cometer dicho error se designa como alfa. Imagina
una situación en la que no estamos seguros de si una moneda está sesgada. Es decir, sospechamos (pero no sabemos a ciencia
cierta) que es más probable que un sorteo de moneda dé como resultado cabezas que cola. Podríamos construir una hipótesis
nula de que las proporciones reales de cabezas y colas son iguales. Es decir, la probabilidad de cualquier cabeza de aterrizaje de
lanzamiento dada es 0.5, y también lo es la probabilidad de que cualquier cola de aterrizaje de lanzamiento dado. Podríamos
probar esta hipótesis en un experimento en el que la moneda se lanza varias veces.
Llevemos a cabo un experimento mental en el que la moneda sospechosa se lanza 10 veces, y en las 10 ocasiones el resultado es
cara. ¿Qué tan probable es este resultado si la moneda es imparcial? La mayoría de las personas concluirían que es muy poco
probable que este resultado extremo se explique por casualidad. Por lo tanto, rechazarían la hipótesis nula y concluirían que la
moneda está sesgada. Los métodos estadísticos nos permiten ser más precisos e indicar cuán poco probable es que el resultado
se haya producido simplemente por casualidad si la hipótesis nula es cierta. La probabilidad de 10 cabezas consecutivas se
puede encontrar multiplicando la probabilidad de una sola cabeza (0.5) por sí misma 10 veces: 0.5 × 0.5 × 0.5 y así
sucesivamente. Por lo tanto, la probabilidad es ligeramente menor que uno en 1000. En un artículo probablemente veríamos
esta probabilidad expresada como un valor de p :p<0,001. ¿Cuál es el significado preciso de este valor p ? Si la hipótesis nula
fuera cierta (es decir, la moneda fuera imparcial) y tuviéramos que repetir el experimento de los 10 lanzamientos de monedas
muchas veces, se esperaría que ocurrieran 10 caras consecutivas por casualidad menos de una vez en 1000 veces. La
probabilidad de obtener 10 cabezas o 10 colas es de aproximadamente 0.002, o dos en 1000.
En el marco de la prueba de hipótesis, el experimento no habría terminado, ya que todavía tenemos que tomar una
decisión. ¿Estamos dispuestos a rechazar la hipótesis nula y concluir que la moneda está sesgada? ¿Qué tan improbable sería un
resultado antes de que estuviéramos dispuestos a descartar la posibilidad de que la moneda fuera imparcial? En otras palabras,
¿qué posibilidades de cometer un error de Tipo I estamos dispuestos a aceptar? Este razonamiento implica que hay una
probabilidad de umbral que marca un límite; en un lado del límite no estamos dispuestos a rechazar la hipótesis nula, pero en el
otro concluimos que el azar ya no es una explicación plausible del resultado. Para volver al ejemplo de 10 cabezas consecutivas,
la mayoría de las personas estaría dispuesta a rechazar la hipótesis nula cuando se esperaría que los resultados observados
ocurrieran por casualidad menos de una vez en 1000 veces.
Repitamos el experimento mental con una nueva moneda. Esta vez obtenemos nueve colas y una cabeza. Una vez más, es poco
probable que el resultado se deba solo al azar. Esta vez el valor de p es 0.02. Es decir, si la hipótesis nula fuera cierta y la moneda
fuera imparcial, los resultados observados o más extremos que los observados (10 cabezas o 10 colas, 9 cabezas y 1 cola o 9
colas y 1 cabeza) se espera que ocurran. Por casualidad dos veces en 100 repeticiones del experimento.
Dado este resultado, ¿estamos dispuestos a rechazar la hipótesis nula? La decisión es arbitraria y una cuestión de juicio. Sin
embargo, por convención estadística, el límite o umbral que separa lo plausible y lo inverosímil es cinco veces en 100 ( p =
0.05). Esta frontera está dignificada por una larga tradición, aunque otras opciones de valor límite podrían ser igualmente
razonables. Los resultados que caen más allá de este límite (es decir, p <0.05) se consideran "estadísticamente significativos". La
importancia estadística, por lo tanto, significa que un resultado es "lo suficientemente improbable como para que sea posible
que estemos listos para rechazar la hipótesis nula".
Repitamos nuestro experimento dos veces más con una nueva moneda. En la primera repetición se obtienen ocho cabezas y dos
colas. El valor de pasociado con tal división nos dice que, si la moneda fuera imparcial, un resultado tan extremo como ocho a
dos (o dos a ocho), o más extremo, se produciría por casualidad 11 veces en 100 ( p = 0.11) . Este resultado ha cruzado el límite
convencional entre lo plausible y lo inverosímil. Si aceptamos la convención, los resultados no son estadísticamente significativos
y la hipótesis nula no se rechaza.
En nuestra repetición final del experimento se obtienen siete colas y trescabezas. La experiencia nos dice que tal resultado,
aunque no es el más común, no sería inusual incluso si la moneda fuera imparcial. El valor p confirma nuestra intuición: los
resultados son tan extremos como esta división ocurriría bajo la hipótesis nula 34 veces en 100 ( p = 0,34). De nuevo, la hipótesis
nula no es rechazada.
Aunque la investigación médica no se ocupa de determinar si las monedas son imparciales, el razonamiento detrás de
los valores de p reportados en los artículos es idéntico. Cuando se comparan dos tratamientos, ¿qué tan probable es que la
diferencia observada se deba solo al azar? Si aceptamos el límite o umbral convencional ( p <0.05), rechazaremos la hipótesis
nula y concluiremos que el tratamiento tiene algún efecto cuando la respuesta a esta pregunta es que las repeticiones del
experimento producirían diferencias tan extremas como las que hemos observado. Menos del 5% del tiempo.
En el ensayo aleatorio mencionado anteriormente, el tratamiento con enalapril se comparó con el tratamiento mediante una
combinación de hidralazina y nitratos en 804 pacientes varones con insuficiencia cardíaca. Este ensayo ilustra la prueba de
hipótesis cuando hay un resultado dicotómico (SíNo), en este caso, vida o muerte.14 Durante el período de seguimiento, que
varió de 6 meses a 5.7 años, 132 (33%) de los 403 pacientes asignados al grupo de enalapril murió, al igual que 153 (38%) de los
401 asignados al grupo de hidralazina y nitratos. La aplicación de una prueba estadística que compara proporciones (la prueba
de Chi²) muestra que si realmente no hubo diferencias en la mortalidad entre los dos grupos, se esperarán diferencias tan
grandes o mayores que las observadas realmente 11 veces en 100 (Chi² = 0.11) .

Riesgo de un resultado falso negativo.
Un médico podría comentar sobre los resultados de la comparación de enalapril con hidralazina y nitratos de la siguiente
manera: "Aunque acepto el umbral de 0.05 y, por lo tanto, estoy de acuerdo en que no podemos rechazar la hipótesis nula, aún
sospecho que el tratamiento con enalapril produce una tasa de mortalidad más baja. que el tratamiento con la combinación de
hidralazina y nitratos. El experimento me deja en un estado de incertidumbre ". Este médico reconoce un segundo tipo de error
que un investigador puede cometer: concluir falsamente que un tratamiento eficaz es inútil. Se produce un error de Tipo II
cuando erróneamente no rechazamos la hipótesis nula (y, por lo tanto, descartamos un tratamiento útil).
En la comparación del tratamiento con enalapril y con hidralazina y nitratos, la posibilidad de concluir erróneamente que no hay
diferencia entre los tratamientos es importante. Los investigadores encontraron que un 5% menos de pacientes que recibieron
enalapril murieron en comparación con los que recibieron el régimen vasodilatador alternativo. Si la verdadera diferencia en la
mortalidad realmente fuera del 5%, fácilmente concluiríamos que los pacientes se benefician del enalapril. A pesar de este
resultado, sin embargo, no pudimos rechazar la hipótesis nula.
¿Por qué los investigadores no pudieron concluir que el enalapril es superior a la hidralazina y los nitratos a pesar de haber
observado una diferencia importante entre las tasas de mortalidad? El estudio no incluyó pacientes suficientes para que los
investigadores confiaran en que la diferencia que observaron era real. La probabilidad de perder una diferencia importante (y de
cometer un error de Tipo II) disminuye a medida que la muestra aumenta de tamaño. Cuando existe un alto riesgo de cometer
un error de Tipo II, decimos que el estudio tiene un poder inadecuado. Cuanto mayor sea la muestra, menor será el riesgo de
error de Tipo II y mayor será la potencia. Aunque los investigadores que realizaron el ensayo vasodilatador reclutaron a 804
pacientes, para resultados dicotómicos, como la vida o la muerte, a menudo se requieren muestras muy grandes para detectar
pequeñas diferencias en los efectos del tratamiento. Por ejemplo,
Cuando un ensayo no rechaza la hipótesis nula ( p > 0.05), los investigadores pueden haber perdido un verdadero efecto de
tratamiento, y debemos considerar si el poder del ensayo fue adecuado. En tales estudios "negativos", cuanto más fuerte es la
tendencia a favor del tratamiento experimental, más probable es que el ensayo no detecte un verdadero efecto del tratamiento
[15]. Explicaremos más sobre cómo decidir si un ensayo tuvo el poder adecuado en el siguiente artículo de esta serie.
Algunos estudios están diseñados para determinar no si un tratamiento nuevo es mejor que el actual, sino si un tratamiento
menos costoso, más fácil de administrar o menos tóxico produce el mismo efecto de tratamiento que el tratamiento
estándar. En tales estudios (a menudo llamados "estudios de equivalencia" [16]), el reclutamiento de una muestra adecuada
para garantizar que no se pierdan los efectos del tratamiento pequeños pero importantes es aún más importante. Si el tamaño
de la muestra en un estudio de equivalencia es inadecuado, el investigador se arriesga a concluir que los tratamientos son
equivalentes cuando, de hecho, los pacientes que reciben la terapia estándar obtienen importantes beneficios en comparación
con los que reciben la alternativa más fácil, más barata o menos tóxica.

Medidas continuas de resultado.
Todos nuestros ejemplos hasta ahora han usado resultados como Sí o No, cabezas o colas, morir o no morir, que pueden
expresarse como proporciones. A menudo, los investigadores comparan los efectos de dos o más tratamientos utilizando
variables numéricas u ordinales, como la medición espirométrica, el gasto cardíaco, el aclaramiento de creatinina o la
puntuación en un cuestionario de calidad de vida. Estos resultados son continuos: es posible un gran número de valores.
Por ejemplo, en el estudio de enalapril versus hidralazina y nitratos en el tratamiento de la insuficiencia cardíaca, los
investigadores compararon el efecto de los dos regímenes sobre la capacidad de ejercicio (una variable continua). En contraste
con el efecto sobre la mortalidad, que mostró mejores resultados con el tratamiento con enalapril, la capacidad de ejercicio
mejoró con hidralazina y nitratos, pero no con enalapril. Los investigadores compararon el cambio en la capacidad de ejercicio
desde el inicio hasta los 6 meses en los dos grupos de tratamiento con el uso de una prueba estadística para las variables
continuas ( prueba de la t de Student). La capacidad de ejercicio en el grupo que recibió hidralazina y nitratos mejoró más que en
el otro grupo, y es poco probable que la diferencia entre los dos grupos haya ocurrido por casualidad ( p = 0.02).Los valores de p
para la prueba t de Students y otros similares se obtienen de las tablas estándar.

Diferencias basales
Los autores de los artículos a menudo afirman que las pruebas de hipótesis se han "ajustado" para las diferencias de referencia
en los grupos estudiados. La asignación aleatoria, en la que el azar solo dicta a qué grupo se asigna un paciente, generalmente
produce grupos comparables. Sin embargo, si el investigador no tiene suerte, los factores que determinan el resultado podrían
estar distribuidos de manera desigual entre los dos grupos. Por ejemplo, en un ensayo para comparar dos tratamientos, digamos
que se sabe que los pacientes mayores tienen un peor resultado. Después de la asignación aleatoria, el investigador descubre
que una mayor proporción de los pacientes mayores se asignan a uno de los dos tratamientos. Este desequilibrio de edad podría
amenazar la validez de un análisis que no tenga en cuenta la edad. Entonces el investigador realiza un ajuste en la prueba
estadística para obtener una pValor corregido por diferencias en la distribución por edades de los dos grupos. En este ejemplo, a
los lectores se les presenta la probabilidad que se habría generado si la distribución por edades en los dos grupos hubiera sido la
misma. Engeneral, se pueden hacer ajustes para varias variables a la vez, y el valor p se puede interpretar de manera regular.

Pruebas multiples
Los estudiantes universitarios han sido durante mucho tiempo temas populares para los experimentos. De acuerdo con esta
tradición, hemos elegido a los estudiantes de medicina como sujetos para nuestro próximo experimento mental.
Imagine una escuela de medicina en la que dos instructores enseñan un curso introductorio sobre estadísticas médicas, uno de
los cuales es más popular que el otro. El decano de la escuela de medicina no tiene sustituto para el miembro de la facultad
menos popular. Ella tiene una pasión particular por la imparcialidad y decide que tratará la situación asignando a los 200
estudiantes de primer año de medicina a un instructor u otro por asignación aleatoria, en el que cada estudiante tiene la misma
posibilidad (0.5) de ser asignado a Uno de los dos instructores.
Los instructores deciden utilizar esta decisión para ilustrar algunos principios importantes de las estadísticas médicas. Por lo
tanto, preguntan: ¿Las características de los dos grupos de estudiantes difieren más allá de un nivel que podría explicarse por
casualidad? Las características que eligen son sexo, color de ojos, altura, promedio de calificaciones en el año anterior a la
universidad, estatus socioeconómico y tipo de música favorita. Los instructores formulan hipótesis nulas para cada una de sus
pruebas. Por ejemplo, la hipótesis nula asociada con la distribución del sexo es la siguiente: los estudiantes proceden del mismo
grupo de personas; por lo tanto, la verdadera proporción de mujeres en los dos grupos es idéntica. Como los investigadores
saben de antemano que la hipótesis nula en cada caso es verdadera, cada vez que se rechace la hipótesis representa un
resultado falso positivo.
Los instructores encuestan a sus estudiantes para determinar su estado en cada una de las seis variables de interés. Para cinco
de estas variables, encuentran que las distribuciones son similares en los dos grupos, y los valores de p asociados con las
pruebas estadísticas de las diferencias entre los grupos son todos mayores de 0.10. Ellos encuentran que para el color de los
ojos, sin embargo, 25 de 100 estudiantes en un grupo tienen ojos azules y 38 de 100 en el otro grupo tienen ojos azules. Un
análisis estadístico revela que si la hipótesis nula fuera cierta (lo que es), tal diferencia en la proporción de personas con ojos
azules en los dos grupos se produciría algo menos de cinco veces en 100 repeticiones del experimento. Si los investigadores
usaran el límite convencional, la hipótesis nula sería rechazada.
¿Qué tan probable es que, en seis pruebas de hipótesis independientes en dos grupos similares de estudiantes, al menos una
prueba haya cruzado el umbral de 0.05 solo por casualidad? ("Independiente" significa que el resultado de una prueba de una
hipótesis no depende, de ninguna manera, de los resultados de las pruebas de ninguna de las otras hipótesis). Esta probabilidad
se calcula de la siguiente manera: la probabilidad de que no crucemos la El umbral de 0.5 en la prueba de una sola hipótesis es
0.95; al probar dos hipótesis, la probabilidad de que ninguna de ellas cruce el umbral es de 0.95 multiplicada por 0.95 (el
cuadrado de 0.95); al probar seis hipótesis, la probabilidad de que no una sola cruce el umbral de 0.5 es de 0.95 a la sexta
potencia, o 0.74. Por lo tanto,el valor de p es seis, de modo que cada una de las seis pruebas utiliza un valor límite de p =
0,008. Es decir, rechazaría la hipótesis nula de que ninguna de las características difería significativamente solo si cualquiera de
las diferencias era significativa en
p <0,008.
Hay dos mensajes aquí. Primero, los hallazgos raros ocurren en ocasiones por casualidad. Incluso con una sola prueba, un
hallazgo con una pEl valor de 0.01 ocurrirá el 1% del tiempo. En segundo lugar, debemos tener cuidado con las pruebas de
hipótesis múltiples, ya que pueden dar resultados engañosos. Ejemplos de este fenómeno abundan en la literatura
clínica. Pocock, Hughes y Lee [2], en una encuesta de 45 ensayos de tres revistas médicas líderes, encontraron que la mediana
del número de puntos finales era de 6 y que la mayoría de los resultados se probaron con significación estadística. Un ejemplo
específico de los peligros de usar múltiples puntos finales se encuentra en un ensayo aleatorizado del efecto de la rehabilitación
después del infarto de miocardio en la calidad de vida [17]. Los investigadores asignaron aleatoriamente a los pacientes a
atención estándar, un programa de ejercicios o un programa de asesoramiento y obtuvieron informes de pacientes sobre el
trabajo, el ocio, la actividad sexual, la satisfacción con el resultado, el cumplimiento del asesoramiento, la calidad del ocio y el
trabajo, los síntomas psiquiátricos, Síntomas cardíacos y salud general. Para casi todas estas variables, no hubo diferencia entre
los tres grupos. Sin embargo, los pacientes estaban más satisfechos con el ejercicio que con los otros dos regímenes, las familias
en el grupo de asesoramiento trataron de proteger a los pacientes menos que los de los otros grupos y las horas de trabajo y la
frecuencia de la actividad sexual fueron mayores a los 18 meses. -upro en el grupo de consejería que en los otros
grupos. ¿Significa esto que los programas de ejercicio y asesoramiento deberían implementarse debido a la pequeña cantidad
de resultados a su favor, o que deberían rechazarse porque la mayoría de los resultados no mostraron diferencias? Los autores
concluyeron que sus resultados no apoyaban la efectividad de los programas de ejercicio o de asesoramiento para mejorar la
calidad de vida. Sin embargo, un defensor del programa podría argumentar que, aunque solo unos pocos de los resultados
favorecieran tales programas, valen la pena. Por lo tanto, el uso de múltiples variables abre la puerta a la controversia.
Existen varias estrategias estadísticas para tratar las pruebas de hipótesis múltiples de los mismos datos. Hemos ilustrado uno
de estos en un ejemplo anterior: dividir el valor de p por el número de pruebas. También podemos especificar, antes de
emprender el estudio, un resultado primario único sobre el que dependerán las conclusiones principales. Un tercer enfoque es
derivar una estadística de prueba global que combine los múltiples resultados en una sola medida. La discusión completa de
estas estrategias para tratar resultados múltiples está fuera del alcance de este artículo, pero está disponible en otra parte [18].

Limitaciones de la prueba de hipótesis.
Algunos lectores pueden, en este punto, tener preguntas que los inquieten. ¿Por qué usar un solo punto de corte cuando la
elección de tal punto es arbitraria? ¿Por qué plantear la pregunta de si un tratamiento es efectivo o una dicotomía (una decisión
de YesNo) cuando puede ser más apropiado verlo como un continuo (desde muy poco probable que sea efectivo hasta casi
seguro que sea efectivo)?
Somos extremadamente comprensivos con tales lectores; están en el camino correcto. Trataremos más a fondo las limitaciones
de las pruebas de hipótesis en el próximo artículo, que presentará un enfoque alternativo para evaluar la presencia de un efecto
de tratamiento y para estimar un rango de valores plausibles de tal efecto.

Conclusión
Evitamos enumerar los procedimientos estadísticos utilizados para probar las hipótesis nulas en los estudios que hemos
citado; no esperamos que los lectores reconozcan los muchos métodos disponibles o cuestionen si se ha elegido la prueba
apropiada. Más bien, proporcionamos una guía para interpretar los valores de p y una advertencia sobre su interpretación
cuando se examinan múltiples medidas de resultado. Hemos aludido a las limitaciones de la prueba de hipótesis y los valores p
resultantes . En el próximo artículo, que tratará los intervalos de confianza, describiremos técnicas complementariaspara
abordar algunas de estas deficiencias.

Referencias
1. Departamento de Epidemiología Clínica y Bioestadística, Centro de Ciencias de la Salud de la Universidad
McMaster. Cómo leer revistas clínicas: I. Por qué leerlas y cómo comenzar a leerlas de forma crítica. CMAJ 1981; 124:
555-8.
2. Pocock SJ, Hughes MD, Lee RJ. Problemas estadísticos en la notificación de ensayos clínicos. Una encuesta de tres
revistas médicas. N Engl J Med1987; 317: 426-32.
3. Grupo de trabajo de medicina basada en evidencia. Medicina basada en la evidencia: un nuevo enfoque para enseñar la
práctica de la medicina. JAMA 1992; 268: 2420-5.
4. Guyatt GH, Rennie D. Guías del usuario para leer literatura médica. [editorial] JAMA 1993; 270: 2096-7.
5. Sackett DL, Haynes RB, Guyatt GH, et al. Epidemiología clínica, una ciencia básica para la medicina clínica , Little, Brown
and Company, Boston, 1991.
6. Wasson JH, Sox HC, Neff RK, et al. Reglas de predicción clínica. Aplicaciones y estándares metodológicos. N Engl J
Med 1985; 313: 793-9.
7. Clegg F. Introducción a las estadísticas. I: Estadística descriptiva. Br J Hosp Med 1987; 37: 356-7.
8. O'Brien PC, Shampo MA. Serie de estadísticas. Consideraciones estadísticas para realizar múltiples pruebas en un solo
experimento. 1. Introducción. Mayo Clin Proc 1988; 63: 813-5.
9. Altman DG, Gore SM, Gardner MJ, et al. Pautas estadísticas para colaboradores de revistas médicas. BMJ 1983; 286:
1489-93.
10. Gardner MJ, Altman DG. Estimando con confianza. BMJ 1988; 296: 1210-1.
11. Gardner MJ, Altman DG. Estadísticas con confianza: intervalos de confianza y pautas estadísticas , British Medical
Journal, Londres, Inglaterra, 1989.
12. Oxman AD, Sackett DL, Guyatt GH para el Grupo de Trabajo de Medicina Basada en la Evidencia. Una guía de usuarios
de la literatura médica. Por qué y cómo empezar. JAMA 1993; 270: 2093-5.
13. Emerson JD, Colditz GA. Uso del análisis estadístico en el New England Journal of Medicine . N Engl J Med 1983; 309:
709-13.
14. Cohn JN, Johnson G, Ziesche S, y col. Una comparación de enalapril con dinitrato de hidralazina-isosorbida en el
tratamiento de la insuficiencia cardíaca congestiva crónica. N Engl J Med 1991; 325: 303-10.
15. Detsky AS, Sackett DL. ¿Cuándo fue lo suficientemente grande una prueba "negativa"? La cantidad de pacientes que
necesita depende de lo que encontró. Arch Intern Med 1985; 145: 709-15.
16. Kirshner B. Estándares metodológicos para evaluar la equivalencia terapéutica. J Clin Epidemiol 1991; 44: 839-49.
17. Mayou R, MacMahon D, Sleight P, et al. Rehabilitación precoz tras infarto de miocardio. Lancet 1981; 2: 1399-401.
18. Pocock SJ, Geller NL, Tsiatis AA. El análisis de múltiples criterios de valoración en ensayos clínicos. Biometrics 1987; 43:
487-98.

e) 1 Estadísticas básicas para clínicos, español

Bioquímica I

SIN SIGLA

Bioquímica I

Continuar navegando

Otros materiales