Analisis_critico_de_estudios_sobre_exame

•

SIN SIGLA

Harry Icardy

2/4/2024

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Dermatología

11.787 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Piel. 2007;22(1):3-6
ARTÍCULO ESPECIAL
Análisis crítico
de estudios sobre
exámenes diagnósticos
en dermatología
Juan Jorge Manríquez Morenoa,b, Andrés Ilabaca Grezb,
Esteban Avelloa y Sergio Silva Valenzuelaa,b
aUnidad Docente Asociada Dermatología. Escuela de Medicina.
Pontificia Universidad Católica de Chile. Santiago. Chile.
bUnidad de Medicina Basada en la Evidencia (UMBE-UC). Escuela
de Medicina. Pontificia Universidad Católica de Chile. Santiago. Chile.
Los exámenes diagnósticos son parte esencial de la
medicina actual. Se utilizan diariamente en la práctica
médica y constituyen, junto con la anamnesis y el exa-
men físico, los pilares del proceso diagnóstico. Sin em-
bargo, la gama de posibilidades es amplia y muchas ve-
ces la elección del más adecuado es difícil1-3.
Los estudios diagnósticos son un pilar fundamental
dentro de la práctica clínica y la investigación, aunque
varios trabajos han demostrado que la calidad de los es-
tudios que evalúan el rendimiento de estas pruebas diag-
nósticas es deficiente4-9.
Los estudios que evalúan el rendimiento de las prue-
bas diagnósticas tiene una estructura básica10, en la que
2 o más pruebas son comparadas con los resultados ob-
tenidos mediante la aplicación del estándar de referen-
cia, en el mismo grupo de sujetos, en cuanto a la capaci-
dad de detectar o predecir la presencia o ausencia de
una determinada condición clínica (fig. 1). Las pruebas
en estudio pueden ser variadas, incluyendo exámenes
de laboratorio, exámenes radiológicos, estudios anato-
mopatológicos, elementos de la historia clínica o del
examen físico.
En los estudios de rendimiento diagnóstico, la prueba
bajo evaluación se conoce como prueba índice, la que es
comparada con el estándar de referencia, el que es con-
siderado como la «verdad» en cuanto a establecer la
presencia o ausencia de la condición clínica que se de-
sea detectar. El estándar de referencia puede ser una
prueba diagnóstica única o bien una combinación de
pruebas y técnicas, incluyendo el seguimiento clínico de
los sujetos para evaluar.
El término «rendimiento diagnóstico» se refiere al gra-
do de concordancia existente entre los resultados obte-
nidos por las pruebas índices y las obtenidas luego de la
aplicación del estándar de referencia. Este rendimiento
diagnóstico se puede expresar de varias maneras, como
sensibilidad, especificidad, razón de probabilidad y
otros, como se analizó en el artículo previo de esta serie
(fig. 2).
3
Correspondencia: Dr. Juan Jorge Manríquez Moreno.
Unidad Docente Asociada Dermatología. Escuela de Medicina.
Pontificia Universidad Católica de Chile.
Vicuña Mackenna #4686. Comuna San Joaquín. Santiago. Chile.
Correo electrónico: jmanriquez@dermatoscopio.cl
176.176
PUNTOS CLAVE
– Junto con la anamnesis y el examen físico, los exámenes diag-
nósticos son un pilar fundamental en el proceso diagnóstico.
– Analizar críticamente los estudios que evalúan el rendimiento
de exámenes diagnósticos permite elegir adecuadamente el o
los exámenes que hay que realizar en una situación clínica de-
terminada. Este análisis incluye una valoración de la validez
interna del estudio, de los resultados obtenidos y de la utili-
dad para el paciente de la realización del examen estudiado.
– Determinar la validez interna de los resultados es el paso ini-
cial en el análisis de un estudio sobre exámenes diagnósticos.
Para esto se debe evaluar si hubo una comparación indepen-
diente y ciega con un estándar de referencia, si incluyó un es-
pectro adecuado de pacientes, si se realizó el estándar de re-
ferencia en forma independiente a los resultados y si describe
los métodos en forma detallada.
– Es necesario que en los estudios que evalúen exámenes diag-
nósticos encontremos los valores de la razón de probabilidad
positivo y negativo [LR (+) y (–)], o que dispongamos de la in-
formación suficiente para calcularlos. Estos valores permiten
estimar la probabilidad post-test a partir de la probabilidad
pre-test.
– La revisión de la validez de un estudio y sus resultados tiene
sentido en la medida en que esta información ayuda a un pa-
ciente concreto.
Figura 1. Los estudios que evalúan el rendimiento de las pruebas
diagnósticas tienen una estructura básica en la que 2 o más pruebas
(llamadas pruebas índice) se comparan con los resultados obtenidos
mediante la aplicación del estándar de referencia en el mismo grupo
de sujetos. El rendimiento diagnóstico se refiere al grado de concor-
dancia existente entre los resultados obtenidos por las pruebas índi-
ce y las obtenidas tras la aplicación del estándar de referencia.
Sujetos con posible
condición clínica
P
ru
eb
a
ín
d
ic
e
E
st
án
d
ar
d
e
re
fe
re
n
ci
a
En lo que resta de este artículo, discutiremos punto
por punto las principales características que deben eva-
luarse durante la lectura crítica de un estudio sobre ren-
dimiento diagnóstico, haciendo especial referencia a
aquellos elementos de este tipo de estudios que pueden
afectar la validez interna de sus resultados (introduc-
ción de sesgos) y/o la validez externa de éstos (aplicabi-
lidad de sus resultados a un paciente en particular).
VALIDEZ INTERNA DE LOS RESULTADOS
Varios son los factores que pueden afectar tanto la va-
lidez interna como la externa en este tipo de estudios, y
entre ellos destacan los que tienen relación con el dise-
ño, la forma de seleccionar a los pacientes, la ejecución
de las pruebas y el análisis de los datos. Se ha demostra-
do que estas deficiencias metodológicas están relaciona-
das con una sobreestimación del rendimiento de estas
pruebas11.
Pasamos a analizar de forma detallada los elementos
fundamentales en el diseño y ejecución de este tipo de
estudios que deben considerarse al realizar un análisis
crítico de este tipo de publicaciones.
Comparación ciega e independiente
con un estándar de referencia
La aplicación de la prueba índice y del estándar de re-
ferencia requiere que quienes interpreten cada una de
éstas sean ciegos respecto a los resultados obtenidos en
la otra. Este requisito es fundamental, puesto que el co-
nocimiento de los resultados tras la aplicación del es-
tándar de referencia puede influir la interpretación de
los resultados obtenidos tras aplicar la prueba índice, y
viceversa. Este conocimiento aumenta las posibilidades
de concordancia entre los resultados del estándar de re-
ferencia y la prueba índice, aumentando en forma sesga-
da el rendimiento diagnóstico de la prueba índice. Esto
es lo que conocemos como sesgo de revisión1-5, y se ha
demostrado que la presencia de este tipo de sesgo exa-
gera las medidas de rendimiento diagnóstico obtenidas
en este tipo de estudios11.
Por ejemplo, en un caso hipotético de un estudio de
rendimiento diagnóstico que busca establecer el rendi-
miento de la tinción de Gram en el diagnóstico de gono-
rrea, si uno de los investigadores que interpreta los re-
sultados del Gram sabe que tiene un cultivo de Thayer
4
Manríquez Moreno JJ et al. Análisis crítico de estudios sobre exámenes diagnósticos en dermatología
Piel. 2007;22(1):3-6
Figura 2. Los estudios que evalúan el rendimiento de pruebas diagnósticas presentan sus resultados en una tabla 2 × 2, como ésta. De ella se
pueden calcular la sensibilidad, la especificidad, los valores predictivos y la razón de probabilidad, siguiendo las fórmulas resumidas en esta fi-
gura. FN, falsos negativos; FP, falsos positivos; VN, verdaderos negativos; VP, verdaderos positivos.
Sensibilidad
Probabilidad de clasificar correctamente a un individuo
enfermo o la proporción de verdaderos positivos
Especificidad
Probabilidad de clasificar correctamente a un individuo
sano o la proporción de verdaderos negativos
VP
VP + FN
VP
VN + FP
Valor predictivo positivo
Es la proporción de pacientes con resultado positivo
en la prueba diagnóstica que finalmente resultaron
estar enfermos
Valor predictivo negativo
Es la proporción de pacientes con un resultado negativo
en la prueba diagnóstica que finalmente resultaron
estar sanos
VPVP + FP
VN
VN + FN
Razón de probabilidad positiva
Es el cociente entre la fracción de verdaderos positivos
y la fracción de falsos positivos
Razón de probabilidad negativa
Es el cociente entre la fracción de falsos negativos y la
fracción de verdaderos negativos
Sensibilidad
1-Especificidad
1-Sensibilidad
Especificidad
Prueba
diagnóstica
Positivo
Negativo
Patrón de referencia
Enfermo Sano
VP
FN
FP
VN
Martin positivo para gonococo, tendrá más predisposi-
ción a encontrar diplococos gramnegativos intracelula-
res, produciéndose así un sesgo que disminuye la vali-
dez del estudio.
Espectro adecuado de pacientes
Para que un examen diagnóstico sea útil es necesario
que ayude a discriminar entre sujetos sanos y enfermos
en un escenario de incertidumbre diagnóstica, similar al
que encontramos en la práctica clínica1-5. Debe incluir
un espectro amplio de pacientes, con baja, moderada y
alta probabilidad pre-test de presentar la enfermedad.
Para esto, lo ideal es que se use una muestra lo más am-
plia posible4,5. Así, también es necesario que los autores
de este tipo de estudios incluyan una descripción deta-
llada de los criterios de inclusión y exclusión de sujetos,
de modo que el lector pueda hacerse una idea de si el
estudio excluyó o incluyó sujetos con determinadas pa-
tologías que puedan afectar la forma en que la prueba
diagnóstica funciona. Un ejemplo de esto podría ser
que, en el caso hipotético mencionado anteriormente,
dentro de los criterios de exclusión de sujetos se encon-
trara el diagnóstico de uretritis por Chlamydia confir-
mado por inmunofluorescencia directa.
Siguiendo esta idea, es necesario que los autores men-
cionen en qué escenario clínico fueron reclutados los
pacientes, así como una detallada descripción del esce-
nario en que se aplicaron tanto la prueba índice como el
estándar de referencia, ya que el espectro de la condi-
ción clínica en estudio puede variar en distintos ambien-
tes de atención. No es lo mismo establecer el rendimien-
to de una prueba para el diagnóstico de necrólisis
epidérmica tóxica (NET) entre sujetos con erosiones de
mucosa oral atendidos en un centro hospitalario de ur-
gencia, donde la prevalencia de NET entre sujetos con
erosiones orales probablemente sea mayor, que en un
centro de atención primaria. En el primer caso, la prue-
ba índice en estudio tendrá un rendimiento diagnóstico
mayor que si se evalúa en atención primaria. Dicho de
otra forma, si un examen es probado en pacientes con
una alta probabilidad pre-test de presentar una enferme-
dad, se puede sobrevalorar su rendimiento diagnóstico,
produciéndose así un sesgo que disminuye su validez
para población con una probabilidad pre-test menor1-5.
Por ejemplo, si se estudia la validez de un examen
diagnóstico de psoriasis en una población en la que to-
dos los sujetos tienen antecedentes familiares directos
de psoriasis, al tener una alta probabilidad pre-test de
psoriasis podría sobrevalorarse la efectividad de la
prueba al compararse con la población general, que pre-
sentará una menor prevalencia de esta enfermedad, dis-
minuyendo su aplicabilidad en este grupo.
Aplicación del estándar de referencia
independiente del resultado obtenido
con la prueba índice
La evaluación de un examen diagnóstico puede estar
sesgada si los resultados de éste influyen en la aplica-
ción o no del estándar de referencia. Es lo que se cono-
ce como «sesgo de verificación»1-3. Por lo tanto, en un
estudio de buena calidad metodológica el estándar de
referencia debería realizarse en todos los pacientes, in-
dependiente del resultado que se obtenga en la prueba
índice, es decir, se deben verificar todos los resultados.
Por ejemplo, al evaluar un nuevo método no invasivo
para el diagnóstico de melanoma, si el estándar de refe-
rencia fuese la extirpación completa de la lesión pigmen-
taria y su estudio histopatológico, y este sólo se aplicara
a los pacientes en los que la prueba índice en estudio fue
positiva, podría darse una sobreestimación de la capaci-
dad de la prueba índice de excluir melanoma.
Descripción de los métodos
La descripción del estudio debe ser lo suficientemente
detallada como para permitir la reproducción de la ex-
periencia en la práctica diaria. Debe incluir información
completa respecto de la preparación de los pacientes
para la prueba, entrenamiento de los profesionales que
la realizan, cómo realizarla (técnica, posibles efectos ad-
versos) y de la interpretación de los resultados1-3.
¿CUÁLES SON LOS RESULTADOS?
Una vez establecido que los resultados del estudio son
válidos, la siguiente pregunta es determinar cuáles son y
qué significan estos resultados. En este sentido es funda-
mental que conozcamos los valores de la razón de proba-
bilidad positiva y negativa o que dispongamos de la in-
formación suficiente para calcularlos. El concepto de LR
se refiere a la capacidad de un test de cambiar la proba-
bilidad pre-test a una probabilidad post-test. Un LR per-
mite comparar la probabilidad de obtener un resultado
positivo o negativo en un paciente que presenta la condi-
ción en estudio, frente a uno que no la presenta, tal
como se analizó en el artículo previo de esta serie (fig. 2).
¿ME AYUDARÁN LOS RESULTADOS
EN EL CUIDADO DE MI PACIENTE?
Nada de lo anterior tiene sentido si no se aplica a un
paciente en particular o a la práctica médica habitual.
Éste es nuestro objetivo final. Pero para ello primero
hay que determinar si estos resultados obtenidos ayuda-
rán en la toma de decisiones en beneficio de los pacien-
tes. Es necesario analizar los siguientes aspectos:
Reproducibilidad en el medio local
Los problemas de reproducibilidad pueden aparecer
en relación a la prueba misma o a una dificultad en su
interpretación, sobre todo cuando se requiere algún tipo
de experiencia o entrenamiento para su realización o in-
terpretación12,13. Una prueba puede tener una alta repro-
ducibilidad ya sea porque es simple y fácil de interpretar
o porque en el medio donde se aplica hay personas alta-
mente capacitadas para su aplicación e interpretación.
Aplicabilidad en un paciente en particular
Se refiere a la capacidad de la prueba de tener la mis-
ma precisión que en el estudio original13. Se debe tener
en cuenta que las propiedades de una prueba diagnósti-
5
Manríquez Moreno JJ et al. Análisis crítico de estudios sobre exámenes diagnósticos en dermatología
Piel. 2007;22(1):3-6
ca pueden cambiar con diferentes poblaciones de pa-
cientes (efecto del espectro de pacientes)1-3, lo cual
hace disminuir su aplicabilidad.
En la medida en que nos encontremos en un medio clí-
nico similar al del estudio, que el paciente cumpla con los
criterios de inclusión del estudio sin presentar criterios
de exclusión, podemos estar confiados en que los resulta-
dos obtenidos le son aplicables12,13. Si no se cumple con
alguna de estas características, entonces debe aplicarse
el juicio clínico para estimar si le son o no aplicables.
Por ejemplo, si el paciente es un niño de 10 años en el
que se sospecha onicomicosis y quiere realizársele una
prueba diagnóstica que fue probada en población adul-
ta, se deberá revisar el estudio y usar el juicio clínico
para determinar su aplicabilidad en este paciente, y
eventualmente se deberán buscar otros estudios en una
población similar.
Efecto de los resultados en el tratamiento
del paciente
Una prueba diagnóstica es útil para el paciente en la
medida en que aporte información adicional a la que ob-
tuvimos por la anamnesis, el examen físico y otras prue-
bas realizadas. Se requiere además que esta información
adicional se traduzca en un cambio en el tratamiento del
paciente, ya sea descartando o confirmando la sospecha
diagnóstica. Para estimar la utilidad de una prueba nos
ayudan los conceptos de umbral diagnóstico y umbral
terapéutico.
Si la información disponible sugiere una probabilidad
diagnóstica tan alta que estamos dispuestos a iniciar un
tratamiento, superamos el umbral terapéutico. Si la in-
formación disponible sugiere que determinadodiagnós-
tico es tan improbable que descartamos esa posibilidad,
nos encontramos bajo el umbral diagnóstico. Si la pro-
babilidad pre-test no permite atravesar el umbral tera-
péutico o diagnóstico, la prueba diagnóstica será útil al
mejorar la probabilidad post test1-3 (fig. 3).
¿Estará el paciente mejor como resultado
de la prueba diagnóstica?
En primer lugar, lo estará en la medida en que ésta
aporte información adicional que permita un cambio en
el tratamiento del paciente beneficioso para su salud.
Si la condición estudiada no diagnosticada es peligro-
sa, la prueba tiene riesgos aceptables y la enfermedad
tiene un tratamiento probado, no habrá duda sobre la
utilidad de la prueba diagnóstica. En situaciones inter-
medias deberá usarse el juicio clínico para estimar su
posible beneficio. Se deben considerar además los cos-
tos económicos y la disponibilidad de la prueba en rela-
ción a otras pruebas diagnósticas alternativas para la
enfermedad estudiada1-3,12,13.
CONCLUSIONES
Hemos visto que para realizar un análisis crítico de un
estudio sobre exámenes diagnósticos es necesario eva-
luar 3 aspectos: la validez interna de sus resultados, los
resultados propiamente dichos y cómo estos resultados
pueden ayudar a que el paciente esté mejor. Este análisis
permitirá utilizar correctamente la información disponi-
ble y así poder aplicarla a la práctica médica habitual.
Finalmente, así como en las últimas décadas se ha
dado gran importancia al adecuado reporte y ejecución
de ensayos clínicos aleatorizados, a través de guías
como la Declaración CONSORT14, en los últimos años se
han realizado esfuerzos en cuanto a mejorar la calidad y
el reporte de estudios de rendimiento diagnóstico, lo
cual se ha traducido en la publicación de la iniciativa
STARD15. Es de esperar que así como ocurrió con el
CONSORT, la aplicación de la iniciativa STARD se tra-
duzca en una mejoría en el diseño, conducción y reporte
de estudios de rendimiento diagnóstico.
BIBLIOGRAFÍA
1. Jaeschke R, Guyatt G, Sackett DL. Users’ guides to the medical literature. III.
How to use an article about a diagnostic test. A. Are the results of the study
valid? Evidence-Based Medicine Working Group. JAMA. 1994;271:389-91.
2. Archibald S, Bhandari M, Thoma A; Evidence-Based Surgery Working Group.
Users’ guides to the surgical literature: how to use an article about a diagnos-
tic test. Evidence-Based Surgery Working Group. Can J Surg. 2001;44:17-23.
3. Greenhalgh T. How to read a paper. Papers that report diagnostic or scree-
ning tests. BMJ. 1997;315:540-3.
4. Reid MC, Lachs MS, Feinstein AR. Use of methodological standards in diag-
nostic test research. Getting better but still not good. JAMA. 1995;274:645-51.
5. Arrol B, Schechter MT, Sheps SB. The assessment of diagnostic tests: a com-
parison of medical literature in 1982 and 1985. J Gen Intern Med. 1988;3:443-7.
6. Sheps SB, Schechter MT. The assessment of diagnostic tests: a survey of cu-
rrent medical research. JAMA. 1984;252:2418-22.
7. Heffner JE, Feinstein D, Barbieri C. Methodologic standards for diagnostic
test research in pulmonary medicine. Chest. 1998;114:877-85.
8. Harper R, Reeves B. Reporting of precision of estimates for diagnostic accu-
racy: a review. BMJ. 1999;318:1322–3.
9. Honest H, Khan KS. Reporting of measures of accuracy in systematic reviews
of diagnostic literature. BMC Health Serv Res. 2002;2:4.
10. Knottnerus JA, Muris JW. Assessment of the accuracy of diagnostic tests: the
cross-sectional study. En: Knottnerus JA, editor. The evidence base of clinical
diagnosis. London: BMJ Publishing Group; 2002. p. 39-59.
11. Lijmer JG, Mol BW, Heisterkamp S, et al. Empirical evidence of design-related
bias in studies of diagnostic tests. JAMA. 1999;282:1061-6.
12. Begg CB, Greenes RA. Assessment of diagnostic tests when disease verifica-
tion is subject to selection bias. Biometrics. 1983;39:207-15.
13. Guyatt GH, Tugwell P, Feeny DH, Haynes RB, Drummond M. A framework for
clinical evaluation of diagnostic technologies. Can Med Assoc J. 1986;134:587-94.
14. Altman DG, Schulz KF, Moher D, Egger M, Davidoff F, Elbourne D, et al. The
revised CONSORT statement for reporting randomized trials: explanation and
elaboration. Ann Intern Med. 2001;134:663-94.
15. Bossuyt PM, Reitsma JB, Bruns DE, Gatsonis CA, Glasziou PP, Irwig LM, et al.
Towards complete and accurate reporting of studies of diagnostic accuracy:
the STARD Initiative. Clin Chem. 2003;49:1-6.
6
Manríquez Moreno JJ et al. Análisis crítico de estudios sobre exámenes diagnósticos en dermatología
Piel. 2007;22(1):3-6
Figura 3. Umbrales de decisión.
Umbral
diagnóstico
Se requieren
pruebas diagnósticas
Umbral
terapéutico
Se
inicia
tratamiento
Se
descarta
el diagnóstico