Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Piel. 2007;22(1):3-6 ARTÍCULO ESPECIAL Análisis crítico de estudios sobre exámenes diagnósticos en dermatología Juan Jorge Manríquez Morenoa,b, Andrés Ilabaca Grezb, Esteban Avelloa y Sergio Silva Valenzuelaa,b aUnidad Docente Asociada Dermatología. Escuela de Medicina. Pontificia Universidad Católica de Chile. Santiago. Chile. bUnidad de Medicina Basada en la Evidencia (UMBE-UC). Escuela de Medicina. Pontificia Universidad Católica de Chile. Santiago. Chile. Los exámenes diagnósticos son parte esencial de la medicina actual. Se utilizan diariamente en la práctica médica y constituyen, junto con la anamnesis y el exa- men físico, los pilares del proceso diagnóstico. Sin em- bargo, la gama de posibilidades es amplia y muchas ve- ces la elección del más adecuado es difícil1-3. Los estudios diagnósticos son un pilar fundamental dentro de la práctica clínica y la investigación, aunque varios trabajos han demostrado que la calidad de los es- tudios que evalúan el rendimiento de estas pruebas diag- nósticas es deficiente4-9. Los estudios que evalúan el rendimiento de las prue- bas diagnósticas tiene una estructura básica10, en la que 2 o más pruebas son comparadas con los resultados ob- tenidos mediante la aplicación del estándar de referen- cia, en el mismo grupo de sujetos, en cuanto a la capaci- dad de detectar o predecir la presencia o ausencia de una determinada condición clínica (fig. 1). Las pruebas en estudio pueden ser variadas, incluyendo exámenes de laboratorio, exámenes radiológicos, estudios anato- mopatológicos, elementos de la historia clínica o del examen físico. En los estudios de rendimiento diagnóstico, la prueba bajo evaluación se conoce como prueba índice, la que es comparada con el estándar de referencia, el que es con- siderado como la «verdad» en cuanto a establecer la presencia o ausencia de la condición clínica que se de- sea detectar. El estándar de referencia puede ser una prueba diagnóstica única o bien una combinación de pruebas y técnicas, incluyendo el seguimiento clínico de los sujetos para evaluar. El término «rendimiento diagnóstico» se refiere al gra- do de concordancia existente entre los resultados obte- nidos por las pruebas índices y las obtenidas luego de la aplicación del estándar de referencia. Este rendimiento diagnóstico se puede expresar de varias maneras, como sensibilidad, especificidad, razón de probabilidad y otros, como se analizó en el artículo previo de esta serie (fig. 2). 3 Correspondencia: Dr. Juan Jorge Manríquez Moreno. Unidad Docente Asociada Dermatología. Escuela de Medicina. Pontificia Universidad Católica de Chile. Vicuña Mackenna #4686. Comuna San Joaquín. Santiago. Chile. Correo electrónico: jmanriquez@dermatoscopio.cl 176.176 PUNTOS CLAVE – Junto con la anamnesis y el examen físico, los exámenes diag- nósticos son un pilar fundamental en el proceso diagnóstico. – Analizar críticamente los estudios que evalúan el rendimiento de exámenes diagnósticos permite elegir adecuadamente el o los exámenes que hay que realizar en una situación clínica de- terminada. Este análisis incluye una valoración de la validez interna del estudio, de los resultados obtenidos y de la utili- dad para el paciente de la realización del examen estudiado. – Determinar la validez interna de los resultados es el paso ini- cial en el análisis de un estudio sobre exámenes diagnósticos. Para esto se debe evaluar si hubo una comparación indepen- diente y ciega con un estándar de referencia, si incluyó un es- pectro adecuado de pacientes, si se realizó el estándar de re- ferencia en forma independiente a los resultados y si describe los métodos en forma detallada. – Es necesario que en los estudios que evalúen exámenes diag- nósticos encontremos los valores de la razón de probabilidad positivo y negativo [LR (+) y (–)], o que dispongamos de la in- formación suficiente para calcularlos. Estos valores permiten estimar la probabilidad post-test a partir de la probabilidad pre-test. – La revisión de la validez de un estudio y sus resultados tiene sentido en la medida en que esta información ayuda a un pa- ciente concreto. Figura 1. Los estudios que evalúan el rendimiento de las pruebas diagnósticas tienen una estructura básica en la que 2 o más pruebas (llamadas pruebas índice) se comparan con los resultados obtenidos mediante la aplicación del estándar de referencia en el mismo grupo de sujetos. El rendimiento diagnóstico se refiere al grado de concor- dancia existente entre los resultados obtenidos por las pruebas índi- ce y las obtenidas tras la aplicación del estándar de referencia. Sujetos con posible condición clínica P ru eb a ín d ic e E st án d ar d e re fe re n ci a En lo que resta de este artículo, discutiremos punto por punto las principales características que deben eva- luarse durante la lectura crítica de un estudio sobre ren- dimiento diagnóstico, haciendo especial referencia a aquellos elementos de este tipo de estudios que pueden afectar la validez interna de sus resultados (introduc- ción de sesgos) y/o la validez externa de éstos (aplicabi- lidad de sus resultados a un paciente en particular). VALIDEZ INTERNA DE LOS RESULTADOS Varios son los factores que pueden afectar tanto la va- lidez interna como la externa en este tipo de estudios, y entre ellos destacan los que tienen relación con el dise- ño, la forma de seleccionar a los pacientes, la ejecución de las pruebas y el análisis de los datos. Se ha demostra- do que estas deficiencias metodológicas están relaciona- das con una sobreestimación del rendimiento de estas pruebas11. Pasamos a analizar de forma detallada los elementos fundamentales en el diseño y ejecución de este tipo de estudios que deben considerarse al realizar un análisis crítico de este tipo de publicaciones. Comparación ciega e independiente con un estándar de referencia La aplicación de la prueba índice y del estándar de re- ferencia requiere que quienes interpreten cada una de éstas sean ciegos respecto a los resultados obtenidos en la otra. Este requisito es fundamental, puesto que el co- nocimiento de los resultados tras la aplicación del es- tándar de referencia puede influir la interpretación de los resultados obtenidos tras aplicar la prueba índice, y viceversa. Este conocimiento aumenta las posibilidades de concordancia entre los resultados del estándar de re- ferencia y la prueba índice, aumentando en forma sesga- da el rendimiento diagnóstico de la prueba índice. Esto es lo que conocemos como sesgo de revisión1-5, y se ha demostrado que la presencia de este tipo de sesgo exa- gera las medidas de rendimiento diagnóstico obtenidas en este tipo de estudios11. Por ejemplo, en un caso hipotético de un estudio de rendimiento diagnóstico que busca establecer el rendi- miento de la tinción de Gram en el diagnóstico de gono- rrea, si uno de los investigadores que interpreta los re- sultados del Gram sabe que tiene un cultivo de Thayer 4 Manríquez Moreno JJ et al. Análisis crítico de estudios sobre exámenes diagnósticos en dermatología Piel. 2007;22(1):3-6 Figura 2. Los estudios que evalúan el rendimiento de pruebas diagnósticas presentan sus resultados en una tabla 2 × 2, como ésta. De ella se pueden calcular la sensibilidad, la especificidad, los valores predictivos y la razón de probabilidad, siguiendo las fórmulas resumidas en esta fi- gura. FN, falsos negativos; FP, falsos positivos; VN, verdaderos negativos; VP, verdaderos positivos. Sensibilidad Probabilidad de clasificar correctamente a un individuo enfermo o la proporción de verdaderos positivos Especificidad Probabilidad de clasificar correctamente a un individuo sano o la proporción de verdaderos negativos VP VP + FN VP VN + FP Valor predictivo positivo Es la proporción de pacientes con resultado positivo en la prueba diagnóstica que finalmente resultaron estar enfermos Valor predictivo negativo Es la proporción de pacientes con un resultado negativo en la prueba diagnóstica que finalmente resultaron estar sanos VPVP + FP VN VN + FN Razón de probabilidad positiva Es el cociente entre la fracción de verdaderos positivos y la fracción de falsos positivos Razón de probabilidad negativa Es el cociente entre la fracción de falsos negativos y la fracción de verdaderos negativos Sensibilidad 1-Especificidad 1-Sensibilidad Especificidad Prueba diagnóstica Positivo Negativo Patrón de referencia Enfermo Sano VP FN FP VN Martin positivo para gonococo, tendrá más predisposi- ción a encontrar diplococos gramnegativos intracelula- res, produciéndose así un sesgo que disminuye la vali- dez del estudio. Espectro adecuado de pacientes Para que un examen diagnóstico sea útil es necesario que ayude a discriminar entre sujetos sanos y enfermos en un escenario de incertidumbre diagnóstica, similar al que encontramos en la práctica clínica1-5. Debe incluir un espectro amplio de pacientes, con baja, moderada y alta probabilidad pre-test de presentar la enfermedad. Para esto, lo ideal es que se use una muestra lo más am- plia posible4,5. Así, también es necesario que los autores de este tipo de estudios incluyan una descripción deta- llada de los criterios de inclusión y exclusión de sujetos, de modo que el lector pueda hacerse una idea de si el estudio excluyó o incluyó sujetos con determinadas pa- tologías que puedan afectar la forma en que la prueba diagnóstica funciona. Un ejemplo de esto podría ser que, en el caso hipotético mencionado anteriormente, dentro de los criterios de exclusión de sujetos se encon- trara el diagnóstico de uretritis por Chlamydia confir- mado por inmunofluorescencia directa. Siguiendo esta idea, es necesario que los autores men- cionen en qué escenario clínico fueron reclutados los pacientes, así como una detallada descripción del esce- nario en que se aplicaron tanto la prueba índice como el estándar de referencia, ya que el espectro de la condi- ción clínica en estudio puede variar en distintos ambien- tes de atención. No es lo mismo establecer el rendimien- to de una prueba para el diagnóstico de necrólisis epidérmica tóxica (NET) entre sujetos con erosiones de mucosa oral atendidos en un centro hospitalario de ur- gencia, donde la prevalencia de NET entre sujetos con erosiones orales probablemente sea mayor, que en un centro de atención primaria. En el primer caso, la prue- ba índice en estudio tendrá un rendimiento diagnóstico mayor que si se evalúa en atención primaria. Dicho de otra forma, si un examen es probado en pacientes con una alta probabilidad pre-test de presentar una enferme- dad, se puede sobrevalorar su rendimiento diagnóstico, produciéndose así un sesgo que disminuye su validez para población con una probabilidad pre-test menor1-5. Por ejemplo, si se estudia la validez de un examen diagnóstico de psoriasis en una población en la que to- dos los sujetos tienen antecedentes familiares directos de psoriasis, al tener una alta probabilidad pre-test de psoriasis podría sobrevalorarse la efectividad de la prueba al compararse con la población general, que pre- sentará una menor prevalencia de esta enfermedad, dis- minuyendo su aplicabilidad en este grupo. Aplicación del estándar de referencia independiente del resultado obtenido con la prueba índice La evaluación de un examen diagnóstico puede estar sesgada si los resultados de éste influyen en la aplica- ción o no del estándar de referencia. Es lo que se cono- ce como «sesgo de verificación»1-3. Por lo tanto, en un estudio de buena calidad metodológica el estándar de referencia debería realizarse en todos los pacientes, in- dependiente del resultado que se obtenga en la prueba índice, es decir, se deben verificar todos los resultados. Por ejemplo, al evaluar un nuevo método no invasivo para el diagnóstico de melanoma, si el estándar de refe- rencia fuese la extirpación completa de la lesión pigmen- taria y su estudio histopatológico, y este sólo se aplicara a los pacientes en los que la prueba índice en estudio fue positiva, podría darse una sobreestimación de la capaci- dad de la prueba índice de excluir melanoma. Descripción de los métodos La descripción del estudio debe ser lo suficientemente detallada como para permitir la reproducción de la ex- periencia en la práctica diaria. Debe incluir información completa respecto de la preparación de los pacientes para la prueba, entrenamiento de los profesionales que la realizan, cómo realizarla (técnica, posibles efectos ad- versos) y de la interpretación de los resultados1-3. ¿CUÁLES SON LOS RESULTADOS? Una vez establecido que los resultados del estudio son válidos, la siguiente pregunta es determinar cuáles son y qué significan estos resultados. En este sentido es funda- mental que conozcamos los valores de la razón de proba- bilidad positiva y negativa o que dispongamos de la in- formación suficiente para calcularlos. El concepto de LR se refiere a la capacidad de un test de cambiar la proba- bilidad pre-test a una probabilidad post-test. Un LR per- mite comparar la probabilidad de obtener un resultado positivo o negativo en un paciente que presenta la condi- ción en estudio, frente a uno que no la presenta, tal como se analizó en el artículo previo de esta serie (fig. 2). ¿ME AYUDARÁN LOS RESULTADOS EN EL CUIDADO DE MI PACIENTE? Nada de lo anterior tiene sentido si no se aplica a un paciente en particular o a la práctica médica habitual. Éste es nuestro objetivo final. Pero para ello primero hay que determinar si estos resultados obtenidos ayuda- rán en la toma de decisiones en beneficio de los pacien- tes. Es necesario analizar los siguientes aspectos: Reproducibilidad en el medio local Los problemas de reproducibilidad pueden aparecer en relación a la prueba misma o a una dificultad en su interpretación, sobre todo cuando se requiere algún tipo de experiencia o entrenamiento para su realización o in- terpretación12,13. Una prueba puede tener una alta repro- ducibilidad ya sea porque es simple y fácil de interpretar o porque en el medio donde se aplica hay personas alta- mente capacitadas para su aplicación e interpretación. Aplicabilidad en un paciente en particular Se refiere a la capacidad de la prueba de tener la mis- ma precisión que en el estudio original13. Se debe tener en cuenta que las propiedades de una prueba diagnósti- 5 Manríquez Moreno JJ et al. Análisis crítico de estudios sobre exámenes diagnósticos en dermatología Piel. 2007;22(1):3-6 ca pueden cambiar con diferentes poblaciones de pa- cientes (efecto del espectro de pacientes)1-3, lo cual hace disminuir su aplicabilidad. En la medida en que nos encontremos en un medio clí- nico similar al del estudio, que el paciente cumpla con los criterios de inclusión del estudio sin presentar criterios de exclusión, podemos estar confiados en que los resulta- dos obtenidos le son aplicables12,13. Si no se cumple con alguna de estas características, entonces debe aplicarse el juicio clínico para estimar si le son o no aplicables. Por ejemplo, si el paciente es un niño de 10 años en el que se sospecha onicomicosis y quiere realizársele una prueba diagnóstica que fue probada en población adul- ta, se deberá revisar el estudio y usar el juicio clínico para determinar su aplicabilidad en este paciente, y eventualmente se deberán buscar otros estudios en una población similar. Efecto de los resultados en el tratamiento del paciente Una prueba diagnóstica es útil para el paciente en la medida en que aporte información adicional a la que ob- tuvimos por la anamnesis, el examen físico y otras prue- bas realizadas. Se requiere además que esta información adicional se traduzca en un cambio en el tratamiento del paciente, ya sea descartando o confirmando la sospecha diagnóstica. Para estimar la utilidad de una prueba nos ayudan los conceptos de umbral diagnóstico y umbral terapéutico. Si la información disponible sugiere una probabilidad diagnóstica tan alta que estamos dispuestos a iniciar un tratamiento, superamos el umbral terapéutico. Si la in- formación disponible sugiere que determinadodiagnós- tico es tan improbable que descartamos esa posibilidad, nos encontramos bajo el umbral diagnóstico. Si la pro- babilidad pre-test no permite atravesar el umbral tera- péutico o diagnóstico, la prueba diagnóstica será útil al mejorar la probabilidad post test1-3 (fig. 3). ¿Estará el paciente mejor como resultado de la prueba diagnóstica? En primer lugar, lo estará en la medida en que ésta aporte información adicional que permita un cambio en el tratamiento del paciente beneficioso para su salud. Si la condición estudiada no diagnosticada es peligro- sa, la prueba tiene riesgos aceptables y la enfermedad tiene un tratamiento probado, no habrá duda sobre la utilidad de la prueba diagnóstica. En situaciones inter- medias deberá usarse el juicio clínico para estimar su posible beneficio. Se deben considerar además los cos- tos económicos y la disponibilidad de la prueba en rela- ción a otras pruebas diagnósticas alternativas para la enfermedad estudiada1-3,12,13. CONCLUSIONES Hemos visto que para realizar un análisis crítico de un estudio sobre exámenes diagnósticos es necesario eva- luar 3 aspectos: la validez interna de sus resultados, los resultados propiamente dichos y cómo estos resultados pueden ayudar a que el paciente esté mejor. Este análisis permitirá utilizar correctamente la información disponi- ble y así poder aplicarla a la práctica médica habitual. Finalmente, así como en las últimas décadas se ha dado gran importancia al adecuado reporte y ejecución de ensayos clínicos aleatorizados, a través de guías como la Declaración CONSORT14, en los últimos años se han realizado esfuerzos en cuanto a mejorar la calidad y el reporte de estudios de rendimiento diagnóstico, lo cual se ha traducido en la publicación de la iniciativa STARD15. Es de esperar que así como ocurrió con el CONSORT, la aplicación de la iniciativa STARD se tra- duzca en una mejoría en el diseño, conducción y reporte de estudios de rendimiento diagnóstico. BIBLIOGRAFÍA 1. Jaeschke R, Guyatt G, Sackett DL. Users’ guides to the medical literature. III. How to use an article about a diagnostic test. A. Are the results of the study valid? Evidence-Based Medicine Working Group. JAMA. 1994;271:389-91. 2. Archibald S, Bhandari M, Thoma A; Evidence-Based Surgery Working Group. Users’ guides to the surgical literature: how to use an article about a diagnos- tic test. Evidence-Based Surgery Working Group. Can J Surg. 2001;44:17-23. 3. Greenhalgh T. How to read a paper. Papers that report diagnostic or scree- ning tests. BMJ. 1997;315:540-3. 4. Reid MC, Lachs MS, Feinstein AR. Use of methodological standards in diag- nostic test research. Getting better but still not good. JAMA. 1995;274:645-51. 5. Arrol B, Schechter MT, Sheps SB. The assessment of diagnostic tests: a com- parison of medical literature in 1982 and 1985. J Gen Intern Med. 1988;3:443-7. 6. Sheps SB, Schechter MT. The assessment of diagnostic tests: a survey of cu- rrent medical research. JAMA. 1984;252:2418-22. 7. Heffner JE, Feinstein D, Barbieri C. Methodologic standards for diagnostic test research in pulmonary medicine. Chest. 1998;114:877-85. 8. Harper R, Reeves B. Reporting of precision of estimates for diagnostic accu- racy: a review. BMJ. 1999;318:1322–3. 9. Honest H, Khan KS. Reporting of measures of accuracy in systematic reviews of diagnostic literature. BMC Health Serv Res. 2002;2:4. 10. Knottnerus JA, Muris JW. Assessment of the accuracy of diagnostic tests: the cross-sectional study. En: Knottnerus JA, editor. The evidence base of clinical diagnosis. London: BMJ Publishing Group; 2002. p. 39-59. 11. Lijmer JG, Mol BW, Heisterkamp S, et al. Empirical evidence of design-related bias in studies of diagnostic tests. JAMA. 1999;282:1061-6. 12. Begg CB, Greenes RA. Assessment of diagnostic tests when disease verifica- tion is subject to selection bias. Biometrics. 1983;39:207-15. 13. Guyatt GH, Tugwell P, Feeny DH, Haynes RB, Drummond M. A framework for clinical evaluation of diagnostic technologies. Can Med Assoc J. 1986;134:587-94. 14. Altman DG, Schulz KF, Moher D, Egger M, Davidoff F, Elbourne D, et al. The revised CONSORT statement for reporting randomized trials: explanation and elaboration. Ann Intern Med. 2001;134:663-94. 15. Bossuyt PM, Reitsma JB, Bruns DE, Gatsonis CA, Glasziou PP, Irwig LM, et al. Towards complete and accurate reporting of studies of diagnostic accuracy: the STARD Initiative. Clin Chem. 2003;49:1-6. 6 Manríquez Moreno JJ et al. Análisis crítico de estudios sobre exámenes diagnósticos en dermatología Piel. 2007;22(1):3-6 Figura 3. Umbrales de decisión. Umbral diagnóstico Se requieren pruebas diagnósticas Umbral terapéutico Se inicia tratamiento Se descarta el diagnóstico
Compartir