Вы находитесь на странице: 1из 6

Artículo especial Arch Argent Pediatr 2010;108(6):538-543 / 538

Pediatría basada en la evidencia. Estudios de


diagnóstico (2ª parte)
Evidence-based pediatrics. Diagnostic tests (2nd part)

Dra. Graciela Demirdjiana

RESUMEN puede ofrecer un resultado cualitativo


El proceso diagnóstico es complejo y ejercitarlo
(positivo-negativo), o bien que los re-
exige experiencia e instrumentos adecuados. El
avance tecnológico ha multiplicado el número sultados se expresan en una escala nu-
de pruebas diagnósticas disponibles, aunque son mérica continua, pero se conoce cuál
pocas las herramientas clínicas bien diseñadas, es el valor límite para discriminar en-
validadas y útiles. En este artículo describimos
tre enfermos y sanos (el punto de corte
el proceso de construcción de reglas de predic-
ción clínica y el uso de curvas ROC para la se- o “cut-off point”). Seleccionar un punto
lección del valor límite óptimo para una prueba de corte óptimo puede parecer senci-
con resultado numérico. llo, pero en realidad involucra una se-
Palabras clave: medicina basada en la evidencia,
rie de consideraciones acerca de cómo
diagnóstico, pronóstico, curva ROC, reglas de pre-
dicción clínica. se utilizará la prueba diagnóstica.
Para empezar, recordemos que la
SUMMARY sensibilidad y especificidad sirven
Diagnosis is a complex process, demanding
principalmente para elegir la prueba
experience and proper instruments. Technolo-
gy has advanced rapidly, increasing the num- a utilizar:
ber of available diagnostic tests. However, few • Las pruebas más sensibles se uti-
well designed and validated useful clinical tools lizan para tamizaje (screening), al
exist. This article summarizes the development
inicio del proceso diagnóstico, para
process for clinical prediction rules and the use
of ROC curves to select the best cutoff point for descartar enfermedad, o cuando la
tests with continuous results. oportunidad perdida de tratamien-
Key words: evidence-based medicine, diagnosis, to presupone un gran riesgo.
prognosis, ROC curve, clinical prediction rules.
• Las pruebas más específicas se uti-
lizan para confirmación, al final del
proceso diagnóstico, y para enfer-
INTRODUCCIóN medades cuyo tratamiento innece-
En la primera parte de este artícu- sario puede ser peligroso.
lo, publicada en la Sección de Pedia- Cuando el resultado del estudio
tría basada en la evidencia, iniciamos diagnóstico se expresa en una escala
el análisis crítico de los estudios de va- numérica continua, es necesario deci-
lidación de pruebas diagnósticas1 se- dir a partir de qué valor de la prueba
gún las Guías del JAMA2 y utilizamos, se considerará al sujeto como enfermo.
como ejemplo, un artículo sobre gases Aquí ocurre algo interesante: modifi-
a. Docencia e capilares y arteriales para el diagnós- car el punto de corte altera la capaci-
Investigación. tico de hiperoxemia en neonatos.3 En dad operativa de la prueba:
Hospital Nacional esta segunda parte abordaremos dos • Si corremos el punto de corte hacia
de Pediatría
“Prof. Dr. Juan P.
temas conexos algo más complejos: valores menos patológicos, ganamos
Garrahan.” las curvas ROC y las reglas de predic- en sensibilidad (incluimos más casos
ción clínica. como enfermos), pero perdemos en
Correspondencia: especificidad (muchos de estos casos
Dra. Graciela
Demirdjian:
CURVAS ROC pueden ser falsos positivos).
gdemir@intramed.net Nuestro análisis crítico del artículo • Si lo movemos hacia valores más
sobre diagnóstico de hiperoxemia en patológicos, ganamos en especifici-
Conflicto de intereses: neonatos había considerado la capaci- dad (tendremos menos falsos positi-
Ninguno que declarar.
dad operativa de la prueba tomando vos), pero perderemos sensibilidad
Recibido: 4-7-10 sus resultados en formato dicotómi- (es posible que algunos enfermos
Aceptado: 28-7-10 co. Esto presupone que la prueba sólo escapen al diagnóstico).
Pediatría basada en la evidencia. Estudios de diagnóstico (2ª parte) / 539

Para entender esto con más claridad volva- positivos (sensibilidad) y falsos positivos (1 – es-
mos a nuestro artículo y observemos en la Ta- pecificidad). Para este proceso se utiliza un grá-
bla 1 (Cuadro 2 en la publicación original3) cómo fico denominado curva ROC (Receiver Operating
se modifica la capacidad operativa (medida por Characteristic) o curva de respuesta relativa.4 Es-
la razón de probabilidad o “likelihood ratio” que tas curvas son diagramas de correlación donde se
relaciona los verdaderos y falsos positivos y ne- relacionan la sensibilidad en las ordenadas contra
gativos) utilizando distintos puntos de corte de la especificidad en las abscisas para los diferentes
PcapO2. (Como repaso de los conceptos del artícu- puntos de corte de un método. La principal utili-
lo anterior se pueden reconstruir con estos datos dad de la curva es asistir en la toma de decisión
las tablas de 2 x 2 y calcular las medidas operati- acerca de cuál es el valor límite óptimo, que es
vas para cada punto de corte). aquél que más se acerca al extremo superior iz-
La elección del valor límite (punto de corte) quierdo del gráfico: máxima sensibilidad y espe-
óptimo de una prueba con resultado numéri- cificidad, o máxima tasa de verdaderos positivos
co implica balancear estas dos alternativas para (TVP) con un mínimo de falsos positivos (TFP).
maximizar la capacidad operativa del método En la Figura 1 (reproducida de nuestro artícu-
(máxima sensibilidad y especificidad) y minimi- lo de gases capilares) se presenta esta curva ROC
zar los errores “negociando” entre verdaderos para los distintos puntos de corte de PO2 capilar

Tabla 1. Rendimiento diagnóstico del gas capilar contra el arterial para distintos valores límite (puntos de corte)3

Probabilidad después de la prueba - razón de probabilidad


PcO2 Hiperoxemia Normal Razón de probabilidad Probabilidad posprueba
> 60 18= 0,375 3= 0,057 6,6:1 87%
> 55 27= 0,56 5= 0,096 5,8:1 85%
> 50 37= 0,77 11= 0,21 3,6:1 78%
> 45 44= 0,92 24= 0,46 2,0:1 67%
> 40 47= 0,98 39= 0,75 1,3:1 56%
Total 48 52

Figura 1. Curva ROC para distintos valores límite (puntos de corte) del gas capilar contra el arterial3

ESPECIFICIDAD
100 80 60 40 20 0
100
40 mmHg
45 mmHg
80
50 mmHg
SENSIbILIDAD

60
55 mmHg

40
60 mmHg

20

0
540 / Arch Argent Pediatr 2010;108(6):538-543 / Artículo especial

para el diagnóstico de hiperoxemia. Observe que: la prueba (su sensibilidad, especificidad y valores
• en el eje Y se representa la sensibilidad (TVP) predictivos). En cambio, los signos y síntomas clí-
de manera creciente de 0 a 100%; nicos requieren otro enfoque. Primeramente, es
• en el eje X se grafica la especificidad (1 - TFP) necesario tener la destreza para detectarlos, ya
en forma decreciente de 100 a 0% (también po- sea mediante un examen físico apropiado o una
dría mostrarse en escala creciente de 0 a 100% anamnesis dirigida pero exhaustiva (habilidad
pero como 1 – especificidad); que luchamos por conseguir durante nuestros pri-
• a medida que aumenta la sensibilidad, la espe- meros años de formación de postgrado…). Luego,
cificidad disminuye y viceversa; corresponde ponderar su impacto sobre nuestros
• el valor de PcapO2 de 50 mmHg es el punto diagnósticos presuntivos, ya que las formas de
que tiene mayor TVP y menor TFP (el que se presentación son sumamente variables y todos los
ubica más cercano al ángulo superior izquier- signos clínicos no “pesan” lo mismo. Este último
do de la curva). proceso suele ser el más “artesanal” de la medici-
Cuando se elabora una curva ROC por medio na; tanto es así, que se va perfeccionando a lo lar-
de un programa informático estadístico, éste in- go de los años, es difícil de explicitar de manera
forma un valor para el área bajo la curva. El área precisa para poder transmitirlo a los más jóvenes,
total del gráfico es igual a 1; los valores posibles y se lo acaba expresando con el término “ojo clí-
del área comprendida bajo la curva ROC oscilan nico”, que denota nuestra total incapacidad para
entre 0 y 1. Esta medida es proporcional a la capa- estandarizarlo o sistematizarlo.
cidad diagnóstica, de tal manera que cuanto mejor Por suerte, la Estadística puede brindar un
sea el desempeño de la prueba el área será mayor aporte valioso en este campo. Así como el desa-
(más cercana a 1). Estas curvas y áreas bajo la cur- rrollo tecnológico mejoró la calidad de las prue-
va permiten no sólo comparar puntos de corte de bas diagnósticas disponibles, haciéndolas más
un método determinado sino también comparar fáciles de aplicar, menos invasivas y menos sub-
el desempeño de dos o más métodos diagnósti- jetivas, el crecimiento de los métodos estadísticos
cos diferentes. multivariados gracias a la informática permite la
Como cierre, es importante destacar que este construcción de instrumentos estandarizados y
punto de corte es óptimo para el uso amplio de confiables de diagnóstico o pronóstico, procedi-
la prueba en todo el espectro de aplicaciones. Sin miento que está al alcance de cualquier investi-
embargo, es perfectamente lícito utilizar un punto gador clínico que disponga del número suficiente
de corte diferente si se apunta a un uso particular de pacientes y asesoramiento estadístico. Estas
de la prueba diagnóstica que requiera optimizar herramientas, denominadas “reglas de predic-
la sensibilidad (rastreo o screening), o bien maxi- ción clínica” (“clinical prediction rules”, “decision
mizar la especificidad (confirmación diagnóstica). rules”), proveen un abordaje estructurado para
También es posible calcular el desempeño diag- diagnosticar una enfermedad o estimar el riesgo
nóstico para distintas categorías o intervalos de de un evento, y si se elaboran con la metodología
valores de la prueba en lugar de utilizar un único adecuada, tienen la doble capacidad de ponderar
punto de corte.5 la contribución individual de cada signo y poder
ser aplicadas de manera eficaz para la toma de de-
Reglas de predicción clínica cisiones diagnóstica o terapéutica por profesiona-
El proceso diagnóstico es complejo y requie- les con menor experiencia.
re una justa combinación de experiencia clínica
y exámenes complementarios. El avance tecno- Metodología para la construcción
lógico ha permitido el desarrollo de innumera- de reglas de predicción clínica
bles prueba diagnósticas que van desde las muy Cuando utilizamos una prueba diagnóstica lo
simples hasta las sumamente sofisticadas; pero hacemos porque tenemos evidencia previa de que
el campo de los instrumentos diagnósticos clíni- los pacientes con prueba positiva o con determi-
cos está aún relativamente virgen. Interpretar los nados valores tienen mayor probabilidad de estar
resultados de las pruebas diagnósticas suele pa- enfermos; esta evidencia proviene de los estudios
recer bastante sencillo: basta conocer los valores de validación de pruebas diagnósticas como las
normales de laboratorio o adquirir la habilidad vi- que analizamos en nuestro artículo anterior. Lo
sual requerida para los estudios de imágenes, sin mismo ocurre con los síntomas y signos clínicos
olvidar el aspecto que analizamos en nuestro artí- que, como ya vimos, también pueden ser conside-
culo previo respecto de la capacidad operativa de rados pruebas diagnósticas. Ahora bien: todos los
Pediatría basada en la evidencia. Estudios de diagnóstico (2ª parte) / 541

signos, síntomas o estudios complementarios no se aplicó la prueba tiene mejores resultados de


repercuten del mismo modo sobre nuestro diag- salud (es decir: si el diagnóstico más temprano
nóstico; la integración de toda esta información o más eficaz contribuyó a mejorar el pronósti-
(a menudo contradictoria, excepto en casos flo- co de la enfermedad).
ridos) suele ser asistemática, basada en nuestra Ahora supongamos que queremos desarrollar
experiencia previa y muy artesanal. Sin embar- un instrumento de diagnóstico o pronóstico uti-
go, podemos aplicar conceptos ya analizados en lizando un conjunto de signos clínicos y estudios
esta serie para mostrar cómo el desarrollo y uso complementarios, o sea una regla de predicción
de reglas de predicción clínica puede sistematizar clínica. Nuestra línea de investigación incluiría
nuestro proceso diagnóstico o pronóstico, hacién- básicamente 2 etapas:8-11
dolo más explícito y eficiente. 1. Etapa de derivación
Para entrar en este tema es interesante descri- La primera tarea sería seleccionar de una lista
bir las distintas etapas en la investigación del va- exhaustiva de potenciales predictores (extraídos
lor diagnóstico de un signo clínico o un examen de la bibliografía y la propia experiencia) aque-
complementario.6 De manera similar a lo que ocu- llos asociados con mayor probabilidad de un
rre en el estudio de nuevos fármacos, el desarro- determinado diagnóstico o pronóstico de la en-
llo de pruebas diagnósticas atraviesa cuatro fases fermedad: esta es la etapa de derivación de nues-
sucesivas:7 tra regla (equivalente a las fases I y II). Ya hemos
• Fase I: El primer paso es explorar si el resul- visto antes cómo se estudian los factores de ries-
tado de la prueba es diferente entre pacientes go: utilizando idealmente una cohorte de sujetos
con enfermedad conocida y sujetos sanos. Es- (la denominada “muestra de derivación” o “trai-
to es básico, ya que si la prueba falla en dis- ning set”), podríamos identificar aquellos signos
tinguir sanos de enfermos, la investigación se o factores asociados a la enfermedad; esto signi-
detiene ahí. fica que sus medidas de efecto en el análisis biva-
• Fase II: El segundo paso es averiguar si los riado, riesgo relativo (RR) u odds ratio (OR), son
pacientes con determinados resultados de la mayores de 1 con intervalos de confianza (IC) que
prueba tienen mayor probabilidad de estar no contienen el 1. Para controlar posibles sesgos
enfermos. En esta etapa también se utilizan de confusión o interacciones entre ellos, es conve-
sujetos de los extremos del espectro de enfer- niente incluir aquellos con diferencias significati-
medad (sanos y enfermos conocidos), para au- vas o límite (p< 0,10) en un análisis multivariado;
mentar la evidencia que avale que la prueba este análisis nos proveerá la magnitud del efecto
es promisoria. ajustada por todos los confundidores (o “cova-
• Fase III: La tercera etapa intenta establecer si la riables”) incluidos en el modelo, expresada por
prueba distingue entre enfermos y sanos entre el OR o RR “ajustados” que constituyen una me-
sujetos sospechados de tener la enfermedad. dida del “peso independiente” de cada factor pa-
Aquí lo que se pretende es ver si la prueba es ra el diagnóstico o pronóstico de interés. Con esta
útil en la situación clínica real en la que se apli- información, estamos en condiciones de armar
ca para hacer diagnóstico en la gama “gris” del nuestra regla de predicción o “score”, otorgando
espectro de enfermedad, no ya para distinguir a cada factor seleccionado como significativo un
entre pacientes claramente enfermos o sanos. puntaje que sea proporcional a su medida de efec-
Esta es la fase de los estudios de validación to ajustada (su peso independiente).
que analizamos en nuestro artículo anterior, 2. Etapa de validación
donde los resultados de la prueba se comparan Una vez creado el “score” (y antes de utilizarlo
contra los del estándar de referencia (el “gold para la toma de decisiones) debemos corroborar
standard”) en un grupo de individuos de un que, de verdad, mide lo que queremos que mida,
espectro apropiado de la enfermedad. es decir “validarlo”. Esta es la etapa de validación
• Fase IV: Finalmente, para decidir si vale la pe- (similar a la fase III de estudios de validación de
na aplicar la prueba diagnóstica se necesita de- métodos diagnósticos analizada en nuestro nú-
mostrar que su uso tiene algún impacto sobre mero anterior). Aquí el objetivo es verificar la
la evolución de la enfermedad. Aquí, la prueba capacidad operativa de la prueba (el puntaje o
se analiza como una intervención diagnóstica, score creado) frente a algún estándar de referencia
por lo que el diseño óptimo para verificar su que nos proporcione la mejor certeza diagnósti-
eficacia es un ensayo clínico controlado y alea- ca posible. Este “gold standard” puede ser un solo
torizado en el que se analice si el grupo al que método diagnóstico o una combinación o secuen-
542 / Arch Argent Pediatr 2010;108(6):538-543 / Artículo especial

cia de pruebas valoradas en conjunto como una seleccionó las 14 variables que componen el ins-
única prueba. Para el diseño de esta etapa caben trumento. Éste fue sometido a un proceso de va-
todas las consideraciones de validez interna ya lidación que mostró una predicción muy similar
comentadas en nuestro artículo anterior: utilizar a la del PSI (observable en la curva ROC, con un
un diseño transversal, independiente y en lo po- área bajo la curva de 0,92).
sible con enmascarmiento (“ciego”), y un espec-
tro de pacientes amplio y parecido al del futuro Utilidad de las reglas de predicción clínica
ámbito de aplicación del score. Un aspecto insos- Los puntajes clínicos (scores) bien diseñados
layable de estos estudios es que deben realizarse y validados tienen un gran valor en el proceso
sobre una nueva muestra de sujetos (la “mues- diagnóstico o la estimación del pronóstico, facili-
tra de validación” o “testing set”), que sustente la tando la elección de un determinado manejo tera-
validez externa del instrumento (que es aplicable péutico o la información al paciente sobre el curso
y eficaz en otros subconjuntos de sujetos simila- de su enfermedad. Constituyen así herramientas
res a aquellos de los que se derivó). En esta eta- valiosas para apoyar la toma de decisiones diag-
pa se evalúan la calibración del instrumento (la nósticas o terapéuticas por profesionales de di-
concordancia entre la probabilidad estimada del verso grado de experiencia, ya que habitualmente
evento y la observada realmente) y su discrimi- requieren la medición de unas pocas variables
nación (la relación entre aciertos y errores evi- sencillas de obtener (a veces marcadores o subro-
denciable por el área bajo la curva ROC). Para la gantes de otras más difíciles de medir, como el co-
aplicación del puntaje, se puede elegir un único lor de la piel en el puntaje de Apgar).
punto de corte (balanceado mediante una curva Por otra parte, su revalidación en distintos
ROC o bien con máxima sensibilidad, ya que es- ámbitos amplía su validez externa, sustentando
tos instrumentos se utilizan habitualmente como su aplicabilidad a poblaciones similares, aunque
screening); alternativamente, se pueden establecer algo diferentes de aquella en la cual se crearon.
categorías de puntajes que representen alto o ba- (El puntaje PRISM, por ejemplo, fue revalidado
jo riesgo del evento. Los resultados analizados en una UCI pediátrica en India,13 mostrando un
en esta fase serán las medidas de capacidad ope- menor desempeño (área bajo la curva ROC de
rativa para cada punto de corte o cada categoría 0,80) atribuible a diferencias poblacionales y de
de puntajes: sensibilidad (S), especificidad (E), recursos).
valores predictivos (VP) y razones de probabi- Las escalas cuantitativas adecuadamente vali-
lidad (likelihood ratios, LR) positivos y negativos dadas sirven, además, para estandarizar la clasifi-
con sus respectivos IC 95%. Si nuestro puntaje cación de enfermedades, categorizar con precisión
predice o diagnostica bien, quedará así validado grupos de riesgo o gravedad o mostrar variacio-
y, en líneas generales, podría ser utilizado en po- nes evolutivas (como los puntajes de APACHE o
blaciones similares. de Glasgow). Todas estas utilidades tienen aplica-
Veamos un ejemplo: ción no sólo en el ámbito asistencial, sino también
En un artículo publicado en Critical Care Me- en el campo de la investigación clínica.
dicine en 1988,12 Pollack y col. comunican la deri- El uso de reglas de decisión puede influir so-
vación y validación del conocido Pediatric Risk of bre el manejo clínico mejorando los resultados de
Mortality (PRISM) que es una escala o puntaje pa- salud de los pacientes, la calidad de la atención o
ra pronosticar riesgo de muerte en terapia inten- su costo-efectividad. La valoración de este impac-
siva pediátrica. Hasta ese momento, el riesgo de to implica considerar el uso de la regla como una
muerte en este tipo de pacientes se estimaba con intervención (fase IV mencionada anteriormente)
el Physiologic Stability Index (PSI) elaborado me- y evaluar su eficacia mediante diseños experimen-
diante un consenso de expertos, que valoraba 34 tales (ensayos aleatorizados) o cuasi-experimen-
variables fisiológicas. Para intentar reducir este tales (antes-después).14
gran número de factores requeridos para estimar La estimación de riesgo por medio de reglas
el pronóstico, los autores estudiaron una cohorte de predicción repercute también sobre la organi-
multicéntrica que abarcó nueve unidades de cui- zación y gestión de servicios de salud; puede uti-
dados intensivos (UCI) pediátricas, utilizando la lizarse para la asignación racional de recursos y
mitad de los datos para la derivación (“estimation permite la evaluación comparativa de la calidad
set”) y la otra mitad para la validación (“validation de atención entre distintos centros o diferentes pe-
set”). Para la creación del PRISM score se utilizó ríodos de un mismo centro (como el Clinical Risk
un método multivariado (regresión logística) que Index for Babies o CRIB score, útil para comparar
Pediatría basada en la evidencia. Estudios de diagnóstico (2ª parte) / 543

mortalidad y performance entre unidades de cui- metría capilar para detector hiperoxemia en el recién na-
dados intensivos neonatales). cido grave. Bol Med Hosp Infant Mex 1999;56(2):93-96.
4. Altman DG, bland LM. Diagnostic tests 3: receiver opera-
Finalmente, para que estos beneficios puedan ting characteristic plot. BMJ 1994;309:188.
observarse, es necesario que la regla sea simple, 5. Irwig L, bossuyt P, Glasziou P, Gatsonis C, et al. Desig-
objetiva, válida y útil para que sea incorporada a ning studies to ensure that estimates of test accuracy are
la práctica. Conocer las bases metodológicas de su transferable. BMJ 2002;324:669-671.
6. Ferrero F. Reglas de predicción clínica. Arch Argent Pediatr
desarrollo y revalidarlas en el ámbito de la propia 2010;108(1):6-7.
tarea pueden promover la utilización de reglas de 7. Sackett DL, Haynes Rb. Evidence base of clinical diagno-
predicción por parte de los profesionales de la salud. sis. The architecture of diagnostic research. BMJ 2002;324:
Los instrumentos de diagnóstico adecuada- 539-541.
8. Wasson JH, Sox HC, Neff RK, Goldman L. Clinical pre-
mente diseñados y validados son escasos en la diction rules: application and methodological standards.
bibliografía pediátrica. La disponibilidad de mé- N Engl J Med 1985;313:793-799.
todos estadísticos para la selección y ajuste de 9. Laupacis A, Sekar N, Stiell IG. Clinical prediction rules.
variables hacen del desarrollo de reglas de pre- A review and suggested modifications of methodological
standards. JAMA 1997;277:488-494.
dicción un campo interesante de investigación, 10. Moons KGM, Royston P, Vergouwe Y, Grobbee DE, et al.
que espero haber promovido entre los pediatras Prognosis and prognostic research: what, why and how?
con este artículo. n BMJ 2009;339:b375.
11. Wade A. Derivation versus validation. Arch Dis Child 2000;
83:459-460.
12. Pollack MM, Ruttimann UE, Getson PR. Pediatric Risk of
BIBLIOGRAFÍA Mortality (PRISM) Score. Crit Care Med 1988;16:1110-1116.
1. Demirdjian G, berlín V, Rowensztein H. Pediatría basada 13. Thukral A, Lodha R, Irshad M, Arora NK. Performance of
en la evidencia. Estudios de diagnóstico (1ª Parte). Arch Pediatric Risk of Mortality (PRISM), Pediatric Index of Mor-
Argent Pediatr 2009;107(6):527-535. tality (PIM), and PIM2 in a pediatric intensive care unit in
2. Jaeschke R, Guyatt GH, Sackett DL. Guía para usuarios de a developing country. Pediatr Crit Care Med 2006;7:356-361.
la literatura médica. Cómo utilizar un artículo sobre un 14. Reilly bM, Evans AT. Translating clinical research into
examen diagnóstico. JAMA 1994;271: 389-392 y 703-707. clinical practice: impact of using prediction rules to make
3. Hinojosa-Pérez JO, Treviño báez JD. Utilidad de la gaso- decisions. Ann Intern Med 2006;144:201-209.

“Los hombres que son capaces de sacrificar libertad en aras de la seguridad


no merecen ninguna de las dos.”

Benjamín Franklin