Interpretación probabilista de un diagnóstico médico

Versión para impresión

El método de diagnóstico a través de un test o prueba es muy usado en la medicina moderna. Sin embargo, no siempre es correctamente entendido. Lo mismo que un testigo en un juicio criminal, al test hay que considerarlo como un dispositivo que es capaz de mentir. Voy a ilustrar esta situación con un problema.

Problema

Una prueba diagnóstica para el cáncer cérvoco-uterino tiene un coeficiente falso-positivo de 0.05 (el 5% de los positivos son falsas alarmas) y uno falso-negativo de 0.10 (el 10% de los negativos son falsos, es decir, la mujer sí está enferma). Una mujer con una probabilidad pre-prueba de padecer la enfermedad de 0.15 (el 15% de las mujeres de su tipo padecen la enfermedad), ha obtenido un resultado negativo en esa prueba. Calcular la probabilidad de que esté sana.

Solución transformando los datos a frecuencias absolutas

Según los datos, el el 5% de los casos en que se administra la prueba, ésta resulta positiva pero la mujer está sana; y en el 10% de los casos la prueba resulta negativa pero la mujer está enferma. Por otro lado, la tasa de base en el grupo de la mujer que se hizo la prueba es del 15%. Es decir, 15 de cada 100 mujeres como ella están enfermas.

Para evitar los decimales en los cálculos imaginemos que el universo de mujeres al que pertenece la del problema es de 10000. Entonces, suponiendo que la tasa de base es exacta, en ese universo hay 1500 enfermas y 8500 sanas. (Podemos también imaginar una muestra de 10000 mujeres para pensar los datos como frecuencias relativas.)

Si la prueba se administra a las 8500 sanas, habrá .05(8500)=425 falsos positivos y, en consecuencia, en los 8075 casos restantes dará un diagnóstico correcto (la prueba resultará negativa). Por otro lado, si la prueba se administra a las 1500 enfermas (de las 10000) la prueba resultará negativa en 150 casos (10% de 1500).

Entonces, el total de casos negativos es de 8075+150=8225 (los casos posibles). Y los casos favorables (es decir, de que esté sana y la prueba reportó negativo) son 8075. Por lo tanto, la probabilidad de que esté sana dado que la prueba fue negativa es de 8075/8225=0.9818.

Organización de los datos en tabla de contingencia

El razonamiento anterior puede quizá comprenderse de manera más fácil si los datos del enunciado los pensamos como si fueran el resultado de una muestra de 10000 mujeres. De hecho, la tasa de base es resultado de estudios estadísticos y los coeficientes falso positivo y falso negativo son el resultado de experimentos estadísticos conducidos por las compañías farmacéuticas que elaboraron el test o prueba diagnóstica.

Si imaginamos una muestra de 10000 mujeres del tipo de la del problema, entonces la tasa de base (15%) se convierte en la frecuencia absoluta de 1500 mujeres que padecen la enfermedad (de entre las 10000 muestreadas). Por otro lado el coeficiente de falsos positivos (5%) se puede traducir a que el 5% de las 8500 mujeres sanas de la muestra obtiene un resultado positivo en la prueba; es decir, a 425 de esas 8500 sanas la prueba les diagnosticó que tenían la enfermedad.

De la misma manera, el coeficiente de falsos negativos (10%) se puede traducir a que el 10% de las 1500 enfermas la prueba les diagnosticó ausencia del virus; es decir, a 150 mujeres enfermas la prueba las diagnosticó sanas. Con esta interpretación de los datos se puede llenar la siguiente

Tabla de contingencia

        enferma     sana

+      1350           425     1775  

-         150         8075     8225

       1500         8500    10000

En esta tabla, la respuesta a la pregunta se calcula ubicándonos en la fila de negativos (a la mujer la prueba le resultó negativa). Y lo que vemos en ese renglón es que de los 8225 diagnósticos negativos, 8075 son correctos. Entonces la mujer tiene 8075 chances de entre 8225 de estar sana. En otras palabras, la mujer tiene una probabilidad de 8075/8225=0.9818 de estar sana.

Comentarios finales --sobre la conceptualización probabilista de la situación

En términos de la teoría de la probabilidad tenemos dos experimentos aleatorios, cada uno con dos posibles resultados o, mejor dicho, es un experimento aleatorio que podríamos llamar la prueba diagnóstica y el estado de la naturaleza que queremos conocer, es decir, la salud de la mujer. En cada caso tenemos una variable dicotómica (dos valores o eventos): la prueba resulta positiva o bien negativa; el estado de la naturaleza puede ser salud o enfermedad.

Para diagnosticar el estado de salud de la mujer se tienen dos tipos de evidencia empírica: la tasa de base (basada en estudios estadísticos) y el resultado de la prueba. Pero ésta puede mentir de dos formas: dar positivo cuando la mujer está sana y dar negativo cuando la mujer está enferma. Y a la evidencia del resultado de la prueba debe incorporarse las probabilidades de estas dos posibilidades de que la prueba mienta.

El test o prueba es la evidencia adicional que modifica las apuestas a partir de la tasa de base o prevalencia. Sin test, sólo conocemos la tasa de base o prevalencia de la enfermedad en la población. (La tasa de base es la frecuencia relativa con la que un evento ocurre o un atributo está presente en una población.)

Los saluda

jmd

PD: Recomiendo consultar el Journal of Statistics Education v.3, n.2 (1995)