Probar La Causalidad - El Holismo Del Aval y El Atomismo de Daubert

Favor de no utilizar fuera del contexto del máster. Es material inédito.
Probar la causalidad:
El holismo del aval y el atomismo de Daubert
La consiliencia de las inducciones tiene lugar cuando una inducción,

obtenida de una clase de hechos, coincide con una inducción,
obtenida de una clase diferente de hechos.
Esta consiliencia es un test de la verdad de la Teoría en la que esto sucede.
Whewell, 1840: 257.1
Como mi título indica, este artículo se enfoca en la prueba de la causalidad en el derecho

de daños por uso de sustancias toxicas; y, como mi subtítulo sugiere, se desarrollan dos
argumentos principales, el primero de carácter epistemológico y el segundo jurídico. El
argumento epistemológico es que, bajo ciertas condiciones, un cúmulo de pruebas avala
una conclusión en un grado más alto de lo que haría cualquiera de sus componentes en lo
individual; el argumento jurídico, entrelazado con lo anterior, es que el derecho
probatorio estadounidense impone un tipo de atomismo que de hecho puede impedir el
proceso de llegar a la conclusión más avalada por las pruebas –los efectos de ello han
sido especialmente destacados en la prueba de la causalidad en los casos de daños por el
uso de sustancias tóxicas.
La primera sección sentará las bases analizando algunos casos donde las cuestiones
epistemológicas que se abordaran aquí llamaron explícitamente la atención de los
tribunales; en la segunda sección se desarrollará el argumento epistemológico, primero
de una forma general y luego aplicado a tipos de pruebas de la causalidad
tradicionalmente presentes en los casos de daños por sustancias tóxicas; en la tercera
sección, con fundamento en lo anterior, se desarrollará la respuesta a algunas cuestiones
epistemológicas sobre la prueba de la causalidad que se han planteado en tales casos; y
en la sección cuatro desarrollaré el argumento jurídico, mostrando que, irónicamente, las
exigencias de fiabilidad que el caso Daubert impone al testimonio experto algunas veces
pueden obstaculizar una valoración adecuada de la fiabilidad de las pruebas sobre la
causalidad.
1
La palabra “consiliencia”, que creo fue introducida al inglés por Whewell, deriva del latin “con” y “siliere”
que significa “saltando juntos”.
1
1. Sentando las bases
Mary Virginia Oxendine nació en 1971. Su antebrazo derecho era corto y sólo tenía tres
dedos, completamente unidos, en su mano derecha. Los Oxendine, creyendo que los
defectos congénitos de su hija habían sido causados por la ingesta de Bendectin que hizo
su madre para aliviar sus náuseas durante el embarazo de Mary, demandaron a los
fabricantes, Merrell Dow Pharmaceuticals.2
En primera instancia, en el juicio oral ante el jurado, el Dr. Alan Done testificó, como
experto de los Oxendine, que era sabido que ciertos antihistamínicos tenían efectos
teratógenos en animales y que uno de los ingredientes del Bendectin es el antihistamínico
succinato doxilamina; que estudios en animales realizados por Merrell Dow encontraron
pequeñas alteraciones en las extremidades en los fetos de las conejas embarazadas a las
que se había suministrado Bendectin –alteraciones que los científicos de la compañía
menospreciaron como insignificantes –lo mismo sucedió con los abortos que el Dr. Done
consideraba que habían ocurrido porque las crías tenían malformaciones; que en estudios
in vitro llevados a cabo por los National Institutes of Health se encontró que el Bendectin
interfería en el desarrollo de las células de las extremidades; y que la información del
estudio epidemiológico realizado por los Drs. Brunde y Bowles para Merrell Dow,
ajustado de manera tal de excluir a individuos canadienses (quienes podrían haber
comprado el medicamento sin prescripción médica), revelaron que las madres que
tomaron Bendectin tenían un 30% más de riesgos de tener un bebe con malformaciones.3
El Dr. Done explicó que su creencia, que los defectos congénitos de Mary Oxendine
habían sido causados por el Bendectin consumido por su madre durante el período de
gestación en que las extremidades del feto se estaban formando, no estaba fundada en uno
de esos estudios en sí mismos ni tampoco en una de esas líneas de pruebas en sí, sino en
2
Oxendine v. Merrell Dow Pharm., Inc., 506 A.2d 1100 (D.C. 1986), on remand, 563 A.2d 330 (D.C.
1989), cert denied 493 U.S. 1074 (1990), on remand, 593 A.2d 1023 (D.C. 1991) (“Oxendine 1991"), on
remand, 649 A.2d 825 (D.C. Ct. App. 1994) (“Oxendine 1994"), on remand, Civ. No. 82-1245, 1996 WL
680992 (D.C. Super. Oct. 24, 1996). La descripción de los defectos congénitos de la Sra. Oxendine proviene
de Oxendine, 506 A.2d p. 1103.
3
Oxendine, 506 A.2d at 1104–09 (describiendo parte del testimonio del Dr. Done). Lo que he ofrecido en
el texto es obviamente solo un muy vago resumen del testimonio del Dr. Done; él estuvo testificando por
tres días y medio y la transcripción de su testimonio se extiende a casi 600 páginas. Id. p. 1108.
2
todas las diversas piezas de pruebas sobre la base de las cuales testificaba, tomadas en su
conjunto.4
En 1983, en el primer juicio oral, el jurado concedió a los Oxendine $750,000 como
compensación de los daños. Pero, al anular tal decisión, escribiendo que “es claro … que
ninguna conclusión puede obtenerse de ninguno de los diferentes fundamentos utilizados
sobre si el Bendectin es un teratógeno humano o no lo es”5, el tribunal concedió a los
demandados un juicio sumario a pesar del veredicto del jurado. Los Oxendine apelaron;
y el Tribunal de Apelaciones anuló y devolvió el caso con instrucciones de atender al
veredicto del jurado, resolviendo que el tribunal del caso se había equivocado al enfatizar
que el reconocimiento del Dr. Done sobre que ninguno de los estudios en lo individual,
sobre la base de los cuales había testificado, eran suficientes en sí mismos para establecer
la causalidad; y “errando en considerar [su] testimonio de que todos los estudios, tomados
en combinación, sí fundaban tal conclusión”. El juez asociado Terry continua:
Igual que las piezas de un mosaico, los estudios individuales muestran poco o
nada cuando se les analiza separadamente a unos de otros, pero combinados
producen un todo más grande que la suma de sus partes: que es el fundamento de
la opinión del Dr. Done sobre que el Bendectin causó los daños congénitos de la
apelante.6
Por supuesto, este no es el final de la historia de los Oxendine: de hecho, el caso fue
presentado ante el tribunal de apelaciones tres veces más antes de que finalmente fuera
resuelto en 1996. En el re-envío, Merrell Dow solicitó un nuevo juicio oral, bajo el
argumento de que el Dr. Done había tergiversado sus credenciales;7 y en 1988 se
4
Oxendine, 506 A.2d p. 1108 (reiterando que “[el Dr. Done] admitió su incapacidad para concluir que el
Bendectin es un teratógeno sobre la base de cualquiera de los estudios individuales que discutió, pero
también aclaró que todos esos estudios debían ser analizados juntos y que, vistos así, entonces apoyaban su
conclusión”).
5
Oxendine, 506 A.2d p. 1103 (énfasis añadido).
6
Oxendine, 506 A.2d p. 1110 (énfasis añadido) (decidiendo que la sentencia sumaria del tribunal de primera
instancia era errónea, dado que cuando las pruebas fueron analizadas como un todo, era apropiado concluir
que ningún jurado razonable hubiera decidido a favor del apelante).
7
Oxendine, 563 A.2d p. 332 (reportando que el 3 y el 11 de mayo de 1983, el Dr. Done había testificado
que era miembro de la Wayne State Medical School Faculty, cuando de hecho había presentado su carta de
renuncia el día 24 de abril, que fue aceptada por el decano el 29 de abril; y enlistado otros cuatro aspectos,
además de su posición en la Wayne State Unversity, en la cual el Dr. Done se atribuyó falsamente sus
credenciales en el juicio).
3
concedió esta petición. Los Oxendine apelaron nuevamente; y en 1989, argumentando

que el juez del caso se había equivocado al conceder un nuevo juicio oral, el tribunal de
apelaciones volvió a revocar, ordenando una vez más que se estuviera al veredicto
original del jurado.8 Devuelto al juez de la causa, los Oxendine pidieron que dictara una
sentencia confirmando el veredicto, pero Merrell Dow apelo una vez más; y en 1991 el
tribunal de apelaciones decidió que el juez de la causa no podría dictar una decisión final,
inapelable, sobre la indemnización compensatoria hasta que la etapa de los daños
punitivos del juicio estuviera completada.9 En 1993 los Oxendine retiraron su petición
de daños punitivos y solicitaron que el veredicto sobre la compensación de daños fuera
confirmado; y Merrell Dow solicitó al juez de la causa que reconsiderara el veredicto
original, esta vez sobre la base de que había nuevos estudios publicados que exoneraban
al Bendectin. El juez de la causa, rechazando considerar esos nuevos estudios, emitió una
sentencia confirmando el veredicto original del jurado. Merrrell Dow apeló otra vez; y en
1994, reconociendo que “reabrir la decisión de un juicio para considerar la verdad
científica” era contrario a la preocupación jurídica por la definitividad10 y, por
consiguiente, fijando un estándar de prueba alto para Merrell, la corte de apelaciones re-
envió una vez más- como la corte dice, a regañadientes y evidentemente esperando que
el caso fuera rápidamente resuelto a favor de los Oxendine.11
Pero en 1996 –ahora tomando en cuenta los nuevos estudios que Merrell Dow presentó,12
así como las decisiones de muchos otros casos Bendectin concluidos en el juicio oral
8
Oxendine, 563 A.2d p. 331 (decidiendo que el juez no abusó de su discreción al decidir que la petición de
anular era oportuna, pero que se equivocó al anucar el juicio oral y conceder un nuevo juicio oral). Id. p
338 (anulando y ordenado al juez de primera instancia que repusiera el veredicto del jurado).
9
Oxendine, 593 A.2d p. 1023 (revocando la concesión de compensación por daños antes de que la instancia
para los daños punitivos en el juicio se hubiese completado).
10
Oxendine, 649 A.2d pp. 831–32 (enfatizando la importancia de la firmeza en el sistema jurídico). Véase
también ¿Diferencias irreconciliables?, en este volumen (argumentando en parte que hay una tensión entre
la investigación científica falibilista sin plazo definido y el desiderátum jurídico de la firmeza).
11
Oxendine, 649 A.2d p. 827 (decidiendo que “nos vemos obligados a devolver para mayores
consideraciones”); véase también Id. p. 834 (voto concurrente de Schwelb, J) (el juez Schewelb comenta
que “[l]as demoras en la fecha … han generado ya un daño intolerable. … [E]sto no es 1982 o 1984 ni
siquiera 1990. … Dado donde estamos hoy, las consideraciones sobre la firmeza han sido tan convincentes
que nada menos que una oferta extraordinariamente persuasiva de Merrell Dow justificaría … retrasar aún
más la recuperación de la señora Oxendine”).
12
Oxendine, 1996 WL 680992, pp. *14–21 (reportando que Merrell había presentado dos meta-análisis
posteriores a 1983 de datos epidemiológicos sobre el Bendectin (Einarson et al., 1988; McKeigue et al.,
1994) y 14 estudios epidemiológicos (Golding, 1983; Mitchell, 1983; Zieler, 1983; Asleton-Jick 1984;
Hearey, 1984; McCredie, 1984; Winship, 1984; Elbourne, 1985; Jedd, 1988; Aselton-Jick, 1985; Shiono,
1989; Erickson, 1991; McDonald, 1991; Khoury, 1994). El abogado de los demandantes argumentó que
tales estudios, cuando eran relevantes, eran deficientes; por ejemplo, que el estudio de 1991 realizado por
Erickson omitía salvaguardas fundamentales tales como “los momentos críticos” (presumiblemente, el
4
inicial,13 las acciones de la FDA14 y las del gobierno canadiense15 - el tribunal del caso
consideró que este estándar exigente había sido satisfecho y decidió a favor de Merrell
Dow.16
El más conocido de los otros casos Bendectin citados fue, por supuesto, Daubert, en
donde la Corte Suprema estadounidense resolvió su histórica sentencia en 1993;17 y que
fue finalmente resuelto un año antes que el caso Oxendine, cuando el juez Kozinski
confirmó el juicio sumario para Merrell Dow.18 Jason Daubert nació con defectos
similares a los de Mary Oxendine,19 y sus padres, como los de ella, creían que éstos habían
sido causados por el Bendectin; pero Daubert siguió un camino jurídicamente diferente
que Oxendine. En 1989, la Corte de Distrito había otorgado a Merrell Dow el juicio
período del embarazo en que las mujeres tomaron Bendectin), pero el tribunal minimizó estas críticas
tachándolas de “una crítica del abogado a un estudio científico, en lugar de un estudio científico o una
evaluación experta contraria”. Id. p.*15 (citando y desestimando los argumentos del abogado).
13
Oxendine, 1996 WL 680992, pp. *4–7 (enlistando ocho casos federales concluidos a favor de Merrell:
Lynch v. Merrell-National Labs., 830 F.2d 1190 (1st Cir. 1987); Richardson v. Richardson-Merrell, Inc.,
857 F.2d 823 (D.C. Cir. 1988), cert. denied, 493 U.S. 882 (1989); Brock v. Merrell Dow Pharm., Inc., 874
F.2d 307 (3d Cir. 1989); De Luca v. Merrell Dow Pharm., Inc., 911 F.2d 941 (3d Cir. 1990); Ealy v.
Richardson-Merrell, Inc., 899 F.2d 1159 (11th Cir. 1990), cert. denied, 498 U.S. 950 (1990); Wilson v.
Merrell Dow Pharm., Inc., 893 F.2d (10th Cir. 1990); Turpin v. Merrell Dow Pharm., Inc., 959 F.2d 1349
(6th Cir. 1992), cert. denied 506 U.S. 826 (1992); Daubert v. Merrell Dow Pharm., Inc., 43 F.3d 1311 (9th
Cir. 1995). El tribunal también menciona Blum y Havner, pero observa que ambos están en apelación.
Ambos fueron finalmente resueltos a favor de los demandados. Véase Blum ex rel. Blum v. Merrell Dow
Pharm, Inc., 746 A.2d at 4–6 (Pa. 2000) (afirmando la decisión del Tribunal Superior a favor de Merrell);
Merrell Dow v. Havner, S.W.2d 706 (Tex. 1997) (revocando la decisión del tribunal de apelaciones y
fallando a favor de Merrell). Los dos nombres de la empresa demandada –Richardson-Merell, Merrell-
Dow- refleja cambios en su propiedad durante el período relevante. Véase Sanders, 1998: 213 y 214
(describiendo la historia de la compañía); véase también Green, 1996 (describiendo la historia de los juicios
Bendectin).
14
Oxendine, 1996 WL 680992, p. *23 (refiriéndose a una monografía sobre antihistamínicos de venta libre
que fue emitida por la FDA en 1994 y donde se analizaba al succinato de doxilamina y concluyó que era
seguro incluirlo como ingrediente de tales antihistamínicos).
15
Oxendine, 1996 WL 680992, p. *23 (reportando que en 1988 los consultores del Special Advisory
Committee on Reproductive Physiology to the Health Protection Branch del gobierno canadiense
concluyeron que el Bendenctin no debería ser retirado del mercado canadiense y que la etiqueta de
advertencia debería ser modificada a la luz de la falta de pruebas de una asociación con los defectos
congénitos). Pero véase también Id., p. 23, nota 45 (señalando que el abogado de los demandantes señaló
que los miembros del panel canadiense “estaban vinculados con Merrell –un hecho que el gobierno
canadiense desconocía.
16
Id. p. 34. Para contar el enmarañado relato de esta prolongada saga jurídica he confiado en parte en la
historia relatada en Sanders, 2008. El profesor Sanders (1998: 30) especula, muy plausiblemente, que
Merrell Dow invirtió tanto tiempo y dinero en su defensa en Oxendine “con el objetivo de mantener un
historial inmaculado en los litigios Bendectin. Hasta un veredicto final condenatorio podía dificultar
argumentar la moción de una sentencia sumaria en otros casos”.
17
Daubert v. Merrell Dow Pharm., Inc., 509 U.S. 579 (1993) (determinando el criterio para admitir pruebas
científicas en los juicios federales).
18
Daubert v. Merrell Dow Pharm., Inc., 43 F.3d 269 (5th Cir. 1995) (confirmando la sentencia sumaría a
favor de Merrell).
19
Angier, 1993: 1 (reportando que “Jason Daubert, de San Diego, había nacido hace 19 años con solo dos
dedos en su mano derecha y sin uno de los huesos inferiores en su brazo derecho”).
5
sumario que solicitó una vez que excluyó a los peritos ofrecidos por los Daubert con el
argumento de que las pruebas científicas solo son admisibles si están “suficientemente
establecidas para ser generalmente aceptadas en el área a la cual pertenecen”,20
decidiendo que, dado que ninguno de los numerosos estudios epidemiológicos publicados
había encontrado una asociación estadísticamente significativa entre el Bendectin y los
daños congénitos, las opiniones de los expertos de los Daubert no eran aceptadas por la
generalidad en el área a la cual pertenecían y, por ello, no eran admisibles. La Corte de
Apelaciones del 9º Circuito confirmó la decisión, citando específicamente Frye.21 Y dado
este fundamento en Frye –casi sin precedentes en casos civiles22- la Corte Suprema aceptó
conocer del caso para determinar si Frye había sido superado cuando las Federal Rules
of Evidence fueron adoptadas en 1975.
Un amicus brief ofrecido por Kenneth Rothman y otros epidemiólogos planteó muchas
cuestiones epistemológicas importantes; la valoración de los tribunales inferiores en el
caso Daubert, argumentaban estos amici, pone mucho peso en si los estudios son
estadísticamente significantes, sobreestiman la importancia de las publicaciones
sometidas a la revisión por pares23 - y, más importante para el propósito de este trabajo,
han “excluido el uso de inferencias validas que podrían hacerse a partir de la
combinación de muchos estudios, aun cuando ninguno de los estudios por sí mismo
20
Daubert v. Merrell Dow Pharm., Inc., 721 F. Supp. 570, 572 (S. D. Cal., 1989) (citando United States v.
Kilgus, 571 F.2d 508,510 (9th Cir. 1988)) (citando United States v. Brown, 557 F.2d 541, 556 (6th Cir.
1977)) (citando Frye v. United States, 293 F. 1013 (D.C. Cir. 1923)).
21
Daubert v. Merrell Dow Pharm., Inc., 951 F.2d 1128, 1129–30 (1991) (citando Frye, 293 F. p. 1014).
22
Cheseboro, 1993: 1695 (reportando que “no había ni un solo caso decidido por los tribunales de apelación
federales anteriores a 1975 que aplicara el criterio Frye a un caso civil de cualquier tipo. Para el 7 de abril
de 1993, solo tres de tales decisiones habían sido reportadas, dos de ellas decididas en 1991”). Esas tres
decisiones fueron Barrel of Fun v. State Farm Fire & Cas. Co., Inc., 739 F.2d 1028, 1031 (5th Cir. 1988);
Christopherson v. Allied-Signal Corp., 939 F.2d 1106, 1115–16 (5th Cir. 1991), cert denied 112 S. Ct. 1280
(1991); Daubert, 951 F.2d 1106, 1115–16 (5th Cir. 1991). Si Christophersen realmente se fundó en Frye
puede ser cuestionado, dado que el tribunal lista cuatro consideraciones, Frye es solo una entre ellas. Véase
Christopherson, 939 F.2d p. 1110. Sin embargo, cuando la Corte Suprema denegó el amparo en 1992, el
magistrado White, junto con el magistrado Blackmun, disintieron argumentando que la cuestión sobre si
Frye había sido superado por las FRE, “es una cuestión importante y un tema recurrente”. Christophersen
v. Allied Signal Corp., 503 U.S. 912, 912 (1992) (voto disidente de White J., sosteniendo que el amparo
debería ser otorgado). Barrel of Fun, un caso que más inequívocamente se basa en Frye, fue un caso de
fraude de un seguro por incendios en el cual la prueba excluida implicaba una “evaluación psicológica del
estrés” de una prueba testifical ofrecida, el tribunal consideró que ésta era esencialmente similar a la prueba
por polígrafo, que era el tipo de prueba en cuestión en Frye. Véase Barrel of Fun, Inc., 930 F.2d p. 1029
(viendo la prueba en cuestión como esencialmente similar a la prueba excluida en Frye).
23
Véase también el informe para el demandante, Darryl E. Chubin, Ph.D. et al., como Amici Curiae,
Daubert v. Merrell Dow Pharm., Inc., 509 U.S. 579 (1993) (tratando principalmente la revisión por pares).
Véase también, en este volumen, La revisión por pares y la publicación (distinguiendo una noción amplia
y una restringida de revisión por pares y explorando su rol en Daubert y en posteriores casos).
6
justificaría tales inferencias”. 24 Pero la decisión de la Corte Suprema –que Frye había
sido superado, pero que la FRE 702 aun requería que los jueces valoraran la fiabilidad de
las pruebas periciales ofrecidas, además de su relevancia- no atendió este tema. Sin
embargo, la decisión del magistrado Blackmun continuaba enfatizando que al valorar la
fiabilidad los tribunales deberían mirar la “metodología”25 empelada por el experto y no
sus conclusiones. Y, entonces, cuando el caso General Electric Co. v. Joiner26 llegó a la
Corte Suprema en 1997, la disputa sobre el peso conjunto de la combinación de pruebas
sobre la causalidad fue formulada en términos de las “metodologías” de los expertos
rivales de las partes.
Robert Joiner, quien había trabajado por muchos años como electricista para una
municipalidad en Georgia, fue diagnosticado con un cáncer de pulmón de células
pequeñas; sólo tenía 37 años; creyendo que su cáncer había sido desencadenado por su
exposición a los policlorobifenilos (PCBs), contaminantes en los aislantes de aceite en
los transformadores que su trabajo exigía desmontar y reparar, demandó a la
manufacturera, General Electric. Los abogados del señor Joiner habían ofrecido varios
peritos, quienes pretendían testificar sobre una variedad de estudios toxicológicos, in
vitro, in vivo y epidemiológicos; argumentando que, tomados como un todo, este
compuesto probatorio sería suficiente para establecer la causalidad. Estos expertos,
explicaban, usaban la “metodología del peso de las pruebas” –la misma metodología que
la Agencia de Protección del Ambiente usa al valorar el riesgo cancerígeno y la misma
metodología que los propios expertos de G.E. usaron en este mismo caso; quienes, sin
embargo, negando esta atribución, argumentaron que los abogados de Joiner presentaban
como una metodología científica respetable en realidad no era más que una “falacia
fagot”: el error de suponer que una pila de pruebas débiles, si es lo suficientemente
grande, transmuta mágicamente en una prueba sólida.27
La Corte de Distrito, analizando uno a uno (algunos de) los estudios individuales a los
que apelaban los expertos de Joiner, excluyó la prueba pericial de Joiner y otorgó juicio
24
Informe para los demandantes, Professor Kenneth Rothman et al., Amici Curiae, Daubert v. Merrell Dow
Pharm., Inc., 509 U.S. 570 p. *10 (1993) (énfasis añadido).
25
Daubert, 509 U.S. pp. 592–593 (aplicando la regla 702 exige “una valoración preliminar sobre si el
razonamiento o la metodología subyacente al testimonio es científicamente válida y sobre si el
razonamiento o la metodología propiamente pueden ser aplicados a los hechos en cuestión”).
26
Gen. Elec. Co. v. Joiner, 522 U.S. 136 (1997).
27
Véase el Informe para los demandantes, p.*49, Gen. Elec. Co. v. Joiner, 522 U.S. 136 (1997).
7
sumario a G.E. Pero el tribunal de apelaciones revocó tal decisión, sosteniendo que
cuando, como en ese caso, la exclusión de la prueba pericial es determinante para el
resultado, el criterio de revisión en la apelación debe ser especialmente exigente; y,
además, decidió que la metodología de los expertos de Joiner era científicamente
aceptable:
Opiniones de todo tipo se derivan de piezas de prueba individuales, cada una de las cuales
por sí misma no sería concluyente, pero cuando se ven en su integridad son componentes
de una perfectamente razonable conclusión, suficientemente fiable para ser presentada
ante un jurado. …28
La Corte Suprema aceptó conocer del caso para determinar el criterio de revisión de las
decisiones probatorias. Decidiendo unánimemente que el criterio adecuado de revisión
seguía siendo el abuso de discrecionalidad judicial, la Corte en Joiner eludió el argumento
de este sobre “la metodología del peso de las pruebas” con la rápida observación de que
la metodología y las conclusiones “no son completamente distintas una de la otra”, y que
los tribunales podrían razonablemente concluir que había “simplemente una laguna
analítica entre los datos y la opinión expresada”. Y, entonces, revisando brevemente
(algunos de) los testimonios que los expertos de Joiner habían ofrecido, la Corte decidió,
casi unánimemente, que la corte de distrito no había abusado de su discreción al excluir
a los expertos de Joiner.29
Pero sobre este último punto hubo un voto particular, del magistrado Stevens, quien
argumentó que sería mejor haber remitido el caso al tribunal de apelaciones para su
reconsideración bajo el estándar de revisión apropiado. Los expertos de Joiner hicieron
alusión a números estudios, señaló el magistrado, sólo uno de ellos está en el expediente
y sólo seis de ellos han sido en algún momento considerados por la corte de distrito; más
aún, continuó, la opinión de la mayoría sobre la fiabilidad, que exige restarle importancia
28
Joiner v. Gen. Elec. Co., 78 F.3d 524, 532 (11th Cir. 1996) (énfasis añadido). Los abogados de General
Electric afirmaron que “casi todas esas mismas palabras han sido citadas por científicos y académicos como
infringidoras de la metodología de la ciencia”. Véase, Informe para los demandantes, p.*49, Gen. Elec. Co.
v. Joiner, 522 U.S. 136 (1997) (citando Skrabanek y McCormick [1990], caracterizando a la “faggot
fallacy”).
29
Véase Joiner, 522 U.S. pp. 146–147 (manteniendo que el abuso de discrecionalidad es el estándar
aplicable y que el tribunal de distrito no abusó de su discrecionalidad al excluir a los expertos ofrecidos por
Joiner).
8
a la distinción entre la metodología y las conclusiones, “podría decirse que no es fiel a …

Daubert.”30 (Sí: después de todo, la distinción metodología vs. conclusiones, que la
mayoría de la Corte casualmente dejo de lado en Joiner, fue protagonista en Daubert).31
Y, al igual que el tribunal de apelaciones, el magistrado Stevens cree que hay un mérito
en el argumento epistemológico de los expertos de Joiner:
No es intrínsecamente “no-científico” para los profesionales bien experimentados

llegar a una conclusión pesando todas las pruebas científicas disponibles –este no
es el tipo de “ciencia basura” de la que Daubert se ocupa. Después de todo, como
Joiner señala, la Agencia de Protección Medioambiental usa la misma
metodología para valorar riesgos, aunque usando en algún punto un umbral
diferente. …32
Por supuesto, si, y cuánto, una compilación de elementos probatorios, ninguno de los
cuales es suficiente por sí mismo para avalar una conclusión causal al grado de prueba
exigido, podrían hacerlo conjuntamente es una cuestión que surge una y otra vez en los
casos de daños por sustancias tóxicas, aunque no usualmente de forma tan explícita como
en los casos Oxendine y Joiner.33 El rompecabezas epistemológico resulta
particularmente vivido en el primer caso descrito aquí, en el testimonio del Dr. Done en
Oxendine: la actividad estructural de las pruebas toxicológicas no es suficiente para
concluir que hay una relación causal, reconoció; tampoco lo son las pruebas resultantes
de los estudios in vitro ni las pruebas provenientes de los estudios en animales o los re-
análisis estadísticos. Pero puestas todas juntas, continua, de alguna manera resultan en la
prueba de la causalidad.34 Pero, ¿exactamente cómo? Él no lo dijo; y tampoco el juez
Terry, más allá de su linda metáfora del mosaico. Y hasta donde yo sé, está cuestión aún
30
Id. p. 152 (voto parcialmente disidente de Stevens, J.).
31
Daubert, 509 U.S. p. 595 (“La atención, por supuesto, debe estar únicamente en los principios y la
metodología, no en las conclusiones que generan”).
32
Joiner, 522 U.S. p. 153 (énfasis añadido).
33
Pero véase, por ejemplo, Castillo v. du Pont de Nemours, 854 So. 2d 1264, 1272 (Fla. 2003) (reportando
que “el [Dr. Van Velzen] repetidamente afirmó que usó el test in vitro como una de sus fuentes de
información, en conjunto con otra información fiable, para llegar a la conclusión. Testificó que tomar
consideración toda la información junta es una práctica científica comúnmente aceptada” (énfasis
añadido).
34
Véase Oxendine v. Merrell Dow Pharm. Inc., 506 A.2d 1100, 1108 (D.C. Cir. 1986) (reportando que “a
lo largo de todo su testimonio, [el Dr. Done] repetidamente afirmó que su opinión estaba basada no en un
simple estudio o tipo de prueba, sino en cuatro diferentes tipos de información científica analizada en
combinación”).
9
falta por ser satisfactoriamente resuelta. El objetivo de la siguiente sección es llenar esta
“laguna analítica”.35
2. El argumento epistemológico
La primera cosa por advertir es que, aunque hasta ahora nos hemos aproximado a ella
desde la prueba de la causalidad en los casos por sustancias toxicas, donde jurídicamente
ha sido especialmente destacada, esta cuestión epistemológica es realmente más general,
aparece en prácticamente toda área de investigación.36
Piénsese, por ejemplo, en aquel meteorito descubierto en la Antártida en 1984 que los
científicos creían, sobre la base de los gases que desprende cuando se calienta, que había
venido de Marte cerca de 4 billones de años antes. Un químico de Stanford descubrió que
el meteorito contenía moléculas de hidrocarburos aromáticos policíclicos (PAHs, por sus
siglas en inglés), que se encuentran no sólo en el humo del diésel y el hollín, sino también
en la materia orgánica descompuesta; y otros científicos descubrieron que los cristales de
carbonato en el meteorito fueron formados como cubos y lágrimas, como aquellos
formados por bacterias en la tierra. En 1997, el Dr. David Mackay del Johnson Space
Center estaba preparado para decir, en una entrevista para el Newsweek, que “[t]enemos
estas líneas probatorias. Ninguna de las cuales en sí misma es definitiva, pero tomadas
en conjunto la explicación más simple es vida temprana en Marte”37; y entre más pruebas
se han obtenido a lo largo de una década de investigación, esta conclusión se ha vuelto
más firmemente avalada.38 Tampoco es éste un ejemplo aislado; por el contrario, con
respecto a prácticamente cualquier afirmación científica de importancia –que el ADN es
35
Estos ejemplos aparecerán continuamente a lo largo de todo este artículo; entonces, quizá sea necesario
decir desde ahora que mi argumento no consiste en afirmar que el Bendectin causa daños congénitos, o que
el PBC causa cáncer de pulmón de células pequeñas –ni tampoco, por supuesto que no lo causan. Incluso
si teniendo todas estas pruebas –las que, obviamente, no tengo- yo no sería competente para hacer tales
juicios.
36
Quizás el prof. Rothman y sus colegas habían observado esto. Véase, el informe de Rothman et. al como
amici curiae, Daubert v. Merrell Dow Pharm., Inc., 509 U.S. 570 p.*10 (1993) (comentando que “[e]sta
observación de sentido común no es nueva ni controversial”).
37
Sharon Begley y Adam Rogers, War of the Worlds: There are no Little Green Men on Mars. But There
Are Some Very Hostile Fellows on Earth Debating Whether There was Life on the Red Planet, Newsweek,
10 de febrero de 1997, p. 56 (énfasis añadido).
38
Véase Thomas H. Maugh III, Probe Enters Mars Orbit, L.A. Times, 11 de marzo de 2006, p. A12
(reportando que ahora se sabe que alguna vez hubo agua en Marte y que un segundo meteorito marciano
también contenía lo que posiblemente eran fósiles marcianos). Véase también Michael Hanlon, Is This
Proof of Life on Mars?; The Meteorite That May Finally Have Resolved the Great Mystery, Daily Mail, 10
de febrero de 2006, p. 40.
10
un material genético,39 por ejemplo, o que las especies evolucionan mediante un proceso
de selección natural- las pruebas son un engranaje de elementos entrelazados.
Tampoco es la confianza en muchas líneas de pruebas entrelazadas limitadas por las

ciencias. Piénsese, por ejemplo, en un historiador confiando en pruebas arqueológicas y
documentales (y quizá también en la teoría científica subyacente a las técnicas de datación
de vestigios o para identificar el papel en el cual un documento está escrito o la tinta con
la que se escribió), o una combinación de registros escritos y el testimonio de testigos aún
vivos. De hecho, este tipo de confianza en una combinación de líneas de pruebas es
omnipresente –la regla, no la excepción. Es un lugar común en la vida cotidiana: cuando,
por ejemplo, después de leer una asombrosa historia en el periódico, compramos un
periódico diferente o encendemos las noticias en la televisión para inspeccionar otras
fuentes a efectos de confirmarla.40 Y este tipo de confianza en una combinación de líneas
de pruebas es familiar en muchos contextos jurídicos también: cuando, por ejemplo,
pedimos a un jurado que llegue a una conclusión basado en el testimonio de un testigo
ocular y de un psicólogo testificando con base en pruebas forenses sobre las
circunstancias en las cuales un testigo ocular es más o menos confiable y el testimonio
sobre los rango de error de su laboratorio, etcétera.
Dado que el punto epistemológico en cuestión es muy general, necesitamos una respuesta
general. Y dado que el aval es claramente una cuestión gradual (como asumí antes al
describir la hipótesis de que había vida bacteriana marciana temprana como débilmente
avalada hace una década y significativamente más fuertemente avalada ahora), la
respuesta necesita explicar, primero, qué factores determinan si, y en qué grado, las
pruebas avalan una conclusión; y, segundo, bajo qué condiciones esos factores trabajan
de tal manera que aumentan el grado de aval cuando se combinan diversas piezas
probatorias. Mi respuesta se basa en una explicación de la estructura de las pruebas y de
39
En 1994, cuando Oswald Avery publicó el reporte sobre los experimentos que ahora son reconocidos
como aquellos que establecieron que el ADN, no proteico, es el material genético, él era incapaz de sacar
la conclusión en prensa y no fue aceptado de forma general hasta después de los experimentos de Hershey
y Chase, publicados en 1952. Véase Avery, et.al., 1994; Hershey y Chase, 1952. En 1953, cuando Watson
y Crick publicaron su artículo sobre la estructura del ADN, el rol del ADN en la herencia era solo entendido
de forma muy imperfecta y, de acuerdo con Crick, hasta 1980 fue una conclusión firmemente establecida.
Véase Watson y Crick, 1953; véase también Ckick, 1988.
40
En una visita a España, intrigada por sus nombres, compré copias de ambos periódicos, los dos publicados
en Murcia: La Verdad y La Opinión. (Algunos amigos me dijeron que La Verdad era una publicación muy
conservadora y La Opinión más liberal). Ambos llevaban la misma historia en la portada, una mujer
estrangulada en el centro de la ciudad.
11
los determinantes del grado de aval que presenté en mi libro Evidence and Inquiry41 y
amplifiqué y refiné en Defending Science.42
Las pruebas ramifican, como hacen las entradas de un crucigrama; y esta analogía me
ayudar a desarrollar mi explicación. Cuán razonable es una entrada en un crucigrama
depende de cuán bien encaje con la pista y las intersecciones ya completadas; cuán
razonables son tales entradas con independencia de la cuestión en mano; y cuántas de las
entradas han sido completadas. Igualmente, sugiero, cuán avalada esté una conclusión (o,
como lo pondríamos de manera más idiomática, cuán probable hacen las pruebas que la
conclusión sea verdadera) depende de tres factores:
(i) Cuán fuerte es la conexión entre las pruebas y la conclusión – grado de apoyo.
(ii) Cuán sólidas son las pruebas en sí mismas, 43 independientes de la conclusión
–seguridad independiente.
(iii) Cuántas de las pruebas relevantes están incluidas – comprehensión.
En su momento señalé que se trata de probabilidades epistémicas, aunque a menudo

hablemos del grado de apoyo en términos de cuán probable hacen estas o aquellas pruebas
a esta conclusión o del grado de aval en términos de cuán probable es que esta conclusión
sea verdadera; no pueden ser interpretados adecuadamente como probabilidades
estadísticas. De hecho, dado el multidimensional carácter de los determinantes de la
calidad probatoria, no hay garantía de un orden linear de grados de aval e incluso menos
de una posibilidad realista de asignarles (significativamente) números.44
También señalé que estos tres factores no eran del todo simétricos. El grado de apoyo
está directamente relacionado con el grado de aval; es decir, entre más apoyo brinden las
pruebas a una conclusión, más avalada estará la conclusión (como la entrada de un
crucigrama es más razonable cuando encaja mejor con la pista y las entradas
41
Haack, 1993: 73 a 94.
42
Haack, 2003.
43
Sí, “sólidas” aquí significa “avaladas”; pero no, esto no nos conduce a un círculo vicioso; finalmente
logramos evidencia sensorial, que no tiene ni necesita aval. Para una explicación más completa, véase
Haack, 2003: 67 y 68.
44
Véase Haack, 2003: 75 y 76 para un argumento más completo sobre por qué las probabilidades
epistémicas no satisfacen los axiomas del cálculo de probabilidades matemáticas. La tesis no es nueva.
Véase Keynes, 1921: 28, argumentando que “[n]o es ni siquiera claro que seamos siempre capaces de
ordenar [las probabilidades epistémicas] en un orden de magnitud”; von Mises, 1928: 27, argumentando
que “nuestra teoría de la probabilidad no tiene nada que hacer con preguntas como “¿hay una probabilidad
de que Alemania se vea envuelta en una guerra con Liberia?”.
12
completadas). Pero la conexión entre la seguridad independiente y el aval es un poco más

complicada. Entre más seguridad independiente tengan las pruebas a favor de una
conclusión, más avalada estará ésta; pero entre más seguras independientemente sean las
pruebas en contra de una conclusión, la conclusión estará menos avalada (como en un
crucigrama el hecho de que nuestra respuesta a la pregunta cuatro vertical encaje con
nuestra respuesta a la pregunta dos horizontal es más alentadora entre más convencidos
estemos de que la respuesta dos horizontal es correcta; pero si nuestra respuesta cuatro
vertical no encaja con la dos horizontal, ello es menos problemático entre menos
convencidos estemos de la corrección de la dos vertical). De igual forma, entre mayor sea
el grado de apoyo que las pruebas dan a una conclusión, ésta estará más avalada; pero si
las pruebas son más comprehensivas también las hace menos positivas, el incremento en
la comprehensión disminuye el grado de aval de una conclusión (como al completar más
el crucigrama nos brinda más confianza en la corrección de las entradas ya completadas
si todas encajan juntas, pero disminuye nuestra confianza si introduce inconsistencias).
Entonces, una combinación de piezas probatorias avalará una conclusión en un grado

mayor de lo que cada uno de sus componentes por sí solo haría cuando, pero sólo cuando,
combinando varios elementos aumenta el grado de apoyo; aumenta la seguridad
independiente de las pruebas favorables a la conclusión; y/o aumenta la comprehensión
al introducir elementos con más, y no menos, grado de apoyo.
Si aplicamos este análisis abstracto a un ejemplo esquemático basado en diversos tipos

de pruebas típicamente encontradas en casos de derecho de daños y observamos el efecto
de la combinación de pruebas en el grado de apoyo, la seguridad independiente y la
comprehensión, veremos cómo combinando pruebas podemos –como el magistrado
Stevens y el juez Terry creían que se podía- aumentar el grado de aval de una conclusión
causal.
Supongamos que la afirmación en cuestión es que la exposición a la sustancia S causa, o

promueve, el trastorno D: por ejemplo, que la exposición al Bendectin de una embarazada
le causa daños congénitos a su bebe, o que la exposición a los PCBs promueve el
13
desarrollo de cáncer de pulmón. Las pruebas E, relevantes para la conclusión C, pueden

incluir cualquiera de (o todos) los siguientes elementos e1, e2, … en:
• Pruebas epidemiológicas (provenientes de ensayos clínicos o de encuestas
médicas) de la incidencia de D entre aquellos que estuvieron expuestos a S, en
comparación con su incidencia entre aquellos que no estuvieron expuestos a S;
• Meta-análisis de tales estudios epidemiológicos, indicando qué riesgo elevado de
D, si es que lo hay, sugiere la combinación de datos;
• Pruebas sobre si la incidencia de D en la población disminuye cuando S es retirado
del mercado (o si las cuestiones oscuras son limpiadas, etc.);
• La exposición a cualquiera otra(s) sustancia(s) que contengan una o más de éstas
o a químicos del mismo tipo general, es asociado con un riesgo elevado de D;
• Pruebas de estudios in vivo indicando que los animales deliberadamente expuestos
a S desarrollaron D o, bien, fueron precursores de D;
• Pruebas de estudios in vitro indicando que las células o los embriones
deliberadamente expuestos a S desarrollaron D o, bien, fueron precursores de D;
• Pruebas sobre si hay cualquier (algunos) mecanismo(s) biológico(s) por los cuales
la exposición a S (o a a, b, y/o c) pudiera causar D, o razones para creer que S (o
a, b, o c) no podrían causar D.
Pero las pruebas que lleven a una conclusión causal deberían incluir una buena cantidad
de información de otro tipo, incidiendo en ella de forma un poco más directa:
• Meta-pruebas con respecto a todos los tipos de pruebas antes enlistadas: por
ejemplo, pruebas acerca de lo que se requiere para un buen diseño y una buena
ejecución de estudios epidemiológicos, toxicológicos, in vitro o in vivo (por
ejemplo, qué variables deben ser controladas, etc.), y aquello que constituye un
buen diseño y una buena conducción de los meta-análisis (por ejemplo, qué
determina cuáles estudios son lo suficientemente buenos para ser incluidos en los
meta-análisis y cuáles es mejor ignorar);
• Información previa sobre qué otros factores (como las susceptibilidades
genéticas) podrían contribuir al desarrollo de D;
• Información previa (o conjeturas) sobre la proporción de casos de D derivados
de qué tipos de causas conocidas (o sospechadas);
14
• Teorías químicas, biológicas, psicológicas, genéticas, etc., relevantes sobre

potenciales generadores de S o D;45
• Ideas sobre qué, en aquello que aún no se sabe, es razonable creer respecto la
potencialmente relevante etiología de D.
Y puede haber, adicionalmente, pruebas (¿meta-meta-pruebas?) sobre las fuentes de

todos estos tipos de pruebas, 46 influyendo indirectamente sobre su credibilidad y, por
tanto, afectando a la vez la credibilidad de C:
• Pruebas de que estudios relevantes fueron anteriormente publicados en

respetadas revistas con revisión por pares, o fueron publicados gracias a ciertos
privilegios editoriales en revistas de bajo nivel o de no fueron publicados;
• Pruebas sobre quién llevo a cabo la investigación relevante: quizás el fabricante
o científicos financiados por el fabricante (o si la investigación fue pagada
mediante el presupuesto que el fabricante dedica a la investigación o por su fondo
para litigios), o por científicos de la universidad que reciben algunas prebendas
del fabricante, o científicos independientes que no tienen ninguna relación con
ninguna de las partes en un proceso;
• Pruebas de que este testigo es (o no es) un testigo frecuente en el tipo de casos
como el actual, que su currículo muestra que es (o no es) ya experto en peritajes
dada su constante participación en procesos judiciales y no un científico activo,
etc.
• Pruebas (¿meta-meta-meta-pruebas?) sobre si lo estudios financiados por los
fabricantes tienden a ser más favorables a sus productos que los estudios
realizados de forma independiente,47 cuán a menudo los artículos sometidos a
45
Por ejemplo, a inicios de 1950 todavía se creía ampliamente que nada dañino podría cruzar la placenta
de la madre al feto. Desde 1955, sin embargo, se supo que sustancias con un peso molecular inferior a 1,000
podían cruzar la placenta dentro de la sangre fetal. Brynner y Stephens, 2001.
46
Dado que los operadores jurídicos no son expertos en epidemiología, toxicología, etc., y no tiene el tipo
de background extensivo que se requiere para hacer juicios sensatos de plausibilidad, este tipo de pruebas
(indirectas, externas) probablemente juegan un rol más significativo en los contextos jurídicos del que,
idealmente, deberían.
47
De hecho, muchos estudios de estudios confirman que la investigación que la compañía financió sobre
fármacos o equipo médico es significativamente más probable de ser favorable hacia los productos de la
compañía que una investigación independiente. Véase, por ejemplo, Davidson, 1986; Rochon, et.al., 1994;
Friedman y Richter, 2004. Mientras los juristas tienden a estar preocupados por la ciencia para el litigio,
no debemos olvidar que la ciencia para el mercado puede ser también tendenciosa. Véase, por ejemplo,
Hill, et.al., 2008: 251, argumentando que los documentos internos muestran que el estudio ADVANTAGE
15
revisión por pares son retractados,48 o si los artículos publicados en revistas de

bajo nivel son retractados más a menudo que aquellos publicados en revistas de
mayor prestigio, etc., etc.
E puede estar completo (es decir, incluir pruebas de todos los tipos enlistados) o puede
estar incompleto; y pueden ser todas pruebas positivas (es decir, más favorables para C
que para no-C), o todas negativas, o mezcladas. Por obvias razones, en los casos que
llegan a tribunales las pruebas son normalmente incompletas, mixtas o, más comúnmente,
ambas cosas; dado que, si no hubiera ningún tipo de ambigüedad en un sentido u otro,
entonces el asunto nunca hubiera llegado a tribunales, o hubiese sido resuelto antes del
juicio oral.
Ningún elemento individual de un grupo de pruebas como E sería suficiente por sí mismo
para establecer una relación causal. El efecto de S en los animales puede ser distinto de
sus efectos en humanos. Los efectos de B cuando es combinado con A y con C pueden
ser muy diferentes de sus efectos individuales, o cuando es combinado con X y/o con Y.49
Incluso un estudio epidemiológico mostrando una asociación fuerte entre la exposición a
S y un riesgo elevado de D podría ser insuficiente en sí mismo: podría haber estado mal
diseñado y/o mal ejecutado, por ejemplo (además, aquello que constituye un estudio bien
diseñado –es decir, los controles que son necesarios –depende en sí mismo de información
adicional sobre los tipos de factores que pudieran ser relevantes). E incluso un excelente
estudio epidemiológico podría recoger no una conexión causal entre S y D, sino una causa
subyacente tanto de la exposición a S como a D; o reflejar posiblemente el hecho de que
las personas en etapas muy tempranas de D desarrollan ansias por S. Tampoco la prueba
de que la incidencia de D decae después de que S ha sido retirado es suficiente por sí
misma para establecer la causalidad –quizá se relajó un control al reportar D después de
que Merck hizo sobre Vioxx en 1999 fue “un ensayo desarrollado concebido por la división de mercado de
Merck para promover la prescripción de Vioxx (rofecoxib) cuando estuviera disponible … en 1999”.
48
El servicio de indexación médica PubMed asigna un número, identificador PubMed (por sus siglas en
inglés, PMID) a cada artículo y es posible buscar, por ejemplo, retracción de la publicación (“Retraction of
Publication”). Sobre las retracciones de trabajo fraudulento, véase, por ejemplo, Bonito, 2006; Sox y
Rennie, 2006; Couzin y Unger, 2006.
49
Como, aparentemente, sucedió con la talidomida, que ha sido descrita como compuesta por “dos
componentes muy inofensivos.” Véase Brynner y Stephens, 2001: 8 (citando al Dr. Robert Brent).
16
que S fuera retirado, o quizá la exposición a X, Y, Z también se redujo, y uno de éstos es

la causa de D, etc.50
Pero combinar las pruebas, como en mi ejemplo esquemático, puede ayudar a excluir
otras explicaciones alternativas a “S causa D”, resultando en un aval más firme de la
conclusión. Para entender bajo qué condiciones E podría avalar C a un grado mayor que
cualquiera de e1, e2, … en individualmente, necesitamos mirar el efecto que tiene
combinar todo ello de forma conjunta para apoyar E, la seguridad independiente de cada
elemento que conforma E y la comprehensión de E.
(i) Grado de apoyo: Cuánto grado de apoyo brinda la prueba a una conclusión
depende, brevemente, de cuán bien encajen la prueba y la conclusión juntas en un relato
explicativo. Entonces una combinación de pruebas dará mayor apoyo a una conclusión
que sus partes componentes en lo individual si la conjunción de E y C hace un mejor
relato explicativo que la conjunción de e1 y C, un mejor relato explicativo que la
conjunción de e2 y C, … etcétera. Cuán estrechamente los componentes de E se entrelazan
para formar un relato explicativo es lo que hace que el grado de apoyo brindado a C por
E sea mayor que el grado de apoyo brindado a C sólo por e1, el grado de apoyo dado a C
sólo por e2, etc. Por ejemplo, la prueba de un mecanismo biológico por el cual S puede
generar D se entrelaza con la prueba epidemiológica de un incremento del riesgo de D
entre aquellos expuestos a S para explicar un inicialmente no-explicado aspecto de la
historia; la prueba de que S contiene B y que es B la asociada con el incremento del riesgo
de D entre aquellos expuestos a S para hacer más profunda una explicación que
inicialmente era superficial; y teorías biológicas, psicológicas, químicas, etc. anteriores
se entrelazan con la prueba de los riesgos que sufren las personas expuestas a S
incrementando el alcance de explicaciones inicialmente restringidas.
50
El Dr. Robert Brent, editor de Teratology, quien testificó continuamente a Merrell Dow en los casos
Bendectin como un experto en “secular trend data”, enfatizó que, aunque el Bendectin había sido retirado
del mercado en los Estados Unidos desde 1983, la tasa de los daños congénitos reportada había permanecido
constante. Pero, con un argumento paralelo al del texto, esto es insuficiente en sí mismo para excluir una
conclusión causal. Y, de hecho, sabemos que después de que el Bendectin fuese retirado del mercado,
algunos doctores empezaron a prescribir vitamina B6 y la mitad de una pastilla de Uisom para los mareos
del embarazo; y que la doxilamina, el ingrediente sospechoso en el Bendectin, es también un ingrediente
en ambos, tanto en el Unisom como en el Nyquil. Véase, Yates, 2004: 55 (recomendando vitamina B6 y,
en caso de que el vómito continúe, añadir 12,5 mg. de doxilamina tomando la mitad de la pastilla Unisom,
de venta libre). Sobre el Nyquil (al igual que para el Unisom), véase también Sanders, 1993: 10.
17
Para que los elementos de E se entrelacen del todo, los mismos términos (“S”, “B”, “D”,
etcétera) deben darse por completo, como lo hacen en mi lista esquemática; y los
elementos se entrelazaran más firmemente y más estrechamente entre más estrictamente
sean caracterizados estos términos, es decir, entre más específicos sean. Por ejemplo,
aumentará el grado de apoyo conjunto si “D” se traduce en “cáncer de células pequeñas
del pulmón” que si simplemente es “cáncer de pulmón” o “cáncer” o si éste es “defectos
congénitos de reducción de extremidades” en lugar de “defectos congénitos”; si “B” es
“doxilamina” en lugar de “antihistamínico” o “Benlate”51 en lugar de “fungicida”;
etcétera.
Los elementos de E también se entrelazarán más firmemente entre más similares sean
fisiológicamente a los seres humanos aquellos animales usados en los estudios en
animales. Los resultados de los estudios en colibríes o en ranas difícilmente engranaran
en algo con las pruebas epidemiológicas de riesgos en humanos, mientras los resultados
en estudios con ratones, ratas, conejillos de indias, conejos, encajaran más firmemente
con tales pruebas y los resultados de estudios con primates aun más firmemente. Por
supuesto, “similar” tiene que ser entendido como elíptico a “similar en todos los aspectos
relevantes”; y cuáles aspectos son relevantes dependerá, entre otras cosas, de la forma de
exposición: si los humanos se exponen a S por inhalación, por ejemplo, importa si los
animales del laboratorio tienen frecuencias respiratorias similares. (Algunas veces los
estudios en animales pueden revelar en sí mismos diferencias relevantes; por ejemplo, las
ratas en las que la Talidomida fue probada eran inmunes al efecto sedante que ésta tenía
en los humanos; lo que debería haber generado sospechas sobre si las ratas fueron una
mala elección para los experimentos en animales para este fármaco)52. Una vez más, los
resultados de los estudios en animales se entrelazan de manera más estrecha con la prueba
51
En Castillo v. E. I. du Pont de Nemours, el Benlate fue el fungicida al cual la señora Castillo afirma haber
estado expuesta y el que ella creía había causado en su bebé los daños congénitos, ojos severamente
subdesarrollos (microftalmia). Castillo v. E.I. du Pont de Nemours & Co., Inc., 854 So. 2d 1264 (Fla. 2003).
52
Brynner y Stephens, 2001: 48. “Fue inquietante que los humanos respondieran a la talidomida cayendo
en un “sueño profundo, natural”, pero no las ratas… El hecho de que no pudo encontrarse una dosis letal
para las ratas fue doblemente inquietante … las ratas simplemente no absorbieron la medicina.”
Richardson-Merrell fue el distribuidor de la talidomida en Estados Unidos (Brynner y Stephens, 2001: 39).
El fármaco fue vendido como una pastilla para dormir (Brynner y Stephens, 2001: 14). Pero más tarde,
después de que el doctor australiano William McBride descubrió que ayudaba para las náuseas del
embarazo entonces fue prescrita para tal propósito (Brynner y Stephens, 2001: 22). Posteriormente, el Dr.
McBride se convirtió en un héroe al llamar la atención sobre los daños ocasionados por la talidomida; y
después famoso después de que se supiera que había falsado los resultados en los estudios en animales
como un esfuerzo por llamar la atención sobre lo que él creía eran los efectos teratógenos del Bendectin
(Brynner y Stephens, 2001: 197-199 y 27 a 29).
18
del riesgo para humanos cuando es más similar la dosis implicada. (Una de las debilidades
del testimonio experto presentado por Joiner fue que los estudios en animales en que se
sustentaba implicaban la inyección de dosis enormes de PCBs dentro del peritoneo de
ratones bebes, mientras el señor Joiner había estado expuesto a dosis mucho más
pequeñas cuando el aceite aislante contaminado salpicó su piel y sus ojos.)53 El tiempo
de exposición puede ser también importante, por ejemplo, cuando la afirmación en
cuestión es que la exposición de una mujer embarazada a S causa este o aquel específico
tipo de daño en el feto.
Una vez más, los elementos de E se entrelazan más estrechamente entre más se asemejen
los estudios in vitro con las condiciones de la exposición humana. Por ejemplo, los
demandantes en el caso Castillo v. du Pont hicieron grandes esfuerzos para mostrar que
las células expuestas al Benlate en los estudios in vitro a los cuales apelaban estuvieron
lo más cerca posible como supuestamente fue la exposición que había sufrido el nonato
de la señora Castillo cuando su madre accidentalmente fue rociada con el Benomilo que
estaba siendo usado en los terrenos de sus vecinos.54
(ii) Seguridad independiente: combinar pruebas puede también aumentar la

seguridad independiente (como el hecho de que una entrada de un crucigrama al
entrelazarse con otras que a su vez se entrelazan con otras… etcétera… nos brinda más
razones para creer que es correcta.) Sin duda, incorporar pruebas de los estudios en
animales no hará menos deficiente a un estudio epidemiológico ya deficiente; e incorporar
pruebas de un mecanismo fisiológico no hará que un estudio in vitro que ha sido realizado
de forma descuidada sea así más riguroso. (Este parece ser el punto que Skrabanek y
McCormick hacen cuando explican que la “falacia fagot” es falaz porque “un fajo de
pruebas precarias sigue siendo precarias”). 55 Sin embargo, si añadimos a una
modestamente segura prueba epidemiológica sobre un incremento del riesgo de D entre
aquellos expuestos a S, las pruebas de que hay un mecanismo biológico a partir del cual
S lleva a D, tales pruebas adicionales aumentaran la seguridad de la conclusión del estudio
53
Gen. Elec. Co. v. Joiner, 522 U.S. 136, 144 (1997).
54
Véase, por ejemplo, Castillo, 854 So. 2d p. 1274 (reportando que “el Dr. Howard tomó en cuenta las
ropas que estaba vistiendo Donna Castillo cuando estuvo expuesta y su peso y estatura para determinar la
cantidad de piel que estuvo expuesta, y usó los datos DuPont para calcular la cantidad de benomilo [el
ingrediente sosprecho en el Benlate] que podría haber sido absorbido y pasado a través de su sistema”).
55
Skrabanek y McCormick, 1990: 35; véase también Feinstein, 1988.
19
epidemiológico. (Como sucede de forma similar si añado una columna de números y llego
a la respuesta N, pero no estoy segura de la corrección de mi respuesta porque fui
interrumpida en medio de mi cálculo, al pedir a alguien más que revise la aritmética y ver
que llega a la misma respuesta, esto incrementara adecuadamente mi confianza en la
respuesta a la que llegué la primera vez – aun cuando ello no altere el hecho de que fui
interrumpida).
(iii) Comprehensión: E es por supuesto más comprehensivo que cualquiera de sus

componentes en lo particular; y esto puede aumentar el grado de aval de C (como al
completar una nueva entrada en un crucigrama de forma compatible con las entradas ya
existentes da razones para estar más confiado en todas ellas). Si, por ejemplo, añadimos
pruebas epidemiológicas indicando un riesgo elevado de D entre aquellos expuestos a S
(e1), pruebas sobre la composición química de S y los efectos dañinos fisiológicamente
de sus componentes (e2) y pruebas del mecanismo biológico a partir del cual la exposición
a S causa D (e3), la combinación de estas pruebas avalara la conclusión causal a un grado
mayor que cualquiera de las partes componentes de tal aglomerado de pruebas en sí
mismas. (La prueba de una asociación estadística entre fumar y el cáncer de pulmón56
avala una conclusión causal a un grado mayor si se combina con pruebas de un
mecanismo causal; pruebas estadísticas de que las mujeres son más susceptibles que los
hombres avalaría una conclusión causal a un grado superior si es combinada con pruebas
del rol de las hormonas femeninas en acelerar el ritmo)57. Sin embargo, el grado de aval
disminuirá, en lugar de aumentar, si las pruebas adicionales son negativas, o incluso
menos positivas, que el resto. Si, por ejemplo, añadimos pruebas de estudios en animales
indicando un elevado riesgo de D en aquellos expuestos a S (e1), pruebas de que un
56
Cinco estudios publicados en 1950 ahora son vistos como innovadores: Doll y Bradford Hill, 1950 (PMID
14772469); Levin, et. al., 1950 (PMID 15415261); Mill y Porter, 1950 (PMID 14772728); Schrek et al.,
(1950) (PMID 15398042); y Wynder y Graham, 1950 (PMID 15415260). En 1953, aparecieron 13 más de
tales estudios.
57
Kreuzer et al., 2003 (sugiriendo exactamente esto). Pero también véase Thomas, et. al., 2005: 370
(“[p]ruebas emergentes sugieren que hay diferencias en la patogénesis y posiblemente un incremento de la
susceptibilidad al cáncer de pulmón en las mujeres”); International Early Lung Cancer Action Program
Investigators, 2006: 180 (“[l]as mujeres parecen incrementar su susceptibilidad a los cancerígenos del
tabaco, pero tienen una tasa menor de un desenlace fatal del cáncer del pulmón en comparación con los
hombres”); Kabat et al., 2007: 2214 (“[m]uchas líneas de pruebas sugieren que los factores endocrinos
pueden jugar un rol en el desarrollo de cáncer de pulmón en las mujeres, pero las pruebas son limitadas e
inconsistentes); Marquéz-Garbán, et al., 2007: 136 (“[l]a condición de los estrógenos parece ser un factor
significante en el cáncer de pulmón en las mujeres …”); O’Keefe y Patel, 2008: 4 (“[l]as mujeres pueden
ser más susceptibles a los efectos cancerígenos que los hombres. … La investigación en esta área está en
curso y es altamente debatida”); Freedman, et. al., 2008 (sugiriendo que la afirmación de que las mujeres
son más susceptibles que los hombres es cuestionable).
20
estudio epidemiológico no encontró un elevado riesgo en humanos (e2), el grado de aval

de C brindado por la combinación de estas pruebas será más bajo y no más alto.
Lo que he ofrecido es un análisis teórico, una caracterización abstracta de los

determinantes de la calidad probatoria –un análisis lo suficientemente poderoso, como
hemos visto, para mostrar que la combinación de pruebas puede de hecho avalar una
conclusión causal mejor que cualquiera de sus componentes. Sin embargo, no pretende
ser un procedimiento de toma de decisión para llegar a una conclusión sobre la fiabilidad
o a una conclusión causal (o de otro tipo). No obstante, arroja luz sobre el lío de “la
metodología del peso de las pruebas” surgido en el caso Joiner. Ya debería ser evidente
que la acusación de G.E. sobre que los expertos presentados por Joiner cometían una
falacia58 al suponer que la combinación de pruebas avala su conclusión causal mejor que
cualquiera de sus elementos descansa en un error. Pero también debe estar claro –aunque,
quizá, no sea tan obvio- que la apelación de Joiner a “la metodología del peso de las
pruebas” es en sí misma un poco confusa, al menos si lo que se intentaba sugerir es que
hay algo así como un procedimiento mecánico, un algoritmo o protocolo, bastante
eficiente, para calcular el valor de la combinación de pruebas.
Esto es también evidente si se mira de cerca de las Guidelines for Carcinogen Risk
Assessment59 que la Agencia de Protección Ambiental emitió en 1986 y a las cuales Joiner
hacía referencia.60 Estas directrices sugerían que “[l]a cuestión sobre cuán probable es
que un agente sea cancerígeno para los humanos debe ser respondida en el marco de un
juicio sobre el peso de las pruebas”;61 sin embargo, no usaban la frase “metodología del
peso de las pruebas” y tampoco ofrecían nada como un algoritmo para determinar el peso
conjunto de la pruebas. La sección encabezada como “Categorización del peso global de
las pruebas respecto el carácter cancerígeno en humanos” simplemente describe cómo
son atribuidas las siguientes categorías: “(1) el peso de las pruebas en los estudios en
58
Véase la nota al pie número 30 y el texto que la acompaña.
59
Environmental Protection Agency, Guidelines for Carcinogen Risk Assessment, 51 Federal Register
3392, 34000 (Sept. 24, 1986) [en adelante, directrices EPA].
60
Gen. Elec. Co. v. Joiner, 522 U.S. 136 (1997) (voto disidente de Stevens, J.) (citando el informe para los
demandantes, 4041).
61
Directrices EPA, p. 33996.
21
humanos o en animales es integrado; (2) estas líneas de información se combinan para

ofrecer una asignación tentativa a una categoría (véase la tabla 1); (3) toda la información
relevante que ofrezca un grado de apoyo es evaluada para ver si la designación del peso
de todas las pruebas necesita ser modificada”; lo que equivale a poco más que “tomar en
cuenta todas la pruebas disponibles y usar nuestro juicio para valorar lo que muestra”.
Tabla 1 –descrita como sólo “a efectos ilustrativos”- es un poco más específica: por
ejemplo, indica que una sustancia es categorizada como cancerígena para los humanos
sólo cuando hay pruebas epidemiológicas “suficientes”, y como un probable cancerígeno
humano si hay pruebas epidemiológicas “limitadas” pero “suficientes” provenientes de
estudios en animales.62 Pero esto equivale a poco más que requerir pruebas
epidemiológicas antes de poner a una sustancia en la categoría de las “altamente
riesgosas”- suponiendo que esta prueba epidemiológica es “suficiente”.
Las directrices más recientes de 2005 de la EPA incluyeron una sección con el curioso
pero revelador título “Narrativa del peso de las pruebas”, que explica que la EPA aún
“enfatiza la importancia del peso de todas las pruebas para llegar a conclusiones sobre los
agentes potencialmente cancerígenos en humanos” pero alejándose del “enfoque del paso
a paso” de las directrices de 1986, ahora toma “un solo paso integrador”. La información
proveniente de los estudios epidemiológicos es generalmente preferida, “pero toda la
información [epidemiológica, in vivo, in vitro, toxicológica, etc.] … puede proveer
valiosas aportaciones”.63 Hasta aquí, quizás, no son más útiles que las directrices de 1986;
pero al continuar leyendo se encuentran algunas observaciones que vale la pena destacar.
Primero, estas directrices usan la misma metáfora para representar la idea de “encajar
juntos” que yo, de forma independiente, he usado aquí:
[l]a narrativa explica los tipos de pruebas disponibles y cómo estas encajan juntas para
inferir conclusiones y … señalar cuestiones/fortalezas/debilidades significativas en los
datos y las conclusiones.64
62
Directrices EPA, p. 34000.
63
Environmental Protection Agency, Guidelines for Carcinogen Risk Assessment, EPA/630P-03/001F, p.
1–11 (marzo del 2005).
64
Id. p. 1-12.
22
Segundo, asumen –tal como yo lo hice aquí al articular el grado de prueba para avalar
una conclusión; y cuándo una serie de pruebas avala una conclusión a un grado mayor
que sus componentes –que el aval es una cuestión gradual:
los descriptores [“cancerígeno en humanos”, “probable cancerígeno en humanos”, etc.]
representan puntos a lo largo de un continuo de pruebas; … hay gradaciones y casos límite
…65
Y tercero, reconocer que la distinción que he enfatizado entre las probabilidades

frecuentistas (como en “la probabilidad de que un sueco elegido al azar sea protestante es
de n%” o “la probabilidad de que un hombre estadounidense de 60 años vaya a vivir hasta
los 75 es de m%”) y las probabilidades epistémicas (como en “es altísimamente factible
que los PCBs sean cancerígenos”):
[a]unque el término “factible” pueda tener una connotación probabilística en otros
contextos, su uso como descriptor del peso de las pruebas no se corresponde con
una probabilidad cuantificable sobre si el químico es cancerígeno.66
Pero cuando llega la cuestión central, “¿qué determina el peso de las pruebas?”, estas
directrices retroceden a los llamados “criterios Bradford Hill”, extraídos de la ahora
clásica lecture de Bradford Hill pronunciada en 1965, “El medio ambiente y la
enfermedad”.67 Sin embargo, éstos no son criterios para determinar la calidad de las
pruebas en general, sino, como el título de Hills sugiere, están enfocados específicamente
en pruebas médicas sobre la causalidad (específicamente pruebas relacionadas con la
exposición profesional); además, estos aplican solo en una situación donde ya hay
pruebas estadísticas sobre el riesgo elevado de D entre aquellos expuestos a S. Lo que
Bradford Hill ofrece es una lista de nueve aspectos que deben ser considerados para llegar
a una conclusión sobre si la relación es causal o no:
(i) Fuerza: es decir, cuánto incrementa el riesgo de D en aquellos expuestos a S;
65
Id. pp. 2-51 (énfasis añadido).
66
Id. pp. 2-53 (énfasis añadido).
67
Hill, 1965. De acuerdo con el Federal Reference Manual on Scientific Evidence (2000), Bradford Hill
estaba ampliando los criterios propuestos por el Surgeon General de los Estados Unidos en la valoración
de la relación entre fumar y el cáncer de pulmón. U.S. Dep’t of Health, Educ., & Welfare, Smoking and
Health Report of the Advisory Committee of the Surgeon General (1964).
23
(ii) Consistencia: es decir, si la asociación entre S y D ha sido observada por

diferentes personas en diferentes lugares y tiempos y bajo diferentes
circunstancias;
(iii) Especificidad: es decir, si la asociación es específicamente entre esta sustancia
y la exposición profesional, y esta enfermedad;
(iv) Temporalidad: es decir, si la exposición a S precede D (en lugar de, por
ejemplo, estar asociado con las etapas iniciales de D);
(v) Gradiente biológico: es decir, si la incidencia de D aumenta en tanto
incrementa la exposición a S;
(vi) Plausibilidad:68 es decir, si la hipótesis causal encaja con el conocimiento
biológico actual;
(vii) Coherencia: es decir, si la interpretación de la información que lleva a
demostrar la causalidad no debe (“seriamente”) entrar en conflicto con los
hechos conocidos sobre la historia y la biología de la enfermedad;
(viii) Experimentación: es decir, si la incidencia de D baja si se toman acciones
preventivas para reducir la exposición a S;
(ix) Analogía: es decir, si hay alguna similitud con otros casos conocidos de
relación causal.
Es importante notar que Bradford Hill reconoce que “[n]inguno de [sus] nueve puntos de
vista pueden generar pruebas indisputables ni favorables ni desfavorables para una
hipótesis causa-efecto, tampoco ninguno de estos puede ser exigido como criterio sine
qua non”.69
No es sorprendente que los “criterios Bradford Hill” se hayan demostrado duraderos,70

pues contienen mucho sentido común. Pero no son realmente “criterios”, al menos como
el término es algunas veces entendido; es decir, no son un procedimiento para llegar a
68
Mientras estaba escribiendo esto, la prensa reportó que un nuevo estudio concluyó que el Vytorin no era
más efectivo que un placebo respecto a cierta condición válvula del corazón, encontró también un
incremento del riesgo en aquellos que tomaron el fármaco; pero tales investigadores “declararon que esto
último era ‘implausible’ y probablemente era resultado del azar”. Su razón, supongo, era que no había un
mecanismo conocido que pudiera plausiblemente considerado para explicar tal conexión” (Ron Winslow y
Shirley S. Wang, More Vytorin Bad News Hits Merck, Schering, Wall Steet Journal, 22 de junio de 2008,
p. B1, B2).
69
Hill, 1965: 299.
70
Aparecen, por ejemplo, no solo en las Directrices EPA, 2005, sino también en Sanders (1998: 55-56) en
el Federal Reference Manual on Scientific Evidence (2000: 375-376); y en Rothman y Greenland, 1998:
24-28).
24
una decisión o menos una lista que pueda ser seguida mecánicamente. (El término jurídico
“indicio” puede ser menos engañoso que “criterio” para usarlo aquí). Las pruebas pueden,
por ejemplo, satisfacer alguno de estos, pero no otros, o algunas pueden satisfacerlos en
un grado alto y otras en un grado más bajo; y Bradford Hill nada dice sobre cómo valorar
el éxito de uno de tales indicios contra el fracaso de otros, o cómo comparar hipótesis que
van bien con este pero mal con aquel y la otra hipótesis que va mal con este pero bien con
aquel. Esto tampoco es sorprendente. Porque de hecho –como sugiere mi aproximación
teórica y como insinúa la curiosa palabra “narrative” empleada por la EPA- valorar el
peso de pruebas complejas es, en un sentido, inevitablemente un juicio en el sentido de
que incluso expertos bien cualificados y altamente competentes pueden razonablemente
estar en desacuerdo; al menos y hasta que las pruebas sean abrumadoras para un lado o
para el otro, diferencias sutiles en el inarticulado complejo que conforma el background
y las presunciones que cada científico traiga a la mesa pueden producir valoraciones
diferentes.
Aun así, puede ser útil mapear, a partir del listado de alguna manera no-sistemático de
“criterios” o “indicios”, una estructura más articulada de la explicación que he propuesto.
“Consistencia” equivale de hecho a reconocer que la combinación de pruebas de
diferentes fuentes, asumiendo que todas apuntan a la misma dirección, aumenta el aval
de la conclusión sobre que la relación es causal. El criterio de la “coherencia” propuesto
por Bradford Hill, “la plausibilidad biológica” y la “analogía” parecen corresponderse
con los tipos de pruebas que están incluidas en mi lista bajo el rótulo “background” –lo
que sea que sea conocido sobre un potencial mecanismo o sobre un mecanismo por el
cual S pueda causar D, cualquier teoría biológica, fisiológica, etc., con la cual la
conclusión causal encajaría, etc. “Especificidad” corresponde a la conexión que tracé
entre la estrechez del encaje de los elementos de E y cuán estrictamente son especificados
“S” y “D”; y “temporalidad” al hecho de que una asociación entre S y D encontrada
incluso en un estudio epidemiológico excelente pueda resultar de una causa común de
exposición a S y a D, o del hecho de que la presencia de D en sí mismo lleve a la
exposición a S. “Experimentación” se corresponde con lo que he descrito como pruebas
sobre si la incidencia de D cambia cuando la exposición a S es reducida deliberadamente
(“información con tendencia secular”, como el Dr. Brent le llama); y la “gradiente
biológica” es reflejada al menos de mi parte en las observaciones sobre el grado y la
manera de la exposición a S.
25
Mientras la “fuerza” de la asociación entre S y D, i.e. cuán grande es el incremento del

riego, encuentra su lugar en mi concepción como una cuestión relevante a efectos de
descartar la posibilidad de que un aparente riesgo elevado sea resultado del azar, en la
lista de Bradford Hill es la primera cuestión. Él apela al ejemplo de la incidencia en el
cáncer testicular de los deshollinadores –entre quienes, reporta, incluso hasta finales de
los 20’s la tasa de mortalidad por cáncer testicular era 200 veces la tasa entre aquellos no
expuestos al alquitrán o a las grasas minerales.71 Vale la pena notar que la conexión con
“alquitrán o las grasas minerales” ya está incorporada en los ejemplos de Bradford Hill y
que las posibilidades de que un hombre que se encuentra en sus primeras etapas de cáncer
testicular sea de alguna manera atraído al deshollinado de chimeneas como profesión
parecen tan remotas como para tildarlas de insignificantes. Pero la razón principal por la
que este factor es menos importante en mi ejemplo esquemático que en la lista de
Bradford Hill es, simplemente, que los tipos de casos que llegan a los tribunales
seguramente no serán aquellos en los que la asociación es tan fuerte que la inferencia de
una conclusión causal está prácticamente garantizada, sino que es más probable que sean
aquellos en los que un fármaco ya ha salido al mercado después de haber sido sometido
a pruebas, incluso a grandes ensayos clínicos, una gran cantidad de gente lo ha
consumido, y hay pruebas, o sospechas, de que puede haber riesgos inesperados para
algún subgrupo de la población.
3. Respondiendo a algunas cuestiones disputadas
El aparato teórico presentado sugiere (al menos el inicio de) respuestas a una gama de
cuestiones epistemológicas que a menudo han atormentado los litigios sobre sustancias
tóxicas –cuestiones sobre la prueba de la causación general (el tema principal aquí) e
incluso algunas cuestiones sobre la prueba de la causalidad específica.
71
Hill, 1965: 295 (citando el trabajo de Richard Doll, Cancer, publicado en Medical Surveys and Clinical
Trials: Some Methods and Applications of Group Research in Medicine 333, 333 (2 ed. L. J. Witts ed.,
1964). De acuerdo con el Dr. Doll, en 1775 Percivall Pott reportó que “el cáncer de escroto era
característicamente una enfermedad de los deshollinadores”; y en 1933, J.W. Cook reportó que “3:4
benzopireno fue el responsable del efecto cancerígeno en la piel de los animales” Id. 33 (citando a J.W.
Cook, et. al, The Isolation of a Cancer-Producing Hydrocarbon from Coal Tar, 1 J. Chem. Soc. 395 (1933).
26
¿Son las pruebas epidemiológicas de un riesgo elevado de D entre aquellos expuestos a

S esenciales para probar la causación general?72 Los “estudios epidemiológicos”, según
observan las directrices de la EPA de 1986, “proveen información única sobre los
humanos que han estado expuestos a presumibles cancerígenos.”73 Estudios
epidemiológicos “descriptivos”, continúan, “son útiles para generar hipótesis y proveer
datos de apoyo”, pero “sólo excepcionalmente pueden ser usados para hacer una
inferencia causal”; sin embargo, estudios “analíticos” de casos y controles o estudios de
cohortes “son especialmente útiles para valorar los riesgos sobre la exposición
humana”.74 Obviamente estudios epidemiológicos bien diseñados y bien llevados a cabo
que muestren un elevado riesgo incrementarían significativamente el grado de aval de
una conclusión causal; y, por supuesto, a diferencia de los estudios en animales, donde
está siempre la cuestión de si los animales usados son lo suficientemente parecidos a los
humanos en sus aspectos relevantes, los estudios epidemiológicos involucran humanos
(lo que, sin duda, es la razón por la que la Tabla 1 de las directrices de la EPA de 1986
efectivamente permitía a los estudios epidemiológicos superar a los estudios en
animales). Sin embargo, si hay suficientes pruebas positivas de otros tipos, una
conclusión causal podría estar avalada a un grado nada despreciable incluso en ausencia
de pruebas epidemiológicas.
72
Daubert v. Merrell Dow Pharm., Inc., 721 F. Supp. 570, 575 (S.D. Cal. 1989). Sosteniendo que, dado
que había un vasto cuerpo de pruebas epidemiológicas sobre el Bendectin, las opiniones expertas que no
estuvieran fundadas en pruebas epidemiológicas no eran admisibles. Véase, por ejemplo, Grimes v.
Hoffman-LaRoche, Inc., 907 F. Supp. 33, 35 (D.N.H. 1995), excluyendo el testimonio del Dr. Lerman
sobre que el Acutane jugó un rol en el desarrollo de las cataratas del Sr. Grimes, fundamentado en parte en
que “[e]n lugar de basarse en datos epidemiológicos, el Dr. Lerman funda su opinión sobre la causación
general principalmente en la teoría científica, en un experimento in vitro y en lo que él considera ciertos
hechos científicos ‘aceptados por la generalidad’); Sutera v. Perrier Group of Amer., 986 F. Supp. 655 (D.
Mass. 1997) (excluyendo el testimonio experto de los demandantes porque “no habían producido estudios
epidemiológicos con revisión entre pares que pudieran asociar la leucemia promielocítica aguda (LPA) con
la exposición al benceno” en niveles relevantes); In re. Rezulin Prods. Liab. Litig., 369 F. Supp. 2d 398,
411 (2005) (excluyendo el testimonio experto de los demandantes respecto que el fármaco Rezulin para la
diabetes causó un daño “silencioso” al hígado, en parte con el fundamento de que “[n]o hay ensayos clínicos
ni estudios epidemiológicos observacionales que sustenten la posición del demandante”); In re Bextra and
Celebrex Mktg. Sales Practices & Prod. Liab. Litig., 524 F. Supp. 2d 1166, 1175 (2007) (excluyendo el
testimonio experto del demandante sobre que el Celebrex pudo causar efectos cardiovasculares en una dosis
de 200 mg. diarios en parte con el fundamento de que “no hay ensayos aleatorios controlados o metaanálisis
de tales estudios o meta análisis de ensayos observacionales que encontraron una asociación entre el
Celebrex 200 mg. diarios y el riesgo de ataque cardiaco o derrame.
73
EPA Guidelines, 1986: 33995.
74
EPA Guidelines, 1986: 33995.
27
Esto es especialmente importante cuando, por una razón u otra, no hay disponible ningún
estudio epidemiológico relevante o tales estudios no son posibles.75 Michael Gottesman
argumenta que “es muy raro” que “haya pruebas epidemiológicas humanas conclusivas
disponibles”;76 dado que cuando hay sospecha de que un fármaco o un químico puede ser
dañino, los fabricantes son propensos bien a establecer “procedimientos preventivos
sobre el uso futuro del producto” o bien retirarlo del mercado, lo que hace mucho más
difícil el trabajo epidemiológico. Por ejemplo, continúan, los PCBs habían sido usados
habitualmente en los transformadores eléctricos hasta que los reportes empezaron a
vincularlos con ciertos cánceres y en 1977 fueron prohibidos;77 después de eso, ya no
fueron usados en los transformadores y, a partir de ahí, no hubo ninguna posibilidad
realista de realizar estudios epidemiológicos sobre un posible vínculo entre los PCBs y el
tipo de cáncer desarrollado por el señor Joiner.78
En cualquier caso, es importante dejar claro que el que “no haya pruebas epidemiológicas
de un riesgo elevado de sufrir D en aquellos expuestos a S” no es equivalente a “hay
pruebas epidemiológicas de que no hay riesgo elevado de sufrir D entre aquellos
expuestos a S”. (A diferencia de la llamada “falacia fagot”, confundir estas dos muy
diferentes proposiciones realmente es una falacia.) Por ejemplo, inicialmente no había
pruebas ni afirmativas ni negativas sobre si los pacientes que tomaron Vioxx por menos
de 18 meses habían elevado su riesgo de sufrir alteraciones cardiovasculares –y en los
primeros litigios sobre Vioxx, Merck argumentó como si esto fuera prueba de que no
había un riesgo elevado entre los pacientes que tomaron el fármaco solo por un período
de tiempo corto.79 Pero cuando después los estudios analizaban el uso del Vioxx en
75
Véase Castillo v. du Pont de Nemours, 854 So. 2d 1264, 1269–70 (Fla. 2003), reportando que el experto
del demandante argumentó que “los estudios epidemiológicos no estaban disponibles porque el Benlate es
un tóxico químico y, por ello, no susceptible de experimentación en humanos”, y que “en casos donde la
exposición ya para empezar es muy rara, hay problemas inherentes con los estudios epidemiológicos porque
un científico no puede (éticamente) exponer a un humano a un teratógeno conocido con el objetivo de
estudiar sus efectos”).
76
Gottesman, 1998. El Sr. Gottesman defendió a los demandantes en Daubert y Joiner en la Corte Suprema.
77
90 Stat. 2003, 2025 (1976), 15 U.S.C. § 605(e) (1976).
78
Gottesman, 1998: 767.
79
“En una admisión que podría rebatir una de sus principales defensas en las demandas relacionadas con
el Vioxx, Merck dijo ayer que se había equivocado cuando reportó a inicios de 2005 que un análisis
estadístico crucial mostró que Vioxx causaba problemas de corazón solo después de 18 meses de uso”.
Alex Berenson, Merck Admits a Data Error on Vioxx, N.Y. Times, mayo 3, 2006, p. C1. En Plunkett v.
Merck & Co. (In re Vioxx Prods. Liab. Litig., 410 F. Supp. 2d 565, 596–67 (E.D. La. 2005) los demandantes
plantearon la exclusión del testimonio presentado por Merck sobre que el Vioxx solo causaba efectos
trombóticos si era tomado durante 18 meses o más; pero fue denegado sobre la base de que ambas partes
se apoyaban en el mismo estudio (el llamado APPROVE study), mientras que el tribunal debería valorar
solo la metodología y no las conclusiones inferidas.
28
períodos cortos, se encontraron pruebas que sugerían que el riesgo subía desde la primera
dosis.80 Esto nos deja una lección: que la ausencia de pruebas sobre p es sólo eso –una
falta de pruebas; no es prueba de no-p.
Si hay estudios epidemiológicos relevantes y éstos no encuentran un riesgo elevado de D

entre aquellos expuestos a S, ¿esto es siempre e inevitablemente decisivo para alegar una
causación general? No, no siempre ni necesariamente. Si éstos son buenos estudios, sí;
pero si son significativamente defectuosos de forma tal que hacen probable que se haya
desestimado el riesgo, sus resultados negativos no son decisivos para tal alegación. En
Blum v. Merrell Dow, por ejemplo, el experto de los demandados, Dr. Shapiro, reconoció
bajo examinación cruzada que su estudio epidemiológico había mezclado mujeres que
tomaron Bendectin durante el periodo del embarazo en el que las extremidades del feto
ya estaban formadas y mujeres que tomaron el fármaco justo después de que las
extremidades ya estaban formadas; y, entonces, pudo haber desestimado cualquier riesgo
de defectos congénitos de reducción de extremidades.81 O, para tomar un ejemplo más
reciente, ahora sabemos que el estudio VIGOR, el primer estudio clínico grande que
realizó Merck sobre el Vioxx, vigiló los efectos gastrointestinales del Vioxx por más
tiempo de lo que controló sus efectos cardiovasculares; y, como resultado, no encontró
un riesgo elevado estadísticamente significativo de sufrir infartos y derrames.82
¿Es aceptable menospreciar o, simplemente y en principio, excluir estudios

epidemiológicos cuyos resultados no sean estadísticamente significativos?83 No. De
80
Patricia McGettigan y David Henry, Cardiovascular Risk and Inhibition of Cyclooxygenase: A
Systematic Review of the Observational Studies of Selective and Non-Selective Inhibitors on
Cyclooxygenase, 296 JAMA 1633 (2006), citaba estudios que encontraron un elevado riesgo por la ingesta
de Vioxx durante poco tiempo; W.A. Ray et al., Cyclo-oxygenase-2 Selective Non-Steroidal Anti-
Inflammatory Drugs and Risk of Serious Coronary Heart Disease, 360 Lancet 1071 (2002); D.H. Solomon
et al., Relationship Between Selective Cyclooxygenase-2 Inhibitors and Acute Myorcardial Infarction in
Older Adults, 109 Circulation 2068 (2004); Linda Lévesque et al., Time Variations in the Risk of
Myocardial Infarction Among Elderly Users of Cox-2 Inhibitors, 174 Can. Med. Ass’n J. 1563, 1563
(2006).
81
Blum ex rel. Blum v. Merrell Dow Pharms., Inc., 1996 WL 1358523, 33 Phila. Co. Rptr. 193, 215–17
(Pa. Ct. Comm. Pleas 1996). Véase también, en este volumen, Qué hay de malo con la ciencia para el litigio,
analizando el testimonio experto del demandado en Blum.
82
Véase David Armstrong, Bitter Pill: How the New England Journal of Medicine Missed Warning Signs
on Vioxx—Medical Weekly Waited Years to Report Flaws in Article that Praised Pain Drug—Merck Seen
as “Punching Bag,” Wall St. J., mayo 15, 2006, p. A1, A10, explorando los problemas del reporte de Merck
en el estudio VIGOR; véase también Haack, Revisión por pares y publicación, analizando los problemas
del estudio VIGOR.
83
Véase In re Bextra & Celebrex Mktg. Sales Practices & Prod. Liab. Litig., 524 F. Supp. 2d 1166 (N.D.
Cal. 2007), excluyendo el testimonio de los demandantes sobre el riesgo de efectos adversos en aquellos
que toman 200 mg. de Celebrex por día con el fundamento de que los estudios epidemiológicos no
29
hecho, entre menos robusto estadísticamente sea un estudio, menos contribuirá a avalar
una conclusión causal. Pero el punto crucial es que la importancia estadística es una
cuestión de grado; y que el punto de corte convencionalmente aceptado es sólo eso, una
convención –un punto de corte adoptado por la comunidad científica relevante y puesto
a un nivel alto para asegurar que el riesgo de los falsos positivos sea minimizado.84
Bradford Hill estaba en lo correcto cuando escribió, hace casi medio siglo, que el entonces
rápidamente creciente énfasis en la significancia estadística significaba que “muy a
menudo… captamos la sombra y perdemos la sustancia” cuando “deducimos ‘no
significante’ de ‘no estadísticamente significativo’”85. Pero la tendencia que él lamentaba
es ahora una práctica firmemente arraigada.86Y desafortunadamente, como Rothman
et.al. observan en su amicus brief en el caso Daubert, “a un juzgador de los hechos al que
se le dice que un cuerpo de información no es “estadísticamente significativa” se le hace
creer que los datos no tienen valor”; y, continúan, una frase “talismán” como
“estadísticamente significativo” puede crear la completamente errónea impresión de que
datos estadísticamente significativos son infalibles87.
El caso Dunn v. Sandoz Pharmaceutical Corporation88 es especialmente fascinante por

su confusión sobre esta cuestión. Brevemente: la señora Dunn había demandado a
Sandoz, los fabricantes, alegando que su fármaco para inhibir la lactancia, Parlodel, había
causado su derrame post-parto; pero el tribunal excluyó a su experto sobre la causalidad
general del caso, Dr. Kuling, sobre la base de que su testimonio no era lo suficientemente
fiable para satisfacer los estándares Daubert.89 El Dr. Kuling testificó diciendo: “creo que
encontraron una asociación estadística significativa. Véase también Daubert v. Merrell Dow Pharms., Inc.,
727 F. Supp. 570 (S.D. Cal. 1989), dando esta como parte de las razones para excluir el testimonio de los
expertos de Daubert.
84
Sin embargo, hay diferentes formas de calcular la importancia estadística, las cuales algunas veces dan
diferentes resultados y la selección de éstas es algunas veces una cuestión controversial. Keith J. Winstein,
Boston Scientific Stent Study Flawed, Wall St. J., Aug. 14, 2008, p. B1. B6 (reporta tal controversia).
85
Austin Bradford Hill en The Environment and Disease: Association or Causation?, Proc. Royal Soc’y
Med. 205 (1965), p. 299-300.
86
Weinstein, en Boston Scientific Stent Study Flawed, Wall St. J., Aug. 14, 2008, p. B1. B6, apunta que
“las revistas médicas tradicionalmente no publican estudios con resultados que no son estadísticamente
significativos”.
87
Reporte del profesor Kenneth Rothman et al., como Amici Curiae en soporte de los peticionarios, Daubert
v. Merrell Dow Pharms., Inc., 509 U.S. 570 (1993), p. *4.
88
Dunn v. Sandoz Pharms. Corp., 275 F. Supp. 2d 672 (M.D.N.C. 2003).
89
Dunn, 275 F. Supp. 2d at 681; see also Soldo v. Sandoz Pharms. Corp., 241 F. Supp. 2d 434 (W.D. Pa.
2003), and Caraker v. Sandoz Pharms. Corp., 172 F. Supp. 2d 1046 (S.D. Ill. 2001). El Dr. Kuling también
había propuesto testificar sobre el mismo efecto, pero fue excluido. Los abogados del señor Caraker, por
cierto, habían relacionado las pruebas periciales que ofrecían como encajando juntas como piezas de un
rompecabezas para establecer la causación. Id. p. 1048. Antes de adoptar la analogía con el crucigrama,
30
existe una relación causal porque he aplicado los criterios Bradford Hill”90; pero el
tribunal acordó con Sandoz en que el Dr. Kuling había aplicado incorrectamente esos
criterios al no darse cuenta de que eran aplicables sólo cuando ya había pruebas
epidemiológicas de una asociación entre una sustancia y un desorden. Hasta aquí, todo
correcto. Pero después el tribunal silenciosamente añadió una frase adicional: el Dr.
Kuling habría necesitado “haber tenido un estudio estadísticamente significativo como
punto de partida para la aplicación de los criterios Bradford Hill”91. El tribunal podría
haber estado en el correcto al sospechar que la aplicación de los criterios Bradford Hill
hecha por el Dr. Kuling era en gran parte decorativa92, y ciertamente estuvo en lo correcto
al señalar que tales criterios presuponen algunas pruebas de una asociación como punto
de partida; pero evidentemente no fue consciente de la actitud escéptica de Bradford Hill
sobre la insistencia de la significación estadística.
¿Es apropiado menospreciar (o excluir en principio) pruebas de estudios en animales?93

Por supuesto que no. Obviamente tales estudios pueden contribuir al aval de una
estuve trabajando un tiempo con la analogía de Michael Polanyi (1962), relacionando el trabajo de la ciencia
para construir un enorme rompecabezas.
90
Dunn, 275 F. Supp. 2d p. 677.
91
Dunn, 275 F. Supp. 2d p. 680.
92
De cualquier manera, como argumenté antes (p.), los “criterios” Hill pueden ser en el mejor de los casos
indicios de una relación causal. El testimonio del Dr. Kuling sugiere una cierta ambivalencia en este punto:
“[l]a comunidad toxicológica, mis pares, usan Bradford-Hill de forma extensiva… [En mi testimonio] he
dado un paso más y he aplicado al análisis un criterio publicado generalmente aceptado. … Y los criterios
Bradford-Hill, en mi opinión, es una metodología científica generalmente aceptada para el análisis de los
efectos adversos de fármacos”; sin embargo, también reconoce que “se pueden interpretar las pruebas de
forma diferente”). Dunn. 275 F. Supp. 2d at 677–78. Leyendo su informe en este caso, encontré que escribía
como si Bradford Hill hubiese ofrecido una check-list, bajo esa idea comenta, por ejemplo, que “este criterio
[la temporalidad] es fácil de alcanzar”, etc., mientras Bradford Hill parece estar bien consciente tanto de
que muchos de sus criterios pueden ser alcanzados en diferentes grados y que es necesario usar el juicio
propio para decidir cuán probable es que la relación sea causal. Informe de Kenneth Kulig, M.D., FAACT,
FACMT at ¶ 27-30, Dunn v. Sandoz, 275 F. Supp. 2d 672 (M.D.N.C. 2003) (No. 1:98 CV 00912), 2000
WL 34616176.
93
Véase, por ejemplo, Metabolife Int’l v. Wornick, 72 F. Supp 1160, 1169 (S.D. Cal. 1999), excluyendo
las pruebas científicas de Metabolife, en parte con el fundamente de que como una cuestión de derecho los
estudios en animales no son admisibles. En el 2001 la U.S. Court of Appeals del 9º circuito revocó esta
exclusión. Véase Metabolife Intn’l v. Wornick, 264 F. Rptr. 3d 832 (2001). Véase también In re Silicone
Gel Breast Implants, 318 F. Supp. 2d 879 (C.D. Cal. 2004), excluyendo las pruebas de los estudios en
animales presentadas por los demandantes bajo el argumento de que “[l]as extrapolaciones de los estudios
con animales a los seres humanos generalmente no son consideradas confiables en ausencia de una
explicación científica creíble sobre la justificación de tal extrapolación” (citando Hall v. Baxter Healthcare
Corp., 947 F. Supp. 1387, 1410 (D. Or. 1996)). En Joiner, el Tribunal de Distrito había acordado a favor
de G.E. que los estudios en animales en los cuales sus expertos se basaban eran inadecuados para establecer
que la exposición de Joiner al PBC’s había promovido su cáncer; en apelación, los abogados de Joiner (no
inteligentemente) argumentaron como si la cuestión fuera si los estudios en animales, como tal, pudieran
ser un fundamento adecuado de una opinión experta. Véase Gen. Elec. Co. v. Joiner, 522 U.S. 136, 144
(1997).
31
conclusión causal –en mayor medida si están bien diseñados y son bien llevados a cabo,
usando apropiados animales, dosis, modos de transmisión, tiempos de transmisión, etc.
Por supuesto, y no menos obvio, existe siempre la posibilidad de que los animales sean
adversamente afectados por S y, en cambio, no lo sean los humanos, y viceversa;94 y si
estos estudios en animales bien diseñados y bien practicados no muestran un riesgo
elevado de D en los humanos expuestos a S, correctamente podríamos sospechar que
pudiese haber diferencias fisiológicas relevantes de las cuales no somos aún conscientes.
¿Son las pruebas epidemiológicas de un aumento del riesgo en más del doble
(epistemológicamente) esenciales para establecer una relación causal específica? Es
decir, para pasar de la afirmación general de que la exposición a S algunas veces causa o
promueve D, a la afirmación específica de que fue su exposición a S lo que causó o
promovió D en este demandante, ¿es necesario mostrar que la exposición a S aumenta en
más del doble el riesgo de D? Esta es la exigencia que impuesta por el juez Kozinski
cuando conoció el caso Daubert en el momento en que la Corte lo regresó a esa instancia
para su revisión.95 Pero descansa en una confusión. La idea detrás de tal exigencia es,
presumiblemente, que sólo si la exposición a S al menos dobla el riesgo de D, entonces
podemos inferir que las probabilidades de que el demandante, habiendo estado expuesto
a S y habiendo desarrollado D, desarrolló D porque estuvo expuesto a S. Pero esta idea
descansa en una confusión entre las probabilidades estadísticas y las probabilidades
94
[U]no puede generalmente confiar en el hecho de que un compuesto que causa un efecto en una especie
mamífera lo causará en otras especies. Este es un principio básico de la toxicología…” Federal Reference
Manual on Scientific Testimony, 2000: 410. Sin embargo, los estudios en animales tienen dos desventajas:
la dificultad de extrapolar a los humanos porque “las diferencias de absorción, metabolismo y otros factores
pueden resultar en variaciones en las respuestas entre las especies”; y porque “las altas dosis que se
acostumbra usar en los estudios en animales” dejan preguntas abiertas sobre la respuesta en función de la
dosis en relación con los humanos. Id. 490.
95
Al conocer del caso Daubert cuando este fue reenviado en revisión por la Corte Suprema, el juez Kozinski
argumentó que los expertos de los Daubert debían ser excluidos bajo los nuevos criterios, de la misma
manera en que lo habían sido bajo el criterio Frye; decidiendo que, a menos que un experto afirmara mostrar
que el Bendectin al menos dobla el riesgo de los daños congénitos, tenía que ser excluido por irrelevante.
Véase Daubert v. Merrell Dow Pharm., Inc., 43 F.3d 1311, 1320–21 (9th Cir. 1995) (“el derecho de daños
de California exige a los demandantes mostrar que el Bendectin no solo incrementa las posibilidades de
daño, sino que es más probable que hubiese causado sus daños que no” (cita Jones v, Ortho Pharm. Corp.,
163 Cal. App. 3d 396, 209 Cal. Rptr. 456 (1985)). El tribunal continuó: [e]n términos de prueba estadística,
esto significa que el demandante debe probar … que [sus madres al tomar Bendectin] aumentaron en más
del doble” el riesgo. Véase Daubert, 43 F.3d p. 1320; véase también Id. p. 1321 (citando DeLuca v. Merrell
Dow Pharm., Inc., 911 F.2d 941, 941, 958 (1990), donde la exigencia del derecho de New Jersey, que el
demandante debe mostrar que es más probable que improbable que el Bendectin hubiese causado los daños
congénitos de Amy DeLuca, es interpretado como que “el riesgo relativo de sufrir defectos de reducción
de extremidades surgidos de los datos epidemiológicos… deberán, como mínimo, exceder “2”.
32
epistémicas; y reflexionando, es claro que doblar un riesgo estadístico no es ni necesario

ni suficiente para probar una relación causal específica.
Pruebas epidemiológicas de un incremento en más del doble no son suficientes para

probar la causalidad específica: primero, porque si el estudio que demuestra un aumento
del doble en el riesgo está mal diseñado o mal ejecutado, sólo tendríamos una baja
probabilidad epistemológica de un poco más del 50% de la probabilidad estadística; y,
segundo, porque incluso un estudio bien diseñado y bien conducido puede también
mostrar que aquellos sujetos que desarrollaron D al estar expuestos a S tienen algunas
características en común –pacientes más mayores en lugar de más jóvenes, quizás, o
mujeres en lugar de hombres, o sedentarios en lugar de activos- y nuestro demandante
podría ser una mujer mayor y sedentaria. Una prueba epidemiológica de un aumento del
riesgo en más doble no es necesaria para probar la causalidad específica tampoco:
primero, porque estudios que no muestran un incremento del riesgo en más del doble
pueden ser defectuosos –por ejemplo, porque no toman en cuenta el periodo de embarazo
en el cual las personas han estado expuestas a S o porque no toman en cuenta el hecho de
que entre los sujetos están incluidos quienes hayan podido estar expuestos a S a través de
medicamentos para el resfriado o para el sueño;96 y, segundo, porque incluso un buen
estudio epidemiológico indicando un alto grado de probabilidades epistémicas de que hay
un incremento del riesgo en más doble puede también indicar que aquellos sujetos que
desarrollaron D tienen alguna característica (tal como estar sobre los 50 o ser sedentarios
o alérgicos o lo que sea) que el demandado no tiene.97
Este es un problema relacionado con otro argumento que algunas veces se esgrime,
consistente en que dado que (por poner un ejemplo) se cree con fundamento en pruebas
fiables que el 10% de los casos de D son genéticos y el 20% son causados por factores
ambientales, mientras que las causas del 70% restante siguen siendo desconocidas, las
96
Véase supra nota 51 y el texto que la acompaña.
97
En una nota al pie, el juez Kozinski reconoce este problema, al menos en parte: [s]in duda, habrá
resultados injustos con este estándar. Si un medicamento incrementa las probabilidades de los defectos
congénitos, pero no los aumenta al doble, a algunos demandantes cuyos daños sean atribuibles al fármaco
les será denegada una indemnización”; pero lo desestima con la observación de que “[h]ay una injusticia
inversa bajo un régimen que permite la indemnización para cada uno de quien pudo haber sido afectado
por el fármaco” y diciendo que es una cuestión que debe ser resuelta por los estados. Daubert, 43 F.3d p.
1320 n.13. También reconoce la posibilidad de que pudiéramos tener pruebas de que un demandante
pertenece a una subclase que es más susceptible de lo habitual en la población, pero apunta que los
demandantes en Daubert no habían ofrecido pruebas de dicho efecto. Véase, id., p. 1321 n.16.
33
probabilidades son que el desarrollo de D en este demandante no fue causado, como se

alega, por su exposición a S. Pero aquí la confusión entre probabilidades estadísticas y
probabilidades epistémicas se superpone con otras confusiones de dos tipos: una
presunción falsa de que la causa de D debe ser o bien genética o bien ambiental (cuando
puede ser una interacción entre ambas); y, tratar “desconocido” como si se refiriera a otro
tipo de causa, como “genéticas” o “ambientales” –cuando en realidad, evidentemente, es
una expresión de ignorancia. Si un demandante argumenta que fue la exposición a S lo
que causó que él desarrollara D y el demandado contesta que eso es improbable dado que
sabemos que 70% de los casos de D provienen de causas desconocidas; la respuesta del
demandado es defectuosa –porque si la afirmación del demandante es verdadera, lo que
pensamos saber sobre qué proporción de los casos de D son causados por factores
desconocidos y qué sobre los factores desconocidos podría, después de todo, no ser
conocimiento genuino.
Cuando Donald Rumsfeld hizo ese comentario notorio sobre “los desconocidos de lo
desconocido”, el tema, por supuesto, era la inteligencia iraquí. Quizá yo fui la única
persona en los Estados Unidos que no se burló; en todo caso, desde una perspectiva
estrictamente epistemológica, al menos, el secretario Rumsfeld tenía un punto
genuinamente importante: no sólo podemos no tener todas las pruebas que pudieran ser
relevantes (“lo desconocido” en rumsfeldese); sino que puede haber pruebas que no
tenemos pero que desconocemos que son relevantes. Esto –el Problema Rumsfeld de los
desconocidos- es también relevante para la siguiente cuestión en mi lista.
¿Podemos inferir del hecho de que no se conozcan aun las causas de D y que un
demandante desarrolló D después de estar expuesto a S, que su exposición a S fue lo que
causó D en la Sra. X o en el Sr. Y?98 No. Tal prueba seguramente nos daría razones para
considerar la posibilidad de que S es una causa de D o la causa de D. Pero hablar por
hablar de “inferencia a la mejor explicación” oculta el hecho de que la que actualmente
parece ser la explicación más plausible en realidad puede no serlo –de hecho, no puede
98
Véase, por ejemplo, Rosen v. Ciber-Geigy Corp., 78 F.3d 316, 318 (7º Cir. 1996), sosteniendo que el
tribunal de distrito no había abusado de su discreción al excluir el testimonio del Dr. Fozzard sobre que el
infarto había sido causado por el parche con nicotina que traía puesto tres días antes de que ocurriera:
“[c]uando un evento inusual sucede cerca de otro evento inusual, la persona común infiera una relación
causal. … Pero especulaciones de los legos sobre la causalidad médica, aunque sean plausibles, son una
base peligrosa para inferir una relación causal …”.
34
ser ni siquiera una explicación. Podríamos no saber todas las causas potenciales de D o
incluso cuáles otras explicaciones candidatas sería acertado investigar.
4. El argumento jurídico
Bajo Daubert los tribunales deben valorar la relevancia y la fiabilidad (“probatoria”) del
testimonio experto ofrecido.99 Vale la pena hacer una pausa por un momento para señalar
que la relevancia, como la fiabilidad, es una cuestión fáctica. Si (y en qué grado) p es
relevante para q, no es una cuestión puramente lógica, sino que depende de los hechos
del mundo; si, y sólo si, la astrología es verdadera, por ejemplo, la posición de los planetas
en el momento del nacimiento de una persona es relevante respecto cómo le resultaran
las cosas esa semana. Sin embargo, aunque ello sea interesante, el objetivo de este trabajo
reside en la fiabilidad.
La fiabilidad, asumo, es una cuestión gradual; la admisibilidad, por el contrario, es

(normalmente) categórica: a un testigo se le permite testificar, o testificar en esta o aquella
cuestión,100 o ninguna de las anteriores.101 Entonces cuando un tribunal determina si un
testimonio es admisible o no está imponiendo una línea de demarcación en un continuo
de grados de fiabilidad.102 El desajuste entre la naturaleza categórica de la admisibilidad
y el carácter gradual de la fiabilidad ha sido más marcado desde el 2000, cuando la FRE
702 fue revisada para requerir que el testimonio experto estuviera fundado en información
99
Algunos preferirían decirlo un tanto diferente: que Daubert claramente impuso este requerimiento con
respecto al testimonio científico, pero solo hasta que la Corte Suprema clarificó su alcance en Kumho Tire
fue claro que el requerimiento también era aplicable a otro tipo de testimonios expertos distintos a los
científicos. Kumho Tire Co., Ltd. v. Carmichael, 526 U.S. 137 (1999).
100
Véase, por ejemplo, U.S. v. Llera-Plaza, Nos. CR 98-362-10, 98-362-11, 98-362-12 (E.D. Pa. Jan. 7
2002). El juez Pollack resolvió que el testimonio de los analistas de huellas dactilares era admisible para
ciertas cuestiones, “las partes no tendrán permitido presentar testimonios que expresan una opinión de un
testigo experto sobre que una huella latente es coincidente, o no, con la huella del patrón de una persona
particular y, por lo tanto, son (o no) las huellas de esa persona”. Id. p. 19.
101
Pero véase Transcript of Bench Ruling at 1484, U.S. v. Brown, 05 Cr. 938 (JBR) Southern District
Reporters 1468, 1484 (S.D.N.Y., 2008), razonando que la admisibilidad bajo Daubert no necesita ser
construida como una cuestión categórica y permitiendo que testifiquen analistas en balística cuyas
conclusiones solo son más probables que no; observando también que el tribunal “tuvo una discusión cerca
de un año atrás con el Prof. Dan Capra [de las facultades de derecho de Columbia y Fordham] preguntándole
si “la regla 702 sería supuestamente una regla absoluta, en el sentido en que se admite o se excluye”, a lo
que él respondió negativamente, un no rotundo. … [P]or supuesto, es solo su opinión. … Pero hay muchas
situaciones donde podemos encontrar que la metodología y el testimonio son fiables en cierto grado, no a
un grado superior -no al grado sugerido por un testigo y que la regla 702 entonces dice que no se excluya
del todo, sino que admita con ciertos límites”). Véase también U.S. v. Glynn, No. 06 Cr. 580, 2008 WL
4293317, p. *1 (S.D.N.Y. Sept. 22, 2008), refiriéndose a la decisión del tribunal en Brown.
102
Véase Nance, 2003: 123.
35
“suficiente”, obtenida de forma “fiable” y aplicada de forma “fiable” a los hechos del
caso.103 Y el hecho de que una parte al enfrentar el reto Daubert con su testimonio experto
ofrecido deba mostrar “por preponderancia de la prueba” que su testimonio satisface el
estándar jurídico de fiabilidad es parte de las complejidades. Lo que debe mostrar,
aparentemente, es que es más probable que improbable que este testimonio es
probablemente suficiente para satisfacer el objetivo de la fiabilidad impuesto en Daubert.
Bueno: he trabajo en epistemología durante muchos años, pero debo decir que es un
misterio para mí lo que esto significa.
Pero el problema más directamente relevante para los propósitos actuales es que Daubert
parece sugerir un tipo de atomismo probatorio104 que va en contra del carácter más holista
de la prueba de la causalidad. El problema es muy evidente en el caso Joiner, cuando la
Corte Suprema analizó uno a uno (algunos de) los estudios que los expertos presentados
por Joiner citaban como admitidos previamente y resolvió que ninguno de ellos pasaría
los criterios Daubert. Pero la decisión del juez Kozinski cuando el caso fue devuelto para
su revisión revela que el problema deriva de Daubert en sí mismo. Dado que el derecho
había cambiado desde que el tribunal le había concedido el juicio sumario a Merrell Dow
en 1989, el juez Kozinski argumentó, el caso podría ameritar dar la oportunidad a las
partes de mostrar que el testimonio experto que ofrecen satisface el nuevo estándar;105sin
embargo, señaló, no tenía ningún sentido hacerlo si ya estaba claro que sus expertos serían
excluidos al aplicar Daubert, como lo habían sido cuando se aplicó Frye. Y de hecho,
continuó, ello ya era claro. Considerando cada uno de los testimonios de los expertos
presentados por Daubert, el juez Kozinski observa, primero que todos menos uno de ellos
dijeron únicamente que habría alguna posibilidad de que el Bendectin cause defectos
congénitos, y ni siquiera afirmaba, por supuesto que no mostraba, que el consumo del
fármaco por una madre aumentaría en más del doble el riesgo, y, por ello, tendría que ser
excluido por cuestiones de relevancia;106 y entonces que el Dr. Palmer, el único experto
que afirmaba más, que el Bendectin causó los defectos congénitos de Jason Daubert,
103
Regla Federal sobre la Prueba 702.
104
También llamado algunas veces, en inglés, “corpuscularism”. Véase, McGarity, 2004: 921.
105
Véase Daubert v. Merrell Dow Pharm., Inc., 43 F.3d 1311, 1315 (9º Cir. 1995). De hecho, la retórica de
Daubert (1993) fue que el nuevo estándar era más tendiente hacia la admisión de los testimonios expertos
que el viejo y austero criterio Frye. Véase Daubert v. Merrell Dow Pharms., Inc., 509 U.S. 578, 589 (1993),
“ese criterio austero, ausente de las reglas federales sobre la prueba e incompatible con ellas, no debe ser
aplicado en los juicios federales”.
106
Véase también la nota supra 96 y el texto que la acompaña.
36
simplemente no tenía una metodología y entonces tenía que ser excluido por cuestiones
de fiabilidad.
Y esta estrategia atomista está implícita en la decisión de la Corte en Daubert, de acuerdo

con la cual se debe valorar (la relevancia y) la fiabilidad de cada prueba pericial. Para ser
admisible, e1 debe ser (relevante y) fiable, e2 debe ser (relevante y) fiable, e3 debe ser
(relevante y) fiable, etcétera.107 Pero si mi argumento epistemológico es correcto, la
combinación de e1, e2, e3, …en podría avalar una conclusión causal mejor que cualquiera
de sus componentes en lo particular- en la terminología Daubert tal vez diríamos más
fiable que cualquiera de sus componentes.
Podría pensarse –por un tiempo yo misma lo pensé- que esta dificultad puede ser evitada
si Daubert es interpretado no exigiendo que cada prueba pericial fuese lo suficientemente
fiable como para sugerir como última conclusión que la exposición a S causa o promueve
D, sino que cada prueba fuera lo suficientemente fiable para sugerir la conclusión del
estudio referido: por ejemplo, que la información proveniente de un estudio
epidemiológico lo suficientemente fiable indique la conclusión de que “hay un elevado
riesgo de n% de desarrollar D entre aquellos expuestos a S”, que los datos provenientes
de estudios en animales lo suficientemente fiables sugieren tal conclusión “cuando los
animales de este tipo expuestos a esa dosis de S, suministrada de esta manera, m% de
ellos desarrollaron D”… etc. Sin embargo, aunque no se puede descartar cierta
justificación para esta interpretación de la sentencia en la cita que hizo el magistrado
Blackmun sobre el supuesto significado de fiabilidad probatoria,108 me temo que ello no
resuelve el problema.
La “engañosa exactitud”, Oliver Wendell Holmes alguna vez observó perspicazmente,

“es la fuente de falacias en todo el derecho”109. Y, de hecho, no es claro que dar un
significado preciso a “preponderancia de las pruebas” fuera deseable, incluso si fuera
posible. Pero para los propósitos de mi argumento no es importante a qué equivale el
estándar de la “preponderancia de las pruebas” –una frase que, interesantemente, tiene el
107
Véase McGarity, 2004: 924: “[b]ajo un planteamiento corpuscular, un estudio o es válido o es inválido
o es relevante o irrelevante. Una conclusión basada en estudios inválidos o irrelevantes no puede ser
relevante o fiable y, por ello, debe ser rechazada”.
108
Daubert, 509 U.S. p. 590 n.9, caracterizando a la “fiabilidad probatoria”.
109
Truax v. Corrigan, 257 U.S. 312, 341 (1921).
37
“peso” de una metáfora integrada-110. Para el punto esencial aquí, lo importante es que
sea cual sea el estándar, podría haber instancias en las cuales las pruebas están igualmente
balanceadas, es decir, donde las pruebas no avalan C pero tampoco avalan no-C, y hacen
esto al mismo grado; y en tales circunstancias incluso un mínimo incremento del aval de
un lado o del otro daría una “preponderancia” a favor de C o en contra de C. Y aunque es
cierto que la prueba ej, favorable para C, aumentaría muy poco el aval de C siendo sólo
ella (y la prueba ek, desfavorable para C, disminuiría muy poco el aval de C siendo sólo
ella), incluso tales pruebas podrían cambiar la balanza, es decir, hacer la diferencia entre
“uniformemente balanceada” y “favorece marginalmente C sobre no-C”, o viceversa. Y
entonces, si algún elemento de las pruebas que hubiese podido cambiar la balanza es
excluido, bajo el criterio de fiabilidad establecido en Daubert, ello podría de hecho
impedir la valoración de la fiabilidad de un testimonio científico en su totalidad –porque
el jurado nunca escuchara un elemento que el tribunal ha excluido sobre la base de que
es en sí mismo insuficiente para satisfacer el estándar.
Por supuesto, aunque la verdad fáctica es indudablemente importante para la justicia

sustantiva, algunas reglas probatorias –el privilegio testimonial entre esposos, por
ejemplo, o la regla 407(b), bajo la cual son inadmisibles pruebas de una reparación
posterior- deliberadamente permiten que consideraciones de política pública precluyan la
presentación de pruebas que pudieran ser ampliamente relevantes para la verdad de los
hechos en cuestión. Si tales reglas con un enfoque de política pública están justificadas
es una cuestión diferente, que no puedo desarrollar aquí;111 pero, en todo caso, la FRE
702 no es una de tales reglas, sino que está enfocada precisamente y de forma clara en la
fiabilidad.
Más relevante para el argumento aquí tratado es la idea de que los tribunales al excluir
testimonios científicos bajo la cláusula de la fiabilidad de Daubert pueden (al menos
algunas veces) estar motivados por cierta preocupación de que un jurado al que se le
presentan un cúmulo de pruebas débiles pueda inferir una conclusión no avalada. Se
puede inducir al error a un jurado, en efecto, de tal manera: pero ello no se sigue del hecho
110
Webster’s Ninth New Collegiate Dictionary 929 (Merriam Webster, 1991), definiendo la palabra inglesa
“preponderance” (en castellano, “preponderancia”) como “superioridad en peso, poder, importancia o
fuerza”.
111
Pero, véase Epistemología juridificada, en este volumen, explicando brevemente esta cuestión.
38
de que, como he argumentado aquí, una combinación de pruebas, cada una de las cuales
es individualmente insuficiente, pueden conjuntamente avalar una conclusión a un grado
mayor que cualquiera de sus componentes, que cualquier combinación de tales pruebas
avala la conclusión al nivel de prueba exigido por el estándar. Pero un tribunal puede
también ser inducido a error, quizá en la dirección contraria; pero ello no se sigue del
hecho de que una combinación de pruebas cada una de las cuales es individualmente
insuficiente pueda también ser conjuntamente insuficiente, que cualquier combinación de
tales pruebas no avale la conclusión al grado exigido. Como esto revela, la raíz del
problema es que mientras el sistema jurídico confía cada vez más en las pruebas
científicas, ni los jueces ni los jurados –ni tampoco los abogados, para lo que aquí
interesa- están bien equipados para hacer juicios sobre cuestiones científicas cuando
incluso expertos altamente cualificados y competentes pueden estar en desacuerdo de
forma honesta y razonable.
39

Probar La Causalidad - El Holismo Del Aval y El Atomismo de Daubert

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Probar La Causalidad - El Holismo Del Aval y El Atomismo de Daubert

Загружено:

Авторское право:

Доступные форматы

Favor de no utilizar fuera del contexto del máster. Es material inédito.

La consiliencia de las inducciones tiene lugar cuando una inducción,

Como mi título indica, este artículo se enfoca en la prueba de la causalidad en el derecho

1. Sentando las bases

concedió esta petición. Los Oxendine apelaron nuevamente; y en 1989, argumentando

a la distinción entre la metodología y las conclusiones, “podría decirse que no es fiel a …

No es intrínsecamente “no-científico” para los profesionales bien experimentados

Tampoco es la confianza en muchas líneas de pruebas entrelazadas limitadas por las

En su momento señalé que se trata de probabilidades epistémicas, aunque a menudo

completadas). Pero la conexión entre la seguridad independiente y el aval es un poco más

Entonces, una combinación de piezas probatorias avalará una conclusión en un grado

Si aplicamos este análisis abstracto a un ejemplo esquemático basado en diversos tipos

Supongamos que la afirmación en cuestión es que la exposición a la sustancia S causa, o

desarrollo de cáncer de pulmón. Las pruebas E, relevantes para la conclusión C, pueden

• Teorías químicas, biológicas, psicológicas, genéticas, etc., relevantes sobre

Y puede haber, adicionalmente, pruebas (¿meta-meta-pruebas?) sobre las fuentes de

• Pruebas de que estudios relevantes fueron anteriormente publicados en

revisión por pares son retractados,48 o si los artículos publicados en revistas de

que S fuera retirado, o quizá la exposición a X, Y, Z también se redujo, y uno de éstos es

(ii) Seguridad independiente: combinar pruebas puede también aumentar la

(iii) Comprehensión: E es por supuesto más comprehensivo que cualquiera de sus

estudio epidemiológico no encontró un elevado riesgo en humanos (e2), el grado de aval

Lo que he ofrecido es un análisis teórico, una caracterización abstracta de los

humanos o en animales es integrado; (2) estas líneas de información se combinan para

Y tercero, reconocer que la distinción que he enfatizado entre las probabilidades

(i) Fuerza: es decir, cuánto incrementa el riesgo de D en aquellos expuestos a S;

(ii) Consistencia: es decir, si la asociación entre S y D ha sido observada por

No es sorprendente que los “criterios Bradford Hill” se hayan demostrado duraderos,70

Mientras la “fuerza” de la asociación entre S y D, i.e. cuán grande es el incremento del

3. Respondiendo a algunas cuestiones disputadas

¿Son las pruebas epidemiológicas de un riesgo elevado de D entre aquellos expuestos a

Si hay estudios epidemiológicos relevantes y éstos no encuentran un riesgo elevado de D

¿Es aceptable menospreciar o, simplemente y en principio, excluir estudios

El caso Dunn v. Sandoz Pharmaceutical Corporation88 es especialmente fascinante por

¿Es apropiado menospreciar (o excluir en principio) pruebas de estudios en animales?93

epistémicas; y reflexionando, es claro que doblar un riesgo estadístico no es ni necesario

Pruebas epidemiológicas de un incremento en más del doble no son suficientes para

probabilidades son que el desarrollo de D en este demandante no fue causado, como se

La fiabilidad, asumo, es una cuestión gradual; la admisibilidad, por el contrario, es

Y esta estrategia atomista está implícita en la decisión de la Corte en Daubert, de acuerdo

La “engañosa exactitud”, Oliver Wendell Holmes alguna vez observó perspicazmente,

Por supuesto, aunque la verdad fáctica es indudablemente importante para la justicia

Вам также может понравиться