Вы находитесь на странице: 1из 8

Documento descargado de http://http://zl.elsevier.es el 17/10/2013. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.

CONFERENCIA CLÍNICA

Editor: F. Cardellach Caso: 55-2002

47.948
47.948

Análisis multivariante en investigación biomédica: criterios para la inclusión de variables

Erik Cobo

Departamento de Estadística e Investigación Operativa. Universitat Politècnica de Catalunya. Barcelona.

Los modelos de regresión múltiple, sea lineal, Cox o logísti- ca, son muy populares en la investigación biomédica por la posibilidad que ofrecen para controlar el efecto de terceras variables. Sin embargo, a menudo los investigadores, auto- res y lectores se preguntan qué criterios se deben seguir para decidir qué variables incluir en el modelo. Estas líneas pretenden aportar algunas claves. Para ello, en primer lugar se recuerda la necesidad de considerar aquellas variables relevantes que podrían determinar la variable respuesta que se está analizando, ya que su olvido podría originar que se confundieran entre sí los efectos de variables que se pre- sentan juntas o correlacionadas 1,2 . En segundo lugar, se ex- ponen los modelos de regresión múltiple y las propiedades estadísticas que debe cumplir la estimación obtenida en un estudio. A continuación, mediante dos ejemplos, se mues- tran las dificultades, los retos y las trampas que puede pre- sentar el análisis multivariante. Finalmente se exponen 4 criterios que se debe tener en cuenta a la hora de seleccio- nar las variables que se incluirán en un modelo.

Necesidad del ajuste

Supóngase que, por el motivo que sea, la evolución de los pacientes ingresados en un determinado centro es mejor que la evolución de los pacientes de otro. Por ejemplo, en el primer centro (C1), la razón (u odd) entre evolución favora- ble (Y+) y desfavorable (Y–) está 2 a 1 (es decir, los que evolucionan favorablemente doblan a los que no lo hacen:

«2»); mientras que en el segundo centro (C2) está 1 a 2 (es

decir, los que evolucionan favorablemente son la mitad de los que no lo hacen: « 1 / 2 »). El cociente de estas dos razones

(u odds ratio) vale 4 (2/ 1 / 2 = 4), indicando que en el centro

C1 la razón entre evolución favorable y evolución no favora- ble es 4 veces superior que en el centro C2:

 

Y+

Y–

Razón

C1

120

60

2 a 1 1 a 2

C2

60

120

Razón de razones = odds ratio (OR) = 4

Es decir, la respuesta depende del centro y en C1 se curan 4 veces más. Si se desea comparar cierto tratamiento

(X = A) con un control (X = B) en estos centros, un buen in-

Palabras clave: Regresión. Análisis multivariante. Ajuste. Confusión. Diseños observacionales y experimentales.

Conferencia celebrada el 21-3-2002 en el Hospital Clínic de Barcelona.

Correspondencia: Dr. E. Cobo. Departament d’Estadística i Investigació Operativa. Universitat Politècnica de Catalunya. Pau Gargallo, 5. 08028 Barcelona. Correo electrónico: erik.cobo@upc.es

vestigador mantendrá igual la razón entre tratados y controles en ambos centros. Por ejemplo, diseñará un estudio como el siguiente, en el que el idéntico equilibrio entre tratados y con- troles en ambos centros se traduce por una OR igual a 1:

 

X = A

X = B

Razón

C1

90

90

1 a 1 1 a 1

C2

90

90

 

Razón de razones = OR = 1

 

Es decir, en este ejemplo, el tratamiento esta balanceado entre centros, ya que la razón tratados con A frente a trata- dos con B es idéntica en ambos. Si no existieran diferencias entre los tratamientos, se podría observar, en cada centro, una situación como la siguiente:

C1

Y+

Y–

Razón

X

= A

60

30

2 a 1 2 a 1

X

= B

60

30

 

OR = 1

IC del 95% = 0,5-1,9

C2

Y+

Y–

Razón

X

= A

30

60

1 a 2 1 a 2

X

= B

30

60

 

OR = 1

IC del 95% = 0,5-1,9

En ambos centros por separado, el tratamiento no tiene efecto: en el centro 1, ambos tratamientos (X = A y X = B) tienen la misma razón «2 a 1» entre evolución positiva (Y+) y negativa (Y-), conduciendo a una OR de 1, que indica que el tratamiento no tiene efecto. Y lo mismo en el centro 2; aunque la tendencia es ahora hacia una evolución negativa «1 a 2», dado que esta tendencia se observa por igual en ambos grupos, tampoco existe relación (OR = 1) entre trata- miento y evolución. Si este investigador quisiera presentar los resultados comparativos de los tratamientos sin distin- guir el centro en el que se han obtenido, obtendría los si- guientes datos, concluyendo también que no existe relación entre tratamiento y evolución:

 

Y+

Y–

Razón

X

= A

90

90

1 a 1 1 a 1

X

= B

90

90

 

OR = 1

IC del 95% = 0,7-1,5

Es decir, estudiando ambos centros a la vez, el tratamiento tampoco muestra efecto alguno. En resumen, como era dese- able, este investigador cuidadoso obtiene los mismos resulta- dos cuando realiza el análisis teniendo en cuenta la tercera va- riable centro (OR = 1), que cuando no la considera (OR = 1).

230 Med Clin (Barc) 2002;119(6):230-237

Documento descargado de http://http://zl.elsevier.es el 17/10/2013. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.

COBO E. ANÁLISIS MULTIVARIANTE EN INVESTIGACIÓN BIOMÉDICA: CRITERIOS PARA LA INCLUSIÓN DE VARIABLES

¿Qué pasaría si el investigador no hubiera previsto la posibi- lidad de que diferentes hospitales puedan tener diferentes preferencias en cuanto al tratamiento? En el primer centro, las preferencias de sus médicos les llevan a tratar a 5 pa- cientes con X = A por cada caso tratado con X = B (razón:

5 a 1), mientras que en el segundo las preferencias son justo al revés (razón: 1 a 5), lo que conduce a un desequili- brio global que la razón de razones (odds ratio) cuantifica en 25:

 

X = A

X = B

Razón

C1

150

30

5 a 1 1 a 5

C2

30

150

 

OR = 25

Ahora, el tratamiento no está balanceado entre centros: en C1 se usa el tratamiento A 25 veces más que en el centro 2. Las consecuencias de este mal diseño son muy importan- tes. Si este investigador realizara el análisis ajustando por centro, como en el modelo siguiente observaría una OR de 1, indicativo de que no existe relación entre tratamiento y evolución:

 

C1

Y+

Y–

Razón

X

= A

100

50

2 a 1 2 a 1

X

= B

20

10

 

OR = 1

IC del 95% = 0,4-2,3

 

C2

Y+

Y–

Razón

X

= A

10

20

1 a 2 1 a 2

X

= B

50

100

 

OR = 1

IC del 95% = 0,4-2,3

Una vez más, al estudiar ambos centros por separado, el tratamiento no tiene efecto. Sin embargo, si por brevedad o descuido, este investigador no tiene en cuenta el centro del que proceden los datos y estudia únicamente la tabla con- junta, y obtendrá una OR de 2,5 con un intervalo de con- fianza de 1,6 a 3,8, que indica asociación entre tratamiento y evolución:

 

Y+

Y–

Razón

X

= A

110

70

11 a 7 7 a 11

X

= B

70

110

 

OR 2,5

IC del 95% = 1,6-3,8

TABLA 1

Opciones para el ajuste

Z

X
X

X

Z X X Y Y

Y

Y

Fig. 1. Relación «espuria» entre X e Y originada por no considerar la variable Z relacionada con ambas.

Al estudiar ambos centros juntos, el tratamiento parece te- ner un efecto que en realidad no tiene. En resumen, este di- seño poco elaborado conduce a diferentes resultados cuan-

do el análisis tiene en cuenta la tercera variable centro (OR

= 1) y cuando no la considera (OR = 2,5). Las consecuen-

cias de un mal diseño y un mal análisis eran imaginables.

Aquí no engaña la intuición: si el tratamiento se estudia más en el centro 1, que tiene mejores resultados, y el control en

el centro 2, que tiene peores resultados, esta comparación

estará sesgada a favor del tratamiento. La fuerte relación entre los tratamientos en comparación y la tercera variable provoca que se confundan sus efectos: un investigador

poco atento podría atribuir al tratamiento una diferencia en

el efecto que es explicable por el centro. Por supuesto, un

buen investigador no cometería este error, ya que habría considerado la variable centro en el análisis de los datos y presentaría los resultados ajustando por centro. O mejor aún, lo habría previsto en el diseño del estudio, como el in- vestigador anterior, y podría presentar los resultados sin ne- cesidad de recurrir al ajuste. Para esquematizar el diferente papel que desempeñan las

variables en estudio conviene asignarles sistemáticamente las letras que las simbolizan. La respuesta se suele repre- sentar por Y, el tratamiento o la «causa» en estudio por X y las terceras variables relacionadas con la respuesta («cova- riantes») por Z. Así, esquemáticamente puede decirse que, cuando X y Z son independientes (es decir, están equilibra- das o balanceadas), hay la misma conclusión al ajustar por

Z que al «olvidar» Z. En cambio, si X y Z no son indepen-

dientes, no se obtiene la misma conclusión al ajustar o con- trolar por Z que al olvidarla. Una representación gráfica de este fenómeno puede verse en la figura 1: cuando no se tie- ne en cuenta la variable Z, aparece una relación «espuria»

Opción

Fase

Nombre

Ventajas

Inconvenientes

Restricción

Diseño

Criterios de inclusión

Control completo Barato Simple de diseñar Simple de analizar

Reduce la generabilidad Limitado número de variables Posible confusión residual (si las restricciones son amplias)

Análisis

Análisis de un subgrupo

Análisis por subgrupos

Diseño

Bloques (apareamiento)

Potencia

Pierde flexibilidad Coste Dispersión de casos en estratos Diferentes estratificaciones Difícil «sumarización»

   

Eficiencia

Análisis

Estratificación

Sin premisas

(apareamiento)

Directa

Cálculo simple

Modelado estadístico

Diseño

Modelado

Factible con pocos casos Redondea efectos menores Permite predicciones Permite variables continuas Permite varias variables

Muchas premisas Elección del modelo Elección de variables Interpretación Parametrización del software

Análisis

Covariancia,

regresión,

otros

Adaptada de Kleinbaum et al 3 .

Med Clin (Barc) 2002;119(6):230-237

231

Documento descargado de http://http://zl.elsevier.es el 17/10/2013. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.

COBO E. ANÁLISIS MULTIVARIANTE EN INVESTIGACIÓN BIOMÉDICA: CRITERIOS PARA LA INCLUSIÓN DE VARIABLES

 

entre las dos variables con las que Z está relacionada, X e

tabáquico de la embarazada (X) en las medidas somatotró-

Y. En otras palabras más habituales: «si no se tiene en cuen-

picas del recién nacido (Y) teniendo en cuenta otras carac-

ta

la variable Z, ésta confunde al estudiar la relación entre X e

Y»; o también: «los efectos de X y Z en Y están confundidos». Para que exista confusión deben darse dos condiciones: a) la

terísticas (Z). Y concluyen: «El habito tabáquico […] se aso- ció […] de forma negativa con medidas somatotrópicas del recién nacido […]. Tras ajustar por otras características de

tercera variable Z debe ser predictora de la respuesta Y, y b)

las madres y del recién nacido, esta asociación negativa se

Z

y X deben estar correlacionadas (ser «colineales»). Dado

que la relación ZY es fija y viene predeterminada, nuestro di- seño no puede «romperla» y los esfuerzos se dirigen a anular

confirmó». En el segundo, Martín et al 9 analizan los ingresos por problemas relacionados con la medicación (PRM = Y) y

dicen: «al realizar el análisis multivariante, las variables que

la

colinealidad, bien sea con un buen diseño, bien sea en el

análisis posterior mediante el ajuste estadístico. Éstas son, pues, las ventajas del ajuste en el análisis: complementan al diseño del estudio en el control de las terceras variables Z. Las opciones disponibles para controlarlas 3 se resumen en la

han presentado una relación independiente con la presen- cia de ingreso por PRM han sido los antecedentes de ingre- so por PRM y el nivel socioeconómico». En el tercero, de forma similar, Real et al 10 concluyen: «El análisis de regre- sión logística demostró que […] fueron significativamente

tabla 1. Estas posibilidades, así como las ventajas que ofrece

independientes en el modelo». Así, a pesar de que estas va-

la

asignación al azar del tratamiento, ya fueron comentadas

riables pueden estar correlacionadas entre sí, el modelo de

con anterioridad 4 . A continuación se expone cómo realiza

este ajuste el modelo de regresión.

regresión permite hablar del efecto de una ellas aislado, o «independiente», del efecto de las otras.

Regresión múltiple

Eficiencia estadística de las estimaciones

En un modelo de regresión múltiple se predice una cierta respuesta (outcome) mediante la combinación de una serie de variables «independientes». En función de la respuesta, hay tres grandes grupos de modelos: en el modelo lineal, la respuesta es una variable cuantitativa, como la presión arte- rial sistólica; en el modelo logístico, la respuesta es una di- cotomía, como el hecho de curar o no curar, y en el modelo de riesgos proporcionales de Cox, la respuesta es el tiempo hasta cierto acontecimiento de interés. Sea cual sea el mo- delo utilizado, el objetivo de estas líneas es considerar qué variables incluir como predictoras. No se abordan, en cam- bio, los detalles técnicos de estos modelos 5-7 .

Para llegar a sus conclusiones, los autores antes menciona- dos han debido recoger un volumen razonable de datos en los que estimar sus modelos. El reto de la inferencia esta- dística consiste precisamente en realizar la estimación de los coeficientes del modelo en las mejores condiciones posi- bles. Los auténticos, pero desconocidos, valores del modelo en toda la población de pacientes reciben el nombre de «parámetros» y se representan por la letra griega β. En cambio, los conocidos, pero intrascendentes, resultado de la muestra, se denominan «estimaciones» y se representan por la letra latina b. Así, el modelo de regresión lineal que se observaría en un estudio concreto se representa:

Significado «independiente» de los coeficientes

Y i = b 0 + b 1 X 1i + b 2 X 2i +

+ b K X Ki + e i

Para estudiar el significado de las variables incluidas en un modelo de regresión múltiple, se utilizará el modelo lineal, que tiene la forma siguiente:

Como es imposible disponer de todos los pacientes, inclui- dos los futuros, se debe confiar en que las estimaciones muestrales b cumplen ciertas propiedades estadísticas. Las

 

dos fundamentales son: a) la ausencia de sesgo, es decir,

Y i = β 0 + β 1 X 1i + β 2 X 2i +

+ β K X Ki + ε i

donde Y representa la respuesta de interés y las X repre- sentan diferentes variables que ayudan a predecir o carac- terizar el valor de esta respuesta Y. Se verá más adelante la importancia de si estas variables predictoras deben etique- tarse como X (p. ej., el tratamiento anterior) o como Z (p.

ej., el centro anterior). Sea cual sea el tipo de variables, el atractivo de este modelo es que se puede estudiar el efecto del aumento de una sola de estas variables, a la vez que se dejan igual, sin modificar, todas las restantes. ¿Cuál sería el cambio en la respuesta Y cuando la variable X 1 aumenta una unidad y todas las demás variables permanecen cons- tantes? Nótese que el cambio asociado a la respuesta Y será, precisamente, de β 1 unidades. En general, Y aumenta β 1 veces el incremento experimentado por la variable X 1 . Por ello, se puede decir que los coeficientes β i representan

que apunten en la dirección correcta del valor poblacional β que se desea estimar, y b) que los valores obtenidos en di- ferentes muestras oscilen poco alrededor del valor poblacio- nal, lo que suele requerir muestras de cierto tamaño. El error típico o estándar de la estimación cuantifica esta osci-

lación y se puede considerar como el nivel de ruido introdu- cido por el proceso de muestreo.

Ejemplo: predicción de la cifra de linfocitos CD4 a las 12 se- manas de tratamiento antirretroviral. Se dispone del número de linfocitos CD4 a las semanas 0, 4, 8 y 12 de 19 pacien- tes sometidos a tratamiento antirretroviral. Para empezar, en un ejemplo de un modelo con una sola variable, se predice el valor de los linfocitos CD4 observado a las 12 semanas de iniciado el tratamiento a partir de los valores iniciales o ba- sales obtenidos en la semana 0. Las estimaciones propor- cionan el modelo siguiente:

la

variación esperada en la respuesta Y por un aumento uni-

 

tario en la variable X i que le acompaña, mientras permane- cen fijas todas las demás variables. Esto es lo que significa «independientemente». De aquí el gran atractivo de estos

modelos: se pueden dejar fijas las terceras variables Z, para así controlar o anular su posible efecto y poder estimar la relación de la variable de interés X habiendo suprimido las posibles interferencias de las terceras variables Z. Veamos tres ejemplos de cómo se interpretan, en palabras, los resultados de un modelo de regresión multivariante. En

CD4 Sem12 = 52,56 + 1,03 • CD4 Sem0 + e i

Los errores típicos de estos estimadores han sido, respectiva- mente, 23,87 y 0,10. Así, se sabe que la señal aportada por el valor 52,56 se debe matizar por un ruido de 23,87, y que la señal de la pendiente, 1,03, debe ser matizada por un ruido debido al proceso de estimación de 0,10. Este modelo es fácil- mente interpretable: un aumento de una unidad (1,00) de lin-

el

primero, Pichini et al 8 investigan la influencia del hábito

focitos CD4 en la semana 0 va acompañado de un aumento de 1,03 (EE = 0,10) en la semana 12. Por otro lado, indepen-

232 Med Clin (Barc) 2002;119(6):230-237

Documento descargado de http://http://zl.elsevier.es el 17/10/2013. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.

COBO E. ANÁLISIS MULTIVARIANTE EN INVESTIGACIÓN BIOMÉDICA: CRITERIOS PARA LA INCLUSIÓN DE VARIABLES

Fig. 2. Recuento de linfocitos CD4 de 19 pacientes al inicio (0) y a las 4, 8 y 12 se- manas de iniciado el tratamiento antirretro- viral.

Linfocitos CD4 (×10 6 /l)

800 700 600 500 400 300 200 100 0
800
700
600
500
400
300
200
100
0

0

4

8

Semanas

12

dientemente del valor basal, todos los linfocitos CD4 están au- mentados en 52,56 (EE = 23,87) unidades en la semana 12. Fuera cual fuera el valor basal, los linfocitos CD4 aumentan en 52,56 (EE = 23,87) unidades a las 12 semanas. Se obtienen, así, unos resultados coherentes y fácilmente interpretables. Los resultados de repetir este modelo univariante que inten- ta predecir los valores a las 12 semanas a partir de los linfo- citos CD4 de las 4 semanas, por un lado, y de los de las

8 semanas, por otro, son muy similares. Nótese que el co-

ciente entre la señal (el valor del estimador) y el ruido (su error típico) es en todos ellos superior a 10, lo que apunta a la importancia de estos coeficientes. En cambio, el modelo de regresión múltiple, que incluye simultáneamente los lin- focitos CD4 de las 0, 4 y 8 semanas es:

CD4 Sem12 = 22,04 + 0,31 • CD4 Sem0 + 0,58 • CD4 Sem8 + 0,06 • CD4 Sem12 + e i

En la tabla 2 puede observarse que las señales respectivas, los coeficientes, han disminuido. Se verá que su interpreta- ción es, ahora, más complicada. Por otro lado, los errores tí- picos de estimación de los coeficientes de las tres variables han aumentado mucho: 0,25, 0,17 y 0,29. Tanto que se po- dría prescindir de algunos de los coeficientes. Para la semana

0 hay una señal, b 1 = 0,31, y un ruido, EE(b 1 ) = 0,25, casi tan grande como la señal. Y el de la semana 12, b 3 = 0,06, incluso queda muy por debajo de su ruido de estimación, EE(b 3 ) = 0,29. Sólo el de la semana 8, b 2 = 0,58, continúa siendo relativamente superior a su ruido, EE(b 2 ) = 0,17: es el único en el que la prueba de significación sería significativa. ¿Qué ha pasado? ¿Hasta qué punto este nuevo modelo, con tres variables, es mejor que los anteriores con una sola?

Consecuencias de la correlación entre variables «independientes»

La estimación del modelo de los linfocitos CD4 presenta dos dificultades desde el punto de vista estadístico, ambas deri- vadas de la elevada correlación o colinealidad entre las va- riables introducidas como predictoras. La primera dificultad es la de su significado. El coeficiente asociado a los linfoci- tos CD4 de la semana 8 significa la variación en el número de linfocitos CD4 a la semana 12 independientemente de los linfocitos CD4 a las semanas 0 y 4, es decir, asumiendo que

estos últimos permanecen constantes. Pero, ¿realmente po- demos imaginar un incremento en los linfocitos CD4 de una de estas semanas sin que aumenten los otros?, ¿puede dar- se esta situación? Dado que el número de linfocitos CD4 a las 0, 4 y 8 semanas representa la misma variable, han de- bido repartirse su capacidad predictiva: de hecho, los tres coeficientes suman, prácticamente, el valor 1 (0,31 + 0,58 + 0,06 = 0,95), al que se acercaba antes cada variable por separado. Así, por un lado, se debe interpretar cada coeficiente recordando que las otras variables están, fijas, en el modelo, pero por otro, se sabe que si una de estas va- riables cambia, también lo harán las otras. En resumen, in- troducir variables demasiado similares dificulta la interpreta- ción de sus coeficientes. La segunda dificultad que se ha visto es que el error típico de estimación se ha hecho unas 3 veces superior. Dado que este error depende de la raíz cuadrada del tamaño muestral, un error 3 veces superior equivale al que hubiéramos obtenido en una muestra 9 veces inferior, es decir, de unos dos casos en lugar de 19. ¿Y quién se cree los resultados de una muestra de dos casos? La paradoja es que se dispone de menos infor- mación a pesar de tener más variables. Es un problema muy grave, por tanto, al que hay que estar muy atento. ¿Y por qué sucede? Por una razón muy simple: el error típico de estima- ción de los coeficientes de regresión es menor cuanto mayor es el rango de variabilidad de la variable independiente; si se quiere saber cómo aumenta el peso al aumentar la altura, hay mayor precisión cuanto más amplia sea la perspectiva y mayor rango de alturas se estudie. En el ejemplo de los linfocitos CD4, la figura 2 indica que la variabilidad de éstos oscila des- de casi 0 hasta casi 800, pero cuando se deja fijo el valor de

TABLA 2

Predicción de la cifra de linfocitos CD4 a las 12 semanas a partir del número observado en las semanas 0, 4 y 8. Modelos univariantes y multivariante

Semana

 

Univariante

 

Multivariante

R 2 (%)

b

SE(b)

R 2 (%)

b

SE(b)

0

86,1

1,02

0,10

0,31

0,25

4

92,4

0,86

0,06

93,1

0,58

0,17

8

89,0

0,92

0,08

0,06

0,29

R 2 : descenso porcentual en el error de predicción; b: estimación del coeficiente de regre- sión («señal»); SE(b): error típico de estimación de b («ruido»).

Med Clin (Barc) 2002;119(6):230-237

233

Documento descargado de http://http://zl.elsevier.es el 17/10/2013. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.

COBO E. ANÁLISIS MULTIVARIANTE EN INVESTIGACIÓN BIOMÉDICA: CRITERIOS PARA LA INCLUSIÓN DE VARIABLES

los linfocitos CD4 de una semana concreta, las de la semana siguiente son casi constantes: su variabilidad se ha reducido drásticamente. Así, esta reducción de perspectiva aumenta la incertidumbre de la estimación. En resumen, si las variables de las que se quiere tener una interpretación independiente no son en absoluto indepen- dientes, aumentan los errores típicos de las estimaciones y los coeficientes del modelo pierden significado. ¿Se quiere realmente conocer el cambio que corresponde a un incre- mento de una unidad en los linfocitos CD4 de la semana 4 cuando se dejan fijos los de la semana 8? ¿Realmente pue- den aumentar los linfocitos CD4 de una de estas semanas sin que aumenten los de las otras? ¿Puede darse esta situa- ción? Por ello, el mejor consejo que se puede dar es que se piense cuidadosamente antes de introducir variables en un modelo. En el siguiente y último apartado se comentan 4 claves que deben ayudar a decidir qué variables se inclu- yen en el modelo.

positivo, es ético plantear un experimento en seres huma- nos; por ejemplo, un ensayo clínico sobre un nuevo fárma- co. En cambio, en aquellas causas potenciales cuyos efec- tos cabe esperar que sean negativos, difícilmente sería ético asignar un voluntario a este tóxico X. Sólo será posible obte- ner información a partir de estudios observacionales. Final- mente, además de la causa X y de la respuesta Y, están las terceras variables Z. Usualmente se trata de condiciones o atributos de los casos como, por ejemplo, el género o la edad. Dado que su valor no es determinable o asignable por el clínico, sino que las unidades ya se presentan con dicho valor, su única utilidad práctica es predictiva. Por poner un ejemplo muy simple, es bien sabido que la esperanza de vida es mayor en las mujeres, pero no tiene sentido aconse- jar a un paciente varón que cambie de género. Nótese que el paciente llega al médico con un valor previo en estos atri- butos. Y el médico no se plantea cambiar estos valores. Su pregunta es: «En este paciente de estas características, ¿qué se puede hacer?». Así, las variables Z se incluyen en el modelo porque son condiciones previas sobre las que se es- tudia el efecto de la hipotética causa. Estudios previos de- ben haber establecido la relevancia de las variables Z como predictoras de la respuesta y, por tanto, como posibles ele- mentos de confusión. Estos conocimientos previos son los que aconsejan incluirlas en el modelo, por lo que en el estu- dio confirmatorio del efecto de la causa X en la respuesta Y se puede obviar la prueba de hipótesis sobre la significación estadística de las variables Z y concentrar los riesgos esta- dísticos de error en el auténtico objetivo del estudio: la rela- ción entre X e Y dadas las condiciones Z. Nótese que ésta es, precisamente, la interpretación de los coeficientes de re- gresión: β 1 representa el cambio que se obtendría en la res- puesta Y por cada incremento manipulado de una unidad en el efecto X 1 a nivel constante de las demás variables.

Ejemplo 1: síndrome de Down y madres añosas. Antes de introducir la tercera clave conviene aplicar las dos previas en sendos ejemplos muy cotidianos. La probabilidad de te- ner un hijo con el síndrome de Down es aproximadamente de uno cada 600 embarazos en la población general, pero asciende hasta uno cada 60 en las mayores de 36 años. Ahora bien, ¿y la edad del padre? Nótese la elevada correla- ción (colinealidad) entre la edad de los padres: por un lado, se sabe que a mayor edad de uno, cabe esperar mayor edad del otro; por otro, y al igual que sucedía con los linfoci- tos CD4, si se deja fija la edad de uno de los padres, dismi- nuye considerablemente la variabilidad de la edad del otro. ¿Cuál es el objetivo de establecer esta relación entre la edad de los padres y el riesgo de síndrome de Down: intervenir o predecir? Si lo que se pretende es cambiar la edad de la madre o del padre para disminuir el riesgo, se trata de una intervención, pero si se desea seleccionar aquellos embara- zos con elevada probabilidad de síndrome de Down, enton- ces el objetivo es predecir. Si el objetivo fuera intervenir, para poder establecer la necesaria relación causal, la mejor respuesta vendría de un diseño experimental en el que se estudiara la edad de cada uno de los padres dejando equili- brada la del otro. Por ejemplo, se aparearían tanto las ma- dres de 20 como las de 40 años, por igual, con padres de 20 y de 40 años. Este diseño no sería ético, por supuesto, pero es que además no tendría sentido práctico en nuestro entorno sociocultural. ¿Se plantea una madre o un padre buscar una pareja «independientemente» de su propia edad? Si una posible madre decidiera adelantar su edad de maternidad, también está adelantando la edad de su pareja. Puede existir una pregunta científica sobre si envejecen los gametos femeninos, los masculinos o ambos, pero en nues-

Claves para la inclusión de variables en el modelo

Primera clave: ¿el objetivo es predecir o intervenir?

En primer lugar, es importante considerar la finalidad del modelo: ¿se desea predecir, adivinar acontecimientos futu- ros, o se pretende intervenir sobre su curso? En la primera finalidad, se utiliza el valor de una variable para acercarse al valor de otra. Nótese que no se precisa relación de causa- efecto 4,11 . Por ejemplo, se puede reducir la incertidumbre sobre la mortalidad por cáncer de un país conociendo el ni- vel de uso de ordenadores, ya que ambas variables van aso- ciadas al desarrollo de un país. Sin embargo, no se propon- drá intervenir sobre el uso de la informática para hacer descender la mortalidad por cáncer. Cuando el objetivo es predecir, es más importante cuantificar la capacidad pre- dictiva del modelo (¿cuánto se reduce la incertidumbre?) que interpretar el significado concreto de un coeficiente del modelo de regresión. Si el objetivo es más ambicioso y se pretende intervenir so- bre una variable para cambiar el valor de otra, es necesario que exista relación de causa-efecto. En ésta, hay dos pre- guntas muy diferentes: ¿cuál es el efecto de esta causa?, y ¿cuál o cuáles son las causas de este efecto? Un ejemplo de la primera sería: «si me tomo una aspirina, ¿se me irá el do- lor de cabeza?», mientras que de la segunda sería: «se me ha ido el dolor de cabeza, ¿es porque me he tomado una aspirina?». La farmacología clínica y la epidemiología «pros- pectiva» suelen abordar preguntas del primer tipo, más concretas, en tanto que la farmacoepidemiología y la epide- miología «retrospectiva» se concentran en preguntas del se- gundo tipo, cuya formulación es mucho más exploratoria.

Segunda clave: ¿cuál es el papel de cada variable en el modelo?

Además de la respuesta Y en estudio, existe una serie de variables independientes que se introducen en el modelo. Si el objetivo es predecir, todas ellas tienen un papel idéntico, simétrico. En cambio, si el objetivo es intervenir, conviene distinguir entre las causas potenciales (X) y los meros atri- butos o condiciones (Z). Las variables X representan las va- riables potencialmente intervenibles, para las que se desea saber si, cambiando su valor, se puede modificar el curso de los acontecimientos que representa la respuesta Y. Dado que se pretende cambiar el valor de X, éste debe depender, al menos potencialmente, de nosotros. Así, un tratamiento farmacológico o un consejo dietético pueden ser considera- dos como X. Conviene distinguir si el efecto de esta causa X podría ser beneficioso o no. Si la expectativa es de un efecto

234 Med Clin (Barc) 2002;119(6):230-237

Documento descargado de http://http://zl.elsevier.es el 17/10/2013. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.

COBO E. ANÁLISIS MULTIVARIANTE EN INVESTIGACIÓN BIOMÉDICA: CRITERIOS PARA LA INCLUSIÓN DE VARIABLES

tro entorno no es una pregunta con implicaciones cara a una intervención. Si se acepta que el objetivo es identificar aquellos embarazos con una probabilidad de síndrome de Down lo suficientemente elevada para compensar los riesgos de exploraciones complementarias cruentas, se puede esco- ger, para hacer la predicción, aquella variable que sea más barata, más temprana en el tiempo, más fiable (en el sentido de obtener valores más similares en sucesivas determinacio- nes) e incluso más fácil de interpretar. En todas estas pro- piedades, la edad de la madre antecede a la del padre.

Ejemplo 2: ¿presión sistólica o diastólica? Otra pregunta ha- bitual implica a las presiones arteriales sistólica y diastólica:

«para determinar la importancia relativa de las presiones ar- teriales sistólica y diastólica en la predicción del riesgo de ictus, en el Copenhagen City Heart Study 12 las incluyeron en modelos de regresión múltiple. Ambas estuvieron significati- vamente relacionadas con un incremento del riesgo de ic- tus. Sin embargo, al introducirse simultáneamente en el modelo, el patrón de relación entre la presión sistólica y el riesgo de ictus permaneció estable, mientras que el de la diastólica se diluyó» 13 . Los investigadores suelen introducir ambas variables en el modelo, y su elevada colinealidad conduce a estimaciones inestables de los parámetros. En unas investigaciones, el modelo estadístico selecciona una de ellas, y en otras investigaciones, la otra. La discusión está servida. ¿Está fallando el método estadístico o la formu- lación de la pregunta? Ahora el objetivo pretende ir más allá de la predicción; se pretende también modificar el riesgo de ictus interviniendo sobre la presión arterial. Ciertamente, se pretende intervenir sobre la presión arterial para disminuir el riesgo de ictus, pero ¿se puede reducir la presión arterial sistólica (PAS) dejando fija la diastólica (PAD)? O recíproca- mente, ¿se puede bajar la PAD dejando fija la PAS? El mis- mo original 12 presenta datos de 10 ensayos clínicos sobre fármacos antihipertensivos, todos ellos aleatorios. En la ta- bla 3 y la figura 3 se indica el descenso alcanzado por cada uno de ellos en ambas presiones alteriales. Puede verse cla- ramente que, mientras se está bajando una de las presio- nes, no se deja fija la otra. Por tanto, en ausencia de un tra- tamiento que permita modificar sólo una de ellas sin alterar la otra, introducir ambas variables en un modelo de regre- sión múltiple carece de sentido. No estamos defendiendo que se deba renunciar a recoger toda esta información, sino que debe formularse la pregunta en términos más apropia- dos. Si a un clínico le preocupa la presión arterial en gene- ral, el consejo de Cox 14 es que estudie el promedio de am- bas, conocido como presión arterial media, ya que recoge toda la información sobre la cantidad de presión contenida en ambas variables. Y si lo que le preocupa al clínico es que pueda variar una presión mientras la otra permanece fija, el consejo del estadístico será que emplee la diferencia entre ambas presiones. Entre los argumentos favorables destaca la casi independencia entre estas nuevas variables, con lo que se solucionan los problemas derivados de la alta corre- lación que tienen la sistólica y la diastólica.

Tercera clave: ¿tienen las variables significado independiente?

Así pues, si las variables que se introducen guardan entre sí una elevada correlación o colinealidad, es difícil creer que se pueda modificar una de ellas dejando fijas las demás. Para solucionar tanto los problemas prácticos sobre el signi- ficado de los coeficientes como los teóricos sobre el incre- mento de la variancia de la estimación, se debe reducir la dimensión del problema, bien eliminando alguna de las va- riables, bien definiendo una combinación que retenga la in-

25

15

5

r = 0,973
r = 0,973

10

20

30

40

Fig. 3. Correlación del descenso de la presión arterial sistólica y diastólica (ambas en mmHg) en 10 ensayos clínicos 12 .

formación relevante. Se ha comentado el ejemplo de la pre- sión arterial media y de la presión arterial diferencial. Otro ejemplo, muy similar al del número de linfocitos CD4, son las determinaciones múltiples en farmacocinética para co- nocer la concentración plasmática de sucesivos momentos

a lo largo del tiempo. El investigador no comunica los valo-

res observados en cada determinación, sino que los trans- forma en nuevas variables con significados más interesan- tes, ya que le informan de la velocidad de absorción, de la velocidad de eliminación o de la cantidad de fármaco en la sangre. Existen diferentes técnicas estadísticas para propo- ner estas nuevas variables mediante combinación de las va- riables originales 15,16 , que deben siempre ser complementadas

con el criterio clínico que les proporcione significado 17 . Y por supuesto, lo comentado aquí sobre el ajuste durante el análi- sis también se aplica al ajuste durante el diseño: en un estudio apareado de casos y controles, ¿qué variables se deben apare-

ar y cuáles no? Si se está estudiando el efecto del hábito tabá-

quico, ¿debe dejarse fijo el consumo de alcohol? La respuesta depende de si se dispone de una intervención sanitaria que permita disminuir un hábito sin modificar el otro.

Cuarta clave: ¿el estudio es exploratorio o confirmatorio?

La cuarta clave hace referencia a la perspectiva científica desde la que se analizan los datos: en un plano puramente exploratorio, generador de ideas, o bien en un plano confir- matorio. Es bien sabido que la evidencia que aporta una única muestra puede ser utilizada bien para construir una teoría o bien para contrastarla, pero no para ambos propósitos 11 . Desde una perspectiva exploratoria es lícito analizar los datos con cualquier herramienta de análisis e incluyendo cualquier tipo de variables. Todo vale: se tortu- ran los datos en busca de nuevas ideas o de nuevas hipóte- sis. En cambio, desde una perspectiva confirmatoria, se pretende sancionar una hipótesis previa, bien sea ratificán- dola y elevándola al rango de teoría, bien sea rechazándola

y abandonándola. Ahora, la hipótesis previa debe estar per-

fectamente documentada en el protocolo del estudio, donde se justifica todo el diseño y todo el análisis. Como análisis

TABLA 3

Reducciones medias de la presión arterial sistólica (PAS) y diastólica (PAD) en 10 ensayos clínicos aleatorizados de antihipertensivos 12

   

Reducción media (mmHg)

 

PAS

43

31

25

18

20

18

12

20

14

10

PAD

27

19

12

10

8

11

4

8

7

4,5

Med Clin (Barc) 2002;119(6):230-237

235

Documento descargado de http://http://zl.elsevier.es el 17/10/2013. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.

COBO E. ANÁLISIS MULTIVARIANTE EN INVESTIGACIÓN BIOMÉDICA: CRITERIOS PARA LA INCLUSIÓN DE VARIABLES

Muestra A Muestra B
Muestra A
Muestra B
Conocimiento previo
Conocimiento
previo

Análisis

exploratorio

Análisis

confirmatorio

Hipótesis Teoría
Hipótesis
Teoría

Fig. 4. Objetivo del análisis estadístico según la existencia previa de hipótesis.

estadístico, ahora sólo vale lo especificado en el protocolo. Cualquier desviación le hace perder su carácter confirmato- rio y lo convierte en exploratorio. Para recordar la diferencia entre ambas perspectivas, podemos decir que en la explo- ratoria el modelo se ajusta a los datos («¿qué modelo, más simple, se ajusta mejor a estos datos?»), mientras que en la confirmatoria los datos deben ajustar el modelo («estos da- tos, ¿confirman o rechazan el modelo previo?»). En la figura 4 se esquematiza el momento del conocimiento científico en el que se emplea cada perspectiva de análisis.

Conclusión

Se han comentado 4 claves que pretenden ayudar a definir las variables que se introducirán en el modelo. En resumen, primera clave: ¿se pretende modificar el valor de una variable mediante una intervención, o bien basta con predecir el valor de esta variable para poder anticipar otras medidas?; segun- da clave: especialmente en el caso de una intervención, ¿qué papel desempeña cada variable en el análisis?, ¿sobre qué variables se desea realizar la intervención?, ¿cuáles represen- tan simplemente atributos previos que definen las condicio- nes de la investigación?; tercera clave: ¿hasta qué punto las variables introducidas en el modelo tienen significado inde- pendiente?, y cuarta clave: si se pretende que las conclusio- nes tengan la credibilidad de un estudio confirmatorio, el análisis debe seguir fielmente lo especificado en el protocolo. En la tabla 4 se pretende resumir estas recomendaciones. Si se desea predecir, elíjanse aquellas variables que permitan realizar más cómodamente esta caracterización previa de los

TABLA 4

Cuatro claves para la inclusión de variables

casos. Y si lo que se quiere es realizar una intervención, debe tenerse muy claro qué se puede modificar (X) y en qué con- diciones (Z). Si una variable no puede variar a nivel fijo de otra, no tiene sentido introducir ambas en el modelo de regre- sión. Puede pensarse en una transformación de ambas, como se hace con las determinaciones de los valores farma- cocinéticos. Con ello no pretendo afirmar que establecer una nueva dimensión sea fácil, dado que implica un cambio del punto de vista. Y es más arriesgado, no hay duda. Sin embar- go, la auténtica investigación es aquella que puede resultar en un cambio de paradigma, en un cambio de variables con las que conceptualizar el entorno. Nada más lejos del popular «ponlas todas y que elija el programa».

Agradecimientos

Debo agradecer a la Dirección de Docencia del Hospital Clínic de Barcelona su invitación para dar esta charla y a tres instituciones que en los dos años previos me permitieron ir depurándola: el Insti- tut Municipal de la Salut de Barcelona, el Servei d’Estadística de la Universitat Autónoma de Barcelona y la Fundació de Lluita contra la sida, del Hospital Universitari Germans Trias i Pujol. Entre las personas que con generosidad me han aportado sus críticas, quie- ro destacar a los doctores Francesc Cardellach, Lluís Jover, Guada- lupe Gómez y José Antonio González. Los Dres. Alejandro de la Sie- rra e Ilonka Zsolt me proporcionaron la bibliografía sobre los datos acerca de la presión arterial. Los datos sobre los linfocitos CD4 pro- vienen del Dr. Bonaventura Clotet. La idea de preparar este tema surgió a raiz de una pregunta de la Dra. Carme Borrell.

Dr. Josep M. Grau: ¿Qué estudios son mejores: los experi- mentales o los observacionales?

Dr. Erik Cobo: Clásicamente se ha considerado el ensayo clí- nico como el «patrón oro» en investigación. De todas mane- ras, hay metaanálisis 18-20 que ofrecen resultados similares a los estudios experimentales y observacionales. Sin embargo, quiero resaltar tres diferencias entre ambos; en primer lugar, la necesidad de un protocolo en los estudios experimentales, con una hipótesis previa perfectamente especificada, garan- tiza el carácter confirmatorio de las conclusiones; en segun- do lugar, los estudios experimentales suelen acompañarse de un diseño depurado que controla, mediante el ajuste, las terceras variables conocidas, y, por último, que además de estas variables conocidas, los diseños experimentales tam- bién permiten controlar, mediante la asignación aleatoria, las terceras variables desconocidas. De estas tres ventajas, la única que es inherente a la experimentación es la tercera. Si se acepta que las variables desconocidas puedan tener me- nor relevancia, un estudio observacional con un buen proto- colo y un buen diseño puede y debe ser muy informativo.

1.

Objetivo del estudio

Predicción Disponer de un modelo predictivo

Intervención Interpretar los coeficientes para estimar el efecto de la intervención

2.

Papel de

Respuesta Y: variable cuyo valor se desea

Anticipar

Modificar

las variables

Independientes:

Se utilizan para realizar la predicción

Se pretende «intervenir»: X Se desea controlar (Z: atributos, condiciones, covariantes relacionadas con la respuesta Y

variables que

3.

¿Son realmente independientes? (Colinealidad)

Reduzca la dimensión del problema Use variables que tengan significado «independiente»

Use variables tempranas, baratas, fiables

Condicione sólo por variables previas

4.

Perspectiva exploratoria o confirmatoria

Busque siempre la reproducibilidad de los resultados Si el estudio es confirmatorio, siga fielmente el protocolo

Ratifique la capacidad de predicción en una nueva muestra

Complemente con criterios de Hill si no puede asignar X

236 Med Clin (Barc) 2002;119(6):230-237

Documento descargado de http://http://zl.elsevier.es el 17/10/2013. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.

COBO E. ANÁLISIS MULTIVARIANTE EN INVESTIGACIÓN BIOMÉDICA: CRITERIOS PARA LA INCLUSIÓN DE VARIABLES

Dr. Emili Ros: Existen muchos programas de estadística a disposición de los investigadores y los resultados que pro- porcionan no siempre son idénticos: ¿cuál aconsejaría? En segundo lugar, cuando se construye un modelo estadístico, el hecho de introducir o eliminar una variable con frecuen- cia cambia significativamente los resultados: ¿qué tipo de ajuste sería el aconsejado?

Dr. E. Cobo: Es cierto, aunque en mi opinión, y éste es un tema realmente opinable, es más importante tener una idea clara de lo que en realidad ocurre, aunque sea en una po- blación muy restringida, que tener una idea confusa de lo que quizá pueda ocurrir en una población más general. Luego ya se verá si estos resultados obtenidos en la peque- ña población son generalizables, pero al menos se habrá lo- grado dar un primer paso. Por otro lado, existen diseños muy interesantes que siguen también a los pacientes que rehúsan la distribución aleatoria y permiten comparar si el efecto observado en los pacientes que la aceptan es el mis- mo que el observado en los pacientes que la declinan.

Si me lo permiten, intentaré contestar a una pregunta que se plantea con relativa frecuencia: ¿el ajuste final que pro- porcionan los modelos de regresión múltiple puede sustituir al engorroso ajuste previo en la fase de diseño? En mi opi- nión, no hay que cerrar la puerta al mensajero y no debe considerarse más fácil el ajuste futuro que el presente. Qui- zá el método de control pueda adoptarse más adelante, pero no la decisión sobre qué variables ajustar y cómo ha- cerlo. Atrasar esta decisión resta credibilidad y potencia al estudio; cuanto antes se consideren las posibles dificulta- des, de mayor margen de maniobra se dispondrá para solu- cionarlas de la forma más eficiente posible.

Dr. E. Cobo: Programas, ciertamente, hay muchos. Unos son mejores en algunos aspectos y otros en otros. Los dife- rentes resultados entre ellos suelen deberse a matices muy específicos que, por cuestiones comerciales, tan sólo se de- tallan en manuales técnicos. Por ello, mi consejo es solicitar ayuda a un experto en metodología estadística, que podrá aconsejar y orientar en cada caso particular. En cuanto al tipo de ajuste, lo mejor es especificar claramente las varia- bles clínicamente relevantes en la fase de diseño. De esta manera, se puede hablar de análisis confirmatorio. De lo contrario, lo que «se descubra» en la fase de análisis tendrá sólo un valor tentativo, exploratorio.

Dr. Esteban Poch: Cuando se dispone de muchas variables como, por ejemplo, factores de riesgo de una enfermedad, ¿qué es mejor, introducir en el modelo únicamente las va- riables que son significativas en el análisis bivariante o, por el contrario, introducirlas todas a la vez y que el programa estadístico seleccione las más significativas?

Dr. E. Cobo: Efectivamente, una práctica habitual es intro- ducir en el modelo las variables que han resultado previa- mente significativas. Esto sería perfectamente correcto en un estudio exploratorio, que terminara proponiendo hipóte- sis que deberían ser ratificadas en estudios posteriores. Aun en esta situación, conviene recordar el ejemplo de los linfo- citos CD4. Todas son significativas a nivel bivariante, pero al introducirlas todas surgen los problemas ya comentados, que deberían resolverse con un cambio o una selección previa de las variables. Por otro lado, si la preocupación es controlar las variables que son posibles confusoras, quiero insistir en que en la fase de diseño deberían identificarse en el protocolo las variables relevantes por las que se desea ajustar; éstas son las únicas que deberían analizarse y las únicas que deberían quedar en el modelo. Si acaso, lo que tiene poder de convicción es que, tanto si se introduce como si no se introduce una variable en el modelo, el efecto estimado de la causa en estudio cambia poco. Cabe recor- dar también que si se controla una variable confusora en la

REFERENCIAS BIBLIOGRÁFICAS

1. Cobo E, Buekens P. Necesidad y limitaciones del ajuste. Med Clin (Barc) 1990;95:702-8.

2. Irala J, Martínez-González MA, Guillém-Grima F. ¿Qué es una variable de confusión? Med Clin (Barc) 2001;117:377-85.

3. Kleinbaum D, Kupper L, Morgenstern H. Epidemiologic research: princi- ples and quantitative methods. New York: Van Nostrand, 1982.

4. Cobo E. Necesidad y limitaciones de la asignación aleatoria. Med Clin (Barc) 2000;111:73-7.

5. Draper N, Smith H. Applied regression analysis. 3rd ed. New York: Wiley, 1998.

6. Kleinbaum D. Logistic regression: a self-learning text. New York: Sprin- ger-Verlag, 1996.

7. Kleinbaum D. Survival analysis: a self-learning text. New York: Springer-

Verlag,1996.

8. Pichini S, Puig C, García-Algar O, Pacifini R, Figueroa C, Vall O, et al. Efectos neonatales del hábito tabáquico durante el embarazo y determi- nantes sociodemográficos en Barcelona. Med Clin (Barc) 2002;118:53-6.

9. Martín MT, Codina C, Tuset M, Carné X, Nogué S, Ribas J. Problemas relacionados con la medicación como causa del ingreso hospitalario. Med Clin (Barc) 2002;118:205-10.

10. Real J, Valls M, Ascaso P, Basanta ML, Viguer A, Ascaso J, et al. Facto- res asociados con el ingreso hospitalario de pacientes diabéticos con ul- ceración en el pie. Med Clin (Barc) 2001;117:641-4

 

11. Chalmers AF. What is this thing called science? 3rd ed. Buckingham:

Open University Press, 1999.

fase de diseño (p. ej., mediante los criterios de inclusión) se disminuye la necesidad de ajustes posteriores.

Dr. Alejandro de la Sierra: Actuando así, con frecuencia las condiciones para incluir a un paciente son tan estrictas que los estudios no se pueden llevar a cabo por falta de pa- cientes.

12. Nielsen WB, Lindestrom E, Vestbo J, Jensen GB. Is diastolyc hiperten- sión an independent risk factor for stroke in the presence of normal sys- tolic blood pressure in the middles-aged and elderly? Am J Hypertens

1997;10:634-9.

13. He J, Whelton PK. Elevated bood pressure as a risk factor for cardiovas- cular and renal disease. Hypertension 1999;17(Suppl 2):7-13.

14. Cox DR. Causality: some statistical aspects, J R Statist Soc (A) 1992;

Dr. E. Cobo: Efectivamente, unos criterios de inclusión muy estrictos pueden comprometer la selección de pacientes para el ensayo. Deben equilibrarse con cuidado los procedimien- tos de ajuste que se emplean. Lo que debe hacerse en estas circunstancias es plantear al estadístico la posibilidad de em- plear técnicas que permitan equilibrar los grupos sin necesi- dad de recurrir a criterios de inclusión más restrictivos. Existe un procedimiento llamado minimización 21 que pretende obte- ner el máximo equilibrio entre los grupos en comparación.

115:291-301.

15. Lebart L, Morineau A, Piron M. Statistique exploratoire multidimension- nelle. Paris: Dunnod, 1995.

16. Aluja T, Morineau A, Aprender de los datos: el análisis de componentes principales. Barcelona: EUB, 1999.

17. Mathews JNS, Altman DG, Campbell MJ, Royston P. Analysis of serial measurements in medical research. BMJ 1990;300:230-5.

18. Britton A, McPherson K, McKee M, Sanderson C, Black N, Bain C. Cho- osing between randomised and non-randomised studies: a systematic review. Health Technol Assessment 1998;2:I-iv,1-124.

19. Benson K, Hartz AJ. A comparison of observational studies and rando- mized, controlled trials. N Engl J Med 2000;342:1878-86.

Dr. Josep Terés: Un problema que hay que tener en cuenta es que los estudios muy controlados en la fase de diseño con frecuencia no son representativos de la población gene- ral a la que se deberá aplicar el resultado.

20. Concato J, Shah N, Horwitx RI. Randomized controlled trials, observatio- nal studies, and the hierarchy of research designs. N Engl J Med 2000;

342:1887-92.

21. Kenjo Y, Antoku Y, Akazawa K, Handa E, Kinukawa N, Nose Y. An easily cus- tomized, random allocation system using the minimization method for multi- Institutional clinical trials. Comput Meth Program Biomed 2000; 62:45-9.

Med Clin (Barc) 2002;119(6):230-237

237