Вы находитесь на странице: 1из 331

Estadística médica

B IB L IO T E C A D E L U N IV E R S IT A R IO
M AN UA LES /M E D IC IN A
Estadística médica

DOMINGO A. LEDESMA

El'DEBA EDITORIAL UNIVERSITARIA 1)E BUENOS AIRES


©1972
EDITORIAL UNIVERSITARIA DE BUENOS AIRES
Rivadavia 1571/73
Sociedad de Economía Mixta
Fundada por la Universidad de Buenos Aires
Hecho el depósito de ley
IMPRESO EN LA ARGENTINA - PRINTED IN ARGENTINA
INDICE

INTRODUCCION . . . : ................................................................. XI
PRIMERA PARTE
CONCEPTOS FUNDAMENTALES

I. CONCEPTOS GENERALES ................................................ 3


Concepto de estadística, 3; Ubicación en el cuadro de las cien­
cias, 4; Relación con el cálculo de probabilidades, 4; Importancia
en medicina, 4; El azar o casualidad, 4; Universo y muestra, 5:
Observación y dato, 6; Registro y clasificación de los datos, 6;
Tabulación, 7.
II. CONCEPTOS PARTICULARES............................................. 9
Población o efectivo, 9; Tamaño, 9; Dispersión de los datos, 9;
Ordenamiento de los datos, 10; Serie estadística, 10; Agolpa­
miento de los datos, 10; Intervalo o módulo, 10; Frecuencia, 11;
Probabilidad, II; Ordenación de los grupos, 12: Distribución de
frecuencias, 12; Ejemplo de distribución normal de frecuencias,
13; Ejemplo de distribución de Gosset "Student", 14; Ejemplo

son, 15. *
III. REPRESENTACIONES GRAFICAS........................................ 17
Cuadriláteros, 17; Sectores, 18; Histograma, 20; Ejemplo de his-
tograma, 21; Ejemplo, 22; Curvas, 22; Curva normal o de Gauss.
23.
IV. PARAMETROS ESTADISTICOS ........................................... 25
Parámetros fundamentales, 25; Parámetros derivados, 25; Pará­
metros de posición, 26; Proposición de Cauchy, 30; Promedio y
mayoría, 30; Desvío, 30; Parámetros de dispersión, 31; Media
del universo, 34; Parámetros derivados, 3S; Promedio ponderado.
38; Error probable, 39; Error relativo, 39.
Vil
SECUNDA PARTE
LA MUESTRA NORMAL NUMEROSA O MUESTRA NORMAL DE

PROPIEDADES DE LA MEDIA Y DEL DESVIO STANDARD


Propiedad “A” de la media. 49; Propiedad “B" de la media.
55; Propiedad "A" del desvio standard. 57; Propiedad "B” del

VIL VARIANCIA...................................................................... 61
la. observación. 61; 2a. observación. 62; 3a. observación, 63;

IX. ECUACION DE LA CURVA DE GAUSS ........................... 87


Cálculo de la ordenada "y”. 88; Significado de “y". 89; Cons­
trucción de la curva, 89; Arca subtendida a la curva. Area par­
cial, 91; Tablas de áreas subtendidas a la curva. Tablas de
probabilidades, 92; Frecuencias teóricas de una muestra nor­
mal, 96.

X. VARIACION DE LAS MUESTRAS


TERCERA PARTE
LA MUESTRA NORMAL POCO NUMEROSA O MUESTRA DE GOSSET
"STUDENT"

CUARTA PARTE
LA MUESTRA B1NOMIAL NUMEROSA O MUESTRA DE BERNOUILLI
XIII. DISTRIBUCION BINOMIAL ............................................... 131
XIV. SERIE BINOMIAL DE BERNOUILLI................................... 145

148; Observaciones, 150; Cálculo de la frecuencia de un resul-


lado determinado, 165.
XV. PARAMETROS MEDIA Y DESVIO STANDARD EN LAS
MUESTRAS BINOMIALES................................................. 177
Resultados en valores absolutos. 177; Resultados en valores
185.
XVI. INTERVALO DE CONFIANZA DE LA MEDIA Y SIGNIFI­
CACION DE LA DIFERENCIAENTRE MEDIAS.....................201
Significación de la diferencia entre dos medias binomiales
de la media, 203; Determinación del intervalo de confianza de
muestra o la frecuencia de la media, 207.
IX
ESTADISTICA MEDICA

XVII. MUESTRAS DE POISSON .


Concepto, 219; Frecuencia de un resultado, 220; Obtención
de la media, 221; La variancia, 223; Los límites del intervalo
de confianza, 223.

XVIII. METODO DE PEARSON ..

XIX. ASOCIACION.........................................................
Correlación, 263; Probabilidad de un coeficiente de o
dón, 271; Regresión, 273; Tarjetas y dameros, 278;
pruebas de correlación, 287; Análisis de la covarianza, 29

X
INTRODUCCION

XI
ESTADISTICA MEDICA

Los libros de estadística existentes en plaza, algunos de ellos muy


buenos, todos ellos extranjeros (un libro argentino similar al nuestro, el de
KOHAN y CARRO, trata de la estadística aplicada a la psicología, a la
sociología, a la educación y a las ciencias políticas, no a la medicinal, y
los cursos de estadística a los que concurrimos, igualmente muy buenos,
exigen conocimientos matemáticos que el común de nuestros médicos, no
poseen. Esto les hace a ellos sumamente difícil la comprensión de la esta­
dística. Magnificas tablas, como las de GEIGY, necesitan explicaciones
más elementales que las que ellas traen para ser manejables por la mayoría
de los médicos que las necesitan.
Compenetrados de esa necesidad de médicos y estudiantes, y ante su
dificultad para obtener dichos conocimientos en los textos o en los cursos
corrientes, que en gran parte se sitúan fuera de la realidad de sus necesi­
dades y de los conocimientos matemáticos que poseen, nos propusimos
explicar con palabras sencillas y con nociones elementales los conceptos
básicos de esta ciencia. Con éstos podrán todos comprender y manejar la
mayoría de los problemas comunes de la estadística médica.
En este libro diremos lo fundamental de esta materia, en sus aspectos
generalmente más utilizados en medicina, y lo diremos sin recurrir a las
matemáticas superiores, es decir, manteniéndonos siempre dentro de ¡os
conocimientos de matemáticas del médico corriente.
No obstante lo dicho, no estará de más que con la lectura de este
libro el lector refresque sus conocimientos de matemáticas deI colegio
nacional, releyendo algunos de sus textos.
Sin ser de vulgarización, éste es un libro de estadística elemental, al
alcance y para uso de médicos y estudiantes que leen trabajos científicos
o que realizan tareas habituales de investigación. Es un resumen de los
cursos de estadística médica dictados por el autor en la maternidad del
policlínico "Profesor doctor Gregorio Aráoz Alfaro" de Lanús. y por lo
tanto, está redactado con la experiencia dada por la enseñanza viva de la
materia a los destinatarios del mismo.
En él nos referiremos a una media docena de temas estadísticos fun­
damentales para la investigación médica. Nos liemos preocupado, en
primer termino, por dar claros y precisos conceptos fundamentales. De
esto nos ocupamos en la primera parte de! libro, la que abarca siete capí­
tulos. Después nos esforzamos por precisar las principales clases de mues­
tras que generalmente el médico tiene entre manos y las técnicas estadís­
ticas aplicables a cada clase. De ello nos ocupamos en las cuatro partes
siguientes. Por último, damos algunas nociones aplicables a cualquier clase
de muestra. De esto tratan las dos últimas partes.
En resumen, los temas que tratamos en el libro son:
XII
INTRODUCCION

1. Conceptos fundamentales.
2. El estudio estadístico de Ias muestras numerosas con una distri­
bución normaI de las frecuencias de sus datos, o sea de lo que puede
llamarse muestra de GAUSS. y de las técnicas que le son aplicables
3. El estudio estadístico de las muestras poco numerosas también con
una distribución normal de la frecuencia de sus daros o muestras de
GOSSET "STUDENT", y de ¡as técnicas correspondientes
4. El estudio de las grandes muestras con una distribución binomial
de la frecuencia de sus datos, o muestra de BERNOUILLI, y sus técnicas
5. Las grandes muestras con un resultado poco numeroso y una dis­
tribución de frecuencia próxima a la binomial o muestras de POISSON y
sus técnicas.
6. El método de PEARSON o de J i Cuadrado fx1) para la compara­
ción entre una muestra real y una teórica, y su técnica en los diversos

7. La asociación o relación estadística entre dos variables observadas


simultáneamente en una misma muestra y sus técnicas.
En lo posible hemos explicado los conceptos y los métodos o técnicas
dando el porqué de los mismos, y sólo cuando ello exigía una profundi-
2ación matemática fuera del alcance del común de los médicos, nos con­
formamos con decir solamente cómo se hace. Por eso. algunos temas
como Ji Cuadrado, se han explicado principalmente por medio de ejem­
plos. Estos son suficientes para capacitar al médico en la utilización del
método en la mayoría de las circunstancias en que puede serle útil. En
cambio, otros temas, como distribución binomial, se han explicado con
cierto detenimiento, ya que es imprescindible tener bien claro lo que es el
desarrollo de un binomio elevado para comprender el concepto de lo que
es una muestra con una distribución binomial de sus frecuencias.
Finalmente, hemos procurado ejemplificar todo al máximo posible
dentro de la manualidad del volumen.

XUI
CONCEPTOS FUNDAMENTALES
CAPITULO I

3
Por trabajar con números la estadística participa de las ciencias ma­
temáticas, pero al igual que en muchas otras ramas del conocimiento
-física, química, etc.,- éstas son el instrumento que debe ser aplicado a
una materia, en este caso las observaciones o experiencias similares valo-

Relación con el cálculo de probabilidades


Por sus métodos matemáticos la estadística se halla relacionada con el
cálculo de probabilidades y podría dccitsc que es un capítulo de él, pero
mientras dicho cálculo se ocupa de los grandes números, de los conjuntos
infinitos, la estadística se ocupa de los pequeños números, de los conjun-

Importancia en medicina
La importancia de la estadística en medicina se debe a la capacidad
de la primera en valorar la magnitud del azar en la segunda.

El azar o casualidad

resultados de la actividad médica, ya se trate de diagnósticos, pronósticos

sea que observemos la aparición de un dato clínico o de laboratorio, que


pronostiquemos la duración de una enfermedad o de un embarazo, que
comprobemos la ventaja de un medicamento o de una técnica quirúrgica,
etcétera, el resultado está siempre influido, en mayor o menor grado, por
la casualidad.
Es decir, los resultados médicos se hallan siempre influidos por un
conjunto variable de factores invisibles e imponderables, que englobamos
con el nombre de azar o casualidad.
Es este conjunto de factores, desconocidos y variables, el que diver-

Estc azar pudo haber tenido una gran participación en los resultados,
o, por el contrario, sólo una insignificante, pero de antemano eso no
podemos saberlo; es decir, directamente, al azar no podemos medirlo.
Necesitamos por lo tanto de algún procedimiento indirecto capaz de
medir el tamaño, o sea la magnitud de la importancia del azar. Este mé-
CONCEPTOS GENERALES

Esta se basa en que si observamos un gran número de casos seme­


jantes, es lógico suponer que los factores desconocidos han de neutrali­
zarse en gran parte, por lo menos, mutuamente. De ahí que si estudiamos
dos series paralelas en estas condiciones, en una de las cuales aparece o
interviene un factor determinado que no interviene ni aparece en la otra,
la diferencia de los resultados pueda lógicamente atribuirse a esc factor.
Pero aun así, no estamos completamente seguros de haber neutrali­
zado totalmente al azar, o sea que la diferencia se deba exclusivamente al
factor presente en una serie y ausente en la otra. Por eso. también aquí,
para medir la magnitud de ese azar residual tenemos que recurrir también

La magnitud de la influencia del azar se mide en porciento de proba­


bilidad. Un resultado puede deberse en un 100% a ella o en un 50% o en
un 5%, etcétera. Cuando la influencia del azar en un resultado médico es
pequeña, menos del S%, los estadísticos que se ocupan de cuestiones mé­
dicas aceptan que, prácticamente, puede considerarse que el resultado no

vención del azar es superior al 5%, opinan que dicho resultado puede
considerarse debido simplemente a la casualidad.

Dijimos que la estadística es un capítulo del cálculo de probabilida­


des. Este se ocupa de los valores numéricos de hechos similares, pero en
general sólo se ocupa de los grandes números, de los grandes conjuntos,
de aquellos que por ser infinitos se llaman universos de casos similares (o
universos simplemente dicho).
La estadística, en cambio, se ocupa preferentemente de los pequeños
números, de los pequeños conjuntos, de los conjuntos finitos, extraídos
naturalmente de aquel gran conjunto y que por ser fracciones de él se
denominan muestras. Por ejemplo, si observamos el peso de un conjunto
de niños recién nacidos, podremos comprobar lo que pesan un número
determinado de ellos, pero no el de todos los recién nacidos habidos y
por haber. El conjunto finito de recién nacidos sometidos a nuestra obser­
vación es ¡a muestra-, el conjunto infinito de todos los recién nacidos ha­
bidos y por haber es el universo (el universo de recién nacidos).
La muestra es el elemento fundamental con que trabaja la estadística.
Sin muestra no hay estadística.

5
Observación y dato
La muestra es el conjunto de observaciones valoradas cuantitativamen­
te y también el conjunto de los valores numéricos individuales. Estos, los
valores numéricos individuales, se denominan “datos”. Por ejemplo, el
conjunto de las observaciones de las horas dormidas por los pacientes del
ejemplo dado anteriormente constituye los datos. El dato es el valor numé­
rico de la observación individual.
Cuando las observaciones se clasifican cualitativamente (por ejemplo:
gordos, medianos o flacos), el conjunto de observaciones de igual clasifi­
cación constituye una clase. A las clases se las simboliza genéricamente
con una x minúscula. En este caso el valor de cada observación es igual a

Registro y clasificación de los datos


La observación o la clase y su dato deben, en primer término, 'er
registrados, esto es, deben ser llevados a una planilla, a una ficha, a una
tarjeta, a una hoja de cuaderno, etcétera.
Hecho esto, las observaciones no clasificadas deben serlo, es decir, se
las debe.agrupar en clases. Vimos que se llama clase a un conjunto de
observaciones similares.
A mayor abundamiento diremos que las observaciones difieren entre
Si observamos niños recién nacidos, éstos pueden diferir por. el sexo
(diferencia cualitativa) o por el peso (diferencia cuantitativa). El conjunto
de los recién nacidos varones constituye la clase de los recién nacidos va­
rones; el conjunto de los que pesan 3000 g, la clase de los que pesan
3000 g, etcétera.
El número de observaciones de una clase constituye su frecuencia.
(frecuencia absoluta véase infra).
Cuando una muestra está formada por un gran número de observa­
ciones (lo que ocurre especialmente cuando las diferencias son cuantita­
tivas) se juntan las observaciones similares en un solo grupo, constituyen­
do cada grupo una clase. El número de observaciones agrupadas en una
clase constituye la frecuencia de ese grupo o clase.
Es necesario fijar claramente los límites del grupo o clase, de modo
que no haya duda de si una observación pertenece a un grupo u otro.
Para ello conviene tomar como límites de los grupos valores inaccesibles a
los métodos de medidas usados en la investigación. Si la balanza sólo es
capaz de medir gramos, colocamos los límites a mitad de gramo, por
ejemplo 0,5 g - 9,5 —19,5 - 29,5 g, etcétera.
CONCEPTOS GENERALES

En estos casos se toma como valor representativo del grupo o clase la


semisuma de los limites del grupo (en el ejemplo dado, 5 g - 14,5 - 24,5
- etc.), es decir, se considera como si todas las observaciones di grupo
pesasen ese valor medio. Puede haber en esto un pequeño erro pero
generalmente las diferencias se compensan y el error no existe o s mí-

Luego el dato también debe ser clasificado, esto es. reconocido como
una cantidad continua o discontinua. Por ejemplo, si so trata del número
de glóbulos rojos por milímetros cúbicos, el dato es discontinuo, pues en
un volumen dado de sangre no puede haber sino un número entero de
glóbulos rojos y la diferencia con otro volumen de sangre implicará tam-'
bien un número entero de ellos.
Pero'si se trata de la hemoglobina contenida en un volumen de san­
gre, el dato será continuo, ya que la cantidad será un número fraccionado
de la unidad que se utilice (difícilmente un número entero de esa unidad)
y podrá presentar toda la gama posible de valores intermedios entre un
número entero de unidades y el siguiente. La diferencia con otro volumen
de sangre será asimismo un número fraccionado de unidades, difícilmente

Los datos discontinuos se suelen denominar también datos discretos.


La presentación de éstos no ofrece dificultades. En cambio, cuando se tra­
ta de datos continuos es necesario aclarar si el valor registrado es el valor
más próximo al valor real o si se trata de la parte entera de un valor real
al que le sigue una fracción.
Así. si se dice que una persona mide 1,60 m, es necesario aclarar si se
han tomado los 60 cm por estar el valor real más próximo a esa medida
que a 1,59 m o a 1,61, o si se dice 1.60 m cuando la talla real es 1,60 m
o más, pero menos de 1,61. En el primer caso se habrán registrado como
1.60 las tallas reales desde 1,596 m hasta 1,605 m, y en el segundo, desde
1,600 a 1,609. Como se ve, si los datos son continuos debe aclararse la
forma como se los ha tomado; si son discontinuos esta precaución es inne-

Tabulación
Finalmente, los datos deben ser tabulados, es decir presentados en
una tabla, colocándolos en columna vertical (aunque puede hacérselo tam­
bién en línea horizontal).
A partir de este momento se está en condiciones de iniciar el análisis
estadístico propiamente dicho. Así la muestra de las horas de sueño pro­
ducidas por un hipnótico deben ser tabuladas como muestra el cuadro 1.
EJEMPLO DE TABULACION
(Horas de sueño producidas por un hipnótico
CAPITULO II

CONCEPTOS PARTICULARES
ESTADISTICA MEDICA

Los dalos pueden hallarse más o menos uniformemente diseminados, o


por el contrario, mostrar tendencia a confluir hacia los valores menores,
medianos o mayores.

Ordenamiento de los datos


En la muestra los datos se presentan al observador en forma desorde­
nada. La primera tarea del tratamiento estadístico es ordenarlos, general­
mente de menor a mayor pero podría ser a la inversa.

Serie estadística
El resultado del ordenamiento es transformar un conjunto desorde­
nado de números en una serie ordenada de ellos. Por tratarse de los datos
o valores de observaciones similares, el conjunto ordenado de los datos se
denomina serie estadística.
Cada uno de los datos toma ahora el nombre genérico de término de
la serie. La serie consta de tantos términos como de observaciones la

La x minúscula que simboliza genéricamente a los datos, simboliza


igualmente a los términos.
La serie estadística se parece a las otras series matemáticas (aritmé­
tica, geométrica, etc.) en que consiste en un conjunto ordenado de núme­
ros, pero se diferencia de ellas en que los términos pueden repetirse,
saltearse y carecen de toda relación o razón con sus vecinos.

Agrupamiento de los datos


Frecuentemente en una muestra (y en una serie) hay datos repetidos,
o de un valor tan próximo o parecido, que pueden darse por iguales, y
por lo tanto, por repetidos.
Cuando así ocurre en muestras muy numerosas, es decir, con una
población de 30 o más, deben reunirse o agruparse estas obsetvaciones
repetidas o similares. Es lo que se llama agrupación o agrupamiento de los

Intervalo o módulo
Cuando los grupos comprenden no solamente datos iguales, sino muy
próximos, es necesario fijar los límites dentro de los cuales tendrán cabida
los datos de cada grupo. La distancia entre los límites de cada grupo se
denomina intervalo o módulo,
10
CONCEPTOS PARTICULARES
Por ejemplo, si se trata de una muestra formada por observaciones de
hemoglobina expresada en porcentaje de un valor que se considera nor­
mal, podemos reunir los datos comprendidos entre SI y 60 en un solo
gmpo, los entre 61 y 70 en otro, los entre 71 y 80 en otro, etcétera. En
este caso decimos que el intervalo o módulo es 10.
Como valor representativo del grupo se toma el equidistante a los
límites del mismo. En los grupos del ejemplo dado se toman como repre­
sentativos los valores SS para el 1°, 65 para el 2°, 75 para el 3°, etcétera.
Por lo tanto, se considera como si cada una de las observaciones del
grupo valiera lo que el valor representativo del grupo. La realidad es que
unos valen más y otros menos, pero la verdad es que muy probablemente
esos más y esos menos, es decir esas diferencias, se compensarán o el error
será muy pequeño, lo cual autoriza a proceder a dicho agrupamiento.
Frecuencia
Es el número o cantidad de observaciones iguales o semejantes de la
muestra. Es. por lo tanto, la población de los grupos. Se denomina igual­
mente frecuencia absoluta.
También, frecuencia es la relación entre esa cantidad o población del
grupo y la cantidad o población total de la muestra. Se llama entonces
frecuencia relativa. A esa frecuencia algunos autores la denominan proba­
bilidad.
Se la simboliza generalmente por una f minúscula.
En el primer caso, frecuencia es simplemente f.
En el segundo, frecuencia =* -f-
En el primer caso, la suma de las frecuencias es igual a la población
de la muestra,
n = 2 f.
En el segundo, la suma de las frecuencias es igual a la unidad,

El número de observaciones de un grupo es la frecuencia de dicho

Probabilidad
Es la relación entre la cantidad de hechos equivalentes y la cantidad
ESTADISTICA MEDICA

total o infinita de hechos similares de ese universo.


Esa cantidad infinita se suele simbolizar una veces por la unidad y
otras veces por dentó. En este caso se habla de probabilida porcentualPor
ejemplo, la probabilidad de que caiga cara una moneda arrojada al suelo
puede expresarse por 0,5 o también por 50%.

Ordenación de los grupos


Si, como debe hacerse, el ordenamiento de los datos precedió al agru-
pamiento de ellos, los grupos ya estarán ordenados.
De no haberse hecho asi, corresponde ordenar los grupos de acuerdo
con el ordenamiento de los datos, es decir, primero los grupos correspon­
dientes a datos más pequeños y después los mayores. De este modo los
grupos más numerosos quedan generalmente hacia la parte media de la
serie de los grupos, pero no siempre ocurre asi y puede suceder lo con-

Distribución de frecuencias
Con la ordenación de los grupos según la ordenación de los datos,
quedan también ordenadas las frecuencias de acuerdo con la ordenación
de los datos. Esta ordenación especial se denomina distribución de fre­
cuencias (d. de f.).
La d. de f. es la serie de frecuencias de los datos ordenados, con espe­
cificación de los datos o de las clases a que correspondan.
Al tabular los grupos, éstos van en la primera columna encabezada
por una x, hallándose cada grupo representado por el dato repetido o
representativo del grupo.
En la segunda columna, encabezada por una f, va la frecuencia del
grupo. Ya dijimos que la suma de esta columna (2f) es igual a la pobla­
ción de la muestra (n).
En la tercera columna, encabezada por la multiplicación indicada f x
van los productos de multiplicar el dato repetido o representativo del gru­
po por su frecuencia. La suma de esta columna (Efx) es igual al tamaño
de la muestra (Sfx —T).
Aun cuando las muestras pueden tener distribuciones de frecuencia
muy variadas, en medicina las distribuciones más comunes son estas cua­
tro: 1) la de Gauss; 2) la Gosset "Student” (derivada de la anterior); 3) la
de Bernouilli y 4) la de Poisson (vecina a la anterior).
Las dos primeras corresponden a datos continuos y las dos segundas a
datos discontinuos o discretos (véase clasificación de los datos).

12
CONCEPTOS PARTICULARES

Cuando las frecuencias de los valores más bajos son relativamente


escasas, pero las de los siguientes aumentan progresivamente hasta alcan­
zar un máximo para luego disminuir progresivamente haciéndose cada vez
más escasas, siendo el decrecimiento simétrico al crecimiento, la distribu­
ción se denomina Normal o de Gauss.
Cuando una distribución de Gauss corresponde a muestras poco nu­
merosas, con una población de 60 o menos observaciones o clases, y sobre
todo de 30 o menos, la distribución se denomina de Gosset "Student"
(siendo “Student" el seudónimo del estadístico W. S. Gosset).
Cuando la distribución está formada por valores que corresponden a
los de los monomios del desarrollo de un binomio elevado o potenciado la
distribución se denomina binomial o de Bemouilli.
Y cuando esta distribución corresponde a una muestra numerosa, pero
en la que algunas observaciones ocurren muy pocas veces, la distribución
se denomina de Poisson.

Ejemplo de distribución normal de frecuencias

ba entre 56 y 65
66 y 75
76 y 85
86 y 95
96 y 105
106 y 115
116 y 125
126 y 135
136 y 145

13
Ejemplo de distribución binomial
Se investigó el grupo sanguíneo de 36 personas hijos de padre y ma­
dre grupo AB y se encontró lo siguiente:
CONCEPTOS PARTICULARES

Estas frecuencias pueden escribirse asi:

18 = 2X 3X 3

(3 + 3)2 = 3* + 2 X 3 X 3 + 3’ .

Ejemplo de distribución de Poisson


Se ha dividido el territorio de la República en seis regiones, cada una
con una población equivalente. En cada zona se han tomado al azar den
localidades con una pobladón de diez mil habitantes. Se ha hecho el re­
cuento de albinos en cada una de ellas y se ha obtenido el siguiente
resultado:
N° de albinos Porciento en ¡a población

15
desarrollo del binomio elevado:

sea de los seis últimos resultados (véase m >adelante Distribución bi-


amial, Serie de resultados).
En efecto:
CAPITULO III

REPRESENTACIONES GRAFICAS

SUMARIO: Representaciones gráficas. Cuadriláteros. Sectores. Repr.

Cuando se desea dar una impresión visual de las proporciones que


guardan las poblaciones de los distintos grupos, se recurre al dibujo, con­
feccionando gráneos.
Si los grupos son pocos, los gráficos más usados son los cudriláteros y
los sectores.

Cuadriláteros

Cuando se utilizan cuadriláteros hay que cuidar de que si son rectán­


gulos y se los dibuja de pie, todas las bases se hallen en la misma linea
horizontal, y si acostados, que sus extremos izquierdos se hallen sobre la
misma línea vertical. En cualquier caso, la longitud de los cuadriláteros
debe ser proporcional a la población de los grupos.
Por ejemplo, si se quiere indicar que por cada 100 niños recién naci­
dos femeninos se encontraron 105 recién nacidos masculinos, la longitud
del cuadrilátero que representa a las niñas deberá medir, por ejemplo, 100
mm y la del que representa a los niños, 105 mm.
Estos cuadriláteros se dibujan separados uno de otros y no interesa la
anchura que se les asigne, pero todos deben tener la misma, como se ob­
serva en el Cuadro 3.

17
ESTADISTICAMEDICA

Cuadro 3
EJEMPLO DE REPRESENTACION GRAFICA: CUADRILATEROS
lProporción de nacimientos según el sexo¡

Para dibujar los cuadriláteros generalmente se empieza por el corres­


pondiente al del grupo más numeroso, dándosele un tamaño que se con­
sidere apropiado a la página donde debe aparecer la ilustración. Sus
medidas pueden ser, por ejemplo, base 2,5 cm y altura 10 cm.
Los otros cuadriláteros deben tener la misma base, es decir 2,5 cm, y
la altura debe ser proporcional a la del primero, teniendo en cuenta la
población de ambos grupos. Asi, si se tratase de sólo dos grupos, uno de
900 varones y otro de 850 mujeres, la altura del rectángulo correspon­
diente a éstas se calcula por una simple regla de tres.

900 : 10 :: 850 : X
10 X 850

Cuando para las representaciones gráficas se recurre a los sectores de


círculo, la población de la muestra se la equipara a los 360° del circulo y,
proporcionalmente a la población de los grupos, se dibujan los sectores.

18
REPRESENTACIONES GRAFICAS

Los grados de círculo que corresponden a cada grupo se calculan apli­


cando también la regla de tres. Así, si la población de la muestra de
recién nacidos es:
n = 105 + 100 = 205,
la regla de tres dice que los grados de círculo que corresponden al grupo
de mujeres es:
205 : 360 :: 100 : X,

X = 36<2QS1Q°~ = l75,' ' °

Con un radio cualquiera se dibuja un círculo y dentro de él se dibujan


dos sectores, uno de 175°,.. ° y el otro, lógicamente, de
360° - 175°___ = 184, ..
Ver Cuadro 4.

(Proporción de nacimientos según el sexoJ


ESTADISTICAMEDICA

Hislograma
Cuando los grupos son mis numerosos es preferible recurrir al histo-
grama: éste, como se verá, corresponde a las representaciones ortogonales,
es decir, que se funda en dos ejes que se corlan perpendieularmente (ejes
ortogonales o coordenadas cartesianas).
Aqui se trata también de cuadriláteros, pero pegados unos a otros.
Además, las bases de éstos, las que descansan sobre el eje horizontal o de
las abscisas, representan y miden lo que los módulos o intervalos (i) de los
grupos; y las alturas, o sea las ordenadas, la población o frecuencia del
grupo dividido por el intervalo (f/i); en esta forma el área del cuadrilátero
representa la población del grupo, y el área total del hislograma, la pobla­
ción de la muestra.

2(hX i) = £ f = n

Si tomamos como altura del cuadrilátero la frecuencia o población del


o dividida por la base del cuadrilátero (i) multiplicada por la pobla-
, o efectivo de la muestra (n)

y la suma de las áreas de los cuadriláteros es igual a 1,

2(h X i) = £ - = = — = 1.

Las abscisas marcan los limites de cada grupo.


Cuando el intervalo es I la altura del cuadrilátero indica directamente
la población del grupo, o sea la frecuencia absoluta.

20
ENTACIONES GRAFICAS

Ejemplo de histograma

o población del grupo

la correspondiente es el que r

Cuadro 5
EJEMPLO DE REPRESENTACION GRAFICA: HISTOGRAMA
Edades de 488 pacientes afectadas de carcinoma uterino

21
ESTADISTICA MEDICA

Cuando los valores agrupados se reemplazan por el valor equidistante


de los limites del grupo, pueden representarse los grupos por los vértices de
un polígono obtenido uniendo los puntos que tienen como abscisas el
valor medio del grupo y como ordenada la población del grupo o frecuen­
cia dividida por el intervalo.
Esto equivale a unir los puntos medios de las bases superiores de los
cuadriláteros del histograma. Cuando el intérnalo es igual a 1, la ordenada
indica directamente la población del grupo, o sea la frecuencia absoluta.
Cuando la ordenada es igual a la frecuencia dividida por el producto del
intervalo multiplicado por la población de la muestra, el área subtendida
al polígono se aproxima a 1.
El área subtendida al polígono es una aproximación al área del histo-

Ejemplo
Las 488 pacientes con cáncer de cuello recién vistas pueden ser tabu­
ladas como se observa a continuación:

Edad media - x / n° de pacientes n°/i = y


26.0 8 18 2,25
32.5 5 45 9,00
37.5 S 79 15,80
47.5 15 225 15,00
37.5 5 63 12,60
65.0 10 45 4,50
80.0 20 13 0,65

El polígono correspondiente sería el que muestra el Cuadro 6.

Cuando los grupos son muy numerosos, lógicamente los intervalos son
relativamente muy pequeños: en este caso, si la diferencia de población
entre grupos próximos es también muy pequeña, el polígono se confunde
con una curva. Lo mismo ocurre en el histograma con la línea quebrada
formada por las bases superiores de los cuadriláteros y las porciones co­
rrespondientes de los lados laterales de los mismos. Esta línea quebrada,
RFPRFSF.NTACIONES GRAFICAS

Cuadro 6
EJEMPLO DE REPRESENTACIONGRAFICA: POLIGONO
Edades de 488 pacientes afectadas de carcinoma uterino

Como el área del histograma indica la población de la muestra, el área


subtendida de la curva, cuando ésta procede de un histograma, indica
igualmente la población de la muestra.

Curva normal o de Gauss


Cuando esta curva presenta una sola elevación o cima a partir de la
cual la línea desciende en forma simétrica para tender a horizontalizarse
'en sus extremos, esta curva toma una forma acampanada y lleva el nom­
bre de curva normal o típica o curva de Gauss.

CURVA DE GAUSS
23
CAPITULO IV

PARAMETROS ESTADISTICOS

srsssrsss
ESTADISTICA MEDICA

Parámetros de posición
Algunos de los parámetros fundamentales tratan de fijar la posición
del valor que pueda darse como representativo de los valores de los datos
de la muestra. Son los llamados parámetros de posición, o también pro­
medios.
Según sea el procedimiento que se siga para la elección de este pará­
metro, el promedio se denomina modo, mediana o media.

Cuando el procedimiento es tomar el valor que se encuentra repetido


un mayor número de veces, el que está de moda diríamos, el parámetro
toma el nombre de modo.
En la serie puede situarse en cualquier parte, a veces hacia la mitad, a

Cuando en una muestra no hay valores repetidos, la misma carece de

Cuando hay algunos pocos grupos de valores igualmente más repe­


tidos, cualquiera de ellos puede tomarse como modo; pero si son muchos
los grupos de valores igualmente más repetidos, es dudoso el valor repre­
sentativo de cualquiera de éstos;y cuando todos los valores de la muestra
están igualmente repetidos, nos encontramos con una situación similar a
cuando ninguno de ellos está repetido, es decir, no podemos tomar nin­
guno de ellos, y por lo tanto la muestra carecería también de modo.
Es dudoso igualmente el valor representativo de un modo situado
hacia uno de los extremos de la serie, sobre todo si se encuentra aislado,
es decir, sin la vecindad de otros valores repetidos.
El modo es a veces el promedio elegido, por ejemplo, cuando interesa
señalar la duración habitual de una enfermedad, pero en general es un
promedio poco usado en medicina, porque no se lo puede obtener o por­
que su representatividad resulta poco convincente. Por ejemplo, si quisié­
ramos tener una idea de la edad promedio de los habitantes de una ciudad
e hiciéramos un grupo con los que tienen de 1 a 5 años, otro con los de 6
a 10, otro con los de 11 a 15, etcétera, seguramente encontraríamos que
el grupo más numeroso es el de 1 a 5 años, y si tomáramos el modo
como promedio tendríamos que decir que la edad promedio de los habi­
tantes de esa ciudad es la de 1 a 5 años. Con toda seguridad esta contes­
tación no nos dejaría satisfechos, y recurriríamos a otro valor represen­
tativo para tener Uua i ‘'a satisfactoria de la edad promedio de los
habitantes de dicha ci.'.dad.

26
Como la suma de los dalos se denomina tamaño de la muestia y la de
las obseivaciones población, se puede decir que la media aritmética es
igual al tamaño de la muestra dividida por la población de la misma.

- 1 x - I = S xf
m “ Sf = ' ” 2 f
La media aritmética cr el promedio más utilizado en medicina. Presen­
ta, sin embargo, algunos puntos débiles, de los cuales los mis importantes
son: 1°) Frecuentemente no corresponde a ningún dato de la muestra. 2°)
Puede pertenecer a un grupo poco numeroso. 3o) Se ve fuertemente in­
fluida por los datos extremes.
Además de esta media aritmética ma, existen otras medias, menos
geométrica mg y la armónica mh,

Media geométrica

número o cantidad, se multiplican los datos entre si y al producto se le


extrae la raíz correspondiente a su número o cantidad.

media geométrica = v^Xi X X, X X3 X . . . X„.


Esta media se utiliza cuando se examinan hechos que siguen la ley del
crecimiento, o sea cuando la serie estadística correspondiente se asemeja a
una serie geométrica, por ejemplo 2, 4, 8, 16, 32, etcétera.
Por ejemplo, supongamos que se haga el recuento de gérmenes de un
cultivo y se encuentran 200.000 por cc. Dos días después un nuevo re­
cuento indica 400.000 por cc. Si quisiéramos calcular el recuento que se
hubiera encontrado de haberlo hecho en el dia intermedio, la media arit­
mética nos diría que habríamos encontrado 300.000. Sin embargo, este

el mismo el primer día que el segundo, cuando sabemos que en el según-

Recurriendo a la media geométrica, en cambio, el resultado sería:

m = j 200.000 X 400.000 = 282.843,

lo cual satisface más, porque indica que el aumento del primer día habría
sido 82.843 y el del segundo día 117.157, es decir 34.314 más que el
primer día.
PARAMETROSESTADISTICOS

Media armónica
En esta media, en vez de dividir la sumatoria de los datos (£ x) por la
población (n), dividimos la población por la sumatoria de la inversa o re­
cíproca de los datos:

media armónica = ——

Esta media se utiliza cuando se trata de datos que se expresan en unida­


des relativas, es decir, cuando se refieren a velocidades sobre espacios
iguales, o consumos de volumen en tiempo ¡guales, etcétera. Por ejemplo,
centímetros por hora, litros por minutos, etcétera. Así, si deseamos co­
nocer la velocidad media con que se propaga el edema producido por la
picadura de una araña, podemos encontrar que el radio del área de la zo­
na edematosa alcanzó I cm en los primeros 15 minutos, es decir una velo­
cidad de 4 cm por hora. Pero luego observamos que para alcanzar el 2°
cm el edema tardó 20 minutos. Entonces anotamos velocidad, de la segun­
da observación, 3 cm por hora. El 3° cm fue alcanzado 30 minutos des­
pués, lo que nos da para la tercera observación una velocidad de 2 cm por
hora. Por fin, el 4° cm se alcanzó 60 minutos después, lo cual nos permi­
te registrar la cuarta observación con el dato de I cm por hora. Dispo­
nemos asi de cuatro observaciones en las que los datos se valoran en
velocidades sobre espacios iguales, es decir, en unidades relativas.
La velocidad media de la muestra, si recurriésemos a la media arit-

15 + 20 + 30 + 60 = 125 min

:n 2 horas 5 minutos, lo que significa

, ... distancia
velocidad = — --------

29
PARAMETROS ESTADISTICOS

Como hay datos cuyos valores son mayores que la media y otros que
son menores, los primeros tendrán desvíos positivos (afectados con el sig­
no más), y los segundos, desvíos negativos (afectados con el signo menos).
Como el valor de la media es igual al tamaño de la muestra dividido
por la población, puede decirse, en términos generales y aproximadamen­
te, que el valor de la media es intermedio entre los valores del primero y
del último término de la serie, e igualmente intermedio entre los del se­
gundo y del penúltimo, y entre los del tercero y del antepenúltimo, et­
cétera. Es decir, la distancia en magnitud del primer término a la media es
igual a la distancia en magnitud de la media al último, y del segundo a la
media que de la media al penúltimo, etcétera; y en términos exactos, que
la suma de las distancias, en magnitud a la media, de los términos que la
preceden, es igual a la suma de las distancias, en magnitud, de los térmi­
nos que la siguen.
Nótese que decimos distancia, que del punto A al B es la misma que
la del B al A, pero no decimos que las sumas de las diferencias sean igua­
les, porque no es lo mismo A menos B que B menos A. Como se sabe, la
diferencia entre estas dos restas está en el signo que afecta al resultado,
siendo la cantidad la misma.

Parámetros de dispersión
Se denominan parámetros de dispersión aquellos que tratan de fijar el
valor de la dispersión (véase pág. 9) de los datos de una muestra. Entre
éstos se cuentan la amplitud, el desvío medio o simple o aritmético, el
desvío medio standard y el error standard.

Amplitud
Es la diferencia de valor entre el dato mayor y el menor de la mues­
tra, y también entre el último y el primer término de la serie.
Se lo denomina también, a veces, intervalo de variación, o rango.
Puede servir como medida de la extensión de la muestra, pero no nos
da una idea exacta de la dispersión de los datos. Dos muestras pueden
tener la misma amplitud, pero una con los datos concentrados en las pro­
ximidades de la media y la otra con los valores de los datos alejados de
ella. Por tanto, es un parámetro poco usado.

Desvio medio aritmético


Es la media de las distancias, en valor, de los datos a la media.

31
Se lo calcula suprimiendo el signo que afecta a los desvíos, sumando*
los después y dividiendo esa suma por su número o cantidad, o sea por la
población de la muestra.
Suele lomarse por los profanos en estadística como valor representa­
tivo de los desvíos. Pero esto no es correcto, porque no todos los desvíos
son valores positivos. La mitad de ellos son negativos, y no es lo mismo
un valor positivo que un negativo, es decir, no es posible ignorar o su­
primir el signo que afecta a un desvío.
Además de esta dificultad doctrinaria para aceptar el desvio medio arit­
mético como representativo de los desvíos de los datos, existe la dificul­
tad práctica de ser un valor chico, por lo tanto tener una magnitud pe­
queña que lo hace inútil o poco útil en los cálculos estadísticos ulteriores
en los que se necesita un valor representativo de los desvíos.

Desvio medio standard


■Es un valor convencional que se da como representativo de los des­
víos. En él se obvia al parecer el inconveniente de que unos desvíos son
positivos y otros negativos, elevando al cuadrado el valor de cada desvío,
con lo cual todos los valores obtenidos son positivos. Luego se suman esos
cuadrados y la suma se divide por la población; finalmente al cociente se
le extrae la raíz cuadrada.
El principal mérito del desvío medio standard es suministrar un valor
cuya magnitud, mayor que la del desvío medio aritmético, lo hace útil
para los cálculos ulteriores en los que se necesita un valor representativo

Se lo simboliza generalmente por una “S” mayúscula subseguida de


una "x" minúscula. Entonces:

■ =\ [
Es decir que el desvío medio standard es la raíz cuadrada de la media
de los cuadrados de los desvíos simples.
El valor así obtenido es suficientemente grande cuando se trata de
muestras numerosas, con una población de 60 o más observaciones, o por
lo menos de 30 o más, es decir de una muestra de Gauss; pero resulta
todavía pequeño cuando la muestra es poco numerosa, o muestra de
Gauss “Student".
En este caso es necesario un valor todavía mayor, y tanto más cuanto

32
Se ha encontrado que este valor útil puede obtenerse multiplicando la
cantidad subradical por el cociente "población sobre población menos
uno”, es decir n-j y , factor conocido con el nombre de “Factor de co­
rrección de Bessel”, o sea

Z (x - m)’

Este valor convencional se denomina "desvio medio standard de las


muestras poco numerosas”. Ejemplo:
Si tuviésemos la muestra: I, 3, 5. 7, 9, en la que la media es S y los
desvíos —4, —2,0, +2. +4, el desvío medio aritmético sería:

4 + 24-2 + 4 12

el desvío medio standard:

y el “desvio medio standard de una muestra poco numerosa”.

■ -*

Al desvío medio standard se lo suele llamar de muchas maneras: des­


vío medio tipo, normal, convencional, cuadrático, etcétera. Posiblemente
la manera más común de llamarlo es simplemente desvío standard.
El desvío standard, aun siendo un promedio de desvíos, no deja de
ser un parámetro de posición (de la posición del valor representativo de
los desvíos), y por lo tanto puede ser el mismo para muestras de pobla­
ciones distintas. Es decir, el desvío standard no nos da una idea de la
población de la muestra.

Error standard
Es el cociente del desvío standard dividido por la raíz cuadrada de la
población.

33
PARAMETROS ESTADISTICOS

Puede aceptarse que hay un 68% de probabilidad de que la media del


universo se halle dentro de un error standard a derecha o izquierda de
nuestra media y un 95% dentro de 2 Sm * nuestra media.

Desvio relativo de la media


Es el desvío standard (S») expresado en porciento de la media.
Ejemplo: El parto de la primípara tiene una duración media de 14
horas con una desviación relativa de la media del 20%.

■ _ 20 _ 20 _ 20 X 14 _ 280 g
m ~ ío o m “ 100 _ 100 100 ~ ‘ *

Esto significa que el desvio standard es igual a 2,8 horas, o, lo que es


lo mismo, que en el 68% de los casos el parto de la primípara dura 14 hs.
i 2,8 hs., y en el 95% 14 hs. ± 5,6 hs., o sea, entre 8 horas 24 minutos y
19 horas 36 minutos.

Parámetros derivados
Se denominan parámetros derivados a valores calculados indirecta­
mente a partir de los valores de los dalos.
Los parámetros derivados son, e indican, relaciones entre otros pará­
metros y generalmente se expresan como cocientes. Modifican cuantitati­
vamente al parámetro principal o fundamental, del que derivan, pero no
cualitativamente. Por eso suelen denominarse también parámetros sccun-

Es la relación de la dispersión de los datos (expresada como suma de


los cuadrados de los desvíos) con el número de observaciones, o sea con
la población de la muestra. Se la denomina también dispersión o fluctua­
ción de los desvíos.

Puede decirse también que es la media de los cuadrados de los des-

Y también que es el cuadrado del desvío standard.

35
ESTADISTICA MEDICA

. si - (JH2Z )’,
PARAMETROS ESTADISTICOS

Se 16 denomina también desvío relativo.

Significado
El desvío reducido es el desvío simple expresado en unidades de des­
vío standard, o sea: el desvío reducido expresa cuántas veces 'el desvio de
la observación es menor o mayor que el desvío medio standard de la

El desvío reducido permite saber a qué distancia relativa de la media


se encuentra la observación a que pertenece, y hacer comparaciones con
las distancias a que se encuentran otras observaciones de la misma mues­
tra, o comparaciones con las distancias a la media de observaciones con
igual desvío reducido de otras muestras, en caso de que ambas muestras
tengan una normal distribución de frecuencia.
El principal uso del desvío reducido es su aplicación al cálculo de la
cantidad o porción de-observaciones con menores o con igual o mayores
desvíos reducidos que nuestra observación existente en la muestra. Con
ello se logra una base numérica al concepto de significación de la diferen­
cia del valor de una observación al valor de la media.
En una distribución normal, las observaciones cuyos desvíos reducidos
son menores que I. es decir cuyos desvíos simples son menores que el
desvío standard, constituyen algo más del 68% del total de la muestra.
Aquellas cuyos desvíos reducidos son menores de 2, es decir cuyos des­
víos simples valen menos que dos desvíos standard, suman algo más del
95% del total. Los que tienen uno menor de 3, es decir, cuyos desvíos
simples valen menos que tres desvíos standard, constituyen algo más del
99,7% del total. Y los que tienen uno mayor de 3, es decir cuyos desvíos
simples valen más que tres desvíos standard, constituyen algo menor del
99,7% del total. También podemos decir que las observaciones cuyos des­
víos reducidos valen 1 o más suman algo menos del 32% del total, aque­
llas cuyos desvíos reducidos valen 2 o más, consituyen algo menos del 5%
del total y aquellas cuyos desvíos reducidos valen 3 o mis, suman algo
menos del 0,3% del total.
El desvio reducido es una parámetro de dispersión que califica a las

Se denomina Probits al desvío reducido aumentado en 5 unidades.

37
ESTADISTICA MEDICA

La utilidad y razón de ser del Probils consiste en que evita trabajar


con cantidades negativas, lo cual ocurre cuando se trabaja con D. R. co­
rrespondientes a datos cuyos valores son inferiores a los de la media.
I£n el Probits el valor del D.R. se aumenta en S unidades porque en la
práctica generalmente se trabaja con D.R. superiores a -S y sólo por
excepción con D.R. menores de -5.

Dispersión de la media
Bs la relación entre la variancia (o sea. entre el cuadrado del desvío
standard) y la población de la muestra.

D. de la M. =

También puede decirse que es el cuadrado del error standard, ya que

ca „ - .-5 1 _ _ SL
" iS T T n•

Significado
Como la variancia y el error standard, de los que deriva, y como su
nombre lo indica, es un parámetro de dispersión, lo cual se ve claramente

Promedio ponderado
Bs la relación del tamaño total de varias muestras, con la población

Zfprom. pare. X pobiac. pare.)


Promedio ponderado =
Población total

38
PARAMETROS ESTADISTICOS

Significado
El promedio ponderado es la media de un conjunto de muestras de
cada una de las cuales se conoce la media y la población.

Error probable
Es el error standard multiplicado por 2/3 (más exactamente, multipli­
cado por 0,67449).

E. Prob. = 0,67449 S , ? y S„ - y ^ = -

E1 error probable equivale aproximadamente a los 2/3 del error stan­


dard.

Significado
El error probable de una muestra indica que el 50% de las medias de
las muestras similares a dicha muestra caerán dentro de los limites media
± 1 B.P. de dicha muestra.
Se puede aceptar además que hay un 50% de probabilidades de que la
media del universo caiga también dentro de dichos limites.

Error relativo
Es la relación entre la media y el error standard.

Error relativo = ~

El error relativo es el cociente de la media dividido por el error stan-

Se puede decir también que es la media expresada en unidades de


errores standard y también que el error relativo muestra cuántas veces la
media es mayor o menor que el error standard.

Significado
Si el error relativo es igual o superior a 2, es decir, si la media es igual
o superior al doble del error standard, éste es suficientemente pequeño

39
ESTADISTICA MEDICA

como para aceptar que la media es fidedigna de pertenecer a una muestra


de la muestra, o sea normalmente dispersos alrededor de la media; en
cambio si el error relativo es inferior a 2, o sea si la media es inferior al
doble del error standard, los datos se hallan anormalmente diseminados
dentro de la muestra, esto es, excesivamente dispersos con relación a la
media, lo cual probablemente ocurra porque algunos datos se hallen afec­
tados o influidos por factores extraños al resto de las observaciones de la
génea. de una muestra no formada por observaciones similares.
El error relativo es, por lo tanto, un parámetro de dispersión, pero al
mismo tiempo es un parámetro que califica a la media en fidedigna o no.
Es decir que la significación de la media está dada por el valor del E.
R. (Véase capítulo X; Significación de la media).

40
SEGUNDA PARTE

LA MUESTRA NORMAL NUMEROSA O MUESTRA NOR­


MAL DE GAUSS

El cálculo de sus parámetros


CAPITULO V

MEDIA, DESVIO STANDARD Y ERROR STANDARD

Método fundamental
Se habla de cálculo de parámetro por el método fundamental cuando
se refiere a aquel que se basa directamente en las fótmuias que expresan
simbólicamente el concepto del parámetro. Así, el cálculo fundamental de
la media es aquel que hace uso directo de la fórmula conceptual.

El del desvio standard el que hace uso direc

Cálculo de la media, del desvío standard y del error standard


El desarrollo de este tema vamos a hacerlo recurriendo a un ejemplo:
Supongamos que se desea conocer el peso medio de los niños recién
nacidos normales, pero además se desea conocer la dispersión de las ob­

43
servaciones y la dispersión de las medias de muestras similares a la mués-

Los .datos se hallan registrados en un conjunto de historias clínicas


que hemos seleccionado a objeto de lograr una muestra lo más uniforme
posible. Es decir hemos eliminado todas las sospechosas de pertenecer a
casos de prematuros o de posmaduros, asi como las que presenten algún
dato clínico u obstétrico anormal.
El dato del peso, en las H.C1., está registrado en kilos y gramos, es
decir en un guarismo de 4 cifras. Nosotros, para simplificar el cálculo,
tomaremos solamente las dos primeras cifras, es decir la que expresa los
kilos, y la primera cifra decimal.
Al hacerlo así, tomamos conciencia de que nuestros datos corres­
ponden a la clase de los llamados continuos y que cuando decimos, por
ejemplo, 3,2, decimos en realidad 3,2 o más. pero menos de 3,3.
Estos datos se nos presentan en el conjunto de H. Cl. en forma de­
sordenada, es decir que después del valor consignado en una historia,
encontramos que el de la siguiente puede ser menor, igual o mayor, indis-

Nuestra tarea inmediata será, por lo tanto, ordenarlos y agruparlos


por grupos de valores iguales, para lo cual hacemos uso del método de los
palotes. Este consiste en tomar una hoja de papel, y en una primera co­
lumna, encabezada con una x minúscula, colocamos una serie de valores
sucesivos, desde el que consideramos que ha de ser el menor, hasta el que
pensamos que será el mayor.
Si esto no se confirmara y encontráramos valores más pequeños o
mayores que los esperados, no habrá inconveniente en agregarlos antes del
primero o después del último. Esa primera columna estará por lo tanto
formada provisionalmente, y quizá definitivamente, por los valores indi­
cados en el cuadro 7.
A continuación leemos el dato en cada historia clínica y en la 2da.
columna marcamos un palote en la línea del valor correspondiente. Así
hemos obtenido la siguiente columna.
Hecho esto, obtenemos los valores de una 3ra. columna, encabezada
por una “f , sumando los palotes de cada línea. La suma de esta columna
(£ f) es la población de la muestra.

2 f= 44

Por fin. organizamos una 4ta. columna encabezada x í multiplicando el


valor del x por f. La suma de esta columna (2 x f) es el tamaño de la

44
MEDIA, DESVIO STANDARD YERROR STANDARD

2 * f = 146,9 = T

Hemos hecho asi varias cosas:


1°) Hemos ordenado los dalos.
2°) Hemos agrupado los datos, obteniendo grupos ordenados.

Cuadro 7
EJEMPLO DE AGRUPAMIENTOYORDENACIONDE LOS DATOS:
PALOTES

Exf ■ tamaño tpeso total de todos los niños).


ESTADISTICA MEDICA

3”) Hemos obtenido la población de los grupos, es decir la frecuen­


cia, la que por estar ordenados de acuerdo a los datos, constituye una
distribución de frecuencias. Vemos que en esta muestra la frecuencia se
inicia con un valor mínii .c* aumenta progresivamente hasta un valor
máximo, a partir del cual .isminuye también progresivamente, hasta vol­
ver a un valor mínimo, quedando el grupo de frecuencia máxima relati­
vamente equidistante de los grupos de frecuencia mínima. Esta distribu­
ción de frecuencia es, por lo tanto, una distribución casi normal.
4 ) Hemos obtenido la “población" y el "tamaño" de la muestra.

Con este tratamiento previo de la muestra estamos ya en condiciones


de calcular los parámetros media, desvío standard y error standard, por
los métodos fundamentales.
El más sencillo de todos es el cálculo de la media.
La media es igual al tamaño de la muestra dividido por la población.
Entonces tenemos:

El desvio standard es la raíz cuadrada de la media de los cuadrados


de los desvíos. Debemos calcular por lo tanto los desvíos, elevarlos al cua­
drado y obtener su sumatoria. Esto exige la confección de una "planilla
de operaciones". Esta se confecciona de la siguiente manera:
En una primera columna, encabezada por una "x". se coloca el valor
del dato o de los datos que integran cada grupo. Naturalmente, los grupos
inexistentes no aparecen en la planilla. Ver cuadro 8.
En una segunda columna, encabezada por una *T\ colocamos la po­
blación de cada grupo, o sea la frecuencia.
Dijimos que la suma de esta columna es la población de la muestra.
A continuación calculamos los desvíos de cada dato, es decir sus dis­
tancias a la media ya calculada y los colocamos en la línea correspondien­
te al dato, en una 3ra. columna encabezada por la expresión x - m.
Ahora formamos una 4ta. columna, encabezada por la expresión (x -
ni)3, formada por los cuadrados de estos desvíos.
Luego formamos un Sta. columna, encabezada por la expresión f (x —
m)z , formada por los productos de la frecuencia o población de los
grapos multiplicada por el cuadrado de los desvíos, con lo cual se obtiene
el tamaño de los grupos de les desvíos elevados al cuadrado.
Su suma es el tamaño de los cuadrados de todos los desvíos y su
media es la cantidad subradical del desvío standard.
£ £ fi i £ £ £ £ £ £ £ £ £ £ £ £ £ C
ESTADISTICA MEDICA

3°) Que la dispersión de las medias es 0,06.


(Si queremos, podemos expresarlos en gramos).
Esto significa: 1°) que el peso medio de los recién nacidos de la
muestra es 3,3 kg; 2o) que si bien es cierto que ese peso solo lo tienen
algunos recién nacidos (y quizá ninguno) el peso del 68% de ellos está
comprendido entre la media más un desvío standard y la media menos un
desvio standard, es decir entre 2,9 y 3,7 kg; y 3°) que el 95% está com­
prendido entre la media más o menos 2 desvíos standard; es decir, entre
2,S y 4,1 kg, y significa además que si se examinan muchas muestras si­
milares a la muestra, es posible, igualmente, que sólo algunas medias, (o
quizá ninguna) coincida con la muestra, pero que en el 68% de las mues­
tras la media se encontrará entre la nuestra menos un error standard y
nuestra media más un error standard, es decir entre 3,24 y 3,36 kg, y en
el 95% entre nuestra media más o menos 2 errores standard, es decir entre
3,18 y 3,42 kg.
Así se obtienen la media, el desvío standard y el error standard por el
método fundamental.
Cuando se trata de muestras pequeñas, poco numerosas, no hay in­
conveniente en utilizar este método, pero cuando son muestras grandes y
numerosas, este método puede resultar largo y fatigoso. En esos casos es
preferible utilizar métodos simplificados basados en fórmulas derivadas de
las fundamentales.
Para comprender estas fórmulas y estos métodos es necesario conocer
previamente algunas propiedades de la media y del desvío standard. Es lo
que pasaremos ahora a estudiar.
CAPITULO VI

PROPIEDADES DE LA MEDIA Y DEL DESVIO STANDARD

SUMARIO: Propiedades de la media y del desvio standard. Propiedad “A"


de U media. Propiedad "B". Propiedad "A" del desvío standard. Propiedad

El cálculo de los parámetros media, desvío standard, y variancia pue­


de hacerse, naturalmente, por el método fundamental, es decir utilizando
directamente las fórmulas conceptuales de estos parámetros; pero a veces
los cálculos realizados utilizando estas fórmulas resultan muy largos y
laboriosos, especialmente cuando se trata de muestras numerosas y de
gran tantalio. Por este motivo los estadísticos han buscado y obtenido
métodos simplificados de cálculo que abrevian y aligeran extraordinaria­
mente esta tarea. Estos métodos simplificados utilizan fórmulas derivadas
de las fundamentales, las cuales se basan en propiedades especiales de
estos parámetros.
Para comprender dichas fórmulas es por lo tanto indispensable cono-

siguiente.

Propiedad “A” de la media


Si desplazamos el 0 de una serie y lo colocamos en un punto cual­
quiera 0', se modifican los valores de los términos y por lo tanto el de la
ESTADISTICA Mi

Coloquemos ahí
segunda observación
vos valores de los te

Este es el valor de la media (m‘) de los nuevos datos (modificados por

Vemos así que la nueva media es igual a la media real menos el valor
de la escala en que se colocó 0*. Es decir:

m' = m - va = 165 - 160= 5 (1)

De (1) se deduce:
m = m' + v.a. (2)

Es decir: lamedia real (m) es igual a la media delosnuevos valores


sumadaalgebraicamente alvalor arbitrario (v.a.) en el que secolocó el

m = 5 + 160 = 165
PROPIEDADES DE LA MEDIA Y DEL DESVIOSTANDARD

Importancia de la propiedad "A "de la media


Cuando los valores de los dalos se expresan con números alejados de
cero, como ocurre cuando se miden la estatura de la personas en cm, o
las presiones arteriales en mm, o se trata de densidades de orina, etcétera,
es mucho más cómodo, al hacer el cálculo de la media, transformar los
valores de los datos en otros más chicos, colocando el 0' de la nueva es­
cala más cerca de los valores de la muestra, y hasta dentro de ella.
De ese modo se transforman los valores primitivos en otros secunda­
rios. En estas condiciones, la media que se obtenga será también una
media secundaria; pero será muy fácil transformar esta media secundaria
en la media de la serie primitiva con sólo sumarla algebraicamente al valor
frente al cual se colocó el 0' de la escala, al hacer la transformación de los
valores primitivos en los secundarios.

Ejemplos
Se nos pide la estatura media de 4 personas cuyas tallas, se dan en
cm, en la siguiente forma; La Ira. mide ISO cm, la 2da. 160; la 3ra. 170,
y la 4a. 180 cm.
De acuerdo con el procedimiento fundamental tendríamos que sumar
esos 4 valores y la suma dividirla por 4.
Asi
150 + 160 + 170 + 180 = 660
m = 660 •/. 4 = 165

La estatura media de esas cuatro personas es, pues, 165 cm.


Pero nosotros, en vez de trabajar con números superiores a 100, po­
demos hacerlo con otros menores, transformando los valores originarios en
otros más pequeños, con sólo tomar esos valores desde un punto situado
más o menos lejos del 0 y más o menos cerca de la muestra, como, por
ejemplo, desde 100 cm, o sea desde el metro.
Entonces el problema planteado podría expresarse en la siguiente tüi

¿Cuál es la talla media de 4 personas, la la. de las cuales excede al


metro en 50 cm; la 2a„ en 60; la 3a., en 70, y la 4a.. en 80 cm?
Para resolver este problema tomamos como antes estos datos y los
sumamos, pero *ahora sumamos números menores de 100, mientras que
antes sumábamos números mayores de 100, y en ello consiste la simplifi­
cación del cálculo.

51
ESTADISTICA MEDICA

La media de esos 4 valores derivados es:

50 + 60 + 70 + 80 = 260
m- = 260 •/. 4 - 6 5

La media de estos valores derivados es 65; pero nosotros necesitamos


la media de los valores originarios y no la de los valores derivados.
La solución, muy simple, consiste en agregar algebraicamente esa
media derivada (65) al valor frente al cual se colocó el 0' de la escala al
hacer la transformación de unos valores en otros, es decir a 100.
La media de los valores originarios es, pues,
m = 65 + 100 = 165
Es decir el mismo resultado que habíamos obtenido antes.
Si en vez de colocar el 0‘ de nuestra regla sobre el 100 de la escala
originaria, lo colocamos frente a cualquier otro valor, el resultado no cam­
bia. Por ejemplo, coloquemos el 0' frente al valor 120 de la escala origi­
naria: Esto equivaldría a plantear el problema de la siguiente manera:
¿Cuál es la estatura media de 4 personas, la la. de las cuales excede
en 30 cm a los 120; la 2a., en 40; la 3a.. en 50, y la 4a„ en 60 cm:
Como antes, sumaríamos esos 4 valores y la suma la dividiríamos por
4. Así:
30 + 40 + 50 + 60 = 180
m’ = 180 •/. 4 = 45

Ahora agregaríamos esta media secundaria o derivada al valor frente al


cual pusimos el 0' de nuestra escala, es decir a 120, y el resultado será la
media de los valores originarios. Esto es
m = 45 + 120 = 165

Es decir: el mismo resultado que antes.


También podríamos poner el 0‘ en uno de los datos de la muestra y
tampoco cambiaría el resultado.
Por ejemplo, podríamos colocarlo en el 1° de ellos, es decir en 150.
Entonces el problema podría plantearse en esta forma:
¿Cuál es la talla media de 4 personas, la más baja de las cuales mide
150 cm; la siguiente, 10 cm más; la otra, 20 cm más, y la 4a., 30 cm
más?
Esta sería la media derivada; la media verdadera, es decir la de los
itos originarios, se obtiene sumando esa media derivada al valor frente al
tal se puso el 0' de la escala al hacer la transformación de unos valores
i otros, es decir a ISO. Y así:
m = 15 + 150 = 165

Tenemos la misma media de antes.


Tampoco cambiaría el resultado final si el 0’ de la escala lo pusiára-
ios sobre cualquiera de los otros datos de la muestra, o hasta sobre un
üor inexistente en la muestra, como podemos comprobarlo fácilmente.
Coloquemos, por ejemplo, el 0' sobre el valor 155, inexistente en la

Entonces el problema se plantearía así:


¿Cuál es la talla media de 4 personas, una de las cuales mide 5 cm
icnos de 155 cm; otra, 5 cm más; otra. 15 cm más, y la otra, 25 cm

Sumando algebraicamente esos valores, te


Dividiendo la suma por 4, tenemos

Esta es la media derivada. La media originaria o verdadera es igual a

más 155. Entonces:

53
ESTADISTICA MEDICA

Coloquemos ahora el 0' frente a otro valor de la muestra, por ejemplo


frente al 2°, es decir frente a 160. Entonces el problema podría presen­
tarse como sigue: ¿Cuál es la talla media de 4 personas, la la. de las cua­
les mide 10 cm menos que la 2a.; ésta mide 160 cm; la 3a., 10 cm más
que ésta, y la 4a., 20 cm mis que esta 2a.?
Ahora los valores derivados serian
-10; 0;+10;+ 20
La suma algebraica es: +20
La media derivada es: +5
La media verdadera es: +5 + 160 = 16S
Es decir, la misma de siempre.
Coloquemos, para verificar, el 0' sobre el 3er. valor, es decir sobre
170.
Entonces los valores derivados son:
- 20; - 10; 0; +10
La suma algebraica es -20.
El cociente o media secundaría m‘ es:— = —5.
La media verdadera es:

m = -S + 170 = 170 - S = 165

Lo mismo de siempre.
Coloquemos ahora, el 0- sobre el último valor de la muestra, es decir
sobre 180.
Entonces los valores derivados son:

-30;-20;-10; 0

La suma algebraica es: -60


El córente m' es: -60 ■/. 4 = -15
La media verdadera m = -15 + 180 = 180 - 15 = 165
Lo de siempre.
Pero también podemos colocar el 0' más allá de la muestra, por ejem­
plo en los 2 m, o sea en los 200 cm.
Entonces el problema se presentaría como si fuese:

54
faltan SO cm para medir 2 m; a la 2a. Ic faltan 40; a la 3a„ 30, y a la 4a.,
20 cm?
Ahora los valores derivados son:
-50; -40; -30 y - 20

La suma algebraica es -140


La media verdadera m es: -3S + 200 o sea: 200 - 35 = 165
Lo mismo de siempre.
Es decir, en definitiva, que para comodidad en el cálculo de la media,
para poder operar con números más pequeños, podemos seguir el proce­
dimiento de transformar los valores originarios en otros más chicos, colo­
cando el 0' de estos valores frente a un valor arbitrario cualquiera de la
otra escala, por ejemplo frente a un valor próximo o interior a la muestra,
recordando que la media asi obtenida será por lo pronto una media deri­
vada, secundaria o arbitraría, que podrá transformarse en la media ver­
dadera con sólo sumarla algebraicamente al valor arbitrario frente al cual
se colocó el 0' de nuestra escala. Es decir,

m = m’ + valor arbitrario,
que es lo que dijimos al principio (2)

Propiedad "B” de la media


Si dividimos cada uno de los términos de una serie por un divisor
común, obtenemos una nueva serie y, por lo tanto, una nueva media. Esta
es igual a la media anterior dividida por el divisor común.

De (3) se deduce:
m = m- r 4
()
Es decir que: la media real (m) de los valores originarios es igual a la
media de los nuevos valores (m-) multiplicada por el factor de reducción
W-
55
ESTADISTICA MEDICA

Ejemplo I
PROPIEDADES DE LA MEDIA Y DEL DESVIOSTANDARD

Esta es la inedia reducida de la serie reducida. Como vimos en (4), la


media de la serie primitiva es igual al producto de esta media reducida por
el factor de reducción. En el ejemplo dado

Propiedad “A" del desvio standard


Cuando una serie estadística se transforma en otra por haberse colo­
cado el 0' en un lugar distinto de 0, el valor de los desvíos no se modifica
y, por lo tanto, el desvío medio standard de esta serie derivada es el
mismo que el de la serie primitiva.
S,. = Sx

- V¡66
= 12,88

= V ¡66
= 12,88

57
ESTADISTICA MEDICA

Propiedad “B" del desvío standard


Cuando una serie estadística se transforma en otra por división de
cada uno de sus términos por un divisor común (r), llamado también fac­
tor de reducción, el desvío standard de esa serie derivada es igual al des­
vio standard de la serie primitiva dividido por dicho factor de reducción.

S8
PROPIEDADES DE LA MEDIA Y DEL DESVIO STANDARD

Como vimos en (6)

Sx' = — S* = r S*’

Es decir que el desvio standard de la serie primitiva es igual al desvio


standard de la' serie derivada multiplicado por el factor de reducción.
En el ejemplo dado,
S* = 5 X 2,58 = 12,88

Si se resta a todos los datos de una muestra un sustraendo común la

si dichos datos son divididos por un divisor común, tanto la x como el Sx


resultan divididos por dicho divisor.

59
CAPITULO VII

La variancia, como se sabe, es la media de los cuadrados de los des-

v „ . = z ( x ~ m)1

por lo cual se la denomina también desviación cuadrática media.

la. observación
Si al hacer el cálculo de la variancia, en vez de tomar las diferencias
de los datos a la media se toman a un valor arbitrario (v. a.) distinto de
ella, se obtiene un resultado mayor, independientemente que el valor arbi­
trario sea mayor o menor que la media. (Es decir que los cuadrados de las
diferencias de los datos a la media (x - m)1, son cuadrados mínimos.)
,Ejemplo 1
x m x- m (x - mí1
2 -3 9

61
ESTADISTICAMEDICA

E(* - v.a.)J = 36

(X - V.O.Í1
1
1 E(x - v.a.)» 36

£(x - v.».)1 ■

También aquí vemos que

Como la media de la muestra


la media del universo, la variancia real
mayor que ia obtenida a parí
variancia de la muestra subestima el valor de
rencia es especialmente manifiesta en las mu
cambio, en aquellas cuya población es de 30 más, y especialmente er
las de 60 ó más, la diferencia resulta insignificante.
62
VARIANCIA

Para compensar esta pequenez de las variancias de las muestras poco


numerosas, o de Gosset "Student", que veremos más adelante, al resulta­
do obtenido al hacer el cálculo de la misma debe multiplicárselo por el
cociente de la población dividida por la población menos uno, es decir
por , factor conocido con el nombre de factor de corrección de
Bessel, como vimos en la página 33, capitulo 4.
En la medida en que la población de la muestra es mayor, el valor del
factor de Bessel se aproxima a la unidad. Cuando la población es nume­
rosa, el valor de dicho factor es tan próximo a 1, que su aplicación prác­
ticamente no modifica el resultado y por lo tanto puede no ser utilizado.

3a. observación
Si al hacer el cálculo de la variancia se toman las diferencias de los
datos a un valor arbitrario distinto de la media, el resultado difiere de la
variancia en el cuadrado de la diferencia entre la media y el valor arbitra-

Así, en el ejemplo 1 de la Ia. observación

J ^ £ - V a , = 9 -5 = 4

(m - v.a.)a = (S - 7)a = (-2)* = 4

Y en el ejemplo 2 de la misma observación.

S (x —yj.)a _ yac —9 _ 5 = 4

(m - v.a.)1 = (5 - 3)a = 2a = 4

Por consiguiente:

Var _ Z (* ^v.a.) (m _ v a )i fórmula (1)

63
Es decir que cuando los desvíos de los datos se toman restando' de
ellos un valor arbitrario (v.a.) distinto de la media (n)), la variancia real
(var.) es igual al nuevo resultado menos el cuadrado de la diferencia de la

4a. observación
Cuando el valor arbitrario hasta el que se toman las diferencias de los
datos es 0, dichas diferencias son los propios datos, ya que cualquier
número es igual a la diferencia entre él y 0, o sea cualquier número es
igual a si mismo menos 0. Lo mismo ocurre con la diferencia de este
valor arbitrario 0, de la media. O sea

Por lo tanto, de la fóimula (1) sacamos:

Var. - — — - n? fórmula (2)

Es decir que cuando los desvíos de los dalos se loman restando de


ellos el valor cero, o sea cuando se loma como valor de los desvíos el
valor de los propios datos, la variancia real (Var.) es igual a la media de
los cuadrados de los datos menos el cuadrado de la media.
Esta fórmula (2) puede adoptar la forma

Var.= — — - ( ~ ~ ~ J fórmula (2 bis,)


Y también ésta

64
E x 2 (Sx)J _ _120 400 _ 120 _ 100 _ 20 ,

Es decir, el mismo resultado <

Sa. observación
La fónnula 2 bis,

Var.= -

- (Ex)»/n E x » -T » /n

fónnula (3)

la fónnula (3) puede adoptar la forma

Ex = mn = T

la fónnula (4) puede tomar la forma

Var = £ ~ m2 * = S <*-"■
ESTADISTICAMI

1°) El cuadrado del tamaflo dividido por la población (fórmula 3).


2°) La media multiplicada por el tamaflo (fórmula 4).
3°) El cuadrado de la media multiplicada por la población (fórmula

S* = 20 m= 5 y = 120

Í5 Ü 1 - — = ion

'■x = S X 20 = 100
n = 25 X 4 = 100

Sx* - T*/n _ I r 1 - n i

Estas son las fórmulas que generalmente se utilizan en la práctica.


l ? r
iás exacta es la primera (fórmula 3), porque no necesita calcular la
¡a, con lo cual se evita la imprecisión obligada de un parámetro 3
ene que expresarse con un número limitado de decimales, como oci
>n la segunda (4) y especialmente con la tercera (5), cuya inexactitud
imenta al potenciarse la media.
Cuando las muestras son de escasa población, 30 observaciones o
s "n".
Asf, en la pequefia muestra vista, la planilla y los cálculos son los

- 4; Ix = T = 20; £xJ = 120


S*3 - Ta •/. n 120 - 400 •/.
VARIANCIA
6a. observación
Cuando los valores de los datos se dividen por un divisor común (r) la
varianza de estos nuevos datos (var') es igual a la varianza de los datos
originarios (var) dividida por el cuadrado del divisor común (r3)

Var' = var ■/. r3

=53 —25
Se'3 - T'3-/. n 120 - 400 /. 4

120 - 100 20

En el ejemplo dado:
20 25 X 20
Var = 53 X

67
CAPITULO VIII

SIMPLIFICACION DEL CALCULO DE LA MEDIA

SUMARIO. Simplificación de los cálculos de la media. Variantes y simpli­


ficaciones en el cálculo del desvío standard. Verificación de los cálculos.

Como es sabido, el cálculo de la media se hace fundamentalmente


sumando todos y cada uno de los valores o datos de las observaciones de
la muestra y dividiendo luego esta suma por la población, o sea por el
número o cantidad de tales datos:
Ex T

ler. método de simplificación


Cuando en una muestra hay datos repetidos, una primera simplifica­
ción de los cálculos consiste en agrupar esas observaciones repetidas y
verificar cuánto suman. Esta suma se llama frecuencia de dicha observa­
ción repetida.
Una vez hecho esto, en vez de sumar los datos de las observaciones
originarias, teniendo en cuenta que la multiplicación es una suma abre­
viada, la simplificación consiste en multiplicar el valor del dato que se
repite por la frecuencia con que lo hace.
Después se suman estos resultados o productos y finalmente esta
sumatoria se divide por la población.

- Sxf
Ejemplo
En un problema donde se dan los datos del número de resfríos .te­
nidos en un aflo por cada una de las 641 personas que constituyen la
ESTADISTICAMEDICA

muestra se pregunta cuál es el número medio de resfríos tenido por esas


personas, o sea, cuál es la media de la muestra.
De acuerdo con el método originario del cálculo de la media, habría
que sumar el número de resfríos tenido por cada una de las personas, y
dividir luego esta suma por el número dicho de personas, o sea por 641.
Es evidente que este procedimiento resulta largo y engorroso.
Mucho más simple, e igualmente exacto, es agrupar las personas que
habían tenido el mismo número de resfríos y hacer su recuento, esto es,
verificar cuánto suman. Luego multiplicar esta suma por el número de
resfríos tenido por cada una de ellas. Hacer después la suma de esos
productos y finalmente dividir la sumatoria por el número o cantidad de
personas.
En esta forma, una suma que iba a comprender 641 sumandos se
transforma en otra con solo 10 sumandos.

2do. método de simplificación


Cuando los valores de los datos se expresan con números alejados del
cero, como ocurre cuando se miden las estaturas de las personas en cm, o
las presiones arteriales en mm, o se trata de densidades de orina, etcétera,
una manera de simplificar los cálculos es operar con números más peque­
ños, transformando los valores de los datos en otros más chicos, colocan­
do el 0’ de la escala más cerca de los valores de la muestra y aun dentro
de ella.
Naturalmente esto significa transformar los valores primitivos en otros
secundarios, y en estas condiciones la media que se obtenga será también
una media secundaria; pero, como hemos visto, será muy fácil transformar
esta media secundaria en la media correcta, con sólo sumarla algebraica­
mente al valor frente al cual se colocó el 0' de la escala al hacer la trans­
formación de los valores primitivos en los secundarios.

3er. método de simplificación


De acuerdo con la propiedad "B” de la media cuando los valores de
una serie se dividen por un divisor común, la media (m'j de esta serie
derivada es igual a la media (m) de la serie primitiva dividida por este
divisor común.
Esto permite un 3er. procedimiento de simplificación del cálculo de la
media. La media de la serie primitiva se obtiene multiplicando esta media
reducida (m') por el factor de reducción: m = m’ r.

70
Ejemplo
En elproblema de la talla media de 4 personas que miden respecti­
vamenteISO, 160, 170 y 180 cm podemos transformar estosvalores en
otros menores y por lo tanto más manuables, dividiéndolos por un de­
nominador común, que puede ser 2, 5 6 10. Dividiéndolos por este último
factor de reducción obtendremos los siguientes nuevos valores:
1S; 16; 17 y 18,

los cuales son 10 veces más pequeños que los originales.


Para obtener la media de estos nuevos valores procedemos, como
siempre, primero a sumarlos y después a dividir la suma por el número o
cantidad de ellos.
15 + 16 + 17 + 18 - 66
m’ = 66 ■/. 4 = 16,5
Esta es una media reducida (m’).
La verdadera media (m) de la muestra original la obtendremos multi­
plicando esta media reducida por el factor de reducción (r).
Así:
16,5 X 10 = 165

4to. método de simplificación


A riesgo de cometer un pequeño error, el cálculo de la media puede
también simplificarse agrupando los valores próximos dentro de un inter­
valo y considerando que las observaciones dentro de cada grupo son igua­
les al valor central de dicho intervalo.
Es verdad que no todos, tal vez sólo algunos, o quizá ninguno de los
valores reales coincidirá con el valor central, y que seguramente la mayo­
ría se distribuirá entre unos que valen menos y otros que valen más que
dicho valor central. Pero precisamente ahí está la probabilidad de que las
diferencias se neutralicen mutuamente y que el producto de la frecuencia
por el valor central resulte igual o muy cercano a la suma de los valores
individuales del grupo.
Después se sigue como en el 1er. procedimiento de simplificación de
los cálculos, multiplicando dicho valor central por el número de observa-
cione^ydel grupo; a lo cual sigue la sumatoria de estos productos, y por
fin la división de esta sumatoria por la población de la muestra.

71
ESTADISTICA MEDICA

3910 = 2 (v.C. Xf)

72
SIMPLIFICACION DLLCALCULO DE LA MEDIA

, _ S (v.C. - V.a.)f 95
m n 30 “ '

m = m' + v.a. = 3,2 + 127,5 = 130,7

r muy próximo al anterior (1303) y también ir


i.

. £ (v e. - v.a.) f

También podríamos combinarlo con el 3er. procedimienlo, cuidando


que los intervalos fueran iguales, como lo son en este ejemplo, dividiendo
cada valor central por un común denominador, o factor de reducción (r),
que en este ejemplo podría ser 5. En este caso en símbolos la fóimula es:

Entonces la planilla la confeccionaríamos de la siguiente m

73
ESTADISTICA MEDICA

La media resulta ser 130,3, es decir, al misma obteiíida con el 4to.


procedimiento seguido en forma exclusiva.
Finalmente pueden combinarse los tres últimos procedimientos, es
decir, el 2°, el 3o y el 4o.
Entonces la planilla la comenzamos como para el 4°, seguimos con el
2° y terminamos con el 3°, es decir empezamos agrupando las observa­
ciones próximas en intervalos iguales y dándoles como valor el del valor
central del intervalo (tal como se hace en el procedimiento 4°). Después
tomamos arbitrariamente un valor situado aproximadamente en el centro
de la serie, y en él colocamos el 0’ de nuestra escala. Transformamos
entonces los valores originarios en otros expresados por números menores,
de los cuales unos son negativos y otros positivos. Hecho esto hallamos un
común denominador (el mayor que podamos) y lo tomamos como factor
de reducción (tal como se hace en el procedimiento 3°), dividiendo los

vamos a un mayor empequeñecimiento aún.. Luego cada uno de esos


números diminutos los multiplicamos por la frecuencia de las observacio­

74
SIMPLIFICACION DI

nes del grupo a que pertenece su antecesor en 2° gr. Después hacemos la


sumatoria de estos productos y la suma la dividimos por la población.
Esta es una media en 2a. derivación; para llevarla a la. derivación la

dimiento 3o), y finalmente esta media en primera derivación, la llevamos a


su valor real sumándola algebraicamente al valor arbitrario en el cual
pusimos el 0’ de la escala, (Como se hace en el procedimiento n° 2.)
En símbolo, 1. fóimul. es: m = r + va.

- 15
- 10
- 5

,7

- 5 = — = 2,8

2,8 + 127,5 = 130,3

Es decir que obtenemos el mismo resultado que antes.

75
Tomando como factor de reducción el intetvalo, como se hizo en este
caso, puede suprimirse la columna 3 y los cálculos necesarios para con-

En este caso se procede en la siguiente forma:


A continuación de la columna 1 se arma directamente la columna S,
que corresponde al cociente ve —va •/. factor de reducción, colocando un
0 frente al valor arbitrario prerrayado, y por encima y por debajo del 0,
la serie natural de los números. 1, 2, 3, etcétera, con signo negativo los
superiores (siempre que la serie de la la. columna vaya de menor a mayor
de arriba abajo) y con signo positivo los inferiores; a continuación se

Vamos a ilustrar esta simplificación confeccionando la planilla corres­


pondiente a un problema de informes de laboratorio con los dosajes de
Hgl de 1022 pacientes, en los que la media obtenida por el método clá­
sico es 94,5%.

62.5
67.5
72.5
77.5
82.5
87.5
92.5
97.5
102.5
107.5
112.5

+ 87,5 = 7 + 87,5 = 94,5

Es decir, el mismo resultado que con el trabajoso método primitivo.

76
SIMPLIFICACION DEL CALCULO DE LA MEDIA

VARIANTES Y SIMPLIFICACIONES EN EL CALCULO DEL DESVIO STAN-

ler. procedimiento:
Cuando los valores de una muest
ción de la propiedad A del desvio st
más chicos, simplificando asi el cálcul

2do. procedimiento

valores comprendidos dentro del intervalo, la aplicación de la propiedad


"B” permite trabajar igualmente con números más chicos, simplificando
de ese modo el cálculo. Por ejemplo, si se nos pidiese el desvío standard
de la serie 35, 40, 4S, 50, 55, clásicamente tendríamos que proceder así

l F : = / ñ 5 = 7,9

Aplicando la propiedad "B” S* = r S*', procederíamos as

77
ESTADISTICAMEDICA

3er. procedimiento
Naturalmente, estos dos procedimientos pueden aplicarse en combi­
nación; por ejemplo, si se nos solicita el desvío standard de estas cinco
densidades de orinas, podríamos proceder así:

4to. procedimiento
La 2da. observación relativa al cálculo de la variancia nos permite cal­
cular el desvío standard de una manera diferente del método clásico, que
también puede resultar un cálculo simplificado.
Como se recordará, dicha manera consistía en tomar la diferencia de
las observaciones a un valor arbitrario distinto de la media, en cuyo caso

En la misma forma (tomando la diferencia a un valor arbitrario dis­


tinto de la media), el desvío standard es igual a:

78
Recordemos que, tratándose de mué;
debe ser ampliado multiplicándolo por
observación.
Entonces

-]/ T <s - ‘ ) - !,5!


Clásicamente hubiéramos tenido que proceder así

79
ESTADISTICA MEDICA

Cuando el valor arbitrario desde el que se toi


dichas diferencias son los propios datos, según vi
vación. En este caso el desvio standard de una mi

-V p -
= 2,58
n procedimiento de cálculo

80
Cualquiera de las fórmulas de la variancia derivadas de la anterior y
que vimos en la 4ta. y Sta. observación con los nros. (2), (2bis,). (2bis,),
(3), (4) y (5) pueden aplicarse para el cálculo del desvio standard. Estas
últimas son especialmente útiles por su sencillez y porque para las peque­
ñas muestras de GOSSET •‘STUDENT" basta hacer el denominador subra-

s^ = ^ 220 - (900 /Tí) ^ 220-11

= \p ?-4 VIO = 3.16 fórmula (3)

Si = ~ = 220 —(30 X ~6y_ ^ I 220 - 180 _

= = S W - 3,16 fórmula (4)

O bien:
, I 220 - 5 X 63 . I 220 - 180

81
ESTADISTICA MEDICA

7mo. procedimiento
!e ellos puede combinarse con las anterio-

s , . Sx = r 2 y¡

=2 y = 2 “ 2 V^iso = 2 X 0,58 = 3,16

o bien

82
SIMPLIFICACION DEL CALCULO DE LA MEDIA

2 X 1,58 = 3,16

v - V W '-

S, -= S,1 = 3,16
Verificación de los cálculos
La complejidad de los cálculos estadísticos hace que con facilidad
puedan deslizarse errores inadvertidos. Debemos verificar, pues, nuestros
resultados antes de darlos por correctos.
Dos de los métodos más comúnmente usados para realizar esta verifi­
cación son los llamados: De "la media más o menos tres desvíos stan­
dard” y el "método de Charlier”. Veámoslos mediante un ejemplo. To-

fie" fx " 2
5 3 - 6 0 - 18 108
15 8 - 5 0 40 200
25 9 -4 0 - 36 144
3S 19 - 30 - 57 171
45 1 5 -2 0 - 30 60
55 28 - 10 - 28 28
65 30 0
75 34 + 10
85 36 +20
95 38 + 30
105 13 + 40
115 7 +50
125 9 + 60
135 1 +70
Z f=250 = n Efx” = 159 1987 = ££*"’
83
m = va + — f - r = 65 + 10 -^¡j- = 65 + 6,36 = 71.36

^ ■V W ^ T W - ■«V W H T -
= 10 y f 7, 948 - 0,636’ = 10 -J 7,948 - 0.4045 = 10 V 7,5435 =

= 10 X 2,74 = 27,4

Método de la media máa o menos tres desvíos standard


En este método se toma en cuenta que, en una muestra normal nume­
rosa, el intervalo comprendido entre la media menos tres desvíos standard
y la media más tres desvíos standard abarca el 99,7% del total de las ob-
culados, sumando y restando tres desvíos standard a la media, obtendre-

caso, s£rán 5 y 135. ^ ’

m + 3 Sx = 71 + 3 X 27 = 71 + 81 = 152
m - 3 Sx = 71 - 3 X 27 = 71 - 81 = -10

.Prueba de Charlier

2 f x ”’ + 2 2 f Jr” + 2 f = 2 f ( x " + l ) J
El valor del primer miembro de esta igualdad lo podemos obtener por
los valores ya calculados en nuestra planilla. En efecto

2 f x í* + 2 2 f X” + 2 f = 1987 + 318 + 250 = 2555

da en la anterior

84
SIMPLIFICACION DEL CALCULO DE LA MEDIA

Como el valor de ambos miembros de la igualdad es el mismo, nues­


tros cálculos de la media y del desvío standard son correctos.

85
CAPITULO IX

ECUACION DE LA CURVA DE CAUSS


ESTADISTICA MEDICA

Si hacemos m = 0, la media, y por lo tanto el eje de simetría de


la curva, coincidirá con el eje de las ordenadas.
La forma de la curva normal está dada por los valores de los desvíos
simples y standard y por la población "n” de la muestra. Ellos constitu­
yen los parámetros de la curva.
En esta fórmula, el desvío simple (x - m) y el desvío standard (Sx)
se miden en unidades originarias.
Si al quebrado y r m , desvío relativo de x. lo reemplazamos por
“c", la fórmula se transforma en:

y=-

Si a la población n de la muestra la consideramos una unidad y la


representamos por 1, y al desvío standard le damos igualmente el valor 1,
la fórmula anterior queda transformada en la siguiente fórmula reducida:

* que la ordenada "y” es función del di

Cálculo de la ordenada “y”


Para calcular la ordenada “y" correspondiente a cada observación de
abeisa "x”, tanto en la fórmula general como en la reducida, tendríamos
que efectuar una serie de cálculos un poco laboriosos. Para a'iviar ese tra­
bajo, los matemáticos han construido "tablas de ürdenadas de la curva
normal" sobre la base de la fórmula reducida, en las que se dan los valo­
res de las ordenadas, es decir de “y", correspondientes a una serie de
desvíos reducidos "c", elegidos arbitrariamente, (ver Apéndice, Tabla 1,
página 297 y siguiente). Al decir que estas tablas están construidas sobre
la base de la fórmula reducida, decimos que corresponden a una curva y a
una distribución de frecuencias en las que:
m= 0

S*= 1
88
Por lo tanto, en un caso concreto, en el que tanto la población “n"
como el desvío standard Sx tengan un valor distinto de 1, el valor dado
por la tabla debe multiplicarse por la. población de nuestra muestra (n) y
dividirse por el desvio standard (Sx) de nuestra muestra. 0, lo que es lo
mismo, el valor '*y” dado por la tabla tiene que multiplicarse por el •
cociente -jj- de nuestra muestra.
En resumen:
x, reducida = c = d = —g m

y, reducida = y de c (según tabla).

Por lo tanto:
x = m + Jt, Sx

v = y' ”

Significado de "y"
Es la ordenada del punto de la curva de nuestra muestra cuya abcísa

Construcción de la curva
Tomemos como ejemplo la siguiente muestra de muertes por nefro-
patía diabética:
De cien diabéticos con glomérulo-esclerosis intercapilar:

7 murieron entre los 40 y los 49 aflos


ESTADISTICAMEDICA

Dibujemos la curva correspondiente a esta distribución de frecuencia


recurriendo a la tabla número 1 del apéndice.
Elijamos algunos valores de "a", o sea de “c", y anotemos el valor de
la ordenada correspondiente. Así tendremos:

Estos serían los valores de "y” en una muestra en la que "n" y "Sx"
valiesen I. Pero en nuestra muestra "n” vale 100 y S, vale 10,3. Por lo
tanto, nuestras ordenadas serán iguales a las ordenadas "y", dadas por las
tablas multiplicadas por el cociente -2-

"jt"o V 9,7y, = y
0,0 9,7 X 0,40 = 3,88
0,5 9,7 X 0,35 = 3,39
1.0 9,7 X 0.24 = 2,33
14 9,7 X 0,13 = 1,26
2.0 9,7 X 0,05 = 0,48
2,5 9,7 X 0,02 = 0,19
Con estos elementos dibujemos la curva.
Trazamos, en primer lugar, un sistema de ejes ortogonales.
A objeto de qne le ~'nra no nos resulte demasiado chata, tor

90
Area subtendida a la curva. Area parcial

Esta curva fue construida sobre'la base de la fórmula reducida de la


ecuación de la curva de GAUSS. Ello significa que el área subtendida a
ella indica la población total de la muestra y también que esa población
total puede ser expresada por la unidad. En consecuencia, el área subten­
dida a la misma, entre dos ordenadas, o área parcial, indica la cantidad de
observaciones comprendidas entre las observaciones cuyos desvíos reducidos
corresponden a las abeisas sobre las cuales se levantan dichas ordenadas, y
también la porción del total de observaciones comprendidas entre las

Para calcular el área subtendida a esta curva es necesario recurrir al


cálculo ¡nfenitesimal. En efecto, el área subtendida a la curva, desde
menos infinito, es decir desde el extremo izquierdo de la curva, hasta la
ordenada levantada sobre "x" o “c" es igual a la integral “y" diferencial

Como la ordenada levantada sobre “m” divide el área subtendida a la


curva en dos partes iguales, es decir en dos mitades, el área subtendida a

de que “c” se halle a la derecha de “m”; y en caso contrario a 0,S menos

91
ESTADISTICAMEDICA

Tablas de áreas subtendidas a la curva. Tablas de probabilidades


Estos cálculos están fuera de las posibilidades de quienes no conocen
el cálculo integral, pero los matemáticos han confeccionado "tablas de las
áreas subtendidas a la curva normal” en base también de la fórmula redu-

para distintos desvíos “c” elegidos arbitrariamente. El área total, en todas


ellas, es, naturalmente, igual a la unidad. E, igualmente, en todas ellas el
área comprendida entre:
ni - 1Sx y m + 1 S, es igual a 0,683
m - 2 S, y m + 2 S, « igual a 0,955
m - 2,6 Sx y m + 2,6 S* es igual a 0,990
m — 3 S .y m + 3 S, es igual a 0,997
Hay varias clases de tablas lógicamente iguales.
En unas, por ejemplo tabla 1 del apéndice; colocada "m” en el origen
“o” de las cordenadas, los desvíos son, unos negativos y otros positivos, y

Denlo reducido "e


93
ESTADISTICA MEDICA

En una tercera clase de tabla (por ejemplo, en Sadosky y Gubcr,


Tablas y fórmulas, pág. 53, o en Documenta Geigy, Tablas científicas 6a.
ed., pág. 28, der.), se dan las áreas desde el extremo izquierdo de la curva,
de modo que a "c" igual 0 le corresponden un área igual 0,S. Por este
motivo los valores dados por estas tablas son iguales a los dados por los
de la la. clase más 0,5 si “c” es positiva. Si “c" es negativa son iguales a
0,5 menos los valores dados por la tabla 1.
Ejemplo

en la figura.

por los del 1er. tipo para valer 0,5.

negro en la figura.

94
ECUACION DE LACURVA DE GAUSS

95
ESTADISTICA MEDICA

de labia ligeramente diferente, denominada tabla de distribución “t"


(mientras las primeras son tablas de distribución "c") o tambic'n tabla de
Gosset (Student). (Ver apéndice. Tabla 2.)
Esta tabla se funda en curvas normales muy semejantes a las de distri­
bución “c”, pero algo más aplanadas: tanto más cuanto menor sea la po-

partir del cual sus valores se confunden con los de las tablas anteriores.
Al consultar esta clase de tabla debe tenerse en cuenta la población

Si la población es extremadamente reducida, si solo está formada por


cinco o por tres observaciones, un desvío relativo de 2 y hasta de 3 puede
no encerrar el 95% del total, es decir, puede no indicar todavía una dife­
rencia significativa.

Frecuencias teóricas de una muestra normal


Para calcular el número de observaciones que en una muestra teórica
normal, que tenga los mismo parámetros que nuestra muestra,.se hallan
comprendidas entre dos valores X| y xa, es necesario calcular el área sub­
tendida a la curva teórica normal entre las dos ordenadas levantadas sobre

Para eso lo más fácil es recurrir a alguna de las tablas recién expues­
tas. Cualquiera de ellas puede servir con tal de conocer bien la tabla que
se maneja. Supongamos que elegimos la que tenemos en el apéndice
(Tabla 1).
Así, si quisiéramos saber el número de observaciones que en una
muestra teórica normal, que tenga los parámetros de la muestra de los
diabéticos con esclerosis intercapilar recién vista, se hallan comprendidos
entre X| = 50 y Xj = 60, tendríamos que ver en la tabla cuál es el área
comprendida entre la media y la ordenada correspondiente a X| = 50 y
restarle el área comprendida entre la media y la ordenada correspondiente

La resta es el área comprendida entre ambas ordenadas.

96
97
ESTADISTICA MEDICA

En la labia veríamos que


a Ci = 0,194 le corresponde un área de 0,07691
y a C, = 0,291 „ „ „ „ „ 0,11448.
Sumando ambas áreas tenemos:

0,07691 + 0,11448 = 0,19139

Multiplicando este resultado por nuestra n = 100, tendremos

0,19139 X 100 - 19,139.

normal, con dichos parámetros, se hallaría entre xt = 63 y Xj = 68.

98
CAPITULO X

VARIACION DE LAS MUESTRAS

SUMARIO: Variación de las mucslras. Significación de la media. Signifi­


cación de la diferencia enlre el valor de un dato y el valor de la media.
Significación de la diferencia entre dos medias.

Si de un universo de observaciones similares extraemos una multitud


de muestras con poblaciones similares, las medias serán igualmente simi­
lares, pero no necesariamente idénticas. Asimismo, esas medias serán si­
milares a la media del universo, pero difícilmente serán idénticas a ella.
Las medias de esas muestras estarán más próximas unas de otras, y de
la media del universo, en la medida en que aumente la población de las

Significación de la media
La significación de la media está dada por su error relativo (c)

ER = c = — = m = m s/ñ~
sm S, ■/. v r rT S,

Si la población de la muestra es de 30 ó más, y especialmente si es de


60 ó más, la media puede ser un valor fidedigno de representar el valor
medio de las observaciones similares a las de la muestra, pero su variabili­
dad es proporcional a los desvíos de los datos de la muestra e inversa­
mente proporcional a la raíz cuadrada de la población de la muestra. Es
decir que el error standard (Sm) es una medida de la variabilidad de la
media. Cuanto mayor es ese Sm, mayor la variabilidad y por lo tanto la
probabilidad de diferencias no significativas con otras medias similares y
con la media del universo.

99
ESTADISTICA MEDICA

Si la media es igual o superior al doble del error standard, es decir si


el error relativo (E.R.) es igual o superior a 2, los datos de la muestra se
hallan normalmente diseminados dentro de la muestra, o sea normalmente
dispersos alrededor de la media. Esta es, en este caso, representativa de los
valores de una muestra homogénea. La diferencia que puede haber entre
muestra media y la media del universo no es significativa.
Si, por el contrario, la media es inferior a 2 Sm , o sea si el E.R. es
inferior a 2, los datos se hallan anormalmente diseminados dentro de la
muestra, es decir, están excesivamente dispersos con relación a la media;
probablemente porque algunos datos se hallen afectados o influenciados
por factores extraños al resto de las observaciones de la muestra. Se tra­
taría, pues, de una muestra no uniforme u homogénea. En consecuencia,
la media no es representativa de una muestra formada por observaciones
similares. El E.R. por lo tanto, califica a la media de fidedigna o no.
El 68,3% de las medias de muestras similares a la nuestra, es decir
procedentes del mismo universo, están situadas entre 1 Sm a la izquierda
y 1 Sm a la derecha de nuestra media; el 95,5% entre 2 Sm a la izquierda
y 2 Sm a la derecha de nuestra media; el 99% entre 2,6 Sm a derecha c
izquierda; y el 99,7% entre 3 Sn a izquierda y 3 Sm a la derecha de
nuestra media.
Para conocer la probabilidad de que de dos universos diferentes pue­
dan obtenerse muestras con el efectivo y la media de la nuestra, réstese
de la unidad el dobre del área de “c” dada por la tabla I.

Significación de la diferencia entre el valor de una observación y el de

Los valores de las observaciones deben estar alrededor del valor de la


media y a una distancia relativamente próxima a él. A veces, incluso, coin-

cuyos valores se apartan manifiestamente de la media, surgirá la duda de

cuencia de un factor extrafio, distinto de los considerados al seleccionar


las observaciones de la muestra.
En medicina, teniendo en cuenta que sólo menos del 5% de las obser­
vaciones normales se apartan más de dos desvíos standard de la media,
generalmente se acepta que una observación pueda alejarse de la media
hasta dicha cantidad sin que ello implique una diferencia significativa;
pero que; cuando la distancia es superior a esa cifra, debe considerarse
diferencia significativa.

100
VARIACION DE LAS MUESTRAS

Es decir que es el desvio relativo o reducido x - m/S, el que nos


dirá si la diferencia es significativa o no. Si el D.R. es menor de 2, no es
significativa y la diferencia puede ser meramente casual; si es mayor de 2,
es significativa, es decir que la diferencia probablemente no es casual.

43-46 1
47-50 2
Sl-54 6
5Í-58 22
S9-62 52
63-66 79
67-70 118
71-74 165
75-78 186
79-82 165
83-86 103
87-90 82
91-94 45
95-98 19
99-102 11
103-106 3
107-110 1

Haciendo los cálculos correspondientes, nos encontramos que

m = 76,9 S, = 8,9
m * 2 Sx = m± 2 X 8.9 = 76,9 ± 17,8 = 59,1 a 94,7.

Es decir que entre x, = 59,1 y X, = 94,7 se halla el 95,46% de la


muestra. Fuera de estos límites se encuentra, por lo tanto, menos del 5%.
Si aceptamos una probabilidad de error del 5% podemos pensar que los
32 integrantes de los primeros cuatro grupos cuyas pulsaciones tienen una
frecuencia menor de 59,1 y los 34 integrantes de los cuatro últimos gru­
pos cuyas pulsaciones tienen una frecuencia superior a 94,7, posiblemente

101
ESTADISTICA MEDICA

presentan esa frecuencia distante de la media de más de dos desvíos stan­


dard por encontrarse afectados de alguna causa o factor ajeno al resto de
la muestra. Es decir que su diferencia con la media es significativa. Por el
contrario, en los 994 restantes, a pesar de que las frecuencias de las pul­
saciones difieren de la frecuencia media, por diferir menos de dos desvíos
standards, aceptamos que tales diferencias no son significativas.

Significación de la diferencia entre dos medias


Si bien las muestras son partes o fragmentos de un universo (por eso
se llaman muestras) no siempre son iguales entre sí, ni tienen la misma
composición que el universo. Sus medias, igualmente, no pocas veces di­
fieren entre sí y con la media del universo. Ello se debe a que sobre las
muestras influye un conjunto de factores no individualizados al que llama­
mos “azar". Es decir que por obra del "azar" las muestras de un mismo
universo pueden ser diferentes entre sí; así como sus medias; las que tam­
bién pueden discrepar de la media del universo. La composición y la
media de la mayor parte de las muestras se aproximan y hasta se identifi­
can con la composición y con la media del universo y la menor parte
difiere. La probabilidad de hallar una diferencia determinada es tanto
mayor cuanto menor es la diferencia y tanto menor cuanto mayor sea
ella. Es decir que las pequeñas diferencias son muy probables y las gran­
des diferencias poco probables.
Así, por ejemplo, del universo de los recién nacidos donde los varones
son aproximadamente el 50%, pueden sacarse muestras, por ejemplo, de
cien observaciones c/u, en las que los varones constituyen el 50%; pero
también pueden obtenerse muestras en las que los varones sumen más, o
sumen menos, y ese más y ese menos puede ir desde el máximo compati­
ble con el efectivo de la muestra, que en este caso dijimos que era cien, hasta
el mínimo posible, que seria cero. Es decir que del universo de los recien
nacidos pueden obtenerse muestras de cien observaciones en las que la
cantidad de varones varíe desde cien hasta 0. Y esto simplemente por
obra del azar. Naturalmente, las muestras con un número de varones pró­
ximo a cien o a cero serán los menos; y las con un número próximo a SO
serán las más.
Si en vez de sacar una muestra por vez del universo extraemos dos,
las medias de esas muestras pueden ser idénticas entre sí, y su diferencia
por lo tanto será cero. Pero pueden ser distintas, y haber una diferencia
entre ambas medias, a pesar de que ambas muestras pertenecen al mismo
universo. Esta diferencia puede ser tan grande como lo permita el efectivo
o la población de las muestras. Así en el caso hace poco mencionado de

102
VARIACION DE LAS MUESTRAS

muestras de cien recién nacidos, una puede contener cien varones y la


otra cero varones, con lo cual la diferencia será de cien. Es decir que
entre las medias de dos muestras de un mismo universo puede haber dife­
rencias hasta de el máximo compatible con el efectivo o la población de
las muestras, hasta ninguna diferencia, es decir una diferencia cero.
También aquí la probabilidad de las pequeñas diferencias es máxima y
la de las grandes diferencias es mínima.
Por lo tanto, dos muestras (y sus medias) pueden diferir entre sí, por­
que pertenezcan a dos universos distintos, o por obra del azar, si pertene­
cen al mismo universo.
Si el problema que nos planteamos es saber si la diferencia hallada
entre dos medias es significativa de que las muestras pertenecen a dos
universos distintos, debemos en primer lugar fijar un criterio al cual ate­
nernos para considerar que una diferencia es significativa de que las mues­
tras corresponden a distintos universos. Este criterio es el de la probabi­
lidad de una determinada diferencia. En medicina se acepta generalmente
que cuando la probabilidad de encontrar una diferencia igual o mayor a la
encontrada es menor del S%, dicha diferencia puede darse por significativa
de que las muestras corresponden a dos universos diferentes.
Es decir que si bien una diferencia igual o mayor puede darse aun en
muestras pertenecientes al mismo universo, su probabilidad es bastante
pequeña; tanto que nos permitimos correr el riesgo del 4, ó del 3 ó del
2% de errar y tomar por muestras de distintos universos muestras que en
realidad pertenecen al mismo.
Esto significa que nuestras conclusiones -tendrán un coeficiente de
seguridad del 95%. No tendrán una seguridad del 100%. Si quisiéramos
tener una seguridad mayor, podremos recurrir a un coeficiente de seguri­
dad del 99%, como se hace a veces.
En segundo lugar. tenemos que decir que el valor o la significación de
¡a diferencia entre dos medias depende de la clase de muestras a que co­
rresponden. Generalmente se trata de una muestra normal o de una
binomial. En este momento sólo nos ocuparemos de la primera.
La significación de la diferencia entre dos medias normales depende,
en primer término, del efectivo de las muestras. En este sentido las mues­
tras normales pueden tener cada una un efectivo (n) superior a 30, o in­
ferior a él. En el primer caso se trata de una muestra de GAUSS; en el
segundo, de una de GOSSET “STUDENT”. Por ahora sólo nos ocupa­
remos del primer caso.
En esta circunstancia una diferencia es significativa (significativa de
pertenecer a dos universos diferentes) si el error relativo de la diferencia.
(E-R-tm, - ni,))es igual o superior a 2.

103
VARIACION DE LASMUESTRAS

Siendo el E.R.m, _ m, menor de 2, la diferencia encontrada no es


significativa de pertenecer a muestras correspondientes a universos distin-

Dos muestras similares a las anteriores arrojaron mei


9 grs la otra, con iguales desvíos standards que las an

Siendo ahora el error relativo de la diferencia superior a 2, ell


fica que la diferencia hallada es significativa de pertenecer a mués
distintos universos.
Si se desease una mayor precisión en la significación hallada,
riamos a una tabla de suma de frecuencias relativas por fuera de
“c” y más "c”j es decir desde menos infinito a menos “c" y des
“c" a más infinito, como vimos en la página 104, y ahí veríam
a un E.R. = c = 2,5 le corresponde 2 P = 0,01242, lo cual ¡
que en apenas algo más del 1% podrá extraerse de un mismo u
un par de muestras con una diferencia entre sus medias igual o

rresponder a muestras de distintos universos.


TERCERA PARTE

LA MUESTRA NORMAL POCO NUMEROSA O MUESTRA DE


GOSSET “STUDENT"
CAPITULO XI

MUESTRA NORMAL POCO NUMEROSA

SUMARIO: Concepto de muestra normal poco numerosa. Los grados de


libertad. Determinación de los parámetros de dispersión: variancia. desvío
standard y error standard. Las curvas de Gosset ''Student". El ¿rea subten­
dida a estas curvas. Tablas de las áreas parciales subtendidas a esas curvas.
Significación de la diferencia de un dato con la media. Los límites del
intervalo de confianza de la media. Significado y determinación de una
diferencia entre medias.

Concepto de muestra normal poco numerosa

Cuando una muestra normal presenta una población, o efectivo,


menor de 60 y sobre todo menor de 30, se dice que es una muestra poco
numerosa. Estas muestras pueden denominarse también muestras de
Gosset “Student”, siendo “Student” el seudónimo del estadístico inglés
W.S. Gosset, autor del método que permite utilizar los datos obtenibles en
estas muestras normales poco numerosas.
Todos los conceptos generales a los cuales nos hemos referido en la
Primera Parte de este libro, son aplicables a esta clase de muestras, asi
como también mucho de lo que dijimos en la Segunda Parte, en lo refe­
rente a los parámetros de posición y en especial de la media. Las propie­
dades de ésta y su determinación, tanto por el cálculo conceptual (co­
ciente del tamaño de la muestra dividido por el efectivo o población)
como por el cálculo simplificado, valen también para las medias de las
muestras normales poco numerosas. Pero la determinación de sus pará­
metros de dispersión (variancia, desvío standard y error standard) varía
ligeramente por la necesidad de obtener resultados más amplios. La curva
de Gauss ya vista no es aplicable a esta clase de muestra, habiendo Gosset
“Student” construido cutvas especiales para los distintos tipos de muestras
normales poco numerosas. Estas curvas son muy parecidas a aquélla; son
igualmente acampanadas y simétricas, pero difieren en que acumulan más

109
ESTADISTICA MEDICA

probabilidades en los extremos y menos en la porción central. Además, en


sus ecuaciones no intervienen la media ni el desvío standard, y sí en
cambio el grado de libertad. Cuando éste es elevado, ambas curvas, la de
Gauss y la de Gosset "Student", se confunden. Estos diferentes tipos de
muestras difieren “grosso modo” por el efectivo de las muestrap, pero fun­
damentalmente por el número o grado de libertad existente en cada
muestra, concepto éste que no aparece en las grandes muestras.

Los grados de libertad


Cuando una muestra tiene que cumplir con ciertas condiciones, es evi­
dente que no puede formarse de cualquier manera. Asi, si decimos que la
muestra debe estar formada por tres observaciones (n = 3) y que la suma
de los valores de los datos de esas observaciones debe ser diez
(T = Ex = 10), es evidente que sólo tendremos libertad para modificar
los valores de los datos de dos de las observaciones, ya que fijados los
valores de ellos, careceremos de libertad para modificar el valor de la ter­
cera observación. Por ejemplo, si a la primera observación le damos el
valor 2 y a la segunda 3, como la suma de los datos de las tres observa­
ciones tiene que ser diez, queda automáticamente fijado el valor de la
tercera observación que ha de ser 5. Esto se expresa diciendo que en esta
muestra el número o grado de libertad es 2. En símbolos y en términos
generales, el grado de libertad es igual al efectivo o población (n) menos 1.
Grado de libertad = n - 1
Si a la muestra se le impusiese alguna otra condición, como por ejem­
plo que la amplitud o ?1 desvío standard tuviera que tener también algún
valor determinado, disminuiría el grado de libertad en una unidad por
cada una de las condiciones exigidas.
Por ejemplo, si a esta muestra en la que n = 3 se le exigiesen dos
condiciones, no quedaría más que una libertad, ya que n - 2 = 1, es
decir que solamente para un valor se podría tener la libertad de elegir
entre varios, pero una vez elegido éste los otros dos quedarían automática­
mente fijados. Así, si se le exigiese no sólo que el tamaño fuera igual a
10, sino que la amplitud fuese igual a 5, tendríamos libertad para elegir el
valor de uno de ellos entre los valores siguientes;
0 (y los otros dos 5 y5)
1 (.. „ .. .. 6 y 3)
3 ( .......................Iy 6 )
S (,... .................5 y 0)
6( I y 3)
ESTADISTICA MEDICA

En la misma forma se procede con el valor subradical del desvio stan­


dard cuando está formado por un sólo quebrado. Es decir

s, = *“ •
En cuanto al error standard, este aumento resulta todavía insuficiente
y es necesario'aumentar su valor, disminuyendo su denominador, restán­
dole una unidad a la cantidad subradical. Entonces,

Sx l £ (x -m )*
V" - 1 \ | n (n -l)

Las curvas de Gosset "Student"


Las curvas de Gosset "Student", de las cuales hay una para cada gra­
do de libertad, se parecen a la curva de Causs. pero la ordenada corres­
pondiente a la media, asi como las ordenadas correspondientes a las
abscisas o frecuencias próximas a la media, son relativamente más bajas
que en la curva de Gauss y las correspondientes a las abscisas o frecuen­
cias distantes de la media son en cambio más altas. Es decir que las curvas
de Gosset "Student” son relativamente más bajas y descienden más len­
tamente que la curva de Gauss.

El área subtendida a estas curvas


El área total subtendida a la curva de G - "ST", es igual a I. Es decir
que ocurre lo mismo que con el área total subtendida a la curva de Gauss
y las áreas parciales se consideran comprendidas entre dos ordenadas le­
vantadas sobre las abscisas correspondientes a los desvíos reducidos, tam­
bién como el área parcial subtendida a la curva de Gauss. Pero esta área
parcial debe buscarse en la tabla especial de Gosset "Student”.

Tabla de las áreas parciales subtendidas a estas curvas


Esta tabla se denomina también "Tabla de distribución t" (ver Apén­
dice, Tabla 2.
En esta tabla el desvío relativo se simboliza por una “t" minúscula
(En las de Gauss se simboliza por una “c” igualmente minúscula) y el
grado de libertad por una “n" minúscula (romana) o una “ni" griega (v)
también minúscula. Es una tabla de doble entrada, en la que las columnas

112
están encabezadas por los valores de las áreas exteriores desde "menos
infinito” a la ordenada levantada sobre menos “t" y desde la levantada
sobre más “t" a "más infinito”, y en la que las líneas horizontales co­
rresponden a los “grados de libertad". En la intersección de una línea
horizontal con una columna vertical se halla el valor aproximado del des­
vío relativo "t” correspondiente.
En la práctica, conocido el grado de libertad se sigue la horizontal
hasta colocarse entre los dos valores, uno inferior y otro superior al valor
de nuestro desvío relativo “t” y después se levanta la vista para ver a qué
área exterior corresponden.

Significación de la media
Igual que en la pág. 99, pero ahora m —“t”; o mejor:

Significación de la diferencia de un dato con la media


Como puede apreciarse en estas tablas, (véase Extracto en pág. 114)
un área exterior que abarque un S% del área total corresponde a un des­
vío relativo “t" superior a 2. (Mientras en la tabla de GAUSS un desvío
relativo ”c" de 2 deja al exterior un área menor del 5% del área total.)
De modo que para que la diferencia de un dato con la media tenga
significación es necesario que corresponda a un desvío relativo superior,
no ya a 2, sino superior a más de 2. Esta cantidad superior a 2 varía con
el grado de libertad y es tanto mayor cuanto menor es éste. Cuando el
grado de libertad es muy bajo (por ejemplo. 3 ó 2) para que la diferencia
tenga significación, el desvío relativo “t" debe alcanzar a 3 y aún a 4; es
decir que el dato tiene que diferir de la media (debe estar alejado de ella)
no ya 2 S,, sino 3 y aun 4 S,.
Para cada grado de libertad debe buscarse en la tabla el número o
cantidad de desvíos standard que abarcan el 95% de las observaciones, o
sea del área subtendida, y sólo aquellas observaciones cuyas distancias o
diferencias con la media son superiores a esos desvíos standards tendrán
con la media una diferencia significativa.

Los limites del intervalo de confianza de la media


Igualmente los límites de intervalo de confianza de la media se en-

2 Sm” depende igualmente del grado de libertad de la muestra.

113
ESTADISTICAMEDICA

Cuanto menor el grado de libertad, mayor el factor por el que debe


multiplicarse el error standard.
Este factor por el que debe multiplicarse el Sm para situar los límites
del intervalo de confianza de la media, es el desvío relativo “t" que en­
contramos en la intersección de la horizontal correspondiente al grado de
libertad y la columna correspondiente al área exterior 0,0S.

Significado y determinación de una diferencia entre medias


Una diferencia entre medias de muestras poco numerosas es signifi­
cativa de que ambas muestras pertenecen a universos diferentes si el valor
del error relativo de la diferencia, E.R.m, _ m,. es superior al valor del
desvío relativo **t" dado por la tabla de GOSSET "STUDENT” para un
grado de libertad igual a la suma de los grados de libertad de ambas mues­
tras menos dos (v, + u, - 2) (letra griega ny (v) minúscula) y un área
exterior de 0.05.
Como puede verse en la tabla, este valor del desvío relativo “t"
es superior a 2 (y no igual a 2, como cuando se trataba del desvío relativo
"c" de las grandes muestras).
MUESTRA NORMAL

Además, el denominador del quebrado que expresa el error relativo de


la diferencia, esto es, el error standard de la diferencia, debe calcularse de
manera diferente de cuando se trataba del error standard de una discre­
pancia entre medias de muestras numerosas.
Recordemos que cuando se trataba de muestras numerosas el error
standard de la diferencia era

donde se tomaban separadamente las variancias de cada muestra: Sj y

En los casos de muestras poco numerosas debe tomarse como nume­


radores de ambos sumandos subradicales la varianza común a ambas
muestras. Esta varianza común S* es igual al quebrado formado por las
sumas de los cuadrados de las diferencias de los datos a sus medias divi­
dido por la suma de los efectivos de ambas muestras menos dos.

US
Si se desea dar una mayor precisión a la significación (o a la no signi­
ficación de la diferencia) hay que tomar el error relativo de la diferencia
E.R. (mi - m¡) como “t" y en una tabla de Gosset “Student", en la
horizontal correspondiente a un grado de libertad v, + - 2 ver entre
qué desvíos relativos se halla situado; luego levantar la vista y ver a qué
áreas parciales externas corresponden esos desvíos relativos. La probabi­
lidad de hallar diferencias iguales o mayores en muestras extraídas de un

>s pacientes que tomaron

y la media (nt2) de los que tomaron el hipnótico “B" fue

Hubo, por lo tanto, una diferencia de 3 horas entre las horas medias
dormidas por los pacientes de una y otra muestra. Se pregunta si esa dife­
rencia es significativa o no.
Por comodidad en los cálculos tomaremos los cuadrados de los datos,
es decir de las horas dormidas.

116
MUESTRA NORMAL

Ex? = 300 Ex

£(X| - iü!)J + E(X; - ma) _ Ex? -

En una tabla de Gosset “Student" del 95% vemos que a 8 grt


libertad t, = 2,30.
Siendo nuestro E R (1,8) inferior a ta (2,30), la diferencia ei
medias mi y mj no es significativa.

117
ESTADISTICA MEDICA

Con una media, como vemos, de 11,6 horas.


Se comparó esta media (m3 = 11,6) con la media de la primera mues-

esta diferencia es ahora significativa.


Como antes, por razones de comodidad en los cálculos, tomamos los
cuadrados de los datos. Estos son

Ahora nuestro E.R. de la diferencia (= 239) es ligeramente superior a


t» = 2,30; por lo tanto, la diferencia es ahora ligeramente significativa.
Si deseamos una mayor precisión en la respuesta, recurrimos a la
tabla de Gosset "Student" y vemos que una ts de 2,39 tiene una proba­
bilidad del 2 al 5% (más próxima a S que a 2; interpolando serta aproxi­
madamente del 4,6%). Es, pues, decimos, una diferencia apenas
significativa, ya que en el 4,6% de las muestras obtenidas de un mismo
universo puede darse una diferencia igual o mayor a la encontrada por

118
CAPITULO XII

MEDIA DE UNA DIFERENCIA DE DATOS DE OBSERVACIONES


PAREADAS

SUMARIO. Signific

Su significación y determinación
Cuando las personas o cosas que integran dos muestras son las mis­
mas, una diferencia puede ser significativa, y no serlo si se trata de
personas o cosas distintas. La razón de ello es que entonces hay una ho­
mogeneidad mucho mayor, en las muestras. Asi, ocurre siempre que se
hagan las observaciones pareadas en las mismas personas o cosas, una
antes y otra después de la intervención de un factor en estudio; o una
después de la intervención de un factor y otra después de la intervención
de otro factor, sobre las mismas personas o cosas.
Por lo demás, en estos casos, no se trata de la significación de una
diferencia entre medias, sino de la significación de una media de un
conjunto de diferencias.
Ejemplo (Datos modificados del Southern Medica! Journal, 1950, 43.
678)
A un grupo de pacientes se les suministró un hematinico y después de
un tiempo sus valores medios en Hgb se compararon con los de un grupo
control. La diferencia no resultó significativa; pero aquellos mismos valo­
res obtenidos en las mismas personas (y no en personas distintas usadas
como control) mostró diferencias francamente significativas.
Los datos son:

119
ESTADISTICA MEDICA

tintas, lo que corresponde calcular es la significación de la diferencia entre

Para comodidad de los cálculos vamos a tomar los cuadrados de los

xl
163,84 148,84
174,-24 127,69
249,64 216.09
179,56 129,96
132,25
184^96 161,29

£ _ + Zxf - (T, m, +Ta m,)

1142.68 + 916,12 - (13,76 X 82,6 + 12.30 X 73,8)


6 +6-2
A DE UNA DIFERENCIA DE DATOS DE OBSERVACIONES PAREADAS

Siendo nuestro error relativo (2,11) inferior a l,0 (2,23) la diferencia


entre las medias de los pacientes a quienes se administró el hematínico y
la del grupo control no es significativa.
Pero si las muestras "A" y "B" hubiesen estado formadas por las
mismas personas, es decir si los valores de la muestra “B" hubiesen sido
los encontrados antes de suministrar el hematínico, y los de la muestra
“A" los hallados después de dicho suministro, lo que correspondería cal*
cular sería la significación de la media de las diferencias halladas, es decir
También en este caso, por comodidad de los cálculos, vamos a tomar
los cuadrados de los valores.

0,36
3,61
1.21
5,29
0,81

í d ! = 15,28

y j 2 d* - md X Td y l 15,28 - (1,46 X 8,8)


‘ Siendo el C.R. de nuestra media superior a ts , la me<
tiva de diferencias reales.
La media de las diferencias (1,46) es superior a 2,57 veces su error
standard (como que es 4,86 veces superior a él), y por lo tanto es una
• media significativa.
Consultando una tabla de Gosset "Sludcnt" puede verse que la pro­
babilidad de una ts de 4,86 es inferior al 1%y aun al ¡í%; es decir que
nuestra afirmación de que la media hallada es representativa de diferencias
reales tiene una probabilidad de error de menos del 0,5%.
Vemos asi que, cuando los valores que se comparan pertenecen a las
mismas personas o cosas, la homogeneidad de la muestra hace que dife­
rencias no significativas entre personas o cosas distintas puedan resultar
significativas.

Significación de la diferencia entre dos o más muestras por el análisis de

Dos o más muestras pueden comparaise estableciendo la significación


de sus diferencias recurriendo a la comparación de uno de sus parámetros
de posición, como, por ejemplo, sus medias, según vimos anteriormente en
los capítulos X y XI o comparando uno de sus parámetros de dispersión,
Habiendo dos o más muestras, pueden establecerse, a más de las va­
de las cuales las más importantes son la intermuestra y la ¡ntramuestra.

La variancia global es la dispersión global de los datos en relación a la


media global (M), dividida por la población o efectivo global (N) menos 1.
Más exactamente, la variancia global (var.g) es la suma de los cuadra­
dos de las diferencias de cada uno de los datos de las muestras a la media
global (es decir, a la media de todos estos datos), dividida por la pobla-

122
MEDIA DE UNA DIFERENCIA DE DATOS DE OBSERVACIONES PAREADAS

En la práctica el cálculo de la variancia global suele hacerse por el


método simplificado ir las diferencias, no de los datos a la media,
sino de los datos n lo cual los valores de los datos constituyen
los valores de estas c ias. En este caso la fórmula conceptual puede
reemplazarse por la d

— ■

donde T es el tamaño global o suma de todos los datos y N el efectivo

La variancia iniergrupo es la dispersión de las medias (m) de cada mues­


tra en relación con la media global (M) multiplicada por la población o
efectivo de cada muestra (n) y dividida por el número de muestras (H)

Más exactamente variancia intergrupo (var. ínter.) es la suma de los


cuadrados de las diferencias de las medias (m) de cada muestra, a la medi­
da global (M) multiplicada por la población o efectivo de cada muestra (n)
y dividido por el número de muestras (H) menos 1.

v . . _ ni (mi - M)a + na (mi - M)* + ----

La variancia intergrupo expresa la dispersión de las medias “entre” las


distintas muestras.
En la práctica el cálculo de la variancia intergrupo se hace también por
el método simplificado recién señalado, con lo cual la fórmula conceptual
arriba vista queda reemplazada por la siguiente:

Var inter = O í/" . + H /n2 + ...) -T * /N


H- 1

donde Ti es el tamaño o suma de los datos de la muestra X| y T el


tamaño o suma de todos los datos de todas las muestras.

T, = I x , T=2 x

Vemos que el numerador del quebrado que expresa la variancia inter­


grupo es la resta de la suma de los sustraendos de los numeradores que por
el método simplificado expresan la variancia parcial de cada muestra,

123
ESTADISTICA MEDICA

menos el sustraendo de la variancia global (véase la fórmula práctica o


simplificada de la variancia global).
La variancia intragrupo es la dispersión de los datos en relación con la
media en cada muestra, dividida por el número total de observaciones (N)
menos el número de muestras (H).
Más exactamente, la variancia ¡ntragrupo es la suma de los cuadrados de
las diferencias de los datos a la media de cada muestra dividida por la
población o efectivo total de observaciones (N), menos el número de
muestras (H).
s S(xi - mi)1 + 2 (x2 - m2)a ■
Var. ir
N- H

La variancia intragrupo expresa la dispersión de los datos “dentro" de


las distintas muestras.
En la práctica el cálculo de la variancia intragrupo también se hace por
el método simplificado, reemplazando la fórmula conceptual por la prác­
tica. Entonces,

Var. ir - 2 x2 - (H /n , + Tl/na +

Vemos que el numerador de este quebrado es la resta del minuendo del


numerador que por el método simplificado expresa la variancia global
menos la suma de los suslraendos de las variancias parciales.
Teniendo a la vista las fórmulas simplificadas de estas tres variancias:

Var. Ínter. = T' 1 M| + Tl 1 "a ................. ) ~ T a /N

Var intra. = S Xa - (Ti / n, + Ti / n, + ■■■)


N -H

puede comprobarse, que el numerador de la variancia global es igual a la


suma de los numeradores de las otras dos variancias, y lo mismo ocurre
con el denominador.
MEDIA DE UNA DIFERENCIA DE DATOS DE OBSERVACIONES PAREADAS

Esto permite calcular el numerador y el denominador de una de ellas

A los numeradores se les suele llamar "sumas de cuadrados” o “sumas


cuadráticas y a los denominadores “grados de libertad"
Entonces la "suma cuadrática” de la variancia global es igual a la

libertad" de la variancia global es igual a la suma de los "grados de li­


bertad" de las otras dos variancias. Esto es lo mismo que lo anterior dicho
con otras palabras.
La comparación de estas dos últimas variancias, esto es, de la ínter-
grupo y de la ¡ntragrupo, permite, calificar la significación de la diferencia
de dos o más muestras por el método estadístico de R.A. Fisher deno­
minado "Análisis de las variancias", ligeramente modificado por vanos

Para ello hay que dividir la mayor de ellas por la menor, obteniéndose
loque se conoce como cociente F,,2 (F. es la inicial del apellido del
creador del método).
A continuación se averigua, en tablas especiales, el valor del cociente

Las tablas especiales fueron confeccionadas por varios autores, entre


ellos por G.W. Snedecor, y por van der Waerden, y otros, para distintos
porcientos de probabilidad (5%, 1%, etc.), ver Apéndice Tabla 3, página
301.
Estas tablas son de las llamadas de doble entrada, en las que el valor
buscado está en la intersección de una columna vertical que corresponde
al grado de libertad o denominador de la variancia mayor y una linea
horizontal que corresponde al grado de libertad o denominador de la
variancia menor.
Si el cociente F ,,7 hallauo por nosotros al dividir la variancia mayor
por la menor es mayor que el cociente F. encontrado en Ia tabla, la
diferencia entre las muestras es significativa; si es igual o menor a él, no lo
n, =10 n, = 10 n, = 12
T] = 1790a = 3204100 Ti = 20101 = 4040100 Ti = 2376’ = S645376

T? •/. n, = 3204100 ■/. 10 = 320410

T? n¡ = 4040100 •/.10 = 404010

Ti •/. n* = 5645376 ■/.¡2 = 470448

Ti •/. n, + Ti •/. n, + Ti •/.n, = 1194868

T = T, + T, + Tj = 6176

Ta •/. N = 6176a •/. 32 = 38.144.976 •/. 32 = 1.191.968

126
32400 39601 36481
31329 41209 37636
30625 40000 40401
28900 37636 37249
33124 38025 38809
32761 41616 38025
31329 42436 41209
32400 42849 39601
33489 40804 39601
34225 40000 40401
----------- 42136
■320582 2x1 = 404176 38809
2x3 = 470658

2x2 = 2x1 + 2x1 + 2x1 = 119S416

n. + Ti ■/■n, + Ti •/■ n,) - T* N_


H- 1

868 - 1.191.968 _ 2900

Siendo F ,.j (= 76,7) mucho mayoi qu

127
CUARTA partí:

LA MUESTRA BIN0M1AL NUMEROSA O MUESTRA DE


BERNOUILLI
CAPITULO XIII

DISTRIBUCION BINOMIAL

SUMARIO: Desarrollo de

131
ESTADISTICA MEDICA

El desarrollo de esle binomio es un polinomio formado por la suma


de dos monomios. El primero de estos es a, que puede escribirse 1 a (uno
por a) y también I a1 b° (uno por a elevada a uno por b elevada a cero)
y el 1° es b, que puede escribirse I b o también -J- a° b '. Adoptamos
esta última forma por razones que después comprenderemos; entonces;

(a + b)1 —la1 b° + —
j— a° b1.

Monomio
1 a' b° = I a

Hagamos ahora algunas observaciones:


Ira. observación
El número o cantidad de monomios es igual al exponente del binomio
lás I.
2da. observación
Cada monomio está formado por un coeficiente determinado seguido
ar el producto de ambos términos del binomio, cada uno de ellos ele-
ido a una potencia también determinada.
3ra. observación
El coeficiente del 1er. monomio (y también del último) es 1.
4la. observación
El coeficiente del 2 monomio es un quebrado cuyo numerador es el
(ponente del binomio y cuyo denominador es la unidad.
Sta. observación
El ler. factor de los monomios es el ler. término del binomio, ele-
ido, en el ler. monomio, al exponente del binomio, y en el 2 mono-
lio, a este exponente menos 1.

El 2do. factor de le

132
ESTADISTICA MEDICA

5a. observación
El coeficiente del 3er. monomio es también un quebrado cuyo nume­
rador es el numerador del 2° monomio multiplicado por el número que le
precede en la serie natural de los números y el denominador, el denomi­
nador del 2 monomio multiplicado por el número que le sigue en la serie
natural de los números.
6a. observación
En el 1er. monomio aparece el 1er. término del binomio, elevado al
exponente del binomio; en el 2°, elevado a dicho exponente menos 1. y
en el 3°. elevado a dicho exponente menos 2. Es decir que el exponente
de este 1er. término de los monomios, que en el primero es igual al ex­
ponente del binomio, disminuye en una unidad en cada uno de los mo­
nomios siguientes.
7a. observación
El 2° factor de los monomios es el 2° término del binomio, elevado,
en el 1er. monomio, a 0; en el 2°, a 1, y en el 3o, a 2.

La suma de los exponentes de ambos factores de los monomios es


igual en todos ellos, e igual al exponente del binomio elevado.

Ser. ejemplo
Desarrollemos en forma similar el binomio elevado

(a + b)J

N° de orden
DISTRIBUCION BINOMIAL

Observaciones
Podemos repetir las mismas observaciones anteriores. En efecto:
1) El número de monomios es igual al exponente del binomio ele­
vado más 1.
2) Cada monomio está formado por un coeficiente seguido del pro­
ducto de ambos términos del binomio, elevados a un exponente deter­
minado.
3) El 1ro. (y el último) monomio tienen el coeficiente 1.
4) El coeficiente de los monomios, a partir del 2° está fotmado por
un quebrado. Este quebrado, en el 2o monomio tiene por numerador el
exponente del binomio elevado, y por denominador la unidad. En el 3 y
siguiente los coeficientes tienen como numerador el numerador del coefi­
ciente anterior multiplicado por el número natural que le precede en la
serie natural de los números y por denominador el denominador anterior
multiplicado por el número natural que le sigue. Estos coeficientes se
Daman coeficientes newtonianos, o monomiales (también suelen deno­
minarse "binomiales", por referirse a los monomios correspondientes al
desarrollo de un binomio).

4lo. ejemplo
Desarrollemos en igual forma el binomio

(a + b)‘
7V° de orden Monomio

■t

3"

13S
ESTADISTICA MEDICA

6„ 6X SX 4X 3X 2
1X 2X 3X 4X 5
^ 6X SX 4X 3X 2X 1
1 X 2X 3X 4X 5X 6

Observaciones
Podríamos repetir las mismas observaciones anteriores.

5o ejemplo
Reemplacemos por números, no solamente el exponente, sino también
los términos del binomio. Reemplacémoslos primeramente por números
naturales, por ejemplo,
(2 + 3)'.
Y ahora desarrollémoslos como antes:
/Vo de orden Monomio
1° 1 X 2 'X 3 ° = 1X2 X 1 - 2

t | X 2 ° X 3 '= IX 1X 3 = 3

Observaciones
Podríamos hacer las observaciones del 1er. ejemplo.
6o ejemplo
Desarrollemos ahora el binomio
(2 + 3)1
AIo de orden Monomio
1° 1 X 2 'X 3 " = I X 2* X 1 = 4
t - X 21 X 3' = 2X 2‘ X 3'= 12
DISTRIBUCION BINOMIAL

Observaciones
Podríamos repetir las observaciones del 2° ejemplo.
7o ejemplo
Desarrollemos el binomio
(2 + 3)J

ÍV° de orden Monomio


1° 1 X 2S X 3o = 1 X 2! X 1 = 8
2° 3 X 2 'X 3 '= 3X 2, X3I = 36
3X 2 X 2' X 3* = 3 X 2 'X 3 ! = 54

2o X 3S = 1X 1 X 3 ’ = 27

Las mismas que en el 3er. ejemplo.

Desarrollemos ol binomio

Monomio
l X 2‘ X 3° = 1 X 2‘ X I = 64
-X 2 ! X3‘ = 6 X 2S X 3‘ — 576

— X2*X3* = 15X2* X3’ = 2160


1X2
)3 = 4320

= 15 X 2* X 34 = 4860
ESTADISTICA MEDICA

————— — ———X 2, X 35 = 6X2- X3» =29.6


1X 2X 3X4X S
6XSX4X3X2XIX
2o X 31 = 1X1 X 3‘ =
1X2X3 X4 XS X6

Observaciones
Las mismas de siempre.
Reemplacemos ahora los términos del binomio por números quebra­
dos cuya suma sea igual a la unidad.

Desarrollemos el binomio

U + 4 V - .■ - ,

'• ■ ( { ) • ( * ) • - ■ ( i) *

f t (Í)'(Í)' -«-(i)
Observaciones

10° ejemplo
Desarrollemos el binomio

( i -i)'-
138
DISTRIBUCION BINOMIAL

Valor del monomio

' « - ‘(i)'
»(I) (i) - í

Observaciones
Las 8 de antes.

1 1 ° ejemplo
Desarrollemos el binomio

W + z )
A" de orden Monomio Valor

'(;)■(!) - ■er« - ¿
■(i)’(i)- 5
m i j m ’ i! ,’ ,
> ü )(i)1 ;

1X 2X 3 \ 2 / \2 ) (i) (i)- i
Observaciones
Las de siempre

12° ejemplo

Binomio ^ j - 1* - 1

139
ESTADISTICA MEDICA

W° de orden

- ■ (!)*> i

i ( y '( f ) ‘ - (t ) ( ! ) !

Observaciones
Las de siempre

13° ejemplo
Desarrollemos el binomio

(T 7=i
Ai° de orden Monomio

'■ ' (;)' (!)* - ■(I)--


? f(i)' (D‘ - 2(i) (i)
>• Sí (i)* (!)’.- (f)Ü)
Observaciones
Las mismas 8.

t° ejemplo

Binomio

140
DISTRIBUCION B1NOMIAL

Observaciones
Las de siempre

16 ejemplo

Binomio = l2 = l
V6 6 /
N° de orden Monomio

Observaciones
Las 8 de siempre
Reemplacemos ahora los términos del binomio por números decimales
cuya suma sea también igual a uno.

17° ejemplo

Binomio (0,5 + 0,5)a

iV° de orden Monomio Valor

1* 1 (0,5)’ (0.5)° = 1 (0,5)’ X 0,25

2° y(0.S? (0,5)* = 2(0,5) (0,5) 0,50

X I (0.5)1 0,25
3' 7 F 2( 0,5)0 (°,S)3 =

Observaciones
Las de siempre.

180 ejemplo
Binomio (0.5 + 0,5)3 1

142
DISTRIBUCION BINOMIAL

N° de orden Monomio Valor

1° 1 (0,5)3 (0,5)° = 1(0,5)J X I 0,125


t y(O.S)1 (0,5)' - 3(0,5)3 (0,5) 0,375

3° 7 T i (0’S)' (0•S), = 3 (0.S) (0,S)J 0.375

4o 3X 2X 1 (0,5)° (0,S)J = 1X1 (0,5)3 0.125


1 X 2X 3V

19° ejemplo
Binomio (0,3 + 0,7)* = 1* = 1

N° de orden Monomio

•Io IX 0,3J X 0,7° ■= ÍX O J’ X I 0,09


2• 2 X 0,3' X 0.71 = 2 X 0,3 X 0.7 0,42

3. X 0,3° X 0,7a = 1 X I X 0,72 0,49

143
CAPITULO XIV

SERIE BINOMIAL DE BERNOUILU


ESTADISTICA MEDICA

ambiente la diabetes afecta al 4% de la población, una persona puede


pertenecer a ese 4% o no pertenecer); presentar un síntoma cuando se
padece una determinada enfermedad en la que dicho síntoma se presenta
con una determinada frecuencia (si los fibromas uterinos ocasionan me*
trorragias en el 50% de los casos, una paciente con fibroma puede per­
tenecer a ese 50% o no pertenecer a él) etcétera.

Frecuencia de los resultados


En estas seríes formadas por hechos que pueden ocurrir o no ocurrir,
como consecuencia del dilema, los resultados se repiten con las frecuen­
cias indicadas por los monomios resultantes del desarrollo de un determi­
nado binomio elevado.
El nombre de estas series es “series estadísticas con una distribución
binomial de frecuencias", al que suele asociarse el nombre del gran
matemático suizo del siglo XVII Jacobo Bemouilli. Suele decirse abrevia­
damente: Distribución binomial de Bemouilli.
Recordemos que se habla de frecuencias cuando se trata de muestras,
o de series, y de probabilidad cuando se trata de universos. En el primer
caso se trata de la relación entre el número de veces que un dato se
repite, y el número total de observaciones de la muestra (o sea, de térmi­
nos de la serie) y en el segundo la misma relación tomando como totali­
dad del universo la unidad o el centenar, es decir I ó 100. De modo que
los valores de la distribución binomial de frecuencias son los mismos que
los de la distribución bimial de probabilidades.
Vamos a estudiar estas series de Bemouilli en la misma forma que lo
hicimos con el desarrollo del binomio de Newton, esto es, mediante ejem-

EJEMPLO 1
Si arrojamos una moneda al aire, es posible que caiga “cara", pero es
también posible que caiga "ceca", esto es que “no caiga cara".
La probabilidad de que “caiga cara" es igual a la de que “no caiga
cara", y si a la probabilidad de ambas juntas, a la probabilidad total, es
decir, a la probabilidad de que “caiga cara más la de que no caiga cara" le
damos el valor uno, el valor de la probabilidad de que "salga cara" es
igual a la mitad, es decir a un medio, y otro tanto, la de que "no caiga
cara". Esto significa que presumimos que arrojando infinidad de veces una
moneda, la mitad de las veces "caerá cara” y la otra mitad "no caerá

146
SERIE BINOMIAL DE BERNOUILLI

No podemos verificar esla hipótesis recurriendo a una experiencia


infinita, pero de acuerdo con la ley de los grandes números, los resultados
se acercan a ella en la medida en que aumenta el número de las expericn-

La serie finita mis pequefla representativa de esta serie infinita sería


una serie formada por dos términos, uno de los cuales fuera “cayó cara"

Si al resultado “caer cara" le asignamos el valor 1 y al resultado “no


caer cara" el valor 0, esa serie finita sería la siguiente:

Son estas frecuencias relativas, o probabilidades, las indicadas por los

Esta es una serie de dos términos en la que éstos no se presentan mis


que una vez; es decir la frecuencia relativa de cada uno de ellos es uno
sobre dos.
El valor de las frecuencias relativas de estos términos o frecuencia

El cuadro de los monomios resultantes del desarrollo de este binomio

En dicho cuadro podríamos cambiar el titulo de la primer columna:


(n° de orden) y poner “resultado”, y el de la 3a. (valor) y poner "fre­
cuencia de estos resultados". (Sobreentendiéndose frecuencia relativa).
La frecuencia del resultado máximo* está dada por el valor del primer

147
ESTADISTICAMEDICA

E! cuadro quedaría entonces así:

Resultado Monomio Frecuenciade este resultado

(Los valores de la última columna deben leerse uno sobre dos).

Significado de los términos, y del exponente, del binomio, en relación


con los resultados.
Observación N°l
En el binomio elevado ( y + y )', el primer término indica la pro­
babilidad del resultado “caer cara".

Observación N°2
El 2 término del binomio elevado indica la probabilidad del resultado

Observación N°3
El exponente del binomio indica el número de monedas arrojadas
cada vez y también el valor máximo del resultado.

Observación N°4
El valor del exponente más uno indica el número o cantidad de resul­
tados diferentes.

Resumen
Razonando sobre los resultados de arrojar una moneda, y calificando
esos resultados desde el punto de vista de “caer cara" o “no caer cara" y
dando al 1° el valor 1 y al 2° el valor 0, podemos construir una serie

148
SERIE BINOMIAL DE BERNOUILLI

estadística con una distribución binomial de las frecuencias en la que


éstas, es decir el número de veces que un término se presenta, están dadas
por el valor de los monomios resultantes del desarrollo del binomio ele­
vado ( y +
Observaciones
En este binomio, el 1er. término es la probabilidad de "caer cara"; el
2°, la de “no caer cara”, y el exponenle tiene un triple significado;
1) Indica el número o cantidad de monedas arrojadas cada vez.
2) Indica además el valor del mayor de los resultados, es decir de los
términos de la serie, y
3) El valor del exponente más uno indica el número o cantidad de
resultados posibles, es decir de términos distintos de la serie.
Ejemplo 2
Si en un bolillero hay tres bolillas iguales en todo menos en el color,
y de las cuales una es roja, otra azul y la tercera verde, al abrir el bolillero
una cualquiera de ellas puede salir,, siendo la probabilidad de hacerlo la
misma para cada una de ellas.
Si a la probabilidad total, es decir a la suma de las probabilidades de
todas ellas le asignamos el valor 1, la probabilidad de salir una determi­
nada de las tres es igual a j y la de no salir dicha bolilla igual a \ .
Esto significa que aceptamos que abriendo infinidad de veces el boli­
llero después de haber repuesto la bolilla extraída, en la tercera parte de
las veces saldrá la bolilla roja y en las partes no saldrá la bolilla roja.
La serie mínima representativa de esa serie infinita sería una finita de
3 términos, de los que el primero representaría el hecho de "salir la roja"
y las 2 siguientes cada una el de "no salir la bolilla roja".
Si al resultado de salir la bolilla roja le asignamos el valor I y al de
"no salir la bolilla roja" el valor 0, esa serie mínima seria la siguiente:

149
SERIE BINOMIAL DE BERNOUILLI

indica el número de bolillas extraídas por vez; además el exponente


indica el mayor valor de los resultados, es decir de los términos de la serie
y el valor del exponente más uno el número o cantidad de resultados,
esto es, de términos diferentes de la serie.

EJEMPLO 3
Si arrojamos un dado sobre la mesa, puede salir el número "seis" o
salir cualquier otro número, siendo la probabilidad de que salga el “seis"
igual a la probabilidad de que salga cualquiera de los otros números, y si a
la probabilidad total, es decir a la suma de probabilidades de todos ellos
les damos el valor 1, la de “salir el seis" será igual a ~ y la de “no salir

Si al resultado "salir el seis” le damos el valor I y al "no salir el seis”


el valor 0, la serie mínima representativa de la serie infinita de arrojar un
dado sobre la mesa es la serie de 6 términos.

1. 0, 0, 0. 0, 0

I (D. 0(5)
o también:
* f. Sr

Las frecuencias de estos resultados, o sea de estos términos, está dada


por los valores de los monomios resultantes del desarrollo del binomio
elevado

( i *
ESTADISTICAMEDICA

Por fin, la probabilidad de que arrojando dos monedas no salga ni


ira, equivale a que salgan dos y la probabilidad de es
sultado es, como vimos, igual, también.
Si al resultado "salir dos caras'' le asignamos el valor 2, al "salir 1
i" el valor 0, las probabilidades vistas
significan que arrojando infinidad de veces dos monedas al mismo tiempo,
en la cuarta parte de los casos caerán 2 caras, en los dos cuartas partes, o
sea en la mitad de los casos, caerá una cara y en la cuarta parte restante
no saldrá ninguna cara.
La serie mínima representativa de esta serie infinita sería una serie de
cuatro términos; cuyo primer término sería un 2, luego vendría un I;
después otro I y por fin un 0. Así:

Observaciones

154
SERIE BINOMIAL DE BERNOUILLI

monedas arrojadas simultáneamente. También indica el mayor valor del


resultado, y el número de resultados diferentes (si se le agrega 1).
El desarrollo de este binomio elevado lo vimos en el ejemplo 10 de la
clase anterior. Al cuadro correspondiente podemos cambiarle ios títulos y
entonces obtener el siguiente:

La frecuencia del resultado máximo está dada por el valor del primer
monomio y la del resultado mínimo por el del último.
La tercera columna debe leerse uno sobre cuatro, dos sobre cuatro, y
uno sobre cuatro, respectivamente.

Resumen
Razonando sobre los resultados de arrojar dos monedas, desde el
punto de vista de "caer cara" o “no caer cara", hemos construido una
serie con una distribuciún binomial de las frecuencias, las cuales respon­
den a los valores de los monomios resultantes del desarrollo del binomio
elevado ( y + ? )’ •

Observaciones
En este binomio el 1er. término indica la probabilidad de salir cara
arrojando una moneda; el 2° la de no salir cara, y el exponente el número
de monedas arrojadas simultáneamente. A su vez este exponente indica el
valor máximo de los resultados posibles, o sea de los términos de la serie,
y el valor del exponente más uno el número o cantidad de resultados
posibles, o sea de términos distintos de la serie.

1SS
Las combinaciones en que aparece una sola bolilla roja, si ísta es R |,
son dos Ri - Vj y R, - Aj y las en que aparece la Rj también son dos
Rj - V| y Ra - Ai; por lo tanto, las combinaciones o resultados en que
aparece una sola bolilla roja, cualquiera de ellas que sea, son cuatro. La
probabilidad de este resultado (una bolilla roja) es, por lo tanto, -5-.
Y por fia las combinaciones en que no aparece ninguna bolilla roja
son también 4, como puede verificarse fácilmente. Esta probabilidad
(“ninguna bolilla roja”) es, por consiguiente, también igual, a -y .
Es decir, hemos obtenido los mismos resultados que por los cálculos.
Si al resultado “sacar 2 bolillas rojas” le damos el valor 2, al "sacar 1
bolilla roja” el valor I y al “ninguna bolilla roja” el valor 0, ía serie
mínima representativa de la serie infinita de sacar bolillas de dos bolilleros
con las condiciones dichas sería la siguiente

2, 1. 1, 1, 1, 0,0, 0,0
o sea
2(1), 1(4), 0(4)
o también

157
ESTADISTICA MEDICA

el exponente indica el número de bolillas que se extraen al mismo tiempo,


el mayor resultado obtenible y el exponente más 1, el número o cantidad
de resultados diferentes que pueden extraerse.
El desarrollo de este monomio lo vimos en el ejemplo 13 de la lec-
Cambiando los títulos del cuadro visto podemos conféccionar el
siguiente

Resultado Monomio Frecuencias

Los valores de la 3a. columna deben leerse uno sobre 9, 4 sobre 9 y 4


sobre nueve, respectivamente.

Resumen
De nuevo hemos construido y visto una serie estadística con una repe­
tición de términos, o sea con una distribución de frecuencias, de índole
binomial, en la que esta frecuencia está dada por los valores de los mo­
nomios resultantes del desarrollo del binomio elevado

Observaciones
El ler. término de este binomio indica la probabilidad de un resultado
en un caso individual, el 2° la probabilidad de no obtener ese resultado en
ese caso individual, y el exponente el número de casos individuales. A su
vez el exponente indica el valor del resultado máximo, o sea del término
máximo de la serie, y el exponente más uno el número o cantidad de
resultados distintos, o sea de términos diferentes de la serie.
SERIE BINOMIAL DE BERNOUILLI

Ejemplo 6
Si en vez de arrojar un dado arrojamos dos, el cuadro de resultados y
frecuencias de esos resultados desde el punto de vista de sacar "seis"
puede construirse sobre la base del desarrollo del binomio (4“ + T ) asl"
Resultados Monomio Frecttencia

'a de todas las seríes posibles de ar

2 ( 1), 1 ( 10), 0 (25)

Vemos una nueva serie estadística con una distribución de frecuencias


de tipo binomial, en la que la repetición de los términos, o sea la frecuen­
cia, está dada por los valores de los monomios resultantes del desarrollo
del binomio elevado ( -j- + 4 )3•
Observaciones
El leí. término de este binomio implica la probabilidad individual de
un resultado en un caso individual y el 2° la probabilidad de no obtener
ese resultado en dicho caso individual, y el'exponente el número o can­
tidad de casos individuales en juego simultáneo, el valor máximo del re­
sultado obtenible y el exponente más I el número o cantidad de rebulta­
dos distintos que se pueden obtener.

Ejemplo 7
En vez de 2 monedas arrojemos 3 y veamos la serie de resultados
desde el punto de vista de caer cara.
El cuadro de los resultados y frecuencias sería el siguiente, desarro­
llando el binomio

Resultado Monomio Frecuencia

■ . ' ( i H t r = ■(;)' - 5

! ' « - ( * ) ■ ( * ) ■ - i
' f H Í Í ) , (3), - ( i ) , (3)‘- i

• S ü í (*)•(*)'-(i)' - i

3(1 ), 2 (3), 1 (3), 0 (I)

160
SERIE BINOMIAL DE BERNOUILLI

que éstas están


míos resultantes del desarrollo del binomio elevado ( -j + -j- f .

Observaciones
El 1er. término de este binomio indica la probabilidad individual de
un resultado en un caso individual; el 2° la probabilidad individual de no
obtener dicho resultado en el mencionado caso individual, y el exponente
el número de casos individuales puestos en un juego simultáneamente,
indicando además el valor máximo de los resultados, o sea de los términos
de la serie; y el mismo más uno el número o cantidad de resultados, o sea
de términos diferentes de la serie.

Ejemplo 8
En vez de 2 bolilleros tengamos 3 en las mismas condiciones ante­
riores y construyamos la serie de resultados desde el punto de vista de
que salgan bolillas rojas. El cuadro de resultados y frecuencias sería el
siguiente, desarrollando el binomio elevado:
Hemos visto una nueva serie estadística con una distribución binomial
de frecuencias de la misma naturaleza que las anteriores.
Ejemplo 9
Construyamos finalmente una serie con una distribución binomial de
frecuencias recogiendo los resultados de arrojar 3 dados al mismo tiempo,
SERIE BINOMIAL DE BERNOUILLI

lis; desarrollando el binomio ele-

a * f r

lesultados Monomios Fi

•ayay-ay -

! ( ; ) ' ( ! ) ' - > ( ; ) ’ (I)-

1 ma) ' ( ! ) ■ - (i) ( 9 ‘ -


• i H í i ( ; ) • ( ! ) '- ■ ( ! ) • ■

La serie mínima sería pues:

3 (1), 2 (IS). 1 (75). 0 (125)

163
ESTADISTICA MEDICA

de frecuencias.

Observación: Vemos, pues, que cuando aumenta el número o cantidad de


casos individuales que se observan simultáneamente, aumenta igualmente y
en forma mucho mayor la complejidad de los cálculos necesarios para
obtener el valor de los monomios. Por ejemplo, si arrojáramos 5 dados, el

del binomio elevado.

Como siempre, el valor del primer monomio corresponde a la frecuen­


cia del resultado máximo y el de los que siguen a los resultados siguientes
en orden descendente.

'( ! ) ■ ( ! / - '(i)' = 4

i (;)’(;)■-10(1)7;)’- w
a e n y - w - n s

a r e - w - i i

» ( ; ) * ( ! ) ’- 1(!)‘ -m

5 (1), 4(25), 3 (250). 2 (1250). 1 (3125), 0 (3125)


!E BINOMIAL DE BERNOUILLI

7776
25
7776
250
7776
1250
7776
3125
3125
7776
3125
3125
7776
n = 2 / = 7776 Z/r= 1

p> q (o sea, cuando a > b).


Corresponden a los re )s cuando

p = q (o sea, cuando a = b).

Y corresponden a los resultados menores cuando

p< q (o sea, cuando a < b).

Cálculo de la frecuencia de un resultado determinado


Si lo que nos interesa exclusivamente es saber cuál es la frecuencia
con que en la serie se repite un resultado determinado, sólo tendremos
que armar el monomio correspondiente a dicho resultado.
Este monomio, como lo dijimos antes, está formado por tres factores:
el 1° es el coeficiente binomial, el 2° es el primer término del binomio,

165
ESTADISTICA MEDICA

elevado a una potencia determinada, y el 3° es el 2° término del binomio


elevado a otra potencia igualmente determinada.
El coeficiente monomio! puede obtenerse siguiendo técnicas muy
sencillas. En primer lugar digamos que el coeficiente del monomio corres­
pondiente al resultado máximo y al resultado cero es la unidad (de modo
que nada puede ser más fácil que esto).
El coeficiente de los monomios correspondientes a los otros resulta­
dos es un quebrado, y como tal, está formado por un numerador y un
denominador. Estos pueden obtenerse por dos técnicas distintas.

Primera técnica:
El numerador es igual al producto del coeficiente del monomio an­
terior multiplicado por el exponente del primer término de este mismo
monomio, y el denominador es igual al exponente del segundo término
también del monomio anterior aumentado en una unidad.
Ejemplo: desarrollo del binomio

(a + b)‘

6X I _ _6
5+ 1 ~ 6
Segunda técnica
El numerador del quebrado del monomio correspondiente al 2° resul­
tado, es decir al resultado cuyo valor coincide con el valor de exponente
del binomio menos 1, es justamente el valor del exponente.

166
El numerador del quebrado del monomio siguienle. es decir del co­
rrespondiente al resultado cuyo valor es el exponente del binomio menos
2. es el numerador anterior multiplicado por el número que le sigue en la
serie descendente de los números naturales.
El numerador del quebrado del monomio siguiente es igualmente el
numerador del monomio anterior multiplicado por el número que le sigue
en la serie descendente de los números naturales.
Y asi todos, incluso el último. Pero éste, ya sabemos, al igual que el
primero, vale 1; de modo que no hace falta calcularlo. Veamos ahora el

Empecemos por el denominador del coeficiente del 2o monomio (del


correspondiente al resultado que es igual al exponente menos I). En este
coeficiente el denominador es 1.
El denominador del coeficiente del monomio siguiente (del que co­
rresponde al resultado cuyo valor es igual al exponente menos 2), es el
denominador anterior (I) multiplicado por el número que le sigue en la
serie creciente de los números naturales, es decir, por 2.
El denominador de los coeficientes de los monomios siguientes, hasta
el último, es igualmente el denominador anterior multiplicado por el
número que le sigue en la serie creciente de los números naturales.
Ejemplo

(a + b)‘

Pongámoslos en columna frente a los resultados correspondientes:


Monomios
ESTADISTICA MEDICA

Si invertimos el orden de los factores de los denominadores (lo cual


es perfectamente permisible, ya que el orden de los factores no altera el
producto), esos coeficientes, a partir del correspondiente al resultado 4 y
hasta el resultado 1, serian para el binomio

6 X SX
3X 2 X
6 XSX4

5X 4X 3X 2X

Vemos asi que en esos coeficientes, os denominadores for-


man series decrecientes completos de factores q nan en la unidad,
los numeradores forman seríes incompletas, sentido de que no ter­
minan en la unidad.
Como es sabido, las seríes decrecientes de fa
unidad se denominan factoriales del símbolo
matemático es un signo admirativo, y sus valore tan sido calculados por
los matemáticos y colocados en tablas, las que men de calcularlos
'ez, lo cual es muy trabajoso cuando factoriales de nú-
os relativamente al Apéndice, Tabla 8. página 308.
is tablas, en ui os la serie natural
de los números desde I hasta 100; en una segunda columna encontramos
el valor del producto de la serie correspondiente al factorial, y en una
tercera columna el logaritmo de ese valor.
SERIE BINOMIAL DE BERNOUILLI

Cuando se trata de factoriales de números todavía más elevados, es


más cómodo manejarse con los logaritmos de los factoriales que con los
factoriales mismos. En esos casos se puede recurrir a tablas de logaritmos
factoriales. Una de tales tablas puede verse en Geigy, 6a. ed., p. 26, en la
que se dan los logaritmos decimales de los factoriales desde 1 hasta 999.
En esta edición, además, en la página siguiente tenemos el logaritmo
de los factoriales recíprocos, es decir de I/n!
Estas tablas nos permiten hallar, sin cálculo alguno, el valor de los
denominadores de los coeficientes binomiales, que estamos estudiando.
El valor de los numeradores, en cambio, por ser series incompletas de
factores que no terminan en uno, no pueden hallarse en dichas tablas,
sino que se lo debe calcular uno a uno en cada caso.
Sin embargo, podríamos completar la serie de los numeradores y
beneficiamos así con el uso de las tablas de factoriales, pero a fin de que
el valor del quebrado no se alterara, tendríamos que multiplicar el deno­
minador por esa misma porción de serie que agregamos al numerador. En
esta forma, tanto el numerador como el denominador podrían hallarse en
las tablas.
Por ejemplo, los coeficientes recién vistos podrían ser transformados
en los siguientes, sin que su valor cambiara en el binomio (a + b)6

< I) (4 X 3 X 2 X 1)
(6 X 5 X 4) (3 X 2 X 1)

4 X3X 2X 1 X 3 X 2 X 1) (2 X 1)
6X SX 4X 3X 2 (6 X S X 4 X 3 X 2) (1)
5X4X3X2X1 (5 X 4 X 3 X 2X 1)(1)

En esta forma “actual" el numerador es una serie completa de fac­


tores decrecientes hasta 1, es decir constituye el factorial del primer
factor, y su valor puede hallarse en las tablas.
169
A su vez los denominadores están formados por el producto de dos
series decrecientes que terminan en 1, es decir están formados por el
producto de dos factoriales cuyos valores también pueden hallarse en las
tablas. Esta última forma facilita, por tanto, muchísimo la tarea de encon­
trar el valor de los coeficientes binomiales.

Observaciones •
1) Observando estos coeficientes expresados en forma de factoriales,
vemos que todos los numeradores no son más que el factorial del expo­
nente del binomio y
2) que los denominadores están formados por el producto del facto­
rial del resultado multiplicado por el factorial de la diferencia entre el
exponente del binomio y el resultado;
3) si genéricamente el exponente del binomio lo simbolizamos por N
y al resultado por R, el coeficiente binomial puede simbolizarse por una
N y una R puestas una encima de otra y ambas encerradas entre parén-

Estos coeficientes responderían evidentemente a la fórmula

/ N
\ R /
\m » ____
R! (N -R )l

Es decir que el coeficiente del monomio correspondiente a cualquier


resultado es igual al coeficiente binomial del exponente N sobre el resul-

Y también es igual al factorial del exponente dividido por el producto


del factorial del resultado multiplicado por el factorial de la diferencia
entre el exponente y el resultado.

Ejemplo
¿Cuál es el coeficiente binomial correspondiente al resultado 3 en el
desarrollo del binomio (a + b)5?

I 5 ) Ni S!
\ 3 / R! (N - R)1 3! 2!

Recurriendo a una tabla de factoriales podemos reemplazar a estos


por sus valores, entonces tendremos

170
SERIE BINOMIAL DE BERNOUILLI

120 120
10 .
6 X 2 “ 12
Por el método originario el cálculo de este coeficiente hubiese sido

(D-m-T
En este ejemplo hubiese sido más sencillo el método originario que el
derivado, debido a que tanto el exponente como el resultado son números
pequeflos; pero otra cosa hubiera sido si, por ejemplo, el problema hubie­
se sido: ¿cuál es el coeficiente binomial correspondiente al resultado 25
en el desarrollo del binomio (a + b)‘°°?
En este caso el coeficiente, de acuerdo con el método originario,
hubiera sido
/ 100 \ 100 X 99 X 98 X . . . X 26 (75 multiplicaciones)
\ 25 / I X 2 X 3 X . . . X 75 (75 multiplicaciones) *
Es decirque para calcular este coeficiente por el método original
necesitaríamos realizar nada menos que 150 multiplicaciones, lo cual
evidentemente es una tarea larga y laboriosa.
En cambio, por el método deducido el cálculo indicado es el si-

N! _ 100!
R! (N - R)! “ 25! 75! '
Se recurre ahora a una tabla de factoriales, con lo cual tenemos

/ 100 \ 100! 9333 X 10'»_______ = 2425 X 10”


\ 25 / 25! 75! 1551 X 10” X 2480 X lO'04
La magnitud de este coeficiente puede apreciarse por elexponente 23
del factor 10, lo cual nos dice que el valor de la cifraes superior aun 2
seguido de 23 ceros, o sea de unos 242 mil trillones.
Pero también estos cálculos pueden verse facilitados recurriendo a
tablas apropiadas de coeficientes binomiales como los que trae la obra
citada de Geigy, sexta edición, pág 25, abajo y 70 a 77.
La primera de estas tablas nos da directamente los resultados de los
coeficientes que van de
171
172
SERIE BINOMIAL DE BERNOUILL!

Vimos anteriormente que los otros factores de los monomios son los
dos términos del binomio elevado, cada uno de ellos elevados, a su vez, a
un exponente determinado cuyos valores son los que ahora debemos

Digamos ante todo que esta parte del asunto es sumamente sencilla.
En efecto, el primer factor del monomio se halla elevado invariable­
mente al resultado, y el segundo factor a la diferencia entre el exponente
y el resultado.

Las frecuencias de los ie binomial que responda

(a + b)5

pueden obtenerse por las dos siguientes formas:

La primera forma es
tabla de coeficientes binomiales
o de sus logaritmos.
173
R! <» - W

■nToí' *TT•5T■1

( i4 ) ‘
SERIE BINOMIAL DE BERNOUILLI

los dalos del problema son. pues.

Luego, la frecuencia del resultado 3 es:

■-MU (f)'
120 _l 25_
6 X2 216 36
I20X 1 X 25 125

175
CAPITULO XV

PARAMETROS MEDIA Y DESVIO STANDARD EN LAS MUESTRAS


BINOMIALES
(DISTINTOS VALORES)

Resultados en valores absolutos

cuencias son pasibles de los mismos tratamientos que las otras muestras o
series estadísticas normales, es decir que el cálculo de sus parámetros
puede hacerse por los métodos comunes aplicables a cualquier muestra o

Tomemos, por ejemplo, la serie que recoge los resultados de arrojar 3


monedas, desde el punto de vista de que éstas caigan de cara. El binomio
elevado cuyo desarrollo contiene los monomios cuyos valores indican las
frecuencias con que aparecen los resultados es ( -y’ + -y )*
y la serie de resultados es la siguiente: (Véase ejemplo 7 página 160.)

3(1), 2(3), 1(3), 0(1)

3, 2, 2, 2, 1, 1, I, 0 .

El cálculo de los parámetros media y desvío medio standard (o nor­


mal) de esta serie puede hacerse por los métodos o procedimientos genera­
les; por ejemplo, mediante la siguiente planilla de operaciones
177
ESTADISTICA MEDICA

íf» ! - m£ fx

Cuando son series cortas, no hay inconveniente en aplicarles estos


procedimientos básicos para el cálculo de los parámetros. Como sabemos
ellos exigen el conocimiento de todos los valores o datos de la serie. Pero,
como se trata de series con distribución binomial de las frecuencias que
respondan al desarrollo del binomio elevado (p + q)N, para calcular sus
parámetros media y desvío standard no hace falta conocer los valores
completos de la serie: bastan los del binomio elevado cuyo desarrollo
coincide con la distribución de las frecuencias. En efecto, la media, en
estos casos, es igual a! producto del ler. término del binomio multiplicado
por el exponente del mismo, es decir,

m = pN

178
füJili
más la probabilidad que salga ceca llamamos una probabilidad total del
100%. la de que "salga cara" será del 50% y la de que “no salga cara”,
también del 50%.
A fin de que el valor del binomio se mantenga igual a la unidad, estos
porcentajes se expresan en centesimos.
En este caso el binomio, por lo tanto, es

(0,50 + 0.SO)1

A su vez. los resultados obtenibles pueden tener un carácter porcen­


tual. en el que el resultado máximo tendrá el valor 100% y proporcional­
mente los otros resultados, como acabamos de verlo.
Arrojando una moneda por vez, el resultado máximo desde el punto
de vista de "sacar cara" es "sacar 1 cara". A este resultado podemos asig­
narle el valor 100%.
El otro resultado posible arrojando una moneda es no “sacar cara", al
que antes le asignábamos el valor 0. y al que ahora le asignaremos el valor
0 también, pero agregándole %: 0%.
Las frecuencias con que se dan estos resultados están dadas por los
monomios resultantes del desarrollo del binomio elevado. Pero los valores
de estos monomios se dan en centésimos y debemos traducirlos y expre­
sarlos después en %.
Asi, en el caso de arrojar una moneda, los resultados y las frecuencias
son dadas por el desarrollo del binomio elevado.

(0,50 + 0,50)'

Monomio Probabilidad
1 (0,50)' (0,50)° = 0,50 0,50 = 50%

7 (0,50)° (0,50)' = 0,50 0,50 = 50%

La serie, por lo tanto, es


100% (50), 0% (50)

En esta serie podemos calcular los parámetros media y desvío medio


normal o standard por los métodos comunes. Así
PARAMETROS MEDIA Y DESVIO STANDARD

181
ESTADISTICAMEDICA

Observaciones
Hs evidente que en estos casos se trata de series de series, y no de
series de datos.
Cuando digo que la serie es
100%(50), 0 %(50)
digo
100%, 100%, 100%... (50 veces). 0%. 0%, 0%... (50 veces),
es evidente que cada término de la serie es a su vez una serie formada por
100 términos, en este caso todos iguales. Si uno de los términos fuese
50%. ello significaría igualmente una serie de 100 términos, de los cuales
SO serian iguales a un valor determinado y los otros cincuenta iguales a 0.
Hasta ahora habíamos visto que tas muestras y las series se formaban
con observaciones individuales y con datos individuales. Aquí nos encontra­
mos con series formadas por series, o si se quiere, los datos se refieren a
series. Podríamos decir que se trata de una SERIE (con mayúsculas) de
series (con minúsculas).
En la serie del ejemplo, que dijimos era
100%(50), 0%(50),
cada uno de los términos de esta serie se refieren a una Serie de 100 tér­
minos; los 50 primeros formados por series con el valor o resultado máxi­
mos, y los 50 siguientes por series formadas por el valor o resultado nulo.
De ello resulta que el desvío standard no es un parámetro represen­
tativo de los desvíos de los datos, sino de las series, expresadas por sus
medias; el desvio standard es, por lo tamo, el desvio de las medias, es
decir, es un error standard. Un desvío standard de las medias, no un
desvío standard de los datos.
Como siempre, el exponente N del binomio (p + q)N indica el núme­
ro o cantidad de objetos que se juegan en las series primitivas, y N + I es
el número o cantidad de resultados diferentes, así como el de términos
distintos de la serie final.
En el ejemplo dado, el exponente I indica que se jugó una moneda
por vez, y N + 1 que se obtuvieron 2 resultados distintos.

Ejemplo 2
Si, en vez de ser una, las monedas fueran 2, los resultados (relati­
vos a salir cara) 2, 1.0. pueden valorarse 100%. 50%, 0%y y la frecuen-
Resultado Monomio Probabilidad
100% (o sea 2) 1 (0,S0)s (0.50)° = (0.50)J = 0,25 = 25%
50% (o sea I) ~ (0.50)1(0.S0)1 = 2 (0.50) (0,50) = 0,50 = 50%
0% (o sea 0) 1 (0.50)° (0,50)’ = (0,50)’ = 0,25 = 25%

100% (25), 50% (50), 0% (25)

100 (%) 25 2500 10000 250000


50 (%) 50 2500 2500 125000
0 (%) 25
D 5000

- = 50%

375000-50 X S000 = . [ 375000 - 250000


100 V100
125000
- = y/ 12S0 = 3S%
ESTADISTICA MEDICA

Si, en vez de ser 2 las monedas arrojadas al mismo tiempo, fuesen 3.


los resultados, como sabemos, podrían ser 2 caras, I cara o 0 cara.
Si el resultado máximo 3 caras le adjudicamos el valor 100%, al "2
caras" tendríamos que adjudicarle el 66,66%, al “I cara" el 33,33%, y al

(0,50 + 0.S0)3

Monomios Probabilidad
100 (%) (o I (0,50)3 (0,50)° = (0,50)3 — 0,125= 12,5%

66,66 (%) (o Y(0,50)s (0,50)' = 3 (0,50)3 = 0,375 = 37,5%

3x 2
33,33 (%) (o —(0,50)' (0.50)3 = 3 (0,50)3 = 0,375 = 37,S%
1(0,50)° (0.50)3 = (0,50)3 = 0,125 = 12,5%

Es decir que la Serie es:


100%(125), 66,66% (375), 33,33% (375), 0% (125)

Los parámetr i media y desvío standard (error standard) pueden calcular-


>r los métodos habituales de acuerdo con la siguiente planilla:

1250000,00
1663312,5
PARAMETROS MEDIA Y DESVIO STANDARD

Probabilidad de un resultado
Cuando una mueslra, o una serie estadística, presenta una distribución
de frecuencias de carácter binomial, la solución del problema de la proba­
bilidad y el de la significación de un resultado puede verse extraordinaria­
mente simplificada.

Ejemplo
Problema. ¿Cuál es la probabilidad de que un matrimonio tenga por
resultado 7 hijos seguidos todos ellos varones?
Respuesta. Aceptando que la probabilidad de que un matrimonio
tenga un hijo varón es igual a la de tener una hija mujer, la probabilidad
de "tener un varón" es igual a -y y la de "no tener un varón” es también
igual a -J-. Por lo tanto, las probabilidades de tener I. 2, 3 „., 7 hijos
varones, en otros tantos partos seguidos, están dadas por los valores de los
monomios correspondientes al desarrollo del binomio elevado

I8S
ESTADISTICA MEDICA

En este desarrollo el monomio correspondiente al resultado máximo,


el correspondiente al exponente del binomio, es decir a 7, es decir el 1er.
monomio, tiene como coeficiente la unidad, R1 <NN¿ R^f =» = 1, al
que sigue el 1er. término del binomio elevado al resultado, es decir a 7, al
que sigue como 2° factor el 2° término del binomio elevado al exponente
menos el resultado (7 —7 = 0), es decir a cero. Por lo tanto, ese mono-

•(i)’(i)‘-(y)’- y -á r
Por consiguiente, la probabilidad de tener un séptimo hijo varón en 7
nacimientos seguidos es de 1/128. Es decir, que de 128 matrimonios que
tengan 7 nacimientos, uno, como promedio estadístico, tendrá los 7 naci­
mientos varones.

Significación de un resultado
El concepto "significación de un resultado" vamos a aclararlo median­
te ejemplos.

Ejemplo 1
Problema. Si de 9 enfermos de reumatismo cardíaco, 5 son hombres y
4 mujeres, ¿indica ese resultado una preferencia por los hombres, en el
reumatismo cardíaco?
Respuesta. Si no hay pieferencia sexual alguna, al producirse un caso
de reumatismo cardíaco, éste podrá ser tanto de un varón como de una
mujer. Aceptar esto equivale a aceptar que en casos de enfermedad la pro­
babilidad de que el enfermo sea varón es de y y la de no ser varón,
también de .
Al producirse 9 reumatismos cardiacos, los enfermos podrían ser
todos hombres, por mera casualidad, como al arrojar 9 veces una moneda
las 9 veces puede salir cara, también por mera casualidad, y lo mismo
decimos si en vez del resultado 9 tuviésemos el 8, el 7, el 6, etcétera.
Todos estos resultados pueden darse por obra de la casualidad, sin que
haya una predisposición especial, por los hombres en el caso del reumatis­
mo cardíaco, o por las caras en el de arrojar la moneda. Si bien todos
estos resultados son posibles, sus probabilidades son distintas, y estas
probabilidades coinciden con los valores de los monomios resultantes del
desarrollo del polinomio elevado:
PARAMETRO:- MEDIA Y DESVIO STANDARD

En eslc caso, la probabilidad de que en 9 casos de reumatismo cardía­


co S sean hombres, lo mismo que la de que al tirar 9 veces una moneda
salgan S caras, es igual al valor del monomio correspondiente al resultado
5.
El valor de este monomio, como el de cualquier otro, en una distribu­
ción binomial de frecuencias, es, según vimos (véase página 174), igual a:

( r) (l)

(1) es igual a:

(’ ) X 0,5’ X X 0,5* (2)

Recurriendo a la tabla de coeficientes binomiales, vemos que:

( ;) -.»

Por otra parte:


logO.S’ = 9 X logO,5 = 9 X (0,699 - 1) = 3,291 .

Luego, en una tabla de antilogaritmos (por ejemplo Geigy. 6a ed.,


pág. 11) o en la tabla de logaritmos veríamos que:

antilog. de 7,291 = 0.001954


Por lo tanto:

5
( ) X^ = 126 X ° '001954 = ° ’246

Este es el valor del monomio correspondiente al resultado S en la dis­


tribución binomial que responde al desarrollo del binomio elevado
ESTADISTICA MEDICA

(0,5 - 0,5)’

Si no dispusiésemos de una tabla de valores absolutos de coeficientes


binomialcs, pero si de una tabla de valores logarítmicos de coeficientes
binomiales (por ejemplo Geigy, 6a. ed., págs. 70 y subsiguientes), vería­
mos que:

log ( 5 ) “ 2.10037

Luego, en una tabla de antilogaritmos veríamos

antilog de 2,10037 = 126

Este valor multiplicado por 0,59 nos daría también el valor del mono­
mio de referencia: 0,246.

H
\ r )- N!—
R! ( N - R)!

Recurriendo ahora a una tabla de factoriales (ver Apéndice Tabla 8),

9! _ 3,6288 X 10s
5! X 4! 1,2 X 103 X 2,4 X 10‘

Y también en esta forma podríamos hallar el valor del monomio co­


rrespondiente al resultado buscado, esto es:

0,246 = 24,6%

Es decir que en 100 muestras de 9 casos cada una de reumatismo


cardiaco, en 24,6 podemos obtener el resultado 5 hombres. Como esta
probabilidad del 24,6% es muy superior al S%, debemos aceptar que dicho
resultado es mera obra del azar en un universo en el cual no hay predispo­
sición alguna por el sexo. Esta es la significación de este resultado.

188
PARAMETROS MEDIA Y DESVIOSTANDARD

Si los casos de reumatismo, en vez de ser los del problema anterior,


hubiesen sido 123 en total, de los que 67 eran hombres y 56 mujeres, la
probabilidad del resultado 67 sería igual al valor del monomio:

Como este coeficiente binomial, por demasiado elevado, no se encuen­


tra en las tablas comunes de coeficientes binomialcs, debemos darle la
forma factorial, y entonces:

(» )* x m “

|og 67l,2-^ - X0,5' ;3 =log 123! + 123 log 0,5+ log 1/67! +log 1/56!

log 123! = 0,08444 + 205


123 log 0,5 = 123 X (0,699 - 1) = 85,97700 - 123 = 0,97700 - 38
log 1/67! = 0,43805 - 95
log 1/56! = 0,14813 - 75

123! X 0,Sia
= 1,64762 -
°8 67! X 56!
1,64762 - 3 = 0,64762 - 2 = 2,64762
antilog de 2,64762 = 0,044

Este valor (0,044) es la frecuencia teórica o probabilidad de que ex­


yendo muestras con un efectivo de 123 observaciones de un universo
1-8

reumáticos en el que el reumatismo afecta por igual a hombres y muje-


, obtengamos una muestra en la que los reumáticos varones suman 67 y
Í
Í
ESTADISTICA MEDICA

Como se trata de una muestra con un número relativamente numero­


so de clases (124), es lógico que la frecuencia relativa de cada una de las
clases sea pequeña, incluso la de la dase que incluye los valores inmedia­
tos a la media (61 ,5), es decir los resultados 61 y 62. En efecto:
P6, = PM = 0,072

Este resultado no nos dice, por lo tanto, nada respecto de si este


mayor número de varones que de mujeres indica una predisposición del
reumatismo por los hombres. Esta es la probabilidad de aparición de este
resultado, pero esa probabilidad no indica por si sola la significación del
resultado, salvo que ella sea superior al S%, como en el caso anterior. Para
resolver esta cuestión tendremos que ver la significación del desvío de
dicho resultado.
Significación del desvio de un resultado
Es decir tendremos que ver si la diferencia del resultado observado a
la media de un universo sin predisposición alguna, o sea de uno en el cual
la predisposición sea la misma para hombres que para mujeres, es significa­
tiva o no de que nuestra muestra pertenece a un universo distinto, en el
que hay predisposición masculina. Es decir, tendremos que ver si el desvío
reducido de nuestra obsemación es o no superior a 2. Si es superior, la
diferencia es significativa; si es inferior, no lo es.

D.R.

si se tratase de una muestra simplemente normal para conocer el desvío


standard, tendríamos que conocer el valor de todos los resultados (x en la
fórmula). Estos resultados suman N + 1 = 123 + 1 = 124. Esta tarea es
realizable, pero laboriosa. Pero, como se trata de una muestra cuya distri­
bución es binomial, el cálculo de estos parámetros es sumamente fácil.
En efecto:

190
PAI' \MI I KOS MEDIA Y DESVIOSTANDARD

S, = =\ j 61.5 = V I 075 = 5.5

167-61.51 5,5
D' - S3 — ■ 3T - 1 '

Siendo el D.R. inferior a 2. la diferencia no es significativa.

Otro ejemplo
Problema n° 3 (Bancroft. p. 130)
En un total de 1523 muertes por una determinada enfermedad, 774
correspondieron a varones y 749 a mujeres; es decir, murieron 25 varones
más que mujeres.
Se pregunta: ¿Indica esa superioridad de muertes masculinas una pre­
disposición especial en los hombres hacia la enfermedad en cuestión?
Razonamiento y solución. En un universo sin predisposición alguna, la
mitad de las muertes serían de varones (y la otra mitad de mujeres). Si
esto se repitiese fielmente en una muestra de 1523 muertes, 761,5 ten­
drían que ser masculinas y otras tantas femeninas.
Pero, por otro lado, en una muestra de muertes sin ninguna predispo­
sición especial por los individuos de un sexo determinado, por pura
casualidad, la totalidad podría estar formada exclusivamente por hombres;
es decir que por simple obra del azar, sería perfectamente posible encon­
trar una muestra de 1523 muertes en la que todos fueran hombres, como
seria igualmente posible encontrar otra de igual cantidad de muertes en
las que los hombres sumaran 1522 y las mujeres 1, en otra con 1521
hombres y 2 mujeres, etcétera. La posibilidad existe siempre. Lo que
ocurre es que la probabilidad de que asi acontezca es muy remota; debe­
mos precisar entonces cuál es la probabilidad de que ocurra de ese modo,
y por supuesto que la probabilidad será mucho menor para muestras
como las que acabamos de señalar, que para otras en las que las cantida­
des de hombres y mujeres fallecidos sean aproximadamente las mismas.
Para resolver cuál es la probabilidad de hallar 774 varones muertos en
una muestra de 1523 defunciones, sin que haya ninguna predisposición
especial de la enfermedad por matar varones, es decir aceptando que la
probabilidad individual en caso de muerte sea la misma para hombres que
para mujeres (como la probabilidad individual de caer cara, arrojando una

191
PARAMETROS MEDIA Y DESVIO STANDARD

La diferencia x - m = 774 - 761.5 = 12.5 . . x - m < 2 Sx


D.R. - (x - m)/S,)= (774.0 - 761.5)/ 19.5 = 12.5 / 19.5 = 0.6.
Como la diferencia entre el valor observado (774) y el valor medio
(761,5) no alcanza a valer 2 S* (ni siquiera I Sx) o. más exactamente,
como el desvío relativo (D.R.) en este caso es igual a 0,6. podemos decir
que dicha diferencia no es significativa; es decir que el resultado descu­
bierto en nuestra muestra no implica una mortalidad masculina preferente
en la enfermedad de que se trata. „

Limitación del método del D.R. aplicado a las series binomiales


En los casos en que el producto "p N" o el "q N" es menor de 10. y
sobre todo menor de S. como fueron los ejemplos de los matrimonios con
7 hijos varones y el de los 9 enfermos con reumatismo cardíaco. h3y que
seguir el método de los monomios para conocer la probabilidad de una
frecuencia, pues el de los desvíos relativos difiere bastante de los valores
reales, debido a que, en estos casos, el área del histograma dífieie mucho
del área subtendida a la curva normal.
De ahí una limitación del método que dice: "Para conocer la signifi­
cación de un resultado binomial, la probabilidad calculada a partir del
binomio puede sustituirse, con una aproximación suficiente, por el D.R..
es decir por el área subtendida a la curva normal, mientras los productos
“P N" y “q N" valgan cada uno por lo menos 5. y preferiblemente 10",
pero "cuando el producto "p N" o el “q N" valga 10 o menos y sobre
todo 5 o menos, debe seguirse el método de los monomios".
Veamos un ejemplo en el que p N y q N valen menos de 5 y en el
cual comprobaremos la diferencia de resultados siguiendo uno y otro

Problema A'1’4
Si de un total de 5 muertes por una determinada enfermedad, cuatro
corresponden a varones, ¿constituye ello para dicha enfermedad una mor­
talidad masculina significativa, mucho mayor que la femenina?
Razonamiento: En una muestra de 5 muertes, en la que la probabili­
dad individua] de muertes sea la misma para varones que para mujeres, es
decir del -y, pueden darse todas las posibilidades, esto es, que las 5 muer­
tes correspondan a varones, o que corresponda 4, 3, 2. I, o ninguna; pero
la probabilidad de que asi ocurra es diferente.
La probabilidad de cada uno de esos 6 resultados está dada por el
valor del monomio correspondiente en el desarrollo del binomio elevado
ESTADISTICA MEDICA

(WJ
Estos, colocados en la planilla conocida, se

La serie es, pues


5(1). 4(5), 3(10), 2(10), 1(5), 0(1)

y la frecuencia del resultado 4 varones es .


Esta frecuencia expresada en porcentaje, o sea en una serie ya no de 32
términos, sino de 100,es 15,62S%.
La frecuencia del resultado 5 muertos varones es 3,125%.
La suma de las frecuencias del resultado 4 más la delresultado 5(la
de hallar 4 varones (5/32) más la de hallar 5 varones (1/32)esigual a
(6/32)= 18.75%.
Si en el 18,75% de los casos de muertos podríamos hallar 4 ó más
varones ello significaría que hallar cuatro puede ser obra simplemente de

194
■'ARAMETROSMEDIA Y DESVIOSTANDARD

esle procedimiento de cálculo.


La solución podríamos haberla obtenido por otro procedimiento pre­
guntando: ¿Es la diferencia entre el valor observado y la media igual o
superior a dos desvíos tipos? Mejor dicho, ¿igual o superior a 2,78? ya

del 5% para una muestra de n = 5 (» = 4), por ejemplo en nuestro extrac­


to de tabla, página 114).
La respuesta nos la da el desvío relativo (D.R.)

Siendo el D.R. (1,34) menor de 2,78 la diferencia no es significativa.


Pero ¿cuál es la probabilidad de hallar una diferencia igual o mayor?
La probabilidad nos está dada también por este desvío relativo.

D.R. = t4 = 1,34

En efecto, consultando la tabla 2 del Apéndice, página 300 vemos que a


t4 = 1,34 corresponde un 2 P entre 0,20 y 0,30.
Lo cual signiiiearia que aproximadamente en el 25% de los casos
hallaríamos una diferencia igual o mayor por simple casualidad.

Conclusión
Los resultados 4 ó 5 es 18,75%, haciendo el cálculo de las probabili­
dades individuales de cada uno de estos resultados y es en cambio del
25% haciendo el cálculo de la probabilidad del desvío reducido. Es decir,
195
ESTADISTICA MEDICA

comprobamos diferencias en los resultados según sigamos uno u otro


método, como queríamos demostrar.

Cálculo de la población o efectivo necesario


Una aplicación de las series con distribución de frecuencias de carác­
ter binomial con resultados o términos que se expresan en porcentaje, es
calcular el tamaño que necesita tener una muestra o serie estadística para
que en ella se obtengan parámetros de determinados valores, por ejemplo
para que su media se encuentre dentro de determinados límites.
Recordemos que en muestras de la misma población, obtenidas del
mismo universo, la media oscila, dentro de los límites dados por el desvío
medio normal de la media, o sea del desvío standard de la media, o sea
del error standard (todos éstos son sinónimos).
Recordemos también que este desvío medio de la media es directa­
mente proporcional al desvío medio normal de los datos (o sea del desvío
medio standard) e inversamente proporcional a la raía cuadrada de la
población. Es decir:

Quiere ello decir que el Sm es tanto mayor, es decir que los límites
dentro de los cuales oscila la media de las distintas muestras estarán más
alejadas, cuanto mayor sea el desvío medio standard de los datos; o cuanto
menor sea la población de la muestra: y será tanto menor, es decir los
limites estarán tanto más próximos o más cerca, cuanto menor sea el Sx o
cuanto mayor sea la población de la muestra.
Frecuentemente se plantea el problema de saber qué población debe
tener la muestra para que los límites de oscilación de la media se encuen­
tren a determinada distancia, es decir para que el S„ no sea superior a
una determinada cantidad o magnitud.
Decimos que tratándose de series que presenten una distribución bino­
mial de sus frecuencias, y que sus términos se expresen en porcentaje del
resultado o término máximo, este problema se soluciona muy fácilmente.
Veámoslo mediante un ejemplo:
Problema: En un medio ambiente en el que la diabetes afecta al 4%
de la población, ¿cuál ha de ser la población de la muestra para que las
medias que se obtengan no sean menores de 3 ni mayores de S%?

196
(0.04 + 0,96)5*4

s ,( -s .),y S A •
Es decir que en estos casos las muestras tendrían que tener una pobla­
ción de 3.456 observaciones.

muestras hay 27 muestras que quedan fuera de estos Iimites, por lo cual

estos limites 3 y 5%. *


Si quisiéramos que dentro de esos limites estuviera prácticamente el
100% de las muestras, tendríamos que hacer 4 S„ = 1%.
Entonces:
p = 4% 4 Sm = I

Como un D.R. de 3,9 tiene una P de 1 “/ooo, la probabilidad de un


D.R. de 4 es todavía menor. Por lo tanto, en muestras de 6.144 personas
la media oscilará entre 3 y 5%en la totalidad de las muestras.
CAPITULO XVI

INTERVALO DE CONFIANZA DE LA MEDIA Y SIGNIFICACION DE


ESTADISTICA MEDICA

Esta es la razón por la cual el desvío standard (S*) de los datos de las
muestras binomiales expresadas en porcientos, es el error standard (Sm)
de la media.
Al hacer el cálculo de los limites del i. de c. de la m. debe expresarse
la media en porcentaje de! valor máximo independientemente de que los
datos de la muestra se expresen en valores absolutos, fraccionados o por­
centuales.
Cuando se trata de una muestra binomial con una población grande,
superior a den, y "p” se halla entre uno y nueve décimos, su distribudón
de frecuencias puede asimilarse a una distribución normal y en consecuen-
da los lJ.c. de la m. se encuentran a 2 Sm (2SX) a derecha y a izquierda
de la media.
Ejemplo: Sobre un total de 1.923 nadmientos, 988 lo fueron de va­
rones. La media es, por lo tanto, del 51%, se pregunta ¿dentro de qué
límites variará la media en el 95% de muestras similares a la nuestra?
Solución:

Respuesta
Como la media variará dentro de los dos errores standards alrededor
de nuestra media,

L. del i. de c. de la m. = m ± 2 Sm = 51 * 2,2 = 48,8% a 53,2% .

Respuesta
En el 95% de las muestras similares a la nuestra la media variará entre
el 48,8 y el 53.2%. A su vez, la media del universo ha de hallarse también
entre esos límites con una probabilidad del 95%.
Los límites del intervalo de confianza para ciertas “N" comprendidas
entre 10 y 100, o entre 2 y 1.000, pueden hallarse directamente sin
cálculo alguno, en las tablas correspondientes; por ejemplo, en Lamotte,
M., Estadistic Biológica, Trad. esp., ed. Toray-Masson, págs. 78 y 79, o,
en forma más completa, en Geigy Tablas Científicas, 6a. ed„ págs. 85 a
103. Ver Apéndice, Tabla 4.

202
INTERVALO DE CONFIANZA DE LA MEDIA

SIGNIFICACION DE LA DIFERENCIA ENTRE DOS MEDIAS BINO-


MIALES CUANDO SON GRANDES LA POBLACION DE LA MUESTRA
Y LA FRECUENCIA DE LA MEDIA
Cuando dos muestras binomiales tienen un efectivo elevado, superior
a den, o por lo menos si la suma de ambos efectivos es superior a esa
cifra y si la media, expresada en valores relativos, o sea "en porcentaje del
valor máximo, es dedr “p", es superior al 10% (e inferior al 90%) y en
valores absolutos, o sea "pN", es superior a 5", la significación de la dife­
rencia entre las medias está dada por el error relativo de la diferencia
entre las medias.
Como vimos al exponer la significadón de la diferencia entre dos
medias pertenedentes a muestras normales numerosas (cap. X), se llama
error relativo de la diferencia entre dos medias al codente de dicha dife-
renda, expresada en valores absolutos, divididos por el error standard de
la diferenda, o sea por la raíz cuadrada de la suma de los cuadrados de
los erroresstandards de las medias, es decir,
ER = Inti - tthl
■ ■(">, - « si V SJ,, + SJ,,

Aquí, tratándose de muestras binomiales, y por lo tanto de muestras


de muestras, los valores absolutos de las medias son en realidad valores
relativos, generalmente porcentuales del valor máximo, de modo que
aunque, al hacer el cálculo del error relativo de la diferencia, se tomen
esos valores relativos como absolutos, no debe olvidarse que se trata de
valores relativos, generalmente porcentuales, por lo cual es preferible dar­
les la forma de centesimales. Esta manera de proceder, además, facilita los
cálculos, al permitir prescindir de los decimales muy alejados de la unidad,
como son los centésimos de milésimos o los millonésimos, sin afectar
excesivamente el resultado. Pero esta manera de proceder no es imprescin-
Por la razón antedicha, por tratarse de valoresporcentuales, ioserro­
res standards de las medias (S„ = S*)son igualesa la raízcuadrada del
cociente del producto de ambos términos del binomio elevado dividido
por el exponente. Es decir:
Por esto, los cuadrados de los errores standards de las medias son
directamente el cociente de producto de ambos términos del binomio divi­
dido por el exponente. Es decir,

* - ( # ) ' - V
Notemos que eliminamos la radicación de este cociente, pero no la
del denominador del E.R. de la diferencia, que persiste.
Por lo tanto, el error relativo de la diferencia entre las medias es igual

Si bien puede hacerse el cálculo del E.R. de la diferencia sobre la base


de esta expresión en la que tanto m = p como q se tomen como valores
de cada muestra por separado, es preferible que tanto “p” como “q" no
sean de cada muestra por separado, sino de ambas muestras en conjunto.
Esto nos permite no sólo simplificar los cálculos, sino comprender el
fundamento del método que se basa en que partimos de la hipótesis de
que ambas muestras pertenecen al mismo universo, por lo cual la diferen­
cia entre ambas medias tendría que ser cero. (Esto es lo que se indica
cuando se dice que se adopta la hipótesis “cero”.) Como la diferencia
entre nuestras medias no es cero, se trata de saber cuál es la probabilidad
de obtener, extrayendo muestras del tamaño de las nuestras de un univer­
so único, dos muestras cuyas diferencias entre sus medias sean las halladas
por nosotros. Si esa probabilidad es superior al 5%, debemos concluir que
la tal diferencia entre nuestras medias no es significativa. En cambio, lo
será si la probabilidad es menor del 5%.
No conocemos los valores de P y de Q en ese univeiso único, pero
aceptamos como la mejor estimación de ese universo el conjunto de nues­
tras dos muestras tomadas juntas, y entonces el valor de P es el cociente
de dividir la suma de ambas medias (en valores absolutos) por la suma de
ambos efectivos. Asi:

_ Pi N, + Pa Na
N, + N,
Subsecuentemente Q = I - P
204
INTERVALO DE CONFIANZA DE LA MEDIA

Entonces el error relativo de la diferencia entre dos inedias binomiales

1.
D
* -(mi - m ,)
_
j
lmi mil
-------- ---
* PQ , PQ

(Recordemos que lmL—m3| significa diferencia absoluta.)


Si este ER. (m, - m,) « superior a 2. la diferencia entre las medias es
significativa. Si es inferior, no lo es.
Si queremos una mayor precisión en la respuesta, se toma el
E.R.(m, _ mj) como “c" y en una tabla de sumas de frecuencias relativas
fuera de menos “c” y de más “c”, o sea desde menos infinito hasta
menos “c" y desde más "c” hasta más infinito, se ve la magnitud del
riesgo o porcentaje de error (véanse tablas Geigy, 6a. ed., pág. 30, izq.)

Ejemplo (tomado de JAMA, 1949,141,635)


Entre 4.793 primigestas se comprobaron 295 gestosis, y entre 3.142
multigestas, solo 61. Se pregunta, ¿hay una diferencia significativa de ges­
tosis entre primigestas y multigestas?
La media (y también “p")en valores relativos, en las primeras es:

m, ( = P ,) = ^ = 0,062 = 6.2%

y en las segundas

ma( = Pa) = 3 ^ - = 0,019 = 1.9%.

La diferencia entre estas medias es, por lo tanto,

m, - m3 = 0.062 - 0,019 = 0,043 = 43% ,

205
ESTADISTICA MEDICA

Por consiguiente.
0 i P = I - 0.04S = 0.95S = 95,5%
Entonces:

Siendo el E.R. de la diferencia entre ambas medias muy superior a 2,


dicha diferencia es altamente significativa
A veces los resultados se dan ya en porcentajes, lo cual facilita los
cálculos al evitar el uso excesivo de decimales, pero debe tenerse en
ta forma de expresarse al hacer el cálculo de P.

Con una medicación se ha obtenido un 75% de c


1.010 pacientes y con otra el 85% sobre 2.015. Se pregunta si hay u:
diferencia significativa entre ambos resultados.
Cálculo:
p, N, = 0,75 X 1010 = 757,50
Ps N2 = 0,85 X 2015 = 1712,75
p= _ 7S7.50 + 1712,75 _ _
N ,+ N j " 1010 + 2015 1
1 - 0.816 =

V 1010 2015
Siendo el E.R. de la diferencia entre las medias muy superior a 2,
dicha diferencia es altamente significativa.
Con un ligero error en el resultado, error que no siempre afecta
mayormente a la respuesta . pueden lomarse “p" y
cada muestra. Entonces
206
INTERVALO DE CONFIANZA DE LA MEDIA

-------------------- - - o
^ Pi qi , Pi q» a 7S X 25 + 85 X 15
\ N, N, V 1010 2015
Veamos un ultimo ejemplo
Entre 50 varones encontramos un 4% de resfriados y entre 50 mujeres
un 14%; se pregunta: ¿hay una diferencia significativa entre varones y
mujeres a este respecto? Tengamos cuidado con P y 0.

I 9 X 91 , 9 X 91

Siendo el E.R. de la diferencia inferior a 2, dicha diferencia no es


significativa. Si deseamos una mayor precisión en la respuesta, tomamos el
E.R.(m _ m > como V . y en una tabla de probabilidades por fuera de
“menos' c” y de "más c" (Tabla I del Apéndice), veremos que

a "c” = 1,7 corresponde una probabilidad de 0,09 = 9%.

Es decir que de un universo en que no haya preferencia por varones


ni mujeres pueden sacarse dos muestras como la nuestra con una probabi­
lidad del 9%. Siendo esta probabilidad superior al 5%, se confirma que la
diferencia no es significativa.

Cuando la muestra binomial tiene un efectivo pequeño (inferior a


cien) o “p" tiene un valor igualmente pequeño, inferior al 10% (o supe­
rior al 90%), la distribución de sus frecuencias difiere manifiestamente de
la distribución de frecuencias de la muestra normal y, por lo tanto, ya no
puede ser asimilado a ella.

207
ESTADISTICAMEDICA

En estos casos, los límites del intervalo de confianza de la media


(l.i.c. de la m.) no pueden obtenerse directamente en base al error
standard de la media multiplicada por 2, o por un coeficiente “t" obteni­
do de una tabla de Gosset "Student", como se hace cuando se trata de
muestras normales.
Ahora los l.i.c. de la m. hay que determinarlos por tanteos, por
aproximaciones sucesivas, lo que puede resultar muy trabajoso, razón por
la cual es preferible recurrir a tablas especiales de limites del intervalo de
confianza de la media de muestras binomiales de pequeño efectivo o de
“p" próxima a "0” ó a "lOO”, en las que estos cálculos están ya rea-

Hay varios tipos de tablas de esta clase.


Algunas dan en valores decimales los 1. del i. de c. de la m. para cada
efectivo (n) de la muestra y para cada valor de la media o resultado (r = p
N o q N); por ejemplo. Tablas 4 y 5 del Apéndice. Otras dan en
porciento el valor de los limites, también para cada efectivo (N) de la
muestra y para cada valor (x) de la media; por ejemplo, Geigy, op. cit.,
6a. ed,, págs. 85 a 103.
En caso de que la tabla no dé los límites para efectivos iguales a las
muestras, sino los próximos (menor uno y mayor otro) debemos calcular
los valores límites de nuestra media por interpolación de los tamaños de
las muestras.
Ejemplo
En un grupo de 64 mujeres jovenes se encontró que 16 tenían sus
menstruaciones dolorosas. Entonces, si bien puede afirmarse que en esa
muestra la media de las pacientes con dismenorrea es igual a 0,25 = 25%
T 16
m = — = — = 0,25 = 25%,

o sea que el 25% de las pacientes de dicha muestra presenta dismenorrea


dolorosa, no podemos afirmar que en toda otra muestra la media haya de
ser siempre la misma; pero podemos averiguar dentro de qué limites estará
la media del 95% de las muestras.
Para ello recurrimos a una tabla de límites de confianza de la distri­
bución binomial, por ejemplo Geigy, op. cit., pág. 90, y ahí vemos que
para N = 64, a x = 16 corresponde una media del 25%, con limites entre
15,02 y 37, 40%.
Si no dispusiésemos de dicha tabla, recurriríamos a la tabla 4 del

208
muestras formadas por 64 observaciones, como es la nuestra, pero si para
muestras de 60 y de 70 observaciones; en este caso, decimos, tenemos que
hallar los límites, por interpolación de los tamaños de las muestras.
Recordemos que el tamaño (T) de una muestra es igual al producto
de la media (m) multiplicada por la población (n). Es decir

T = 16
En la tabla vemos que para r= 16 los límites inferiores son 0,161
para n = 60 y 0,137 para n = 70. Estos son los valores inferiores de las

T inf 1 = 0,161 X 60 = 9,66 y


T inf 2 = 0,137 X 70 = 9,59.
La diferencia entre estos tamaños es

9,66 - 9,59 = 0,07.

Siendo mayor T inf. I, que corresponde a n = 60. que T inf. 2, que


Como entre ambas n hay una diferencia de 10 y entre la n de nuestra
cular una T intermedia entre T inf. 1 y T inf. 2 que está a =0,4 de

T = 9,66 - 0,4 X 0,07 = 9,632.

Este es el valor del límite inferior del intervalo de confianza obtenido


por interpolación. Como vemos, es exactamente igual al hallado en la
tabla.

209
ESTADISTICA MEDICA

Para el límite superior procedamos en la misma forma. En la labia


vemos que para "r" = 16, los limites superiores son 0,397 para n =60 y
0,344 para n = 70. Estos son los valores superiores de las medias de
muestras cuyos tamaños son, respectivamente,

T sup 1 = 0,397 X 60 = 23,82 y


T sup 2 = 0,344 X 70 = 24,08

La diferencia entre estos tamaños es


24,08 - 23,82 = 0,26,

siendo mayor T sup 2, que coresponde a n = 70, que T sup I, que corres-

Como entre ambas n hay una diferencia de 10 y entre nuestra n (64)


y n = 60 una diferencia de 4, al interpolar vamos, también aquí, a calcu­
lar una T intermedia que esté a 0,4 de la diferencia (0,26) por encima de
la primera. Por lo tanto, esa T intermedia será
T = 23,82 + 0,4 X 0,26 = 23,924.

La media correspondiente a esa T es

m = X = 23^ 21 = 0,3738 = 37,38%.

Este es el valor del limite superior del intervalo de confianza por


interpolación. Como vemos, es prácticamente igual al hallado en la tabla.

Significación de la diferencia entre dos medias binomiales citando son


pequeñas tas poblaciones de las muestras o las frecuencias de las medias
En caso de muestras binomiales cuyos efectivos sumados no alcancen
a cien, o en que “p" 0 "9" 563 inferior al 10%, o en que “pN" sea infe­
rior a 5, las muestras no pueden asimilarse a una muestra normal, y por lo
tanto la significación de la diferencia entre sus medias no puede apreciarse
por el método empleado para las muestras con efectivos y medias nume-

En estos casos hay que calcular cuál es la probabilidad de extraer de


un mismo universo binomial un par de muestras (o varios pares de
210
INTERVALO DE CONFIANZA DE LA MEDIA

muestras) con efectivos iguales a nuestras muestras, es decir a Ni y a N2


y en las cuales las diferencias entre las frecuencias de los resultados (o
medias) sean iguales o mayores a la observada en nuestras muestras.
Extraer dos muestras simultáneas (una con un efectivo Ni y otra con
uno N2; una con un resultado Xi y otra con uno X2) equivale a extraer
una muestra única con un efectivo igual a la suma de ambos efectivos, es
decir, a Nj 4*N2 y con un resultado igual a la suma de ambos resultados,
es decir, igual a X| + X2.
Extraer las dos muestras simultáneas del universo equivale a extraerlas
de esta muestra única, pero esas muestras, si bien podrán tener, una un efec­
tivo Ni, y la otra, uno N2, no tendrán forzosamente como resultados, una,
Xi, y la otra, X2, sino una, Ai y la otra, A2, si bien la suma de estos dos
resultados (Ai + A2) será igual a la suma de los resultados observados por

(X, + X2).

Por lo tanto, calcular la probabilidad de extraer de un universo


binomial un par (o varios pares) de muestras con efectivos iguales a los de
nuestras muestras, y cuyas diferencias de frecuencias de los resultados (o
medias) sean iguales o mayores a la observada por nosotros, equivale a
calcular la probabilidad, frecuencia, o suma de frecuencias, de extraer un
par (o varios pares) de muestras que llenen las siguientes condiciones:
1° Que sus efectivos N| y N2 sean los mismos que los -de nuestras

2° Que la suma de los resultados Ai + A2 sea igual a la de los resul­


tados X] + X2 de nuestras muestras.
3“ Que la diferencia de las frecuencias de los resultados o medias
sea igual o superior a la de las frecuencias de los resultados
observados por nosotros ^-> - -^a .
Dado que la probabilidad de extraer de un universo binomial donde la
frecuencia de un carácter es "p”, una muestra de efectivo N y un resul­
tado X, es igual al valor del monomio correspondiente al resultado X, es

f (x) = C? p‘ qN - \

la probabilidad de extraer dos muestras simultáneamente, una con un


efectivo Ni y la otra con un efectivo N2. la primera con un resultado Xi
y la segunda con un resultado X2, es igual al producto de ambas probabi­
lidades, es decir:

211
ESTADISTICA MEDICA

f(X,,X,) = cg¡ px ' qN‘ - x ' X Cgj Rx > q”* - x»

y la probabilidad de extraer dos muestras, una con una frecuencia del


resultado (o media) y la otra con una frecuencia del resultado (o
media)-jji , deuna muestracon un efectivo N, + N2 y unresultado
Xi + Xa es igual al cocientede la probabilidad anterior dividido por la
probabilidad de extraer esta muestra, es decir,

, X, X, C?. C?- p».»«. qtN .-«.)+tN,-»,> Cg¡ C?;


f Ñ 7’ “ Cn' ; ”. ’ p».**. q(N, + N ,)-tx, + x,) “ CJ. + N.

Esta es la probabilidad de extraer un par de muestras en estas con­


diciones.
Nosotros debemos conocer la probabilidad suma de todos los pares de
muestras que cumplan la condición tercera, es decir, que

Ai _ A3 . X! _ Xa
N, Na N, N, '

Si esta suma es'inferior al coeficiente de riesgo del 5%, la diferencia


es significativa.

Ejemplo
En una región, entre 125 individuos (N| = 12S) se han encontrado
bocios en 3 (X, =3), y en otra, entre 155 (N, = 155) no se ha encon-
trado ninguno (X3 = 0). ¿La diferencia hallada es significativa?
Estamos en presencia de muestras en las que cada observación signi­
ficó una alternativa o dilema: o se estaba en presencia de un bocio o no
se estaba. Se trata, por lo tanto, de muestras binomiales.
En esta muestra, si bien la suma de efectivo, y aun los efectivos de
cada muestra, supera a cien, "p” en una de ellas es igual a 77, =
= 0,024 = 2,4% y en la otra es igual a jf*- = 0 = 0%; es decir que en
ambas muestras (basta con una sola) “p” es menor del 10%. No podemos,
pues, asimilarlas a una muestra normal. Para calcular la significación de la
diferencia entre sus medias, debemos calcular la probabilidad de extraer
de un mismo universo uno o varios pares de muestras con los mismos

212
Anlilog. 2,94343 = 0,08778 = 8,8% = f — , — .

Es decir que este par de muestras puede obtenerse de un universo


único con una frecuencia del 8,8%. Siendo esta frecuencia superior al 5%,
la diferencia no es significativa.

Otro ejemplo
Con un determinado medicamento aplicado.a 16 pacientes se curaron
7 (Ni = 16; X| =7); con otro medicamento aplicado a 20 pacientes se
curó 1 (Na = 20; X2 = 1). La diferencia entre y ^ ¿es o no sig­
nificativa?
También aquí estamos ante un ejemplo en el cual cada observación
significó una alternativa: el paciente se curó o no. Se trata entonces tam­
bién de muestras binomiales. La suma de los efectivos (16 + 20 = 36) es
inferior a cien. Tampoco podemos, por consiguiente, asimilarlas a una
muestra normal. También aquí para valorar la significación de la dife­
rencia entre sus medias debemos calcular la probabilidad de obtener de un
universo único uno o varios pares de muestras cuyos efectivos sean los de
nuestras muestras, cuya suma de resultados sea igual a la suma de resul­
tados de nuestras muestras, y cuya diferencia entre sus medias (o frecuen­
cia de los resultados) sea igual o mayor que la diferencia de las medias

Dado que la probabilidad de que ocurra un hecho cuando él puede


ocurrir de varías maneras posibles, es igual a la suma de las probabilidades
de cada manera en particular, es necesario sumar las probabilidades de
todos los pares de muestras que llenen las condiciones dichas.
Aquí podemos tener tres pares de muestras, cada una con un efectivo
de 16 y 20 pacientes, respectivamente, cuya suma de resultados sea igual
a la suma de resultados de nuestras muestras y cuya diferencia entre sus
medias sea igual o superior a la encontrada entre las medias de nuestras
muestras. El primer par de muestras es el propio par hallado, en el que la
diferencia es
.ÍL _ *L _ Z L
N, Na 16 20 =

El segundo par podría ser uno cuya diferencia fuera


INTERVALO DE CONFIANZADE LAMEDIA

N, N, 16 20 '
Necesitamos conocer la suma de probabilidades de estos tres pares de
lucstras. Si esta suma es inferior al coeficiente de riesgo del 5%, la dife*
:ncia observada es significativa.
Para el 1er. par tenemos

f ( M ) ñ i
< (?) = ¿!

Para el 2o par tenemos

, „ c(f)c(f) ¿ j'A . . .
f 16 ' 20 r /36 \ J 6!_ 818! 36!
8! 28!
16! 28!

< (“ ) ' ¿ i
ESTADISTICA MEDICA

La suma de estas tres frecuencias (0,00756 + 0,00043 + 0,00416) es


igual a 0,01215 = 1,2%.
Siendo que en solo 1,2% de los casos podría obtenerse un par de
muestras en las condiciones indicadas, y siendo esta probabilidad inferior
al 5%, la diferencia encontrada en nuestras muestras es una diferencia
significativa.
Q u in ta p a r te

M U E S T R A S D E P O IS S O N
CAPITULO XVII
MUESTRAS DE POISSON

Tomemos una tabla de funciones exponenciales (por ejemplo Geigy.


6a. ed., pág. 16) para ver el valor e“ 1. Ahí veremos
e 1 = 0,367879 .

0,367879
0,061323 = 6%

Es decir que la frecuencia del resultado 3, si la media es del IVi, será


del 6%. Esto significa que, a pesar de que la media en la población en
general, es del 1%, en el 6% de las muestras que tengan una población o
efectivo de 100 podrá hallarse el resultado 3. Naturalmente, el problema
puede resolverse más fácilmente y sin cálculo alguno recurriendo a una
tabla de distribución de Poisson por ejemplo, Lamottc, Estadística Bioló­
gica, Ed., Toray, pág. 52 ver Apéndice, Tabla 6). Estas son tablas de doble
entrada, en las que la columna vertical corresponde a los distintos valores
de la media y las líneas horizontales a los distintos valores del resultado.
En nuestro caso habrá que leer el número que está en la intersección de la
columna 1 con la horizontal 3. Dicho número es 0,0613. Esta es la fre­
cuencia buscada. La misma que habíamos calculado.

Obtención de la media
Algo parecido ocurre con la media. Cuando en una distribución
binomial se desconoce el valor de "p”, no se puede hallar el valor de la
media, puesto que en una distribución binomial ésta es igual a “p” (si se
trata de porcentajes) o a “pN" (si se trata de valores absolutos). Pero si se
trata de frecuencias muy escasas en muestras muy numerosas, es decir si
se trata de una distribución de Poisson, el conocimiento de la frecuencia
de un resultado cualquiera, hasta de un resultado nulo, nos permite co­
nocer la media. Por ejemplo, trabajando con virus no se puede saber, por
los métodos comunes, la pululación media de ellos en los diversos cul­
tivos, por la razón de que no se los puede contar, pero como se puede
saber la frecuencia con que aparecen cultivos indemnes, es decir en que la
pululación es cero, podemos calcular el valor de la media aun cuando en
este caso el resultado es nulo, obteniéndolo de la ecuación

f(o )= ^
0!

221
ESTADISTICA MEDICA

en la que vemos que


e— « f(o) .
de donde se saca que
m _ - |ogf(°)

Supongamos que la frecuencia f(o) del resultado nulo, o sea de los


cultivos indemnes o no pululados, sea 0,3679, es decir,

f(o) = 0,3679 ,
entonces
-log 0,3679 - ( -1 + 0.S6S73)
m loge 0,43429
= » ~ 0.56S73 _ 0,43427 ^
0,43429 ~ 0,43429 * '

Es decir que el número medio (m) de virus por cultivo es muy apro­
ximadamente igual a I.
Naturalmente, el problema puede resolverse más fácilmente y sin
cálculo alguno recurriendo a las Tablas de distribución de Poisson. como
la recién vista, y buscando en la horizontal del resultado cero, es decir en
la primera línea de la tabla, un valor de frecuencia igual o próximo al
nuestro. Hallado éste, basta levantar la vista y leer a qué media corres­
ponde. Así encontraremos que en la primera columna se halla el valor
0,3679, el cual corresponde a la media uno: el mismo resultado obtenido
por el cálculo.
Como vimos que
e = f(o) .
también
f(o) = 0,3679 = e-1" .

Por lo cual, recurriendo a una tabla de funciones exponenciales como


la de Geigy, 6a. ed., pág. 16, y buscando a qué m (en la tabla, aquí x)
corresponde
e-m = 0.3679

222
MUESTRAS DE POISSON

(o el valor más próximo a 0,3679). encontraremos que

0,367879 = e-1
de donde concluimos que

es decir, el mismo resultado que el obtenido anteriormente.

En la distribución de Poisson la variancia tiene el mismo valor que la

Los limites del intervalo de confianza


Los límites del intervalo de confianza tanto del resultado como de la
media es posible fijarlos mediante el cálculo, pero éste debe hacerse por
aproximaciones sucesivas, lo cual suele resultar muy laborioso; por este
motivo es preferible recurrir a las tablas donde estos cálculos ya están
realizados. (Por ejemplo, Lamoue. op. di., pág 80. Ver Apéndice, Tabla 7.
También Geigy, op. cit., 6a. ed., pág. 107).

Ejemplo
¿Cuáles son los limites del intervalo de confianza del 95% del resul­
tado “x" o "r" = 33 en una muestra cuya población “n" = 12.000?

“x” o “r" = 33 “n” = 12.000

En las tablas dichas, en la horizontal correspondiente a ’T" (Lamotte)


o a "x” (Geigy) —33, encontramos dos cifras.
22,7 y 46,3 (Lamotte)
22,715 y 46,345 (Geigy).

Esto significa que, en valores absolutos, los limites del intervalo de


confianza de nuestro resultado son;

223
Lj .c j. = 22,715 y 46,345

de nuestra media son:

Significación de la diferencia entre dos medias

que "p" o V sea inferior a (M (= 10%); Cap. 16.

224
S exta P arte

Ji CUADRADO (X2) O METODO DE PEARSON


CAPITULO
ESTADISTICA MEDICA

Tendríamos así, en el papel, dos muestras de igual población y con


iguales clases, una real y otra teórica, cuyas frecuencias de clases serían
diferentes.
Ante esa diferencia, dada por la distinta distribución de las frecuen­
cias, se planteará el problema de si es correcta o no nuestra hipótesis de
que nuestra muestra real pertenece al mismo universo que la muestra
teórica; es decir, si dicha diferencia es meramente casual y debida al azar,
o si, por el contrarío, es significativa e indica una diferencia causal.
Recuérdese que éste es el problema fundamental de la estadística.
Ésta no trata de demostrar la igualdad entre dos muestras, ni es capaz de
hacerlo. Los métodos estadísticos sólo se ocupan de la diferencia que hay
entre ellas, estableciendo la probabilidad de que una diferencia hallada sea
significativa, o no, de una diferencia real.
En nuestro problema tendríamos que comparar, clase por clase, los
valores de la distribución de la muestra real con los valores de la distribu­
ción de la muestra teórica, y calcular después la probabilidad de un re­
sultado igual.
Este problema fue resuelto por Carlos Pearson en 1899, quien lo hizo
calculando la probabilidad de obtener por azar muestras como la nuestra,
es decir con el mismo efectivo y las mismas clases, sacando un gran nú­
mero de muestras con una población igual a la nuestra de un infinito
formado por las mismas clases, pero con una distribución de frecuencia de
dichas clases que obedeciera a una ley, hipótesis, razón, proporción o
porcentaje, etcétera, como son, por ejemplo, la distribución binomial, la
normal, etcétera.
Pearson estableció un parámetro común a la muestra real y a la teó­
rica, al que Uamó X J i cuadrado y además calculó las probabilidades de
su distribución de frecuencia.

CONCEPTO
X es la suma de los desvíos cuadráticos relativos obtenidos compa­
rando clase a clase las frecuencias absolutas observadas en cada clase real
con las frecuencias absolutas calculadas para la clase correspondiente, en
una muestra de la misma población que la muestra observada, pero cuyas
frecuencias de clases sean las de dichas clases en el universo del que pro­
viene la muestra calculada.
Los desvíos cuadráticos relativos (d.c.r.) se calculan dividiendo el
cuadrado de la resta de la frecuencia absoluta observada en una clase
menos la frecuencia absoluta calculada para dicha clase en la muestra teó­
rica, por la frecuencia absoluta calculada. Es decir:

228
METODO DE PEARSON

“0" es la frecuencia absoluta o número de casos de la clase observada,


y "C” la ídem de la misma clase calculada.
Decimos que X3 es la suma de los devíos cuadraticos relativos, esto es

Tablas de X2- Significado de una probabilidad


Pearson construyó, además, tablas en las que se dan las probabilidades
de x3. Esas tablas son de dos tipos. En unas se dan las probabilidades
aproximadas para x3 exactos (véase Treloar en Bancroft, H.. Introducción
a la Bioestadistica. Ed. EUDEBA, 1960, págs. 162 y 163). En otras se
dan las probabilidades exactas para valores aproximados de x3 (véase
Geigy, Tablas científicas. 6a. ed„ págs. 36 a 39) (véase Extractos, pág.
230). Además las probabilidades pueden referirse a que ambas muestras no
pertenezcan al mismo universo (integral de 0 a X3) (véase Geigy, tabla
citada) o por el contrario a que pertenezcan al mismo universo (integral
de X3 a infinito) (véase Geigy tabla citada).
Hay, además, tablas reducidas, que, para nuestras necesidades médicas,
suelen ser suficientes. (Véase M. Lamotte, Estadística Biológica, Ed.
Toray, pág. 86.) En éstas se dan tos valores de los distintos grados de li­
bertad de x3 para un coeficiente de seguridad o intervalo de confianza
del 95%. Cuando el valor hallado de Xa cae dentro de dicho intervalo, o
sea es menor al indicado en la tabla, integral de X3 a infinito, la diferen­
cia no es significativa, siéndolo, en cambio, cuando es mayor. Cuando, en
este último caso, se quiere saber la probabilidad del error de esta afirma­
ción (diferencia no significativa) hay que recurrir a las tablas completas,
especialmente a aquellas que dan las probabilidades externas o derechas
integral de x3 a infinito) (Geigy, tabla citada).
X3 es tanto mayor cuanto mayor sea la diferencia entre ambas mues­
tras, y mayor, por lo tanto, la probabilidad de que ambas no pertenezcan
al mismo universo (aumento de la integral de 0 a x3)- Simultáneamente
será menor la probabilidad de x3 y menor la probabilidad de que ambas
muestras pertenezcan al mismo universo (disminución de la integral de X3
a infinito).
Tratándose de muestras médicas, se acepta que una probabilidad in­
terna o izquierda de x3 (integral de 0 a x3) superior a 0,95 (coeficiente

229
METODO DE FEARSON

Grado de libertad
Los valores de X1 aumentan con el grado de libertad, llamando asi al
número de clases de la muestra teórica que puede variar su población o
efectivo de clase sin afectar la población o efectivo de la muestra, la cual
está fijada de antemano, pues debe ser igual al de la población de la mues­
tra real.
Es evidente que si una muestra está formada por un número n de
clases (tres, por ejemplo: n = 3), sólo podrán variar sus efectivos libremen­
te, n - 1 clases (en nuestro ejemplo, n - 1 = 3 - I = 2 clases); ya que,
una vez fijado el efectivo o población de estas n - I clases, el efectivo o
población de la clase restante queda automáticamente fijado, pueí debe
ser igual al efectivo de la muestra menos la suma de los efectivos de las
otras clases: es decir que esta última ciase carece entonces de libertad para
variar su efectivo o población.
El grado de libertad de una muestra teórica es igual, cuando más, al
número o cantidad de clases menos uno.
Y decimos cuando más porque si la muestra teó ca además de la
condición de tener la misma población o efectivo que la muestra real
tiene que satisfacer alguna otra condición, por ejemplo, que tenga algún
otro parámetro del mismo valor que el de la muestra real, el grado de
libertad será igual a la resta del número o cantidad de clases, menos el
número o cantidad de condiciones. Por ejemplo, si la muestra teórica debe
tener no sólo la población o efectivo igual a la muestra observada, sino
también la media con igual valor que la media de la muestra real, el grado
de libertad será n - 2. Y si, no sólo la población y la media deben tener
igual valor en una y otra muestra, sino también el desvío tipo, el grado de
libertad será n —3: etcétera.
Cuando en vez de ser una sola la muestra observada son dos o varias
las observadas al mismo tiempo, el grado de libertad de las muestras teó­
ricas que se calculan a! mismo tiempo es igual al producto del grado de
libertad de las muestras por el número de muestras (m) menos uno. Por
ejemplo: si el grado de libertad de las muestras es n —1, el grado de li­
bertad del conjunto de las muestras teóricas es (n - I) (m —1).

Restricciones
Al trabajar con x3 hay que tomar en cuenta las siguientes resfrie

Io) Sólo se comparan frecuencias absolutas.

231
METODO DE PEARSON

± + i_ + ü = ± + i. + 11= 12 = 0,,
25 50 25 25 25 25 25

Grado de libertad n - 1 = 3 - 1 = 2.
En una tabla reducida, de coeficiente de seguridad o intervalo de
confianza del 95%, o en la columna correspondiente a una probabilidad
de error del 0,05, vemos que el valor límite de xi es 5,99. Como nuestro

nificativa.
En resumen: X1 = 0,88 nos dice que la diferencia hallada es simple­
mente casual. Veamos otro ejemplo.

Ejemplo n° 2. Compamción de una muestra real con una teórica; la


diferencia es significativa. Probabilidad de error de esta afirmación.
En otro sitio del mundo, otra muestra de cien personas nos da el
siguiente recuento: 31 gordos, 56 normales, 13 flacos. Preguntamos ¿la
diferencia hallada con la supuesta proporción universal de 25% gordos,
50% normales y 25% flacos, es casual?
Veamos qué dice Xa
las muestras a comparar son:

Total 100 10C

_ (31 -25)» (56 - SO)2 (13 —25)* _ 36 +

La tabla reducida dice que el valor límite de xi es 5,99; como el


valor de X3 hallado por nosotros es mayor, sacamos la conclusión de que

233
ESTADISTICA MEDICA

la diferencia es significativa. Una tabla de probabilidades de error muestra


o indica que nuestro x2 hallado tiene una probabilidad externa o derecha
(integral de x2 a infinito) comprendida entre 0,01 y 0,02. Por consiguien­
te, la probabilidad de error de nuestra conclusión (diferencia significativa)
es de I al 2%. En resumen: la diferencia no es casual. La diferencia es
significativa. Las muestras no pertenecen al mismo universo.

Supongamos que se trata de las longitudes halladas midiendo esquirlas


óseas, y que las frecuencias de las clases de la muestra observada y las de
la calculada teórica correspondiente a una distribución normal sean

n significativamente diferentes?

Como en la muestra teórica las dos primeras clases, asi como la úl­
tima, están formadas por un número de observaciones menor a 5, reuni­
remos en cada muestra las tres primeras clases y las dos últimas. En esta
forma, ninguna de las clases teóricas tendrá un efectivo menor de 5.
Las muestras que comparar serán ahora

234
5,66

Siendo 7 el número de clases, el grado de libertad será uno menos, es


docir 6.
Para un Xí el valor límite o coeficiente de seguridad del 95% es
12,59; por consiguiente, siendo nuestro x’ inferior a ese valor, la dife­
rencia de nuestra muestra con la muestra teórica no es significativa.

Ejemplo n° 4. Comparación de una muestra real con una teórica. Esta


presenta clases cuyas frecuencias son menores de 5. No hay clases vecinas.
Recurso de Yates.
Cuando una clase calculada vale menos de 5 y no se dispone de clases
vecinas para formar una clase más nutrida, se puede recurrir a la llamada
“corrección por continuidad de Yates". Esta consiste en modificar los

los valores observados y los calculados el valor 0,5 antes de elevar al


cuadrado, según que la diferencia sea positiva o negativa, y tomando luego
como probabilidad el término medio entre la probabilidad obtenida sin la
corrección y con ella. Por ejemplo; De un total de 40 pacientes con la­
ringitis tuberculosa, a 10 se los trató con penicilina y a 30 con rayos
ultravioleta y/o cauterio; de los primeros se curaron 3 y de los segundos

gnificativas.
Se recurre al método del xJ •

236
Los valores calculados se obtuvieron suponiendo que no hay dife­
rencia de resultados siguiendo uno u otro procedimiento terapéutico; es

curación, siempre que se efectuase en un número suficientemente grande


de pacientes. No conocemos cuál es la probabilidad de curación en este
universo común, por lo cual tomamos como estimación de ella la que nos

el que de un total de 40 pacientes se curaron 5. En este supuesto (y ésta


es la hipótesis que permite utilizar el método de x2), si en el total de
pacientes se curaron , en 10 tratados con penicilina debieron curar
Fijado este valor, los restantes se obtienen por simple resta de los

Si el total de los tratados con penicilina fue 10 y los que calculamos


que debieron curarse 1,25, los que no debieron curarse serán la diferencia
10 - 1,25 = 8,75.
Si el total de curados con ambos procedimientos fue S y calculamos
que los curados con penicilina debieron ser 1,25, los curados con el otro
procedimiento serán la diferencia 5 -1 ,2 5 = 3,75.

valor restante (26, 25).


Vemos que de los valores calculados sólo uno es independiente de los

Observamos, además, aquí, que de los valores calculados dos de ellos,


1,25 y 3,75, son menores que 5 y que no disponemos de clases vecinas
para juntarlos y hacer una clase numerosa. No podríamos, por lo tanto,
seguir adelante con el método de x2. Pero, si recurrimos al procedimiento
de Yates, podremos armar los quebrados cuya suma es x2, como si no
estuviéramos en infracción a una de las leyes del método. Entonces;

237
METODO DE PEAKSON

Una probabilidad así significa que la diferencia entre la muestra .cal y


la calculada puede deberse simplemente al azar; en otras palabras, que no
hay diferencia entre ambos métodos de tratamiento.
También podríamos razonar diciendo: habiendo obtenido dos valore.,
diferentes de x2 (3.6 y 1.8), podemos tomar el promedio como valor real.
Entonces,

v? . 3-é - 1-8

Para que la diferencia entre las muestras sea significativa, el valor de


Xi tiene que ser superior a 3,84. Como es menor, no lo es.
Como a Xi —2,7 le corresponde una probabilidad interna, o izquierda
(integral de 0 a x2). del 90%, la diferencia cae dentro del margen de
confianza del 95%. Por lo tanto, X2 = 2,7 no es significativo de dife-

- Ejemplo n°5. Comparación conjunta de 2 muestras con 2 clases cada


una. Tabla de 2 X 2. La diferencia no es significativa.

Deseando conocer la eficacia de una presunta vacuna para prevenir los


resfríos, la administramos a un conjunto de 40 personas, tr las que obser­
vamos durante un cierto tiempo, al cabo del cual comprobamos que 10 se
habían resfriado.
Como control observamos a 160 personas del mismo medio ambiente,
a las que administramos un placebo, o no administramos nada: y al cabo
del mismo tiempo comprobamos que se habían resfriado 65.
La pregunta que nos hacemos es la siguiente: ¿La diferencia observada
es significativa de corresponder a universos diferentes, o pueden ser dife­
rencias casuales de muestras del mismo universo? Recurrimos al método
X2-

Discusión y solución
La planilla de operaciones la armamos de la siguiente manera: Colo­
camos en linea horizontal las distintas muestras y en columna vertical las
distintas clases, dejando un espacio a la derecha de cada valor observado
para colocar el valor que calcularemos después. Así:

239
METODO DE PEARSON

libertad) es 1. Los valores colocados en la inmediata vecindad de la co­


lumna o de la Tüa de los totales, se obtienen restando de los totales
correspondientes los valores ya obtenidos. La regla dice que el número
de valores independientes o grado de libertad es igual al número de clases,
o sea de datos originarios en fila, menos I (F - 1) multiplicado por el n°
de muestras o sea de datos originarios en columna menos 1 (C - 1)- Es
decir:
Número de valores independientes o grado de libertad = (F - 1)X(C - 1).

N° de val. indep. = (2 - I) X (2 - I) = 1 X I = 1 .
Calculados los valores de acuerdo con la hipótesis, corresponde armar
Dijimos que:
« ..s - fc S l

’oniendo los quebrados en columna, tenemos:

(o -ty
c
(10 - 15)a _ <- 5>] 25
1,66
15 1S 15
(30 - 2S)* = <+ S>* 25
1,00
25 25 25
(6S - 60)* „ (+ 5 >* 25
= 0,41
60 60
(95 - 100)1 ( - 5)’ 25
- 0,25
100 100
! = 3,32

Observación I
De paso observaremos que, tratándose de una tabla de 2 muestras con
2 clases cada una, o, como suele decirse, una tabla de 2 X 2, los cual'

241
ESTADISTICA MEDICA

numeradores son ¡guales, por lo cual basta calcular uno y ponerle después
como denominador el valor calculado correspondiente.

Observación 2

2 También pueden observarse que en estas tablas de 2 X 2 el valor de


X puede obtenerse directamente de los valores observados y de sus
sumas parciales y totales, los cuales pueden simbolizarse asi:

d D

Entonces
(ad - cb)2 Z
X1 = A BC D

, _ (10 X 9S - 65 X 30)2 200


75 X 125 X 40 X 160

Vemos que X3 es Xi- Este sub 1 indica el grado de libertad, o núme­


ro de valores independientes, el cual es de fundamental importancia para
el paso siguiente, que es el de recurrir a la tabla de Ji Cuadrado.
Recurriendo a una tabla reducida vemos que, para un valor indepen­
diente de 1, a un valor de x? de 3.84 le corresponde una probabilidad del
5%.
Como nuestro x2 vale menos de 3,84, la diferencia no es significativa,

simple casualidad.
En otras palabras, las diferencias encontradas entre los valores obser­
vados en nuestros vacunados y no vacunados por un lado, y los valores

242
METODO DE PEARSON

calculados sobre la base o hipótesis de que la presunta vacuna es inoperan­


te por otro, no son diferencias significativas; son diferencias que pueden
deberse simplemente a la casualidad.
Esto es, que la vacuna no parece eficaz.
Veamos otro ejemplo:

Ejemplo n°6. Comparación conjunta de 2 muestras con 2 clases cada


una - La diferencia es significativa - Probabilidad de error
En una campana antimalárica, con el objeto de prevenir las recidivas
se había venido empleando un tratamiento, que llamaremos A, en base de
atebrina, exclusivamente. En eso se propone un tratamiento ligeramente
diferente, que llamaremos B, en el cual al tratamiento anterior se le agrega
plasmoquina. Se decide ponerlo a prueba. Para ello se administra el trata­
miento A a 139 pacientes y se observa el comportamiento durante cierto
tiempo, comprobándose que del total, 106 presentaron recidivas.
El tratamiento B, es decir el anterior más plasmoquina, se administra
a 98 pacientes, y de ellos, en igual tiempo, 60 presentan recidivas.
Se plantea la siguiente pregunta: ¿las diferencias anotadas son casuales
o significativas? ¿La plasmoquina agregada mejora realmente los resul-

Sohtción
Se recurre a la prueba de Ji cuadrado, organizando la planilla de ope­
raciones en la siguiente forma:

Se sostiene la hipótesis de que ambas muestras pertenecen al mismo


universo, o sea que la plasmoquina agregada no mejora los resultados y,
por lo tanto, que el tratamiento B es lo mismo, desde el punto de vista de
las recidivas, que el tratamiento A. Que las diferencias observadas obe­
decen a simple casualidad.

243
Sobre la base de esta hipótesis se calcula cuál será la proporción de
recidivas con cualquiera de los dos tratamientos. Para ello se juntan las
dos muestras y se encuentra que sobre 237 pacientes tratados 166 presen­
tan recidivas.
Según esta proporción, se calcula cuántos de los 139 pacientes que
recibieron el tratamiento A debían presentar recidiva: 444* 139 =

Con este resultado, calculamos los otros tres.


(Valores independientes, por lo tanto, 1.)
Ahora armamos los quebrados cuya suma es Ji cuadrado.

(O - C)»

(106 - 97,3)»
97,3
(33 - 41.7)1

(60 - 68,7)a
68,7
(38 - 29,3)»
29,3

Dijimos que tratándose de una tabla de 2 X 2 también podríamos pro-

a „ (106 X 38 - 60 X 33)* 237


Xl “ 166 X 71 X 139 X 98 '

Consultando ahora una tabla reducida de X3>vemos que para un solo


valor independiente una probabilidad del 5% corresponde a un Ji cuadra­
do de 3,84. Como nuestro xz cs mayor que 3,84, la diferencia entre
ambas muestras es una diferencia significativa. En una tabla de probabili­
dades extemas (integral de x1 a infinito) podemos ver que la probabilidad
de enor de esta afirmación (diferencia significativa) está entre el 1 y el
2%. Esto significa que en 100 pruebas similares a la nuestra sólo una vez
se hallarán diferencias iguales o mayores que la encontrada por nosotros.
Siendo ¿su una probabilidad muy escasa, es razonable aceptar que la dife­
rencia entre los valores observados y los calculados sobre la base de la
hipótesis de la inoperancia del tratamiento B sobre el A es significativa. En
otras palabras, que el tratamiento B logra combatir las recidivas en forma
significativamente superior que el tratamiento A.
Hasta ahora hemos visto aplicar el método de Ji cuadrado a proble­
mas que sólo implican 2 muestras con 2 clases de observaciones cada una.
Pero las posibilidades del método rebasan estos limites y puede aplicarse a
problemas con más de dos muestras, y con más de dos clases cada una.
Veamos esto con ejemplos.
Empecemos por un problema de varias muestras, aunque sólo con dos
clases cada una.

En el tratamiento de la coqueluche se desea saber si hay diferencias


reales en la eficacia (o ineficacia) de estos 4 agentes terapéuticos: estrep­
tomicina, suero humano, suero de conejo, cloramfenico!.
Para esto se administró el 1° a 66 niflos; el 2° a 27; el 3° a SS y el
4° a 49. Además se observó el comportamiento de 45 a los que no se dio
medicación alguna.
Al cabo de una semana se recogieron los resultados, anotándose los
éxitos registrados en cada uno de los cinco grupos, los cuales fueron: para
la estreptomicina 38 éxitos; para el suero humano 13; para el suero de
conejo 32; para el cloramfenicol 32, y para el grupo de control, al que no
se hizo nada, 22.

contrario, es una diferencia debida simplemente a la casualidad?

Respuesta: Para su contestación se recurre al método del Ji cuadrado.


La planilla de operaciones se dispone de la siguiente forma:

245
246
METODO DE PEARSON

(32 - 31,l)1 _ B 3! _ 0,81


31,1 31,1 31,10
(32 - 27,7)a _ (4¿£
27,7
_ 18,49
27,70
27.7
(22 - 25,5)a _ ( - 2S,S)a 6,65
25,5 25,5 25,50
(28 - 28,6)a
28,6
. (~ O-**)1
28,6
= 0,36
28,60
(14 —ll,7)a (2.3)a 5,29
11,7 11,7 11,70
(23 - 23,9)a = <- °-9>* 0,81
23,9 23,9 23,90
(17 - 21,3)a
21,3
= 3-7>’
21,3
D 13.69
21,30
(23 - 19,S)a (3.5)a _ 12,25
19.5 19.S 19,50
x2 = -2 90

Consultando una tabla de Xa aproximado, vemos que el valor limite


de xi para un codicíente de seguridad o intervalo de confianza del 95%
es 9,49. Siendo el valor hallado de nuestro Xa muy inferior a éste, las
diferencias observadas entre las distintas muestras no son significativas.
Esto significa que las diferencias entre los valores observados y los
calculados pueden ser simplemente obra de la casualidad. En conse­
cuencia, ninguno de los medicamentos empleados tiene un éxito real
mayor que el del simple no hacer nada.
Veamos un ejemplo más, en el cual se comparan varias muestras,
ahora con varias clases de observaciones cada una.

Ejemplo n°8. Comparación conjunta de varias muestras con varias


clases cada una.
Se trata de saber si el volumen de la metrorragia de los desprendi­
mientos prematuros de placenta aumenta con la edad del embarazo. Para

247
en inmaduros, prematuros y maduros. En cada una de estas muestras se
valoró el volumen de la hemorragia en menos de 14 litro, entre 14 y 1 litro
y más de 1 litro. El número de casos observados en cada categoría es el
que aparece en la planilla.
Para su solución se siguió el método de x*-
SOLUCION: Se confeccionó la planilla de operaciones en la siguiente

Se supone (hipótesis) que todas estas muestras pertenecen al mismo


universo, que no hay diferencias reales en el volumen de las hemorragias
por razón de la mayor o menor madurez del embarazo. En consecuencia,
se considera que la frecuencia de observaciones de metrorTagias menores

volumen (121) sobre el total de metrorragias (o sea, de partos de todas las


edades) observado, es decir, 224. Por consiguiente, en una muestra de 33
partos inmaduros el número de metrorragias menores de 14 litro será

En la misma forma calcularemos el número de metrorragias menores

en muestras de 33 partos inmaduros y de 99 partos prematuros. Es decir,


calculamos 4 valores independientes. Los restantes valores los calculamos
restando del total la suma de los ya calculados.
Una vez calculados los valores, podemos armar los quebrados cuya

248
METODO DE PEARSON

(23 - 17,8)* (5.2)* 27,04


17,8 17,8 17,80
(47 - 53,5)’ (13.5)* 182,25
53,5 53,5 53,50
(51 - 49,7) IL 2 ! 1.69
49,7 49,7 49,70
(4 - 7,7)* (2.3)* 5,29
7,7 7,7 7.70
(29 - 23)* (6)*
23 23 23
(19 - 21,3)* 0 3 )! 5,29
21,3 21,3 21,30
(6 - 7,5)* ÍL 2 ! 2,25
7,5 7,5 7,50
(23 - 22,5)* (03)* 0.25
22,5 22,5 22,50
(22 - 21)* (1)* 1
21 21 21

Un extracto de tqbla, para 4 valores independientes, nos dice que una


probabilidad del 5% corresponde a un Ji cuadrado del 9,49.
Como nuestro x* tiene un valor menor de 9,49, las diferencias encon­
tradas carecen de significación. Es decir que las diferencias observadas en
el volumen de las metrorragias por desprendimientos placentarios en
partos de distintas edades pueden deberse simplemente a la casualidad. No
hay prueba de que haya diferencia de volumen por razones de la edad del
embarazo.
Veremos ahora otra forma de aplicación o utilización de Xa• Este
método permite averiguar si una distribución de frecuencias observadas
ESTADISTICAMEDICA

corresponde a una determinada distribución de frecuencias, c


normal de Gauss, la binomial de Bemouilli, etcétera.
Lo veremos mediante un ejemplo.

Veamos una aplicación de Ji cuadrado para resolver si una frecuencia


observada corresponde a una frecuencia binomial de Bemouilli.
De acuerdo con los datos recogidos en un censo de población existen
53.680 familias que constan de padre, madre y 8 hijos.
Estas familias pueden agruparse en la siguiente forma, según el nú­
mero de hijos varones que poseen:

N° DE VARONES N°DE FAMILIAS

razón de las muertes producidas desde la formación

seguían correspondiendo al desarrollo de un bino-


en cuenta que la natalidad masculina representa el

ío donde p = 0,515 q = 0,485 y N = 8,

250
1 (0,515)» (0,485)° = (0,515)»
- “ “ (O.SIS)7 (0,485)' = 8 (0.515)7 (0,48

r H (0,515)» (0.485)2 = 28 (0,515)» (0.48S)

* (0,515)* (0.485)3 = S6 (0,515)* (0,485

——— (0.5I5)4 (0.485)4 = 70 (0,515)4 (0,485

5)3 (0,485)» = 56 (0,515)3 (0,485

(0.5I5)2 (0,485)» = 28 (0.515)J (0,

~6 + |2 (°,S|S>' <0'485)’ = 8(0,515)' (0,485

(0,515)° (0,485)*= (0,485)»


ESTADISTICA MEDICA

O familias. Para ello s

ouilli, considerando que en un nacimiento, la p


i es 0.51S en 53.680 familias la probabilidad de l
varones, será la siguiente:
VARONES FRECUENCIA
8 0,004918 X 53680 =
7 0,037151 X 53680 =
6 0,122578 X 53680 =
5 0,231183 X S3680 =
4 0,272484 X 53680 =
3 0,205570 X 53680 =
2 0,096926 X 53680 =
1 0,026117 X 53680 =
0 0,003073 X 53680 =

(342 - 264)*
264
(2092 - 1994)*

252
METODO DE PEARSON
(14959 - 14627)» _ 332a _ 110224
14627 “ 14627 “ 14627
(10649 - 11035)» _ 386» _ 148996
11035 “ 11035 = 11035
(5331 - 5203)» _ 12£ = 16384
5203 “ 5203 5203
METODO DE PEARSON

El área comprendida entre los valores 70 y 80 es la diferencia entre el


área comprendida entre 70 y la media menos el área comprendida entre
80 y la media.
El área comprendida entre 70 y la media es el área que corresponde
al D.R. del dato 70. Este D.R. ( ‘ ~>"1 ) es igual a (■7°2~J ° ° 1'1) =-1,36.
El área que corresponde a un D.R. =-1,36 es, de acuerdo con las tablas,
0.4131.
El área comprendida entre 80 y la media es el área correspondiente al
D.R. del dato 80. Este D.R. = “°2~ j °°-4 =-0,91. El área que corres­
ponde a un D.R. =-0,91 es 0,3186.
El área comprendida entre 70 y 80 es la diferencia entre las áreas
correspondientes a ambos D.R.; es decir, es igual a 0,4131 - 0,3186 =
= 0,0945.
En una muestra de 200 personas, el 9,44% es igual a

0,0945 X 200 = 18,9 personas.

En igual forma se calcula cuántas personas deberán estar, en una


muestra de 200, dentro de los otros intervalos en que se han agrupado las
frecuencias.
Con los datos observados y con los calculados se arma la planilla de
operaciones en la forma siguiente:

255
ESTADISTICA MEDICA

2S6
METODO DE PEARSON

Nos hemos quedado, por lo

(1 8 - 17,4)’ (0.6)’ 0,36


17,4 I7¿ 17,40
(17 - 18,9)’ 0.9)» 3,61
18,9 18,9 18,90
(27 - 28,3)’ 0.3)» 1,69
28,3 28,3 28,30
(36 - 34)’ (2£ 4_
34 34 34
(34 - 37,4)’ (3,4)’ 11,56
37,4 37,4 37,40
(28 - 28,8)’ (0.8)» 0,64
28,8 28,8 28,80
(23 - 19,2)’ (3,8)’ 14,44
19,2 19,2 19,20
(17 - 18,7)’ 0.7)» 2,89
18,7 18,7 18,70

lo sub 7, porque 7 es el número de valores independíen­


lo de los valores calculados podía obtenerse restando de
is otros 7 ya calculados. También la fórmula

(C - 1) (F - 1) = (8 - 1) (2 -.1 ) = 7 X 1 = 7 nos da 7.
ESTADISTICAMEDICA

En una tabla resumida de ii cuadrado vemos que para 7 valores inde­


pendientes, una probabilidad del 5% corresponde a un Ji cuadrado de 14.
A nuestro Ji cuadrado, mucho menor, le corresponderá una probabilidad
mucho mayor y, por lo tanto, las diferencias observadas no son signifi-

Es decir que la distribución de frecuencias observadas puede asimilarse


a una distribución de frecuencia normal de Gauss, y, por lo tanto, que se
está autorizado a utilizar el valor medio, el Sx y el D.R., de acuerdo con
los métodos típicos de las distribuciones normales.
Otro uso de Ji cuadrado es su aplicación al problema de la existencia
de asociación entre dos o más variables observadas en un mismo sujeto.
Cuando dos o más hechos se observan, no en sujetos distintos, sino en
los mismos sujetos, cabe preguntarse si existe una relación o asociación

Para obtener una respuesta a esta pregunta podemos utilizar el mé-

Un ejemplo de esta índole lo tuvimos en el ejemplo n°8, en el que


consideramos el volumen de la metrorTagia por desprendimiento prema­
turo de la placenta en partos de distintas edades de embarazo. Ante los
hechos observados en aquella oportunidad podíamos habernos planteado
el problema en el sentido de si entre la edad del embarazo y el volumen
de la pérdida (en casos de desprendimiento prematuro de la placenta)
existe o no alguna relación o asociación.
En aquella oportunidad el planteamiento de la pregunta fue ligera­
mente diferente. Entonces se preguntó si el volumen de la metrorragia
aumenta con la edad del embarazo. Como se ve, las dos formas de plan­
tear el problema en el fondo se refieren a lo mismo, a si existe o no aso­
ciación o relación entre el volumen de la metrorragia y la edad del emba­
razo (en casos de desprendimiento normoplacentario).
Ya vimos en aquella oportunidad, que X1 es capaz de damos una res­
puesta y además cómo debe emplearse el método para obtener la con­
testación. Por eso no lo hacemos ahora.
La respuesta fue un xa de 7,6, al que le corresponde una probabili­
dad del 10 al 20%, lo cual significa que las diferencias de volumen obser­
vados pueden deberse a la simple casualidad; en otras palabras, que, según
Xa, no hay pruebas de que haya asociación o relación entre el volumen
de la metrorragia y la edad del embarazo.
Podríamos ver otro ejemplo de este tipo de problemas en el que Xa
nos contesta lo contrario, esto es que si, que hay asociación entre los
hechos observados.

258
METODO DE PEARSON

Se trata de saber si hay relación o asociación entre las reacciones


inmunitarias que presenta el organismo humano ante los antígenos tuber-
culina y lepromina. El problema es el siguiente:

Ejemplo n° 11. Xa como pruebas de asociación entre dos o más variables.


Un grupo de 177 niños originalmente negativos a la tubcrculina y a la
lepromina es vacunado con B C G.
Controlados algún tiempo después, se observan los siguientes hechos:
95 dieron respuestas positivas a la tuberculina -y a la lepromina, y 24,
negativas; 48 fueron positivos a la tuberculina y negativos a la lepromina,
y 10, positivos a la lepromina y negativos a la tuberculina.
La pregunta que se hace es la siguiente: ¿Existe alguna asociación
entre las reacciones a ambos antígenos? En otras palabras,¿los tubercu-
lina-positivos se hacen también en alguna medida, lepromina-positivos? Es
decir: ¿Los tuberculina-positivos son más frecuentemente lepromina-positi­
vos que los tuberculina-negativos? Ji cuadrado puede damos la respuesta.
Para ello se arma la planilla operativa de la siguiente manera:

Se postula (hipótesisj que no hay tal asociación, que en ese medio


ambiente la frecuencia con que se dan los lepromina-positivos es la encon­
trada en el gran total de 177 niños de las dos muestras reunidas, y en
consecuencia ésa será igualmente la proporción que deberá hallarse en el
grupo de los 143 tuberculina-positivos, como en el de los 34 tuberculina-
negativos.
Con esta hipótesis se calculan los 4 datos, de los cuales uno sólo se
hace con independencia de los otros tres. Con estos valores observados y
calculados se arman los quebrados cuya suma será nuestra X?.

259
ESTADISTICA MEDICA

(95 - 84,8)* _ (10,2)*


84.8 ~ 84,8
(10 - 20.2)a = (10,2)a
20,2 ” 20,2
(48 - 58,2)* _ (10.2)*
58,2 58.2
(24 - 13,8)a _ (I0.2)a

Recurriendo a una labia de Xa probabilidad exacta, vemos que para


un grado de libertad, una probabilidad del 5% corresponde a un x1 de
3,8; por lo tanto, a un xa mayor le corresponderá una probabilidad
menor. Es decir que la diferencia hallada es significativa. Una tabla com­
pleta de integrales de x3 a infinito nos dice que la probabilidad de error
de esta afirmación es menor del 15 por mil.
Las diferencias encontradas son, por consiguiente, reales y significa­
tivas. En otras palabras: X3 no confirma la hipótesis de que no hay aso­
ciación. La conclusión es, por el contrario, que entre tuberculina-reacción y
lepromina reacción hay relación o asociación.

Ejemplo 0° 12. Xa en pruebas de correlación


Ver página 287
SEPTIMA PARTE

ASOCIACION: CORRELACION Y REGRESION


CAPITULO XIX

Correlación. Concepto
Cuando son dos las variables observadas al mismo tiempo en cada
objeto de la muestra, puede ocurrir que ambas están asociadas, es decir,
reciprocamente relacionadas, o como se dice en estadística, que estén
correlacionadas, o que no lo estén. Correlación es, por lo tanto, la rela­
ción reciproca u asociación que puede existir entre dos variables simultá­
neas de una misma observación.
En este caso, una modificación cuantitativa en una de ellas irá acom­
pañada de otra modificación, también cuantitativa, en la otra.
Esta asociación o correlación puede ser visible a simple vista con sólo
observar un cuadro de valores o un diagrama de dispersión.
Por ejemplo, en cinco pacientes de la sala se ha tomado simultánea­
mente el pulso y la temperatura y se ha obtenido el siguiente cuadro de

TEMPERATURA
60 36,6
70 37.2
80 37.8
90 38.3
100 38.9

263
ESTADISTICA MEDICA

A simple vista puede apreciarse que a mayor temperatura corresponde


un número mayor de pulsaciones, lo cual nos indica que pulso y tempe­
ratura están asociados, o correlacionados, estadísticamente.
Si estos datos los representamos gráficamente en un sistema de ejes
ortogonales, tendremos un diagrama de dispenión como el siguiente:

100

90

80

70

60

36 37 38 39 409 Temp.

En el diagrama vemos que los puntos representativos de las observa­


ciones simultáneas se distribuyen ordenadamente, es decir, que las que
corresponden a una “y” de mayor valor corresponden igualmente a una
“x" de mavor valor.
En el diagrama, los puntos podrían agruparse formando una figura
relativamente alargada, como aquí, o dispersarse por todo el campo sin
mostrar tendencia a agrupamiento alguno. En este caso, en el que los
puntos se distribuyen desordenadamente, diríamos que no hay evidencia
gráfica de asociación o correlación, mientras que en el primero, en el que
los puntos se agrupan formando una figura, diríamos que el diagrama
muestra la existencia de una correlación entre las variables.
Si la figura que forman los puntos es alargada, podemos imaginar que
ella posee un eje, en cuyo caso ese eje podrá ser una línea recta o curva.
Eso nos permitirá decir que el diagrama muestra una asociación rectilínea
o curvilínea.
Si el eje de la figura fuese una recta, ésta podría ser ascendente o
descendente, considerándola de izquierda a derecha, y (a menos que sea

264
horizontal, es decir paralela al eje de las x) tendría una rampa o pendiente
más o menos pronunciada. En estos casos diríamos que el diagrama
muestra una asociación rectilínea ascendente o positiva, en un caso, o des­
cendente o negativa, en el otro.
El diagrama obtenido con los datos del pulso y la temperatura nos
muestra una asociación o correlación rectilínea positiva o ascendente.
El diagrama de dispersión de un8 muestra de distintas concentraciones
de un soluto en un solvente, en la que se tomase nota simultánea de la
concentración y de la dilución, nos mostraría una asociación o correlación
rectilínea descendente o negativa, pues los puntos se ordenarían siguiendo
una línea recta descendente o negativa, indicándonos gráficamente que a
medida que disminuye la concentración aumenta la dilución.
El diagrama de dispersión de una muestra de un conjunto de adoles-

una asociación o correlación curvilínea ascendente al principio y tendien­


do a la horizontabilidad después, en la que la talla crece al principio con
la edad pero cada vez menos, para no crecer más a partir de cierta edad.

el servicio, nos mostraría una ausencia de correlación, ya que esas dos


variables son independientes y sus puntos representativos se distribuirían
desordenadamente sin tendencia a agruparse o confluir formando figura

Dijimos que la asociación o correlación entre los datos observados


simultáneamente en los objetos o sujetos de la muestra puede ser visible
en el cuadro de valores, o en el diagrama de dispersión, pero, agregamos
ahora, aún cuando esa asociación no sea visible a simple vista, el cálculo
estadístico permite saber, con toda seguridad, si existe o no correlación
entre las variables, y en caso de haberla, informamos acerca de su sentido

Esta información nos la da el parámetro llamado Coeficiente de Co­


rrelación (C. de C.), el cual suele simbolizarse generalmente con una “r"
minúscula. Este parámetro indica la existencia, el sentido y el grado de la
Este coeficiente es, en principii

265
en estas fórmulas “x” e "y" simbolizan cada una de las variables observa­
das simultáneamente.
Esta fórmula puede presentarse asi:

S(x —x ) ( y - y )
S, Sy

en la que el numerador ya no es la sumatoria de los productos de los


desvíos reducidos, sino la variancia combinada (o covariancia) de los datos
“X” e “y”: Como £ ~ *y ~ es la variancia conjunta de ambas
variables de la muestra, o ••covarianza” , que suele simbolizarse por “p '\

uc ‘ ~ iTsTsy sTs,
o sea, el coeficiente de correlación es igual a la covarianza dividida por el
producto de las desviaciones standard de ambas series de variables.
En este caso, si al hacer el cálculo de la covariancia, en vez de tomar
las diferencias de los datos a la media, se toman las diferencias de los
datos a 0, el resultado debe disminuirse en el cuadrado de la media com­
binada (co-media), es decir en el producto de ambas medias x e y.
Entonces:
Esta fórmula puede sufrir las siguientes transformaciones:
2 (x y) n x y 2 (x y) - n x y

la fórmula (5) puede presentarse así:

lísTS ■ <6)
2 (x y) - (2 x) y

2 (x y) - 2 x 2y/N_________ m
r ' x/ 2 xJ - (2 x)2/N -J 2 y J - (2 y)2/N
Todas estas transformaciones de la fórmula primitiva tienen por
objeto simplificar los cálculos, evitando la necesidad de calcular el D.R. y
aun el D. simple de cada observación.
Variaciones deI coeficiente de correlación
El C. de C. puede variar desde -1 hasta +1. pasando por 0.
Si r = 0, no existe correlación.
Si r = +1 ó - 1, la correlación es perfecta.
Si r es positivo, la variación en ambas variables tienen el mismo sen-

Si r es negativo, las variaciones tienen sentido contrario.


Ejemplo
Problema n° I. Supongamos el caso, o muestra, de los cinco pacientes
de la sala a quienes se ha tomado simultáneamente el pulso y la tempera­
tura, según vimos, y donde se pregunta si hay correlación entre ambas
variables. (Naturalmente, cinco observaciones son demasiado pocas para
un estudio de correlación; pero los vamos a tomar porque, desde el punto
de vista didáctico, son útiles para enseñar fácilmente cómo hay que pro-

267
Solución Lo primero que debe hacerse es conslruir un cuadro de valo­
res y después un diagrama de dispersión, como ya lo hemos hecho, para
ver si hay o no evidencia de correlación.
Eslc último, el diagrama, es especialmente importante, ya que el
cuadro, si está formado por muchos valores, puede no ser muy claro, y el
diagrama, en cambio, sí lo es, al mostrar gráficamente una tendencia al
agrupamicnlo de los puntos.
Vamos ahora a confirmar la existencia de dicha asociación y de su
signo y precisar su grado, calculando el C. de C. de nuestra muestra.
Haremos uso primeramente de la fórmula 1 bis, página 266.
Z (x -x )(y -y )
(n -l)S * S y '

x; y; (x - x); (y - y); (x - x) (y -
Tomaremos como x los valores de las tempcri
s del pulso, es decir que consideraremos el p

(x -x l(y -y )
36,6 60 -1 1339,56
37.2 70 -0 1383.84
37,8 80 +0 1428.84
38.3 90 +0 1466,89
1513,21 10000

7132,34 33000
ASOCIACION

- = 37,76 ; y = -

..ynssi.v 7132,34 - 37,76 X 11

- i sy,. z s ’ - V 33000 - 80 X400

y para el S* y el S

Es decir, sólo cinco valores y no siete como antes, evitándonos calcu­


lar el desvío de cada dato y el producto de los desvíos de cada par.
Entonces nuestra planilla sería la siguiente:

1339.S6 3600
1383.84 4900
1428.84 6400
1466,89 8100
1513,21 10000
7132,34 33000
V S *1 - * Z X ~ ^ P ~132'34 ~ 37'76 X 188,8 = 09

33000 - 80 X 400 1J g
»->)■ * "l : T * J -
_ £ ( x y ) - n y y = 15161 - S X 37.76 X 80 = +
' ~ (n - 1)S, S,. 4 X 0,9 X 15,8

Este C. de C. obtenido (+ 1) nos confirma que entre temperatura y


pulso hay correlación; que esa correlación es perfecta y que es positiva,
es decir que la variación se hace en la misma dirección; esto es, que
cuando aumenta una. aumenta también la otra y viceversa.

Valor de la significación del coeficiente de correlación


Si se extraen muchas muestras de un universo en el que no existe
correlación entre dos variables, el valor medio de los C. de C. de esas
muestras será cero; pero los coeficientes individuales de cada muestra
pueden tener un cierto valor, por obra del azar, Estos valores se distribui­
rán alrededor de cero con un error standard (o desvío normal del C. de
C.) aproximadamente igual al valor inverso de la raíz cuadrada de la
población de la muestra menos uno.

donde n es el número de pares de observaciones simultáneas de la muestra


considerada.
Para conocer el valor de un C. de C-, se lo compara con su error
standard S?. cuando el C. de C. (r) es por lo menos dos veces superior a
su error standard (Sx). el C. de C. tiene real valor y significación; si no
alcanza a valer dos veces su error standard (es decir, si el error standard
(S?) es superior a V: r). el C. de C. pudo haberse obtenido por simple azar
en un universo sin correlación.
ESTADISTICA MEDICA

está precisamente en el limite entre un C. significativo y uno no signifi-

Tambián podemos apreciar lo mismo calculando los límites del inter­


valo de confianza que están a dos errores standard a izquierda y a derecha
del C. de C. Es decir:
intervalo de confianza = r ± 2 S?
= l i 2X0,5=111

Es decir que los límites de nuestro intervalo de confianza se extien­


den de 0 a 2. O lo que es lo mismo, que el valor de r podría ser 0.
Cuando el valor hallado de r se diferencia mucho de 0 (como en este
caso) y especialmente si el efectivo de la muestra no es muy elevado
(n<300), su distribución difiere de la normal y el método de su valora­
ción por la curva normal ya no es válido.
En estos casos debe V transformarse en "z” (véanse tablas Ceigy 6a.
ed., p. 62) y tomar el error standard de “z" que es . 1 .
En nuestro caso de r - z = 3,8

= 3,8 ± — = 3,8 ± 0,7 = 3,1 a 4,5

a “z” = 3,1 corresponde r - 0,996


” " =4,5 ” ” = 1,000

Sin embargo, teniendo en cuenta que nuestro C. de C. se refiere a una


muestra con sólo cinco pares de observaciones en vez de una tabla de pro­
babilidades “c”, tendríamos que recurrir a una tabla "t". Y entonces
veríamos que para (n - 1) grados de libertad una “t” de valor 2 corres­
ponde a una probabilidad entre el 10 y el 20%, lo cual significa que en
muestras de sólo 5 pares en un universo sin correlación, en el aproximada­
mente 15% de los casos se darán C. de C. iguales al obtenido por noso­
tros. Esto último quita todo valor al C. de C. obtenido por nosotros.
Ello se debe a que cinco observaciones son demasiado pocas para
extraer conclusiones valederas. Ya lo dijimos al principio. Cinco muestras
son demasiado pocas para un estudio de correlación, y si a pesar de ello
las tomamos, sólo fue porque desde el punto de vista didáctico nos resul­
taban útiles para enseñar clara y fácilmente cómo hay que proceder para
obtener el C. de C.
272
ASOCIACION

Significado del coeficiente de correlación


La existencia de correlación entre dos variables no significa que la
variación de una sea la causa de la variación de la otra.
El C. de C. dice simplemente si hay o no correlación estadística y. en
caso de haberla, mide su magnitud relativa e indica su sentido, pero no
prejuzga acerca de la causa.

Regresión. Concepto
Cuando dos variables están asociadas (correlacionados), la magnitud
de la variación de una de ella está relacionada con la magnitud de la varia­
ción de la otra.
La variable que se considera dependiente de la otra suele simbolizarse
por "y", y la otra, la independiente, por "x".
A veces se dice que "y" es función de "x" y se escribe así:
y = f(x)
bn estos casos interesa saber cuáles son los valores de “y" para cada
valor de ”x", o sea, como se dice en estadística, conocer la regresión de
“y" a “x”. Regresión es, por lo tanto, la relación cuantitativa entre la va­
riación de una variable y la variación de la otra variable a la cual se Italia
asociada o correlacionada.
Esta relación se expresa simbólicamente por una ecuación que se
denomina ecuación de regresión.
Hemos visto que llevando los valores de “x” e "y" presentados por
puntos a un sistema de coordenadas ortogonales cartesianas, puede verse si
dichos puntos forman una figura alargada, con un eje recto o curvilíneo.
En el primer caso, esto es, cuando la figura alargada formada por los
puntos tiene un eje rectilíneo, las variaciones de “y" relacionadas a las
variaciones de "x" están expresadas por una ecuación de regresión de los
valores de "y” a "x” y esa ecuación tiene la forma general y = a + b x,

b„ = -V -4 = r = J ^
x -x s,

. y = *yx-+ byxX = y - bj.*x' + by*x = y + \>,x (x - x)

273
ESTADISTICA MEDICA

El valor del parámetro "a" indica el valor de “y” cuando “x” es


El valor del parámetro “b” indica las variaciones de “y” a cada v

Este valor “b” se designa con el nombre de coeficiente de regre


(C. de R.) de “y” a “x'\
“b” es el cociente del desvío tipo de “y” dividido por el desvío
de “x” multiplicado por el C. de C. r.

¡ta expresión

as de tempe-

el C. de R. de “y” a “x”, o sea “b" es

C .d .R .-b -ri - |Jif -


Este C. de R. indica que por cada modificación de la temperatura en
una unidad, esto es en un grado, hay una modificación del pulso de 17,5
pulsaciones. En efecto, en el cuadro de valores vemos que para un rango
de 2,3° hay un rango de 17,5 X 2,3 = 40 pulsaciones.
Calculando los parámetros “a” y "b" se obtiene la ecuación de regre­
sión (E. de R.) de “y” a “x” (o de “y" sobre “x”, como a veces también
se dice). Esta E. de R. puede obtenerse mediante el método de los cuadra­
dos mínimos (ver la observación de la varianza, pág. 61), el cual permite
trazar la recta para la cual es mínima la suma de las distancias de cada
punto observado a dicha recta.
Esa ecuación de regresión puede obtenerse también, y de una manera
más fácil, recurriendo a la fórmula

274
ASOCIACION

y- y = f-g — (x - x)

y por lo tanto
Sv
y = y + r - jr - ( x - x ) = y + b ( x - x ) = y + b x - b x .

Ejemplo
En nuestras observaciones pareadas de temperatura y pulso, la ec
ción regresión se obtiene de la siguiente manera:

y = 80
x = 37,76
r = +1
S , = 15,8
S, = 0,9

y = 7 + r - |^ - ( x - S )

y = 80 + , l M ( x _ 37 76) = 80 + -LLgü _ 153 X 37,76


0,9 0,9 0,9
„ 15,8 x - 596,6 0.9 X 80 - 596,6 + 15,8 x

1S.8 x - 524.6
= 17,55 x - 582,9
0,9
Obtenida la ecuación, es muy fácil representarla gráficamente en un
stema de coordenadas ortogonales. Para ello basta determinar los puntos
ii les cuales la recta corta a los ejes de las coordenadas.
Para esto, en la ecuación y ~ a + bx, con los parámetros “a” y “b"
recisados previamente, se hacen sucesivamente “x” e “y" igual a 0.

275
ESTADISTICAMEDICA

Cuando y = 0 x = - , con lo que se determina el punto en que


la recta corta al eje horizontal, o de las “x”, o sea de las abscisas.
Y cuando se hace

se determina el punto en que la recta corta al eje vertical, o de las “y", o


sea de las ordenadas.
Trazando la recta que pasa por ambos puntos, tenemos la recta o
linea de regresión de "y” a "x". La recta o linea de regresión es la expre­
sión gráfica de la ecuación de regresión.
En esta recta resultan mínimos los valores de las desviaciones de “y”
para cada uno de los valores de “x”; o sea que se han hecho mínimas las
desviaciones verticales, esto es, según, o paralela al eje de la “y”, de los
puntos que representan cada par de observaciones.
En el sistema de coordenadas cartesianas, el valor de “a” es la porción
del eje de los “y” interceptada por la recta y el origen de los ejes, por lo
cual también se llama ordenada en el origen, o distancia entre el eje de las
“x” y el punto de intersección de la recta con el eje de las “y”.

El valor de "b” es el cociente entre la ordenada y la abscisa de un


punto cualquiera de la recta, o sea la tangente del ángulo que forma la
recta con el eje de las "x’\ por cuyo motivo se la llama coeficiente
angular, o pendiente de la recta, o incremento de “y” al incremento uni-

276
ASOCIACION

La amplitud media normal de las desviaciones de "y" respecto de la


desvio standard de la adecuación de "y"a la recta.
Este desvio standard se simboliza Syx-

Regresión de "y" a "x". Desviaciones de y respecto de la recta


Este desvio medio es igual a la raiz cuadrada de) promedio de los
cuadrados de las desviaciones, es decir.

donde “y” es el valor de y observado para cada x, e Y el valor de “y”


cuando se ha sustituido el valor de “x" de la ecuación de la recta de regre­
sión y = a + b x; (n es el número de pares de observaciones).
Como puede verse, esta fórmula es muy parecida a la del desvio
medio standard de las muestras simples:

La única diferencia es que en el primer caso se mide la diferencia alre­


dedor de la recta y en el segundo alrededor de la media.

277
ESTADISTICA MEDICA

Cuando las observaciones son muchas, estos cálculos resultan muy


laboriosos. Entonces es útil agrupar las observaciones mediante tarjetas y
ordenar los cálculos mediante planillas en “damero”.
Para ejemplificar este método de trabajo vamos a tomar un ejemplo
de Bradford HiU (pág. 160).
Se trata de saber si hay correlación entre "hacinamiento” y “mortalidad
infantil menor de un alio", y si la hay, precisar su coeficiente, el coefi­
ciente de regresión y la ecuación de regresión y la recta o línea de re­
gresión.
Para ello se han tomado los datos de 78 ciudades de Inglaterra de las
cuales se conocen la mortalidad infantil menor de 1 afio y, simultánea­
mente, el porcentaje de vecinos que en número de 3 o más habita en una
misma habitación. Por ejemplo, si en una ciudad se encontró que de cada
200 habitantes, 3 habitaban en la misma habitación se dijo que era del
1,5%, El hacinamiento encontrado osdló entre el 1,5% y el 17,5% y la
mortalidad infantil menor de 1 alto entre 37°/oo y U0°/oo.
Se confeccionó una taijeta para cada ciudad y en cada una de ellas se
anotó, a la izquierda la mortalidad y a la derecha el hacinamiento. En
primer lugar se atendió al dato consignado a la izquierda, es decir al de la
mortalidad y se ordenaron las tarjetas de acuerdo con ella; decidiéndose a
continuación hacer grupos o pilas de las tarjetas ya ordenadas, con inter­
valos o módulos de 10°/oo de modo que el primer grupo comprendiera las
tarjetas de las ciudades en las cuales la mortalidad infantil fuera de 36 a
menos de el segundo de 46 a menos de 56%», el 3ro. de 56 a
menos de 66°/°°, etcétera. El último grupo comprendía las tarjetas de las
ciudades con una mortalidad de 106 a menos de 1ló%o. Así se obtuvieron
ocho grupos o pilas de tarjetas.
Aquellos grupos o pilas de tarjetas se ordenaron verticalmente y a
continuación cada grupo o pila fue reordenado siguiendo ahora el dato
consignado a la derecha, es decir el correspondiente al hacinamiento.
Hecho esto, cada pila se dividió en grupos con intervalos o módulos
de hacinamiento del 3%, de modo que el primer grupo comprendiera las
tarjetas de las ciudades cuyo hacinamiento fuera de 1,5% a menos de
4,5%; el segundo, de 4,5 a menos de 7,5% el 3°, de 7,5 a menos de
10,5%; etcétera; el último grupo comprendía las tarjetas correspondientes a
ciudades en las cuales el hacinamiento fuera de 16,5 a menos de 19,5%.

Aquellos subgrupos se ordenaron horizontalmente. Hecho esto, se


confeccionó una planilla de damero con columnas verticales de 8 casillas y

278
lia correspondiente, en la siguiente forma:

Con sólo echar un vistazo a la ptaniiia puede ya advertirse que, grosso


modo, las ciudades con menor porcentaje de hacinamiento presentan
también una menor mortalidad infantil, y las con mayor hacinamiento
mayor mortalidad. Este agolpamiento en diagonal de las ciudades es una
fuerte sugestión en el sentido de la existencia de una asociación o correla­
ción entre ambas variables. En este sentido, el damero es una especie de
diagrama de dispersión.
Para el cálculo del C. de C. vamos a' hacer uso de la fórmula {4) pág

_ T tr

Para el del C. de R. la fórmula de la página 273

Y para la E. de R. la de la misma página.

y = y + b,* (x - x ) -
ESTADISTICAMEDICA

Llamaremos “y" a los valores de la mortalidad infantil y *‘x” a los del


hacinamiento.
Para el cálculo de los parámetros X, y, S*. Sy se hace caso omiso del
centro del damero y se trabaja exclusivamente con los totales marginales.
Recordemos que la media puede obtenerse directamente dividiendo el
tamaño (Z x) de la muestra por la población (n)
„ _ A JL _ z f*

serie primitiva, colocándolo frente a un valor arbitrario (v.a.) cualquiera.


En este caso la media de la serie primitiva es igual a la media de la serie
secundaria más el valor arbitrario (va.) frente al cual se colocó el 0' de la
serie secundaria (propiedad A. de la media).
También puede calcularse la media transformando previamente la serie
en otra más pequeña, por división de cada uno de los términos de la serie
primitiva por un divisor común. En este caso la media de la serie primitiva
es igual a la media de la serie secundaria multiplicada por el divisor común
(propiedad B de la media).
Estos dos últimos procedimientos pueden aplicarse simultáneamente,
con lo cual se obtiene una gran simplificación de los cálculos. Es lo que
vamos a hacer en nuestra planilla damero.
Para ello, empezaremos por colocar nuestro 0' frente al valor 71%o
de la columna mortalidad infantil (71 es el valor central del grupo 66 a
menos de 76 /©©). Con esto los valores centrales superiores, empezando
por el que le es inmediato, toman el valor -10; el siguiente -20, y el 3°
-30; los valores ceñíales inferiores toman los valores +10; +20, +30 y +40.
Estos valores los dividimos por el divisor común 10, pasando entonces
a valer los números naturales -1, -2, -3 y +1 +2 +3 y +4.
Estos son los valores de cálculo que habremos de multiplicar por la
frencuencia de cada uno que se encuentra en la última columna, o sea la
de los totales.
Es decir que, para facilitar los cálculos, vamos a transformar los valo­
res reales de los datos en otros más pequeños, colocando el 0' frente a un
valor arbitrario más o menos central de la serie. Después esos valores
vamos a reducirlos aún más, dividiendo cada uno de ellos por un divisor
común. De ese modo los valores quedarán reducidos a 0, 1, 2, 3, con
signo negativo los primeros y positivo los siguientes a partir de 0.
Los parámetros media y desvio standard que obtendremos al principio
lo serán de esos valores reducidos y estarán expresados en valores de
ASOCIACION

cálculo. Para transformarlos en los parámetros reales, tendremos que mul­


tiplicarlos por el divisor común, y la media, sumarla algebraicamente al
valor arbitrario frente al cual se colocó el 0'.
En cuanto a la fórmula para el calculo del C. de C.

como se trata de un quebrado, tanto da que el numerador y el denomina­


dor estén expresados en valores reales como en valores de cálculo; por lo
tanto, los expresaremos en valores de cálculo.
Para el cálculo de la media y procederemos, entonces, de la siguiente

Z y, f = +5

ríe, en valores de cálculo, es

ie primitiva en valores reales es

y =v.a. + (d.c.)(y,)
= 71 + 10 X 0,06 = 71 +.0,6 = 71,6

281
ESTADISTICAMEDICA
En U misma foima podemos proceder para calcular el hacinamiento

En primer lugar transformamos la serie de los valores de hacinamiento


en otra, colocando el 0' frente a un valor arbitrario v.a. mis o menos
central de la serie primitiva, por ejemplo frente al 9 (9 es el valor central
del intervalo 7,5% a menos de 10,5), con lo cual los valores anteriores
pasan a ser, a contar del inmediato a la izquierda, —3 y -6 y los de la
derecha, también a partir del inmediato +3, +6 y +9.
Estos valores los dividimos ahora por el divisor común 3, pasando
entonces la serie a ser, los de la izquietda -1 y - 2, y los de la derecha +1,
+2 y +3.
El cilculo de la media de esta última serie es
_ Z fx a
5J = v.a. + (d c) (X,)
= 9 + (3 x - 0,77)
= 9 + (-2.3)
x = 6,7
Ahora debemos calcular los desvíos standard. Recordemos que estos

Pero, para simplificar los cálculos, recordemos que si trasladamos el


0' a cualquier punto, el desvío standard no varia (propiedad A) y que si
los términos de la serie los dividimos por un divisor común, el D. Sj. de la
serie primitiva es igual al producto del S* de la serie derivada multiplicado
por el divisor común (d.c.) (propiedad B).
S, = (S,.)(d.c.)
Además, al hacer el cálculo del valor subradical, o sea de la variancia,
si en vez de tomar los desvíos desde la media se toman desde 0, debe
corregirse el resultado restándole el cuadrado de la media (observaciones
acerca de la variancia).
Todos estos procedimientos pueden combinarse. Por lo tanto, traba­
jando con las unidades de cálculo ya vistas, procederemos de la siguiente
manera. En primer lugar trataremos de obtener Sy

lo cual exige conocer previamente E f y*.


Para ello hacemos la siguiente planiza:
fADISTICA MEDICA

= v 3,0385 - 0,0036 = en valores de cálculo 1,742

S , = (Sy2) (d,c.) = 1,742 X 10 = en valores reales

Sy = 17,42.

De la misma manera procederemos para obtener Sx

S x ' f = 184

■= ÍW ~
,5929

= V 2,3589 - 0,5929 = en valores de cálculo 1,329

Sx = (d.c.) Sx2 = 3 X 1,329 = en valores reales

S* = 3,99

llora vamos a calcular el valor del C. de C.


£ (*2 y») f - ,

284
ASOCIACION

El valor x2 y2 f, en unidades de cálculo, de cada par de observacio­


nes, se coloca previamente entre paréntesis en la casilla correspondiente
del damero.
Así, en la primera casilla de arriba y a la izquierda del damero coloca­
mos entre paréntesis el valor 30 producto - 3 X-2X 5 = 30. Y así en
todas las demás su suma es 107.
En consecuencia.

— -0,77X0,06
+0,61
1,742 X 1,329

Vemos así, en el ejemplo de 78 ciudades inglesas, que entre morta­


lidad infantil y hacinamiento hay asociación, o correlación cuyo coefi­
ciente es +0,61; es decir, una correlación positiva y bastante alta.
Si quisiéramos saber el valor o significación de este C. de C. tendría­
mos que calcular previamente su error standard.

Vimos que cuando el error standard es superior a 14r, hay una proba­
bilidad superior al 5% de que al mismo se lo haya obtenido por azar.
Nuestro error standard es alrededor de 1/8 del C. de C., es decir mucho
s%
. ’V90 P

lo que indica una probabilidad inferior a 1 en 107.


Obtenido el C. de C. los otros parámetros se obtienen muy fácil-

El coeficiente de regresión b es igual a:


Sy (en valores reales)
Sx( „ „ „ )
Esto significa que por cada variación unitaria de x, es decir del haci­
namiento, hay una variación en el mismo sentido, de 2,66 de la morta­
lidad infantil.
ESTADISTICA MEDICA

global de cabellos clacos (2.829) encontrados en el tota! de personas


(6.684). Es decir, 2.473, y después por restas obtenemos los otros.
Obtenidos los valores calculados, podemos armar los quebrados cuya
suma será Xi (sub 1, pues hubo necesidad de calcular un solo valor inde­
pendiente).

(O -C )3
c
(2714 - 2473)’ = <241>* 58081
2473 2473 2473
(3129 - 3370)’ = <24l>’ 58081
3370 3370 3370
(115 -356)’ = <24l)a S8081
356 356 356
(726 —485)’ _ (24l)a 58081
485 48S 485

Consultando una tabla de Ji cuadrado vemos que para un grado de


libertad igual a 1, con una probabilidad del 5% le corresponde un Ji
cuadrado igual a 3.8 (x? = 3.8); por consiguiente a un x! obtenido
muchísimo mayor (323,5) le corresponderá una probabilidad muchísimo

En efecto, consultando la misma tabla, vemos que la probabilidad es


muy inferior al l°/oo.
Por lo tanto, si en tan pocos casos pueden encontrarse diferencias
¡guales o superiores a las encontradas por nosotros entre valores obser­
vados y valores calculados, sobre la base hipotética de que no hay relación
entre el color de los ojos y el de los cabellos, quiere ello decir que esas
diferencias encontradas son reales y altamente significativas y, por consi­
guiente, que no se confirma la hipótesis sustentada al principio al hacer
los cálculos, que no hay relación entre el color de los ojos y el de los
cabellos. Por lo tanto hay correlación.

288
Ejemplo n° 2
Se trata de saber si hay correlación entre el color del cabello y el
sexo de las personas.

sitamos de la estadística para saber si hay o no correlación entre una y


otra variable. La experiencia general ya nos ha dado la respuesta. Si los
damos, es porque son útiles para aprender el mecanismo de Ji cuadrado y
su aplicación al problema de la existencia de correlación en casos que real­
mente necesiten del cálculo para averiguar si dicha correlación existe o
no.)
Observando 1.036 niños de ambos sexos, se ha comprobado que,
entre los varones 98 tenían el cabello rubio, 260 castaños y 127 negros; y
entre las niñas 100 tenían el cabello rubio, 302 castaño y 149 negro.
Se recurre al método de Ji Cuadrado,
Para ello se arma la planilla en la forma siguiente:

Se sostiene la hipótesis de la no correlación entre el color del cabello


y el sexo. En consecuencia, el número de varones, en el total de los ru­
bios (198), guardará la proporción de varones (48S) que existe en el total
de los niños (1036). Por lo tanto, el número calculado de varones rubios

289
ESTADISTICAMEDICA

Con estos ¿os valores independientes podemos calcular los restantes. Nues­
tro X3 seri, por lo tanto, Xa-
Obtenidos los valores calculados, podemos armar ya los quebrados,
cuya suma seri x! ■Son:
(O-C)»
c
(98 - 92.71a (S 3 £ 28,09
92,7 92,70
(260 - 263)3 (3)* 9
263 263 263
(127 - 129,3)* (2.3)1 5,29
127,3 127,3
(3.3)* 28,09
105,3 105,3 105,30
(302 - 299)1 (3? 9
299 299
0 3 )1 5,29
146,7 146,70
Xj = 0,69
Consultando una tabla de x3 vemos que para dos valores independien­
tes, a una probabilidad del 5%, le corresponde un xi de 5,99 (Xa = 5,99).
Por lo tanto, a un Xa mucho menos le corresponderi una probabilidad
mucho mayor. En efecto, en una tabla completa vemos que a un xj de
0,69 le corresponde una probabilidad entre .el 70 y el 80%. Esto significa
que las diferencias encontradas por nosotros entre los valores observados y
los calculados sobre la base de la no correlación del color del cabello con
el sexo son diferencias que se dan con mucha frecuencia, lo cual equivale
a decir que no son diferencias significativas, es decir que se confirma la
hipótesis de que entre el color del cabello y el sexo no hay correlación.

290
ASOCIACION

Análisis de la covaríanza
Cuando se tienen dos o más muestras cuyos datos (x) podrían estar
influidos por un factor cuyo valor no podemos medir directamente,
pero que actuaría sobre los datos (y) de observaciones hechas de estos
mismos elementos, la comparación de estas muestras debe hacerse por el

Este, como el análisis de la varianza, consiste en comparar las varian-


zas “intra” e "Ínter”, recurriendo luego a la Tabla F de Snedecor; pero
los valores de x deben ser previamente ajustados a los de y.
Este ajuste puede haceise individualmente para cada valor de x re­
curriendo a la ecuación de regresión de x sobre y (x = x + by - by) pero
este es un método largo y trabajoso, que puede ser abreviado partiendo de
las varianzas globales e intras de x, de y, y del producto xy. De estas se
obtienen las varianzas global e intra de x ajustada; y de la resta de la
primera menos la segunda se obtiene la ínter de x ajustada. Finalmente se
comparan estas dos últimas recurriendo a una Tabla F de Snedecor.

= (2xi)*/N, + (Sxjj’ /N, -

= (Zy,)1/N, +(Zya)J /N,

= Zx,Zy,/N, +Zx,Zy,/N ,d

291
El numerador de la V.g. de x ajustada es el numerador de V.gjc me­
nos el cuadrado del numerador de la V.gjcy dividida por el numerador de
la V.g.y. H denominador es el de V.gx menos uno; es decir:
Varianza global de x ajustada =
Sx» - (Sx)»/N - CSXy - SxSy/N )»/^» - ( S y f j N
N —2
El numerador de la V. “intra” del producto xy ajustado es el numerador
de la V. “intra** x menos el cuadrado del numerador de la V. “intra** xy
dividido por el numerador de la V. “intra” y. El denominador es el de la V.
“intra” x menos uno; es decir
Varianza "intra"de xy ajustada =
Sx» - “d**x - (Sxy - “d"xy)»/SyJ - “d*’y
N -H -l
La varianza “inter” de x ajustada es igual, numerador a numerador y
denominador a denominador, a la V.gjc ajustada menos la V. “intra" xy
ajustada; es decir:
Varianza "Ínter" de x ajustada —

= H -l

Ahora se toman estas dos últimas varianzas, la “intra" y la “inter”


ajustadas y se divide la mayor por la menor. El cociente es el valor de
F,,a.
Se compara esta F,.a con

en la Tabla F de Snedccor, como hacemos en el análisis de la varianza. Si


esta F es menor las muestras son efectivamente diferentes.

Ejemplo (de Kohan y Carro, modificado)


En 30 pacientes afectados por un proceso patológico a recaídas se
decidió probar la eficacia de tres maneras distintas de aplicar un mismo

292
ASOCIACION

tratamiento, tomándose en cuenta en cada caso el tiempo que tardaba el


paciente en recuperarse. Para ello se dividieron los pacientes en grupos de
diez, y a cada gropo se le aplicó el tratamiento de una manera distinta.
Lograda la recuperación de todos se preguntó si había diferencias en­
tre los tres procedimientos recuniéndose al análisis de las varianzas. Este
indicó que, efectivamente, entre ellas habían diferencias significativas.
Sospechando que las diferencias podían deberse a factores individuales
no relacionados con el tratamiento se recurrió al análisis de la covaiianza.
Se llamó “y” a los días que habían tardado los pacientes en recuperarse
en crisis anteriores en las que no habían recibido tratamiento alguno, y

dbido. ** **
Los datos "x” e "y” de cada paciente se dan a continuación:

Grupo 2 Grupo 3

10 14 5 11 5 7
2 9 4 6
8 11 6 8 1 2
6 12 5 10 7 10
9 10 4 10 9 7
7 11 8 10 4 7
10 12 5 6
6 9 2 3
6 11 4 10 2 2
7 10 6 11 5 9

£ * i= 7 3 (£*,)> = 5329 2y , = 109 ( Z y ,f = 11881


2*j = 56 (Exj)2 = 3136 Zy2 = 100 (Zy2? = 1Ó000
2*, = 44 (Ex3)» = 1936 Sy, = 59 (Zy,)1 = 3481
2* =173 (Ex)» =29926 Zy =268 (Xy)» =71824

2x» = 1161 Xy1 = 2642 Exy= 1688

N = 30 H=3

293
ESTADISTICA M

= 1040,1 “d”y = 2536,2

v „ ,J

2642 - 2526,2
3 0 -3
688 - 1615,3
3 0 -3

V.g. x ajustada = —

“intra” xy ajustada = —

“inter” x ajustada = -5L

n - S. « ,

294
APENDICE

Tablas de uso frecuente en estadística médica


ESTADISTICA MEDICA

li* m u m u
Sil m u m u
55 5 5 5 5 5 5 5 5

l i ­ m u m u is iiiiim m u m u m is
lis m u m u i m m m m u m i s m i s

li- m u u n í s iis iiiiis m u tis is m is


Sil m u m il im iim i m u m u m u
15 3 5 5 35 3 3 3 3 5 3 3 3 3 3 5 3 5 3 3 3 3 5 3 3 3 3 3 55 5 5 3

li­ m it iim u m iiiii m u m u m u


li! m u m u u u s t u u m u m u m u
3 3 3 3 3 55 5 3 5 55 5 5 5 5 3 3 3 3 3 3 5 3 5 55 5 3 3 53535

l i ­ m u m u u iim is i m u m u m u
li! m u t u u u i u u u i m u m u m u
353 5* 5 *5 5* 333 3 SS 35S9 3 5 3 3 3 3 3 5 3 3 33333

l i ­ m u m u u iiih m i m u m u m u
lis m u m u m u u i u m u m u u u i
3 3 5 3 3 55SS3 33 3 3 3 3 5 3 3 3 3 3 5 3 5 3 3 3 3 3 33333

l i ­ m u U H IU U U U U U U IU U IU U I
li! u u i m u u u u i i t i u u i m u m i l
R.S.B.n*.
APENDICE

Explicación y manejo de la Tabla 1

La superficie total subyacente a la curva es igual a I.


La primera columna de la tabla, encabezada por la letra c, indica el
desvío relativo (o reducido) .
La segunda columna indica la superficie subyacente a la curva entre la
ordenada levantada en 0 y la levantada en < o en *c.
La tercera columna indica el valor de la ordenada levantada en -e o en

Esta tabla da directamente los valores de las dos tablas a que hacemos
referencia en las páginas 90 y 92, e indirectamente a las de las tablas a las
que nos referimos en las páginas 94 y 95, procediendo en la siguiente

superficie comprendida entre menos c y más c, debemos duplicar el valor


de la superficie dada en esta tabla al valor de c.
Para la segunda, es decir cuando se desea conocer la superficie subya­
cente a la curva desde menos infinito a menos c (o más c), se restará (o se
sumará) el valor dado por la tabla a 0,5.
Y para la tercera, es decir cuando se desee el valor de la superficie

valor de la superficie de c dado en la tabla a 0,5.


Este valor de superficie se denomina probabilidad P.
Y cuando se desee el valor conjunto de las superficies desde menos
infinito la menos c más el de más c a más infinito se restará de 1 el valor
doble de la superficie de c dado en la tabla, Este valor se denomina pro­
babilidad 2P.

299
ESTADISTICAMEDICA

Explicaciones a la Tabla 2
El desvia l se utiliza en muestras con un efectivo menor de 60 obser­
vaciones y es igual a * (como el desvio c). pero en estas muestras
pequeñas el desvio standard es igual a / —
En la tabla se dan áreas externas exactas a desvíos í aproximados.
Estas áreas extemas se denominan también probabilidad P.

300
U m ite dd intovsJo de confw ua dd 955 de una o edú tónomial cuaido el efectivo d ( h n u o tn e iti enlit 10 y 100
APENDICE

Explicaciones y manejo de ta tabla 4


Esta tabla di los límites del intervalo de confianza de la media bino­
mial de muestras con efectivo de decenas exactas de 10 a 100 y "resul­
tados'* de 1 a 50. Como se trata de obtener o calcular el intervalo de
confianza la media se expresa en forma decimal (o sea en % del valor
mitimo).
Cuando el efectivo de la muestra es una o varias decenas exactas, en
la intersección de la horizontal del resultado y la vertical del efectivo se
encuentran las medias limites expresadas en forma decimal. Si el efectivo
no fuese una decena exacta, por interpolación debe calcularse el resultado
limite inferior y superior. Obtenido éste, como el resultado es igual a la
"media" multiplicada por el efectivo, (r = m • n), se obtendrán las medias

Ejemplo
¿Cuáles son los límites del í. de c. de la media p = OÍS correspon­
diente al resultado 16 de una muestra con efectivo 64? Como el efectivo
no comprende decenas exactas, se tomarán en la tabla las medias límites
para el resultado 16 y los efectivos 60 y 70.

OBTENCIONDE LA MEDIA LIMITEINFERIOR


______________ EFECTIVO_______ MEDIA________RESULTADO

70 0,137 9,59

Interpolación-. Cómo a mayor efectivo menor resultado, y el efectivo


64 está a 0,4 por encima del efectivo 60, al resultado 9,66 habrá que
restarle 0,4 de 0,07 ( = 0,03) para obtener el resultado que corresponde al
efectivo 64; por lo tanto, el resultado límite inferior es 9,63. La media
límite inferior será entonces 9,63 / 64 = 0,150.
OBTENCION DE LA MEDIA LIMITESUPERIOR
EFECTIVO MEDIA RESULTADO
ESTADISTICA MEDICA

Interpolación. Como a mayor efectivo mayor resultado, y el efectivo


64 está a 0,4 por encima del efectivo 60, al resultado 23,82 habrá que
sumarle 0,4 de 0,26 —0,10 para obtener el resultado que corresponde al
efectivo ¿4; por lo tanto, el resultado limite superior es 23,92. La media
limite superior será entonces 23,92 / 64 —0,373.
Tabla S

304
Explicaciones a la Tabla S
Esta .tabla da las medias (expresadas en forma decimal) limites infe­
rior y superior para muestras con un efectivo de 4 a 10 observaciones y
resultados de 0 a 10.

Ejemplo
Si en una muestra de 7 observaciones (n = 7) el resultado es igual a 5
(r = 5). es decir, si la media (r/n) es igual a 0,714, las medias limites son:
0,290 y 0,963. (En valores absolutos: 2,03 y 6,74)

illilü

305
ESTADISTICAMEDICA

Explicaciones a la Tabla 6
En las muestras de Poisson la media depende exclusivamente de la fre­
cuencia del resultado, de modo que conocidos estos (frecuencia del resul­
tado) la media puede ser obtenida en la Tabla buscando en la horizontal
del resultado (r) un valor de frecuencia igual, o próximo, al obtenido en
la muestra. El encabezamiento de la columna en que se halla esta frecuen-

Ejemplo
En una muestra numerosa el resultado 2 se encontró en el 18,4%
( = 0,184) de las observaciones. Deseamos saber cual es la media coues-
pondiente a dichas obseivadones.

306
APENDICE

En la Tabla, en la horizontal del resultado 2, que se halla en la prime­


ra columna, encontramos el valor 0,1839 (próximo al nuestro: 0,1840)
Levantando la vista vemos que la columna correspondiente a esta frecuen­
cia está encabezada por la cifra 1. Esto indica que la media de observacio­
nes en muestras similares a la nuestra es del 1%.

Limite* del intervalo de confianza del 95%de una media de Potaon

Lamotte, M., Estadist. BioL,

Explicaciones a la Tabla 7
Los limites del i. de c. estin dados por la Tabla en base al resultado y
al efectivo de la muestra.
En la primera columna se buscará el resultado (r), o sea el numerador
de la media (m =-£ ), y en la segunda columna se hallarán los numera­
dores de los límites. Para obtener las medias límites habrá que dividirlos
por el efectivo (n) de nuestra muestra.

307
Si nuestra media es 1% ( = 0,01) por ser el resultado 1 y el efectivo
100, los límites son 0,025% y 5,572%; pero si la media es 1% por ser el
resultado 2 y el efectivo 200, los límites son y es decir:
0,12% y 3,61%.

Explicación a la Tabla 8
Se llama factorial de un número (n! ) al producto de dicho número
por el producto de los que le siguen en la serie natural descendente de los
mismos:
al = n X (n — 1) X (n - 2) X (n - 3) X . . . X 3 X 2 X 1

308
APENDICE

Coeficientes binomiales

Explicaciones a la Tabla 9
Se llaman coeficientes binomiales a los coeficientes de ios
resultantes del desarrollo de un binomio elevado (a +b)N. Cada i
estos monomios indica la frecuencia de un resultado (R) de un:
binomial, desde el resultado máximo igual al exponente (N) del bi
hasta el resultado Cero.
Estos coeficientes se simbolizan C* y también (¡j), y su valor e:

N-__

309
INDICE ALFABETICO

g=T i

i
J a s s 5 - - ;;;
EDITORIAL
UNIVERSITARIA
DE

manuales
BUENOS AIRES

de eudeba

Вам также может понравиться