Estadística Medica

Estadística médica
B IB L IO T E C A D E L U N IV E R S IT A R IO
M AN UA LES /M E D IC IN A
Estadística médica
DOMINGO A. LEDESMA
El'DEBA EDITORIAL UNIVERSITARIA 1)E BUENOS AIRES

©1972
EDITORIAL UNIVERSITARIA DE BUENOS AIRES
Rivadavia 1571/73
Sociedad de Economía Mixta
Fundada por la Universidad de Buenos Aires
Hecho el depósito de ley
IMPRESO EN LA ARGENTINA - PRINTED IN ARGENTINA
INDICE
INTRODUCCION . . . : ................................................................. XI
PRIMERA PARTE
CONCEPTOS FUNDAMENTALES
I. CONCEPTOS GENERALES ................................................ 3

Concepto de estadística, 3; Ubicación en el cuadro de las cien
cias, 4; Relación con el cálculo de probabilidades, 4; Importancia
en medicina, 4; El azar o casualidad, 4; Universo y muestra, 5:
Observación y dato, 6; Registro y clasificación de los datos, 6;
Tabulación, 7.
II. CONCEPTOS PARTICULARES............................................. 9
Población o efectivo, 9; Tamaño, 9; Dispersión de los datos, 9;
Ordenamiento de los datos, 10; Serie estadística, 10; Agolpa
miento de los datos, 10; Intervalo o módulo, 10; Frecuencia, 11;
Probabilidad, II; Ordenación de los grupos, 12: Distribución de
frecuencias, 12; Ejemplo de distribución normal de frecuencias,
13; Ejemplo de distribución de Gosset "Student", 14; Ejemplo
son, 15. *
III. REPRESENTACIONES GRAFICAS........................................ 17
Cuadriláteros, 17; Sectores, 18; Histograma, 20; Ejemplo de his-
tograma, 21; Ejemplo, 22; Curvas, 22; Curva normal o de Gauss.
23.
IV. PARAMETROS ESTADISTICOS ........................................... 25
Parámetros fundamentales, 25; Parámetros derivados, 25; Pará
metros de posición, 26; Proposición de Cauchy, 30; Promedio y
mayoría, 30; Desvío, 30; Parámetros de dispersión, 31; Media
del universo, 34; Parámetros derivados, 3S; Promedio ponderado.
38; Error probable, 39; Error relativo, 39.
Vil
SECUNDA PARTE
LA MUESTRA NORMAL NUMEROSA O MUESTRA NORMAL DE
PROPIEDADES DE LA MEDIA Y DEL DESVIO STANDARD

Propiedad “A” de la media. 49; Propiedad “B" de la media.
55; Propiedad "A" del desvio standard. 57; Propiedad "B” del
VIL VARIANCIA...................................................................... 61
la. observación. 61; 2a. observación. 62; 3a. observación, 63;
IX. ECUACION DE LA CURVA DE GAUSS ........................... 87

Cálculo de la ordenada "y”. 88; Significado de “y". 89; Cons
trucción de la curva, 89; Arca subtendida a la curva. Area par
cial, 91; Tablas de áreas subtendidas a la curva. Tablas de
probabilidades, 92; Frecuencias teóricas de una muestra nor
mal, 96.
X. VARIACION DE LAS MUESTRAS

TERCERA PARTE
LA MUESTRA NORMAL POCO NUMEROSA O MUESTRA DE GOSSET
"STUDENT"
CUARTA PARTE
LA MUESTRA B1NOMIAL NUMEROSA O MUESTRA DE BERNOUILLI
XIII. DISTRIBUCION BINOMIAL ............................................... 131
XIV. SERIE BINOMIAL DE BERNOUILLI................................... 145
148; Observaciones, 150; Cálculo de la frecuencia de un resul-

lado determinado, 165.
XV. PARAMETROS MEDIA Y DESVIO STANDARD EN LAS
MUESTRAS BINOMIALES................................................. 177
Resultados en valores absolutos. 177; Resultados en valores
185.
XVI. INTERVALO DE CONFIANZA DE LA MEDIA Y SIGNIFI
CACION DE LA DIFERENCIAENTRE MEDIAS.....................201
Significación de la diferencia entre dos medias binomiales
de la media, 203; Determinación del intervalo de confianza de
muestra o la frecuencia de la media, 207.
IX
ESTADISTICA MEDICA
XVII. MUESTRAS DE POISSON .

Concepto, 219; Frecuencia de un resultado, 220; Obtención
de la media, 221; La variancia, 223; Los límites del intervalo
de confianza, 223.
XVIII. METODO DE PEARSON ..
XIX. ASOCIACION.........................................................
Correlación, 263; Probabilidad de un coeficiente de o
dón, 271; Regresión, 273; Tarjetas y dameros, 278;
pruebas de correlación, 287; Análisis de la covarianza, 29
X
INTRODUCCION
XI
ESTADISTICA MEDICA
Los libros de estadística existentes en plaza, algunos de ellos muy

buenos, todos ellos extranjeros (un libro argentino similar al nuestro, el de
KOHAN y CARRO, trata de la estadística aplicada a la psicología, a la
sociología, a la educación y a las ciencias políticas, no a la medicinal, y
los cursos de estadística a los que concurrimos, igualmente muy buenos,
exigen conocimientos matemáticos que el común de nuestros médicos, no
poseen. Esto les hace a ellos sumamente difícil la comprensión de la esta
dística. Magnificas tablas, como las de GEIGY, necesitan explicaciones
más elementales que las que ellas traen para ser manejables por la mayoría
de los médicos que las necesitan.
Compenetrados de esa necesidad de médicos y estudiantes, y ante su
dificultad para obtener dichos conocimientos en los textos o en los cursos
corrientes, que en gran parte se sitúan fuera de la realidad de sus necesi
dades y de los conocimientos matemáticos que poseen, nos propusimos
explicar con palabras sencillas y con nociones elementales los conceptos
básicos de esta ciencia. Con éstos podrán todos comprender y manejar la
mayoría de los problemas comunes de la estadística médica.
En este libro diremos lo fundamental de esta materia, en sus aspectos
generalmente más utilizados en medicina, y lo diremos sin recurrir a las
matemáticas superiores, es decir, manteniéndonos siempre dentro de ¡os
conocimientos de matemáticas del médico corriente.
No obstante lo dicho, no estará de más que con la lectura de este
libro el lector refresque sus conocimientos de matemáticas deI colegio
nacional, releyendo algunos de sus textos.
Sin ser de vulgarización, éste es un libro de estadística elemental, al
alcance y para uso de médicos y estudiantes que leen trabajos científicos
o que realizan tareas habituales de investigación. Es un resumen de los
cursos de estadística médica dictados por el autor en la maternidad del
policlínico "Profesor doctor Gregorio Aráoz Alfaro" de Lanús. y por lo
tanto, está redactado con la experiencia dada por la enseñanza viva de la
materia a los destinatarios del mismo.
En él nos referiremos a una media docena de temas estadísticos fun
damentales para la investigación médica. Nos liemos preocupado, en
primer termino, por dar claros y precisos conceptos fundamentales. De
esto nos ocupamos en la primera parte de! libro, la que abarca siete capí
tulos. Después nos esforzamos por precisar las principales clases de mues
tras que generalmente el médico tiene entre manos y las técnicas estadís
ticas aplicables a cada clase. De ello nos ocupamos en las cuatro partes
siguientes. Por último, damos algunas nociones aplicables a cualquier clase
de muestra. De esto tratan las dos últimas partes.
En resumen, los temas que tratamos en el libro son:
XII
INTRODUCCION
1. Conceptos fundamentales.
2. El estudio estadístico de Ias muestras numerosas con una distri
bución normaI de las frecuencias de sus datos, o sea de lo que puede
llamarse muestra de GAUSS. y de las técnicas que le son aplicables
3. El estudio estadístico de las muestras poco numerosas también con
una distribución normal de la frecuencia de sus daros o muestras de
GOSSET "STUDENT", y de ¡as técnicas correspondientes
4. El estudio de las grandes muestras con una distribución binomial
de la frecuencia de sus datos, o muestra de BERNOUILLI, y sus técnicas
5. Las grandes muestras con un resultado poco numeroso y una dis
tribución de frecuencia próxima a la binomial o muestras de POISSON y
sus técnicas.
6. El método de PEARSON o de J i Cuadrado fx1) para la compara
ción entre una muestra real y una teórica, y su técnica en los diversos
7. La asociación o relación estadística entre dos variables observadas

simultáneamente en una misma muestra y sus técnicas.
En lo posible hemos explicado los conceptos y los métodos o técnicas
dando el porqué de los mismos, y sólo cuando ello exigía una profundi-
2ación matemática fuera del alcance del común de los médicos, nos con
formamos con decir solamente cómo se hace. Por eso. algunos temas
como Ji Cuadrado, se han explicado principalmente por medio de ejem
plos. Estos son suficientes para capacitar al médico en la utilización del
método en la mayoría de las circunstancias en que puede serle útil. En
cambio, otros temas, como distribución binomial, se han explicado con
cierto detenimiento, ya que es imprescindible tener bien claro lo que es el
desarrollo de un binomio elevado para comprender el concepto de lo que
es una muestra con una distribución binomial de sus frecuencias.
Finalmente, hemos procurado ejemplificar todo al máximo posible
dentro de la manualidad del volumen.
XUI
CONCEPTOS FUNDAMENTALES
CAPITULO I
3
Por trabajar con números la estadística participa de las ciencias ma
temáticas, pero al igual que en muchas otras ramas del conocimiento
-física, química, etc.,- éstas son el instrumento que debe ser aplicado a
una materia, en este caso las observaciones o experiencias similares valo-
Relación con el cálculo de probabilidades

Por sus métodos matemáticos la estadística se halla relacionada con el
cálculo de probabilidades y podría dccitsc que es un capítulo de él, pero
mientras dicho cálculo se ocupa de los grandes números, de los conjuntos
infinitos, la estadística se ocupa de los pequeños números, de los conjun-
Importancia en medicina
La importancia de la estadística en medicina se debe a la capacidad
de la primera en valorar la magnitud del azar en la segunda.
El azar o casualidad
resultados de la actividad médica, ya se trate de diagnósticos, pronósticos
sea que observemos la aparición de un dato clínico o de laboratorio, que

pronostiquemos la duración de una enfermedad o de un embarazo, que
comprobemos la ventaja de un medicamento o de una técnica quirúrgica,
etcétera, el resultado está siempre influido, en mayor o menor grado, por
la casualidad.
Es decir, los resultados médicos se hallan siempre influidos por un
conjunto variable de factores invisibles e imponderables, que englobamos
con el nombre de azar o casualidad.
Es este conjunto de factores, desconocidos y variables, el que diver-
Estc azar pudo haber tenido una gran participación en los resultados,
o, por el contrario, sólo una insignificante, pero de antemano eso no
podemos saberlo; es decir, directamente, al azar no podemos medirlo.
Necesitamos por lo tanto de algún procedimiento indirecto capaz de
medir el tamaño, o sea la magnitud de la importancia del azar. Este mé-
CONCEPTOS GENERALES
Esta se basa en que si observamos un gran número de casos seme

jantes, es lógico suponer que los factores desconocidos han de neutrali
zarse en gran parte, por lo menos, mutuamente. De ahí que si estudiamos
dos series paralelas en estas condiciones, en una de las cuales aparece o
interviene un factor determinado que no interviene ni aparece en la otra,
la diferencia de los resultados pueda lógicamente atribuirse a esc factor.
Pero aun así, no estamos completamente seguros de haber neutrali
zado totalmente al azar, o sea que la diferencia se deba exclusivamente al
factor presente en una serie y ausente en la otra. Por eso. también aquí,
para medir la magnitud de ese azar residual tenemos que recurrir también
La magnitud de la influencia del azar se mide en porciento de proba

bilidad. Un resultado puede deberse en un 100% a ella o en un 50% o en
un 5%, etcétera. Cuando la influencia del azar en un resultado médico es
pequeña, menos del S%, los estadísticos que se ocupan de cuestiones mé
dicas aceptan que, prácticamente, puede considerarse que el resultado no
vención del azar es superior al 5%, opinan que dicho resultado puede
considerarse debido simplemente a la casualidad.
Dijimos que la estadística es un capítulo del cálculo de probabilida

des. Este se ocupa de los valores numéricos de hechos similares, pero en
general sólo se ocupa de los grandes números, de los grandes conjuntos,
de aquellos que por ser infinitos se llaman universos de casos similares (o
universos simplemente dicho).
La estadística, en cambio, se ocupa preferentemente de los pequeños
números, de los pequeños conjuntos, de los conjuntos finitos, extraídos
naturalmente de aquel gran conjunto y que por ser fracciones de él se
denominan muestras. Por ejemplo, si observamos el peso de un conjunto
de niños recién nacidos, podremos comprobar lo que pesan un número
determinado de ellos, pero no el de todos los recién nacidos habidos y
por haber. El conjunto finito de recién nacidos sometidos a nuestra obser
vación es ¡a muestra-, el conjunto infinito de todos los recién nacidos ha
bidos y por haber es el universo (el universo de recién nacidos).
La muestra es el elemento fundamental con que trabaja la estadística.
Sin muestra no hay estadística.
5
Observación y dato
La muestra es el conjunto de observaciones valoradas cuantitativamen
te y también el conjunto de los valores numéricos individuales. Estos, los
valores numéricos individuales, se denominan “datos”. Por ejemplo, el
conjunto de las observaciones de las horas dormidas por los pacientes del
ejemplo dado anteriormente constituye los datos. El dato es el valor numé
rico de la observación individual.
Cuando las observaciones se clasifican cualitativamente (por ejemplo:
gordos, medianos o flacos), el conjunto de observaciones de igual clasifi
cación constituye una clase. A las clases se las simboliza genéricamente
con una x minúscula. En este caso el valor de cada observación es igual a
Registro y clasificación de los datos

La observación o la clase y su dato deben, en primer término, 'er
registrados, esto es, deben ser llevados a una planilla, a una ficha, a una
tarjeta, a una hoja de cuaderno, etcétera.
Hecho esto, las observaciones no clasificadas deben serlo, es decir, se
las debe.agrupar en clases. Vimos que se llama clase a un conjunto de
observaciones similares.
A mayor abundamiento diremos que las observaciones difieren entre
Si observamos niños recién nacidos, éstos pueden diferir por. el sexo
(diferencia cualitativa) o por el peso (diferencia cuantitativa). El conjunto
de los recién nacidos varones constituye la clase de los recién nacidos va
rones; el conjunto de los que pesan 3000 g, la clase de los que pesan
3000 g, etcétera.
El número de observaciones de una clase constituye su frecuencia.
(frecuencia absoluta véase infra).
Cuando una muestra está formada por un gran número de observa
ciones (lo que ocurre especialmente cuando las diferencias son cuantita
tivas) se juntan las observaciones similares en un solo grupo, constituyen
do cada grupo una clase. El número de observaciones agrupadas en una
clase constituye la frecuencia de ese grupo o clase.
Es necesario fijar claramente los límites del grupo o clase, de modo
que no haya duda de si una observación pertenece a un grupo u otro.
Para ello conviene tomar como límites de los grupos valores inaccesibles a
los métodos de medidas usados en la investigación. Si la balanza sólo es
capaz de medir gramos, colocamos los límites a mitad de gramo, por
ejemplo 0,5 g - 9,5 —19,5 - 29,5 g, etcétera.
CONCEPTOS GENERALES
En estos casos se toma como valor representativo del grupo o clase la

semisuma de los limites del grupo (en el ejemplo dado, 5 g - 14,5 - 24,5
- etc.), es decir, se considera como si todas las observaciones di grupo
pesasen ese valor medio. Puede haber en esto un pequeño erro pero
generalmente las diferencias se compensan y el error no existe o s mí-
Luego el dato también debe ser clasificado, esto es. reconocido como
una cantidad continua o discontinua. Por ejemplo, si so trata del número
de glóbulos rojos por milímetros cúbicos, el dato es discontinuo, pues en
un volumen dado de sangre no puede haber sino un número entero de
glóbulos rojos y la diferencia con otro volumen de sangre implicará tam-'
bien un número entero de ellos.
Pero'si se trata de la hemoglobina contenida en un volumen de san
gre, el dato será continuo, ya que la cantidad será un número fraccionado
de la unidad que se utilice (difícilmente un número entero de esa unidad)
y podrá presentar toda la gama posible de valores intermedios entre un
número entero de unidades y el siguiente. La diferencia con otro volumen
de sangre será asimismo un número fraccionado de unidades, difícilmente
Los datos discontinuos se suelen denominar también datos discretos.

La presentación de éstos no ofrece dificultades. En cambio, cuando se tra
ta de datos continuos es necesario aclarar si el valor registrado es el valor
más próximo al valor real o si se trata de la parte entera de un valor real
al que le sigue una fracción.
Así. si se dice que una persona mide 1,60 m, es necesario aclarar si se
han tomado los 60 cm por estar el valor real más próximo a esa medida
que a 1,59 m o a 1,61, o si se dice 1.60 m cuando la talla real es 1,60 m
o más, pero menos de 1,61. En el primer caso se habrán registrado como
1.60 las tallas reales desde 1,596 m hasta 1,605 m, y en el segundo, desde
1,600 a 1,609. Como se ve, si los datos son continuos debe aclararse la
forma como se los ha tomado; si son discontinuos esta precaución es inne-
Tabulación
Finalmente, los datos deben ser tabulados, es decir presentados en
una tabla, colocándolos en columna vertical (aunque puede hacérselo tam
bién en línea horizontal).
A partir de este momento se está en condiciones de iniciar el análisis
estadístico propiamente dicho. Así la muestra de las horas de sueño pro
ducidas por un hipnótico deben ser tabuladas como muestra el cuadro 1.
EJEMPLO DE TABULACION
(Horas de sueño producidas por un hipnótico
CAPITULO II
CONCEPTOS PARTICULARES
ESTADISTICA MEDICA
Los dalos pueden hallarse más o menos uniformemente diseminados, o

por el contrario, mostrar tendencia a confluir hacia los valores menores,
medianos o mayores.
Ordenamiento de los datos

En la muestra los datos se presentan al observador en forma desorde
nada. La primera tarea del tratamiento estadístico es ordenarlos, general
mente de menor a mayor pero podría ser a la inversa.
Serie estadística
El resultado del ordenamiento es transformar un conjunto desorde
nado de números en una serie ordenada de ellos. Por tratarse de los datos
o valores de observaciones similares, el conjunto ordenado de los datos se
denomina serie estadística.
Cada uno de los datos toma ahora el nombre genérico de término de
la serie. La serie consta de tantos términos como de observaciones la
La x minúscula que simboliza genéricamente a los datos, simboliza

igualmente a los términos.
La serie estadística se parece a las otras series matemáticas (aritmé
tica, geométrica, etc.) en que consiste en un conjunto ordenado de núme
ros, pero se diferencia de ellas en que los términos pueden repetirse,
saltearse y carecen de toda relación o razón con sus vecinos.
Agrupamiento de los datos

Frecuentemente en una muestra (y en una serie) hay datos repetidos,
o de un valor tan próximo o parecido, que pueden darse por iguales, y
por lo tanto, por repetidos.
Cuando así ocurre en muestras muy numerosas, es decir, con una
población de 30 o más, deben reunirse o agruparse estas obsetvaciones
repetidas o similares. Es lo que se llama agrupación o agrupamiento de los
Intervalo o módulo
Cuando los grupos comprenden no solamente datos iguales, sino muy
próximos, es necesario fijar los límites dentro de los cuales tendrán cabida
los datos de cada grupo. La distancia entre los límites de cada grupo se
denomina intervalo o módulo,
10
Por ejemplo, si se trata de una muestra formada por observaciones de
hemoglobina expresada en porcentaje de un valor que se considera nor
mal, podemos reunir los datos comprendidos entre SI y 60 en un solo
gmpo, los entre 61 y 70 en otro, los entre 71 y 80 en otro, etcétera. En
este caso decimos que el intervalo o módulo es 10.
Como valor representativo del grupo se toma el equidistante a los
límites del mismo. En los grupos del ejemplo dado se toman como repre
sentativos los valores SS para el 1°, 65 para el 2°, 75 para el 3°, etcétera.
Por lo tanto, se considera como si cada una de las observaciones del
grupo valiera lo que el valor representativo del grupo. La realidad es que
unos valen más y otros menos, pero la verdad es que muy probablemente
esos más y esos menos, es decir esas diferencias, se compensarán o el error
será muy pequeño, lo cual autoriza a proceder a dicho agrupamiento.
Frecuencia
Es el número o cantidad de observaciones iguales o semejantes de la
muestra. Es. por lo tanto, la población de los grupos. Se denomina igual
mente frecuencia absoluta.
También, frecuencia es la relación entre esa cantidad o población del
grupo y la cantidad o población total de la muestra. Se llama entonces
frecuencia relativa. A esa frecuencia algunos autores la denominan proba
bilidad.
Se la simboliza generalmente por una f minúscula.
En el primer caso, frecuencia es simplemente f.
En el segundo, frecuencia =* -f-
En el primer caso, la suma de las frecuencias es igual a la población
de la muestra,
n = 2 f.
En el segundo, la suma de las frecuencias es igual a la unidad,
El número de observaciones de un grupo es la frecuencia de dicho
Probabilidad
Es la relación entre la cantidad de hechos equivalentes y la cantidad
ESTADISTICA MEDICA
total o infinita de hechos similares de ese universo.

Esa cantidad infinita se suele simbolizar una veces por la unidad y
otras veces por dentó. En este caso se habla de probabilida porcentualPor
ejemplo, la probabilidad de que caiga cara una moneda arrojada al suelo
puede expresarse por 0,5 o también por 50%.
Ordenación de los grupos

Si, como debe hacerse, el ordenamiento de los datos precedió al agru-
pamiento de ellos, los grupos ya estarán ordenados.
De no haberse hecho asi, corresponde ordenar los grupos de acuerdo
con el ordenamiento de los datos, es decir, primero los grupos correspon
dientes a datos más pequeños y después los mayores. De este modo los
grupos más numerosos quedan generalmente hacia la parte media de la
serie de los grupos, pero no siempre ocurre asi y puede suceder lo con-
Distribución de frecuencias
Con la ordenación de los grupos según la ordenación de los datos,
quedan también ordenadas las frecuencias de acuerdo con la ordenación
de los datos. Esta ordenación especial se denomina distribución de fre
cuencias (d. de f.).
La d. de f. es la serie de frecuencias de los datos ordenados, con espe
cificación de los datos o de las clases a que correspondan.
Al tabular los grupos, éstos van en la primera columna encabezada
por una x, hallándose cada grupo representado por el dato repetido o
representativo del grupo.
En la segunda columna, encabezada por una f, va la frecuencia del
grupo. Ya dijimos que la suma de esta columna (2f) es igual a la pobla
ción de la muestra (n).
En la tercera columna, encabezada por la multiplicación indicada f x
van los productos de multiplicar el dato repetido o representativo del gru
po por su frecuencia. La suma de esta columna (Efx) es igual al tamaño
de la muestra (Sfx —T).
Aun cuando las muestras pueden tener distribuciones de frecuencia
muy variadas, en medicina las distribuciones más comunes son estas cua
tro: 1) la de Gauss; 2) la Gosset "Student” (derivada de la anterior); 3) la
de Bernouilli y 4) la de Poisson (vecina a la anterior).
Las dos primeras corresponden a datos continuos y las dos segundas a
datos discontinuos o discretos (véase clasificación de los datos).
12
Cuando las frecuencias de los valores más bajos son relativamente

escasas, pero las de los siguientes aumentan progresivamente hasta alcan
zar un máximo para luego disminuir progresivamente haciéndose cada vez
más escasas, siendo el decrecimiento simétrico al crecimiento, la distribu
ción se denomina Normal o de Gauss.
Cuando una distribución de Gauss corresponde a muestras poco nu
merosas, con una población de 60 o menos observaciones o clases, y sobre
todo de 30 o menos, la distribución se denomina de Gosset "Student"
(siendo “Student" el seudónimo del estadístico W. S. Gosset).
Cuando la distribución está formada por valores que corresponden a
los de los monomios del desarrollo de un binomio elevado o potenciado la
distribución se denomina binomial o de Bemouilli.
Y cuando esta distribución corresponde a una muestra numerosa, pero
en la que algunas observaciones ocurren muy pocas veces, la distribución
se denomina de Poisson.
Ejemplo de distribución normal de frecuencias
ba entre 56 y 65
66 y 75
76 y 85
86 y 95
96 y 105
106 y 115
116 y 125
126 y 135
136 y 145
13
Ejemplo de distribución binomial
Se investigó el grupo sanguíneo de 36 personas hijos de padre y ma
dre grupo AB y se encontró lo siguiente:
Estas frecuencias pueden escribirse asi:
18 = 2X 3X 3
(3 + 3)2 = 3* + 2 X 3 X 3 + 3’ .
Ejemplo de distribución de Poisson

Se ha dividido el territorio de la República en seis regiones, cada una
con una población equivalente. En cada zona se han tomado al azar den
localidades con una pobladón de diez mil habitantes. Se ha hecho el re
cuento de albinos en cada una de ellas y se ha obtenido el siguiente
resultado:
N° de albinos Porciento en ¡a población
15
desarrollo del binomio elevado:
sea de los seis últimos resultados (véase m >adelante Distribución bi-

amial, Serie de resultados).
En efecto:
CAPITULO III
REPRESENTACIONES GRAFICAS
SUMARIO: Representaciones gráficas. Cuadriláteros. Sectores. Repr.
Cuando se desea dar una impresión visual de las proporciones que

guardan las poblaciones de los distintos grupos, se recurre al dibujo, con
feccionando gráneos.
Si los grupos son pocos, los gráficos más usados son los cudriláteros y
los sectores.
Cuadriláteros
Cuando se utilizan cuadriláteros hay que cuidar de que si son rectán

gulos y se los dibuja de pie, todas las bases se hallen en la misma linea
horizontal, y si acostados, que sus extremos izquierdos se hallen sobre la
misma línea vertical. En cualquier caso, la longitud de los cuadriláteros
debe ser proporcional a la población de los grupos.
Por ejemplo, si se quiere indicar que por cada 100 niños recién naci
dos femeninos se encontraron 105 recién nacidos masculinos, la longitud
del cuadrilátero que representa a las niñas deberá medir, por ejemplo, 100
mm y la del que representa a los niños, 105 mm.
Estos cuadriláteros se dibujan separados uno de otros y no interesa la
anchura que se les asigne, pero todos deben tener la misma, como se ob
serva en el Cuadro 3.
17
ESTADISTICAMEDICA
Cuadro 3
EJEMPLO DE REPRESENTACION GRAFICA: CUADRILATEROS
lProporción de nacimientos según el sexo¡
Para dibujar los cuadriláteros generalmente se empieza por el corres

pondiente al del grupo más numeroso, dándosele un tamaño que se con
sidere apropiado a la página donde debe aparecer la ilustración. Sus
medidas pueden ser, por ejemplo, base 2,5 cm y altura 10 cm.
Los otros cuadriláteros deben tener la misma base, es decir 2,5 cm, y
la altura debe ser proporcional a la del primero, teniendo en cuenta la
población de ambos grupos. Asi, si se tratase de sólo dos grupos, uno de
900 varones y otro de 850 mujeres, la altura del rectángulo correspon
diente a éstas se calcula por una simple regla de tres.
900 : 10 :: 850 : X
10 X 850
Cuando para las representaciones gráficas se recurre a los sectores de

círculo, la población de la muestra se la equipara a los 360° del circulo y,
proporcionalmente a la población de los grupos, se dibujan los sectores.
18
REPRESENTACIONES GRAFICAS
Los grados de círculo que corresponden a cada grupo se calculan apli

cando también la regla de tres. Así, si la población de la muestra de
recién nacidos es:
n = 105 + 100 = 205,
la regla de tres dice que los grados de círculo que corresponden al grupo
de mujeres es:
205 : 360 :: 100 : X,
X = 36<2QS1Q°~ = l75,' ' °
Con un radio cualquiera se dibuja un círculo y dentro de él se dibujan

dos sectores, uno de 175°,.. ° y el otro, lógicamente, de
360° - 175°___ = 184, ..
Ver Cuadro 4.
(Proporción de nacimientos según el sexoJ

ESTADISTICAMEDICA
Hislograma
Cuando los grupos son mis numerosos es preferible recurrir al histo-
grama: éste, como se verá, corresponde a las representaciones ortogonales,
es decir, que se funda en dos ejes que se corlan perpendieularmente (ejes
ortogonales o coordenadas cartesianas).
Aqui se trata también de cuadriláteros, pero pegados unos a otros.
Además, las bases de éstos, las que descansan sobre el eje horizontal o de
las abscisas, representan y miden lo que los módulos o intervalos (i) de los
grupos; y las alturas, o sea las ordenadas, la población o frecuencia del
grupo dividido por el intervalo (f/i); en esta forma el área del cuadrilátero
representa la población del grupo, y el área total del hislograma, la pobla
ción de la muestra.
2(hX i) = £ f = n
Si tomamos como altura del cuadrilátero la frecuencia o población del

o dividida por la base del cuadrilátero (i) multiplicada por la pobla-
, o efectivo de la muestra (n)
y la suma de las áreas de los cuadriláteros es igual a 1,
2(h X i) = £ - = = — = 1.
Las abscisas marcan los limites de cada grupo.

Cuando el intervalo es I la altura del cuadrilátero indica directamente
la población del grupo, o sea la frecuencia absoluta.
20
ENTACIONES GRAFICAS
Ejemplo de histograma
o población del grupo
la correspondiente es el que r
Cuadro 5
EJEMPLO DE REPRESENTACION GRAFICA: HISTOGRAMA
Edades de 488 pacientes afectadas de carcinoma uterino
21
ESTADISTICA MEDICA
Cuando los valores agrupados se reemplazan por el valor equidistante

de los limites del grupo, pueden representarse los grupos por los vértices de
un polígono obtenido uniendo los puntos que tienen como abscisas el
valor medio del grupo y como ordenada la población del grupo o frecuen
cia dividida por el intervalo.
Esto equivale a unir los puntos medios de las bases superiores de los
cuadriláteros del histograma. Cuando el intérnalo es igual a 1, la ordenada
indica directamente la población del grupo, o sea la frecuencia absoluta.
Cuando la ordenada es igual a la frecuencia dividida por el producto del
intervalo multiplicado por la población de la muestra, el área subtendida
al polígono se aproxima a 1.
El área subtendida al polígono es una aproximación al área del histo-
Ejemplo
Las 488 pacientes con cáncer de cuello recién vistas pueden ser tabu
ladas como se observa a continuación:
Edad media - x / n° de pacientes n°/i = y

26.0 8 18 2,25
32.5 5 45 9,00
37.5 S 79 15,80
47.5 15 225 15,00
37.5 5 63 12,60
65.0 10 45 4,50
80.0 20 13 0,65
El polígono correspondiente sería el que muestra el Cuadro 6.
Cuando los grupos son muy numerosos, lógicamente los intervalos son
relativamente muy pequeños: en este caso, si la diferencia de población
entre grupos próximos es también muy pequeña, el polígono se confunde
con una curva. Lo mismo ocurre en el histograma con la línea quebrada
formada por las bases superiores de los cuadriláteros y las porciones co
rrespondientes de los lados laterales de los mismos. Esta línea quebrada,
RFPRFSF.NTACIONES GRAFICAS
Cuadro 6
EJEMPLO DE REPRESENTACIONGRAFICA: POLIGONO
Edades de 488 pacientes afectadas de carcinoma uterino
Como el área del histograma indica la población de la muestra, el área

subtendida de la curva, cuando ésta procede de un histograma, indica
igualmente la población de la muestra.
Curva normal o de Gauss

Cuando esta curva presenta una sola elevación o cima a partir de la
cual la línea desciende en forma simétrica para tender a horizontalizarse
'en sus extremos, esta curva toma una forma acampanada y lleva el nom
bre de curva normal o típica o curva de Gauss.
CURVA DE GAUSS
23
CAPITULO IV
PARAMETROS ESTADISTICOS
srsssrsss
ESTADISTICA MEDICA
Parámetros de posición
Algunos de los parámetros fundamentales tratan de fijar la posición
del valor que pueda darse como representativo de los valores de los datos
de la muestra. Son los llamados parámetros de posición, o también pro
medios.
Según sea el procedimiento que se siga para la elección de este pará
metro, el promedio se denomina modo, mediana o media.
Cuando el procedimiento es tomar el valor que se encuentra repetido

un mayor número de veces, el que está de moda diríamos, el parámetro
toma el nombre de modo.
En la serie puede situarse en cualquier parte, a veces hacia la mitad, a
Cuando en una muestra no hay valores repetidos, la misma carece de
Cuando hay algunos pocos grupos de valores igualmente más repe

tidos, cualquiera de ellos puede tomarse como modo; pero si son muchos
los grupos de valores igualmente más repetidos, es dudoso el valor repre
sentativo de cualquiera de éstos;y cuando todos los valores de la muestra
están igualmente repetidos, nos encontramos con una situación similar a
cuando ninguno de ellos está repetido, es decir, no podemos tomar nin
guno de ellos, y por lo tanto la muestra carecería también de modo.
Es dudoso igualmente el valor representativo de un modo situado
hacia uno de los extremos de la serie, sobre todo si se encuentra aislado,
es decir, sin la vecindad de otros valores repetidos.
El modo es a veces el promedio elegido, por ejemplo, cuando interesa
señalar la duración habitual de una enfermedad, pero en general es un
promedio poco usado en medicina, porque no se lo puede obtener o por
que su representatividad resulta poco convincente. Por ejemplo, si quisié
ramos tener una idea de la edad promedio de los habitantes de una ciudad
e hiciéramos un grupo con los que tienen de 1 a 5 años, otro con los de 6
a 10, otro con los de 11 a 15, etcétera, seguramente encontraríamos que
el grupo más numeroso es el de 1 a 5 años, y si tomáramos el modo
como promedio tendríamos que decir que la edad promedio de los habi
tantes de esa ciudad es la de 1 a 5 años. Con toda seguridad esta contes
tación no nos dejaría satisfechos, y recurriríamos a otro valor represen
tativo para tener Uua i ‘'a satisfactoria de la edad promedio de los
habitantes de dicha ci.'.dad.
26
Como la suma de los dalos se denomina tamaño de la muestia y la de
las obseivaciones población, se puede decir que la media aritmética es
igual al tamaño de la muestra dividida por la población de la misma.
- 1 x - I = S xf
m “ Sf = ' ” 2 f
La media aritmética cr el promedio más utilizado en medicina. Presen
ta, sin embargo, algunos puntos débiles, de los cuales los mis importantes
son: 1°) Frecuentemente no corresponde a ningún dato de la muestra. 2°)
Puede pertenecer a un grupo poco numeroso. 3o) Se ve fuertemente in
fluida por los datos extremes.
Además de esta media aritmética ma, existen otras medias, menos
geométrica mg y la armónica mh,
Media geométrica
número o cantidad, se multiplican los datos entre si y al producto se le

extrae la raíz correspondiente a su número o cantidad.
media geométrica = v^Xi X X, X X3 X . . . X„.

Esta media se utiliza cuando se examinan hechos que siguen la ley del
crecimiento, o sea cuando la serie estadística correspondiente se asemeja a
una serie geométrica, por ejemplo 2, 4, 8, 16, 32, etcétera.
Por ejemplo, supongamos que se haga el recuento de gérmenes de un
cultivo y se encuentran 200.000 por cc. Dos días después un nuevo re
cuento indica 400.000 por cc. Si quisiéramos calcular el recuento que se
hubiera encontrado de haberlo hecho en el dia intermedio, la media arit
mética nos diría que habríamos encontrado 300.000. Sin embargo, este
el mismo el primer día que el segundo, cuando sabemos que en el según-
Recurriendo a la media geométrica, en cambio, el resultado sería:
m = j 200.000 X 400.000 = 282.843,
lo cual satisface más, porque indica que el aumento del primer día habría
sido 82.843 y el del segundo día 117.157, es decir 34.314 más que el
primer día.
PARAMETROSESTADISTICOS
Media armónica
En esta media, en vez de dividir la sumatoria de los datos (£ x) por la
población (n), dividimos la población por la sumatoria de la inversa o re
cíproca de los datos:
media armónica = ——
Esta media se utiliza cuando se trata de datos que se expresan en unida

des relativas, es decir, cuando se refieren a velocidades sobre espacios
iguales, o consumos de volumen en tiempo ¡guales, etcétera. Por ejemplo,
centímetros por hora, litros por minutos, etcétera. Así, si deseamos co
nocer la velocidad media con que se propaga el edema producido por la
picadura de una araña, podemos encontrar que el radio del área de la zo
na edematosa alcanzó I cm en los primeros 15 minutos, es decir una velo
cidad de 4 cm por hora. Pero luego observamos que para alcanzar el 2°
cm el edema tardó 20 minutos. Entonces anotamos velocidad, de la segun
da observación, 3 cm por hora. El 3° cm fue alcanzado 30 minutos des
pués, lo que nos da para la tercera observación una velocidad de 2 cm por
hora. Por fin, el 4° cm se alcanzó 60 minutos después, lo cual nos permi
te registrar la cuarta observación con el dato de I cm por hora. Dispo
nemos asi de cuatro observaciones en las que los datos se valoran en
velocidades sobre espacios iguales, es decir, en unidades relativas.
La velocidad media de la muestra, si recurriésemos a la media arit-
15 + 20 + 30 + 60 = 125 min
:n 2 horas 5 minutos, lo que significa
, ... distancia
velocidad = — --------
29
Como hay datos cuyos valores son mayores que la media y otros que
son menores, los primeros tendrán desvíos positivos (afectados con el sig
no más), y los segundos, desvíos negativos (afectados con el signo menos).
Como el valor de la media es igual al tamaño de la muestra dividido
por la población, puede decirse, en términos generales y aproximadamen
te, que el valor de la media es intermedio entre los valores del primero y
del último término de la serie, e igualmente intermedio entre los del se
gundo y del penúltimo, y entre los del tercero y del antepenúltimo, et
cétera. Es decir, la distancia en magnitud del primer término a la media es
igual a la distancia en magnitud de la media al último, y del segundo a la
media que de la media al penúltimo, etcétera; y en términos exactos, que
la suma de las distancias, en magnitud a la media, de los términos que la
preceden, es igual a la suma de las distancias, en magnitud, de los térmi
nos que la siguen.
Nótese que decimos distancia, que del punto A al B es la misma que
la del B al A, pero no decimos que las sumas de las diferencias sean igua
les, porque no es lo mismo A menos B que B menos A. Como se sabe, la
diferencia entre estas dos restas está en el signo que afecta al resultado,
siendo la cantidad la misma.
Parámetros de dispersión
Se denominan parámetros de dispersión aquellos que tratan de fijar el
valor de la dispersión (véase pág. 9) de los datos de una muestra. Entre
éstos se cuentan la amplitud, el desvío medio o simple o aritmético, el
desvío medio standard y el error standard.
Amplitud
Es la diferencia de valor entre el dato mayor y el menor de la mues
tra, y también entre el último y el primer término de la serie.
Se lo denomina también, a veces, intervalo de variación, o rango.
Puede servir como medida de la extensión de la muestra, pero no nos
da una idea exacta de la dispersión de los datos. Dos muestras pueden
tener la misma amplitud, pero una con los datos concentrados en las pro
ximidades de la media y la otra con los valores de los datos alejados de
ella. Por tanto, es un parámetro poco usado.
Desvio medio aritmético

Es la media de las distancias, en valor, de los datos a la media.
31
Se lo calcula suprimiendo el signo que afecta a los desvíos, sumando*
los después y dividiendo esa suma por su número o cantidad, o sea por la
población de la muestra.
Suele lomarse por los profanos en estadística como valor representa
tivo de los desvíos. Pero esto no es correcto, porque no todos los desvíos
son valores positivos. La mitad de ellos son negativos, y no es lo mismo
un valor positivo que un negativo, es decir, no es posible ignorar o su
primir el signo que afecta a un desvío.
Además de esta dificultad doctrinaria para aceptar el desvio medio arit
mético como representativo de los desvíos de los datos, existe la dificul
tad práctica de ser un valor chico, por lo tanto tener una magnitud pe
queña que lo hace inútil o poco útil en los cálculos estadísticos ulteriores
en los que se necesita un valor representativo de los desvíos.
Desvio medio standard

■Es un valor convencional que se da como representativo de los des
víos. En él se obvia al parecer el inconveniente de que unos desvíos son
positivos y otros negativos, elevando al cuadrado el valor de cada desvío,
con lo cual todos los valores obtenidos son positivos. Luego se suman esos
cuadrados y la suma se divide por la población; finalmente al cociente se
le extrae la raíz cuadrada.
El principal mérito del desvío medio standard es suministrar un valor
cuya magnitud, mayor que la del desvío medio aritmético, lo hace útil
para los cálculos ulteriores en los que se necesita un valor representativo
Se lo simboliza generalmente por una “S” mayúscula subseguida de

una "x" minúscula. Entonces:
■ =\ [
Es decir que el desvío medio standard es la raíz cuadrada de la media
de los cuadrados de los desvíos simples.
El valor así obtenido es suficientemente grande cuando se trata de
muestras numerosas, con una población de 60 o más observaciones, o por
lo menos de 30 o más, es decir de una muestra de Gauss; pero resulta
todavía pequeño cuando la muestra es poco numerosa, o muestra de
Gauss “Student".
En este caso es necesario un valor todavía mayor, y tanto más cuanto
32
Se ha encontrado que este valor útil puede obtenerse multiplicando la
cantidad subradical por el cociente "población sobre población menos
uno”, es decir n-j y , factor conocido con el nombre de “Factor de co
rrección de Bessel”, o sea
Z (x - m)’
Este valor convencional se denomina "desvio medio standard de las

muestras poco numerosas”. Ejemplo:
Si tuviésemos la muestra: I, 3, 5. 7, 9, en la que la media es S y los
desvíos —4, —2,0, +2. +4, el desvío medio aritmético sería:
4 + 24-2 + 4 12
el desvío medio standard:
y el “desvio medio standard de una muestra poco numerosa”.
■ -*
Al desvío medio standard se lo suele llamar de muchas maneras: des

vío medio tipo, normal, convencional, cuadrático, etcétera. Posiblemente
la manera más común de llamarlo es simplemente desvío standard.
El desvío standard, aun siendo un promedio de desvíos, no deja de
ser un parámetro de posición (de la posición del valor representativo de
los desvíos), y por lo tanto puede ser el mismo para muestras de pobla
ciones distintas. Es decir, el desvío standard no nos da una idea de la
población de la muestra.
Error standard
Es el cociente del desvío standard dividido por la raíz cuadrada de la
población.
33
Puede aceptarse que hay un 68% de probabilidad de que la media del

universo se halle dentro de un error standard a derecha o izquierda de
nuestra media y un 95% dentro de 2 Sm * nuestra media.
Desvio relativo de la media

Es el desvío standard (S») expresado en porciento de la media.
Ejemplo: El parto de la primípara tiene una duración media de 14
horas con una desviación relativa de la media del 20%.
■ _ 20 _ 20 _ 20 X 14 _ 280 g
m ~ ío o m “ 100 _ 100 100 ~ ‘ *
Esto significa que el desvio standard es igual a 2,8 horas, o, lo que es

lo mismo, que en el 68% de los casos el parto de la primípara dura 14 hs.
i 2,8 hs., y en el 95% 14 hs. ± 5,6 hs., o sea, entre 8 horas 24 minutos y
19 horas 36 minutos.
Parámetros derivados
Se denominan parámetros derivados a valores calculados indirecta
mente a partir de los valores de los dalos.
Los parámetros derivados son, e indican, relaciones entre otros pará
metros y generalmente se expresan como cocientes. Modifican cuantitati
vamente al parámetro principal o fundamental, del que derivan, pero no
cualitativamente. Por eso suelen denominarse también parámetros sccun-
Es la relación de la dispersión de los datos (expresada como suma de

los cuadrados de los desvíos) con el número de observaciones, o sea con
la población de la muestra. Se la denomina también dispersión o fluctua
ción de los desvíos.
Puede decirse también que es la media de los cuadrados de los des-
Y también que es el cuadrado del desvío standard.
35
ESTADISTICA MEDICA
. si - (JH2Z )’,
Se 16 denomina también desvío relativo.
Significado
El desvío reducido es el desvío simple expresado en unidades de des
vío standard, o sea: el desvío reducido expresa cuántas veces 'el desvio de
la observación es menor o mayor que el desvío medio standard de la
El desvío reducido permite saber a qué distancia relativa de la media

se encuentra la observación a que pertenece, y hacer comparaciones con
las distancias a que se encuentran otras observaciones de la misma mues
tra, o comparaciones con las distancias a la media de observaciones con
igual desvío reducido de otras muestras, en caso de que ambas muestras
tengan una normal distribución de frecuencia.
El principal uso del desvío reducido es su aplicación al cálculo de la
cantidad o porción de-observaciones con menores o con igual o mayores
desvíos reducidos que nuestra observación existente en la muestra. Con
ello se logra una base numérica al concepto de significación de la diferen
cia del valor de una observación al valor de la media.
En una distribución normal, las observaciones cuyos desvíos reducidos
son menores que I. es decir cuyos desvíos simples son menores que el
desvío standard, constituyen algo más del 68% del total de la muestra.
Aquellas cuyos desvíos reducidos son menores de 2, es decir cuyos des
víos simples valen menos que dos desvíos standard, suman algo más del
95% del total. Los que tienen uno menor de 3, es decir, cuyos desvíos
simples valen menos que tres desvíos standard, constituyen algo más del
99,7% del total. Y los que tienen uno mayor de 3, es decir cuyos desvíos
simples valen más que tres desvíos standard, constituyen algo menor del
99,7% del total. También podemos decir que las observaciones cuyos des
víos reducidos valen 1 o más suman algo menos del 32% del total, aque
llas cuyos desvíos reducidos valen 2 o más, consituyen algo menos del 5%
del total y aquellas cuyos desvíos reducidos valen 3 o mis, suman algo
menos del 0,3% del total.
El desvio reducido es una parámetro de dispersión que califica a las
Se denomina Probits al desvío reducido aumentado en 5 unidades.
37
ESTADISTICA MEDICA
La utilidad y razón de ser del Probils consiste en que evita trabajar

con cantidades negativas, lo cual ocurre cuando se trabaja con D. R. co
rrespondientes a datos cuyos valores son inferiores a los de la media.
I£n el Probits el valor del D.R. se aumenta en S unidades porque en la
práctica generalmente se trabaja con D.R. superiores a -S y sólo por
excepción con D.R. menores de -5.
Dispersión de la media
Bs la relación entre la variancia (o sea. entre el cuadrado del desvío
standard) y la población de la muestra.
D. de la M. =
También puede decirse que es el cuadrado del error standard, ya que
ca „ - .-5 1 _ _ SL
" iS T T n•
Significado
Como la variancia y el error standard, de los que deriva, y como su
nombre lo indica, es un parámetro de dispersión, lo cual se ve claramente
Promedio ponderado
Bs la relación del tamaño total de varias muestras, con la población
Zfprom. pare. X pobiac. pare.)

Promedio ponderado =
Población total
38
Significado
El promedio ponderado es la media de un conjunto de muestras de
cada una de las cuales se conoce la media y la población.
Error probable
Es el error standard multiplicado por 2/3 (más exactamente, multipli
cado por 0,67449).
E. Prob. = 0,67449 S , ? y S„ - y ^ = -
E1 error probable equivale aproximadamente a los 2/3 del error stan

dard.
Significado
El error probable de una muestra indica que el 50% de las medias de
las muestras similares a dicha muestra caerán dentro de los limites media
± 1 B.P. de dicha muestra.
Se puede aceptar además que hay un 50% de probabilidades de que la
media del universo caiga también dentro de dichos limites.
Error relativo
Es la relación entre la media y el error standard.
Error relativo = ~
El error relativo es el cociente de la media dividido por el error stan-
Se puede decir también que es la media expresada en unidades de

errores standard y también que el error relativo muestra cuántas veces la
media es mayor o menor que el error standard.
Significado
Si el error relativo es igual o superior a 2, es decir, si la media es igual
o superior al doble del error standard, éste es suficientemente pequeño
39
ESTADISTICA MEDICA
como para aceptar que la media es fidedigna de pertenecer a una muestra

de la muestra, o sea normalmente dispersos alrededor de la media; en
cambio si el error relativo es inferior a 2, o sea si la media es inferior al
doble del error standard, los datos se hallan anormalmente diseminados
dentro de la muestra, esto es, excesivamente dispersos con relación a la
media, lo cual probablemente ocurra porque algunos datos se hallen afec
tados o influidos por factores extraños al resto de las observaciones de la
génea. de una muestra no formada por observaciones similares.
El error relativo es, por lo tanto, un parámetro de dispersión, pero al
mismo tiempo es un parámetro que califica a la media en fidedigna o no.
Es decir que la significación de la media está dada por el valor del E.
R. (Véase capítulo X; Significación de la media).
40
SEGUNDA PARTE
LA MUESTRA NORMAL NUMEROSA O MUESTRA NOR

MAL DE GAUSS
El cálculo de sus parámetros

CAPITULO V
MEDIA, DESVIO STANDARD Y ERROR STANDARD
Método fundamental
Se habla de cálculo de parámetro por el método fundamental cuando
se refiere a aquel que se basa directamente en las fótmuias que expresan
simbólicamente el concepto del parámetro. Así, el cálculo fundamental de
la media es aquel que hace uso directo de la fórmula conceptual.
El del desvio standard el que hace uso direc
Cálculo de la media, del desvío standard y del error standard

El desarrollo de este tema vamos a hacerlo recurriendo a un ejemplo:
Supongamos que se desea conocer el peso medio de los niños recién
nacidos normales, pero además se desea conocer la dispersión de las ob
43
servaciones y la dispersión de las medias de muestras similares a la mués-
Los .datos se hallan registrados en un conjunto de historias clínicas

que hemos seleccionado a objeto de lograr una muestra lo más uniforme
posible. Es decir hemos eliminado todas las sospechosas de pertenecer a
casos de prematuros o de posmaduros, asi como las que presenten algún
dato clínico u obstétrico anormal.
El dato del peso, en las H.C1., está registrado en kilos y gramos, es
decir en un guarismo de 4 cifras. Nosotros, para simplificar el cálculo,
tomaremos solamente las dos primeras cifras, es decir la que expresa los
kilos, y la primera cifra decimal.
Al hacerlo así, tomamos conciencia de que nuestros datos corres
ponden a la clase de los llamados continuos y que cuando decimos, por
ejemplo, 3,2, decimos en realidad 3,2 o más. pero menos de 3,3.
Estos datos se nos presentan en el conjunto de H. Cl. en forma de
sordenada, es decir que después del valor consignado en una historia,
encontramos que el de la siguiente puede ser menor, igual o mayor, indis-
Nuestra tarea inmediata será, por lo tanto, ordenarlos y agruparlos

por grupos de valores iguales, para lo cual hacemos uso del método de los
palotes. Este consiste en tomar una hoja de papel, y en una primera co
lumna, encabezada con una x minúscula, colocamos una serie de valores
sucesivos, desde el que consideramos que ha de ser el menor, hasta el que
pensamos que será el mayor.
Si esto no se confirmara y encontráramos valores más pequeños o
mayores que los esperados, no habrá inconveniente en agregarlos antes del
primero o después del último. Esa primera columna estará por lo tanto
formada provisionalmente, y quizá definitivamente, por los valores indi
cados en el cuadro 7.
A continuación leemos el dato en cada historia clínica y en la 2da.
columna marcamos un palote en la línea del valor correspondiente. Así
hemos obtenido la siguiente columna.
Hecho esto, obtenemos los valores de una 3ra. columna, encabezada
por una “f , sumando los palotes de cada línea. La suma de esta columna
(£ f) es la población de la muestra.
2 f= 44
Por fin. organizamos una 4ta. columna encabezada x í multiplicando el

valor del x por f. La suma de esta columna (2 x f) es el tamaño de la
44
MEDIA, DESVIO STANDARD YERROR STANDARD
2 * f = 146,9 = T
Hemos hecho asi varias cosas:

1°) Hemos ordenado los dalos.
2°) Hemos agrupado los datos, obteniendo grupos ordenados.
Cuadro 7
EJEMPLO DE AGRUPAMIENTOYORDENACIONDE LOS DATOS:
PALOTES
Exf ■ tamaño tpeso total de todos los niños).

ESTADISTICA MEDICA
3”) Hemos obtenido la población de los grupos, es decir la frecuen

cia, la que por estar ordenados de acuerdo a los datos, constituye una
distribución de frecuencias. Vemos que en esta muestra la frecuencia se
inicia con un valor mínii .c* aumenta progresivamente hasta un valor
máximo, a partir del cual .isminuye también progresivamente, hasta vol
ver a un valor mínimo, quedando el grupo de frecuencia máxima relati
vamente equidistante de los grupos de frecuencia mínima. Esta distribu
ción de frecuencia es, por lo tanto, una distribución casi normal.
4 ) Hemos obtenido la “población" y el "tamaño" de la muestra.
Con este tratamiento previo de la muestra estamos ya en condiciones

de calcular los parámetros media, desvío standard y error standard, por
los métodos fundamentales.
El más sencillo de todos es el cálculo de la media.
La media es igual al tamaño de la muestra dividido por la población.
Entonces tenemos:
El desvio standard es la raíz cuadrada de la media de los cuadrados

de los desvíos. Debemos calcular por lo tanto los desvíos, elevarlos al cua
drado y obtener su sumatoria. Esto exige la confección de una "planilla
de operaciones". Esta se confecciona de la siguiente manera:
En una primera columna, encabezada por una "x". se coloca el valor
del dato o de los datos que integran cada grupo. Naturalmente, los grupos
inexistentes no aparecen en la planilla. Ver cuadro 8.
En una segunda columna, encabezada por una *T\ colocamos la po
blación de cada grupo, o sea la frecuencia.
Dijimos que la suma de esta columna es la población de la muestra.
A continuación calculamos los desvíos de cada dato, es decir sus dis
tancias a la media ya calculada y los colocamos en la línea correspondien
te al dato, en una 3ra. columna encabezada por la expresión x - m.
Ahora formamos una 4ta. columna, encabezada por la expresión (x -
ni)3, formada por los cuadrados de estos desvíos.
Luego formamos un Sta. columna, encabezada por la expresión f (x —
m)z , formada por los productos de la frecuencia o población de los
grapos multiplicada por el cuadrado de los desvíos, con lo cual se obtiene
el tamaño de los grupos de les desvíos elevados al cuadrado.
Su suma es el tamaño de los cuadrados de todos los desvíos y su
media es la cantidad subradical del desvío standard.
£ £ fi i £ £ £ £ £ £ £ £ £ £ £ £ £ C
ESTADISTICA MEDICA
3°) Que la dispersión de las medias es 0,06.

(Si queremos, podemos expresarlos en gramos).
Esto significa: 1°) que el peso medio de los recién nacidos de la
muestra es 3,3 kg; 2o) que si bien es cierto que ese peso solo lo tienen
algunos recién nacidos (y quizá ninguno) el peso del 68% de ellos está
comprendido entre la media más un desvío standard y la media menos un
desvio standard, es decir entre 2,9 y 3,7 kg; y 3°) que el 95% está com
prendido entre la media más o menos 2 desvíos standard; es decir, entre
2,S y 4,1 kg, y significa además que si se examinan muchas muestras si
milares a la muestra, es posible, igualmente, que sólo algunas medias, (o
quizá ninguna) coincida con la muestra, pero que en el 68% de las mues
tras la media se encontrará entre la nuestra menos un error standard y
nuestra media más un error standard, es decir entre 3,24 y 3,36 kg, y en
el 95% entre nuestra media más o menos 2 errores standard, es decir entre
3,18 y 3,42 kg.
Así se obtienen la media, el desvío standard y el error standard por el
método fundamental.
Cuando se trata de muestras pequeñas, poco numerosas, no hay in
conveniente en utilizar este método, pero cuando son muestras grandes y
numerosas, este método puede resultar largo y fatigoso. En esos casos es
preferible utilizar métodos simplificados basados en fórmulas derivadas de
las fundamentales.
Para comprender estas fórmulas y estos métodos es necesario conocer
previamente algunas propiedades de la media y del desvío standard. Es lo
que pasaremos ahora a estudiar.
CAPITULO VI
SUMARIO: Propiedades de la media y del desvio standard. Propiedad “A"

de U media. Propiedad "B". Propiedad "A" del desvío standard. Propiedad
El cálculo de los parámetros media, desvío standard, y variancia pue

de hacerse, naturalmente, por el método fundamental, es decir utilizando
directamente las fórmulas conceptuales de estos parámetros; pero a veces
los cálculos realizados utilizando estas fórmulas resultan muy largos y
laboriosos, especialmente cuando se trata de muestras numerosas y de
gran tantalio. Por este motivo los estadísticos han buscado y obtenido
métodos simplificados de cálculo que abrevian y aligeran extraordinaria
mente esta tarea. Estos métodos simplificados utilizan fórmulas derivadas
de las fundamentales, las cuales se basan en propiedades especiales de
estos parámetros.
Para comprender dichas fórmulas es por lo tanto indispensable cono-
siguiente.
Propiedad “A” de la media

Si desplazamos el 0 de una serie y lo colocamos en un punto cual
quiera 0', se modifican los valores de los términos y por lo tanto el de la
ESTADISTICA Mi
Coloquemos ahí
segunda observación
vos valores de los te
Este es el valor de la media (m‘) de los nuevos datos (modificados por
Vemos así que la nueva media es igual a la media real menos el valor
de la escala en que se colocó 0*. Es decir:
m' = m - va = 165 - 160= 5 (1)
De (1) se deduce:
m = m' + v.a. (2)
Es decir: lamedia real (m) es igual a la media delosnuevos valores

sumadaalgebraicamente alvalor arbitrario (v.a.) en el que secolocó el
m = 5 + 160 = 165
PROPIEDADES DE LA MEDIA Y DEL DESVIOSTANDARD
Importancia de la propiedad "A "de la media

Cuando los valores de los dalos se expresan con números alejados de
cero, como ocurre cuando se miden la estatura de la personas en cm, o
las presiones arteriales en mm, o se trata de densidades de orina, etcétera,
es mucho más cómodo, al hacer el cálculo de la media, transformar los
valores de los datos en otros más chicos, colocando el 0' de la nueva es
cala más cerca de los valores de la muestra, y hasta dentro de ella.
De ese modo se transforman los valores primitivos en otros secunda
rios. En estas condiciones, la media que se obtenga será también una
media secundaria; pero será muy fácil transformar esta media secundaria
en la media de la serie primitiva con sólo sumarla algebraicamente al valor
frente al cual se colocó el 0' de la escala, al hacer la transformación de los
valores primitivos en los secundarios.
Ejemplos
Se nos pide la estatura media de 4 personas cuyas tallas, se dan en
cm, en la siguiente forma; La Ira. mide ISO cm, la 2da. 160; la 3ra. 170,
y la 4a. 180 cm.
De acuerdo con el procedimiento fundamental tendríamos que sumar
esos 4 valores y la suma dividirla por 4.
Asi
150 + 160 + 170 + 180 = 660
m = 660 •/. 4 = 165
La estatura media de esas cuatro personas es, pues, 165 cm.

Pero nosotros, en vez de trabajar con números superiores a 100, po
demos hacerlo con otros menores, transformando los valores originarios en
otros más pequeños, con sólo tomar esos valores desde un punto situado
más o menos lejos del 0 y más o menos cerca de la muestra, como, por
ejemplo, desde 100 cm, o sea desde el metro.
Entonces el problema planteado podría expresarse en la siguiente tüi
¿Cuál es la talla media de 4 personas, la la. de las cuales excede al

metro en 50 cm; la 2a„ en 60; la 3a., en 70, y la 4a.. en 80 cm?
Para resolver este problema tomamos como antes estos datos y los
sumamos, pero *ahora sumamos números menores de 100, mientras que
antes sumábamos números mayores de 100, y en ello consiste la simplifi
cación del cálculo.
51
ESTADISTICA MEDICA
La media de esos 4 valores derivados es:
50 + 60 + 70 + 80 = 260
m- = 260 •/. 4 - 6 5
La media de estos valores derivados es 65; pero nosotros necesitamos

la media de los valores originarios y no la de los valores derivados.
La solución, muy simple, consiste en agregar algebraicamente esa
media derivada (65) al valor frente al cual se colocó el 0' de la escala al
hacer la transformación de unos valores en otros, es decir a 100.
La media de los valores originarios es, pues,
m = 65 + 100 = 165
Es decir el mismo resultado que habíamos obtenido antes.
Si en vez de colocar el 0‘ de nuestra regla sobre el 100 de la escala
originaria, lo colocamos frente a cualquier otro valor, el resultado no cam
bia. Por ejemplo, coloquemos el 0' frente al valor 120 de la escala origi
naria: Esto equivaldría a plantear el problema de la siguiente manera:
¿Cuál es la estatura media de 4 personas, la la. de las cuales excede
en 30 cm a los 120; la 2a., en 40; la 3a.. en 50, y la 4a„ en 60 cm:
Como antes, sumaríamos esos 4 valores y la suma la dividiríamos por
4. Así:
30 + 40 + 50 + 60 = 180
m’ = 180 •/. 4 = 45
Ahora agregaríamos esta media secundaria o derivada al valor frente al

cual pusimos el 0' de nuestra escala, es decir a 120, y el resultado será la
media de los valores originarios. Esto es
m = 45 + 120 = 165
Es decir: el mismo resultado que antes.

También podríamos poner el 0‘ en uno de los datos de la muestra y
tampoco cambiaría el resultado.
Por ejemplo, podríamos colocarlo en el 1° de ellos, es decir en 150.
Entonces el problema podría plantearse en esta forma:
¿Cuál es la talla media de 4 personas, la más baja de las cuales mide
150 cm; la siguiente, 10 cm más; la otra, 20 cm más, y la 4a., 30 cm
más?
Esta sería la media derivada; la media verdadera, es decir la de los
itos originarios, se obtiene sumando esa media derivada al valor frente al
tal se puso el 0' de la escala al hacer la transformación de unos valores
i otros, es decir a ISO. Y así:
m = 15 + 150 = 165
Tenemos la misma media de antes.

Tampoco cambiaría el resultado final si el 0’ de la escala lo pusiára-
ios sobre cualquiera de los otros datos de la muestra, o hasta sobre un
üor inexistente en la muestra, como podemos comprobarlo fácilmente.
Coloquemos, por ejemplo, el 0' sobre el valor 155, inexistente en la
Entonces el problema se plantearía así:

¿Cuál es la talla media de 4 personas, una de las cuales mide 5 cm
icnos de 155 cm; otra, 5 cm más; otra. 15 cm más, y la otra, 25 cm
Sumando algebraicamente esos valores, te

Dividiendo la suma por 4, tenemos
Esta es la media derivada. La media originaria o verdadera es igual a
más 155. Entonces:
53
ESTADISTICA MEDICA
Coloquemos ahora el 0' frente a otro valor de la muestra, por ejemplo

frente al 2°, es decir frente a 160. Entonces el problema podría presen
tarse como sigue: ¿Cuál es la talla media de 4 personas, la la. de las cua
les mide 10 cm menos que la 2a.; ésta mide 160 cm; la 3a., 10 cm más
que ésta, y la 4a., 20 cm mis que esta 2a.?
Ahora los valores derivados serian
-10; 0;+10;+ 20
La suma algebraica es: +20
La media derivada es: +5
La media verdadera es: +5 + 160 = 16S
Es decir, la misma de siempre.
Coloquemos, para verificar, el 0' sobre el 3er. valor, es decir sobre
170.
Entonces los valores derivados son:
- 20; - 10; 0; +10
La suma algebraica es -20.
El cociente o media secundaría m‘ es:— = —5.
La media verdadera es:
m = -S + 170 = 170 - S = 165
Lo mismo de siempre.
Coloquemos ahora, el 0- sobre el último valor de la muestra, es decir
sobre 180.
Entonces los valores derivados son:
-30;-20;-10; 0
La suma algebraica es: -60

El córente m' es: -60 ■/. 4 = -15
La media verdadera m = -15 + 180 = 180 - 15 = 165
Lo de siempre.
Pero también podemos colocar el 0' más allá de la muestra, por ejem
plo en los 2 m, o sea en los 200 cm.
Entonces el problema se presentaría como si fuese:
54
faltan SO cm para medir 2 m; a la 2a. Ic faltan 40; a la 3a„ 30, y a la 4a.,
20 cm?
Ahora los valores derivados son:
-50; -40; -30 y - 20
La suma algebraica es -140

La media verdadera m es: -3S + 200 o sea: 200 - 35 = 165
Lo mismo de siempre.
Es decir, en definitiva, que para comodidad en el cálculo de la media,
para poder operar con números más pequeños, podemos seguir el proce
dimiento de transformar los valores originarios en otros más chicos, colo
cando el 0' de estos valores frente a un valor arbitrario cualquiera de la
otra escala, por ejemplo frente a un valor próximo o interior a la muestra,
recordando que la media asi obtenida será por lo pronto una media deri
vada, secundaria o arbitraría, que podrá transformarse en la media ver
dadera con sólo sumarla algebraicamente al valor arbitrario frente al cual
se colocó el 0' de nuestra escala. Es decir,
m = m’ + valor arbitrario,
que es lo que dijimos al principio (2)
Propiedad "B” de la media

Si dividimos cada uno de los términos de una serie por un divisor
común, obtenemos una nueva serie y, por lo tanto, una nueva media. Esta
es igual a la media anterior dividida por el divisor común.
De (3) se deduce:
m = m- r 4
()
Es decir que: la media real (m) de los valores originarios es igual a la
media de los nuevos valores (m-) multiplicada por el factor de reducción
W-
55
ESTADISTICA MEDICA
Ejemplo I
PROPIEDADES DE LA MEDIA Y DEL DESVIOSTANDARD
Esta es la inedia reducida de la serie reducida. Como vimos en (4), la

media de la serie primitiva es igual al producto de esta media reducida por
el factor de reducción. En el ejemplo dado
Propiedad “A" del desvio standard

Cuando una serie estadística se transforma en otra por haberse colo
cado el 0' en un lugar distinto de 0, el valor de los desvíos no se modifica
y, por lo tanto, el desvío medio standard de esta serie derivada es el
mismo que el de la serie primitiva.
S,. = Sx
- V¡66
= 12,88
= V ¡66
= 12,88
57
ESTADISTICA MEDICA
Propiedad “B" del desvío standard

Cuando una serie estadística se transforma en otra por división de
cada uno de sus términos por un divisor común (r), llamado también fac
tor de reducción, el desvío standard de esa serie derivada es igual al des
vio standard de la serie primitiva dividido por dicho factor de reducción.
S8
Como vimos en (6)
Sx' = — S* = r S*’
Es decir que el desvio standard de la serie primitiva es igual al desvio

standard de la' serie derivada multiplicado por el factor de reducción.
En el ejemplo dado,
S* = 5 X 2,58 = 12,88
Si se resta a todos los datos de una muestra un sustraendo común la
si dichos datos son divididos por un divisor común, tanto la x como el Sx

resultan divididos por dicho divisor.
59
CAPITULO VII
La variancia, como se sabe, es la media de los cuadrados de los des-
v „ . = z ( x ~ m)1
por lo cual se la denomina también desviación cuadrática media.
la. observación
Si al hacer el cálculo de la variancia, en vez de tomar las diferencias
de los datos a la media se toman a un valor arbitrario (v. a.) distinto de
ella, se obtiene un resultado mayor, independientemente que el valor arbi
trario sea mayor o menor que la media. (Es decir que los cuadrados de las
diferencias de los datos a la media (x - m)1, son cuadrados mínimos.)
,Ejemplo 1
x m x- m (x - mí1
2 -3 9
61
ESTADISTICAMEDICA
E(* - v.a.)J = 36
(X - V.O.Í1
1
1 E(x - v.a.)» 36
£(x - v.».)1 ■
También aquí vemos que
Como la media de la muestra

la media del universo, la variancia real
mayor que ia obtenida a parí
variancia de la muestra subestima el valor de
rencia es especialmente manifiesta en las mu
cambio, en aquellas cuya población es de 30 más, y especialmente er
las de 60 ó más, la diferencia resulta insignificante.
62
VARIANCIA
Para compensar esta pequenez de las variancias de las muestras poco

numerosas, o de Gosset "Student", que veremos más adelante, al resulta
do obtenido al hacer el cálculo de la misma debe multiplicárselo por el
cociente de la población dividida por la población menos uno, es decir
por , factor conocido con el nombre de factor de corrección de
Bessel, como vimos en la página 33, capitulo 4.
En la medida en que la población de la muestra es mayor, el valor del
factor de Bessel se aproxima a la unidad. Cuando la población es nume
rosa, el valor de dicho factor es tan próximo a 1, que su aplicación prác
ticamente no modifica el resultado y por lo tanto puede no ser utilizado.
3a. observación
Si al hacer el cálculo de la variancia se toman las diferencias de los
datos a un valor arbitrario distinto de la media, el resultado difiere de la
variancia en el cuadrado de la diferencia entre la media y el valor arbitra-
Así, en el ejemplo 1 de la Ia. observación
J ^ £ - V a , = 9 -5 = 4
(m - v.a.)a = (S - 7)a = (-2)* = 4
Y en el ejemplo 2 de la misma observación.
S (x —yj.)a _ yac —9 _ 5 = 4
(m - v.a.)1 = (5 - 3)a = 2a = 4
Por consiguiente:
Var _ Z (* ^v.a.) (m _ v a )i fórmula (1)
63
Es decir que cuando los desvíos de los datos se toman restando' de
ellos un valor arbitrario (v.a.) distinto de la media (n)), la variancia real
(var.) es igual al nuevo resultado menos el cuadrado de la diferencia de la
4a. observación
Cuando el valor arbitrario hasta el que se toman las diferencias de los
datos es 0, dichas diferencias son los propios datos, ya que cualquier
número es igual a la diferencia entre él y 0, o sea cualquier número es
igual a si mismo menos 0. Lo mismo ocurre con la diferencia de este
valor arbitrario 0, de la media. O sea
Por lo tanto, de la fóimula (1) sacamos:
Var. - — — - n? fórmula (2)
Es decir que cuando los desvíos de los dalos se loman restando de

ellos el valor cero, o sea cuando se loma como valor de los desvíos el
valor de los propios datos, la variancia real (Var.) es igual a la media de
los cuadrados de los datos menos el cuadrado de la media.
Esta fórmula (2) puede adoptar la forma
Var.= — — - ( ~ ~ ~ J fórmula (2 bis,)

Y también ésta
64
E x 2 (Sx)J _ _120 400 _ 120 _ 100 _ 20 ,
Es decir, el mismo resultado <
Sa. observación
La fónnula 2 bis,
Var.= -
- (Ex)»/n E x » -T » /n
fónnula (3)
la fónnula (3) puede adoptar la forma
Ex = mn = T
la fónnula (4) puede tomar la forma
Var = £ ~ m2 * = S <*-"■
ESTADISTICAMI
1°) El cuadrado del tamaflo dividido por la población (fórmula 3).

2°) La media multiplicada por el tamaflo (fórmula 4).
3°) El cuadrado de la media multiplicada por la población (fórmula
S* = 20 m= 5 y = 120
Í5 Ü 1 - — = ion
'■x = S X 20 = 100
n = 25 X 4 = 100
Sx* - T*/n _ I r 1 - n i
Estas son las fórmulas que generalmente se utilizan en la práctica.

l ? r
iás exacta es la primera (fórmula 3), porque no necesita calcular la
¡a, con lo cual se evita la imprecisión obligada de un parámetro 3
ene que expresarse con un número limitado de decimales, como oci
>n la segunda (4) y especialmente con la tercera (5), cuya inexactitud
imenta al potenciarse la media.
Cuando las muestras son de escasa población, 30 observaciones o
s "n".
Asf, en la pequefia muestra vista, la planilla y los cálculos son los
- 4; Ix = T = 20; £xJ = 120

S*3 - Ta •/. n 120 - 400 •/.
VARIANCIA
6a. observación
Cuando los valores de los datos se dividen por un divisor común (r) la
varianza de estos nuevos datos (var') es igual a la varianza de los datos
originarios (var) dividida por el cuadrado del divisor común (r3)
Var' = var ■/. r3
=53 —25
Se'3 - T'3-/. n 120 - 400 /. 4
120 - 100 20
En el ejemplo dado:
20 25 X 20
Var = 53 X
67
CAPITULO VIII
SIMPLIFICACION DEL CALCULO DE LA MEDIA
SUMARIO. Simplificación de los cálculos de la media. Variantes y simpli

ficaciones en el cálculo del desvío standard. Verificación de los cálculos.
Como es sabido, el cálculo de la media se hace fundamentalmente

sumando todos y cada uno de los valores o datos de las observaciones de
la muestra y dividiendo luego esta suma por la población, o sea por el
número o cantidad de tales datos:
Ex T
ler. método de simplificación

Cuando en una muestra hay datos repetidos, una primera simplifica
ción de los cálculos consiste en agrupar esas observaciones repetidas y
verificar cuánto suman. Esta suma se llama frecuencia de dicha observa
ción repetida.
Una vez hecho esto, en vez de sumar los datos de las observaciones
originarias, teniendo en cuenta que la multiplicación es una suma abre
viada, la simplificación consiste en multiplicar el valor del dato que se
repite por la frecuencia con que lo hace.
Después se suman estos resultados o productos y finalmente esta
sumatoria se divide por la población.
- Sxf
Ejemplo
En un problema donde se dan los datos del número de resfríos .te
nidos en un aflo por cada una de las 641 personas que constituyen la
ESTADISTICAMEDICA
muestra se pregunta cuál es el número medio de resfríos tenido por esas

personas, o sea, cuál es la media de la muestra.
De acuerdo con el método originario del cálculo de la media, habría
que sumar el número de resfríos tenido por cada una de las personas, y
dividir luego esta suma por el número dicho de personas, o sea por 641.
Es evidente que este procedimiento resulta largo y engorroso.
Mucho más simple, e igualmente exacto, es agrupar las personas que
habían tenido el mismo número de resfríos y hacer su recuento, esto es,
verificar cuánto suman. Luego multiplicar esta suma por el número de
resfríos tenido por cada una de ellas. Hacer después la suma de esos
productos y finalmente dividir la sumatoria por el número o cantidad de
personas.
En esta forma, una suma que iba a comprender 641 sumandos se
transforma en otra con solo 10 sumandos.
2do. método de simplificación

Cuando los valores de los datos se expresan con números alejados del
cero, como ocurre cuando se miden las estaturas de las personas en cm, o
las presiones arteriales en mm, o se trata de densidades de orina, etcétera,
una manera de simplificar los cálculos es operar con números más peque
ños, transformando los valores de los datos en otros más chicos, colocan
do el 0’ de la escala más cerca de los valores de la muestra y aun dentro
de ella.
Naturalmente esto significa transformar los valores primitivos en otros
secundarios, y en estas condiciones la media que se obtenga será también
una media secundaria; pero, como hemos visto, será muy fácil transformar
esta media secundaria en la media correcta, con sólo sumarla algebraica
mente al valor frente al cual se colocó el 0' de la escala al hacer la trans
formación de los valores primitivos en los secundarios.
3er. método de simplificación

De acuerdo con la propiedad "B” de la media cuando los valores de
una serie se dividen por un divisor común, la media (m'j de esta serie
derivada es igual a la media (m) de la serie primitiva dividida por este
divisor común.
Esto permite un 3er. procedimiento de simplificación del cálculo de la
media. La media de la serie primitiva se obtiene multiplicando esta media
reducida (m') por el factor de reducción: m = m’ r.
70
Ejemplo
En elproblema de la talla media de 4 personas que miden respecti
vamenteISO, 160, 170 y 180 cm podemos transformar estosvalores en
otros menores y por lo tanto más manuables, dividiéndolos por un de
nominador común, que puede ser 2, 5 6 10. Dividiéndolos por este último
factor de reducción obtendremos los siguientes nuevos valores:
1S; 16; 17 y 18,
los cuales son 10 veces más pequeños que los originales.

Para obtener la media de estos nuevos valores procedemos, como
siempre, primero a sumarlos y después a dividir la suma por el número o
cantidad de ellos.
15 + 16 + 17 + 18 - 66
m’ = 66 ■/. 4 = 16,5
Esta es una media reducida (m’).
La verdadera media (m) de la muestra original la obtendremos multi
plicando esta media reducida por el factor de reducción (r).
Así:
16,5 X 10 = 165
4to. método de simplificación

A riesgo de cometer un pequeño error, el cálculo de la media puede
también simplificarse agrupando los valores próximos dentro de un inter
valo y considerando que las observaciones dentro de cada grupo son igua
les al valor central de dicho intervalo.
Es verdad que no todos, tal vez sólo algunos, o quizá ninguno de los
valores reales coincidirá con el valor central, y que seguramente la mayo
ría se distribuirá entre unos que valen menos y otros que valen más que
dicho valor central. Pero precisamente ahí está la probabilidad de que las
diferencias se neutralicen mutuamente y que el producto de la frecuencia
por el valor central resulte igual o muy cercano a la suma de los valores
individuales del grupo.
Después se sigue como en el 1er. procedimiento de simplificación de
los cálculos, multiplicando dicho valor central por el número de observa-
cione^ydel grupo; a lo cual sigue la sumatoria de estos productos, y por
fin la división de esta sumatoria por la población de la muestra.
71
ESTADISTICA MEDICA
3910 = 2 (v.C. Xf)
72
SIMPLIFICACION DLLCALCULO DE LA MEDIA
, _ S (v.C. - V.a.)f 95
m n 30 “ '
m = m' + v.a. = 3,2 + 127,5 = 130,7
r muy próximo al anterior (1303) y también ir

i.
. £ (v e. - v.a.) f
También podríamos combinarlo con el 3er. procedimienlo, cuidando

que los intervalos fueran iguales, como lo son en este ejemplo, dividiendo
cada valor central por un común denominador, o factor de reducción (r),
que en este ejemplo podría ser 5. En este caso en símbolos la fóimula es:
Entonces la planilla la confeccionaríamos de la siguiente m
73
ESTADISTICA MEDICA
La media resulta ser 130,3, es decir, al misma obteiíida con el 4to.

procedimiento seguido en forma exclusiva.
Finalmente pueden combinarse los tres últimos procedimientos, es
decir, el 2°, el 3o y el 4o.
Entonces la planilla la comenzamos como para el 4°, seguimos con el
2° y terminamos con el 3°, es decir empezamos agrupando las observa
ciones próximas en intervalos iguales y dándoles como valor el del valor
central del intervalo (tal como se hace en el procedimiento 4°). Después
tomamos arbitrariamente un valor situado aproximadamente en el centro
de la serie, y en él colocamos el 0’ de nuestra escala. Transformamos
entonces los valores originarios en otros expresados por números menores,
de los cuales unos son negativos y otros positivos. Hecho esto hallamos un
común denominador (el mayor que podamos) y lo tomamos como factor
de reducción (tal como se hace en el procedimiento 3°), dividiendo los
vamos a un mayor empequeñecimiento aún.. Luego cada uno de esos

números diminutos los multiplicamos por la frecuencia de las observacio
74
SIMPLIFICACION DI
nes del grupo a que pertenece su antecesor en 2° gr. Después hacemos la

sumatoria de estos productos y la suma la dividimos por la población.
Esta es una media en 2a. derivación; para llevarla a la. derivación la
dimiento 3o), y finalmente esta media en primera derivación, la llevamos a

su valor real sumándola algebraicamente al valor arbitrario en el cual
pusimos el 0’ de la escala, (Como se hace en el procedimiento n° 2.)
En símbolo, 1. fóimul. es: m = r + va.
- 15
- 10
- 5
,7
- 5 = — = 2,8
2,8 + 127,5 = 130,3
Es decir que obtenemos el mismo resultado que antes.
75
Tomando como factor de reducción el intetvalo, como se hizo en este
caso, puede suprimirse la columna 3 y los cálculos necesarios para con-
En este caso se procede en la siguiente forma:

A continuación de la columna 1 se arma directamente la columna S,
que corresponde al cociente ve —va •/. factor de reducción, colocando un
0 frente al valor arbitrario prerrayado, y por encima y por debajo del 0,
la serie natural de los números. 1, 2, 3, etcétera, con signo negativo los
superiores (siempre que la serie de la la. columna vaya de menor a mayor
de arriba abajo) y con signo positivo los inferiores; a continuación se
Vamos a ilustrar esta simplificación confeccionando la planilla corres

pondiente a un problema de informes de laboratorio con los dosajes de
Hgl de 1022 pacientes, en los que la media obtenida por el método clá
sico es 94,5%.
62.5
67.5
72.5
77.5
82.5
87.5
92.5
97.5
102.5
107.5
112.5
+ 87,5 = 7 + 87,5 = 94,5
Es decir, el mismo resultado que con el trabajoso método primitivo.
76
VARIANTES Y SIMPLIFICACIONES EN EL CALCULO DEL DESVIO STAN-
ler. procedimiento:
Cuando los valores de una muest
ción de la propiedad A del desvio st
más chicos, simplificando asi el cálcul
2do. procedimiento
valores comprendidos dentro del intervalo, la aplicación de la propiedad

"B” permite trabajar igualmente con números más chicos, simplificando
de ese modo el cálculo. Por ejemplo, si se nos pidiese el desvío standard
de la serie 35, 40, 4S, 50, 55, clásicamente tendríamos que proceder así
l F : = / ñ 5 = 7,9
Aplicando la propiedad "B” S* = r S*', procederíamos as
77
ESTADISTICAMEDICA
3er. procedimiento
Naturalmente, estos dos procedimientos pueden aplicarse en combi
nación; por ejemplo, si se nos solicita el desvío standard de estas cinco
densidades de orinas, podríamos proceder así:
4to. procedimiento
La 2da. observación relativa al cálculo de la variancia nos permite cal
cular el desvío standard de una manera diferente del método clásico, que
también puede resultar un cálculo simplificado.
Como se recordará, dicha manera consistía en tomar la diferencia de
las observaciones a un valor arbitrario distinto de la media, en cuyo caso
En la misma forma (tomando la diferencia a un valor arbitrario dis

tinto de la media), el desvío standard es igual a:
78
Recordemos que, tratándose de mué;
debe ser ampliado multiplicándolo por
observación.
Entonces
-]/ T <s - ‘ ) - !,5!

Clásicamente hubiéramos tenido que proceder así
79
ESTADISTICA MEDICA
Cuando el valor arbitrario desde el que se toi

dichas diferencias son los propios datos, según vi
vación. En este caso el desvio standard de una mi
-V p -
= 2,58
n procedimiento de cálculo
80
Cualquiera de las fórmulas de la variancia derivadas de la anterior y
que vimos en la 4ta. y Sta. observación con los nros. (2), (2bis,). (2bis,),
(3), (4) y (5) pueden aplicarse para el cálculo del desvio standard. Estas
últimas son especialmente útiles por su sencillez y porque para las peque
ñas muestras de GOSSET •‘STUDENT" basta hacer el denominador subra-
s^ = ^ 220 - (900 /Tí) ^ 220-11
= \p ?-4 VIO = 3.16 fórmula (3)
Si = ~ = 220 —(30 X ~6y_ ^ I 220 - 180 _
= = S W - 3,16 fórmula (4)
O bien:
, I 220 - 5 X 63 . I 220 - 180
81
ESTADISTICA MEDICA
7mo. procedimiento
!e ellos puede combinarse con las anterio-
s , . Sx = r 2 y¡
=2 y = 2 “ 2 V^iso = 2 X 0,58 = 3,16
o bien
82
2 X 1,58 = 3,16
v - V W '-
S, -= S,1 = 3,16
Verificación de los cálculos
La complejidad de los cálculos estadísticos hace que con facilidad
puedan deslizarse errores inadvertidos. Debemos verificar, pues, nuestros
resultados antes de darlos por correctos.
Dos de los métodos más comúnmente usados para realizar esta verifi
cación son los llamados: De "la media más o menos tres desvíos stan
dard” y el "método de Charlier”. Veámoslos mediante un ejemplo. To-
fie" fx " 2
5 3 - 6 0 - 18 108
15 8 - 5 0 40 200
25 9 -4 0 - 36 144
3S 19 - 30 - 57 171
45 1 5 -2 0 - 30 60
55 28 - 10 - 28 28
65 30 0
75 34 + 10
85 36 +20
95 38 + 30
105 13 + 40
115 7 +50
125 9 + 60
135 1 +70
Z f=250 = n Efx” = 159 1987 = ££*"’
83
m = va + — f - r = 65 + 10 -^¡j- = 65 + 6,36 = 71.36
^ ■V W ^ T W - ■«V W H T -
= 10 y f 7, 948 - 0,636’ = 10 -J 7,948 - 0.4045 = 10 V 7,5435 =
= 10 X 2,74 = 27,4
Método de la media máa o menos tres desvíos standard

En este método se toma en cuenta que, en una muestra normal nume
rosa, el intervalo comprendido entre la media menos tres desvíos standard
y la media más tres desvíos standard abarca el 99,7% del total de las ob-
culados, sumando y restando tres desvíos standard a la media, obtendre-
caso, s£rán 5 y 135. ^ ’
m + 3 Sx = 71 + 3 X 27 = 71 + 81 = 152
m - 3 Sx = 71 - 3 X 27 = 71 - 81 = -10
.Prueba de Charlier
2 f x ”’ + 2 2 f Jr” + 2 f = 2 f ( x " + l ) J
El valor del primer miembro de esta igualdad lo podemos obtener por
los valores ya calculados en nuestra planilla. En efecto
2 f x í* + 2 2 f X” + 2 f = 1987 + 318 + 250 = 2555
da en la anterior
84
Como el valor de ambos miembros de la igualdad es el mismo, nues

tros cálculos de la media y del desvío standard son correctos.
85
CAPITULO IX
ECUACION DE LA CURVA DE CAUSS

ESTADISTICA MEDICA
Si hacemos m = 0, la media, y por lo tanto el eje de simetría de

la curva, coincidirá con el eje de las ordenadas.
La forma de la curva normal está dada por los valores de los desvíos
simples y standard y por la población "n” de la muestra. Ellos constitu
yen los parámetros de la curva.
En esta fórmula, el desvío simple (x - m) y el desvío standard (Sx)
se miden en unidades originarias.
Si al quebrado y r m , desvío relativo de x. lo reemplazamos por
“c", la fórmula se transforma en:
y=-
Si a la población n de la muestra la consideramos una unidad y la

representamos por 1, y al desvío standard le damos igualmente el valor 1,
la fórmula anterior queda transformada en la siguiente fórmula reducida:
* que la ordenada "y” es función del di
Cálculo de la ordenada “y”

Para calcular la ordenada “y" correspondiente a cada observación de
abeisa "x”, tanto en la fórmula general como en la reducida, tendríamos
que efectuar una serie de cálculos un poco laboriosos. Para a'iviar ese tra
bajo, los matemáticos han construido "tablas de ürdenadas de la curva
normal" sobre la base de la fórmula reducida, en las que se dan los valo
res de las ordenadas, es decir de “y", correspondientes a una serie de
desvíos reducidos "c", elegidos arbitrariamente, (ver Apéndice, Tabla 1,
página 297 y siguiente). Al decir que estas tablas están construidas sobre
la base de la fórmula reducida, decimos que corresponden a una curva y a
una distribución de frecuencias en las que:
m= 0
S*= 1
88
Por lo tanto, en un caso concreto, en el que tanto la población “n"
como el desvío standard Sx tengan un valor distinto de 1, el valor dado
por la tabla debe multiplicarse por la. población de nuestra muestra (n) y
dividirse por el desvio standard (Sx) de nuestra muestra. 0, lo que es lo
mismo, el valor '*y” dado por la tabla tiene que multiplicarse por el •
cociente -jj- de nuestra muestra.
En resumen:
x, reducida = c = d = —g m
y, reducida = y de c (según tabla).
Por lo tanto:
x = m + Jt, Sx
v = y' ”
Significado de "y"
Es la ordenada del punto de la curva de nuestra muestra cuya abcísa
Construcción de la curva
Tomemos como ejemplo la siguiente muestra de muertes por nefro-
patía diabética:
De cien diabéticos con glomérulo-esclerosis intercapilar:
7 murieron entre los 40 y los 49 aflos

ESTADISTICAMEDICA
Dibujemos la curva correspondiente a esta distribución de frecuencia

recurriendo a la tabla número 1 del apéndice.
Elijamos algunos valores de "a", o sea de “c", y anotemos el valor de
la ordenada correspondiente. Así tendremos:
Estos serían los valores de "y” en una muestra en la que "n" y "Sx"
valiesen I. Pero en nuestra muestra "n” vale 100 y S, vale 10,3. Por lo
tanto, nuestras ordenadas serán iguales a las ordenadas "y", dadas por las
tablas multiplicadas por el cociente -2-
"jt"o V 9,7y, = y
0,0 9,7 X 0,40 = 3,88
0,5 9,7 X 0,35 = 3,39
1.0 9,7 X 0.24 = 2,33
14 9,7 X 0,13 = 1,26
2.0 9,7 X 0,05 = 0,48
2,5 9,7 X 0,02 = 0,19
Con estos elementos dibujemos la curva.
Trazamos, en primer lugar, un sistema de ejes ortogonales.
A objeto de qne le ~'nra no nos resulte demasiado chata, tor
90
Area subtendida a la curva. Area parcial
Esta curva fue construida sobre'la base de la fórmula reducida de la

ecuación de la curva de GAUSS. Ello significa que el área subtendida a
ella indica la población total de la muestra y también que esa población
total puede ser expresada por la unidad. En consecuencia, el área subten
dida a la misma, entre dos ordenadas, o área parcial, indica la cantidad de
observaciones comprendidas entre las observaciones cuyos desvíos reducidos
corresponden a las abeisas sobre las cuales se levantan dichas ordenadas, y
también la porción del total de observaciones comprendidas entre las
Para calcular el área subtendida a esta curva es necesario recurrir al

cálculo ¡nfenitesimal. En efecto, el área subtendida a la curva, desde
menos infinito, es decir desde el extremo izquierdo de la curva, hasta la
ordenada levantada sobre "x" o “c" es igual a la integral “y" diferencial
Como la ordenada levantada sobre “m” divide el área subtendida a la

curva en dos partes iguales, es decir en dos mitades, el área subtendida a
de que “c” se halle a la derecha de “m”; y en caso contrario a 0,S menos
91
ESTADISTICAMEDICA
Tablas de áreas subtendidas a la curva. Tablas de probabilidades

Estos cálculos están fuera de las posibilidades de quienes no conocen
el cálculo integral, pero los matemáticos han confeccionado "tablas de las
áreas subtendidas a la curva normal” en base también de la fórmula redu-
para distintos desvíos “c” elegidos arbitrariamente. El área total, en todas

ellas, es, naturalmente, igual a la unidad. E, igualmente, en todas ellas el
área comprendida entre:
ni - 1Sx y m + 1 S, es igual a 0,683
m - 2 S, y m + 2 S, « igual a 0,955
m - 2,6 Sx y m + 2,6 S* es igual a 0,990
m — 3 S .y m + 3 S, es igual a 0,997
Hay varias clases de tablas lógicamente iguales.
En unas, por ejemplo tabla 1 del apéndice; colocada "m” en el origen
“o” de las cordenadas, los desvíos son, unos negativos y otros positivos, y
Denlo reducido "e

93
ESTADISTICA MEDICA
En una tercera clase de tabla (por ejemplo, en Sadosky y Gubcr,

Tablas y fórmulas, pág. 53, o en Documenta Geigy, Tablas científicas 6a.
ed., pág. 28, der.), se dan las áreas desde el extremo izquierdo de la curva,
de modo que a "c" igual 0 le corresponden un área igual 0,S. Por este
motivo los valores dados por estas tablas son iguales a los dados por los
de la la. clase más 0,5 si “c” es positiva. Si “c" es negativa son iguales a
0,5 menos los valores dados por la tabla 1.
Ejemplo
en la figura.
por los del 1er. tipo para valer 0,5.
negro en la figura.
94
ECUACION DE LACURVA DE GAUSS
95
ESTADISTICA MEDICA
de labia ligeramente diferente, denominada tabla de distribución “t"

(mientras las primeras son tablas de distribución "c") o tambic'n tabla de
Gosset (Student). (Ver apéndice. Tabla 2.)
Esta tabla se funda en curvas normales muy semejantes a las de distri
bución “c”, pero algo más aplanadas: tanto más cuanto menor sea la po-
partir del cual sus valores se confunden con los de las tablas anteriores.
Al consultar esta clase de tabla debe tenerse en cuenta la población
Si la población es extremadamente reducida, si solo está formada por

cinco o por tres observaciones, un desvío relativo de 2 y hasta de 3 puede
no encerrar el 95% del total, es decir, puede no indicar todavía una dife
rencia significativa.
Frecuencias teóricas de una muestra normal

Para calcular el número de observaciones que en una muestra teórica
normal, que tenga los mismo parámetros que nuestra muestra,.se hallan
comprendidas entre dos valores X| y xa, es necesario calcular el área sub
tendida a la curva teórica normal entre las dos ordenadas levantadas sobre
Para eso lo más fácil es recurrir a alguna de las tablas recién expues
tas. Cualquiera de ellas puede servir con tal de conocer bien la tabla que
se maneja. Supongamos que elegimos la que tenemos en el apéndice
(Tabla 1).
Así, si quisiéramos saber el número de observaciones que en una
muestra teórica normal, que tenga los parámetros de la muestra de los
diabéticos con esclerosis intercapilar recién vista, se hallan comprendidos
entre X| = 50 y Xj = 60, tendríamos que ver en la tabla cuál es el área
comprendida entre la media y la ordenada correspondiente a X| = 50 y
restarle el área comprendida entre la media y la ordenada correspondiente
La resta es el área comprendida entre ambas ordenadas.
96
97
ESTADISTICA MEDICA
En la labia veríamos que

a Ci = 0,194 le corresponde un área de 0,07691
y a C, = 0,291 „ „ „ „ „ 0,11448.
Sumando ambas áreas tenemos:
0,07691 + 0,11448 = 0,19139
Multiplicando este resultado por nuestra n = 100, tendremos
0,19139 X 100 - 19,139.
normal, con dichos parámetros, se hallaría entre xt = 63 y Xj = 68.
98
CAPITULO X
VARIACION DE LAS MUESTRAS
SUMARIO: Variación de las mucslras. Significación de la media. Signifi

cación de la diferencia enlre el valor de un dato y el valor de la media.
Significación de la diferencia entre dos medias.
Si de un universo de observaciones similares extraemos una multitud

de muestras con poblaciones similares, las medias serán igualmente simi
lares, pero no necesariamente idénticas. Asimismo, esas medias serán si
milares a la media del universo, pero difícilmente serán idénticas a ella.
Las medias de esas muestras estarán más próximas unas de otras, y de
la media del universo, en la medida en que aumente la población de las
Significación de la media
La significación de la media está dada por su error relativo (c)
ER = c = — = m = m s/ñ~
sm S, ■/. v r rT S,
Si la población de la muestra es de 30 ó más, y especialmente si es de

60 ó más, la media puede ser un valor fidedigno de representar el valor
medio de las observaciones similares a las de la muestra, pero su variabili
dad es proporcional a los desvíos de los datos de la muestra e inversa
mente proporcional a la raíz cuadrada de la población de la muestra. Es
decir que el error standard (Sm) es una medida de la variabilidad de la
media. Cuanto mayor es ese Sm, mayor la variabilidad y por lo tanto la
probabilidad de diferencias no significativas con otras medias similares y
con la media del universo.
99
ESTADISTICA MEDICA
Si la media es igual o superior al doble del error standard, es decir si

el error relativo (E.R.) es igual o superior a 2, los datos de la muestra se
hallan normalmente diseminados dentro de la muestra, o sea normalmente
dispersos alrededor de la media. Esta es, en este caso, representativa de los
valores de una muestra homogénea. La diferencia que puede haber entre
muestra media y la media del universo no es significativa.
Si, por el contrario, la media es inferior a 2 Sm , o sea si el E.R. es
inferior a 2, los datos se hallan anormalmente diseminados dentro de la
muestra, es decir, están excesivamente dispersos con relación a la media;
probablemente porque algunos datos se hallen afectados o influenciados
por factores extraños al resto de las observaciones de la muestra. Se tra
taría, pues, de una muestra no uniforme u homogénea. En consecuencia,
la media no es representativa de una muestra formada por observaciones
similares. El E.R. por lo tanto, califica a la media de fidedigna o no.
El 68,3% de las medias de muestras similares a la nuestra, es decir
procedentes del mismo universo, están situadas entre 1 Sm a la izquierda
y 1 Sm a la derecha de nuestra media; el 95,5% entre 2 Sm a la izquierda
y 2 Sm a la derecha de nuestra media; el 99% entre 2,6 Sm a derecha c
izquierda; y el 99,7% entre 3 Sn a izquierda y 3 Sm a la derecha de
nuestra media.
Para conocer la probabilidad de que de dos universos diferentes pue
dan obtenerse muestras con el efectivo y la media de la nuestra, réstese
de la unidad el dobre del área de “c” dada por la tabla I.
Significación de la diferencia entre el valor de una observación y el de
Los valores de las observaciones deben estar alrededor del valor de la

media y a una distancia relativamente próxima a él. A veces, incluso, coin-
cuyos valores se apartan manifiestamente de la media, surgirá la duda de
cuencia de un factor extrafio, distinto de los considerados al seleccionar

las observaciones de la muestra.
En medicina, teniendo en cuenta que sólo menos del 5% de las obser
vaciones normales se apartan más de dos desvíos standard de la media,
generalmente se acepta que una observación pueda alejarse de la media
hasta dicha cantidad sin que ello implique una diferencia significativa;
pero que; cuando la distancia es superior a esa cifra, debe considerarse
diferencia significativa.
100
Es decir que es el desvio relativo o reducido x - m/S, el que nos

dirá si la diferencia es significativa o no. Si el D.R. es menor de 2, no es
significativa y la diferencia puede ser meramente casual; si es mayor de 2,
es significativa, es decir que la diferencia probablemente no es casual.
43-46 1
47-50 2
Sl-54 6
5Í-58 22
S9-62 52
63-66 79
67-70 118
71-74 165
75-78 186
79-82 165
83-86 103
87-90 82
91-94 45
95-98 19
99-102 11
103-106 3
107-110 1
Haciendo los cálculos correspondientes, nos encontramos que
m = 76,9 S, = 8,9
m * 2 Sx = m± 2 X 8.9 = 76,9 ± 17,8 = 59,1 a 94,7.
Es decir que entre x, = 59,1 y X, = 94,7 se halla el 95,46% de la

muestra. Fuera de estos límites se encuentra, por lo tanto, menos del 5%.
Si aceptamos una probabilidad de error del 5% podemos pensar que los
32 integrantes de los primeros cuatro grupos cuyas pulsaciones tienen una
frecuencia menor de 59,1 y los 34 integrantes de los cuatro últimos gru
pos cuyas pulsaciones tienen una frecuencia superior a 94,7, posiblemente
101
ESTADISTICA MEDICA
presentan esa frecuencia distante de la media de más de dos desvíos stan

dard por encontrarse afectados de alguna causa o factor ajeno al resto de
la muestra. Es decir que su diferencia con la media es significativa. Por el
contrario, en los 994 restantes, a pesar de que las frecuencias de las pul
saciones difieren de la frecuencia media, por diferir menos de dos desvíos
standards, aceptamos que tales diferencias no son significativas.
Significación de la diferencia entre dos medias

Si bien las muestras son partes o fragmentos de un universo (por eso
se llaman muestras) no siempre son iguales entre sí, ni tienen la misma
composición que el universo. Sus medias, igualmente, no pocas veces di
fieren entre sí y con la media del universo. Ello se debe a que sobre las
muestras influye un conjunto de factores no individualizados al que llama
mos “azar". Es decir que por obra del "azar" las muestras de un mismo
universo pueden ser diferentes entre sí; así como sus medias; las que tam
bién pueden discrepar de la media del universo. La composición y la
media de la mayor parte de las muestras se aproximan y hasta se identifi
can con la composición y con la media del universo y la menor parte
difiere. La probabilidad de hallar una diferencia determinada es tanto
mayor cuanto menor es la diferencia y tanto menor cuanto mayor sea
ella. Es decir que las pequeñas diferencias son muy probables y las gran
des diferencias poco probables.
Así, por ejemplo, del universo de los recién nacidos donde los varones
son aproximadamente el 50%, pueden sacarse muestras, por ejemplo, de
cien observaciones c/u, en las que los varones constituyen el 50%; pero
también pueden obtenerse muestras en las que los varones sumen más, o
sumen menos, y ese más y ese menos puede ir desde el máximo compati
ble con el efectivo de la muestra, que en este caso dijimos que era cien, hasta
el mínimo posible, que seria cero. Es decir que del universo de los recien
nacidos pueden obtenerse muestras de cien observaciones en las que la
cantidad de varones varíe desde cien hasta 0. Y esto simplemente por
obra del azar. Naturalmente, las muestras con un número de varones pró
ximo a cien o a cero serán los menos; y las con un número próximo a SO
serán las más.
Si en vez de sacar una muestra por vez del universo extraemos dos,
las medias de esas muestras pueden ser idénticas entre sí, y su diferencia
por lo tanto será cero. Pero pueden ser distintas, y haber una diferencia
entre ambas medias, a pesar de que ambas muestras pertenecen al mismo
universo. Esta diferencia puede ser tan grande como lo permita el efectivo
o la población de las muestras. Así en el caso hace poco mencionado de
102
muestras de cien recién nacidos, una puede contener cien varones y la

otra cero varones, con lo cual la diferencia será de cien. Es decir que
entre las medias de dos muestras de un mismo universo puede haber dife
rencias hasta de el máximo compatible con el efectivo o la población de
las muestras, hasta ninguna diferencia, es decir una diferencia cero.
También aquí la probabilidad de las pequeñas diferencias es máxima y
la de las grandes diferencias es mínima.
Por lo tanto, dos muestras (y sus medias) pueden diferir entre sí, por
que pertenezcan a dos universos distintos, o por obra del azar, si pertene
cen al mismo universo.
Si el problema que nos planteamos es saber si la diferencia hallada
entre dos medias es significativa de que las muestras pertenecen a dos
universos distintos, debemos en primer lugar fijar un criterio al cual ate
nernos para considerar que una diferencia es significativa de que las mues
tras corresponden a distintos universos. Este criterio es el de la probabi
lidad de una determinada diferencia. En medicina se acepta generalmente
que cuando la probabilidad de encontrar una diferencia igual o mayor a la
encontrada es menor del S%, dicha diferencia puede darse por significativa
de que las muestras corresponden a dos universos diferentes.
Es decir que si bien una diferencia igual o mayor puede darse aun en
muestras pertenecientes al mismo universo, su probabilidad es bastante
pequeña; tanto que nos permitimos correr el riesgo del 4, ó del 3 ó del
2% de errar y tomar por muestras de distintos universos muestras que en
realidad pertenecen al mismo.
Esto significa que nuestras conclusiones -tendrán un coeficiente de
seguridad del 95%. No tendrán una seguridad del 100%. Si quisiéramos
tener una seguridad mayor, podremos recurrir a un coeficiente de seguri
dad del 99%, como se hace a veces.
En segundo lugar. tenemos que decir que el valor o la significación de
¡a diferencia entre dos medias depende de la clase de muestras a que co
rresponden. Generalmente se trata de una muestra normal o de una
binomial. En este momento sólo nos ocuparemos de la primera.
La significación de la diferencia entre dos medias normales depende,
en primer término, del efectivo de las muestras. En este sentido las mues
tras normales pueden tener cada una un efectivo (n) superior a 30, o in
ferior a él. En el primer caso se trata de una muestra de GAUSS; en el
segundo, de una de GOSSET “STUDENT”. Por ahora sólo nos ocupa
remos del primer caso.
En esta circunstancia una diferencia es significativa (significativa de
pertenecer a dos universos diferentes) si el error relativo de la diferencia.
(E-R-tm, - ni,))es igual o superior a 2.
103
VARIACION DE LASMUESTRAS
Siendo el E.R.m, _ m, menor de 2, la diferencia encontrada no es

significativa de pertenecer a muestras correspondientes a universos distin-
Dos muestras similares a las anteriores arrojaron mei

9 grs la otra, con iguales desvíos standards que las an
Siendo ahora el error relativo de la diferencia superior a 2, ell

fica que la diferencia hallada es significativa de pertenecer a mués
distintos universos.
Si se desease una mayor precisión en la significación hallada,
riamos a una tabla de suma de frecuencias relativas por fuera de
“c” y más "c”j es decir desde menos infinito a menos “c" y des
“c" a más infinito, como vimos en la página 104, y ahí veríam
a un E.R. = c = 2,5 le corresponde 2 P = 0,01242, lo cual ¡
que en apenas algo más del 1% podrá extraerse de un mismo u
un par de muestras con una diferencia entre sus medias igual o
rresponder a muestras de distintos universos.

TERCERA PARTE
LA MUESTRA NORMAL POCO NUMEROSA O MUESTRA DE

GOSSET “STUDENT"
CAPITULO XI
MUESTRA NORMAL POCO NUMEROSA
SUMARIO: Concepto de muestra normal poco numerosa. Los grados de

libertad. Determinación de los parámetros de dispersión: variancia. desvío
standard y error standard. Las curvas de Gosset ''Student". El ¿rea subten
dida a estas curvas. Tablas de las áreas parciales subtendidas a esas curvas.
Significación de la diferencia de un dato con la media. Los límites del
intervalo de confianza de la media. Significado y determinación de una
diferencia entre medias.
Concepto de muestra normal poco numerosa
Cuando una muestra normal presenta una población, o efectivo,

menor de 60 y sobre todo menor de 30, se dice que es una muestra poco
numerosa. Estas muestras pueden denominarse también muestras de
Gosset “Student”, siendo “Student” el seudónimo del estadístico inglés
W.S. Gosset, autor del método que permite utilizar los datos obtenibles en
estas muestras normales poco numerosas.
Todos los conceptos generales a los cuales nos hemos referido en la
Primera Parte de este libro, son aplicables a esta clase de muestras, asi
como también mucho de lo que dijimos en la Segunda Parte, en lo refe
rente a los parámetros de posición y en especial de la media. Las propie
dades de ésta y su determinación, tanto por el cálculo conceptual (co
ciente del tamaño de la muestra dividido por el efectivo o población)
como por el cálculo simplificado, valen también para las medias de las
muestras normales poco numerosas. Pero la determinación de sus pará
metros de dispersión (variancia, desvío standard y error standard) varía
ligeramente por la necesidad de obtener resultados más amplios. La curva
de Gauss ya vista no es aplicable a esta clase de muestra, habiendo Gosset
“Student” construido cutvas especiales para los distintos tipos de muestras
normales poco numerosas. Estas curvas son muy parecidas a aquélla; son
igualmente acampanadas y simétricas, pero difieren en que acumulan más
109
ESTADISTICA MEDICA
probabilidades en los extremos y menos en la porción central. Además, en

sus ecuaciones no intervienen la media ni el desvío standard, y sí en
cambio el grado de libertad. Cuando éste es elevado, ambas curvas, la de
Gauss y la de Gosset "Student", se confunden. Estos diferentes tipos de
muestras difieren “grosso modo” por el efectivo de las muestrap, pero fun
damentalmente por el número o grado de libertad existente en cada
muestra, concepto éste que no aparece en las grandes muestras.
Los grados de libertad

Cuando una muestra tiene que cumplir con ciertas condiciones, es evi
dente que no puede formarse de cualquier manera. Asi, si decimos que la
muestra debe estar formada por tres observaciones (n = 3) y que la suma
de los valores de los datos de esas observaciones debe ser diez
(T = Ex = 10), es evidente que sólo tendremos libertad para modificar
los valores de los datos de dos de las observaciones, ya que fijados los
valores de ellos, careceremos de libertad para modificar el valor de la ter
cera observación. Por ejemplo, si a la primera observación le damos el
valor 2 y a la segunda 3, como la suma de los datos de las tres observa
ciones tiene que ser diez, queda automáticamente fijado el valor de la
tercera observación que ha de ser 5. Esto se expresa diciendo que en esta
muestra el número o grado de libertad es 2. En símbolos y en términos
generales, el grado de libertad es igual al efectivo o población (n) menos 1.
Grado de libertad = n - 1
Si a la muestra se le impusiese alguna otra condición, como por ejem
plo que la amplitud o ?1 desvío standard tuviera que tener también algún
valor determinado, disminuiría el grado de libertad en una unidad por
cada una de las condiciones exigidas.
Por ejemplo, si a esta muestra en la que n = 3 se le exigiesen dos
condiciones, no quedaría más que una libertad, ya que n - 2 = 1, es
decir que solamente para un valor se podría tener la libertad de elegir
entre varios, pero una vez elegido éste los otros dos quedarían automática
mente fijados. Así, si se le exigiese no sólo que el tamaño fuera igual a
10, sino que la amplitud fuese igual a 5, tendríamos libertad para elegir el
valor de uno de ellos entre los valores siguientes;
0 (y los otros dos 5 y5)
1 (.. „ .. .. 6 y 3)
3 ( .......................Iy 6 )
S (,... .................5 y 0)
6( I y 3)
ESTADISTICA MEDICA
En la misma forma se procede con el valor subradical del desvio stan

dard cuando está formado por un sólo quebrado. Es decir
s, = *“ •
En cuanto al error standard, este aumento resulta todavía insuficiente
y es necesario'aumentar su valor, disminuyendo su denominador, restán
dole una unidad a la cantidad subradical. Entonces,
Sx l £ (x -m )*
V" - 1 \ | n (n -l)
Las curvas de Gosset "Student"

Las curvas de Gosset "Student", de las cuales hay una para cada gra
do de libertad, se parecen a la curva de Causs. pero la ordenada corres
pondiente a la media, asi como las ordenadas correspondientes a las
abscisas o frecuencias próximas a la media, son relativamente más bajas
que en la curva de Gauss y las correspondientes a las abscisas o frecuen
cias distantes de la media son en cambio más altas. Es decir que las curvas
de Gosset "Student” son relativamente más bajas y descienden más len
tamente que la curva de Gauss.
El área subtendida a estas curvas

El área total subtendida a la curva de G - "ST", es igual a I. Es decir
que ocurre lo mismo que con el área total subtendida a la curva de Gauss
y las áreas parciales se consideran comprendidas entre dos ordenadas le
vantadas sobre las abscisas correspondientes a los desvíos reducidos, tam
bién como el área parcial subtendida a la curva de Gauss. Pero esta área
parcial debe buscarse en la tabla especial de Gosset "Student”.
Tabla de las áreas parciales subtendidas a estas curvas

Esta tabla se denomina también "Tabla de distribución t" (ver Apén
dice, Tabla 2.
En esta tabla el desvío relativo se simboliza por una “t" minúscula
(En las de Gauss se simboliza por una “c” igualmente minúscula) y el
grado de libertad por una “n" minúscula (romana) o una “ni" griega (v)
también minúscula. Es una tabla de doble entrada, en la que las columnas
112
están encabezadas por los valores de las áreas exteriores desde "menos
infinito” a la ordenada levantada sobre menos “t" y desde la levantada
sobre más “t" a "más infinito”, y en la que las líneas horizontales co
rresponden a los “grados de libertad". En la intersección de una línea
horizontal con una columna vertical se halla el valor aproximado del des
vío relativo "t” correspondiente.
En la práctica, conocido el grado de libertad se sigue la horizontal
hasta colocarse entre los dos valores, uno inferior y otro superior al valor
de nuestro desvío relativo “t” y después se levanta la vista para ver a qué
área exterior corresponden.
Significación de la media
Igual que en la pág. 99, pero ahora m —“t”; o mejor:
Significación de la diferencia de un dato con la media

Como puede apreciarse en estas tablas, (véase Extracto en pág. 114)
un área exterior que abarque un S% del área total corresponde a un des
vío relativo “t" superior a 2. (Mientras en la tabla de GAUSS un desvío
relativo ”c" de 2 deja al exterior un área menor del 5% del área total.)
De modo que para que la diferencia de un dato con la media tenga
significación es necesario que corresponda a un desvío relativo superior,
no ya a 2, sino superior a más de 2. Esta cantidad superior a 2 varía con
el grado de libertad y es tanto mayor cuanto menor es éste. Cuando el
grado de libertad es muy bajo (por ejemplo. 3 ó 2) para que la diferencia
tenga significación, el desvío relativo “t" debe alcanzar a 3 y aún a 4; es
decir que el dato tiene que diferir de la media (debe estar alejado de ella)
no ya 2 S,, sino 3 y aun 4 S,.
Para cada grado de libertad debe buscarse en la tabla el número o
cantidad de desvíos standard que abarcan el 95% de las observaciones, o
sea del área subtendida, y sólo aquellas observaciones cuyas distancias o
diferencias con la media son superiores a esos desvíos standards tendrán
con la media una diferencia significativa.
Los limites del intervalo de confianza de la media

Igualmente los límites de intervalo de confianza de la media se en-
2 Sm” depende igualmente del grado de libertad de la muestra.
113
ESTADISTICAMEDICA
Cuanto menor el grado de libertad, mayor el factor por el que debe

multiplicarse el error standard.
Este factor por el que debe multiplicarse el Sm para situar los límites
del intervalo de confianza de la media, es el desvío relativo “t" que en
contramos en la intersección de la horizontal correspondiente al grado de
libertad y la columna correspondiente al área exterior 0,0S.
Significado y determinación de una diferencia entre medias

Una diferencia entre medias de muestras poco numerosas es signifi
cativa de que ambas muestras pertenecen a universos diferentes si el valor
del error relativo de la diferencia, E.R.m, _ m,. es superior al valor del
desvío relativo **t" dado por la tabla de GOSSET "STUDENT” para un
grado de libertad igual a la suma de los grados de libertad de ambas mues
tras menos dos (v, + u, - 2) (letra griega ny (v) minúscula) y un área
exterior de 0.05.
Como puede verse en la tabla, este valor del desvío relativo “t"
es superior a 2 (y no igual a 2, como cuando se trataba del desvío relativo
"c" de las grandes muestras).
MUESTRA NORMAL
Además, el denominador del quebrado que expresa el error relativo de

la diferencia, esto es, el error standard de la diferencia, debe calcularse de
manera diferente de cuando se trataba del error standard de una discre
pancia entre medias de muestras numerosas.
Recordemos que cuando se trataba de muestras numerosas el error
standard de la diferencia era
donde se tomaban separadamente las variancias de cada muestra: Sj y
En los casos de muestras poco numerosas debe tomarse como nume

radores de ambos sumandos subradicales la varianza común a ambas
muestras. Esta varianza común S* es igual al quebrado formado por las
sumas de los cuadrados de las diferencias de los datos a sus medias divi
dido por la suma de los efectivos de ambas muestras menos dos.
US
Si se desea dar una mayor precisión a la significación (o a la no signi
ficación de la diferencia) hay que tomar el error relativo de la diferencia
E.R. (mi - m¡) como “t" y en una tabla de Gosset “Student", en la
horizontal correspondiente a un grado de libertad v, + - 2 ver entre
qué desvíos relativos se halla situado; luego levantar la vista y ver a qué
áreas parciales externas corresponden esos desvíos relativos. La probabi
lidad de hallar diferencias iguales o mayores en muestras extraídas de un
>s pacientes que tomaron
y la media (nt2) de los que tomaron el hipnótico “B" fue
Hubo, por lo tanto, una diferencia de 3 horas entre las horas medias
dormidas por los pacientes de una y otra muestra. Se pregunta si esa dife
rencia es significativa o no.
Por comodidad en los cálculos tomaremos los cuadrados de los datos,
es decir de las horas dormidas.
116
MUESTRA NORMAL
Ex? = 300 Ex
£(X| - iü!)J + E(X; - ma) _ Ex? -
En una tabla de Gosset “Student" del 95% vemos que a 8 grt

libertad t, = 2,30.
Siendo nuestro E R (1,8) inferior a ta (2,30), la diferencia ei
medias mi y mj no es significativa.
117
ESTADISTICA MEDICA
Con una media, como vemos, de 11,6 horas.

Se comparó esta media (m3 = 11,6) con la media de la primera mues-
esta diferencia es ahora significativa.

Como antes, por razones de comodidad en los cálculos, tomamos los
cuadrados de los datos. Estos son
Ahora nuestro E.R. de la diferencia (= 239) es ligeramente superior a

t» = 2,30; por lo tanto, la diferencia es ahora ligeramente significativa.
Si deseamos una mayor precisión en la respuesta, recurrimos a la
tabla de Gosset "Student" y vemos que una ts de 2,39 tiene una proba
bilidad del 2 al 5% (más próxima a S que a 2; interpolando serta aproxi
madamente del 4,6%). Es, pues, decimos, una diferencia apenas
significativa, ya que en el 4,6% de las muestras obtenidas de un mismo
universo puede darse una diferencia igual o mayor a la encontrada por
118
CAPITULO XII
MEDIA DE UNA DIFERENCIA DE DATOS DE OBSERVACIONES

PAREADAS
SUMARIO. Signific
Su significación y determinación
Cuando las personas o cosas que integran dos muestras son las mis
mas, una diferencia puede ser significativa, y no serlo si se trata de
personas o cosas distintas. La razón de ello es que entonces hay una ho
mogeneidad mucho mayor, en las muestras. Asi, ocurre siempre que se
hagan las observaciones pareadas en las mismas personas o cosas, una
antes y otra después de la intervención de un factor en estudio; o una
después de la intervención de un factor y otra después de la intervención
de otro factor, sobre las mismas personas o cosas.
Por lo demás, en estos casos, no se trata de la significación de una
diferencia entre medias, sino de la significación de una media de un
conjunto de diferencias.
Ejemplo (Datos modificados del Southern Medica! Journal, 1950, 43.
678)
A un grupo de pacientes se les suministró un hematinico y después de
un tiempo sus valores medios en Hgb se compararon con los de un grupo
control. La diferencia no resultó significativa; pero aquellos mismos valo
res obtenidos en las mismas personas (y no en personas distintas usadas
como control) mostró diferencias francamente significativas.
Los datos son:
119
ESTADISTICA MEDICA
tintas, lo que corresponde calcular es la significación de la diferencia entre
Para comodidad de los cálculos vamos a tomar los cuadrados de los
xl
163,84 148,84
174,-24 127,69
249,64 216.09
179,56 129,96
132,25
184^96 161,29
£ _ + Zxf - (T, m, +Ta m,)
1142.68 + 916,12 - (13,76 X 82,6 + 12.30 X 73,8)

6 +6-2
A DE UNA DIFERENCIA DE DATOS DE OBSERVACIONES PAREADAS
Siendo nuestro error relativo (2,11) inferior a l,0 (2,23) la diferencia

entre las medias de los pacientes a quienes se administró el hematínico y
la del grupo control no es significativa.
Pero si las muestras "A" y "B" hubiesen estado formadas por las
mismas personas, es decir si los valores de la muestra “B" hubiesen sido
los encontrados antes de suministrar el hematínico, y los de la muestra
“A" los hallados después de dicho suministro, lo que correspondería cal*
cular sería la significación de la media de las diferencias halladas, es decir
También en este caso, por comodidad de los cálculos, vamos a tomar
los cuadrados de los valores.
0,36
3,61
1.21
5,29
0,81
í d ! = 15,28
y j 2 d* - md X Td y l 15,28 - (1,46 X 8,8)

‘ Siendo el C.R. de nuestra media superior a ts , la me<
tiva de diferencias reales.
La media de las diferencias (1,46) es superior a 2,57 veces su error
standard (como que es 4,86 veces superior a él), y por lo tanto es una
• media significativa.
Consultando una tabla de Gosset "Sludcnt" puede verse que la pro
babilidad de una ts de 4,86 es inferior al 1%y aun al ¡í%; es decir que
nuestra afirmación de que la media hallada es representativa de diferencias
reales tiene una probabilidad de error de menos del 0,5%.
Vemos asi que, cuando los valores que se comparan pertenecen a las
mismas personas o cosas, la homogeneidad de la muestra hace que dife
rencias no significativas entre personas o cosas distintas puedan resultar
significativas.
Significación de la diferencia entre dos o más muestras por el análisis de
Dos o más muestras pueden comparaise estableciendo la significación

de sus diferencias recurriendo a la comparación de uno de sus parámetros
de posición, como, por ejemplo, sus medias, según vimos anteriormente en
los capítulos X y XI o comparando uno de sus parámetros de dispersión,
Habiendo dos o más muestras, pueden establecerse, a más de las va
de las cuales las más importantes son la intermuestra y la ¡ntramuestra.
La variancia global es la dispersión global de los datos en relación a la

media global (M), dividida por la población o efectivo global (N) menos 1.
Más exactamente, la variancia global (var.g) es la suma de los cuadra
dos de las diferencias de cada uno de los datos de las muestras a la media
global (es decir, a la media de todos estos datos), dividida por la pobla-
122
MEDIA DE UNA DIFERENCIA DE DATOS DE OBSERVACIONES PAREADAS
En la práctica el cálculo de la variancia global suele hacerse por el

método simplificado ir las diferencias, no de los datos a la media,
sino de los datos n lo cual los valores de los datos constituyen
los valores de estas c ias. En este caso la fórmula conceptual puede
reemplazarse por la d
— ■
donde T es el tamaño global o suma de todos los datos y N el efectivo
La variancia iniergrupo es la dispersión de las medias (m) de cada mues

tra en relación con la media global (M) multiplicada por la población o
efectivo de cada muestra (n) y dividida por el número de muestras (H)
Más exactamente variancia intergrupo (var. ínter.) es la suma de los

cuadrados de las diferencias de las medias (m) de cada muestra, a la medi
da global (M) multiplicada por la población o efectivo de cada muestra (n)
y dividido por el número de muestras (H) menos 1.
v . . _ ni (mi - M)a + na (mi - M)* + ----
La variancia intergrupo expresa la dispersión de las medias “entre” las

distintas muestras.
En la práctica el cálculo de la variancia intergrupo se hace también por
el método simplificado recién señalado, con lo cual la fórmula conceptual
arriba vista queda reemplazada por la siguiente:
Var inter = O í/" . + H /n2 + ...) -T * /N

H- 1
donde Ti es el tamaño o suma de los datos de la muestra X| y T el

tamaño o suma de todos los datos de todas las muestras.
T, = I x , T=2 x
Vemos que el numerador del quebrado que expresa la variancia inter

grupo es la resta de la suma de los sustraendos de los numeradores que por
el método simplificado expresan la variancia parcial de cada muestra,
123
ESTADISTICA MEDICA
menos el sustraendo de la variancia global (véase la fórmula práctica o

simplificada de la variancia global).
La variancia intragrupo es la dispersión de los datos en relación con la
media en cada muestra, dividida por el número total de observaciones (N)
menos el número de muestras (H).
Más exactamente, la variancia ¡ntragrupo es la suma de los cuadrados de
las diferencias de los datos a la media de cada muestra dividida por la
población o efectivo total de observaciones (N), menos el número de
muestras (H).
s S(xi - mi)1 + 2 (x2 - m2)a ■
Var. ir
N- H
La variancia intragrupo expresa la dispersión de los datos “dentro" de

las distintas muestras.
En la práctica el cálculo de la variancia intragrupo también se hace por
el método simplificado, reemplazando la fórmula conceptual por la prác
tica. Entonces,
Var. ir - 2 x2 - (H /n , + Tl/na +
Vemos que el numerador de este quebrado es la resta del minuendo del

numerador que por el método simplificado expresa la variancia global
menos la suma de los suslraendos de las variancias parciales.
Teniendo a la vista las fórmulas simplificadas de estas tres variancias:
Var. Ínter. = T' 1 M| + Tl 1 "a ................. ) ~ T a /N
Var intra. = S Xa - (Ti / n, + Ti / n, + ■■■)

N -H
puede comprobarse, que el numerador de la variancia global es igual a la

suma de los numeradores de las otras dos variancias, y lo mismo ocurre
con el denominador.
MEDIA DE UNA DIFERENCIA DE DATOS DE OBSERVACIONES PAREADAS
Esto permite calcular el numerador y el denominador de una de ellas
A los numeradores se les suele llamar "sumas de cuadrados” o “sumas

cuadráticas y a los denominadores “grados de libertad"
Entonces la "suma cuadrática” de la variancia global es igual a la
libertad" de la variancia global es igual a la suma de los "grados de li

bertad" de las otras dos variancias. Esto es lo mismo que lo anterior dicho
con otras palabras.
La comparación de estas dos últimas variancias, esto es, de la ínter-
grupo y de la ¡ntragrupo, permite, calificar la significación de la diferencia
de dos o más muestras por el método estadístico de R.A. Fisher deno
minado "Análisis de las variancias", ligeramente modificado por vanos
Para ello hay que dividir la mayor de ellas por la menor, obteniéndose
loque se conoce como cociente F,,2 (F. es la inicial del apellido del
creador del método).
A continuación se averigua, en tablas especiales, el valor del cociente
Las tablas especiales fueron confeccionadas por varios autores, entre

ellos por G.W. Snedecor, y por van der Waerden, y otros, para distintos
porcientos de probabilidad (5%, 1%, etc.), ver Apéndice Tabla 3, página
301.
Estas tablas son de las llamadas de doble entrada, en las que el valor
buscado está en la intersección de una columna vertical que corresponde
al grado de libertad o denominador de la variancia mayor y una linea
horizontal que corresponde al grado de libertad o denominador de la
variancia menor.
Si el cociente F ,,7 hallauo por nosotros al dividir la variancia mayor
por la menor es mayor que el cociente F. encontrado en Ia tabla, la
diferencia entre las muestras es significativa; si es igual o menor a él, no lo
n, =10 n, = 10 n, = 12
T] = 1790a = 3204100 Ti = 20101 = 4040100 Ti = 2376’ = S645376
T? •/. n, = 3204100 ■/. 10 = 320410
T? n¡ = 4040100 •/.10 = 404010
Ti •/. n* = 5645376 ■/.¡2 = 470448
Ti •/. n, + Ti •/. n, + Ti •/.n, = 1194868
T = T, + T, + Tj = 6176
Ta •/. N = 6176a •/. 32 = 38.144.976 •/. 32 = 1.191.968
126
32400 39601 36481
31329 41209 37636
30625 40000 40401
28900 37636 37249
33124 38025 38809
32761 41616 38025
31329 42436 41209
32400 42849 39601
33489 40804 39601
34225 40000 40401
----------- 42136
■320582 2x1 = 404176 38809
2x3 = 470658
2x2 = 2x1 + 2x1 + 2x1 = 119S416
n. + Ti ■/■n, + Ti •/■ n,) - T* N_

H- 1
868 - 1.191.968 _ 2900
Siendo F ,.j (= 76,7) mucho mayoi qu
127
CUARTA partí:
LA MUESTRA BIN0M1AL NUMEROSA O MUESTRA DE

BERNOUILLI
CAPITULO XIII
DISTRIBUCION BINOMIAL
SUMARIO: Desarrollo de
131
ESTADISTICA MEDICA
El desarrollo de esle binomio es un polinomio formado por la suma

de dos monomios. El primero de estos es a, que puede escribirse 1 a (uno
por a) y también I a1 b° (uno por a elevada a uno por b elevada a cero)
y el 1° es b, que puede escribirse I b o también -J- a° b '. Adoptamos
esta última forma por razones que después comprenderemos; entonces;
(a + b)1 —la1 b° + —
j— a° b1.
Monomio
1 a' b° = I a
Hagamos ahora algunas observaciones:

Ira. observación
El número o cantidad de monomios es igual al exponente del binomio
lás I.
2da. observación
Cada monomio está formado por un coeficiente determinado seguido
ar el producto de ambos términos del binomio, cada uno de ellos ele-
ido a una potencia también determinada.
3ra. observación
El coeficiente del 1er. monomio (y también del último) es 1.
4la. observación
El coeficiente del 2 monomio es un quebrado cuyo numerador es el
(ponente del binomio y cuyo denominador es la unidad.
Sta. observación
El ler. factor de los monomios es el ler. término del binomio, ele-
ido, en el ler. monomio, al exponente del binomio, y en el 2 mono-
lio, a este exponente menos 1.
El 2do. factor de le
132
ESTADISTICA MEDICA
5a. observación
El coeficiente del 3er. monomio es también un quebrado cuyo nume
rador es el numerador del 2° monomio multiplicado por el número que le
precede en la serie natural de los números y el denominador, el denomi
nador del 2 monomio multiplicado por el número que le sigue en la serie
natural de los números.
6a. observación
En el 1er. monomio aparece el 1er. término del binomio, elevado al
exponente del binomio; en el 2°, elevado a dicho exponente menos 1. y
en el 3°. elevado a dicho exponente menos 2. Es decir que el exponente
de este 1er. término de los monomios, que en el primero es igual al ex
ponente del binomio, disminuye en una unidad en cada uno de los mo
nomios siguientes.
7a. observación
El 2° factor de los monomios es el 2° término del binomio, elevado,
en el 1er. monomio, a 0; en el 2°, a 1, y en el 3o, a 2.
La suma de los exponentes de ambos factores de los monomios es

igual en todos ellos, e igual al exponente del binomio elevado.
Ser. ejemplo
Desarrollemos en forma similar el binomio elevado
(a + b)J
N° de orden
Observaciones
Podemos repetir las mismas observaciones anteriores. En efecto:
1) El número de monomios es igual al exponente del binomio ele
vado más 1.
2) Cada monomio está formado por un coeficiente seguido del pro
ducto de ambos términos del binomio, elevados a un exponente deter
minado.
3) El 1ro. (y el último) monomio tienen el coeficiente 1.
4) El coeficiente de los monomios, a partir del 2° está fotmado por
un quebrado. Este quebrado, en el 2o monomio tiene por numerador el
exponente del binomio elevado, y por denominador la unidad. En el 3 y
siguiente los coeficientes tienen como numerador el numerador del coefi
ciente anterior multiplicado por el número natural que le precede en la
serie natural de los números y por denominador el denominador anterior
multiplicado por el número natural que le sigue. Estos coeficientes se
Daman coeficientes newtonianos, o monomiales (también suelen deno
minarse "binomiales", por referirse a los monomios correspondientes al
desarrollo de un binomio).
4lo. ejemplo
Desarrollemos en igual forma el binomio
(a + b)‘
7V° de orden Monomio
■t
3"
13S
ESTADISTICA MEDICA
6„ 6X SX 4X 3X 2
1X 2X 3X 4X 5
^ 6X SX 4X 3X 2X 1
1 X 2X 3X 4X 5X 6
Observaciones
Podríamos repetir las mismas observaciones anteriores.
5o ejemplo
Reemplacemos por números, no solamente el exponente, sino también
los términos del binomio. Reemplacémoslos primeramente por números
naturales, por ejemplo,
(2 + 3)'.
Y ahora desarrollémoslos como antes:
/Vo de orden Monomio
1° 1 X 2 'X 3 ° = 1X2 X 1 - 2
t | X 2 ° X 3 '= IX 1X 3 = 3
Observaciones
Podríamos hacer las observaciones del 1er. ejemplo.
6o ejemplo
Desarrollemos ahora el binomio
(2 + 3)1
AIo de orden Monomio
1° 1 X 2 'X 3 " = I X 2* X 1 = 4
t - X 21 X 3' = 2X 2‘ X 3'= 12
Observaciones
Podríamos repetir las observaciones del 2° ejemplo.
7o ejemplo
Desarrollemos el binomio
(2 + 3)J
ÍV° de orden Monomio

1° 1 X 2S X 3o = 1 X 2! X 1 = 8
2° 3 X 2 'X 3 '= 3X 2, X3I = 36
3X 2 X 2' X 3* = 3 X 2 'X 3 ! = 54
2o X 3S = 1X 1 X 3 ’ = 27
Las mismas que en el 3er. ejemplo.
Desarrollemos ol binomio
Monomio
l X 2‘ X 3° = 1 X 2‘ X I = 64
-X 2 ! X3‘ = 6 X 2S X 3‘ — 576
— X2*X3* = 15X2* X3’ = 2160

1X2
)3 = 4320
= 15 X 2* X 34 = 4860
ESTADISTICA MEDICA
————— — ———X 2, X 35 = 6X2- X3» =29.6

1X 2X 3X4X S
6XSX4X3X2XIX
2o X 31 = 1X1 X 3‘ =
1X2X3 X4 XS X6
Observaciones
Las mismas de siempre.
Reemplacemos ahora los términos del binomio por números quebra
dos cuya suma sea igual a la unidad.
U + 4 V - .■ - ,
'• ■ ( { ) • ( * ) • - ■ ( i) *
f t (Í)'(Í)' -«-(i)
Observaciones
10° ejemplo
( i -i)'-
138
Valor del monomio
' « - ‘(i)'
»(I) (i) - í
Observaciones
Las 8 de antes.
1 1 ° ejemplo
W + z )
A" de orden Monomio Valor
'(;)■(!) - ■er« - ¿
■(i)’(i)- 5
m i j m ’ i! ,’ ,
> ü )(i)1 ;
1X 2X 3 \ 2 / \2 ) (i) (i)- i
Observaciones
Las de siempre
12° ejemplo
Binomio ^ j - 1* - 1
139
ESTADISTICA MEDICA
W° de orden
- ■ (!)*> i
i ( y '( f ) ‘ - (t ) ( ! ) !
Observaciones
Las de siempre
13° ejemplo
(T 7=i
Ai° de orden Monomio
'■ ' (;)' (!)* - ■(I)--

? f(i)' (D‘ - 2(i) (i)
>• Sí (i)* (!)’.- (f)Ü)
Observaciones
Las mismas 8.
t° ejemplo
Binomio
140
DISTRIBUCION B1NOMIAL
Observaciones
Las de siempre
16 ejemplo
Binomio = l2 = l
V6 6 /
N° de orden Monomio
Observaciones
Las 8 de siempre
Reemplacemos ahora los términos del binomio por números decimales
cuya suma sea también igual a uno.
17° ejemplo
Binomio (0,5 + 0,5)a
iV° de orden Monomio Valor
1* 1 (0,5)’ (0.5)° = 1 (0,5)’ X 0,25
2° y(0.S? (0,5)* = 2(0,5) (0,5) 0,50
X I (0.5)1 0,25
3' 7 F 2( 0,5)0 (°,S)3 =
Observaciones
Las de siempre.
180 ejemplo
Binomio (0.5 + 0,5)3 1
142
N° de orden Monomio Valor
1° 1 (0,5)3 (0,5)° = 1(0,5)J X I 0,125

t y(O.S)1 (0,5)' - 3(0,5)3 (0,5) 0,375
3° 7 T i (0’S)' (0•S), = 3 (0.S) (0,S)J 0.375
4o 3X 2X 1 (0,5)° (0,S)J = 1X1 (0,5)3 0.125

1 X 2X 3V
19° ejemplo
Binomio (0,3 + 0,7)* = 1* = 1
N° de orden Monomio
•Io IX 0,3J X 0,7° ■= ÍX O J’ X I 0,09

2• 2 X 0,3' X 0.71 = 2 X 0,3 X 0.7 0,42
3. X 0,3° X 0,7a = 1 X I X 0,72 0,49
143
CAPITULO XIV
SERIE BINOMIAL DE BERNOUILU

ESTADISTICA MEDICA
ambiente la diabetes afecta al 4% de la población, una persona puede

pertenecer a ese 4% o no pertenecer); presentar un síntoma cuando se
padece una determinada enfermedad en la que dicho síntoma se presenta
con una determinada frecuencia (si los fibromas uterinos ocasionan me*
trorragias en el 50% de los casos, una paciente con fibroma puede per
tenecer a ese 50% o no pertenecer a él) etcétera.
Frecuencia de los resultados

En estas seríes formadas por hechos que pueden ocurrir o no ocurrir,
como consecuencia del dilema, los resultados se repiten con las frecuen
cias indicadas por los monomios resultantes del desarrollo de un determi
nado binomio elevado.
El nombre de estas series es “series estadísticas con una distribución
binomial de frecuencias", al que suele asociarse el nombre del gran
matemático suizo del siglo XVII Jacobo Bemouilli. Suele decirse abrevia
damente: Distribución binomial de Bemouilli.
Recordemos que se habla de frecuencias cuando se trata de muestras,
o de series, y de probabilidad cuando se trata de universos. En el primer
caso se trata de la relación entre el número de veces que un dato se
repite, y el número total de observaciones de la muestra (o sea, de térmi
nos de la serie) y en el segundo la misma relación tomando como totali
dad del universo la unidad o el centenar, es decir I ó 100. De modo que
los valores de la distribución binomial de frecuencias son los mismos que
los de la distribución bimial de probabilidades.
Vamos a estudiar estas series de Bemouilli en la misma forma que lo
hicimos con el desarrollo del binomio de Newton, esto es, mediante ejem-
EJEMPLO 1
Si arrojamos una moneda al aire, es posible que caiga “cara", pero es
también posible que caiga "ceca", esto es que “no caiga cara".
La probabilidad de que “caiga cara" es igual a la de que “no caiga
cara", y si a la probabilidad de ambas juntas, a la probabilidad total, es
decir, a la probabilidad de que “caiga cara más la de que no caiga cara" le
damos el valor uno, el valor de la probabilidad de que "salga cara" es
igual a la mitad, es decir a un medio, y otro tanto, la de que "no caiga
cara". Esto significa que presumimos que arrojando infinidad de veces una
moneda, la mitad de las veces "caerá cara” y la otra mitad "no caerá
146
SERIE BINOMIAL DE BERNOUILLI
No podemos verificar esla hipótesis recurriendo a una experiencia

infinita, pero de acuerdo con la ley de los grandes números, los resultados
se acercan a ella en la medida en que aumenta el número de las expericn-
La serie finita mis pequefla representativa de esta serie infinita sería

una serie formada por dos términos, uno de los cuales fuera “cayó cara"
Si al resultado “caer cara" le asignamos el valor 1 y al resultado “no

caer cara" el valor 0, esa serie finita sería la siguiente:
Son estas frecuencias relativas, o probabilidades, las indicadas por los
Esta es una serie de dos términos en la que éstos no se presentan mis

que una vez; es decir la frecuencia relativa de cada uno de ellos es uno
sobre dos.
El valor de las frecuencias relativas de estos términos o frecuencia
El cuadro de los monomios resultantes del desarrollo de este binomio
En dicho cuadro podríamos cambiar el titulo de la primer columna:

(n° de orden) y poner “resultado”, y el de la 3a. (valor) y poner "fre
cuencia de estos resultados". (Sobreentendiéndose frecuencia relativa).
La frecuencia del resultado máximo* está dada por el valor del primer
147
ESTADISTICAMEDICA
E! cuadro quedaría entonces así:
Resultado Monomio Frecuenciade este resultado
(Los valores de la última columna deben leerse uno sobre dos).
Significado de los términos, y del exponente, del binomio, en relación

con los resultados.
Observación N°l
En el binomio elevado ( y + y )', el primer término indica la pro
babilidad del resultado “caer cara".
Observación N°2
El 2 término del binomio elevado indica la probabilidad del resultado
Observación N°3
El exponente del binomio indica el número de monedas arrojadas
cada vez y también el valor máximo del resultado.
Observación N°4
El valor del exponente más uno indica el número o cantidad de resul
tados diferentes.
Resumen
Razonando sobre los resultados de arrojar una moneda, y calificando
esos resultados desde el punto de vista de “caer cara" o “no caer cara" y
dando al 1° el valor 1 y al 2° el valor 0, podemos construir una serie
148
estadística con una distribución binomial de las frecuencias en la que

éstas, es decir el número de veces que un término se presenta, están dadas
por el valor de los monomios resultantes del desarrollo del binomio ele
vado ( y +
Observaciones
En este binomio, el 1er. término es la probabilidad de "caer cara"; el
2°, la de “no caer cara”, y el exponenle tiene un triple significado;
1) Indica el número o cantidad de monedas arrojadas cada vez.
2) Indica además el valor del mayor de los resultados, es decir de los
términos de la serie, y
3) El valor del exponente más uno indica el número o cantidad de
resultados posibles, es decir de términos distintos de la serie.
Ejemplo 2
Si en un bolillero hay tres bolillas iguales en todo menos en el color,
y de las cuales una es roja, otra azul y la tercera verde, al abrir el bolillero
una cualquiera de ellas puede salir,, siendo la probabilidad de hacerlo la
misma para cada una de ellas.
Si a la probabilidad total, es decir a la suma de las probabilidades de
todas ellas le asignamos el valor 1, la probabilidad de salir una determi
nada de las tres es igual a j y la de no salir dicha bolilla igual a \ .
Esto significa que aceptamos que abriendo infinidad de veces el boli
llero después de haber repuesto la bolilla extraída, en la tercera parte de
las veces saldrá la bolilla roja y en las partes no saldrá la bolilla roja.
La serie mínima representativa de esa serie infinita sería una finita de
3 términos, de los que el primero representaría el hecho de "salir la roja"
y las 2 siguientes cada una el de "no salir la bolilla roja".
Si al resultado de salir la bolilla roja le asignamos el valor I y al de
"no salir la bolilla roja" el valor 0, esa serie mínima seria la siguiente:
149
indica el número de bolillas extraídas por vez; además el exponente

indica el mayor valor de los resultados, es decir de los términos de la serie
y el valor del exponente más uno el número o cantidad de resultados,
esto es, de términos diferentes de la serie.
EJEMPLO 3
Si arrojamos un dado sobre la mesa, puede salir el número "seis" o
salir cualquier otro número, siendo la probabilidad de que salga el “seis"
igual a la probabilidad de que salga cualquiera de los otros números, y si a
la probabilidad total, es decir a la suma de probabilidades de todos ellos
les damos el valor 1, la de “salir el seis" será igual a ~ y la de “no salir
Si al resultado "salir el seis” le damos el valor I y al "no salir el seis”

el valor 0, la serie mínima representativa de la serie infinita de arrojar un
dado sobre la mesa es la serie de 6 términos.
1. 0, 0, 0. 0, 0
I (D. 0(5)
o también:
* f. Sr
Las frecuencias de estos resultados, o sea de estos términos, está dada

por los valores de los monomios resultantes del desarrollo del binomio
elevado
( i *
ESTADISTICAMEDICA
Por fin, la probabilidad de que arrojando dos monedas no salga ni

ira, equivale a que salgan dos y la probabilidad de es
sultado es, como vimos, igual, también.
Si al resultado "salir dos caras'' le asignamos el valor 2, al "salir 1
i" el valor 0, las probabilidades vistas
significan que arrojando infinidad de veces dos monedas al mismo tiempo,
en la cuarta parte de los casos caerán 2 caras, en los dos cuartas partes, o
sea en la mitad de los casos, caerá una cara y en la cuarta parte restante
no saldrá ninguna cara.
La serie mínima representativa de esta serie infinita sería una serie de
cuatro términos; cuyo primer término sería un 2, luego vendría un I;
después otro I y por fin un 0. Así:
Observaciones
154
monedas arrojadas simultáneamente. También indica el mayor valor del

resultado, y el número de resultados diferentes (si se le agrega 1).
El desarrollo de este binomio elevado lo vimos en el ejemplo 10 de la
clase anterior. Al cuadro correspondiente podemos cambiarle ios títulos y
entonces obtener el siguiente:
La frecuencia del resultado máximo está dada por el valor del primer
monomio y la del resultado mínimo por el del último.
La tercera columna debe leerse uno sobre cuatro, dos sobre cuatro, y
uno sobre cuatro, respectivamente.
Resumen
Razonando sobre los resultados de arrojar dos monedas, desde el
punto de vista de "caer cara" o “no caer cara", hemos construido una
serie con una distribuciún binomial de las frecuencias, las cuales respon
den a los valores de los monomios resultantes del desarrollo del binomio
elevado ( y + ? )’ •
Observaciones
En este binomio el 1er. término indica la probabilidad de salir cara
arrojando una moneda; el 2° la de no salir cara, y el exponente el número
de monedas arrojadas simultáneamente. A su vez este exponente indica el
valor máximo de los resultados posibles, o sea de los términos de la serie,
y el valor del exponente más uno el número o cantidad de resultados
posibles, o sea de términos distintos de la serie.
1SS
Las combinaciones en que aparece una sola bolilla roja, si ísta es R |,
son dos Ri - Vj y R, - Aj y las en que aparece la Rj también son dos
Rj - V| y Ra - Ai; por lo tanto, las combinaciones o resultados en que
aparece una sola bolilla roja, cualquiera de ellas que sea, son cuatro. La
probabilidad de este resultado (una bolilla roja) es, por lo tanto, -5-.
Y por fia las combinaciones en que no aparece ninguna bolilla roja
son también 4, como puede verificarse fácilmente. Esta probabilidad
(“ninguna bolilla roja”) es, por consiguiente, también igual, a -y .
Es decir, hemos obtenido los mismos resultados que por los cálculos.
Si al resultado “sacar 2 bolillas rojas” le damos el valor 2, al "sacar 1
bolilla roja” el valor I y al “ninguna bolilla roja” el valor 0, ía serie
mínima representativa de la serie infinita de sacar bolillas de dos bolilleros
con las condiciones dichas sería la siguiente
2, 1. 1, 1, 1, 0,0, 0,0
o sea
2(1), 1(4), 0(4)
o también
157
ESTADISTICA MEDICA
el exponente indica el número de bolillas que se extraen al mismo tiempo,

el mayor resultado obtenible y el exponente más 1, el número o cantidad
de resultados diferentes que pueden extraerse.
El desarrollo de este monomio lo vimos en el ejemplo 13 de la lec-
Cambiando los títulos del cuadro visto podemos conféccionar el
siguiente
Resultado Monomio Frecuencias
Los valores de la 3a. columna deben leerse uno sobre 9, 4 sobre 9 y 4

sobre nueve, respectivamente.
Resumen
De nuevo hemos construido y visto una serie estadística con una repe
tición de términos, o sea con una distribución de frecuencias, de índole
binomial, en la que esta frecuencia está dada por los valores de los mo
nomios resultantes del desarrollo del binomio elevado
Observaciones
El ler. término de este binomio indica la probabilidad de un resultado
en un caso individual, el 2° la probabilidad de no obtener ese resultado en
ese caso individual, y el exponente el número de casos individuales. A su
vez el exponente indica el valor del resultado máximo, o sea del término
máximo de la serie, y el exponente más uno el número o cantidad de
resultados distintos, o sea de términos diferentes de la serie.
Ejemplo 6
Si en vez de arrojar un dado arrojamos dos, el cuadro de resultados y
frecuencias de esos resultados desde el punto de vista de sacar "seis"
puede construirse sobre la base del desarrollo del binomio (4“ + T ) asl"
Resultados Monomio Frecttencia
'a de todas las seríes posibles de ar
2 ( 1), 1 ( 10), 0 (25)
Vemos una nueva serie estadística con una distribución de frecuencias

de tipo binomial, en la que la repetición de los términos, o sea la frecuen
cia, está dada por los valores de los monomios resultantes del desarrollo
del binomio elevado ( -j- + 4 )3•
Observaciones
El leí. término de este binomio implica la probabilidad individual de
un resultado en un caso individual y el 2° la probabilidad de no obtener
ese resultado en dicho caso individual, y el'exponente el número o can
tidad de casos individuales en juego simultáneo, el valor máximo del re
sultado obtenible y el exponente más I el número o cantidad de rebulta
dos distintos que se pueden obtener.
Ejemplo 7
En vez de 2 monedas arrojemos 3 y veamos la serie de resultados
desde el punto de vista de caer cara.
El cuadro de los resultados y frecuencias sería el siguiente, desarro
llando el binomio
Resultado Monomio Frecuencia
■ . ' ( i H t r = ■(;)' - 5
! ' « - ( * ) ■ ( * ) ■ - i
' f H Í Í ) , (3), - ( i ) , (3)‘- i
• S ü í (*)•(*)'-(i)' - i
3(1 ), 2 (3), 1 (3), 0 (I)
160
que éstas están

míos resultantes del desarrollo del binomio elevado ( -j + -j- f .
Observaciones
El 1er. término de este binomio indica la probabilidad individual de
un resultado en un caso individual; el 2° la probabilidad individual de no
obtener dicho resultado en el mencionado caso individual, y el exponente
el número de casos individuales puestos en un juego simultáneamente,
indicando además el valor máximo de los resultados, o sea de los términos
de la serie; y el mismo más uno el número o cantidad de resultados, o sea
de términos diferentes de la serie.
Ejemplo 8
En vez de 2 bolilleros tengamos 3 en las mismas condiciones ante
riores y construyamos la serie de resultados desde el punto de vista de
que salgan bolillas rojas. El cuadro de resultados y frecuencias sería el
siguiente, desarrollando el binomio elevado:
Hemos visto una nueva serie estadística con una distribución binomial
de frecuencias de la misma naturaleza que las anteriores.
Ejemplo 9
Construyamos finalmente una serie con una distribución binomial de
frecuencias recogiendo los resultados de arrojar 3 dados al mismo tiempo,
lis; desarrollando el binomio ele-
a * f r
lesultados Monomios Fi
•ayay-ay -
! ( ; ) ' ( ! ) ' - > ( ; ) ’ (I)-
1 ma) ' ( ! ) ■ - (i) ( 9 ‘ -

• i H í i ( ; ) • ( ! ) '- ■ ( ! ) • ■
La serie mínima sería pues:
3 (1), 2 (IS). 1 (75). 0 (125)
163
ESTADISTICA MEDICA
de frecuencias.
Observación: Vemos, pues, que cuando aumenta el número o cantidad de

casos individuales que se observan simultáneamente, aumenta igualmente y
en forma mucho mayor la complejidad de los cálculos necesarios para
obtener el valor de los monomios. Por ejemplo, si arrojáramos 5 dados, el
del binomio elevado.
Como siempre, el valor del primer monomio corresponde a la frecuen

cia del resultado máximo y el de los que siguen a los resultados siguientes
en orden descendente.
'( ! ) ■ ( ! / - '(i)' = 4
i (;)’(;)■-10(1)7;)’- w
a e n y - w - n s
a r e - w - i i
» ( ; ) * ( ! ) ’- 1(!)‘ -m
5 (1), 4(25), 3 (250). 2 (1250). 1 (3125), 0 (3125)

!E BINOMIAL DE BERNOUILLI
7776
25
7776
250
7776
1250
7776
3125
3125
7776
3125
3125
7776
n = 2 / = 7776 Z/r= 1
p> q (o sea, cuando a > b).

Corresponden a los re )s cuando
p = q (o sea, cuando a = b).
Y corresponden a los resultados menores cuando
p< q (o sea, cuando a < b).
Cálculo de la frecuencia de un resultado determinado

Si lo que nos interesa exclusivamente es saber cuál es la frecuencia
con que en la serie se repite un resultado determinado, sólo tendremos
que armar el monomio correspondiente a dicho resultado.
Este monomio, como lo dijimos antes, está formado por tres factores:
el 1° es el coeficiente binomial, el 2° es el primer término del binomio,
165
ESTADISTICA MEDICA
elevado a una potencia determinada, y el 3° es el 2° término del binomio

elevado a otra potencia igualmente determinada.
El coeficiente monomio! puede obtenerse siguiendo técnicas muy
sencillas. En primer lugar digamos que el coeficiente del monomio corres
pondiente al resultado máximo y al resultado cero es la unidad (de modo
que nada puede ser más fácil que esto).
El coeficiente de los monomios correspondientes a los otros resulta
dos es un quebrado, y como tal, está formado por un numerador y un
denominador. Estos pueden obtenerse por dos técnicas distintas.
Primera técnica:
El numerador es igual al producto del coeficiente del monomio an
terior multiplicado por el exponente del primer término de este mismo
monomio, y el denominador es igual al exponente del segundo término
también del monomio anterior aumentado en una unidad.
Ejemplo: desarrollo del binomio
(a + b)‘
6X I _ _6
5+ 1 ~ 6
Segunda técnica
El numerador del quebrado del monomio correspondiente al 2° resul
tado, es decir al resultado cuyo valor coincide con el valor de exponente
del binomio menos 1, es justamente el valor del exponente.
166
El numerador del quebrado del monomio siguienle. es decir del co
rrespondiente al resultado cuyo valor es el exponente del binomio menos
2. es el numerador anterior multiplicado por el número que le sigue en la
serie descendente de los números naturales.
El numerador del quebrado del monomio siguiente es igualmente el
numerador del monomio anterior multiplicado por el número que le sigue
en la serie descendente de los números naturales.
Y asi todos, incluso el último. Pero éste, ya sabemos, al igual que el
primero, vale 1; de modo que no hace falta calcularlo. Veamos ahora el
Empecemos por el denominador del coeficiente del 2o monomio (del

correspondiente al resultado que es igual al exponente menos I). En este
coeficiente el denominador es 1.
El denominador del coeficiente del monomio siguiente (del que co
rresponde al resultado cuyo valor es igual al exponente menos 2), es el
denominador anterior (I) multiplicado por el número que le sigue en la
serie creciente de los números naturales, es decir, por 2.
El denominador de los coeficientes de los monomios siguientes, hasta
el último, es igualmente el denominador anterior multiplicado por el
número que le sigue en la serie creciente de los números naturales.
Ejemplo
(a + b)‘
Pongámoslos en columna frente a los resultados correspondientes:

Monomios
ESTADISTICA MEDICA
Si invertimos el orden de los factores de los denominadores (lo cual

es perfectamente permisible, ya que el orden de los factores no altera el
producto), esos coeficientes, a partir del correspondiente al resultado 4 y
hasta el resultado 1, serian para el binomio
6 X SX
3X 2 X
6 XSX4
5X 4X 3X 2X
Vemos asi que en esos coeficientes, os denominadores for-

man series decrecientes completos de factores q nan en la unidad,
los numeradores forman seríes incompletas, sentido de que no ter
minan en la unidad.
Como es sabido, las seríes decrecientes de fa
unidad se denominan factoriales del símbolo
matemático es un signo admirativo, y sus valore tan sido calculados por
los matemáticos y colocados en tablas, las que men de calcularlos
'ez, lo cual es muy trabajoso cuando factoriales de nú-
os relativamente al Apéndice, Tabla 8. página 308.
is tablas, en ui os la serie natural
de los números desde I hasta 100; en una segunda columna encontramos
el valor del producto de la serie correspondiente al factorial, y en una
tercera columna el logaritmo de ese valor.
Cuando se trata de factoriales de números todavía más elevados, es

más cómodo manejarse con los logaritmos de los factoriales que con los
factoriales mismos. En esos casos se puede recurrir a tablas de logaritmos
factoriales. Una de tales tablas puede verse en Geigy, 6a. ed., p. 26, en la
que se dan los logaritmos decimales de los factoriales desde 1 hasta 999.
En esta edición, además, en la página siguiente tenemos el logaritmo
de los factoriales recíprocos, es decir de I/n!
Estas tablas nos permiten hallar, sin cálculo alguno, el valor de los
denominadores de los coeficientes binomiales, que estamos estudiando.
El valor de los numeradores, en cambio, por ser series incompletas de
factores que no terminan en uno, no pueden hallarse en dichas tablas,
sino que se lo debe calcular uno a uno en cada caso.
Sin embargo, podríamos completar la serie de los numeradores y
beneficiamos así con el uso de las tablas de factoriales, pero a fin de que
el valor del quebrado no se alterara, tendríamos que multiplicar el deno
minador por esa misma porción de serie que agregamos al numerador. En
esta forma, tanto el numerador como el denominador podrían hallarse en
las tablas.
Por ejemplo, los coeficientes recién vistos podrían ser transformados
en los siguientes, sin que su valor cambiara en el binomio (a + b)6
< I) (4 X 3 X 2 X 1)
(6 X 5 X 4) (3 X 2 X 1)
4 X3X 2X 1 X 3 X 2 X 1) (2 X 1)
6X SX 4X 3X 2 (6 X S X 4 X 3 X 2) (1)
5X4X3X2X1 (5 X 4 X 3 X 2X 1)(1)
En esta forma “actual" el numerador es una serie completa de fac

tores decrecientes hasta 1, es decir constituye el factorial del primer
factor, y su valor puede hallarse en las tablas.
169
A su vez los denominadores están formados por el producto de dos
series decrecientes que terminan en 1, es decir están formados por el
producto de dos factoriales cuyos valores también pueden hallarse en las
tablas. Esta última forma facilita, por tanto, muchísimo la tarea de encon
trar el valor de los coeficientes binomiales.
Observaciones •
1) Observando estos coeficientes expresados en forma de factoriales,
vemos que todos los numeradores no son más que el factorial del expo
nente del binomio y
2) que los denominadores están formados por el producto del facto
rial del resultado multiplicado por el factorial de la diferencia entre el
exponente del binomio y el resultado;
3) si genéricamente el exponente del binomio lo simbolizamos por N
y al resultado por R, el coeficiente binomial puede simbolizarse por una
N y una R puestas una encima de otra y ambas encerradas entre parén-
Estos coeficientes responderían evidentemente a la fórmula
/ N
\ R /
\m » ____
R! (N -R )l
Es decir que el coeficiente del monomio correspondiente a cualquier

resultado es igual al coeficiente binomial del exponente N sobre el resul-
Y también es igual al factorial del exponente dividido por el producto

del factorial del resultado multiplicado por el factorial de la diferencia
entre el exponente y el resultado.
Ejemplo
¿Cuál es el coeficiente binomial correspondiente al resultado 3 en el
desarrollo del binomio (a + b)5?
I 5 ) Ni S!
\ 3 / R! (N - R)1 3! 2!
Recurriendo a una tabla de factoriales podemos reemplazar a estos

por sus valores, entonces tendremos
170
120 120
10 .
6 X 2 “ 12
Por el método originario el cálculo de este coeficiente hubiese sido
(D-m-T
En este ejemplo hubiese sido más sencillo el método originario que el
derivado, debido a que tanto el exponente como el resultado son números
pequeflos; pero otra cosa hubiera sido si, por ejemplo, el problema hubie
se sido: ¿cuál es el coeficiente binomial correspondiente al resultado 25
en el desarrollo del binomio (a + b)‘°°?
En este caso el coeficiente, de acuerdo con el método originario,
hubiera sido
/ 100 \ 100 X 99 X 98 X . . . X 26 (75 multiplicaciones)
\ 25 / I X 2 X 3 X . . . X 75 (75 multiplicaciones) *
Es decirque para calcular este coeficiente por el método original
necesitaríamos realizar nada menos que 150 multiplicaciones, lo cual
evidentemente es una tarea larga y laboriosa.
En cambio, por el método deducido el cálculo indicado es el si-
N! _ 100!
R! (N - R)! “ 25! 75! '
Se recurre ahora a una tabla de factoriales, con lo cual tenemos
/ 100 \ 100! 9333 X 10'»_______ = 2425 X 10”

\ 25 / 25! 75! 1551 X 10” X 2480 X lO'04
La magnitud de este coeficiente puede apreciarse por elexponente 23
del factor 10, lo cual nos dice que el valor de la cifraes superior aun 2
seguido de 23 ceros, o sea de unos 242 mil trillones.
Pero también estos cálculos pueden verse facilitados recurriendo a
tablas apropiadas de coeficientes binomiales como los que trae la obra
citada de Geigy, sexta edición, pág 25, abajo y 70 a 77.
La primera de estas tablas nos da directamente los resultados de los
coeficientes que van de
171
172
SERIE BINOMIAL DE BERNOUILL!
Vimos anteriormente que los otros factores de los monomios son los
dos términos del binomio elevado, cada uno de ellos elevados, a su vez, a
un exponente determinado cuyos valores son los que ahora debemos
Digamos ante todo que esta parte del asunto es sumamente sencilla.
En efecto, el primer factor del monomio se halla elevado invariable
mente al resultado, y el segundo factor a la diferencia entre el exponente
y el resultado.
Las frecuencias de los ie binomial que responda
(a + b)5
pueden obtenerse por las dos siguientes formas:
La primera forma es
tabla de coeficientes binomiales
o de sus logaritmos.
173
R! <» - W
■nToí' *TT•5T■1
( i4 ) ‘
los dalos del problema son. pues.
Luego, la frecuencia del resultado 3 es:
■-MU (f)'
120 _l 25_
6 X2 216 36
I20X 1 X 25 125
175
CAPITULO XV
PARAMETROS MEDIA Y DESVIO STANDARD EN LAS MUESTRAS

BINOMIALES
(DISTINTOS VALORES)
Resultados en valores absolutos
cuencias son pasibles de los mismos tratamientos que las otras muestras o
series estadísticas normales, es decir que el cálculo de sus parámetros
puede hacerse por los métodos comunes aplicables a cualquier muestra o
Tomemos, por ejemplo, la serie que recoge los resultados de arrojar 3

monedas, desde el punto de vista de que éstas caigan de cara. El binomio
elevado cuyo desarrollo contiene los monomios cuyos valores indican las
frecuencias con que aparecen los resultados es ( -y’ + -y )*
y la serie de resultados es la siguiente: (Véase ejemplo 7 página 160.)
3(1), 2(3), 1(3), 0(1)
3, 2, 2, 2, 1, 1, I, 0 .
El cálculo de los parámetros media y desvío medio standard (o nor

mal) de esta serie puede hacerse por los métodos o procedimientos genera
les; por ejemplo, mediante la siguiente planilla de operaciones
177
ESTADISTICA MEDICA
íf» ! - m£ fx
Cuando son series cortas, no hay inconveniente en aplicarles estos

procedimientos básicos para el cálculo de los parámetros. Como sabemos
ellos exigen el conocimiento de todos los valores o datos de la serie. Pero,
como se trata de series con distribución binomial de las frecuencias que
respondan al desarrollo del binomio elevado (p + q)N, para calcular sus
parámetros media y desvío standard no hace falta conocer los valores
completos de la serie: bastan los del binomio elevado cuyo desarrollo
coincide con la distribución de las frecuencias. En efecto, la media, en
estos casos, es igual a! producto del ler. término del binomio multiplicado
por el exponente del mismo, es decir,
m = pN
178
füJili
más la probabilidad que salga ceca llamamos una probabilidad total del
100%. la de que "salga cara" será del 50% y la de que “no salga cara”,
también del 50%.
A fin de que el valor del binomio se mantenga igual a la unidad, estos
porcentajes se expresan en centesimos.
En este caso el binomio, por lo tanto, es
(0,50 + 0.SO)1
A su vez. los resultados obtenibles pueden tener un carácter porcen

tual. en el que el resultado máximo tendrá el valor 100% y proporcional
mente los otros resultados, como acabamos de verlo.
Arrojando una moneda por vez, el resultado máximo desde el punto
de vista de "sacar cara" es "sacar 1 cara". A este resultado podemos asig
narle el valor 100%.
El otro resultado posible arrojando una moneda es no “sacar cara", al
que antes le asignábamos el valor 0. y al que ahora le asignaremos el valor
0 también, pero agregándole %: 0%.
Las frecuencias con que se dan estos resultados están dadas por los
monomios resultantes del desarrollo del binomio elevado. Pero los valores
de estos monomios se dan en centésimos y debemos traducirlos y expre
sarlos después en %.
Asi, en el caso de arrojar una moneda, los resultados y las frecuencias
son dadas por el desarrollo del binomio elevado.
(0,50 + 0,50)'
Monomio Probabilidad
1 (0,50)' (0,50)° = 0,50 0,50 = 50%
7 (0,50)° (0,50)' = 0,50 0,50 = 50%
La serie, por lo tanto, es

100% (50), 0% (50)
En esta serie podemos calcular los parámetros media y desvío medio

normal o standard por los métodos comunes. Así
PARAMETROS MEDIA Y DESVIO STANDARD
181
ESTADISTICAMEDICA
Observaciones
Hs evidente que en estos casos se trata de series de series, y no de
series de datos.
Cuando digo que la serie es
100%(50), 0 %(50)
digo
100%, 100%, 100%... (50 veces). 0%. 0%, 0%... (50 veces),
es evidente que cada término de la serie es a su vez una serie formada por
100 términos, en este caso todos iguales. Si uno de los términos fuese
50%. ello significaría igualmente una serie de 100 términos, de los cuales
SO serian iguales a un valor determinado y los otros cincuenta iguales a 0.
Hasta ahora habíamos visto que tas muestras y las series se formaban
con observaciones individuales y con datos individuales. Aquí nos encontra
mos con series formadas por series, o si se quiere, los datos se refieren a
series. Podríamos decir que se trata de una SERIE (con mayúsculas) de
series (con minúsculas).
En la serie del ejemplo, que dijimos era
100%(50), 0%(50),
cada uno de los términos de esta serie se refieren a una Serie de 100 tér
minos; los 50 primeros formados por series con el valor o resultado máxi
mos, y los 50 siguientes por series formadas por el valor o resultado nulo.
De ello resulta que el desvío standard no es un parámetro represen
tativo de los desvíos de los datos, sino de las series, expresadas por sus
medias; el desvio standard es, por lo tamo, el desvio de las medias, es
decir, es un error standard. Un desvío standard de las medias, no un
desvío standard de los datos.
Como siempre, el exponente N del binomio (p + q)N indica el núme
ro o cantidad de objetos que se juegan en las series primitivas, y N + I es
el número o cantidad de resultados diferentes, así como el de términos
distintos de la serie final.
En el ejemplo dado, el exponente I indica que se jugó una moneda
por vez, y N + 1 que se obtuvieron 2 resultados distintos.
Ejemplo 2
Si, en vez de ser una, las monedas fueran 2, los resultados (relati
vos a salir cara) 2, 1.0. pueden valorarse 100%. 50%, 0%y y la frecuen-
Resultado Monomio Probabilidad
100% (o sea 2) 1 (0,S0)s (0.50)° = (0.50)J = 0,25 = 25%
50% (o sea I) ~ (0.50)1(0.S0)1 = 2 (0.50) (0,50) = 0,50 = 50%
0% (o sea 0) 1 (0.50)° (0,50)’ = (0,50)’ = 0,25 = 25%
100% (25), 50% (50), 0% (25)
100 (%) 25 2500 10000 250000

50 (%) 50 2500 2500 125000
0 (%) 25
D 5000
- = 50%
375000-50 X S000 = . [ 375000 - 250000

100 V100
125000
- = y/ 12S0 = 3S%
ESTADISTICA MEDICA
Si, en vez de ser 2 las monedas arrojadas al mismo tiempo, fuesen 3.

los resultados, como sabemos, podrían ser 2 caras, I cara o 0 cara.
Si el resultado máximo 3 caras le adjudicamos el valor 100%, al "2
caras" tendríamos que adjudicarle el 66,66%, al “I cara" el 33,33%, y al
(0,50 + 0.S0)3
Monomios Probabilidad
100 (%) (o I (0,50)3 (0,50)° = (0,50)3 — 0,125= 12,5%
66,66 (%) (o Y(0,50)s (0,50)' = 3 (0,50)3 = 0,375 = 37,5%
3x 2
33,33 (%) (o —(0,50)' (0.50)3 = 3 (0,50)3 = 0,375 = 37,S%
1(0,50)° (0.50)3 = (0,50)3 = 0,125 = 12,5%
Es decir que la Serie es:

100%(125), 66,66% (375), 33,33% (375), 0% (125)
Los parámetr i media y desvío standard (error standard) pueden calcular-

>r los métodos habituales de acuerdo con la siguiente planilla:
1250000,00
1663312,5
Probabilidad de un resultado
Cuando una mueslra, o una serie estadística, presenta una distribución
de frecuencias de carácter binomial, la solución del problema de la proba
bilidad y el de la significación de un resultado puede verse extraordinaria
mente simplificada.
Ejemplo
Problema. ¿Cuál es la probabilidad de que un matrimonio tenga por
resultado 7 hijos seguidos todos ellos varones?
Respuesta. Aceptando que la probabilidad de que un matrimonio
tenga un hijo varón es igual a la de tener una hija mujer, la probabilidad
de "tener un varón" es igual a -y y la de "no tener un varón” es también
igual a -J-. Por lo tanto, las probabilidades de tener I. 2, 3 „., 7 hijos
varones, en otros tantos partos seguidos, están dadas por los valores de los
monomios correspondientes al desarrollo del binomio elevado
I8S
ESTADISTICA MEDICA
En este desarrollo el monomio correspondiente al resultado máximo,

el correspondiente al exponente del binomio, es decir a 7, es decir el 1er.
monomio, tiene como coeficiente la unidad, R1 <NN¿ R^f =» = 1, al
que sigue el 1er. término del binomio elevado al resultado, es decir a 7, al
que sigue como 2° factor el 2° término del binomio elevado al exponente
menos el resultado (7 —7 = 0), es decir a cero. Por lo tanto, ese mono-
•(i)’(i)‘-(y)’- y -á r
Por consiguiente, la probabilidad de tener un séptimo hijo varón en 7
nacimientos seguidos es de 1/128. Es decir, que de 128 matrimonios que
tengan 7 nacimientos, uno, como promedio estadístico, tendrá los 7 naci
mientos varones.
Significación de un resultado
El concepto "significación de un resultado" vamos a aclararlo median
te ejemplos.
Ejemplo 1
Problema. Si de 9 enfermos de reumatismo cardíaco, 5 son hombres y
4 mujeres, ¿indica ese resultado una preferencia por los hombres, en el
reumatismo cardíaco?
Respuesta. Si no hay pieferencia sexual alguna, al producirse un caso
de reumatismo cardíaco, éste podrá ser tanto de un varón como de una
mujer. Aceptar esto equivale a aceptar que en casos de enfermedad la pro
babilidad de que el enfermo sea varón es de y y la de no ser varón,
también de .
Al producirse 9 reumatismos cardiacos, los enfermos podrían ser
todos hombres, por mera casualidad, como al arrojar 9 veces una moneda
las 9 veces puede salir cara, también por mera casualidad, y lo mismo
decimos si en vez del resultado 9 tuviésemos el 8, el 7, el 6, etcétera.
Todos estos resultados pueden darse por obra de la casualidad, sin que
haya una predisposición especial, por los hombres en el caso del reumatis
mo cardíaco, o por las caras en el de arrojar la moneda. Si bien todos
estos resultados son posibles, sus probabilidades son distintas, y estas
probabilidades coinciden con los valores de los monomios resultantes del
desarrollo del polinomio elevado:
PARAMETRO:- MEDIA Y DESVIO STANDARD
En eslc caso, la probabilidad de que en 9 casos de reumatismo cardía

co S sean hombres, lo mismo que la de que al tirar 9 veces una moneda
salgan S caras, es igual al valor del monomio correspondiente al resultado
5.
El valor de este monomio, como el de cualquier otro, en una distribu
ción binomial de frecuencias, es, según vimos (véase página 174), igual a:
( r) (l)
(1) es igual a:
(’ ) X 0,5’ X X 0,5* (2)
Recurriendo a la tabla de coeficientes binomiales, vemos que:
( ;) -.»
Por otra parte:

logO.S’ = 9 X logO,5 = 9 X (0,699 - 1) = 3,291 .
Luego, en una tabla de antilogaritmos (por ejemplo Geigy. 6a ed.,

pág. 11) o en la tabla de logaritmos veríamos que:
antilog. de 7,291 = 0.001954

Por lo tanto:
5
( ) X^ = 126 X ° '001954 = ° ’246
Este es el valor del monomio correspondiente al resultado S en la dis

tribución binomial que responde al desarrollo del binomio elevado
ESTADISTICA MEDICA
(0,5 - 0,5)’
Si no dispusiésemos de una tabla de valores absolutos de coeficientes

binomialcs, pero si de una tabla de valores logarítmicos de coeficientes
binomiales (por ejemplo Geigy, 6a. ed., págs. 70 y subsiguientes), vería
mos que:
log ( 5 ) “ 2.10037
Luego, en una tabla de antilogaritmos veríamos
antilog de 2,10037 = 126
Este valor multiplicado por 0,59 nos daría también el valor del mono
mio de referencia: 0,246.
H
\ r )- N!—
R! ( N - R)!
Recurriendo ahora a una tabla de factoriales (ver Apéndice Tabla 8),
9! _ 3,6288 X 10s
5! X 4! 1,2 X 103 X 2,4 X 10‘
Y también en esta forma podríamos hallar el valor del monomio co

rrespondiente al resultado buscado, esto es:
0,246 = 24,6%
Es decir que en 100 muestras de 9 casos cada una de reumatismo

cardiaco, en 24,6 podemos obtener el resultado 5 hombres. Como esta
probabilidad del 24,6% es muy superior al S%, debemos aceptar que dicho
resultado es mera obra del azar en un universo en el cual no hay predispo
sición alguna por el sexo. Esta es la significación de este resultado.
188
PARAMETROS MEDIA Y DESVIOSTANDARD
Si los casos de reumatismo, en vez de ser los del problema anterior,

hubiesen sido 123 en total, de los que 67 eran hombres y 56 mujeres, la
probabilidad del resultado 67 sería igual al valor del monomio:
Como este coeficiente binomial, por demasiado elevado, no se encuen

tra en las tablas comunes de coeficientes binomialcs, debemos darle la
forma factorial, y entonces:
(» )* x m “
|og 67l,2-^ - X0,5' ;3 =log 123! + 123 log 0,5+ log 1/67! +log 1/56!
log 123! = 0,08444 + 205

123 log 0,5 = 123 X (0,699 - 1) = 85,97700 - 123 = 0,97700 - 38
log 1/67! = 0,43805 - 95
log 1/56! = 0,14813 - 75
123! X 0,Sia
= 1,64762 -
°8 67! X 56!
1,64762 - 3 = 0,64762 - 2 = 2,64762
antilog de 2,64762 = 0,044
Este valor (0,044) es la frecuencia teórica o probabilidad de que ex

yendo muestras con un efectivo de 123 observaciones de un universo
1-8
reumáticos en el que el reumatismo afecta por igual a hombres y muje-

, obtengamos una muestra en la que los reumáticos varones suman 67 y
Í
Í
ESTADISTICA MEDICA
Como se trata de una muestra con un número relativamente numero

so de clases (124), es lógico que la frecuencia relativa de cada una de las
clases sea pequeña, incluso la de la dase que incluye los valores inmedia
tos a la media (61 ,5), es decir los resultados 61 y 62. En efecto:
P6, = PM = 0,072
Este resultado no nos dice, por lo tanto, nada respecto de si este

mayor número de varones que de mujeres indica una predisposición del
reumatismo por los hombres. Esta es la probabilidad de aparición de este
resultado, pero esa probabilidad no indica por si sola la significación del
resultado, salvo que ella sea superior al S%, como en el caso anterior. Para
resolver esta cuestión tendremos que ver la significación del desvío de
dicho resultado.
Significación del desvio de un resultado
Es decir tendremos que ver si la diferencia del resultado observado a
la media de un universo sin predisposición alguna, o sea de uno en el cual
la predisposición sea la misma para hombres que para mujeres, es significa
tiva o no de que nuestra muestra pertenece a un universo distinto, en el
que hay predisposición masculina. Es decir, tendremos que ver si el desvío
reducido de nuestra obsemación es o no superior a 2. Si es superior, la
diferencia es significativa; si es inferior, no lo es.
D.R.
si se tratase de una muestra simplemente normal para conocer el desvío

standard, tendríamos que conocer el valor de todos los resultados (x en la
fórmula). Estos resultados suman N + 1 = 123 + 1 = 124. Esta tarea es
realizable, pero laboriosa. Pero, como se trata de una muestra cuya distri
bución es binomial, el cálculo de estos parámetros es sumamente fácil.
En efecto:
190
PAI' \MI I KOS MEDIA Y DESVIOSTANDARD
S, = =\ j 61.5 = V I 075 = 5.5
167-61.51 5,5
D' - S3 — ■ 3T - 1 '
Siendo el D.R. inferior a 2. la diferencia no es significativa.
Otro ejemplo
Problema n° 3 (Bancroft. p. 130)
En un total de 1523 muertes por una determinada enfermedad, 774
correspondieron a varones y 749 a mujeres; es decir, murieron 25 varones
más que mujeres.
Se pregunta: ¿Indica esa superioridad de muertes masculinas una pre
disposición especial en los hombres hacia la enfermedad en cuestión?
Razonamiento y solución. En un universo sin predisposición alguna, la
mitad de las muertes serían de varones (y la otra mitad de mujeres). Si
esto se repitiese fielmente en una muestra de 1523 muertes, 761,5 ten
drían que ser masculinas y otras tantas femeninas.
Pero, por otro lado, en una muestra de muertes sin ninguna predispo
sición especial por los individuos de un sexo determinado, por pura
casualidad, la totalidad podría estar formada exclusivamente por hombres;
es decir que por simple obra del azar, sería perfectamente posible encon
trar una muestra de 1523 muertes en la que todos fueran hombres, como
seria igualmente posible encontrar otra de igual cantidad de muertes en
las que los hombres sumaran 1522 y las mujeres 1, en otra con 1521
hombres y 2 mujeres, etcétera. La posibilidad existe siempre. Lo que
ocurre es que la probabilidad de que asi acontezca es muy remota; debe
mos precisar entonces cuál es la probabilidad de que ocurra de ese modo,
y por supuesto que la probabilidad será mucho menor para muestras
como las que acabamos de señalar, que para otras en las que las cantida
des de hombres y mujeres fallecidos sean aproximadamente las mismas.
Para resolver cuál es la probabilidad de hallar 774 varones muertos en
una muestra de 1523 defunciones, sin que haya ninguna predisposición
especial de la enfermedad por matar varones, es decir aceptando que la
probabilidad individual en caso de muerte sea la misma para hombres que
para mujeres (como la probabilidad individual de caer cara, arrojando una
191
La diferencia x - m = 774 - 761.5 = 12.5 . . x - m < 2 Sx

D.R. - (x - m)/S,)= (774.0 - 761.5)/ 19.5 = 12.5 / 19.5 = 0.6.
Como la diferencia entre el valor observado (774) y el valor medio
(761,5) no alcanza a valer 2 S* (ni siquiera I Sx) o. más exactamente,
como el desvío relativo (D.R.) en este caso es igual a 0,6. podemos decir
que dicha diferencia no es significativa; es decir que el resultado descu
bierto en nuestra muestra no implica una mortalidad masculina preferente
en la enfermedad de que se trata. „
Limitación del método del D.R. aplicado a las series binomiales

En los casos en que el producto "p N" o el "q N" es menor de 10. y
sobre todo menor de S. como fueron los ejemplos de los matrimonios con
7 hijos varones y el de los 9 enfermos con reumatismo cardíaco. h3y que
seguir el método de los monomios para conocer la probabilidad de una
frecuencia, pues el de los desvíos relativos difiere bastante de los valores
reales, debido a que, en estos casos, el área del histograma dífieie mucho
del área subtendida a la curva normal.
De ahí una limitación del método que dice: "Para conocer la signifi
cación de un resultado binomial, la probabilidad calculada a partir del
binomio puede sustituirse, con una aproximación suficiente, por el D.R..
es decir por el área subtendida a la curva normal, mientras los productos
“P N" y “q N" valgan cada uno por lo menos 5. y preferiblemente 10",
pero "cuando el producto "p N" o el “q N" valga 10 o menos y sobre
todo 5 o menos, debe seguirse el método de los monomios".
Veamos un ejemplo en el que p N y q N valen menos de 5 y en el
cual comprobaremos la diferencia de resultados siguiendo uno y otro
Problema A'1’4
Si de un total de 5 muertes por una determinada enfermedad, cuatro
corresponden a varones, ¿constituye ello para dicha enfermedad una mor
talidad masculina significativa, mucho mayor que la femenina?
Razonamiento: En una muestra de 5 muertes, en la que la probabili
dad individua] de muertes sea la misma para varones que para mujeres, es
decir del -y, pueden darse todas las posibilidades, esto es, que las 5 muer
tes correspondan a varones, o que corresponda 4, 3, 2. I, o ninguna; pero
la probabilidad de que asi ocurra es diferente.
La probabilidad de cada uno de esos 6 resultados está dada por el
valor del monomio correspondiente en el desarrollo del binomio elevado
ESTADISTICA MEDICA
(WJ
Estos, colocados en la planilla conocida, se
La serie es, pues

5(1). 4(5), 3(10), 2(10), 1(5), 0(1)
y la frecuencia del resultado 4 varones es .

Esta frecuencia expresada en porcentaje, o sea en una serie ya no de 32
términos, sino de 100,es 15,62S%.
La frecuencia del resultado 5 muertos varones es 3,125%.
La suma de las frecuencias del resultado 4 más la delresultado 5(la
de hallar 4 varones (5/32) más la de hallar 5 varones (1/32)esigual a
(6/32)= 18.75%.
Si en el 18,75% de los casos de muertos podríamos hallar 4 ó más
varones ello significaría que hallar cuatro puede ser obra simplemente de
194
■'ARAMETROSMEDIA Y DESVIOSTANDARD
esle procedimiento de cálculo.

La solución podríamos haberla obtenido por otro procedimiento pre
guntando: ¿Es la diferencia entre el valor observado y la media igual o
superior a dos desvíos tipos? Mejor dicho, ¿igual o superior a 2,78? ya
del 5% para una muestra de n = 5 (» = 4), por ejemplo en nuestro extrac

to de tabla, página 114).
La respuesta nos la da el desvío relativo (D.R.)
Siendo el D.R. (1,34) menor de 2,78 la diferencia no es significativa.

Pero ¿cuál es la probabilidad de hallar una diferencia igual o mayor?
La probabilidad nos está dada también por este desvío relativo.
D.R. = t4 = 1,34
En efecto, consultando la tabla 2 del Apéndice, página 300 vemos que a

t4 = 1,34 corresponde un 2 P entre 0,20 y 0,30.
Lo cual signiiiearia que aproximadamente en el 25% de los casos
hallaríamos una diferencia igual o mayor por simple casualidad.
Conclusión
Los resultados 4 ó 5 es 18,75%, haciendo el cálculo de las probabili
dades individuales de cada uno de estos resultados y es en cambio del
25% haciendo el cálculo de la probabilidad del desvío reducido. Es decir,
195
ESTADISTICA MEDICA
comprobamos diferencias en los resultados según sigamos uno u otro

método, como queríamos demostrar.
Cálculo de la población o efectivo necesario

Una aplicación de las series con distribución de frecuencias de carác
ter binomial con resultados o términos que se expresan en porcentaje, es
calcular el tamaño que necesita tener una muestra o serie estadística para
que en ella se obtengan parámetros de determinados valores, por ejemplo
para que su media se encuentre dentro de determinados límites.
Recordemos que en muestras de la misma población, obtenidas del
mismo universo, la media oscila, dentro de los límites dados por el desvío
medio normal de la media, o sea del desvío standard de la media, o sea
del error standard (todos éstos son sinónimos).
Recordemos también que este desvío medio de la media es directa
mente proporcional al desvío medio normal de los datos (o sea del desvío
medio standard) e inversamente proporcional a la raía cuadrada de la
población. Es decir:
Quiere ello decir que el Sm es tanto mayor, es decir que los límites
dentro de los cuales oscila la media de las distintas muestras estarán más
alejadas, cuanto mayor sea el desvío medio standard de los datos; o cuanto
menor sea la población de la muestra: y será tanto menor, es decir los
limites estarán tanto más próximos o más cerca, cuanto menor sea el Sx o
cuanto mayor sea la población de la muestra.
Frecuentemente se plantea el problema de saber qué población debe
tener la muestra para que los límites de oscilación de la media se encuen
tren a determinada distancia, es decir para que el S„ no sea superior a
una determinada cantidad o magnitud.
Decimos que tratándose de series que presenten una distribución bino
mial de sus frecuencias, y que sus términos se expresen en porcentaje del
resultado o término máximo, este problema se soluciona muy fácilmente.
Veámoslo mediante un ejemplo:
Problema: En un medio ambiente en el que la diabetes afecta al 4%
de la población, ¿cuál ha de ser la población de la muestra para que las
medias que se obtengan no sean menores de 3 ni mayores de S%?
196
(0.04 + 0,96)5*4
s ,( -s .),y S A •
Es decir que en estos casos las muestras tendrían que tener una pobla
ción de 3.456 observaciones.
muestras hay 27 muestras que quedan fuera de estos Iimites, por lo cual
estos limites 3 y 5%. *

Si quisiéramos que dentro de esos limites estuviera prácticamente el
100% de las muestras, tendríamos que hacer 4 S„ = 1%.
Entonces:
p = 4% 4 Sm = I
Como un D.R. de 3,9 tiene una P de 1 “/ooo, la probabilidad de un

D.R. de 4 es todavía menor. Por lo tanto, en muestras de 6.144 personas
la media oscilará entre 3 y 5%en la totalidad de las muestras.
CAPITULO XVI
INTERVALO DE CONFIANZA DE LA MEDIA Y SIGNIFICACION DE

ESTADISTICA MEDICA
Esta es la razón por la cual el desvío standard (S*) de los datos de las
muestras binomiales expresadas en porcientos, es el error standard (Sm)
de la media.
Al hacer el cálculo de los limites del i. de c. de la m. debe expresarse
la media en porcentaje de! valor máximo independientemente de que los
datos de la muestra se expresen en valores absolutos, fraccionados o por
centuales.
Cuando se trata de una muestra binomial con una población grande,
superior a den, y "p” se halla entre uno y nueve décimos, su distribudón
de frecuencias puede asimilarse a una distribución normal y en consecuen-
da los lJ.c. de la m. se encuentran a 2 Sm (2SX) a derecha y a izquierda
de la media.
Ejemplo: Sobre un total de 1.923 nadmientos, 988 lo fueron de va
rones. La media es, por lo tanto, del 51%, se pregunta ¿dentro de qué
límites variará la media en el 95% de muestras similares a la nuestra?
Solución:
Respuesta
Como la media variará dentro de los dos errores standards alrededor
de nuestra media,
L. del i. de c. de la m. = m ± 2 Sm = 51 * 2,2 = 48,8% a 53,2% .
Respuesta
En el 95% de las muestras similares a la nuestra la media variará entre
el 48,8 y el 53.2%. A su vez, la media del universo ha de hallarse también
entre esos límites con una probabilidad del 95%.
Los límites del intervalo de confianza para ciertas “N" comprendidas
entre 10 y 100, o entre 2 y 1.000, pueden hallarse directamente sin
cálculo alguno, en las tablas correspondientes; por ejemplo, en Lamotte,
M., Estadistic Biológica, Trad. esp., ed. Toray-Masson, págs. 78 y 79, o,
en forma más completa, en Geigy Tablas Científicas, 6a. ed„ págs. 85 a
103. Ver Apéndice, Tabla 4.
202
INTERVALO DE CONFIANZA DE LA MEDIA
SIGNIFICACION DE LA DIFERENCIA ENTRE DOS MEDIAS BINO-

MIALES CUANDO SON GRANDES LA POBLACION DE LA MUESTRA
Y LA FRECUENCIA DE LA MEDIA
Cuando dos muestras binomiales tienen un efectivo elevado, superior
a den, o por lo menos si la suma de ambos efectivos es superior a esa
cifra y si la media, expresada en valores relativos, o sea "en porcentaje del
valor máximo, es dedr “p", es superior al 10% (e inferior al 90%) y en
valores absolutos, o sea "pN", es superior a 5", la significación de la dife
rencia entre las medias está dada por el error relativo de la diferencia
entre las medias.
Como vimos al exponer la significadón de la diferencia entre dos
medias pertenedentes a muestras normales numerosas (cap. X), se llama
error relativo de la diferencia entre dos medias al codente de dicha dife-
renda, expresada en valores absolutos, divididos por el error standard de
la diferenda, o sea por la raíz cuadrada de la suma de los cuadrados de
los erroresstandards de las medias, es decir,
ER = Inti - tthl
■ ■(">, - « si V SJ,, + SJ,,
Aquí, tratándose de muestras binomiales, y por lo tanto de muestras

de muestras, los valores absolutos de las medias son en realidad valores
relativos, generalmente porcentuales del valor máximo, de modo que
aunque, al hacer el cálculo del error relativo de la diferencia, se tomen
esos valores relativos como absolutos, no debe olvidarse que se trata de
valores relativos, generalmente porcentuales, por lo cual es preferible dar
les la forma de centesimales. Esta manera de proceder, además, facilita los
cálculos, al permitir prescindir de los decimales muy alejados de la unidad,
como son los centésimos de milésimos o los millonésimos, sin afectar
excesivamente el resultado. Pero esta manera de proceder no es imprescin-
Por la razón antedicha, por tratarse de valoresporcentuales, ioserro
res standards de las medias (S„ = S*)son igualesa la raízcuadrada del
cociente del producto de ambos términos del binomio elevado dividido
por el exponente. Es decir:
Por esto, los cuadrados de los errores standards de las medias son
directamente el cociente de producto de ambos términos del binomio divi
dido por el exponente. Es decir,
* - ( # ) ' - V
Notemos que eliminamos la radicación de este cociente, pero no la
del denominador del E.R. de la diferencia, que persiste.
Por lo tanto, el error relativo de la diferencia entre las medias es igual
Si bien puede hacerse el cálculo del E.R. de la diferencia sobre la base

de esta expresión en la que tanto m = p como q se tomen como valores
de cada muestra por separado, es preferible que tanto “p” como “q" no
sean de cada muestra por separado, sino de ambas muestras en conjunto.
Esto nos permite no sólo simplificar los cálculos, sino comprender el
fundamento del método que se basa en que partimos de la hipótesis de
que ambas muestras pertenecen al mismo universo, por lo cual la diferen
cia entre ambas medias tendría que ser cero. (Esto es lo que se indica
cuando se dice que se adopta la hipótesis “cero”.) Como la diferencia
entre nuestras medias no es cero, se trata de saber cuál es la probabilidad
de obtener, extrayendo muestras del tamaño de las nuestras de un univer
so único, dos muestras cuyas diferencias entre sus medias sean las halladas
por nosotros. Si esa probabilidad es superior al 5%, debemos concluir que
la tal diferencia entre nuestras medias no es significativa. En cambio, lo
será si la probabilidad es menor del 5%.
No conocemos los valores de P y de Q en ese univeiso único, pero
aceptamos como la mejor estimación de ese universo el conjunto de nues
tras dos muestras tomadas juntas, y entonces el valor de P es el cociente
de dividir la suma de ambas medias (en valores absolutos) por la suma de
ambos efectivos. Asi:
_ Pi N, + Pa Na
N, + N,
Subsecuentemente Q = I - P
204
Entonces el error relativo de la diferencia entre dos inedias binomiales
1.
D
* -(mi - m ,)
_
j
lmi mil
-------- ---
* PQ , PQ
(Recordemos que lmL—m3| significa diferencia absoluta.)

Si este ER. (m, - m,) « superior a 2. la diferencia entre las medias es
significativa. Si es inferior, no lo es.
Si queremos una mayor precisión en la respuesta, se toma el
E.R.(m, _ mj) como “c" y en una tabla de sumas de frecuencias relativas
fuera de menos “c” y de más “c”, o sea desde menos infinito hasta
menos “c" y desde más "c” hasta más infinito, se ve la magnitud del
riesgo o porcentaje de error (véanse tablas Geigy, 6a. ed., pág. 30, izq.)
Ejemplo (tomado de JAMA, 1949,141,635)

Entre 4.793 primigestas se comprobaron 295 gestosis, y entre 3.142
multigestas, solo 61. Se pregunta, ¿hay una diferencia significativa de ges
tosis entre primigestas y multigestas?
La media (y también “p")en valores relativos, en las primeras es:
m, ( = P ,) = ^ = 0,062 = 6.2%
y en las segundas
ma( = Pa) = 3 ^ - = 0,019 = 1.9%.
La diferencia entre estas medias es, por lo tanto,
m, - m3 = 0.062 - 0,019 = 0,043 = 43% ,
205
ESTADISTICA MEDICA
Por consiguiente.
0 i P = I - 0.04S = 0.95S = 95,5%
Entonces:
Siendo el E.R. de la diferencia entre ambas medias muy superior a 2,

dicha diferencia es altamente significativa
A veces los resultados se dan ya en porcentajes, lo cual facilita los
cálculos al evitar el uso excesivo de decimales, pero debe tenerse en
ta forma de expresarse al hacer el cálculo de P.
Con una medicación se ha obtenido un 75% de c

1.010 pacientes y con otra el 85% sobre 2.015. Se pregunta si hay u:
diferencia significativa entre ambos resultados.
Cálculo:
p, N, = 0,75 X 1010 = 757,50
Ps N2 = 0,85 X 2015 = 1712,75
p= _ 7S7.50 + 1712,75 _ _
N ,+ N j " 1010 + 2015 1
1 - 0.816 =
V 1010 2015
Siendo el E.R. de la diferencia entre las medias muy superior a 2,
dicha diferencia es altamente significativa.
Con un ligero error en el resultado, error que no siempre afecta
mayormente a la respuesta . pueden lomarse “p" y
cada muestra. Entonces
206
-------------------- - - o
^ Pi qi , Pi q» a 7S X 25 + 85 X 15
\ N, N, V 1010 2015
Veamos un ultimo ejemplo
Entre 50 varones encontramos un 4% de resfriados y entre 50 mujeres
un 14%; se pregunta: ¿hay una diferencia significativa entre varones y
mujeres a este respecto? Tengamos cuidado con P y 0.
I 9 X 91 , 9 X 91
Siendo el E.R. de la diferencia inferior a 2, dicha diferencia no es

significativa. Si deseamos una mayor precisión en la respuesta, tomamos el
E.R.(m _ m > como V . y en una tabla de probabilidades por fuera de
“menos' c” y de "más c" (Tabla I del Apéndice), veremos que
a "c” = 1,7 corresponde una probabilidad de 0,09 = 9%.
Es decir que de un universo en que no haya preferencia por varones

ni mujeres pueden sacarse dos muestras como la nuestra con una probabi
lidad del 9%. Siendo esta probabilidad superior al 5%, se confirma que la
diferencia no es significativa.
Cuando la muestra binomial tiene un efectivo pequeño (inferior a

cien) o “p" tiene un valor igualmente pequeño, inferior al 10% (o supe
rior al 90%), la distribución de sus frecuencias difiere manifiestamente de
la distribución de frecuencias de la muestra normal y, por lo tanto, ya no
puede ser asimilado a ella.
207
ESTADISTICAMEDICA
En estos casos, los límites del intervalo de confianza de la media

(l.i.c. de la m.) no pueden obtenerse directamente en base al error
standard de la media multiplicada por 2, o por un coeficiente “t" obteni
do de una tabla de Gosset "Student", como se hace cuando se trata de
muestras normales.
Ahora los l.i.c. de la m. hay que determinarlos por tanteos, por
aproximaciones sucesivas, lo que puede resultar muy trabajoso, razón por
la cual es preferible recurrir a tablas especiales de limites del intervalo de
confianza de la media de muestras binomiales de pequeño efectivo o de
“p" próxima a "0” ó a "lOO”, en las que estos cálculos están ya rea-
Hay varios tipos de tablas de esta clase.

Algunas dan en valores decimales los 1. del i. de c. de la m. para cada
efectivo (n) de la muestra y para cada valor de la media o resultado (r = p
N o q N); por ejemplo. Tablas 4 y 5 del Apéndice. Otras dan en
porciento el valor de los limites, también para cada efectivo (N) de la
muestra y para cada valor (x) de la media; por ejemplo, Geigy, op. cit.,
6a. ed,, págs. 85 a 103.
En caso de que la tabla no dé los límites para efectivos iguales a las
muestras, sino los próximos (menor uno y mayor otro) debemos calcular
los valores límites de nuestra media por interpolación de los tamaños de
las muestras.
Ejemplo
En un grupo de 64 mujeres jovenes se encontró que 16 tenían sus
menstruaciones dolorosas. Entonces, si bien puede afirmarse que en esa
muestra la media de las pacientes con dismenorrea es igual a 0,25 = 25%
T 16
m = — = — = 0,25 = 25%,
o sea que el 25% de las pacientes de dicha muestra presenta dismenorrea

dolorosa, no podemos afirmar que en toda otra muestra la media haya de
ser siempre la misma; pero podemos averiguar dentro de qué limites estará
la media del 95% de las muestras.
Para ello recurrimos a una tabla de límites de confianza de la distri
bución binomial, por ejemplo Geigy, op. cit., pág. 90, y ahí vemos que
para N = 64, a x = 16 corresponde una media del 25%, con limites entre
15,02 y 37, 40%.
Si no dispusiésemos de dicha tabla, recurriríamos a la tabla 4 del
208
muestras formadas por 64 observaciones, como es la nuestra, pero si para
muestras de 60 y de 70 observaciones; en este caso, decimos, tenemos que
hallar los límites, por interpolación de los tamaños de las muestras.
Recordemos que el tamaño (T) de una muestra es igual al producto
de la media (m) multiplicada por la población (n). Es decir
T = 16
En la tabla vemos que para r= 16 los límites inferiores son 0,161
para n = 60 y 0,137 para n = 70. Estos son los valores inferiores de las
T inf 1 = 0,161 X 60 = 9,66 y

T inf 2 = 0,137 X 70 = 9,59.
La diferencia entre estos tamaños es
9,66 - 9,59 = 0,07.
Siendo mayor T inf. I, que corresponde a n = 60. que T inf. 2, que

Como entre ambas n hay una diferencia de 10 y entre la n de nuestra
cular una T intermedia entre T inf. 1 y T inf. 2 que está a =0,4 de
T = 9,66 - 0,4 X 0,07 = 9,632.
Este es el valor del límite inferior del intervalo de confianza obtenido

por interpolación. Como vemos, es exactamente igual al hallado en la
tabla.
209
ESTADISTICA MEDICA
Para el límite superior procedamos en la misma forma. En la labia

vemos que para "r" = 16, los limites superiores son 0,397 para n =60 y
0,344 para n = 70. Estos son los valores superiores de las medias de
muestras cuyos tamaños son, respectivamente,
T sup 1 = 0,397 X 60 = 23,82 y

T sup 2 = 0,344 X 70 = 24,08
La diferencia entre estos tamaños es

24,08 - 23,82 = 0,26,
siendo mayor T sup 2, que coresponde a n = 70, que T sup I, que corres-
Como entre ambas n hay una diferencia de 10 y entre nuestra n (64)

y n = 60 una diferencia de 4, al interpolar vamos, también aquí, a calcu
lar una T intermedia que esté a 0,4 de la diferencia (0,26) por encima de
la primera. Por lo tanto, esa T intermedia será
T = 23,82 + 0,4 X 0,26 = 23,924.
La media correspondiente a esa T es
m = X = 23^ 21 = 0,3738 = 37,38%.
Este es el valor del limite superior del intervalo de confianza por

interpolación. Como vemos, es prácticamente igual al hallado en la tabla.
Significación de la diferencia entre dos medias binomiales citando son

pequeñas tas poblaciones de las muestras o las frecuencias de las medias
En caso de muestras binomiales cuyos efectivos sumados no alcancen
a cien, o en que “p" 0 "9" 563 inferior al 10%, o en que “pN" sea infe
rior a 5, las muestras no pueden asimilarse a una muestra normal, y por lo
tanto la significación de la diferencia entre sus medias no puede apreciarse
por el método empleado para las muestras con efectivos y medias nume-
En estos casos hay que calcular cuál es la probabilidad de extraer de

un mismo universo binomial un par de muestras (o varios pares de
210
muestras) con efectivos iguales a nuestras muestras, es decir a Ni y a N2

y en las cuales las diferencias entre las frecuencias de los resultados (o
medias) sean iguales o mayores a la observada en nuestras muestras.
Extraer dos muestras simultáneas (una con un efectivo Ni y otra con
uno N2; una con un resultado Xi y otra con uno X2) equivale a extraer
una muestra única con un efectivo igual a la suma de ambos efectivos, es
decir, a Nj 4*N2 y con un resultado igual a la suma de ambos resultados,
es decir, igual a X| + X2.
Extraer las dos muestras simultáneas del universo equivale a extraerlas
de esta muestra única, pero esas muestras, si bien podrán tener, una un efec
tivo Ni, y la otra, uno N2, no tendrán forzosamente como resultados, una,
Xi, y la otra, X2, sino una, Ai y la otra, A2, si bien la suma de estos dos
resultados (Ai + A2) será igual a la suma de los resultados observados por
(X, + X2).
Por lo tanto, calcular la probabilidad de extraer de un universo

binomial un par (o varios pares) de muestras con efectivos iguales a los de
nuestras muestras, y cuyas diferencias de frecuencias de los resultados (o
medias) sean iguales o mayores a la observada por nosotros, equivale a
calcular la probabilidad, frecuencia, o suma de frecuencias, de extraer un
par (o varios pares) de muestras que llenen las siguientes condiciones:
1° Que sus efectivos N| y N2 sean los mismos que los -de nuestras
2° Que la suma de los resultados Ai + A2 sea igual a la de los resul

tados X] + X2 de nuestras muestras.
3“ Que la diferencia de las frecuencias de los resultados o medias
sea igual o superior a la de las frecuencias de los resultados
observados por nosotros ^-> - -^a .
Dado que la probabilidad de extraer de un universo binomial donde la
frecuencia de un carácter es "p”, una muestra de efectivo N y un resul
tado X, es igual al valor del monomio correspondiente al resultado X, es
f (x) = C? p‘ qN - \
la probabilidad de extraer dos muestras simultáneamente, una con un

efectivo Ni y la otra con un efectivo N2. la primera con un resultado Xi
y la segunda con un resultado X2, es igual al producto de ambas probabi
lidades, es decir:
211
ESTADISTICA MEDICA
f(X,,X,) = cg¡ px ' qN‘ - x ' X Cgj Rx > q”* - x»
y la probabilidad de extraer dos muestras, una con una frecuencia del

resultado (o media) y la otra con una frecuencia del resultado (o
media)-jji , deuna muestracon un efectivo N, + N2 y unresultado
Xi + Xa es igual al cocientede la probabilidad anterior dividido por la
probabilidad de extraer esta muestra, es decir,
, X, X, C?. C?- p».»«. qtN .-«.)+tN,-»,> Cg¡ C?;

f Ñ 7’ “ Cn' ; ”. ’ p».**. q(N, + N ,)-tx, + x,) “ CJ. + N.
Esta es la probabilidad de extraer un par de muestras en estas con

diciones.
Nosotros debemos conocer la probabilidad suma de todos los pares de
muestras que cumplan la condición tercera, es decir, que
Ai _ A3 . X! _ Xa
N, Na N, N, '
Si esta suma es'inferior al coeficiente de riesgo del 5%, la diferencia

es significativa.
Ejemplo
En una región, entre 125 individuos (N| = 12S) se han encontrado
bocios en 3 (X, =3), y en otra, entre 155 (N, = 155) no se ha encon-
trado ninguno (X3 = 0). ¿La diferencia hallada es significativa?
Estamos en presencia de muestras en las que cada observación signi
ficó una alternativa o dilema: o se estaba en presencia de un bocio o no
se estaba. Se trata, por lo tanto, de muestras binomiales.
En esta muestra, si bien la suma de efectivo, y aun los efectivos de
cada muestra, supera a cien, "p” en una de ellas es igual a 77, =
= 0,024 = 2,4% y en la otra es igual a jf*- = 0 = 0%; es decir que en
ambas muestras (basta con una sola) “p” es menor del 10%. No podemos,
pues, asimilarlas a una muestra normal. Para calcular la significación de la
diferencia entre sus medias, debemos calcular la probabilidad de extraer
de un mismo universo uno o varios pares de muestras con los mismos
212
Anlilog. 2,94343 = 0,08778 = 8,8% = f — , — .
Es decir que este par de muestras puede obtenerse de un universo

único con una frecuencia del 8,8%. Siendo esta frecuencia superior al 5%,
la diferencia no es significativa.
Otro ejemplo
Con un determinado medicamento aplicado.a 16 pacientes se curaron
7 (Ni = 16; X| =7); con otro medicamento aplicado a 20 pacientes se
curó 1 (Na = 20; X2 = 1). La diferencia entre y ^ ¿es o no sig
nificativa?
También aquí estamos ante un ejemplo en el cual cada observación
significó una alternativa: el paciente se curó o no. Se trata entonces tam
bién de muestras binomiales. La suma de los efectivos (16 + 20 = 36) es
inferior a cien. Tampoco podemos, por consiguiente, asimilarlas a una
muestra normal. También aquí para valorar la significación de la dife
rencia entre sus medias debemos calcular la probabilidad de obtener de un
universo único uno o varios pares de muestras cuyos efectivos sean los de
nuestras muestras, cuya suma de resultados sea igual a la suma de resul
tados de nuestras muestras, y cuya diferencia entre sus medias (o frecuen
cia de los resultados) sea igual o mayor que la diferencia de las medias
Dado que la probabilidad de que ocurra un hecho cuando él puede

ocurrir de varías maneras posibles, es igual a la suma de las probabilidades
de cada manera en particular, es necesario sumar las probabilidades de
todos los pares de muestras que llenen las condiciones dichas.
Aquí podemos tener tres pares de muestras, cada una con un efectivo
de 16 y 20 pacientes, respectivamente, cuya suma de resultados sea igual
a la suma de resultados de nuestras muestras y cuya diferencia entre sus
medias sea igual o superior a la encontrada entre las medias de nuestras
muestras. El primer par de muestras es el propio par hallado, en el que la
diferencia es
.ÍL _ *L _ Z L
N, Na 16 20 =
El segundo par podría ser uno cuya diferencia fuera

INTERVALO DE CONFIANZADE LAMEDIA
N, N, 16 20 '
Necesitamos conocer la suma de probabilidades de estos tres pares de
lucstras. Si esta suma es inferior al coeficiente de riesgo del 5%, la dife*
:ncia observada es significativa.
Para el 1er. par tenemos
f ( M ) ñ i
< (?) = ¿!
Para el 2o par tenemos
, „ c(f)c(f) ¿ j'A . . .
f 16 ' 20 r /36 \ J 6!_ 818! 36!
8! 28!
16! 28!
< (“ ) ' ¿ i
ESTADISTICA MEDICA
La suma de estas tres frecuencias (0,00756 + 0,00043 + 0,00416) es

igual a 0,01215 = 1,2%.
Siendo que en solo 1,2% de los casos podría obtenerse un par de
muestras en las condiciones indicadas, y siendo esta probabilidad inferior
al 5%, la diferencia encontrada en nuestras muestras es una diferencia
significativa.
Q u in ta p a r te
M U E S T R A S D E P O IS S O N
CAPITULO XVII
MUESTRAS DE POISSON
Tomemos una tabla de funciones exponenciales (por ejemplo Geigy.

6a. ed., pág. 16) para ver el valor e“ 1. Ahí veremos
e 1 = 0,367879 .
0,367879
0,061323 = 6%
Es decir que la frecuencia del resultado 3, si la media es del IVi, será

del 6%. Esto significa que, a pesar de que la media en la población en
general, es del 1%, en el 6% de las muestras que tengan una población o
efectivo de 100 podrá hallarse el resultado 3. Naturalmente, el problema
puede resolverse más fácilmente y sin cálculo alguno recurriendo a una
tabla de distribución de Poisson por ejemplo, Lamottc, Estadística Bioló
gica, Ed., Toray, pág. 52 ver Apéndice, Tabla 6). Estas son tablas de doble
entrada, en las que la columna vertical corresponde a los distintos valores
de la media y las líneas horizontales a los distintos valores del resultado.
En nuestro caso habrá que leer el número que está en la intersección de la
columna 1 con la horizontal 3. Dicho número es 0,0613. Esta es la fre
cuencia buscada. La misma que habíamos calculado.
Obtención de la media
Algo parecido ocurre con la media. Cuando en una distribución
binomial se desconoce el valor de "p”, no se puede hallar el valor de la
media, puesto que en una distribución binomial ésta es igual a “p” (si se
trata de porcentajes) o a “pN" (si se trata de valores absolutos). Pero si se
trata de frecuencias muy escasas en muestras muy numerosas, es decir si
se trata de una distribución de Poisson, el conocimiento de la frecuencia
de un resultado cualquiera, hasta de un resultado nulo, nos permite co
nocer la media. Por ejemplo, trabajando con virus no se puede saber, por
los métodos comunes, la pululación media de ellos en los diversos cul
tivos, por la razón de que no se los puede contar, pero como se puede
saber la frecuencia con que aparecen cultivos indemnes, es decir en que la
pululación es cero, podemos calcular el valor de la media aun cuando en
este caso el resultado es nulo, obteniéndolo de la ecuación
f(o )= ^
0!
221
ESTADISTICA MEDICA
en la que vemos que

e— « f(o) .
de donde se saca que
m _ - |ogf(°)
Supongamos que la frecuencia f(o) del resultado nulo, o sea de los

cultivos indemnes o no pululados, sea 0,3679, es decir,
f(o) = 0,3679 ,
entonces
-log 0,3679 - ( -1 + 0.S6S73)
m loge 0,43429
= » ~ 0.56S73 _ 0,43427 ^
0,43429 ~ 0,43429 * '
Es decir que el número medio (m) de virus por cultivo es muy apro
ximadamente igual a I.
Naturalmente, el problema puede resolverse más fácilmente y sin
cálculo alguno recurriendo a las Tablas de distribución de Poisson. como
la recién vista, y buscando en la horizontal del resultado cero, es decir en
la primera línea de la tabla, un valor de frecuencia igual o próximo al
nuestro. Hallado éste, basta levantar la vista y leer a qué media corres
ponde. Así encontraremos que en la primera columna se halla el valor
0,3679, el cual corresponde a la media uno: el mismo resultado obtenido
por el cálculo.
Como vimos que
e = f(o) .
también
f(o) = 0,3679 = e-1" .
Por lo cual, recurriendo a una tabla de funciones exponenciales como

la de Geigy, 6a. ed., pág. 16, y buscando a qué m (en la tabla, aquí x)
corresponde
e-m = 0.3679
222
MUESTRAS DE POISSON
(o el valor más próximo a 0,3679). encontraremos que
0,367879 = e-1
de donde concluimos que
es decir, el mismo resultado que el obtenido anteriormente.
En la distribución de Poisson la variancia tiene el mismo valor que la
Los limites del intervalo de confianza

Los límites del intervalo de confianza tanto del resultado como de la
media es posible fijarlos mediante el cálculo, pero éste debe hacerse por
aproximaciones sucesivas, lo cual suele resultar muy laborioso; por este
motivo es preferible recurrir a las tablas donde estos cálculos ya están
realizados. (Por ejemplo, Lamoue. op. di., pág 80. Ver Apéndice, Tabla 7.
También Geigy, op. cit., 6a. ed., pág. 107).
Ejemplo
¿Cuáles son los limites del intervalo de confianza del 95% del resul
tado “x" o "r" = 33 en una muestra cuya población “n" = 12.000?
“x” o “r" = 33 “n” = 12.000
En las tablas dichas, en la horizontal correspondiente a ’T" (Lamotte)

o a "x” (Geigy) —33, encontramos dos cifras.
22,7 y 46,3 (Lamotte)
22,715 y 46,345 (Geigy).
Esto significa que, en valores absolutos, los limites del intervalo de

confianza de nuestro resultado son;
223
Lj .c j. = 22,715 y 46,345
de nuestra media son:
Significación de la diferencia entre dos medias
que "p" o V sea inferior a (M (= 10%); Cap. 16.
224
S exta P arte
Ji CUADRADO (X2) O METODO DE PEARSON

CAPITULO
ESTADISTICA MEDICA
Tendríamos así, en el papel, dos muestras de igual población y con

iguales clases, una real y otra teórica, cuyas frecuencias de clases serían
diferentes.
Ante esa diferencia, dada por la distinta distribución de las frecuen
cias, se planteará el problema de si es correcta o no nuestra hipótesis de
que nuestra muestra real pertenece al mismo universo que la muestra
teórica; es decir, si dicha diferencia es meramente casual y debida al azar,
o si, por el contrarío, es significativa e indica una diferencia causal.
Recuérdese que éste es el problema fundamental de la estadística.
Ésta no trata de demostrar la igualdad entre dos muestras, ni es capaz de
hacerlo. Los métodos estadísticos sólo se ocupan de la diferencia que hay
entre ellas, estableciendo la probabilidad de que una diferencia hallada sea
significativa, o no, de una diferencia real.
En nuestro problema tendríamos que comparar, clase por clase, los
valores de la distribución de la muestra real con los valores de la distribu
ción de la muestra teórica, y calcular después la probabilidad de un re
sultado igual.
Este problema fue resuelto por Carlos Pearson en 1899, quien lo hizo
calculando la probabilidad de obtener por azar muestras como la nuestra,
es decir con el mismo efectivo y las mismas clases, sacando un gran nú
mero de muestras con una población igual a la nuestra de un infinito
formado por las mismas clases, pero con una distribución de frecuencia de
dichas clases que obedeciera a una ley, hipótesis, razón, proporción o
porcentaje, etcétera, como son, por ejemplo, la distribución binomial, la
normal, etcétera.
Pearson estableció un parámetro común a la muestra real y a la teó
rica, al que Uamó X J i cuadrado y además calculó las probabilidades de
su distribución de frecuencia.
CONCEPTO
X es la suma de los desvíos cuadráticos relativos obtenidos compa
rando clase a clase las frecuencias absolutas observadas en cada clase real
con las frecuencias absolutas calculadas para la clase correspondiente, en
una muestra de la misma población que la muestra observada, pero cuyas
frecuencias de clases sean las de dichas clases en el universo del que pro
viene la muestra calculada.
Los desvíos cuadráticos relativos (d.c.r.) se calculan dividiendo el
cuadrado de la resta de la frecuencia absoluta observada en una clase
menos la frecuencia absoluta calculada para dicha clase en la muestra teó
rica, por la frecuencia absoluta calculada. Es decir:
228
METODO DE PEARSON
“0" es la frecuencia absoluta o número de casos de la clase observada,

y "C” la ídem de la misma clase calculada.
Decimos que X3 es la suma de los devíos cuadraticos relativos, esto es
Tablas de X2- Significado de una probabilidad

Pearson construyó, además, tablas en las que se dan las probabilidades
de x3. Esas tablas son de dos tipos. En unas se dan las probabilidades
aproximadas para x3 exactos (véase Treloar en Bancroft, H.. Introducción
a la Bioestadistica. Ed. EUDEBA, 1960, págs. 162 y 163). En otras se
dan las probabilidades exactas para valores aproximados de x3 (véase
Geigy, Tablas científicas. 6a. ed„ págs. 36 a 39) (véase Extractos, pág.
230). Además las probabilidades pueden referirse a que ambas muestras no
pertenezcan al mismo universo (integral de 0 a X3) (véase Geigy, tabla
citada) o por el contrario a que pertenezcan al mismo universo (integral
de X3 a infinito) (véase Geigy tabla citada).
Hay, además, tablas reducidas, que, para nuestras necesidades médicas,
suelen ser suficientes. (Véase M. Lamotte, Estadística Biológica, Ed.
Toray, pág. 86.) En éstas se dan tos valores de los distintos grados de li
bertad de x3 para un coeficiente de seguridad o intervalo de confianza
del 95%. Cuando el valor hallado de Xa cae dentro de dicho intervalo, o
sea es menor al indicado en la tabla, integral de X3 a infinito, la diferen
cia no es significativa, siéndolo, en cambio, cuando es mayor. Cuando, en
este último caso, se quiere saber la probabilidad del error de esta afirma
ción (diferencia no significativa) hay que recurrir a las tablas completas,
especialmente a aquellas que dan las probabilidades externas o derechas
integral de x3 a infinito) (Geigy, tabla citada).
X3 es tanto mayor cuanto mayor sea la diferencia entre ambas mues
tras, y mayor, por lo tanto, la probabilidad de que ambas no pertenezcan
al mismo universo (aumento de la integral de 0 a x3)- Simultáneamente
será menor la probabilidad de x3 y menor la probabilidad de que ambas
muestras pertenezcan al mismo universo (disminución de la integral de X3
a infinito).
Tratándose de muestras médicas, se acepta que una probabilidad in
terna o izquierda de x3 (integral de 0 a x3) superior a 0,95 (coeficiente
229
METODO DE FEARSON
Grado de libertad
Los valores de X1 aumentan con el grado de libertad, llamando asi al
número de clases de la muestra teórica que puede variar su población o
efectivo de clase sin afectar la población o efectivo de la muestra, la cual
está fijada de antemano, pues debe ser igual al de la población de la mues
tra real.
Es evidente que si una muestra está formada por un número n de
clases (tres, por ejemplo: n = 3), sólo podrán variar sus efectivos libremen
te, n - 1 clases (en nuestro ejemplo, n - 1 = 3 - I = 2 clases); ya que,
una vez fijado el efectivo o población de estas n - I clases, el efectivo o
población de la clase restante queda automáticamente fijado, pueí debe
ser igual al efectivo de la muestra menos la suma de los efectivos de las
otras clases: es decir que esta última ciase carece entonces de libertad para
variar su efectivo o población.
El grado de libertad de una muestra teórica es igual, cuando más, al
número o cantidad de clases menos uno.
Y decimos cuando más porque si la muestra teó ca además de la
condición de tener la misma población o efectivo que la muestra real
tiene que satisfacer alguna otra condición, por ejemplo, que tenga algún
otro parámetro del mismo valor que el de la muestra real, el grado de
libertad será igual a la resta del número o cantidad de clases, menos el
número o cantidad de condiciones. Por ejemplo, si la muestra teórica debe
tener no sólo la población o efectivo igual a la muestra observada, sino
también la media con igual valor que la media de la muestra real, el grado
de libertad será n - 2. Y si, no sólo la población y la media deben tener
igual valor en una y otra muestra, sino también el desvío tipo, el grado de
libertad será n —3: etcétera.
Cuando en vez de ser una sola la muestra observada son dos o varias
las observadas al mismo tiempo, el grado de libertad de las muestras teó
ricas que se calculan a! mismo tiempo es igual al producto del grado de
libertad de las muestras por el número de muestras (m) menos uno. Por
ejemplo: si el grado de libertad de las muestras es n —1, el grado de li
bertad del conjunto de las muestras teóricas es (n - I) (m —1).
Restricciones
Al trabajar con x3 hay que tomar en cuenta las siguientes resfrie
Io) Sólo se comparan frecuencias absolutas.
231
METODO DE PEARSON
± + i_ + ü = ± + i. + 11= 12 = 0,,
25 50 25 25 25 25 25
Grado de libertad n - 1 = 3 - 1 = 2.
En una tabla reducida, de coeficiente de seguridad o intervalo de
confianza del 95%, o en la columna correspondiente a una probabilidad
de error del 0,05, vemos que el valor límite de xi es 5,99. Como nuestro
nificativa.
En resumen: X1 = 0,88 nos dice que la diferencia hallada es simple
mente casual. Veamos otro ejemplo.
Ejemplo n° 2. Compamción de una muestra real con una teórica; la

diferencia es significativa. Probabilidad de error de esta afirmación.
En otro sitio del mundo, otra muestra de cien personas nos da el
siguiente recuento: 31 gordos, 56 normales, 13 flacos. Preguntamos ¿la
diferencia hallada con la supuesta proporción universal de 25% gordos,
50% normales y 25% flacos, es casual?
Veamos qué dice Xa
las muestras a comparar son:
Total 100 10C
_ (31 -25)» (56 - SO)2 (13 —25)* _ 36 +
La tabla reducida dice que el valor límite de xi es 5,99; como el

valor de X3 hallado por nosotros es mayor, sacamos la conclusión de que
233
ESTADISTICA MEDICA
la diferencia es significativa. Una tabla de probabilidades de error muestra

o indica que nuestro x2 hallado tiene una probabilidad externa o derecha
(integral de x2 a infinito) comprendida entre 0,01 y 0,02. Por consiguien
te, la probabilidad de error de nuestra conclusión (diferencia significativa)
es de I al 2%. En resumen: la diferencia no es casual. La diferencia es
significativa. Las muestras no pertenecen al mismo universo.
Supongamos que se trata de las longitudes halladas midiendo esquirlas

óseas, y que las frecuencias de las clases de la muestra observada y las de
la calculada teórica correspondiente a una distribución normal sean
n significativamente diferentes?
Como en la muestra teórica las dos primeras clases, asi como la úl
tima, están formadas por un número de observaciones menor a 5, reuni
remos en cada muestra las tres primeras clases y las dos últimas. En esta
forma, ninguna de las clases teóricas tendrá un efectivo menor de 5.
Las muestras que comparar serán ahora
234
5,66
Siendo 7 el número de clases, el grado de libertad será uno menos, es

docir 6.
Para un Xí el valor límite o coeficiente de seguridad del 95% es
12,59; por consiguiente, siendo nuestro x’ inferior a ese valor, la dife
rencia de nuestra muestra con la muestra teórica no es significativa.
Ejemplo n° 4. Comparación de una muestra real con una teórica. Esta

presenta clases cuyas frecuencias son menores de 5. No hay clases vecinas.
Recurso de Yates.
Cuando una clase calculada vale menos de 5 y no se dispone de clases
vecinas para formar una clase más nutrida, se puede recurrir a la llamada
“corrección por continuidad de Yates". Esta consiste en modificar los
los valores observados y los calculados el valor 0,5 antes de elevar al

cuadrado, según que la diferencia sea positiva o negativa, y tomando luego
como probabilidad el término medio entre la probabilidad obtenida sin la
corrección y con ella. Por ejemplo; De un total de 40 pacientes con la
ringitis tuberculosa, a 10 se los trató con penicilina y a 30 con rayos
ultravioleta y/o cauterio; de los primeros se curaron 3 y de los segundos
gnificativas.
Se recurre al método del xJ •
236
Los valores calculados se obtuvieron suponiendo que no hay dife
rencia de resultados siguiendo uno u otro procedimiento terapéutico; es
curación, siempre que se efectuase en un número suficientemente grande

de pacientes. No conocemos cuál es la probabilidad de curación en este
universo común, por lo cual tomamos como estimación de ella la que nos
el que de un total de 40 pacientes se curaron 5. En este supuesto (y ésta

es la hipótesis que permite utilizar el método de x2), si en el total de
pacientes se curaron , en 10 tratados con penicilina debieron curar
Fijado este valor, los restantes se obtienen por simple resta de los
Si el total de los tratados con penicilina fue 10 y los que calculamos

que debieron curarse 1,25, los que no debieron curarse serán la diferencia
10 - 1,25 = 8,75.
Si el total de curados con ambos procedimientos fue S y calculamos
que los curados con penicilina debieron ser 1,25, los curados con el otro
procedimiento serán la diferencia 5 -1 ,2 5 = 3,75.
valor restante (26, 25).

Vemos que de los valores calculados sólo uno es independiente de los
Observamos, además, aquí, que de los valores calculados dos de ellos,

1,25 y 3,75, son menores que 5 y que no disponemos de clases vecinas
para juntarlos y hacer una clase numerosa. No podríamos, por lo tanto,
seguir adelante con el método de x2. Pero, si recurrimos al procedimiento
de Yates, podremos armar los quebrados cuya suma es x2, como si no
estuviéramos en infracción a una de las leyes del método. Entonces;
237
METODO DE PEAKSON
Una probabilidad así significa que la diferencia entre la muestra .cal y

la calculada puede deberse simplemente al azar; en otras palabras, que no
hay diferencia entre ambos métodos de tratamiento.
También podríamos razonar diciendo: habiendo obtenido dos valore.,
diferentes de x2 (3.6 y 1.8), podemos tomar el promedio como valor real.
Entonces,
v? . 3-é - 1-8
Para que la diferencia entre las muestras sea significativa, el valor de

Xi tiene que ser superior a 3,84. Como es menor, no lo es.
Como a Xi —2,7 le corresponde una probabilidad interna, o izquierda
(integral de 0 a x2). del 90%, la diferencia cae dentro del margen de
confianza del 95%. Por lo tanto, X2 = 2,7 no es significativo de dife-
- Ejemplo n°5. Comparación conjunta de 2 muestras con 2 clases cada

una. Tabla de 2 X 2. La diferencia no es significativa.
Deseando conocer la eficacia de una presunta vacuna para prevenir los

resfríos, la administramos a un conjunto de 40 personas, tr las que obser
vamos durante un cierto tiempo, al cabo del cual comprobamos que 10 se
habían resfriado.
Como control observamos a 160 personas del mismo medio ambiente,
a las que administramos un placebo, o no administramos nada: y al cabo
del mismo tiempo comprobamos que se habían resfriado 65.
La pregunta que nos hacemos es la siguiente: ¿La diferencia observada
es significativa de corresponder a universos diferentes, o pueden ser dife
rencias casuales de muestras del mismo universo? Recurrimos al método
X2-
Discusión y solución
La planilla de operaciones la armamos de la siguiente manera: Colo
camos en linea horizontal las distintas muestras y en columna vertical las
distintas clases, dejando un espacio a la derecha de cada valor observado
para colocar el valor que calcularemos después. Así:
239
METODO DE PEARSON
libertad) es 1. Los valores colocados en la inmediata vecindad de la co

lumna o de la Tüa de los totales, se obtienen restando de los totales
correspondientes los valores ya obtenidos. La regla dice que el número
de valores independientes o grado de libertad es igual al número de clases,
o sea de datos originarios en fila, menos I (F - 1) multiplicado por el n°
de muestras o sea de datos originarios en columna menos 1 (C - 1)- Es
decir:
Número de valores independientes o grado de libertad = (F - 1)X(C - 1).
N° de val. indep. = (2 - I) X (2 - I) = 1 X I = 1 .
Calculados los valores de acuerdo con la hipótesis, corresponde armar
Dijimos que:
« ..s - fc S l
’oniendo los quebrados en columna, tenemos:
(o -ty
c
(10 - 15)a _ <- 5>] 25
1,66
15 1S 15
(30 - 2S)* = <+ S>* 25
1,00
25 25 25
(6S - 60)* „ (+ 5 >* 25
= 0,41
60 60
(95 - 100)1 ( - 5)’ 25
- 0,25
100 100
! = 3,32
Observación I
De paso observaremos que, tratándose de una tabla de 2 muestras con
2 clases cada una, o, como suele decirse, una tabla de 2 X 2, los cual'
241
ESTADISTICA MEDICA
numeradores son ¡guales, por lo cual basta calcular uno y ponerle después
como denominador el valor calculado correspondiente.
Observación 2
2 También pueden observarse que en estas tablas de 2 X 2 el valor de

X puede obtenerse directamente de los valores observados y de sus
sumas parciales y totales, los cuales pueden simbolizarse asi:
d D
Entonces
(ad - cb)2 Z
X1 = A BC D
, _ (10 X 9S - 65 X 30)2 200

75 X 125 X 40 X 160
Vemos que X3 es Xi- Este sub 1 indica el grado de libertad, o núme

ro de valores independientes, el cual es de fundamental importancia para
el paso siguiente, que es el de recurrir a la tabla de Ji Cuadrado.
Recurriendo a una tabla reducida vemos que, para un valor indepen
diente de 1, a un valor de x? de 3.84 le corresponde una probabilidad del
5%.
Como nuestro x2 vale menos de 3,84, la diferencia no es significativa,
simple casualidad.
En otras palabras, las diferencias encontradas entre los valores obser
vados en nuestros vacunados y no vacunados por un lado, y los valores
242
METODO DE PEARSON
calculados sobre la base o hipótesis de que la presunta vacuna es inoperan

te por otro, no son diferencias significativas; son diferencias que pueden
deberse simplemente a la casualidad.
Esto es, que la vacuna no parece eficaz.
Veamos otro ejemplo:
Ejemplo n°6. Comparación conjunta de 2 muestras con 2 clases cada

una - La diferencia es significativa - Probabilidad de error
En una campana antimalárica, con el objeto de prevenir las recidivas
se había venido empleando un tratamiento, que llamaremos A, en base de
atebrina, exclusivamente. En eso se propone un tratamiento ligeramente
diferente, que llamaremos B, en el cual al tratamiento anterior se le agrega
plasmoquina. Se decide ponerlo a prueba. Para ello se administra el trata
miento A a 139 pacientes y se observa el comportamiento durante cierto
tiempo, comprobándose que del total, 106 presentaron recidivas.
El tratamiento B, es decir el anterior más plasmoquina, se administra
a 98 pacientes, y de ellos, en igual tiempo, 60 presentan recidivas.
Se plantea la siguiente pregunta: ¿las diferencias anotadas son casuales
o significativas? ¿La plasmoquina agregada mejora realmente los resul-
Sohtción
Se recurre a la prueba de Ji cuadrado, organizando la planilla de ope
raciones en la siguiente forma:
Se sostiene la hipótesis de que ambas muestras pertenecen al mismo

universo, o sea que la plasmoquina agregada no mejora los resultados y,
por lo tanto, que el tratamiento B es lo mismo, desde el punto de vista de
las recidivas, que el tratamiento A. Que las diferencias observadas obe
decen a simple casualidad.
243
Sobre la base de esta hipótesis se calcula cuál será la proporción de
recidivas con cualquiera de los dos tratamientos. Para ello se juntan las
dos muestras y se encuentra que sobre 237 pacientes tratados 166 presen
tan recidivas.
Según esta proporción, se calcula cuántos de los 139 pacientes que
recibieron el tratamiento A debían presentar recidiva: 444* 139 =
Con este resultado, calculamos los otros tres.

(Valores independientes, por lo tanto, 1.)
Ahora armamos los quebrados cuya suma es Ji cuadrado.
(O - C)»
(106 - 97,3)»
97,3
(33 - 41.7)1
(60 - 68,7)a
68,7
(38 - 29,3)»
29,3
Dijimos que tratándose de una tabla de 2 X 2 también podríamos pro-
a „ (106 X 38 - 60 X 33)* 237

Xl “ 166 X 71 X 139 X 98 '
Consultando ahora una tabla reducida de X3>vemos que para un solo

valor independiente una probabilidad del 5% corresponde a un Ji cuadra
do de 3,84. Como nuestro xz cs mayor que 3,84, la diferencia entre
ambas muestras es una diferencia significativa. En una tabla de probabili
dades extemas (integral de x1 a infinito) podemos ver que la probabilidad
de enor de esta afirmación (diferencia significativa) está entre el 1 y el
2%. Esto significa que en 100 pruebas similares a la nuestra sólo una vez
se hallarán diferencias iguales o mayores que la encontrada por nosotros.
Siendo ¿su una probabilidad muy escasa, es razonable aceptar que la dife
rencia entre los valores observados y los calculados sobre la base de la
hipótesis de la inoperancia del tratamiento B sobre el A es significativa. En
otras palabras, que el tratamiento B logra combatir las recidivas en forma
significativamente superior que el tratamiento A.
Hasta ahora hemos visto aplicar el método de Ji cuadrado a proble
mas que sólo implican 2 muestras con 2 clases de observaciones cada una.
Pero las posibilidades del método rebasan estos limites y puede aplicarse a
problemas con más de dos muestras, y con más de dos clases cada una.
Veamos esto con ejemplos.
Empecemos por un problema de varias muestras, aunque sólo con dos
clases cada una.
En el tratamiento de la coqueluche se desea saber si hay diferencias

reales en la eficacia (o ineficacia) de estos 4 agentes terapéuticos: estrep
tomicina, suero humano, suero de conejo, cloramfenico!.
Para esto se administró el 1° a 66 niflos; el 2° a 27; el 3° a SS y el
4° a 49. Además se observó el comportamiento de 45 a los que no se dio
medicación alguna.
Al cabo de una semana se recogieron los resultados, anotándose los
éxitos registrados en cada uno de los cinco grupos, los cuales fueron: para
la estreptomicina 38 éxitos; para el suero humano 13; para el suero de
conejo 32; para el cloramfenicol 32, y para el grupo de control, al que no
se hizo nada, 22.
contrario, es una diferencia debida simplemente a la casualidad?
Respuesta: Para su contestación se recurre al método del Ji cuadrado.

La planilla de operaciones se dispone de la siguiente forma:
245
246
METODO DE PEARSON
(32 - 31,l)1 _ B 3! _ 0,81

31,1 31,1 31,10
(32 - 27,7)a _ (4¿£
27,7
_ 18,49
27,70
27.7
(22 - 25,5)a _ ( - 2S,S)a 6,65
25,5 25,5 25,50
(28 - 28,6)a
28,6
. (~ O-**)1
28,6
= 0,36
28,60
(14 —ll,7)a (2.3)a 5,29
11,7 11,7 11,70
(23 - 23,9)a = <- °-9>* 0,81
23,9 23,9 23,90
(17 - 21,3)a
21,3
= 3-7>’
21,3
D 13.69
21,30
(23 - 19,S)a (3.5)a _ 12,25
19.5 19.S 19,50
x2 = -2 90
Consultando una tabla de Xa aproximado, vemos que el valor limite

de xi para un codicíente de seguridad o intervalo de confianza del 95%
es 9,49. Siendo el valor hallado de nuestro Xa muy inferior a éste, las
diferencias observadas entre las distintas muestras no son significativas.
Esto significa que las diferencias entre los valores observados y los
calculados pueden ser simplemente obra de la casualidad. En conse
cuencia, ninguno de los medicamentos empleados tiene un éxito real
mayor que el del simple no hacer nada.
Veamos un ejemplo más, en el cual se comparan varias muestras,
ahora con varias clases de observaciones cada una.
Ejemplo n°8. Comparación conjunta de varias muestras con varias

clases cada una.
Se trata de saber si el volumen de la metrorragia de los desprendi
mientos prematuros de placenta aumenta con la edad del embarazo. Para
247
en inmaduros, prematuros y maduros. En cada una de estas muestras se
valoró el volumen de la hemorragia en menos de 14 litro, entre 14 y 1 litro
y más de 1 litro. El número de casos observados en cada categoría es el
que aparece en la planilla.
Para su solución se siguió el método de x*-
SOLUCION: Se confeccionó la planilla de operaciones en la siguiente
Se supone (hipótesis) que todas estas muestras pertenecen al mismo

universo, que no hay diferencias reales en el volumen de las hemorragias
por razón de la mayor o menor madurez del embarazo. En consecuencia,
se considera que la frecuencia de observaciones de metrorTagias menores
volumen (121) sobre el total de metrorragias (o sea, de partos de todas las

edades) observado, es decir, 224. Por consiguiente, en una muestra de 33
partos inmaduros el número de metrorragias menores de 14 litro será
En la misma forma calcularemos el número de metrorragias menores
en muestras de 33 partos inmaduros y de 99 partos prematuros. Es decir,

calculamos 4 valores independientes. Los restantes valores los calculamos
restando del total la suma de los ya calculados.
Una vez calculados los valores, podemos armar los quebrados cuya
248
METODO DE PEARSON
(23 - 17,8)* (5.2)* 27,04

17,8 17,8 17,80
(47 - 53,5)’ (13.5)* 182,25
53,5 53,5 53,50
(51 - 49,7) IL 2 ! 1.69
49,7 49,7 49,70
(4 - 7,7)* (2.3)* 5,29
7,7 7,7 7.70
(29 - 23)* (6)*
23 23 23
(19 - 21,3)* 0 3 )! 5,29
21,3 21,3 21,30
(6 - 7,5)* ÍL 2 ! 2,25
7,5 7,5 7,50
(23 - 22,5)* (03)* 0.25
22,5 22,5 22,50
(22 - 21)* (1)* 1
21 21 21
Un extracto de tqbla, para 4 valores independientes, nos dice que una

probabilidad del 5% corresponde a un Ji cuadrado del 9,49.
Como nuestro x* tiene un valor menor de 9,49, las diferencias encon
tradas carecen de significación. Es decir que las diferencias observadas en
el volumen de las metrorragias por desprendimientos placentarios en
partos de distintas edades pueden deberse simplemente a la casualidad. No
hay prueba de que haya diferencia de volumen por razones de la edad del
embarazo.
Veremos ahora otra forma de aplicación o utilización de Xa• Este
método permite averiguar si una distribución de frecuencias observadas
ESTADISTICAMEDICA
corresponde a una determinada distribución de frecuencias, c

normal de Gauss, la binomial de Bemouilli, etcétera.
Lo veremos mediante un ejemplo.
Veamos una aplicación de Ji cuadrado para resolver si una frecuencia

observada corresponde a una frecuencia binomial de Bemouilli.
De acuerdo con los datos recogidos en un censo de población existen
53.680 familias que constan de padre, madre y 8 hijos.
Estas familias pueden agruparse en la siguiente forma, según el nú
mero de hijos varones que poseen:
N° DE VARONES N°DE FAMILIAS
razón de las muertes producidas desde la formación
seguían correspondiendo al desarrollo de un bino-

en cuenta que la natalidad masculina representa el
ío donde p = 0,515 q = 0,485 y N = 8,
250
1 (0,515)» (0,485)° = (0,515)»
- “ “ (O.SIS)7 (0,485)' = 8 (0.515)7 (0,48
r H (0,515)» (0.485)2 = 28 (0,515)» (0.48S)
* (0,515)* (0.485)3 = S6 (0,515)* (0,485
——— (0.5I5)4 (0.485)4 = 70 (0,515)4 (0,485
5)3 (0,485)» = 56 (0,515)3 (0,485
(0.5I5)2 (0,485)» = 28 (0.515)J (0,
~6 + |2 (°,S|S>' <0'485)’ = 8(0,515)' (0,485
(0,515)° (0,485)*= (0,485)»

ESTADISTICA MEDICA
O familias. Para ello s
ouilli, considerando que en un nacimiento, la p

i es 0.51S en 53.680 familias la probabilidad de l
varones, será la siguiente:
VARONES FRECUENCIA
8 0,004918 X 53680 =
7 0,037151 X 53680 =
6 0,122578 X 53680 =
5 0,231183 X S3680 =
4 0,272484 X 53680 =
3 0,205570 X 53680 =
2 0,096926 X 53680 =
1 0,026117 X 53680 =
0 0,003073 X 53680 =
(342 - 264)*
264
(2092 - 1994)*
252
METODO DE PEARSON
(14959 - 14627)» _ 332a _ 110224
14627 “ 14627 “ 14627
(10649 - 11035)» _ 386» _ 148996
11035 “ 11035 = 11035
(5331 - 5203)» _ 12£ = 16384
5203 “ 5203 5203
METODO DE PEARSON
El área comprendida entre los valores 70 y 80 es la diferencia entre el

área comprendida entre 70 y la media menos el área comprendida entre
80 y la media.
El área comprendida entre 70 y la media es el área que corresponde
al D.R. del dato 70. Este D.R. ( ‘ ~>"1 ) es igual a (■7°2~J ° ° 1'1) =-1,36.
El área que corresponde a un D.R. =-1,36 es, de acuerdo con las tablas,
0.4131.
El área comprendida entre 80 y la media es el área correspondiente al
D.R. del dato 80. Este D.R. = “°2~ j °°-4 =-0,91. El área que corres
ponde a un D.R. =-0,91 es 0,3186.
El área comprendida entre 70 y 80 es la diferencia entre las áreas
correspondientes a ambos D.R.; es decir, es igual a 0,4131 - 0,3186 =
= 0,0945.
En una muestra de 200 personas, el 9,44% es igual a
0,0945 X 200 = 18,9 personas.
En igual forma se calcula cuántas personas deberán estar, en una

muestra de 200, dentro de los otros intervalos en que se han agrupado las
frecuencias.
Con los datos observados y con los calculados se arma la planilla de
operaciones en la forma siguiente:
255
ESTADISTICA MEDICA
2S6
METODO DE PEARSON
Nos hemos quedado, por lo
(1 8 - 17,4)’ (0.6)’ 0,36

17,4 I7¿ 17,40
(17 - 18,9)’ 0.9)» 3,61
18,9 18,9 18,90
(27 - 28,3)’ 0.3)» 1,69
28,3 28,3 28,30
(36 - 34)’ (2£ 4_
34 34 34
(34 - 37,4)’ (3,4)’ 11,56
37,4 37,4 37,40
(28 - 28,8)’ (0.8)» 0,64
28,8 28,8 28,80
(23 - 19,2)’ (3,8)’ 14,44
19,2 19,2 19,20
(17 - 18,7)’ 0.7)» 2,89
18,7 18,7 18,70
lo sub 7, porque 7 es el número de valores independíen

lo de los valores calculados podía obtenerse restando de
is otros 7 ya calculados. También la fórmula
(C - 1) (F - 1) = (8 - 1) (2 -.1 ) = 7 X 1 = 7 nos da 7.
ESTADISTICAMEDICA
En una tabla resumida de ii cuadrado vemos que para 7 valores inde

pendientes, una probabilidad del 5% corresponde a un Ji cuadrado de 14.
A nuestro Ji cuadrado, mucho menor, le corresponderá una probabilidad
mucho mayor y, por lo tanto, las diferencias observadas no son signifi-
Es decir que la distribución de frecuencias observadas puede asimilarse

a una distribución de frecuencia normal de Gauss, y, por lo tanto, que se
está autorizado a utilizar el valor medio, el Sx y el D.R., de acuerdo con
los métodos típicos de las distribuciones normales.
Otro uso de Ji cuadrado es su aplicación al problema de la existencia
de asociación entre dos o más variables observadas en un mismo sujeto.
Cuando dos o más hechos se observan, no en sujetos distintos, sino en
los mismos sujetos, cabe preguntarse si existe una relación o asociación
Para obtener una respuesta a esta pregunta podemos utilizar el mé-
Un ejemplo de esta índole lo tuvimos en el ejemplo n°8, en el que

consideramos el volumen de la metrorTagia por desprendimiento prema
turo de la placenta en partos de distintas edades de embarazo. Ante los
hechos observados en aquella oportunidad podíamos habernos planteado
el problema en el sentido de si entre la edad del embarazo y el volumen
de la pérdida (en casos de desprendimiento prematuro de la placenta)
existe o no alguna relación o asociación.
En aquella oportunidad el planteamiento de la pregunta fue ligera
mente diferente. Entonces se preguntó si el volumen de la metrorragia
aumenta con la edad del embarazo. Como se ve, las dos formas de plan
tear el problema en el fondo se refieren a lo mismo, a si existe o no aso
ciación o relación entre el volumen de la metrorragia y la edad del emba
razo (en casos de desprendimiento normoplacentario).
Ya vimos en aquella oportunidad, que X1 es capaz de damos una res
puesta y además cómo debe emplearse el método para obtener la con
testación. Por eso no lo hacemos ahora.
La respuesta fue un xa de 7,6, al que le corresponde una probabili
dad del 10 al 20%, lo cual significa que las diferencias de volumen obser
vados pueden deberse a la simple casualidad; en otras palabras, que, según
Xa, no hay pruebas de que haya asociación o relación entre el volumen
de la metrorragia y la edad del embarazo.
Podríamos ver otro ejemplo de este tipo de problemas en el que Xa
nos contesta lo contrario, esto es que si, que hay asociación entre los
hechos observados.
258
METODO DE PEARSON
Se trata de saber si hay relación o asociación entre las reacciones

inmunitarias que presenta el organismo humano ante los antígenos tuber-
culina y lepromina. El problema es el siguiente:
Ejemplo n° 11. Xa como pruebas de asociación entre dos o más variables.

Un grupo de 177 niños originalmente negativos a la tubcrculina y a la
lepromina es vacunado con B C G.
Controlados algún tiempo después, se observan los siguientes hechos:
95 dieron respuestas positivas a la tuberculina -y a la lepromina, y 24,
negativas; 48 fueron positivos a la tuberculina y negativos a la lepromina,
y 10, positivos a la lepromina y negativos a la tuberculina.
La pregunta que se hace es la siguiente: ¿Existe alguna asociación
entre las reacciones a ambos antígenos? En otras palabras,¿los tubercu-
lina-positivos se hacen también en alguna medida, lepromina-positivos? Es
decir: ¿Los tuberculina-positivos son más frecuentemente lepromina-positi
vos que los tuberculina-negativos? Ji cuadrado puede damos la respuesta.
Para ello se arma la planilla operativa de la siguiente manera:
Se postula (hipótesisj que no hay tal asociación, que en ese medio

ambiente la frecuencia con que se dan los lepromina-positivos es la encon
trada en el gran total de 177 niños de las dos muestras reunidas, y en
consecuencia ésa será igualmente la proporción que deberá hallarse en el
grupo de los 143 tuberculina-positivos, como en el de los 34 tuberculina-
negativos.
Con esta hipótesis se calculan los 4 datos, de los cuales uno sólo se
hace con independencia de los otros tres. Con estos valores observados y
calculados se arman los quebrados cuya suma será nuestra X?.
259
ESTADISTICA MEDICA
(95 - 84,8)* _ (10,2)*

84.8 ~ 84,8
(10 - 20.2)a = (10,2)a
20,2 ” 20,2
(48 - 58,2)* _ (10.2)*
58,2 58.2
(24 - 13,8)a _ (I0.2)a
Recurriendo a una labia de Xa probabilidad exacta, vemos que para

un grado de libertad, una probabilidad del 5% corresponde a un x1 de
3,8; por lo tanto, a un xa mayor le corresponderá una probabilidad
menor. Es decir que la diferencia hallada es significativa. Una tabla com
pleta de integrales de x3 a infinito nos dice que la probabilidad de error
de esta afirmación es menor del 15 por mil.
Las diferencias encontradas son, por consiguiente, reales y significa
tivas. En otras palabras: X3 no confirma la hipótesis de que no hay aso
ciación. La conclusión es, por el contrario, que entre tuberculina-reacción y
lepromina reacción hay relación o asociación.
Ejemplo 0° 12. Xa en pruebas de correlación

Ver página 287
SEPTIMA PARTE
ASOCIACION: CORRELACION Y REGRESION

CAPITULO XIX
Correlación. Concepto
Cuando son dos las variables observadas al mismo tiempo en cada
objeto de la muestra, puede ocurrir que ambas están asociadas, es decir,
reciprocamente relacionadas, o como se dice en estadística, que estén
correlacionadas, o que no lo estén. Correlación es, por lo tanto, la rela
ción reciproca u asociación que puede existir entre dos variables simultá
neas de una misma observación.
En este caso, una modificación cuantitativa en una de ellas irá acom
pañada de otra modificación, también cuantitativa, en la otra.
Esta asociación o correlación puede ser visible a simple vista con sólo
observar un cuadro de valores o un diagrama de dispersión.
Por ejemplo, en cinco pacientes de la sala se ha tomado simultánea
mente el pulso y la temperatura y se ha obtenido el siguiente cuadro de
TEMPERATURA
60 36,6
70 37.2
80 37.8
90 38.3
100 38.9
263
ESTADISTICA MEDICA
A simple vista puede apreciarse que a mayor temperatura corresponde

un número mayor de pulsaciones, lo cual nos indica que pulso y tempe
ratura están asociados, o correlacionados, estadísticamente.
Si estos datos los representamos gráficamente en un sistema de ejes
ortogonales, tendremos un diagrama de dispenión como el siguiente:
100
90
80
70
60
36 37 38 39 409 Temp.
En el diagrama vemos que los puntos representativos de las observa

ciones simultáneas se distribuyen ordenadamente, es decir, que las que
corresponden a una “y” de mayor valor corresponden igualmente a una
“x" de mavor valor.
En el diagrama, los puntos podrían agruparse formando una figura
relativamente alargada, como aquí, o dispersarse por todo el campo sin
mostrar tendencia a agrupamiento alguno. En este caso, en el que los
puntos se distribuyen desordenadamente, diríamos que no hay evidencia
gráfica de asociación o correlación, mientras que en el primero, en el que
los puntos se agrupan formando una figura, diríamos que el diagrama
muestra la existencia de una correlación entre las variables.
Si la figura que forman los puntos es alargada, podemos imaginar que
ella posee un eje, en cuyo caso ese eje podrá ser una línea recta o curva.
Eso nos permitirá decir que el diagrama muestra una asociación rectilínea
o curvilínea.
Si el eje de la figura fuese una recta, ésta podría ser ascendente o
descendente, considerándola de izquierda a derecha, y (a menos que sea
264
horizontal, es decir paralela al eje de las x) tendría una rampa o pendiente
más o menos pronunciada. En estos casos diríamos que el diagrama
muestra una asociación rectilínea ascendente o positiva, en un caso, o des
cendente o negativa, en el otro.
El diagrama obtenido con los datos del pulso y la temperatura nos
muestra una asociación o correlación rectilínea positiva o ascendente.
El diagrama de dispersión de un8 muestra de distintas concentraciones
de un soluto en un solvente, en la que se tomase nota simultánea de la
concentración y de la dilución, nos mostraría una asociación o correlación
rectilínea descendente o negativa, pues los puntos se ordenarían siguiendo
una línea recta descendente o negativa, indicándonos gráficamente que a
medida que disminuye la concentración aumenta la dilución.
El diagrama de dispersión de una muestra de un conjunto de adoles-
una asociación o correlación curvilínea ascendente al principio y tendien

do a la horizontabilidad después, en la que la talla crece al principio con
la edad pero cada vez menos, para no crecer más a partir de cierta edad.
el servicio, nos mostraría una ausencia de correlación, ya que esas dos

variables son independientes y sus puntos representativos se distribuirían
desordenadamente sin tendencia a agruparse o confluir formando figura
Dijimos que la asociación o correlación entre los datos observados

simultáneamente en los objetos o sujetos de la muestra puede ser visible
en el cuadro de valores, o en el diagrama de dispersión, pero, agregamos
ahora, aún cuando esa asociación no sea visible a simple vista, el cálculo
estadístico permite saber, con toda seguridad, si existe o no correlación
entre las variables, y en caso de haberla, informamos acerca de su sentido
Esta información nos la da el parámetro llamado Coeficiente de Co

rrelación (C. de C.), el cual suele simbolizarse generalmente con una “r"
minúscula. Este parámetro indica la existencia, el sentido y el grado de la
Este coeficiente es, en principii
265
en estas fórmulas “x” e "y" simbolizan cada una de las variables observa
das simultáneamente.
Esta fórmula puede presentarse asi:
S(x —x ) ( y - y )
S, Sy
en la que el numerador ya no es la sumatoria de los productos de los

desvíos reducidos, sino la variancia combinada (o covariancia) de los datos
“X” e “y”: Como £ ~ *y ~ es la variancia conjunta de ambas
variables de la muestra, o ••covarianza” , que suele simbolizarse por “p '\
uc ‘ ~ iTsTsy sTs,
o sea, el coeficiente de correlación es igual a la covarianza dividida por el
producto de las desviaciones standard de ambas series de variables.
En este caso, si al hacer el cálculo de la covariancia, en vez de tomar
las diferencias de los datos a la media, se toman las diferencias de los
datos a 0, el resultado debe disminuirse en el cuadrado de la media com
binada (co-media), es decir en el producto de ambas medias x e y.
Entonces:
Esta fórmula puede sufrir las siguientes transformaciones:
2 (x y) n x y 2 (x y) - n x y
la fórmula (5) puede presentarse así:
lísTS ■ <6)
2 (x y) - (2 x) y
2 (x y) - 2 x 2y/N_________ m
r ' x/ 2 xJ - (2 x)2/N -J 2 y J - (2 y)2/N
Todas estas transformaciones de la fórmula primitiva tienen por
objeto simplificar los cálculos, evitando la necesidad de calcular el D.R. y
aun el D. simple de cada observación.
Variaciones deI coeficiente de correlación
El C. de C. puede variar desde -1 hasta +1. pasando por 0.
Si r = 0, no existe correlación.
Si r = +1 ó - 1, la correlación es perfecta.
Si r es positivo, la variación en ambas variables tienen el mismo sen-
Si r es negativo, las variaciones tienen sentido contrario.

Ejemplo
Problema n° I. Supongamos el caso, o muestra, de los cinco pacientes
de la sala a quienes se ha tomado simultáneamente el pulso y la tempera
tura, según vimos, y donde se pregunta si hay correlación entre ambas
variables. (Naturalmente, cinco observaciones son demasiado pocas para
un estudio de correlación; pero los vamos a tomar porque, desde el punto
de vista didáctico, son útiles para enseñar fácilmente cómo hay que pro-
267
Solución Lo primero que debe hacerse es conslruir un cuadro de valo
res y después un diagrama de dispersión, como ya lo hemos hecho, para
ver si hay o no evidencia de correlación.
Eslc último, el diagrama, es especialmente importante, ya que el
cuadro, si está formado por muchos valores, puede no ser muy claro, y el
diagrama, en cambio, sí lo es, al mostrar gráficamente una tendencia al
agrupamicnlo de los puntos.
Vamos ahora a confirmar la existencia de dicha asociación y de su
signo y precisar su grado, calculando el C. de C. de nuestra muestra.
Haremos uso primeramente de la fórmula 1 bis, página 266.
Z (x -x )(y -y )
(n -l)S * S y '
x; y; (x - x); (y - y); (x - x) (y -
Tomaremos como x los valores de las tempcri
s del pulso, es decir que consideraremos el p
(x -x l(y -y )
36,6 60 -1 1339,56
37.2 70 -0 1383.84
37,8 80 +0 1428.84
38.3 90 +0 1466,89
1513,21 10000
7132,34 33000
ASOCIACION
- = 37,76 ; y = -
..ynssi.v 7132,34 - 37,76 X 11
- i sy,. z s ’ - V 33000 - 80 X400
y para el S* y el S
Es decir, sólo cinco valores y no siete como antes, evitándonos calcu

lar el desvío de cada dato y el producto de los desvíos de cada par.
Entonces nuestra planilla sería la siguiente:
1339.S6 3600
1383.84 4900
1428.84 6400
1466,89 8100
1513,21 10000
7132,34 33000
V S *1 - * Z X ~ ^ P ~132'34 ~ 37'76 X 188,8 = 09
33000 - 80 X 400 1J g
»->)■ * "l : T * J -
_ £ ( x y ) - n y y = 15161 - S X 37.76 X 80 = +
' ~ (n - 1)S, S,. 4 X 0,9 X 15,8
Este C. de C. obtenido (+ 1) nos confirma que entre temperatura y

pulso hay correlación; que esa correlación es perfecta y que es positiva,
es decir que la variación se hace en la misma dirección; esto es, que
cuando aumenta una. aumenta también la otra y viceversa.
Valor de la significación del coeficiente de correlación

Si se extraen muchas muestras de un universo en el que no existe
correlación entre dos variables, el valor medio de los C. de C. de esas
muestras será cero; pero los coeficientes individuales de cada muestra
pueden tener un cierto valor, por obra del azar, Estos valores se distribui
rán alrededor de cero con un error standard (o desvío normal del C. de
C.) aproximadamente igual al valor inverso de la raíz cuadrada de la
población de la muestra menos uno.
donde n es el número de pares de observaciones simultáneas de la muestra

considerada.
Para conocer el valor de un C. de C-, se lo compara con su error
standard S?. cuando el C. de C. (r) es por lo menos dos veces superior a
su error standard (Sx). el C. de C. tiene real valor y significación; si no
alcanza a valer dos veces su error standard (es decir, si el error standard
(S?) es superior a V: r). el C. de C. pudo haberse obtenido por simple azar
en un universo sin correlación.
ESTADISTICA MEDICA
está precisamente en el limite entre un C. significativo y uno no signifi-
Tambián podemos apreciar lo mismo calculando los límites del inter

valo de confianza que están a dos errores standard a izquierda y a derecha
del C. de C. Es decir:
intervalo de confianza = r ± 2 S?
= l i 2X0,5=111
Es decir que los límites de nuestro intervalo de confianza se extien

den de 0 a 2. O lo que es lo mismo, que el valor de r podría ser 0.
Cuando el valor hallado de r se diferencia mucho de 0 (como en este
caso) y especialmente si el efectivo de la muestra no es muy elevado
(n<300), su distribución difiere de la normal y el método de su valora
ción por la curva normal ya no es válido.
En estos casos debe V transformarse en "z” (véanse tablas Ceigy 6a.
ed., p. 62) y tomar el error standard de “z" que es . 1 .
En nuestro caso de r - z = 3,8
= 3,8 ± — = 3,8 ± 0,7 = 3,1 a 4,5
a “z” = 3,1 corresponde r - 0,996

” " =4,5 ” ” = 1,000
Sin embargo, teniendo en cuenta que nuestro C. de C. se refiere a una

muestra con sólo cinco pares de observaciones en vez de una tabla de pro
babilidades “c”, tendríamos que recurrir a una tabla "t". Y entonces
veríamos que para (n - 1) grados de libertad una “t” de valor 2 corres
ponde a una probabilidad entre el 10 y el 20%, lo cual significa que en
muestras de sólo 5 pares en un universo sin correlación, en el aproximada
mente 15% de los casos se darán C. de C. iguales al obtenido por noso
tros. Esto último quita todo valor al C. de C. obtenido por nosotros.
Ello se debe a que cinco observaciones son demasiado pocas para
extraer conclusiones valederas. Ya lo dijimos al principio. Cinco muestras
son demasiado pocas para un estudio de correlación, y si a pesar de ello
las tomamos, sólo fue porque desde el punto de vista didáctico nos resul
taban útiles para enseñar clara y fácilmente cómo hay que proceder para
obtener el C. de C.
272
ASOCIACION
Significado del coeficiente de correlación

La existencia de correlación entre dos variables no significa que la
variación de una sea la causa de la variación de la otra.
El C. de C. dice simplemente si hay o no correlación estadística y. en
caso de haberla, mide su magnitud relativa e indica su sentido, pero no
prejuzga acerca de la causa.
Regresión. Concepto
Cuando dos variables están asociadas (correlacionados), la magnitud
de la variación de una de ella está relacionada con la magnitud de la varia
ción de la otra.
La variable que se considera dependiente de la otra suele simbolizarse
por "y", y la otra, la independiente, por "x".
A veces se dice que "y" es función de "x" y se escribe así:
y = f(x)
bn estos casos interesa saber cuáles son los valores de “y" para cada
valor de ”x", o sea, como se dice en estadística, conocer la regresión de
“y" a “x”. Regresión es, por lo tanto, la relación cuantitativa entre la va
riación de una variable y la variación de la otra variable a la cual se Italia
asociada o correlacionada.
Esta relación se expresa simbólicamente por una ecuación que se
denomina ecuación de regresión.
Hemos visto que llevando los valores de “x” e "y" presentados por
puntos a un sistema de coordenadas ortogonales cartesianas, puede verse si
dichos puntos forman una figura alargada, con un eje recto o curvilíneo.
En el primer caso, esto es, cuando la figura alargada formada por los
puntos tiene un eje rectilíneo, las variaciones de “y" relacionadas a las
variaciones de "x" están expresadas por una ecuación de regresión de los
valores de "y” a "x” y esa ecuación tiene la forma general y = a + b x,
b„ = -V -4 = r = J ^
x -x s,
. y = *yx-+ byxX = y - bj.*x' + by*x = y + \>,x (x - x)
273
ESTADISTICA MEDICA
El valor del parámetro "a" indica el valor de “y” cuando “x” es

El valor del parámetro “b” indica las variaciones de “y” a cada v
Este valor “b” se designa con el nombre de coeficiente de regre

(C. de R.) de “y” a “x'\
“b” es el cociente del desvío tipo de “y” dividido por el desvío
de “x” multiplicado por el C. de C. r.
¡ta expresión
as de tempe-
el C. de R. de “y” a “x”, o sea “b" es
C .d .R .-b -ri - |Jif -

Este C. de R. indica que por cada modificación de la temperatura en
una unidad, esto es en un grado, hay una modificación del pulso de 17,5
pulsaciones. En efecto, en el cuadro de valores vemos que para un rango
de 2,3° hay un rango de 17,5 X 2,3 = 40 pulsaciones.
Calculando los parámetros “a” y "b" se obtiene la ecuación de regre
sión (E. de R.) de “y” a “x” (o de “y" sobre “x”, como a veces también
se dice). Esta E. de R. puede obtenerse mediante el método de los cuadra
dos mínimos (ver la observación de la varianza, pág. 61), el cual permite
trazar la recta para la cual es mínima la suma de las distancias de cada
punto observado a dicha recta.
Esa ecuación de regresión puede obtenerse también, y de una manera
más fácil, recurriendo a la fórmula
274
ASOCIACION
y- y = f-g — (x - x)
y por lo tanto
Sv
y = y + r - jr - ( x - x ) = y + b ( x - x ) = y + b x - b x .
Ejemplo
En nuestras observaciones pareadas de temperatura y pulso, la ec
ción regresión se obtiene de la siguiente manera:
y = 80
x = 37,76
r = +1
S , = 15,8
S, = 0,9
y = 7 + r - |^ - ( x - S )
y = 80 + , l M ( x _ 37 76) = 80 + -LLgü _ 153 X 37,76

0,9 0,9 0,9
„ 15,8 x - 596,6 0.9 X 80 - 596,6 + 15,8 x
1S.8 x - 524.6
= 17,55 x - 582,9
0,9
Obtenida la ecuación, es muy fácil representarla gráficamente en un
stema de coordenadas ortogonales. Para ello basta determinar los puntos
ii les cuales la recta corta a los ejes de las coordenadas.
Para esto, en la ecuación y ~ a + bx, con los parámetros “a” y “b"
recisados previamente, se hacen sucesivamente “x” e “y" igual a 0.
275
ESTADISTICAMEDICA
Cuando y = 0 x = - , con lo que se determina el punto en que

la recta corta al eje horizontal, o de las “x”, o sea de las abscisas.
Y cuando se hace
se determina el punto en que la recta corta al eje vertical, o de las “y", o

sea de las ordenadas.
Trazando la recta que pasa por ambos puntos, tenemos la recta o
linea de regresión de "y” a "x". La recta o linea de regresión es la expre
sión gráfica de la ecuación de regresión.
En esta recta resultan mínimos los valores de las desviaciones de “y”
para cada uno de los valores de “x”; o sea que se han hecho mínimas las
desviaciones verticales, esto es, según, o paralela al eje de la “y”, de los
puntos que representan cada par de observaciones.
En el sistema de coordenadas cartesianas, el valor de “a” es la porción
del eje de los “y” interceptada por la recta y el origen de los ejes, por lo
cual también se llama ordenada en el origen, o distancia entre el eje de las
“x” y el punto de intersección de la recta con el eje de las “y”.
El valor de "b” es el cociente entre la ordenada y la abscisa de un

punto cualquiera de la recta, o sea la tangente del ángulo que forma la
recta con el eje de las "x’\ por cuyo motivo se la llama coeficiente
angular, o pendiente de la recta, o incremento de “y” al incremento uni-
276
ASOCIACION
La amplitud media normal de las desviaciones de "y" respecto de la

desvio standard de la adecuación de "y"a la recta.
Este desvio standard se simboliza Syx-
Regresión de "y" a "x". Desviaciones de y respecto de la recta

Este desvio medio es igual a la raiz cuadrada de) promedio de los
cuadrados de las desviaciones, es decir.
donde “y” es el valor de y observado para cada x, e Y el valor de “y”

cuando se ha sustituido el valor de “x" de la ecuación de la recta de regre
sión y = a + b x; (n es el número de pares de observaciones).
Como puede verse, esta fórmula es muy parecida a la del desvio
medio standard de las muestras simples:
La única diferencia es que en el primer caso se mide la diferencia alre

dedor de la recta y en el segundo alrededor de la media.
277
ESTADISTICA MEDICA
Cuando las observaciones son muchas, estos cálculos resultan muy

laboriosos. Entonces es útil agrupar las observaciones mediante tarjetas y
ordenar los cálculos mediante planillas en “damero”.
Para ejemplificar este método de trabajo vamos a tomar un ejemplo
de Bradford HiU (pág. 160).
Se trata de saber si hay correlación entre "hacinamiento” y “mortalidad
infantil menor de un alio", y si la hay, precisar su coeficiente, el coefi
ciente de regresión y la ecuación de regresión y la recta o línea de re
gresión.
Para ello se han tomado los datos de 78 ciudades de Inglaterra de las
cuales se conocen la mortalidad infantil menor de 1 afio y, simultánea
mente, el porcentaje de vecinos que en número de 3 o más habita en una
misma habitación. Por ejemplo, si en una ciudad se encontró que de cada
200 habitantes, 3 habitaban en la misma habitación se dijo que era del
1,5%, El hacinamiento encontrado osdló entre el 1,5% y el 17,5% y la
mortalidad infantil menor de 1 alto entre 37°/oo y U0°/oo.
Se confeccionó una taijeta para cada ciudad y en cada una de ellas se
anotó, a la izquierda la mortalidad y a la derecha el hacinamiento. En
primer lugar se atendió al dato consignado a la izquierda, es decir al de la
mortalidad y se ordenaron las tarjetas de acuerdo con ella; decidiéndose a
continuación hacer grupos o pilas de las tarjetas ya ordenadas, con inter
valos o módulos de 10°/oo de modo que el primer grupo comprendiera las
tarjetas de las ciudades en las cuales la mortalidad infantil fuera de 36 a
menos de el segundo de 46 a menos de 56%», el 3ro. de 56 a
menos de 66°/°°, etcétera. El último grupo comprendía las tarjetas de las
ciudades con una mortalidad de 106 a menos de 1ló%o. Así se obtuvieron
ocho grupos o pilas de tarjetas.
Aquellos grupos o pilas de tarjetas se ordenaron verticalmente y a
continuación cada grupo o pila fue reordenado siguiendo ahora el dato
consignado a la derecha, es decir el correspondiente al hacinamiento.
Hecho esto, cada pila se dividió en grupos con intervalos o módulos
de hacinamiento del 3%, de modo que el primer grupo comprendiera las
tarjetas de las ciudades cuyo hacinamiento fuera de 1,5% a menos de
4,5%; el segundo, de 4,5 a menos de 7,5% el 3°, de 7,5 a menos de
10,5%; etcétera; el último grupo comprendía las tarjetas correspondientes a
ciudades en las cuales el hacinamiento fuera de 16,5 a menos de 19,5%.
Aquellos subgrupos se ordenaron horizontalmente. Hecho esto, se

confeccionó una planilla de damero con columnas verticales de 8 casillas y
278
lia correspondiente, en la siguiente forma:
Con sólo echar un vistazo a la ptaniiia puede ya advertirse que, grosso

modo, las ciudades con menor porcentaje de hacinamiento presentan
también una menor mortalidad infantil, y las con mayor hacinamiento
mayor mortalidad. Este agolpamiento en diagonal de las ciudades es una
fuerte sugestión en el sentido de la existencia de una asociación o correla
ción entre ambas variables. En este sentido, el damero es una especie de
diagrama de dispersión.
Para el cálculo del C. de C. vamos a' hacer uso de la fórmula {4) pág
_ T tr
Para el del C. de R. la fórmula de la página 273
Y para la E. de R. la de la misma página.
y = y + b,* (x - x ) -
ESTADISTICAMEDICA
Llamaremos “y" a los valores de la mortalidad infantil y *‘x” a los del

hacinamiento.
Para el cálculo de los parámetros X, y, S*. Sy se hace caso omiso del
centro del damero y se trabaja exclusivamente con los totales marginales.
Recordemos que la media puede obtenerse directamente dividiendo el
tamaño (Z x) de la muestra por la población (n)
„ _ A JL _ z f*
serie primitiva, colocándolo frente a un valor arbitrario (v.a.) cualquiera.

En este caso la media de la serie primitiva es igual a la media de la serie
secundaria más el valor arbitrario (va.) frente al cual se colocó el 0' de la
serie secundaria (propiedad A. de la media).
También puede calcularse la media transformando previamente la serie
en otra más pequeña, por división de cada uno de los términos de la serie
primitiva por un divisor común. En este caso la media de la serie primitiva
es igual a la media de la serie secundaria multiplicada por el divisor común
(propiedad B de la media).
Estos dos últimos procedimientos pueden aplicarse simultáneamente,
con lo cual se obtiene una gran simplificación de los cálculos. Es lo que
vamos a hacer en nuestra planilla damero.
Para ello, empezaremos por colocar nuestro 0' frente al valor 71%o
de la columna mortalidad infantil (71 es el valor central del grupo 66 a
menos de 76 /©©). Con esto los valores centrales superiores, empezando
por el que le es inmediato, toman el valor -10; el siguiente -20, y el 3°
-30; los valores ceñíales inferiores toman los valores +10; +20, +30 y +40.
Estos valores los dividimos por el divisor común 10, pasando entonces
a valer los números naturales -1, -2, -3 y +1 +2 +3 y +4.
Estos son los valores de cálculo que habremos de multiplicar por la
frencuencia de cada uno que se encuentra en la última columna, o sea la
de los totales.
Es decir que, para facilitar los cálculos, vamos a transformar los valo
res reales de los datos en otros más pequeños, colocando el 0' frente a un
valor arbitrario más o menos central de la serie. Después esos valores
vamos a reducirlos aún más, dividiendo cada uno de ellos por un divisor
común. De ese modo los valores quedarán reducidos a 0, 1, 2, 3, con
signo negativo los primeros y positivo los siguientes a partir de 0.
Los parámetros media y desvio standard que obtendremos al principio
lo serán de esos valores reducidos y estarán expresados en valores de
ASOCIACION
cálculo. Para transformarlos en los parámetros reales, tendremos que mul

tiplicarlos por el divisor común, y la media, sumarla algebraicamente al
valor arbitrario frente al cual se colocó el 0'.
En cuanto a la fórmula para el calculo del C. de C.
como se trata de un quebrado, tanto da que el numerador y el denomina

dor estén expresados en valores reales como en valores de cálculo; por lo
tanto, los expresaremos en valores de cálculo.
Para el cálculo de la media y procederemos, entonces, de la siguiente
Z y, f = +5
ríe, en valores de cálculo, es
ie primitiva en valores reales es
y =v.a. + (d.c.)(y,)
= 71 + 10 X 0,06 = 71 +.0,6 = 71,6
281
ESTADISTICAMEDICA
En U misma foima podemos proceder para calcular el hacinamiento
En primer lugar transformamos la serie de los valores de hacinamiento

en otra, colocando el 0' frente a un valor arbitrario v.a. mis o menos
central de la serie primitiva, por ejemplo frente al 9 (9 es el valor central
del intervalo 7,5% a menos de 10,5), con lo cual los valores anteriores
pasan a ser, a contar del inmediato a la izquierda, —3 y -6 y los de la
derecha, también a partir del inmediato +3, +6 y +9.
Estos valores los dividimos ahora por el divisor común 3, pasando
entonces la serie a ser, los de la izquietda -1 y - 2, y los de la derecha +1,
+2 y +3.
El cilculo de la media de esta última serie es
_ Z fx a
5J = v.a. + (d c) (X,)
= 9 + (3 x - 0,77)
= 9 + (-2.3)
x = 6,7
Ahora debemos calcular los desvíos standard. Recordemos que estos
Pero, para simplificar los cálculos, recordemos que si trasladamos el

0' a cualquier punto, el desvío standard no varia (propiedad A) y que si
los términos de la serie los dividimos por un divisor común, el D. Sj. de la
serie primitiva es igual al producto del S* de la serie derivada multiplicado
por el divisor común (d.c.) (propiedad B).
S, = (S,.)(d.c.)
Además, al hacer el cálculo del valor subradical, o sea de la variancia,
si en vez de tomar los desvíos desde la media se toman desde 0, debe
corregirse el resultado restándole el cuadrado de la media (observaciones
acerca de la variancia).
Todos estos procedimientos pueden combinarse. Por lo tanto, traba
jando con las unidades de cálculo ya vistas, procederemos de la siguiente
manera. En primer lugar trataremos de obtener Sy
lo cual exige conocer previamente E f y*.

Para ello hacemos la siguiente planiza:
fADISTICA MEDICA
= v 3,0385 - 0,0036 = en valores de cálculo 1,742
S , = (Sy2) (d,c.) = 1,742 X 10 = en valores reales
Sy = 17,42.
De la misma manera procederemos para obtener Sx
S x ' f = 184
■= ÍW ~
,5929
= V 2,3589 - 0,5929 = en valores de cálculo 1,329
Sx = (d.c.) Sx2 = 3 X 1,329 = en valores reales
S* = 3,99
llora vamos a calcular el valor del C. de C.

£ (*2 y») f - ,
284
ASOCIACION
El valor x2 y2 f, en unidades de cálculo, de cada par de observacio

nes, se coloca previamente entre paréntesis en la casilla correspondiente
del damero.
Así, en la primera casilla de arriba y a la izquierda del damero coloca
mos entre paréntesis el valor 30 producto - 3 X-2X 5 = 30. Y así en
todas las demás su suma es 107.
En consecuencia.
— -0,77X0,06
+0,61
1,742 X 1,329
Vemos así, en el ejemplo de 78 ciudades inglesas, que entre morta

lidad infantil y hacinamiento hay asociación, o correlación cuyo coefi
ciente es +0,61; es decir, una correlación positiva y bastante alta.
Si quisiéramos saber el valor o significación de este C. de C. tendría
mos que calcular previamente su error standard.
Vimos que cuando el error standard es superior a 14r, hay una proba
bilidad superior al 5% de que al mismo se lo haya obtenido por azar.
Nuestro error standard es alrededor de 1/8 del C. de C., es decir mucho
s%
. ’V90 P
lo que indica una probabilidad inferior a 1 en 107.

Obtenido el C. de C. los otros parámetros se obtienen muy fácil-
El coeficiente de regresión b es igual a:

Sy (en valores reales)
Sx( „ „ „ )
Esto significa que por cada variación unitaria de x, es decir del haci
namiento, hay una variación en el mismo sentido, de 2,66 de la morta
lidad infantil.
ESTADISTICA MEDICA
global de cabellos clacos (2.829) encontrados en el tota! de personas

(6.684). Es decir, 2.473, y después por restas obtenemos los otros.
Obtenidos los valores calculados, podemos armar los quebrados cuya
suma será Xi (sub 1, pues hubo necesidad de calcular un solo valor inde
pendiente).
(O -C )3
c
(2714 - 2473)’ = <241>* 58081
2473 2473 2473
(3129 - 3370)’ = <24l>’ 58081
3370 3370 3370
(115 -356)’ = <24l)a S8081
356 356 356
(726 —485)’ _ (24l)a 58081
485 48S 485
Consultando una tabla de Ji cuadrado vemos que para un grado de

libertad igual a 1, con una probabilidad del 5% le corresponde un Ji
cuadrado igual a 3.8 (x? = 3.8); por consiguiente a un x! obtenido
muchísimo mayor (323,5) le corresponderá una probabilidad muchísimo
En efecto, consultando la misma tabla, vemos que la probabilidad es

muy inferior al l°/oo.
Por lo tanto, si en tan pocos casos pueden encontrarse diferencias
¡guales o superiores a las encontradas por nosotros entre valores obser
vados y valores calculados, sobre la base hipotética de que no hay relación
entre el color de los ojos y el de los cabellos, quiere ello decir que esas
diferencias encontradas son reales y altamente significativas y, por consi
guiente, que no se confirma la hipótesis sustentada al principio al hacer
los cálculos, que no hay relación entre el color de los ojos y el de los
cabellos. Por lo tanto hay correlación.
288
Ejemplo n° 2
Se trata de saber si hay correlación entre el color del cabello y el
sexo de las personas.
sitamos de la estadística para saber si hay o no correlación entre una y

otra variable. La experiencia general ya nos ha dado la respuesta. Si los
damos, es porque son útiles para aprender el mecanismo de Ji cuadrado y
su aplicación al problema de la existencia de correlación en casos que real
mente necesiten del cálculo para averiguar si dicha correlación existe o
no.)
Observando 1.036 niños de ambos sexos, se ha comprobado que,
entre los varones 98 tenían el cabello rubio, 260 castaños y 127 negros; y
entre las niñas 100 tenían el cabello rubio, 302 castaño y 149 negro.
Se recurre al método de Ji Cuadrado,
Para ello se arma la planilla en la forma siguiente:
Se sostiene la hipótesis de la no correlación entre el color del cabello

y el sexo. En consecuencia, el número de varones, en el total de los ru
bios (198), guardará la proporción de varones (48S) que existe en el total
de los niños (1036). Por lo tanto, el número calculado de varones rubios
289
ESTADISTICAMEDICA
Con estos ¿os valores independientes podemos calcular los restantes. Nues
tro X3 seri, por lo tanto, Xa-
Obtenidos los valores calculados, podemos armar ya los quebrados,
cuya suma seri x! ■Son:
(O-C)»
c
(98 - 92.71a (S 3 £ 28,09
92,7 92,70
(260 - 263)3 (3)* 9
263 263 263
(127 - 129,3)* (2.3)1 5,29
127,3 127,3
(3.3)* 28,09
105,3 105,3 105,30
(302 - 299)1 (3? 9
299 299
0 3 )1 5,29
146,7 146,70
Xj = 0,69
Consultando una tabla de x3 vemos que para dos valores independien
tes, a una probabilidad del 5%, le corresponde un xi de 5,99 (Xa = 5,99).
Por lo tanto, a un Xa mucho menos le corresponderi una probabilidad
mucho mayor. En efecto, en una tabla completa vemos que a un xj de
0,69 le corresponde una probabilidad entre .el 70 y el 80%. Esto significa
que las diferencias encontradas por nosotros entre los valores observados y
los calculados sobre la base de la no correlación del color del cabello con
el sexo son diferencias que se dan con mucha frecuencia, lo cual equivale
a decir que no son diferencias significativas, es decir que se confirma la
hipótesis de que entre el color del cabello y el sexo no hay correlación.
290
ASOCIACION
Análisis de la covaríanza
Cuando se tienen dos o más muestras cuyos datos (x) podrían estar
influidos por un factor cuyo valor no podemos medir directamente,
pero que actuaría sobre los datos (y) de observaciones hechas de estos
mismos elementos, la comparación de estas muestras debe hacerse por el
Este, como el análisis de la varianza, consiste en comparar las varian-

zas “intra” e "Ínter”, recurriendo luego a la Tabla F de Snedecor; pero
los valores de x deben ser previamente ajustados a los de y.
Este ajuste puede haceise individualmente para cada valor de x re
curriendo a la ecuación de regresión de x sobre y (x = x + by - by) pero
este es un método largo y trabajoso, que puede ser abreviado partiendo de
las varianzas globales e intras de x, de y, y del producto xy. De estas se
obtienen las varianzas global e intra de x ajustada; y de la resta de la
primera menos la segunda se obtiene la ínter de x ajustada. Finalmente se
comparan estas dos últimas recurriendo a una Tabla F de Snedecor.
= (2xi)*/N, + (Sxjj’ /N, -
= (Zy,)1/N, +(Zya)J /N,
= Zx,Zy,/N, +Zx,Zy,/N ,d
291
El numerador de la V.g. de x ajustada es el numerador de V.gjc me
nos el cuadrado del numerador de la V.gjcy dividida por el numerador de
la V.g.y. H denominador es el de V.gx menos uno; es decir:
Varianza global de x ajustada =
Sx» - (Sx)»/N - CSXy - SxSy/N )»/^» - ( S y f j N
N —2
El numerador de la V. “intra” del producto xy ajustado es el numerador
de la V. “intra** x menos el cuadrado del numerador de la V. “intra** xy
dividido por el numerador de la V. “intra” y. El denominador es el de la V.
“intra” x menos uno; es decir
Varianza "intra"de xy ajustada =
Sx» - “d**x - (Sxy - “d"xy)»/SyJ - “d*’y
N -H -l
La varianza “inter” de x ajustada es igual, numerador a numerador y
denominador a denominador, a la V.gjc ajustada menos la V. “intra" xy
ajustada; es decir:
Varianza "Ínter" de x ajustada —
= H -l
Ahora se toman estas dos últimas varianzas, la “intra" y la “inter”

ajustadas y se divide la mayor por la menor. El cociente es el valor de
F,,a.
Se compara esta F,.a con
en la Tabla F de Snedccor, como hacemos en el análisis de la varianza. Si

esta F es menor las muestras son efectivamente diferentes.
Ejemplo (de Kohan y Carro, modificado)

En 30 pacientes afectados por un proceso patológico a recaídas se
decidió probar la eficacia de tres maneras distintas de aplicar un mismo
292
ASOCIACION
tratamiento, tomándose en cuenta en cada caso el tiempo que tardaba el

paciente en recuperarse. Para ello se dividieron los pacientes en grupos de
diez, y a cada gropo se le aplicó el tratamiento de una manera distinta.
Lograda la recuperación de todos se preguntó si había diferencias en
tre los tres procedimientos recuniéndose al análisis de las varianzas. Este
indicó que, efectivamente, entre ellas habían diferencias significativas.
Sospechando que las diferencias podían deberse a factores individuales
no relacionados con el tratamiento se recurrió al análisis de la covaiianza.
Se llamó “y” a los días que habían tardado los pacientes en recuperarse
en crisis anteriores en las que no habían recibido tratamiento alguno, y
dbido. ** **
Los datos "x” e "y” de cada paciente se dan a continuación:
Grupo 2 Grupo 3
10 14 5 11 5 7
2 9 4 6
8 11 6 8 1 2
6 12 5 10 7 10
9 10 4 10 9 7
7 11 8 10 4 7
10 12 5 6
6 9 2 3
6 11 4 10 2 2
7 10 6 11 5 9
£ * i= 7 3 (£*,)> = 5329 2y , = 109 ( Z y ,f = 11881

2*j = 56 (Exj)2 = 3136 Zy2 = 100 (Zy2? = 1Ó000
2*, = 44 (Ex3)» = 1936 Sy, = 59 (Zy,)1 = 3481
2* =173 (Ex)» =29926 Zy =268 (Xy)» =71824
2x» = 1161 Xy1 = 2642 Exy= 1688
N = 30 H=3
293
ESTADISTICA M
= 1040,1 “d”y = 2536,2
v „ ,J
2642 - 2526,2
3 0 -3
688 - 1615,3
3 0 -3
V.g. x ajustada = —
“intra” xy ajustada = —
“inter” x ajustada = -5L
n - S. « ,
294
APENDICE
Tablas de uso frecuente en estadística médica

ESTADISTICA MEDICA
li* m u m u
Sil m u m u
55 5 5 5 5 5 5 5 5
l i m u m u is iiiiim m u m u m is
lis m u m u i m m m m u m i s m i s
li- m u u n í s iis iiiiis m u tis is m is

Sil m u m il im iim i m u m u m u
15 3 5 5 35 3 3 3 3 5 3 3 3 3 3 5 3 5 3 3 3 3 5 3 3 3 3 3 55 5 5 3
li m it iim u m iiiii m u m u m u

li! m u m u u u s t u u m u m u m u
3 3 3 3 3 55 5 3 5 55 5 5 5 5 3 3 3 3 3 3 5 3 5 55 5 3 3 53535
l i m u m u u iim is i m u m u m u
li! m u t u u u i u u u i m u m u m u
353 5* 5 *5 5* 333 3 SS 35S9 3 5 3 3 3 3 3 5 3 3 33333
l i m u m u u iiih m i m u m u m u
lis m u m u m u u i u m u m u u u i
3 3 5 3 3 55SS3 33 3 3 3 3 5 3 3 3 3 3 5 3 5 3 3 3 3 3 33333
l i m u U H IU U U U U U U IU U IU U I
li! u u i m u u u u i i t i u u i m u m i l
R.S.B.n*.
APENDICE
Explicación y manejo de la Tabla 1
La superficie total subyacente a la curva es igual a I.

La primera columna de la tabla, encabezada por la letra c, indica el
desvío relativo (o reducido) .
La segunda columna indica la superficie subyacente a la curva entre la
ordenada levantada en 0 y la levantada en < o en *c.
La tercera columna indica el valor de la ordenada levantada en -e o en
Esta tabla da directamente los valores de las dos tablas a que hacemos
referencia en las páginas 90 y 92, e indirectamente a las de las tablas a las
que nos referimos en las páginas 94 y 95, procediendo en la siguiente
superficie comprendida entre menos c y más c, debemos duplicar el valor

de la superficie dada en esta tabla al valor de c.
Para la segunda, es decir cuando se desea conocer la superficie subya
cente a la curva desde menos infinito a menos c (o más c), se restará (o se
sumará) el valor dado por la tabla a 0,5.
Y para la tercera, es decir cuando se desee el valor de la superficie
valor de la superficie de c dado en la tabla a 0,5.

Este valor de superficie se denomina probabilidad P.
Y cuando se desee el valor conjunto de las superficies desde menos
infinito la menos c más el de más c a más infinito se restará de 1 el valor
doble de la superficie de c dado en la tabla, Este valor se denomina pro
babilidad 2P.
299
ESTADISTICAMEDICA
Explicaciones a la Tabla 2
El desvia l se utiliza en muestras con un efectivo menor de 60 obser
vaciones y es igual a * (como el desvio c). pero en estas muestras
pequeñas el desvio standard es igual a / —
En la tabla se dan áreas externas exactas a desvíos í aproximados.
Estas áreas extemas se denominan también probabilidad P.
300
U m ite dd intovsJo de confw ua dd 955 de una o edú tónomial cuaido el efectivo d ( h n u o tn e iti enlit 10 y 100
APENDICE
Explicaciones y manejo de ta tabla 4

Esta tabla di los límites del intervalo de confianza de la media bino
mial de muestras con efectivo de decenas exactas de 10 a 100 y "resul
tados'* de 1 a 50. Como se trata de obtener o calcular el intervalo de
confianza la media se expresa en forma decimal (o sea en % del valor
mitimo).
Cuando el efectivo de la muestra es una o varias decenas exactas, en
la intersección de la horizontal del resultado y la vertical del efectivo se
encuentran las medias limites expresadas en forma decimal. Si el efectivo
no fuese una decena exacta, por interpolación debe calcularse el resultado
limite inferior y superior. Obtenido éste, como el resultado es igual a la
"media" multiplicada por el efectivo, (r = m • n), se obtendrán las medias
Ejemplo
¿Cuáles son los límites del í. de c. de la media p = OÍS correspon
diente al resultado 16 de una muestra con efectivo 64? Como el efectivo
no comprende decenas exactas, se tomarán en la tabla las medias límites
para el resultado 16 y los efectivos 60 y 70.
OBTENCIONDE LA MEDIA LIMITEINFERIOR

______________ EFECTIVO_______ MEDIA________RESULTADO
70 0,137 9,59
Interpolación-. Cómo a mayor efectivo menor resultado, y el efectivo

64 está a 0,4 por encima del efectivo 60, al resultado 9,66 habrá que
restarle 0,4 de 0,07 ( = 0,03) para obtener el resultado que corresponde al
efectivo 64; por lo tanto, el resultado límite inferior es 9,63. La media
límite inferior será entonces 9,63 / 64 = 0,150.
OBTENCION DE LA MEDIA LIMITESUPERIOR
EFECTIVO MEDIA RESULTADO
ESTADISTICA MEDICA
Interpolación. Como a mayor efectivo mayor resultado, y el efectivo

64 está a 0,4 por encima del efectivo 60, al resultado 23,82 habrá que
sumarle 0,4 de 0,26 —0,10 para obtener el resultado que corresponde al
efectivo ¿4; por lo tanto, el resultado limite superior es 23,92. La media
limite superior será entonces 23,92 / 64 —0,373.
Tabla S
304
Explicaciones a la Tabla S
Esta .tabla da las medias (expresadas en forma decimal) limites infe
rior y superior para muestras con un efectivo de 4 a 10 observaciones y
resultados de 0 a 10.
Ejemplo
Si en una muestra de 7 observaciones (n = 7) el resultado es igual a 5
(r = 5). es decir, si la media (r/n) es igual a 0,714, las medias limites son:
0,290 y 0,963. (En valores absolutos: 2,03 y 6,74)
illilü
305
ESTADISTICAMEDICA
En las muestras de Poisson la media depende exclusivamente de la fre
cuencia del resultado, de modo que conocidos estos (frecuencia del resul
tado) la media puede ser obtenida en la Tabla buscando en la horizontal
del resultado (r) un valor de frecuencia igual, o próximo, al obtenido en
la muestra. El encabezamiento de la columna en que se halla esta frecuen-
Ejemplo
En una muestra numerosa el resultado 2 se encontró en el 18,4%
( = 0,184) de las observaciones. Deseamos saber cual es la media coues-
pondiente a dichas obseivadones.
306
APENDICE
En la Tabla, en la horizontal del resultado 2, que se halla en la prime

ra columna, encontramos el valor 0,1839 (próximo al nuestro: 0,1840)
Levantando la vista vemos que la columna correspondiente a esta frecuen
cia está encabezada por la cifra 1. Esto indica que la media de observacio
nes en muestras similares a la nuestra es del 1%.
Limite* del intervalo de confianza del 95%de una media de Potaon
Lamotte, M., Estadist. BioL,
Los limites del i. de c. estin dados por la Tabla en base al resultado y
al efectivo de la muestra.
En la primera columna se buscará el resultado (r), o sea el numerador
de la media (m =-£ ), y en la segunda columna se hallarán los numera
dores de los límites. Para obtener las medias límites habrá que dividirlos
por el efectivo (n) de nuestra muestra.
307
Si nuestra media es 1% ( = 0,01) por ser el resultado 1 y el efectivo
100, los límites son 0,025% y 5,572%; pero si la media es 1% por ser el
resultado 2 y el efectivo 200, los límites son y es decir:
0,12% y 3,61%.
Explicación a la Tabla 8
Se llama factorial de un número (n! ) al producto de dicho número
por el producto de los que le siguen en la serie natural descendente de los
mismos:
al = n X (n — 1) X (n - 2) X (n - 3) X . . . X 3 X 2 X 1
308
APENDICE
Coeficientes binomiales
Se llaman coeficientes binomiales a los coeficientes de ios
resultantes del desarrollo de un binomio elevado (a +b)N. Cada i
estos monomios indica la frecuencia de un resultado (R) de un:
binomial, desde el resultado máximo igual al exponente (N) del bi
hasta el resultado Cero.
Estos coeficientes se simbolizan C* y también (¡j), y su valor e:
N-__
309
INDICE ALFABETICO
g=T i
i
J a s s 5 - - ;;;
EDITORIAL
UNIVERSITARIA
DE
manuales
BUENOS AIRES
de eudeba

Estadística Medica

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Estadística Medica

Загружено:

Авторское право:

Доступные форматы

Estadística médica

El'DEBA EDITORIAL UNIVERSITARIA 1)E BUENOS AIRES

I. CONCEPTOS GENERALES ................................................ 3

PROPIEDADES DE LA MEDIA Y DEL DESVIO STANDARD

IX. ECUACION DE LA CURVA DE GAUSS ........................... 87

X. VARIACION DE LAS MUESTRAS

148; Observaciones, 150; Cálculo de la frecuencia de un resul-

XVII. MUESTRAS DE POISSON .

XVIII. METODO DE PEARSON ..

Los libros de estadística existentes en plaza, algunos de ellos muy

7. La asociación o relación estadística entre dos variables observadas

Relación con el cálculo de probabilidades

resultados de la actividad médica, ya se trate de diagnósticos, pronósticos

sea que observemos la aparición de un dato clínico o de laboratorio, que

Esta se basa en que si observamos un gran número de casos seme­

La magnitud de la influencia del azar se mide en porciento de proba­

Dijimos que la estadística es un capítulo del cálculo de probabilida­

Registro y clasificación de los datos

En estos casos se toma como valor representativo del grupo o clase la

Los datos discontinuos se suelen denominar también datos discretos.

Los dalos pueden hallarse más o menos uniformemente diseminados, o

Ordenamiento de los datos

La x minúscula que simboliza genéricamente a los datos, simboliza

Agrupamiento de los datos

El número de observaciones de un grupo es la frecuencia de dicho

total o infinita de hechos similares de ese universo.

Ordenación de los grupos

Cuando las frecuencias de los valores más bajos son relativamente

Ejemplo de distribución normal de frecuencias

Estas frecuencias pueden escribirse asi:

Ejemplo de distribución de Poisson

sea de los seis últimos resultados (véase m >adelante Distribución bi-

SUMARIO: Representaciones gráficas. Cuadriláteros. Sectores. Repr.

Cuando se desea dar una impresión visual de las proporciones que

Cuando se utilizan cuadriláteros hay que cuidar de que si son rectán­

Para dibujar los cuadriláteros generalmente se empieza por el corres­

Cuando para las representaciones gráficas se recurre a los sectores de

Los grados de círculo que corresponden a cada grupo se calculan apli­

X = 36<2QS1Q°~ = l75,' ' °

Con un radio cualquiera se dibuja un círculo y dentro de él se dibujan

(Proporción de nacimientos según el sexoJ

Si tomamos como altura del cuadrilátero la frecuencia o población del

y la suma de las áreas de los cuadriláteros es igual a 1,

Las abscisas marcan los limites de cada grupo.

o población del grupo

Cuando los valores agrupados se reemplazan por el valor equidistante

Edad media - x / n° de pacientes n°/i = y

El polígono correspondiente sería el que muestra el Cuadro 6.

Como el área del histograma indica la población de la muestra, el área

Curva normal o de Gauss

Cuando el procedimiento es tomar el valor que se encuentra repetido

Cuando en una muestra no hay valores repetidos, la misma carece de

Cuando hay algunos pocos grupos de valores igualmente más repe­

número o cantidad, se multiplican los datos entre si y al producto se le

media geométrica = v^Xi X X, X X3 X . . . X„.

el mismo el primer día que el segundo, cuando sabemos que en el según-

Recurriendo a la media geométrica, en cambio, el resultado sería:

m = j 200.000 X 400.000 = 282.843,

Esta media se utiliza cuando se trata de datos que se expresan en unida­

:n 2 horas 5 minutos, lo que significa

Desvio medio aritmético

Desvio medio standard

Se lo simboliza generalmente por una “S” mayúscula subseguida de

Esta se basa en que si observamos un gran número de casos seme

La magnitud de la influencia del azar se mide en porciento de proba

Dijimos que la estadística es un capítulo del cálculo de probabilida

Cuando se utilizan cuadriláteros hay que cuidar de que si son rectán

Para dibujar los cuadriláteros generalmente se empieza por el corres

Los grados de círculo que corresponden a cada grupo se calculan apli

Cuando hay algunos pocos grupos de valores igualmente más repe

Esta media se utiliza cuando se trata de datos que se expresan en unida

Al desvío medio standard se lo suele llamar de muchas maneras: des

E1 error probable equivale aproximadamente a los 2/3 del error stan

LA MUESTRA NORMAL NUMEROSA O MUESTRA NOR

3”) Hemos obtenido la población de los grupos, es decir la frecuen

El cálculo de los parámetros media, desvío standard, y variancia pue