Introducción A La Bioestadística

TEMA 1
INTRODUCCIÓN A LA BIOESTADÍSTICA
“La Ciencia es más una forma de

pensar que una rama del
conocimiento.”
Carl Sagan (1934-1996)
LA ESTADÍSTICA COMO CIENCIA:
La Estadística es la ciencia que se encarga de recoger, organizar e interpretar los

datos. Es la ciencia de los datos. En la vida diaria somos bombardeados
continuamente por datos estadísticos: encuestas electorales, economía, deportes,
datos meteorológicos, calidad de los productos, audiencias de TV.
Necesitamos una formación básica en Estadística para evaluar toda esta

información. Pero la utilidad de la Estadística va mucho más allá de estos
ejemplos. La Estadística es fundamental para muchas ramas de la ciencia desde
la medicina a la economía. Pero sobre todo, y en lo que a nosotros importa, es
esencial para interpretar los datos que se obtienen de la investigación científica.
Es necesario leer e interpretar datos, producirlos, extraer conclusiones, en
resumen saber el significado de los datos.
La Estadística (del latín, Status o ciencia del estado) se ocupaba sobre todo de la
descripción de los datos fundamentalmente sociológicos: datos demográficos y
económicos (censos de población, producciones agrícolas, riquezas, etc.),
principalmente por razones fiscales.
En el siglo XVII el cálculo de probabilidades se consolida como disciplina

independiente aplicándose sobre todo a los juegos de azar. Posteriormente (s.
XVIII) su uso se extiende a problemas físicos (principalmente de Astronomía) y
actuariales (seguros marítimos). Posteriormente se hace imprescindible en la
investigación científica y es esta la que la hace avanzar. Finalmente, en el siglo
XIX, nace la Estadística como ciencia que une ambas disciplinas. El objetivo
fundamental de la estadística es obtener conclusiones de la investigación empírica
usando modelos matemáticos. A partir de los datos reales se construye un modelo
que se confronta con estos datos por medio de la Estadística. Esta proporciona los
métodos de evaluación de las discrepancias entre ambos. Por eso es necesaria
para toda ciencia que requiere análisis de datos y diseño de experimentos.
Usos de la estadística:
Ya hemos visto que la estadística se encuentra ligada a nuestras actividades
cotidianas. Sirve tanto para pronosticar el resultado de unas elecciones, como
para determinar el número de ballenas que viven en nuestros océanos, para
descubrir leyes fundamentales de la Física o para estudiar cómo ganar a la ruleta.
La estadística resuelve multitud de problemas que se plantean en ciencia:
También se usa la estadística para contrastar hipótesis. Así como para diseñar
experimentos que garanticen que las conclusiones que se extraigan sean válidas.
Sirve para comparar las predicciones resultantes de las hipótesis con los datos
observados (medicina efícaz, diferencias entre poblaciones, etc).
Por todo lo anteriormente expuesto deducimos que Bioestadística es la

aplicación de la estadística en la biología. Como los objetos de estudio de la
Biología son muy variados, tales como la medicina, las ciencias agropecuarias,
entre otros, es que la bioestadística ha debido ampliar su campo para de esta
manera incluir cualquier modelo cuantitativo, no solamente estadístico, y que
entonces pueda ser empleado para responder a las necesidades oportunas. O
sea, la bioestadística se aplica a las ciencias asociadas a la vida, como ya dijimos,
biología, genética o medicina, y los procedimientos típicos de la estadística
regular, tales como recolección de datos, inferencias a partir de los mismos, entre
otros, están puestos a servicio de ellas. La misión es asociarse al método
científico para así garantizar una mejora o perfección, con los datos que se
obtienen, en cada área.
Definiciones humorísticas de la estadística:

 Se dice, por ejemplo, que si una persona gana un millón de pesos y otra
nada, “la estadística” establece que en promedio las dos personas han
ganado medio millón de pesos.
 La estadística dice que si una persona pone la cabeza en el congelador y
los pies en el horno, su temperatura media será normal.
RAZONAMIENTO:
El razonamiento lógico se refiere al uso de entendimiento para pasar de unas

proposiciones a otras, partiendo de lo ya conocido o de lo que creemos conocer a
lo desconocido o menos conocido. Se distingue entre razonamiento inductivo y
razonamiento deductivo.
Razonamiento lógico.
Los razonamientos pueden ser válidos (correctos) o no válidos (incorrectos). En

general, se considera válido un razonamiento cuando sus premisas ofrecen
soporte suficiente a su conclusión. Puede discutirse el significado de "soporte
suficiente", aunque cuando se trata de un razonamiento no deductivo, el
razonamiento es válido si la verdad de las premisas hace probable la verdad de la
conclusión. En el caso del razonamiento deductivo, el razonamiento es válido
cuando la verdad de las premisas implica necesariamente la verdad de la
conclusión.
Los razonamientos no válidos que, sin embargo, parecen serlo, se denominan

falacias.
El razonamiento nos permite ampliar nuestros conocimientos sin tener que apelar
a la experiencia. También sirve para justificar o aportar razones en favor de lo que
conocemos o creemos conocer. En algunos casos, como en las matemáticas, el
razonamiento nos permite demostrar lo que sabemos; es que aquí hace falta el
razonamiento cuantitativo
El termino razonamiento es el punto de separación entre el instinto y el

pensamiento, el instinto es la reacción de cualquier ser vivo. Por otro lado el
razonar nos hace analizar, y desarrollar un criterio propio, el razonar es a su vez la
separación entre un ser vivo y el hombre.
Razonamiento no lógico.
Existe otro tipo de razonamiento denominado razonamiento no lógico o informal, el

cual no sólo se basa en premisas con una única alternativa correcta (razonamiento
lógico - formal, el descrito anteriormente), sino que es más amplio en cuanto a
soluciones, basándose en la experiencia y en el contexto. Los niveles educativos
más altos suelen usar el razonamiento lógico, aunque no es excluyente. Algunos
autores llaman a este tipo de razonamiento argumentación. Como ejemplo para
ilustrar estos dos tipos de razonamiento, podemos situarnos en el caso de una
clasificación de alimentos, el de tipo lógico-formal los ordenará por verduras,
carnes, pescados, fruta, etc. en cambio el tipo informal lo hará según lo ordene en
el frigorífico, según lo vaya cogiendo de la tienda, etc.
En este razonamiento se generaliza para todos los elementos de un conjunto la

propiedad observada en un número finito de casos. Ahora bien, la verdad de las
premisas (10.000 observaciones favorables) no convierte en verdadera la
conclusión, ya que en cualquier momento podría aparecer una excepción. De ahí
que la conclusión de un razonamiento inductivo sólo pueda considerarse probable
y, de hecho, la información que obtenemos por medio de esta modalidad de
razonamiento es siempre una información incierta y discutible. El razonamiento
sólo es una síntesis incompleta de todas las premisas.
En un razonamiento inductivo válido, por tanto, es posible afirmar las premisas y,

simultáneamente, negar la conclusión sin contradecirse. Acertar en la conclusión
será una cuestión de probabilidades.
Tipos de razonamiento.
A pesar de la disparidad de opiniones en torno a la definición del "razonamiento",
en lo que respecta a los tipos de razonamiento, hay un mayor acuerdo entre los
teóricos dos tipos de razonamiento: inductivo y deductivo.
Razonamiento deductivo
Tradicionalmente, el razonamiento deductivo, se ha considerado que va de lo

general a lo particular y, el inductivo, en sentido inverso. Actualmente, esta
definición es pobre. Hay otros conceptos que diferencian ambos tipos de
razonamiento:
Se utiliza el concepto de validez para el razonamiento deductivo y, para el

inductivo, el concepto de probabilidad.
Un razonamiento es deductivo si la conclusión se sigue necesariamente de las

premisas. Cuando se deriva necesariamente de las premisas es válido y, si es
válido, significa que, siendo las premisas verdaderas, las conclusiones, también lo
serán. El razonamiento deductivo es proposicional, de tipo silogístico, de
relaciones. De este tipo de razonamiento, se pueden obtener razonamientos
válidos e inválidos. Son válidos si, cuando son las premisas verdaderas, las
conclusiones también lo son. De lo contrario, los razonamientos serían inválidos.
Un argumento es válido cuando es imposible que su conclusión sea falsa, siendo
sus premisas verdaderas. Véase como ejemplo, el siguiente silogismo:
Todos los artistas son banqueros. Todos los banqueros son cantantes.
Conclusión: Todos los artistas son cantantes.
Lo que se dice en la conclusión, estaba en las premisas, por tanto, no se

incrementa la información semántica. Esto es una característica de este
razonamiento. La conclusión, ya implícitamente, estaba en las premisas. Con este
tipo de razonamiento, no se crea conocimiento, mientras que en el inductivo sí. Un
ejemplo de razonamiento inductivo sería el siguiente:
La mayoría de los cisnes son blancos. Esto es un cisne.
Podríamos concluir que el cisne es blanco, pero, que la mayoría sean blancos, no
quiere decir que lo sean todos. De este modo, también podríamos concluir que es
negro, yendo más allá de las premisas. No hay certeza absoluta, hay,
simplemente, probabilidad. En el razonamiento deductivo, la certeza es del 100%,
pero no en el inductivo. En el razonamiento inductivo, se va más allá de las
premisas.
Dicho de otro modo, la conjunción o producto de todas las premisas cuando es

verdadero, es decir, todas y cada una de las premisas son verdaderas, entonces
se implica la verdad de la conclusión.
Por medio de un razonamiento de estas características se concede la máxima
solidez a la conclusión, las premisas implican lógicamente la conclusión. Y la
conclusión es una consecuencia lógica de las premisas.
Ejemplos de razonamiento deductivo
Premisa mayor: Los seres humanos tienen dos manos y dos pies.
Premisa menor: John es ser humano.
Conclusión: John Tiene dos manos y dos pies.
Premisa mayor: Todos los miércoles John sale 10 minutos antes de su trabajo.
Premisa menor: Hoy es miércoles.
Conclusión: Hoy John saldrá 10 minutos antes de su trabajo.
Premisa mayor: Toda planta nace, se reproduce y muere.

Premisa menor: Toda rosa es planta.
Conclusión: Toda rosa nace, se reproduce y muere.
Premisa mayor: Todos los hijos de John y Jane tienen ojos color marrón.
Premisa menor: John y Jane esperan un hijo.
Conclusión: El hijo que esperan John y Jane tiene los ojos color marrón.
Premisa mayor: Las galletas tardan 45 minutos en hornearse.

Premisa menor: Son las 3:00 pm y Jane mete las galletas al horno.
Conclusión: Las galletas estarán listas a las 3:45
Razonamiento inductivo
El razonamiento inductivo es una modalidad del razonamiento no deductivo que

consiste en obtener conclusiones generales a partir de premisas que contienen
datos particulares. Por ejemplo, de la observación repetida de objetos o
acontecimientos de la misma índole se establece una conclusión para todos los
objetos o eventos de dicha naturaleza.
Premisas:
He observado el cuervo número 1 y era de color negro. El cuervo número 2

también era negro.
El cuervo número 3 también
Conclusión:
Luego, todos los cuervos son negros.

En este razonamiento se generaliza para todos los elementos de un conjunto la
propiedad observada en un número finito de casos. Ahora bien, la verdad de las
premisas (10.000 observaciones favorables a esta conclusión, por ejemplo) no
convierte en verdadera la conclusión, ya que podría haber una excepción. De ahí
que la conclusión de un razonamiento inductivo sólo pueda considerarse probable
y, de hecho, la información que obtenemos por medio de esta modalidad de
razonamiento es siempre una información incierta y discutible. El razonamiento
sólo es una síntesis incompleta de todas las premisas.
En un razonamiento inductivo válido, por tanto, es posible afirmar las premisas y,

simultáneamente, negar la conclusión sin contradecirse. Acertar en la conclusión
será una cuestión de probabilidades.
Dentro del razonamiento inductivo se distinguen dos tipos:
Completo: se acerca a un razonamiento deductivo porque la conclusión no aporta

más información que la ya dada por las premisas. En él se estudian todos los
individuos abarcados por la extensión del concepto tratado, por ejemplo:
Mario y Laura tienen cuatro hijos: María, Juan, Pedro, y Jorge.
María es rubia, Juan es rubio , Pedro es rubio, Jorge es rubio;
Por lo tanto todos los hijos de Mario y Laura son rubios.
Incompleto: la conclusión va más allá de los datos que dan las premisas. A mayor
cantidad de datos, mayor probabilidad. La verdad de las premisas no garantiza la
verdad de la conclusión. Por ejemplo:
María es rubia, Juan es rubio, Pedro es rubio, Jorge es rubio;
Por lo que todas las personas son rubias.
LOS CÁNONES DE MILL
John S. Mill propuso cinco métodos en el razonamiento inductivo.
Los primeros cuatro cánones, apuntan a concluir qué circunstancia hallada en los
casos es causa del fenómeno estudiado. En el último, las causas se buscan en
otros fenómenos.
I. Método de la concordancia. Si se encuentra una única circunstancia en común

entre los casos que se investigan, se puede inducir que dicha circunstancia es la
causa del fenómeno.
II. Método de la diferencia. Si una circunstancia entre varias iguales es la que
distingue al resto de los casos, y el fenómeno se da diferente en ese caso,
entonces dicha circunstancia es la causa del fenómeno.
III. Método de la concordancia y diferencia. Es el método de la concordancia,

que se verifica con el método de la diferencia. Este método puede parecer más
seguro. Sin embargo, tampoco es infalible.
IV. Método de los residuos. Consiste en eliminar determinadas circunstancias, e

ir observando si el fenómeno persiste.
V. Método de las variaciones concomitantes. Consiste en observar las

variaciones del fenómeno, y descubrir qué otro fenómeno varía de manera
concomitante. Si se encuentra, ése puede ser la causa del fenómeno estudiado.
Características del razonamiento inductivo
No existe un criterio unánime a la hora de determinar qué se quiere decir cuando

se habla de razonamiento inductivo pero, desde una perspectiva amplia, se
consideran procesos inductivos, todos aquellos procesos de inferencia que
amplían el conocimiento con incertidumbre (conclusiones posibles pero no
necesariamente correctas).
Desde una perspectiva más restringida, Johnson-Laird a través de su taxonomía,

definió la inducción como cualquier proceso de pensamiento cuya conclusión
incremente o aumenta, la información semántica contenida en las premisas
iniciales.
Un razonamiento inductivo implica un proceso de generalización desde

experiencias concretas a partir de las cuales, se generan o derivan conclusiones
posibles, plausibles o probables aunque NO necesarias desde la lógica. Ejemplo./
El inductivismo se caracteriza por tener 4 etapas básicas:
 Observación y registro de todos los hechos

 Análisis y clasificación de los hechos
 Derivación inductiva de una generalización a partir de los hechos
 Contrastación
Ejemplos de razonamiento inductivo
Premisa 1: Cuando Juan toca la llama de un encendedor se quema.

Premisa 2: Cuando Juan toca una estufa encendida se quema.
Premisa 3: Cuando Juan toca la jarra de la cafetera caliente se quema.
Conclusión: Si tocas un objeto caliente te quemas.
Premisa 1: Veo un cuervo de color negro.

Premisa 2: Veo un segundo cuervo de color negro.
Premisa 3: Veo un tercer cuervo de color negro.
Conclusión: Todos los cuervos son negros.
Premisa 1: John sale al frío sin abrigarse y se enferma.

Premisa 2: Jane sale al frío sin abrigarse y se enferma.
Premisa 3: Eloísa sale al frío sin abrigarse y se enferma.
Conclusión: Si sales al frío sin abrigarte te enfermas.
Premisa 1: John bebe un litro de whiskey y se embriaga.

Premisa 2: John bebe un litro de ron y se embriaga.
Premisa 3: John bebe un litro de vodka y se embriaga.
Conclusión: El exceso de alcohol provoca embriaguez
Premisa 1: Ciudadano X tiene 25 años, vive en la región A y siempre vota por M.

Premisa 2: Ciudadano D tiene 23 años, vive en la región A y siempre vota por M.
Premisa 3: Ciudadano C tiene 20 años, vive en la región A y siempre vota por M.
Conclusión: Los ciudadanos de entre 20 y 25 años que viven en la región A
siempre votan por M
MÉTODO ESTADÍSTICO
Definición
Es la utilización del método científico por la estadística como un método científico

de investigación teórica. El fundamento de este método lo constituye la aplicación
y el desarrollo de las ideas de la teoría de las probabilidades como una de las
disciplinas matemáticas más importantes.
ETAPAS DEL MÉTODO ESTADÍSTICO
1.- Planificación de la investigación:

Es la confección de un esquema organizativo que nos permita evaluar la
factibilidad de la investigación, nos ayude o facilite la ejecución y la meta a
alcanzar, y nos permita evaluar y controlar la marcha de la misma en el transcurso
del tiempo. En esta etapa se debe tener en cuenta para un correcto desarrollo de
la misma:
 Formular el problema científico, es el punto de partida de esta etapa, el

problema debe delimitarse adecuadamente, planteando las razones que
llevan a su formulación.
 Definir correctamente los objetivos, los que están vinculados a la
justificación e importancia de la investigación proyectada. Los objetivos
pueden ser generales, que responden a la pregunta para qué se realiza la
investigación; o específicos, que explican cómo se va a hacer la
investigación.
 El planteamiento del problema comprende la definición de la naturaleza e
importancia del mismo y la determinación de los objetivos generales y
específicos.
 El planteamiento del problema requiere estar informado acerca de lo que se
pretende investigar y de conocimientos afines al mismo. Ninguna
investigación surge aisladamente, desprovista de un contexto de
conocimientos científicos. Es importante, antes de proceder a la
investigación, la búsqueda de la información existente, evaluando
críticamente el material bibliográfico.
 La formulación de la hipótesis es otro paso importante en la planificación,
salvo en aquellas investigaciones exploratorias o esencialmente
descriptivas; cuando se pretende explicar o interpretar los hechos o
fenómenos observados, implícita o explícitamente se trata de probar una
hipótesis.
 Después de formulada la hipótesis, hay que planificar su verificación o
contrastación (aceptación o rechazo). Ello implica dos aspectos: el diseño
de la investigación y la ejecución de la misma.
 Se planifica entonces la recolección, procesamiento y análisis de los datos,
deben definirse la unidad que se observa, cómo se les va a observar, los
recursos a emplear y evaluarse la factibilidad de realización de la
investigación.
 Finalmente se debe planificar el sistema de contrastación de lo ejecutado
tanto en el curso como al terminar la investigación, evaluando las posibles
desviaciones, analizando si la hipótesis fue verificada y si los objetivos
fueron cumplidos.
2.- Recolección de la información:
Comprende la búsqueda de los datos necesarios del objeto de investigación, esto

debe hacerse en forma correcta, escrupulosa y con gran objetividad científica,
evitando la introducción de fuentes de error, así tendrán validez las conclusiones a
que se lleguen.
En esta etapa se debe tener en consideración:
 Los errores que pueden cometerse en la recolección de datos y la manera

de controlarlos.
 Los métodos y procedimientos empleados en la recolección de la
información.
 El universo y la muestra, así como los procedimientos para la obtención de
esta última.
 El diseño de los formularios que servirán para registrar la información que
se recoja.
3.- Elaboración de los datos recogidos:
La revisión y la corrección de la información recolectada deben ser

obligatoriamente el paso previo a la clasificación y la computación de los datos
que se realizan con vistas a su posterior resumen estadístico y presentación.
Esta etapa comprende los siguientes pasos:
 La revisión y corrección de la información recolectada.

 La clasificación y computación de los datos.
 La presentación de la información.
4.- Análisis e interpretación:
En esta última etapa del método estadístico se interpretan los datos y se llega a
determinadas conclusiones, es decir, se contrastan las hipótesis formuladas con
los datos obtenidos y ya procesados. Para ello se utilizan diferentes técnicas de
análisis estadístico; escoger entre una u otra depende, ente otros, de uno de los
siguientes factores:
 El propósito del estudio, descriptivo (medidas de tendencia central,

distribución de frecuencias) o explicativo.
 Experimental (estadística inferencial, pruebas de significancia).
 El tipo de información recogida.
 La escala de clasificación utilizada.
 El número de individuos u objetos estudiados.
EL MÉTODO ESTADÍSTICO COMO INSTRUMENTO
Con todo lo planteado respecto al método estadístico, podemos afirmar que sirve
a tres propósitos específicos:
 Obtener información necesaria.

 Organizar, resumir y presentar en forma adecuada el material numérico.
 Analizar e interpretar los resultados obtenidos.
El método estadístico desempeña entonces una importante función al suministrar
un conjunto de métodos y procedimientos sumamente útiles para la investigación,
no importa cuál sea la investigación que se realice ni la rama del conocimiento
humano que se aplique.
TEMA 2
ESTADÍSTICA DESCRIPTIVA
“Se cometen muchos menos

errores usando datos inadecuados
que cuando no se utilizan datos.”
Charles Babbage (1792-1871)
La aplicación del tratamiento estadístico tiene dos fases fundamentales:
1. Organización y análisis inicial de los datos recogidos.
2. Extracción de conclusiones válidas y toma de decisiones razonables a partir de

ellos.
Los objetivos de la Estadística Descriptiva son los que se abordan en la primera

de estas fases. Es decir, su misión es ordenar, describir y sintetizar la información
recogida.
En este proceso será necesario establecer medidas cuantitativas que reduzcan a

un número manejable de parámetros el conjunto (en general grande) de datos
obtenidos. La realización de gráficas (visualización de los datos en diagramas)
también forma parte de la Estadística Descriptiva dado que proporciona una
manera visual directa de organizar la información.
La finalidad de la Estadística Descriptiva no es, entonces, extraer conclusiones

generales sobre el fenómeno que ha producido los datos bajo estudio, sino
solamente su descripción (de ahí el nombre).
INFERENCIA ESTADÍSTICA:
La inferencia estadística es el conjunto de métodos y técnicas que permiten

inducir, a partir de la información empírica proporcionada por una muestra, cual es
el comportamiento de una determinada población con un riesgo de error medible
en términos de probabilidad.
POBLACIÓN Y MUESTRAS:
Se denomina población al conjunto completo de elementos, con alguna

característica común, que es el objeto de nuestro estudio. Esta definición incluye,
por ejemplo, a todos los sucesos en que podría concretarse un fenómeno o
experimento cualesquiera. Una población puede ser finita o infinita.
Ejemplo 1. Los habitantes de un país, los planetas del Sistema Solar, las estrellas
en la Vía Láctea, son elementos de una población finita. Sin embargo, el número
de posibles medidas que se puedan hacer de la velocidad de la luz, o de tiradas
de un dado, forman poblaciones infinitas.
Cuando, aunque la población sea finita, y su número de elementos es elevado, es

necesario trabajar con solo una parte de dicha población. A un subconjunto de
elementos de la población se le conoce como muestra.
Ejemplo 2. Si se quiere estudiar las propiedades de las estrellas en nuestra

Galaxia, no tendremos la oportunidad de observarlas todas; tendremos que
conformarnos con una muestra representativa. Obviamente, elegir de forma
representativa los elementos de una muestra es algo muy importante. De hecho
existe un grave problema, conocido como efecto de selección, que puede
condicionar el resultado de un estudio si uno no realiza una selección correcta de
los elementos que forman parte de una muestra.
Al número de elementos de la muestra se le llama tamaño de la muestra. Es fácil

adelantar que para que los resultados de nuestro estudio estadístico sean fiables
es necesario que la muestra tenga un tamaño mínimo. El caso particular de una
muestra que incluye a todos los elementos de la población es conocido como
censo.
La importancia de elegir el tipo de muestra que será más útil se puede demostrar
con el siguiente ejemplo:
El estudio que se vaya a realizar podría ser de diferentes temas, como los
siguientes:
 La opinión sobre la posibilidad de organizar movidas alternativas en tu

ciudad, y sobre las propuestas de actividades a realizar en dicha movida.
 Un sondeo sobre la valoración de los diferentes líderes políticos.
 La opinión sobre el destino de un posible viaje de fin de curso de los
alumnos de tu nivel.
¿Crees que tu clase sería una buena muestra para cualquiera de estos casos? La
respuesta es que, por ejemplo, para el segundo caso, los alumnos de una clase no
son la muestra adecuada. Para el primer caso, es razonable pensar que pueden
aportar información interesante, aunque la muestra puede resultar ”pequeña” y
podría faltarle información (chicos de otras edades, de otros barrios...), mientras
que para el tercer caso, la muestra puede ser muy adecuada. Es por tanto muy
importante la elección de una técnica de muestreo que nos asegure que la
muestra escogida es ’adecuada’ para el estudio que queremos realizar.
Motivos para la realización de un muestreo.

Imagina que vas a realizar estudios para conocer la siguiente información:
 El porcentaje de españoles que tiene acceso a internet.

 La duración media de una determinada marca de pilas.
Para el primer caso, la población a la que debes preguntar es de más de 40

millones de personas. Es obvio que entrevistar a más de 40 millones de personas
supone un gran esfuerzo en varios sentidos. Primero, de tiempo, y segundo de
dinero, puesto que es necesario contratar a muchos encuestadores, pagarles
viajes para que lleguen a todos los pueblos, etc.
Además, hay una dificultad añadida: es difícil llegar a todos y cada uno de los
españoles, ya que cuando vayamos a entrevistar, habrá gente que esté de viaje
fuera del país, habrá gente que esté enferma en el hospital, etc. En este caso, por
motivos económicos, de tiempo y de dificultad de acceso a toda la población, sería
conveniente entrevistar a una cierta parte de la población, una muestra, elegida
convenientemente para poder extraer después conclusiones a toda la población.
En el segundo caso tenemos una problemática diferente. Para poder estudiar la

duración de una pila, debemos usarla hasta que se gaste, lo que nos impide volver
a usar la pila. Es decir, de alguna manera ”destruimos” este elemento de la
población. Si quisiéramos probar todas y cada una de las pilas, nos quedaríamos
sin ellas. En este caso, de nuevo sería conveniente estudiar sólo un conjunto de
esas pilas y luego extraer conclusiones más generales a partir del conjunto que
hemos estudiado.
Por las razones anteriores, en muchos casos es conveniente el uso de muestras,

pero para que podamos extraer conclusiones, es importante que elijamos bien las
muestras para nuestros estudios. Por ejemplo, para el caso del acceso a internet
de los españoles, elegir a 10 personas de 40 millones es insuficiente, no es
representativo. Tampoco lo sería preguntarle, por ejemplo a 100 personas de
Madrid, o elegir a todos tus amigos y tu familia.
Hay cuestiones que debemos especificar a la hora de elegir una muestra:
1. El método de selección de los individuos de la población (tipo de muestreo

que se va a utilizar).
2. El tamaño de la muestra.
3. El grado de fiabilidad de las conclusiones que vamos a presentar, es decir,
una estimación del error que vamos a cometer (en términos de
probabilidad).
Como ya hemos dicho, la selección no adecuada de los elementos de la muestra

provoca errores posteriores a la hora de estimar las correspondientes medidas en
la población. Pero podemos encontrar más errores: el entrevistador podría no ser
imparcial, es decir, favorecer que se den unas respuestas más que otras. Puede
ocurrir también que, por ejemplo, la persona que vayamos a entrevistar no quiera
contestar a ciertas preguntas (o no sepa contestar).
Clasificamos todos estos posibles errores de la siguiente manera:
1. Error de sesgo o de selección: Si alguno de los miembros de la población

tiene más probabilidad que otros de ser seleccionados. Imagina que queremos
conocer el grado de satisfacción de los clientes de un gimnasio y para ello vamos
a entrevistar a algunos de 10 a 12 de la mañana. Esto quiere decir que las
personas que vayan por la tarde no se verán representadas por lo que la muestra
no representará a todos los clientes del gimnasio. Una forma de evitar este tipo de
error es tomar la muestra de manera que todos los clientes tengan la misma
probabilidad de ser seleccionados.
2. Error o sesgo por no respuesta: Es posible que algunos elementos de la

población no quieran o no puedan responder a determinadas cuestiones. O
también puede ocurrir, cuando tenemos cuestionarios de tipo personal, que
algunos miembros de la población no contesten sinceramente. Estos errores son,
en general, difíciles de evitar, pero en el caso de la sinceridad, se suelen
incorporar cuestiones (preguntas filtro) para detectar si se está contestando
sinceramente.
Después de lo que acabamos de ver, podemos decir que una muestra es sesgada
cuando no es representativa de la población.
Técnicas de muestreo:
Ya hemos hecho referencia a la importancia de la correcta elección de la muestra

para que sea representativa para nuestra población pero ¿cómo clasificamos las
diferentes formas de elegir una muestra? Podemos decir que hay tres tipos de
muestreo:
1. Muestreo probabilístico: es aquel en el que cada miembro de la población

tiene la misma probabilidad de ser elegido.
2. Muestreo intencional u opinático: en el que la persona que selecciona la

muestra es quien procura que sea representativa, dependiendo de su intención u
opinión, siendo por tanto la representatividad subjetiva.
3. Muestreo sin norma: se toma la muestra sin norma alguna, de cualquier

manera, siendo la muestra representativa si la población es homogénea y no se
producen sesgos de selección.
Nosotros siempre haremos muestreo probabilístico, ya que en caso de elegir la

técnica adecuada, es el que nos asegura la representatividad de la muestra y nos
permite el cálculo de la estimación de los errores que se cometen. Dentro del
muestreo probabilístico podemos distinguir entre los siguientes tipos de muestreo:
 Muestreo aleatorio con y sin reemplazo.

 Muestreo estratificado.
 Muestreo por conglomerados.
 Muestreo sistemático.
 Otros tipos de muestreo.
Imagina ahora que ya has seleccionado una muestra de un Centro de Enseñanza

Secundaria (CES) en el que hay 560 alumnos. Has elegido una muestra de 28
alumnos para conocer si tienen internet en casa. Pero, ¿qué significa elegir a 28
de 560? ¿Qué proporción de la población estás entrevistando? Y a la hora de
obtener conclusiones sobre la población ¿a cuántos alumnos de la población total
representa cada uno de los de la muestra? Para calcular la proporción de alumnos
que estamos entrevistando, dividimos el tamaño de la muestra entre el de la
población: 28/560 = 0,05, lo que quiere decir que estamos pasando la encuesta al
5% de la población. Ahora vamos a calcular a cuántos individuos representa cada
uno de los elementos de la muestra. Hacemos la división contraria, dividimos el
número de individuos de la población entre los de la muestra: 560/28 = 20, lo que
querría decir que cada uno de los elementos de la muestra representa a 20
alumnos del CES. Los dos conceptos que acabamos de ver tienen la siguiente
definición formal:
1. Factor de elevación: es el cociente entre el tamaño de la población y el

tamaño de la muestra, N/n. Representa el número de elementos que hay en
la población por cada elemento de la muestra.
2. Factor de muestreo: es el cociente entre el tamaño de la muestra y el
tamaño de la población n/N. Si se multiplica por 100, obtenemos el
porcentaje de la población que representa la muestra.
Muestreo aleatorio con y sin reemplazamiento: Ya hemos comentado que en

caso de querer hacer muestreo de manera que la muestra sea representativa,
debemos realizar muestreo probabilístico. ¿Cómo harías para seleccionar 28
alumnos de 560 dentro de un CES para que tuvieran todos la misma probabilidad
de entrar en la muestra? Lo más sencillo sería hacer un sorteo para elegir 28, es
decir, escogerlos al azar, así todos tendrían las mismas posibilidades de estar en
la muestra. Este proceso de selección corresponde a un muestreo aleatorio.
Diremos que un muestreo es aleatorio cuando, el proceso de selección de la
muestra garantice que todas las muestras posibles que se pueden obtener de la
población tienen la misma probabilidad de ser elegidas, es decir, todos los
elementos de la población tienen la misma posibilidad de ser seleccionados para
formar parte de la muestra. Cuando un elemento es seleccionado, y hemos
medido las variables necesarias para el estudio y puede volver a ser seleccionado,
se dice que hacemos un muestreo aleatorio con reemplazamiento o reposición.
Generalmente recibe el nombre de muestreo aleatorio simple. En caso de que el
elemento no vuelva a formar parte de la población de manera que no puede volver
a ser seleccionado se dice que se ha obtenido la muestra mediante un muestreo
aleatorio sin reposición o reemplazamiento. En algunos libros, este método recibe
también el nombre de muestreo irrestrictamente aleatorio.
Muestreo estratificado: Imagina ahora que queremos hacer un estudio para

saber a qué dedican su tiempo libre las personas que viven en tu ciudad. Todos
sabemos que los ancianos no realizan el mismo tipo de actividades que los
jóvenes, ni tampoco que las personas de mediana edad, como por ejemplo tus
padres. Nos interesaría entonces que toda esta información que tenemos de
antemano nos ayude a construir una muestra más significativa. De hecho, nos
interesa que todos esos colectivos estén representados en nuestra muestra. A los
colectivos que hemos definido, en este caso por edad, los llamaremos estratos. Lo
que haremos será dividir nuestra muestra de manera que haya representantes de
todos los estratos.
Ventajas:
 Podemos tener información con más precisión dentro de las

subpoblaciones sobre la característica objeto del estudio.
 Podemos aumentar la precisión de los estimadores de las características de
toda la población.
Inconvenientes:
 La elección del tamaño de las muestras dentro de cada estrato para que el
total sea N.
 La división en estratos en algunas poblaciones puede no ser sencilla.
Muestreo por conglomerados: Nos planteamos hacer un estudio de la altura de

los alumnos de Secundaria de tu ciudad. En lugar de hacer un muestreo de todos
los chicos de tu ciudad podríamos plantearnos elegir algunos barrios, ya que con
respecto a la altura, los barrios son como ”pequeñas poblaciones” comparables a
la ciudad. En este caso ¿podemos simplificar la elección de la muestra al elegir los
barrios sin perder precisión? La respuesta es que en este caso, podríamos elegir
barrios y analizar las alturas de los estudiantes de cada barrio sin perder precisión.
En el muestreo por conglomerados, la población se divide en unidades o grupos,

llamados conglomerados (generalmente son unidades o áreas en los que se ha
dividido la población), que deben ser lo más representativas posible de la
población, es decir, deben representar la heterogeneidad de la población objeto
del estudio y ser entre sí homogéneos.
El motivo para realizar este muestreo es que a veces resultaría demasiado

costoso realizar una lista completa de todos los individuos de la población objeto
del estudio, o que cuando se terminase de realizar la lista no tendría sentido la
realización del estudio.
El principal inconveniente que tiene es que si los conglomerados no son

homogéneos entre sí, la muestra final puede no ser representativa de la población.
Suponiendo que los conglomerados sean tan heterogéneos como la población, en

relación a las variables estudiadas, y que entre sí sean homogéneos, para obtener
una muestra bastará con seleccionar algunos conglomerados. En este caso se
habla de muestreo por conglomerados de una etapa.
El muestreo por conglomerados tiene la ventaja de simplificar la recogida de las

informaciones muestrales.
Muestreo sistemático: Se nos puede ocurrir otra manera de muestrear.

Imaginemos que en tu centro hay 560 alumnos y hemos decidido elegir una
muestra de 28 personas. En este caso el factor de elevación sería de 560/28 = 20.
Numeramos a los alumnos del 1 al 560. Elegimos entonces un número x al azar
entre 1 y 20 y ese sería el primer alumnos seleccionado, el que ocupa el lugar x.
Luego tomamos el x + 20, x + 2·20 y así sucesivamente. No es un muestreo
aleatorio porque todas las muestras no son igualmente probables.
El muestreo sistemático es equivalente al muestreo aleatorio si los elementos se

encuentran enumerados de manera aleatoria.
Las ventajas de dicho método son:
 Extiende la muestra a toda la población.

 Es de fácil aplicación.
Los inconvenientes que presenta son:
 Aumento de la varianza si existe periodicidad en la numeración de los

elementos, produciéndose sesgo por selección.
 Problemas a la hora de la estimación de la varianza.
Otros tipos de muestreo: El muestreo bietápico es un caso particular de

muestreo por conglomerados en el que en la segunda etapa no se seleccionan
todos los elementos del conglomerado, sino que se seleccionan un determinado
número de elementos de cada conglomerado de manera aleatoria. Los
conglomerados de primera etapa se denominan unidades primarias, los de
segunda etapa, secundarias. El muestreo polietápico es una generalización del
anterior, de manera que cada conglomerado puede estar formado a su vez por
otros conglomerados y así sucesivamente en varias etapas.
VARIABLES:
Tal y como se ha comentado antes de llevar a cabo el análisis descriptivo de los
datos se ha de tener claro de qué tipo es cada una de las variables de que
disponemos. Así, podemos clasificar las variables según el siguiente criterio:
Variables cuantitativas: Son aquellas que responden a la pregunta ¿cuánto?, y

pueden ser expresadas numéricamente (es decir, siempre tomarán un valor
numérico).
A su vez se dividen en:
 Variables continuas: Podrán tomar cualquier valor (entero o no) dentro de

un rango determinado de valores.
 Variables discretas: Sólo podrán tomar ciertos valores concretos
(habitualmente números enteros).
Variables cualitativas o categóricas: Responden a la pregunta ¿de qué tipo?

Pueden tomar cualquier valor, numérico o de cualquier otro tipo. Cada uno de los
posibles valores que puede tomar estos tipos de variables se dicen Categorías.
Las variables cualitativas a su vez se dividen en:
 Variables ordinales: Serán aquellas variables de tipo cualitativo en el que

las posibles respuestas admiten una ordenación lógica.
 Variables nominales: Serán aquellas variables de tipo cualitativo en el que
las posibles respuestas NO admiten ningún tipo de ordenación lógica.
INSTRUMENTOS DE RECOLECCIÓN DE DATOS:
Arias (1997) define los instrumentos como: “Los medios materiales que se
emplean para recoger y almacenar la información.”
Según Arias (1997) los instrumentos de recolección son: “las distintas formas o
maneras de obtener la información.”
Un instrumento de recolección de datos es en principio cualquier recurso de que

pueda valerse el investigador para acercarse a los fenómenos y extraer de ellos
información. De este modo el instrumento sintetiza en si toda la labor previa de la
investigación, resume los aportes del marco teórico al seleccionar datos que
corresponden a los indicadores y, por lo tanto a las variables o conceptos
utilizados. Y por técnica vamos a anotar la definición que nos da el diccionario de
metodología.
Conjunto de mecanismos, medios y sistemas de dirigir, recolectar, conservar,

reelaborar y transmitir los datos.
Fernando Castro Márquez indica que las técnicas están referidas a la manera
como se van a obtener los datos y los instrumentos son los medios materiales, a
través de los cuales se hace posible la obtención y archivo de la información
requerida para la investigación.
Resumiendo tenemos que los instrumentos son:
 Cualquier recurso que recopile información referente a la investigación.

 Es un mecanismo recopilador de datos.
 Son elementos básicos que extraen la información de las fuentes
consultadas.
 Son los soportes que justifican y de alguna manera le dan validez a la
investigación.
 Como instrumentos de investigación son amplios y variados y van desde
una simple ficha hasta una compleja y sofisticada encuesta.
Entre estas formas tenemos a:
Censo:
Se denomina censo, en estadística descriptiva, al recuento de individuos que

conforman una población estadística, definida como un conjunto de elementos de
referencia sobre el que se realizan las observaciones. El censo de una población
estadística consiste básicamente, en obtener mediciones del número total de
individuos mediante diversas técnicas de recuento, además este se realiza cada
determinado período.
Clasificación: El censo es una de las operaciones estadísticas que no trabaja

sobre una muestra estadística, sino sobre la población total; mientras que el
período de realización depende de los objetivos para los que se necesiten los
datos. Por ejemplo, en diversos países se llevan a cabo censos poblacionales que
por lo general se realizan cada 4 años, mismo período utilizado para censos
agropecuarios.
Desde el punto de vista del trabajo de investigación, se considera al censo como

técnica, que usa como documento instrumento a la cédula de censo o ficha censal
de la población.
Censo y encuesta: El censo se lleva a cabo a través de la aplicación de un

instrumento estandarizado o encuesta a toda la población objetivo; en este
contexto, se proceden a medir todos los elementos de dicha población; luego, esta
información sirve de marco para realizar futuros muestreos cuando no es posible
realizar un censo, ya sean estos estadísticamente representativos (probabilísticos)
o no.
Así, si la población objetivo son los habitantes de una ciudad o país, para que el
relevamiento sea censal todas las personas que habitan en la ciudad o país deben
ser entrevistadas. Sin embargo, la pertinencia o no de realizar un procedimiento
muestral o censal dependerá específicamente de las poblaciones y los tamaños
de error existentes; mientras en el primer caso se observa la presencia de un error
muestral, en la segunda se aprecia un error ajeno al muestreo.
ERRORES DE MEDICIÓN:
El error de medición se define como la diferencia entre el valor medido y el "valor

verdadero". Los errores de medición afectan a cualquier instrumento de medición y
pueden deberse a distintas causas. Las que se pueden de alguna manera prever,
calcular, eliminar mediante calibraciones y compensaciones, se denominan
deterministas o sistemáticos y se relacionan con la exactitud de las mediciones.
Los que no se pueden prever, pues dependen de causas desconocidas, o

estocásticas se denominan aleatorios y están relacionados con la precisión del
instrumento.
Los errores admiten una clasificación en dos grandes vertientes: errores aleatorios
y errores sistemáticos:
 Error aleatorio. No se conocen las leyes o mecanismos que lo causan por

su excesiva complejidad o por su pequeña influencia en el resultado final.
Es un error al azar, es inevitable, se produce por eventos únicos imposibles
de controlar durante el proceso de medición. En un estudio de
investigación, por lo general, el error aleatorio viene determinado por el
hecho de tomar sólo una muestra de una población para hacer inferencias.
 Error sistemático. Es aquel que se produce de igual modo en todas las
mediciones que se realiza de una magnitud, puede estar originado en un
defecto del instrumento, en una particularidad del observador o del proceso
de medición u observación, a este tipo de error también se le llama sesgo.
Los errores pueden ser dependientes de:
1. Observador.
2. Método de observación.
3. Objeto o elemento observado.
TEMA 3
ORGANIZACIÓN Y PRESENTACIÓN DE DATOS
INTRODUCCIÓN:
En el trabajo estadístico se dispone de muchos datos que necesariamente deben

ser clasificados, ordenados y presentados adecuadamente, de tal manera que
facilite la comprensión, descripción y análisis del fenómeno estudiado, y obtener
conclusiones válidas para la toma de decisiones.
La organización y presentación requiere de los siguientes pasos:
 Evaluación crítica: Consiste en inspeccionar la validez y

confiabilidad de los datos, para corregir los errores y omisiones de
acuerdo a ciertas reglas fijas.
 Codificación: Es un técnica mediante la cual los datos (numérico o
verbal) se convierte en un número, que permite su procesamiento
electrónico.
 Clasificación: Consiste en establecer las categorías de las
variables.
 Procesamiento o tabulación de datos: Que es la contabilización o
registro del número de casos en cada una de las categorías de las
variables. El plan de tabulación es el primer ordenamiento de los
datos, son para construir las llamadas “tablas estadísticas”.
 Presentación de los datos: Es cuando los resultados de la
tabulación, una vez evaluados, se presentan en cuadros y gráficos
estadísticos. La presentación implica tener la información estadística
organizada para proceder al análisis e interpretación de los
resultados y de los aspectos considerados de la población en
estudio.
TIPOS DE DISTRIBUCIÓN DE FRECUENCIAS:
Se le llama distribución de frecuencias a la agrupación de datos en categorías

mutuamente excluyentes que indican el número de observaciones en cada
categoría o variable. Esto proporciona un valor añadido a la agrupación de datos.
La distribución de frecuencias presenta las observaciones clasificadas de modo
que se pueda ver el número existente en cada clase.
Frecuencia absoluta (ni):
La frecuencia absoluta es el número de veces que aparece un determinado valor

en un estudio estadístico. Se representa por fila. La suma de las frecuencias
absolutas es igual al número total de datos, que se representa por N. Para indicar
resumidamente estas sumas se utiliza la letra griega Σ (sigma mayúscula) que se
lee suma o sumatoria.
Frecuencia
Xi
absoluta (ni)
3 2
4 4
5 6
6 7
7 5
8 3
9 2
10 1
Total 30
Frecuencia relativa (fi):
Se dice que la frecuencia relativa es el cociente entre la frecuencia absoluta de un

determinado valor y el número total de datos. Se puede expresar en tantos por
ciento y se representa por fi. La suma de las frecuencias relativas es igual a 1,
siempre y cuando no sea igual que 7 o por debajo de los 7 primeros números
sucesivos. Frecuencia relativa (fi), es el cociente entre la frecuencia absoluta y el
tamaño de la muestra (N). Es decir:
𝑛𝑖 𝑛𝑖
𝑓𝑖 = = 𝑘
𝑁 ∑𝑖=1 𝑛𝑖
Si multiplicamos la frecuencia relativa por 100 obtendremos el porcentaje o tanto

por ciento (pi)
Frecuencia absoluta acumulada (Ni)

Suma de las frecuencias absolutas de los valores inferiores o igual a xi, o número
de medidas por debajo, o igual, que xi. Evidentemente la frecuencia absoluta
acumulada de un valor se puede calcular a partir de la correspondiente al anterior
como:
𝑁𝑖 = 𝑁𝑖−1 + 𝑛𝑖 y 𝑁1 = 𝑛1
Además la frecuencia absoluta acumulada del último valor será

𝑁𝑘 = 𝑁
Frecuencia relativa acumulada (Fi)
La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de

un determinado valor y el número total de datos. Se puede expresar en tantos por
ciento.
𝑘 𝑘
𝑁𝑖 ∑𝑘𝑖=1 𝑛𝑖 𝑛𝑖
𝐹𝑖 = = = ∑ = ∑ 𝑓𝑖
𝑁 𝑁 𝑁
𝑖=1 𝑖=1
Frecuencia
Frecuencia Frecuencia
Frecuencia relativa
Xi absoluta relativa
absoluta (ni) acumulada
acumulada (Ni) (fi = ni/N)
(Fi = Ni/N)
3 2 2 0,07 0,07
4 4 6 0,13 0,20
5 6 12 0,20 0,40
6 7 19 0,23 0,63
7 5 24 0,17 0,80
8 3 27 0,10 0,90
9 2 29 0,07 0,97
10 1 30 0,03 1.00
Total 30 30 1 1
Distribución de frecuencias agrupadas
La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea

si las variables toman un número grande de valores o la variable es continua. Se
agrupan los valores en intervalos que tengan la misma amplitud denominados
clases. A cada clase se le asigna su frecuencia correspondiente. Límites de la
clase. Cada clase está delimitada por el límite inferior de la clase y el límite
superior de la clase.
La amplitud de la clase es la diferencia entre el límite superior e inferior de la

clase. La marca de clase es el punto medio de cada intervalo y es el valor que
representa a todo el intervalo para el cálculo de algunos parámetros.
Construcción de una tabla de datos agrupados:
3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26,
20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.
1. Se localizan los valores menor y mayor de la distribución. En este caso son
3 y 48.
2. Se restan y se busca un número entero un poco mayor que la diferencia y
que sea divisible por el número de intervalos que queramos establecer.
Es conveniente que el número de intervalos oscile entre 6 y 15.
En este caso, 48 - 3 = 45, incrementamos el número hasta 50 / 5 = 10 intervalos.
Se forman los intervalos teniendo presente que el límite inferior de una clase
pertenece al intervalo, pero el límite superior no pertenece al intervalo, se cuenta
en el siguiente intervalo.
Intervalo ci ni Ni fi Fi
0–5 2.5 1 1 0.025 0.025
5 – 10 7.5 1 2 0.025 0.050
10 – 15 12.5 3 5 0.075 0.125
15 – 20 17.5 3 8 0.075 0.200
20 – 25 22.5 3 11 0.075 0.275
25 – 30 27.5 6 17 0.150 0.425
30 – 35 32.5 7 24 0.175 0.600
35 – 40 37.5 10 34 0.250 0.850
40 – 45 42.5 4 38 0.100 0.950
45 – 50 47.5 2 40 0.050 1
Total 40 1
PRESENTACIÓN DATOS:
La presentación de datos estadísticos constituye en sus diferentes modalidades

uno de los aspectos de más uso en la estadística descriptiva. A partir del cual
podemos visualizar a través de los diferentes medios escritos y televisivos
de comunicación masiva la presentación de los datos estadísticos sobre
el comportamiento de las principales variables económicas, sociales y de salud,
nacionales e internacionales.
Entre las formas de presentación de datos tenemos a:
1. Presentación escrita: Esta forma de presentación de informaciones se usa
cuando una serie de datos incluye pocos valores, por lo cual resulta más
apropiada la palabra escrita como forma de escribir el comportamiento de los
datos; mediante la forma escrita, se resalta la importancia de las
informaciones principales.
2. Presentación tabular: Cuando los datos estadísticos se presentan a través
de un conjunto de filas y de columnas que responden a un ordenamiento
lógico; es de gran peso e importancia para el uso, y tiene su importancia para
el usuario ya que constituye la forma más exacta de presentar las
informaciones. Una tabla consta de varias partes, las principales son las
siguientes:
Título: Es la parte más importante del cuadro y sirve para describir todo el
contenido de este. Debe ser breve, concreto y completo. Un título completo debe
contener lo siguiente:
 La circunscripción espacial, es decir, debe indicar institución o área

geográfica a la que pertenecen los datos. Responde a la pregunta ¿A
dónde pertenece la información?
 El fenómeno que se está tratando o la naturaleza de los datos. Responde a
la pregunta ¿Qué contiene la tabla?
 El criterio de clasificación de los datos. Responde a ¿Cómo se presenta el
contenido de la tabla?
 El espacio temporal o período que abarca la información que se presenta.
Responde a ¿A qué tiempo pertenecen los datos de la tabla?
A veces es necesario indicar bajo el título, las unidades de medida que se han
utilizado para indicar la variable.
Encabezados: Son los diferentes subtítulos que se colocan en la parte superior
de cada columna.
Columna matriz: Es la primera columna de la izquierda, es la principal del cuadro.
También se la denomina título de las filas.
Cuerpo: El cuerpo contiene todas las informaciones numéricas que aparecen en
la tabla, se presenta en celdas o casillas de intersección, ordenadas por los títulos
de las filas y las columnas.
Fuente: La fuente de los datos contenidos en la tabla indica la procedencia de
estos. Se coloca siempre en la parte inferior de la tabla.
Notas al pie: Son usadas para hacer algunas aclaraciones sobre aspectos que
aparecen en la tabla o cuadro y que no han sido explicados en otras partes.
Tipos de tablas estadísticas:
a) Tablas de una entrada.- Se denominan de una entrada o de entrada
simple cuando presentan una sola variable o características de la realidad.
En la columna matriz van las clases en que se presenta las variaciones de
las características en estudio.
Cantidad de
Deporte favorito
estudiantes
Fútbol 5
Baloncesto 2
Tenis 4
Natación 4
Total 15
b) Tabla de dos entradas.- Son tablas en las que se presentan dos variables
de la realidad, las clases de una de ellas van en la columna matriz (vertical)
y las clases de la segunda en el encabezado (horizontal).
CPOD SEXO
Total
(X) Masculino Femenino
0–3 11 9 20
3–6 8 3 11
6 – 10 3 1 4
˃ 10 1 0 1
Total 23 13 36
c) Tablas complejas.- Son tablas que presentan en forma simultánea tres o

más variables o características de la realidad en estudio, una va en la
columna matriz, y las otras en el encabezado. El uso de estas tablas debe
ser restringido, porque puede ser complicada su interpretación si
representan muchas variables.
TIPOS DE RESIDENCIA
NIVEL DE URBANO
URBANA RURAL TOTAL
INSTRUCCIÓN MARGINAL
MASC. FEM. MASC. FEM. MASC. FEM.
Analfabeto 6 4 22 6 1 3 42
Primaria 9 6 23 25 7 3 73
Secundaria 3 2 6 5 3 3 22
Superior 0 0 1 2 1 0 4
TOTAL 18 12 52 38 12 9 141
3. Presentación gráfica: Proporciona al lector o usuario mayor rapidez en la

comprensión de los datos, una gráfica es una expresión artística usada para
representar un conjunto de datos. De acuerdo al tipo de variable que vamos a
representar, las principales graficas son las siguientes:
Histograma: Es un conjunto de barras o rectángulos unidos uno de otro, en razón
de que lo utilizamos para representar variables continuas.
Son representaciones gráficas de estadísticas de diferentes tipos. La utilidad del
histograma tiene que ver con la posibilidad de establecer de manera visual,
ordenada y fácilmente comprensible todos los datos numéricos estadísticos que
pueden tornarse difíciles de entender. Hay muchos tipos de histogramas y cada
uno se ajusta a diferentes necesidades como también a diferentes tipos de
información.
Son utilizados siempre por la ciencia estadística. Su función es exponer
gráficamente números, variables y cifras de modo que los resultados se visualicen
más clara y ordenadamente. El histograma es siempre una representación en
barras y por eso es importante no confundirlo con otro tipo de gráficos como las
tortas. Se estima que por el tipo de información brindada y por la manera en que
ésta es dispuesta, los histogramas son de especial utilidad y eficacia para las
ciencias sociales ya que permiten comparar datos sociales como los resultados de
un censo, la cantidad de mujeres y/o hombres en una comunidad, el nivel de
analfabetismo o mortandad infantil, etc.
Para un histograma existen dos tipos de informaciones básicas (que pueden ser
complementados o no de acuerdo a la complejidad del diseño): la frecuencia de
los valores y los valores en sí. Normalmente, las frecuencias son representadas en
el eje vertical mientras que en el horizontal se representan los valores de cada una
de las variables (que aparecen en el histograma como barras bi o
tridimensionales).
Existen diferentes tipos de histogramas. Los histogramas de barras simples son
los más comunes y utilizados. También están los histogramas de barras
compuestas que permiten introducir información sobre dos variables. Luego están
los histogramas de barras agrupadas según información y por último el polígono
de frecuencias y la ojiva porcentual, ambos sistemas utilizados normalmente por
expertos.
Polígono de frecuencias: Es el nombre que recibe una clase de gráfico que se

crea a partir de un histograma de frecuencia. Estos histogramas emplean
columnas verticales para reflejar las frecuencias, el polígono de frecuencia es
realizado uniendo los puntos de mayor altura de estas columnas.
Es decir, por tanto, podríamos establecer que un polígono de frecuencia es aquel
que se forma a partir de la unión de los distintos puntos medios de las cimas de
las columnas que configuran lo que es un histograma de frecuencia. Este se
caracteriza porque utiliza siempre lo que son columnas de tipo vertical y porque
nunca debe haber espacios entre lo que son unas y otras.
En las ciencias sociales, en las ciencias naturales y también en las económicas es

donde con más frecuencia se hace uso de estos mencionados histogramas ya que
se emplean para llevar a cabo lo que es la comparación de los resultados de un
proceso determinado.
Gráfica de barras: Es un conjunto de rectángulos o barras separadas una de la

otra, en razón de que se usa para representar variables discretas; las barras
deben ser de igual base o ancho y separadas a igual distancia. Pueden
disponerse en forma vertical y horizontal.
Gráfica lineal: Son usadas principalmente para representar datos clasificados por
cantidad o tiempo; o sea, se usan para representar series de tiempo o
cronológicas.
Gráfica de barra 100% y gráfica circular: Se usan especialmente para

representar las partes en que se divide una cantidad total.
La ojiva: Es un polígono frecuencial acumulado, es decir, que permite ver cuántas

observaciones se encuentran por encima o debajo de ciertos valores, en lugar de
solo exhibir los números asignados a cada intervalo.
La ojiva apropiada para información que presente frecuencias mayores que el dato
que se está comparando tendrá una pendiente negativa (hacia abajo y a la
derecha) y en cambio la que se asigna a valores menores, tendrá una pendiente
positiva. Una gráfica similar al polígono de frecuencias es la ojiva, pero ésta se
obtiene de aplicar parcialmente la misma técnica a una distribución acumulativa y
de igual manera que éstas, existen las ojivas "mayor que" y las ojivas "menor
que".
Existen dos diferencias fundamentales entre las ojivas y los polígonos de
frecuencias (y por esto la aplicación de la técnica es parcial):
Un extremo de la ojiva no se toca al eje horizontal, para la ojiva "mayor que"

sucede con el extremo izquierdo; para la ojiva "menor que", con el derecho.
En el eje horizontal, en lugar de colocar las marcas de clase, se colocan las

fronteras de clase. Para el caso de la ojiva "mayor que" es la frontera menor; para
la ojiva menor que, la mayor.
La ojiva "mayor que" se le denomina de esta manera porque viendo el punto que
está sobre el límite superior se ven las frecuencias que tienen por encima de ese
límite superior. De forma análoga, en la ojiva "menor que" la frecuencia que se
representa en cada frontera de clase son el número de observaciones menores
que la frontera señalada (en caso de tiempos sería el número de observaciones
antes de la hora que señala la frontera)
En estadística denominamos gráficos a aquellas imágenes que, combinando la

utilización de sombreado, colores, puntos, líneas, símbolos, números, texto y
un sistema de referencia (coordenadas), permiten presentar información
cuantitativa.
La utilidad de los gráficos es doble, ya que pueden servir no sólo como sustituto a
las tablas, sino que también constituyen por sí mismos una poderosa herramienta
para el análisis de los datos, siendo en ocasiones el medio más efectivo no sólo
para describir y resumir la información, sino también para analizarla.
TEMA 4
ANÁLISIS CUANTITATIVOS
MEDIDAS CARACTERÍSTICAS DE UNA DISTRIBUCIÓN
“La percepción, sin comprobación ni

fundamento, no es garantía suficiente de
verdad.”
Bertrand Russell (1872-1970)
Después de haber aprendido en el tema anterior a construir tablas de frecuencias

y haber realizado alguna representación gráfica, el siguiente paso para llevar a
cabo un estudio preliminar de los datos recogidos es el cálculo de diferentes
magnitudes, características de la distribución. Se definen entonces diversas
medidas que serán capaces de resumir toda la información recogida a un pequeño
número de valores. Estas medidas resumen van a permitir comparar nuestra
muestra con otras y dar una idea rápida de cómo se distribuyen los datos. Es
evidente que todas estas medidas solo pueden definirse para variables
cuantitativas.
MEDIDAS DE TENDENCIA CENTRAL:
Las medidas de tendencia central proporcionan información sobre la posición o

localización de los datos observados. Entre las medidas de este tipo se
encuentran la media, la mediana o la moda. Para ilustrar el cálculo de estas
medidas se propone el siguiente ejemplo:
En un estudio se obtuvo información sobre el peso (en kg) de un grupo de

15 individuos que se relacionan a continuación:
64, 54, 82, 76, 75, 90, 64, 55, 71, 69, 73, 78, 74, 80, 75
Media aritmética (x).-
Es una de las medidas de tendencia central más utilizadas. Se interpreta como el

promedio de los datos y se construye de forma que intervienen todos los datos
observados en su cálculo de la siguiente forma:
Donde x1, x2, x3…, xn son las observaciones de la variable y n el número total de
observaciones.
La media x, única para un conjunto de datos, se sitúa en el centro de gravedad de

la distribución de los mismos reforzando su papel de medida de tendencia central.
Sin embargo, debe tenerse en cuenta que la media es una medida sensible a
observaciones atípicas o extremas. Un valor alejado del resto tendría un efecto
importante sobre el valor de la media. Por ejemplo, si se trata de un valor
considerablemente mayor que el conjunto de las observaciones, la media se
desplazará hacia la derecha (aumentará su valor), pudiendo situarse en un lugar
poco representativo del conjunto de datos. Existen alternativas ajustadas del
cálculo de la media (medias robustas) que tratan de corregir este problema
otorgando un menor peso a las observaciones alejadas.
Mediana (Md).-
Una alternativa al cálculo de la media, no sensible a observaciones atípicas o

extremas, la constituye la mediana. El valor de la mediana, para un conjunto de
datos, se obtiene de forma que deja el mismo número de observaciones a su
izquierda que a su derecha. Aunque podría haber infinitos valores que cumplieran
este requisito para un conjunto de observaciones, la forma habitual de cálculo
garantiza que la mediana será única para un conjunto de datos. En primer lugar,
será necesario ordenar los datos de menor a mayor:
54, 55,64,64,69,71,73,74,75,75,76,78, 80, 82, 90
Dado que, en este caso, el número de datos es impar, solo hay un valor que se
sitúa en el centro, dejando el mismo número de datos a izquierda y a derecha, que
es el que ocupa la posición 8 (deja siete datos a su izquierda y siete a su
derecha). Si el número total de datos fuera par, se calcularía la semisuma entre
los dos datos centrales. En general, se calculará en primer lugar el rango de la
mediana, que informará sobre la posición que debe ocupar esta, una vez
ordenados los datos de menor a mayor, de la siguiente forma:
En este caso, la mediana es el dato que ocupa la posición 8 y sería Md = 74 kg. Si

se considerara un conjunto de n = 16 observaciones (se añade la observación 93
kg al grupo anterior), se tendrá que:
54, 55,64,64,69,71,73,74,75,75,76,78, 80, 82, 90, 93
Donde:
La mediana sería un valor entre el dato que ocupa la posición 8 y el dato que
ocupa la posición 9, que en este caso corresponde a los valores 74 y 75. La
mediana se obtendrá entonces:
Adviértase que si el valor observado más elevado fuera 120 kg, el valor de la
mediana no cambiaría (algo que sí ocurriría con la media). Por otra parte, en el
cálculo de la mediana intervienen solo uno o dos datos directamente con su valor
y todos indirectamente a través de su orden, por lo que se deduce que, con la
utilización de la mediana, se pierde parte de la información que proporcionan los
datos en comparación con la media.
Moda (Mo).-
La moda se define, para un conjunto de datos, como el valor más frecuente, es

decir, el valor que más veces se repite. Si se trabaja con los datos del ejemplo, se
observa que dos datos se repiten exactamente el mismo número de veces y
representan la mayor frecuencia observada y son: 64 y 75 kg. Por tanto, se
dispondría de dos valores para la moda:
Mo = {64,75}
Este resultado evidencia que la moda no tiene por qué ser única para un conjunto
de datos. Por otra parte, basta que un dato se repita más veces que el resto para
considerarse moda, aunque no sea una buena medida resumen de los datos,
siendo, por tanto, la medida más débil de las estudiadas hasta el momento.
Una alternativa para el cálculo de la moda en el caso de variables cuantitativas

continuas, donde es habitual observar frecuencias bajas en la mayoría de los
valores observados, es agrupar en intervalos y detectar el intervalo o intervalos
con mayor frecuencia absoluta lo que podría definirse como intervalo modal.
Figura 1-5 Comparación de la dispersión de los datos en dos grupos de observaciones.
MEDIDAS DE DISPERSIÓN NO CENTRAL:
Las medidas de tendencia central proporcionaban información sobre la

localización de los datos pero no sobre la dispersión o variabilidad con la que se
sitúan en torno a dichas medidas.
En la figura 1-5 se presentan dos conjuntos de datos en los que la media coincide.
Además, como la distribución de los datos es simétrica, la mediana coincide con la
media. Sin embargo, la distribución de los dos conjuntos de datos difiere, ya que
puede observarse que en el caso (2) los datos se encuentran mucho más
concentrados en torno a la media (o mediana) que en el caso (1), donde la
dispersión es mayor. Es necesario, por tanto, disponer de medidas que informen
sobre la dispersión de los datos y que permitan distinguir situaciones como la
planteada.
Rango o recorrido (R).-
La medida más sencilla y visualmente intuitiva para cuantificar la dispersión de los

datos es el rango y se obtendrá calculando la distancia entre el mayor y el menor
valor observado. Si se trabaja con los datos antes mencionados.
En un estudio se obtuvo información sobre el peso (en kg) de un grupo de

15 individuos que se relacionan a continuación:
64, 54, 82, 76, 75, 90, 64, 55, 71, 69, 73, 78, 74, 80, 75
se tendrá que:
R = Xi máx – Xi mín = 90 – 54 =36
Luego el rango de valores observados muestra una distancia de 36 kg entre el

menor y el mayor valor observado. La obtención del rango es sencilla, sin
embargo, en su construcción solo intervienen dos de los datos observados, que,
además, son los más extremos. Esto tiene como consecuencia que el rango será
una medida extremadamente sensible a observaciones extremas y que no tiene
en cuenta gran parte de la información disponible.
Varianza y desviación típica o estándar (s2).-
La desviación típica o estándar es la medida de dispersión más utilizada por sus

propiedades y porque involucra a todos los datos en su construcción.
La idea es obtener una medida resumen de la distancia de cada dato a la media

(desviación a la media). Cuanto mayor sea la medida resumen de las distancias,
más alejados estarán los datos de la media y, por tanto, existirá una mayor
dispersión o variabilidad. Se utilizan las distancias al cuadrado para obviar el signo
de la distancia y valorar únicamente su magnitud. Así, en primer lugar, se define la
varianza como el promedio de las distancias (al cuadrado) de cada dato a la
media, que con los datos del ejemplo quedará:
La varianza está expresada, por tanto, en unidades al cuadrado de la variable.

Para conseguir una medida en las mismas unidades que la variable original se
extrae la raíz cuadrada, obteniéndose la denominada desviación típica o estándar.
En el ejemplo se tendrá que:
Puede afirmarse, por la desigualdad de Tchebychev, que entre la media x y k

desviaciones típicas se encuentran, al menos, el 100(1 − 1/k2)% de los datos.
Trabajando con los datos del ejemplo se tendrá que el intervalo:
Contendrá, al menos, el siguiente porcentaje de datos:
Coeficiente de variación (CV).-
La desviación típica proporcionaba una medida resumen de las distancias de cada

dato a la media (desviaciones) en las mismas unidades que la variable original y,
por tanto, depende de dichas unidades de medida. ¿Son comparables las
desviaciones típicas de dos conjuntos de datos? ¿Puede afirmarse, en general,
que a mayor desviación típica mayor dispersión? La respuesta es que esto solo es
posible si los conjuntos de datos que se pretenden comparar tienen la misma
media. Para ilustrar esta cuestión se propone el siguiente ejemplo:
Supóngase que se dispone de información sobre el número de hijos y la edad de

un grupo de mujeres. La media y la desviación típica del número de hijos fueron
de 1,3 y 1,2, respectivamente, mientras que para la edad la media fue de 34,2,
con una desviación típica de 6 años. La cuestión es ¿qué variable presenta una
mayor dispersión o variabilidad?
Si se atiende únicamente al valor de la desviación típica se decidiría que la edad
presenta mayor dispersión que la variable número de hijos (S = 6 años frente a S
= 1,2 hijos). Sin embargo, no es lo mismo desviarse 6 unidades en magnitudes en
torno a 34,2 que desviarse 1,2 unidades en magnitudes alrededor de 1,3, y
parece lógico pensar que la dispersión es mayor en este segundo caso. Será
necesario construir una medida de dispersión relativa que no dependa de las
unidades de medida (adimensional).
El coeficiente de variación es una medida adimensional de la dispersión relativa
de los datos que se obtiene dividiendo la desviación típica por la media. Si se
multiplica por 100, podrá interpretarse como el porcentaje de variabilidad de los
datos para los que se calcula. Trabajando con los datos del ejemplo se tendrá
que:
Donde se pone de manifiesto que el porcentaje de variabilidad observada en la

variable número de hijos (92,3%) es mucho mayor que la correspondiente a la
edad (17,5%). Si se trabaja con los datos del ejemplo 1-3, se obtendrá:
Percentiles o cuantiles.-
Los percentiles o cuantiles son valores de la variable no superados por un

determinado porcentaje de observaciones o datos (equivalentemente, también
puede definirse como el valor superado por el resto). Así, el percentil de orden k
para un conjunto de datos será el valor de la variable no superado por el k% de las
observaciones.
Si se trabaja con los datos del ejemplo ya utilizado anteriormente, los percentiles
de orden 30 y 70 serán los valores de peso no superados por el 30 y 70% de las
observaciones. Téngase en cuenta que, bajo esta perspectiva, la mediana es un
caso particular en el ámbito de los percentiles, puesto que coincide con el percentil
de orden 50. Para calcular los percentiles será necesario, en primer lugar, ordenar
los datos de menor a mayor:
54, 55, 64, 64, 69, 71, 73, 74, 75, 75, 76, 78, 80, 82, 90
A continuación, de forma similar al caso de la mediana, se calculará el rango del

percentil correspondiente. Para los percentiles de orden 30 y 70 quedará:
Luego el percentil p30 será el dato que ocupa la posición 4,8 (será, por tanto, un
valor entre el dato que ocupa la posición 4 y el dato que ocupa la posición 5), y el
percentil p70, el dato que ocupa la posición 11,2 (será un valor entre el dato que
ocupa la posición 11 y el que ocupa la posición 12). Será necesario calcular una
media ponderada para obtener el valor final de la siguiente forma:
Donde f es la parte fraccionaria del rango del percentil correspondiente.
MEDIDAS DE FORMA
Las medidas de forma proporcionan información sobre el comportamiento de los

datos correspondientes a una variable atendiendo a la simetría o el apuntamiento
de la distribución de los mismos.
Coeficiente de asimetría (As).-
Una primera aproximación sencilla al estudio de la simetría de la distribución de

los datos consiste en comparar la media y la mediana. Si están muy próximas, la
distribución será aproximadamente simétrica. Si, por el contrario, la media es
significativamente mayor que la mediana o significativamente menor, la
distribución será asimétrica por la derecha o por la izquierda. El coeficiente de
asimetría es una medida más sofisticada para el estudio de la simetría y se calcula
de la siguiente forma:
Si el valor del coeficiente As está cerca de cero, la distribución de los datos será
aproximadamente simétrica. Si el valor del coeficiente As es superior a cero, la
distribución será asimétrica por la derecha, mientras que si es inferior a cero será
asimétrica por la izquierda. En el ejemplo puede observarse que el valor del
coeficiente de asimetría es −0,33, valor muy próximo a 0, por lo que la distribución
será aproximadamente simétrica o muy ligeramente asimétrica por la izquierda.
TEMA 5
ANÁLISIS CUALITATIVOS
INDICADORES EN SALUD
Son expresiones estadísticas que intentan cuantificar, en forma indirecta o

parcial, u n fenómeno complejo.
Los indicadores responden a la necesidad de expresar cuantitativamente las

variables que son objeto de estudio. Son variables que tienen como objetivo
principal medir una situación determinada o sus cambios de manera directa o
indirecta. Por ello la variable debe ser conceptualizada y definida
operacionalmente, de manera que puedan establecerse sus componentes o
dimensiones cuya intensidad desea medirse por medio del indicador. Ejemplo:
el riesgo de morir antes de cumplir un año de vida que comprende el concepto de
“mortalidad infantil“, puede medirse mediante el indicador muertes de menores de
1 año por cada 1000 nacidos vivos.
Objetivo de la utilización de Indicadores numéricos en salud. Son medidas

necesarias para:
 Describir la situación actual de salud.

 Diagnosticar las necesidades de atención.
 Explicar la magnitud y características de la demanda.
 Establecer prioridades y asignación de recursos.
 Identificar grupos poblacionales de riesgo y factores de riesgo (rural y
urbano; obreros y empleados; analfabetos y alfabetos; con previsión y sin
previsión).
 Planificar los programas y actividades de salud.
 Evaluar la atención médica (eficacia de la atención, capacidad resolutiva,
eficiencia).
 Medir los cambios o tendencias que se producen a lo largo de tiempo (conocer
las variaciones de la demanda, las modificaciones que es posible esperar
en el futuro).
CIFRAS ABSOLUTAS:
La forma más simple por medio de la cual se pueden establecer medidas

poblacionales es con la enumeración simple. Las estadísticas que resultan de las
tabulaciones de diferentes tipos de datos (nacimientos, defunciones, casos de
enfermedad, consultas, egresos hospitalarios, etc.) proporcionan números absolutos
que son muchas veces utilizables directamente en Salud Pública.
Expresan:
 E l número de veces que ocurre un fenómeno.

 Indican el valor real, por ejemplo, el número de consultas otorgadas en un
consultorio externo permite al administrador en salud estimar la cantidad
de recursos necesarios para dar una atención suficiente; el número de
nacimientos es un dato valioso para programas de atención materno-infantil;
el número de egresos de un hospital muestra el volumen de hospitalizaciones.
Permiten calcular:
 Demanda: Vacunas, muertes, nacimientos, consultas.

 Costos: Estimar presupuesto.
 Rendimiento: atención de pacientes por hora.
 Recursos: Cantidad necesaria para entregar atención suficiente (número de
camas, personal).
No obstante, los datos absolutos carecen de valor práctico cuando se pretende

establecer comparaciones entre diferentes grupos poblacionales, o entre distintos
países, cuyos tamaños poblacionales son muy distintos. En este caso son las
medidas o frecuencias relativas las que tienen una mayor utilidad. Bajo esta
denominación se incluyen las tasas, proporciones, porcentajes y simples razones.
Las frecuencias relativas tienen la ventaja de facilitar la presentación de las
relaciones que existen entre dos o más datos y hacer más sencilla la comparación
de resultados.
Al efectuar comparaciones, el uso de cifras absolutas tiene limitaciones, puesto

que no aluden a la población de la cual se obtienen (así, 40 defunciones anuales
en una población de 15.000 habitantes, puede ser proporcionalmente mayor que
50, ocurridas en una población de 20.000 habitantes). Sin embargo, la
comparación de cifras absolutas referidas a la misma población en periodos
cortos de tiempo puede ser un buen estimador de riesgo al mantenerse
constante el denominador.
Un rasgo característico de la contrastación en los estudios epidemiológicos es

que las relaciones causales postuladas entre las variables se traducen en
términos probabilísticos. Es decir, se trata de establecer si la mayor o menor
probabilidad de que un evento ocurra se debe precisamente a los factores que se
sospecha intervienen en su génesis y no al azar.
Para cumplir con este objetivo, la investigación epidemiológica se basa en la

construcción de tres tipos de medidas:
a) De frecuencia;
b) De asociación o efecto, y
c) De impacto potencial.
La construcción de estas medidas se realiza por medio de operaciones aritméticas

simples y de los instrumentos matemáticos conocidos como razones, proporciones
y tasas.
Antes de abordar las medidas utilizadas en los estudios epidemiológicos

repasaremos brevemente estos tres conceptos.
PROPORCIONES:
Las proporciones son medidas que expresan la frecuencia con la que ocurre un
evento en relación con la población total en la cual éste puede ocurrir. Esta
medida se calcula dividiendo el número de eventos ocurridos entre la población en
la que ocurrieron.
Como cada elemento de la población puede contribuir únicamente con un evento

es lógico que al ser el numerador (el volumen de eventos) una parte del
denominador (población en la que se presentaron los eventos) aquel nunca pueda
ser más grande que éste.
Esta es la razón por la que el resultado nunca pueda ser mayor que la unidad y
oscile siempre entre cero y uno.
Por ejemplo, si en un año se presentan tres muertes en una población compuesta

por 100 personas, la proporción anual de muertes en esa población será:
3 muertes
p= = 0.03
100 personas
A menudo las proporciones se expresan en forma de porcentaje, y en tal caso los

resultados oscilan entre cero y 100. En el ejemplo anterior, la proporción anual de
muertes en la población sería de 3 por 100, o de 3%. Nótese, asimismo, que el
denominador no incluye el tiempo. Las proporciones expresan únicamente la
relación que existe entre el número de veces en las que se presenta un evento y el
número total de ocasiones en las que se pudo presentar.
TASAS:
Las tasas expresan la dinámica de un suceso en una población a lo largo del

tiempo. Se pueden definir como la magnitud del cambio de una variable
(enfermedad o muerte) por unidad de cambio de otra (usualmente el tiempo) en
relación con el tamaño de la población que se encuentra en riesgo de
experimentar el suceso.
En las tasas, el numerador expresa el número de eventos acaecidos durante un
periodo en un número determinado de sujetos observados.
A diferencia de una proporción el denominador de una tasa no expresa el número

de sujetos en observación sino el tiempo durante el cual tales sujetos estuvieron
en riesgo de sufrir el evento. La unidad de medida empleada se conoce como
tiempo-persona de seguimiento. Por ejemplo, la observación de 100 individuos
libres del evento durante un año corresponde a 100 años-persona de seguimiento;
de manera similar, 10 sujetos observados durante diez años corresponden a 100
años-persona.
Dado que el periodo entre el inicio de la observación y el momento en que aparece

un evento puede variar de un individuo a otro, el denominador de la tasa se estima
a partir de la suma de los periodos de todos los individuos. Las unidades de
tiempo pueden ser horas, días, meses o años, dependiendo de la naturaleza del
evento que se estudia.
El cálculo de tasas se realiza dividiendo el total de eventos ocurridos en un

periodo dado en una población entre el tiempo-persona total (es decir, la suma de
los periodos individuales libres de la enfermedad) en el que los sujetos estuvieron
en riesgo de presentar el evento. Las tasas se expresan multiplicando el resultado
obtenido por una potencia de 10, con el fin de permitir rápidamente su
comparación con otras tasas.
número de eventos ocurridos en

una población en un periodo de 𝑡
Tasa = (𝑥 10𝑛)
sumatoria de los periodos durante
los cuales los sujetos de la población libres
del evento estuvieron expuestos al riesgo
de presentarlo en el mismo periodo
RAZONES:
Las razones pueden definirse como magnitudes que expresan la relación

aritmética existente entre dos eventos en una misma población, o un solo evento
en dos poblaciones. En el primer caso, un ejemplo es la razón de residencia
hombre: mujer en una misma población. Si en una localidad residen 5000 hombres
y 4000 mujeres se dice que, en ese lugar, la razón de residencia hombre/mujer es
de 1:0.8 (se lee 1 a 0.8), lo que significa que por cada hombre residen ahí 0.8
mujeres. Esta cantidad se obtiene como sigue:
4000
razón hombre: mujer = = 0.8
5000
En este caso, también se podría decir que la razón hombre/mujer es de 10:8, pues
esta expresión aritmética es igual a la primera (1:0.8).
En el segundo ejemplo se encuentran casos como la razón de tasas de mortalidad

por causa específica (por ejemplo, por diarreas) en dos comunidades. En este
caso, la razón expresaría la relación cuantitativa que existe entre la tasa de
mortalidad secundaria a diarreas registrada en la primera ciudad y la tasa de
mortalidad secundaria a diarreas registrada en la segunda. La razón obtenida
expresa la magnitud relativa con la que se presenta este evento en cada
población. Si la tasa de mortalidad por diarreas en la primera ciudad es de 50 por
1000 y en la segunda de 25 por 1000 la razón de tasas entre ambas ciudades
sería:
𝑡𝑎𝑠𝑎 𝑑𝑒 𝑚𝑜𝑟𝑡𝑎𝑙𝑖𝑑𝑎𝑑 𝑒𝑛 𝑙𝑎 𝑐𝑖𝑢𝑑𝑎𝑑 𝐵 50 𝑥 1000

𝑅𝑇𝑀 = = = 2.0
𝑡𝑎𝑠𝑎 𝑑𝑒 𝑚𝑜𝑟𝑡𝑎𝑙𝑖𝑑𝑎𝑑 𝑒𝑛 𝑙𝑎 𝑐𝑖𝑢𝑑𝑎𝑑 𝐴 25 𝑥 1000
Donde RTM es la razón de tasas de mortalidad (en este caso, por diarreas) entre
las ciudades A y B. El resultado se expresa como una razón de 1:2, lo que
significa que por cada caso en la ciudad A hay 2 en la ciudad B.
MEDIDAS DE FRECUENCIA:
El paso inicial de toda investigación epidemiológica es medir la frecuencia de los

eventos de salud con el fin de hacer comparaciones entre distintas poblaciones o
en la misma población a través del tiempo. No obstante, dado que el número
absoluto de eventos depende en gran medida del tamaño de la población en la
que se investiga, estas comparaciones no se pueden realizar utilizando cifras de
frecuencia absoluta (o número absoluto de eventos).
Por ejemplo, si en dos diferentes poblaciones se presentan 100 y 200 casos de

cáncer cervicouterino, respectivamente, se podría pensar que en el segundo grupo
la magnitud del problema es del doble que en el primero. Sin embargo, esta
interpretación sería incorrecta si el segundo grupo tuviera el doble de tamaño que
el primero, ya que la diferencia en el número de casos podría deberse
simplemente al mayor tamaño de la segunda población y no a la presencia de un
factor de riesgo extraordinario. Aunque la frecuencia absoluta cambie la magnitud
del problema puede ser la misma.
En consecuencia, para comparar adecuadamente la frecuencia de los eventos de

salud es necesario construir una medida que sea independiente del tamaño de la
población en la que se realiza la medición. Este tipo de medidas, denominadas
medidas de frecuencia relativa, se obtiene, en general, relacionando el número de
casos (numerador) con el número total de individuos que componen la población
(denominador). El cálculo correcto de estas medidas requiere que se especifique
claramente qué constituye el numerador y el denominador. Es evidente, por
ejemplo, que los varones no deben ser incluidos en el denominador durante el
cálculo de la frecuencia relativa de carcinoma del cérvix.
La parte de la población que es susceptible a una enfermedad se denomina
población en riesgo. Así, por ejemplo, los accidentes laborales sólo afectan a las
personas que trabajan, por lo que la población en riesgo es la población
trabajadora. Si, en cambio, queremos investigar el efecto de un contaminante
generado por una fábrica podríamos ampliar el denominador a toda la población
expuesta al mismo, sea o no trabajadora.
Las medidas de frecuencia más usadas en epidemiología se refieren a la medición

de la mortalidad o la morbilidad en una población. La mortalidad es útil para
estudiar enfermedades que provocan la muerte, especialmente cuando su
letalidad es importante. Empero, cuando la letalidad es baja y, en consecuencia, la
frecuencia con la que se presenta una enfermedad no puede analizarse
adecuadamente con los datos de mortalidad, la morbilidad se convierte en la
medida epidemiológica de mayor importancia.
En ocasiones, la morbilidad también puede servir para explicar las tendencias de

la mortalidad, ya que los cambios en la mortalidad pueden ser secundarios a
cambios ocurridos antes en la morbilidad o, por el contrario, las tendencias en la
mortalidad pueden explicar los cambios en los patrones de morbilidad cuando, por
ejemplo, la disminución en la mortalidad infantil explica los aumentos aparentes en
el volumen de enfermedades en otras edades. Por ambas razones, el análisis de
las condiciones de salud de las poblaciones se basa siempre en los cambios
observados en las medidas de mortalidad y morbilidad.
Las principales fuentes de información de morbilidad son los datos hospitalarios y

los registros de enfermedad. Sin embargo, debido a las limitaciones de estos
registros, los estudios epidemiológicos se basan en información obtenida mediante
métodos de detección especialmente diseñados para ello. A continuación se
presenta un resumen de los elementos más importantes de las medidas de
mortalidad y morbilidad.
1.- MEDIDAS DE MORTALIDAD:
El concepto de mortalidad expresa la magnitud con la que se presenta la muerte

en una población en un momento determinado. A diferencia de los conceptos de
muerte y defunción que reflejan la pérdida de la vida biológica individual, la
mortalidad es una categoría de naturaleza estrictamente poblacional. En
consecuencia, la mortalidad expresa la dinámica de las muertes acaecidas en las
poblaciones a través del tiempo y el espacio, y sólo permite comparaciones en
este nivel de análisis. La mortalidad puede estimarse para todos o algunos grupos
de edad, para uno o ambos sexos y para una, varias o todas las enfermedades. La
mortalidad se clasifica de la siguiente manera:
a) General.
b) Específica.
Mortalidad general.-
La mortalidad general es el volumen de muertes ocurridas por todas las causas de
enfermedad, en todos los grupos de edad y para ambos sexos. La mortalidad
general, que comúnmente se expresa en forma de tasa, puede ser cruda o
ajustada, de acuerdo con el tratamiento estadístico que reciba.
La mortalidad cruda expresa la relación que existe entre el volumen de muertes

ocurridas en un periodo dado y el tamaño de la población en la que éstas se
presentaron; la mortalidad ajustada (o estandarizada) expresa esta relación pero
considera las posibles diferencias en la estructura por edad, sexo, etcétera, de las
poblaciones analizadas, lo que permite hacer comparaciones entre éstas. En este
caso, las tasas se reportan como tasas ajustadas o estandarizadas. La tasa cruda
de mortalidad se calcula de acuerdo con la siguiente fórmula:
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑚𝑢𝑒𝑟𝑡𝑒𝑠 𝑒𝑛
𝑒𝑙 𝑝𝑒𝑟𝑖𝑜𝑑𝑜 𝑡
Tasa de mortalidad general = (𝑥10𝑛)
𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜
𝑒𝑛 𝑒𝑙 𝑚𝑖𝑠𝑚𝑜 𝑝𝑒𝑟𝑖𝑜𝑑𝑜
Mortalidad específica.-
Cuando existen razones para suponer que la mortalidad puede variar entre los
distintos subgrupos de la población ésta se divide para su estudio. Cada una de
las medidas obtenidas de esta manera adopta su nombre según la fracción
poblacional que se reporte. Por ejemplo, si las tasas de mortalidad se calculan
para los diferentes grupos de edad, serán denominadas tasas de mortalidad por
edad. De la misma manera pueden calcularse la mortalidad por sexo, por causa
específica, etcétera.
En algunos casos pueden calcularse combinaciones de varias fracciones

poblacionales, y cuando es así, se especifican los grupos considerados (por
ejemplo, mortalidad femenina en edad reproductiva). Las tasas de mortalidad
específica por edad y sexo se calculan de la siguiente forma:
𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑚𝑢𝑒𝑟𝑡𝑒𝑠 𝑒𝑛 𝑢𝑛 𝑔𝑟𝑢𝑝𝑜 𝑑𝑒 𝑒𝑑𝑎𝑑

𝑦 𝑠𝑒𝑥𝑜 𝑒𝑠𝑝𝑒𝑐í𝑓𝑖𝑐𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑑𝑢𝑟𝑎𝑛𝑡𝑒
𝑢𝑛 𝑝𝑒𝑟𝑖𝑜𝑑𝑜 𝑑𝑎𝑑𝑜
TME = = (𝑥 10𝑛)
población total estimada del mismo grupo
𝑑𝑒 𝑒𝑑𝑎𝑑 𝑦 𝑠𝑒𝑥𝑜 𝑒𝑛 𝑒𝑙 𝑚𝑖𝑠𝑚𝑜 𝑝𝑒𝑟𝑖𝑜𝑑𝑜
Donde TME es la tasa de mortalidad específica para esa edad y sexo.
Tasa de letalidad.-
La letalidad es una medida de la gravedad de una enfermedad considerada desde

el punto de vista poblacional, y se define como la proporción de casos de una
enfermedad que resultan mortales con respecto al total de casos en un periodo
especificado. La medida indica la importancia de la enfermedad en términos de su
capacidad para producir la muerte y se calcula de la manera siguiente:
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑚𝑢𝑒𝑟𝑡𝑒𝑠 𝑝𝑜𝑟 𝑢𝑛𝑎 𝑒𝑛𝑓𝑒𝑟𝑚𝑒𝑑𝑎𝑑

𝑒𝑛 𝑢𝑛 𝑝𝑒𝑟𝑖𝑜𝑑𝑜 𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑑𝑜
Letalidad (%) = = 0.03
número de casos diagnósticados de
𝑙𝑎 𝑚𝑖𝑠𝑚𝑎 𝑒𝑛𝑓𝑒𝑟𝑚𝑒𝑑𝑎𝑑 𝑒𝑛 𝑒𝑙 𝑚𝑖𝑠𝑚𝑜 𝑝𝑒𝑟𝑖𝑜𝑑𝑜
La letalidad, en sentido estricto, es una proporción ya que expresa el número de

defunciones entre el número de casos del cual las defunciones forman parte. No
obstante, generalmente se expresa como tasa de letalidad y se reporta como el
porcentaje de muertes de una causa específica con respecto al total de enfermos
de esa causa.
2.- MEDIDAS DE MORBILIDAD:
La enfermedad puede medirse en términos de prevalencia o de incidencia. La

prevalencia se refiere al número de individuos que, en relación con la población
total, padecen una enfermedad determinada en un momento específico. Debido a
que un individuo sólo puede encontrarse sano o enfermo con respecto a cualquier
enfermedad, la prevalencia representa la probabilidad de que un individuo sea un
caso de dicha enfermedad en un momento específico. La incidencia, por su parte,
expresa el volumen de casos nuevos que aparecen en un periodo determinado,
así como la velocidad con la que lo hacen; es decir, expresa la probabilidad y la
velocidad con la que los individuos de una población determinada desarrollarán
una enfermedad durante cierto periodo.
Prevalencia.-
La prevalencia es una proporción que indica la frecuencia de un evento. En

general, se define como la proporción de la población que padece la enfermedad
en estudio en un momento dado, y se denomina únicamente como prevalencia (p).
Como todas las proporciones, no tiene dimensiones y nunca puede tomar valores
menores de 0 o mayores de 1. A menudo, se expresa como casos por 1000 o por
100 habitantes.
En la construcción de esta medida no siempre se conoce en forma precisa la

población expuesta al riesgo y, por lo general, se utiliza sólo una aproximación de
la población total del área estudiada. Si los datos se han recogido en un momento
o punto temporal dado, p es llamada prevalencia puntual.
 Prevalencia puntual.- La prevalencia puntual es la probabilidad de un

individuo de una población de ser un caso en el momento t, y se calcula de
la siguiente manera:
𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑒𝑥𝑖𝑠𝑡𝑒𝑛𝑡𝑒𝑠 𝑎𝑙 𝑚𝑜𝑚𝑒𝑛𝑡𝑜 𝑡
𝑝= (𝑥 10𝑛)
𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛 𝑒𝑙 𝑚𝑜𝑚𝑒𝑛𝑡𝑜 𝑡
La prevalencia de una enfermedad aumenta como consecuencia de una

mayor duración de la enfermedad, la prolongación de la vida de los
pacientes sin que éstos se curen, el aumento de casos nuevos, la
inmigración de casos (o de susceptibles), la emigración de sanos y la
mejoría de las posibilidades diagnósticas.
La prevalencia de una enfermedad, por su parte, disminuye cuando es
menor la duración de la enfermedad, existe una elevada tasa de letalidad,
disminuyen los casos nuevos, hay inmigración de personas sanas,
emigración de casos y aumento de la tasa de curación. En resumen, la
prevalencia de una enfermedad depende de la incidencia y de la duración
de la enfermedad.
Dado que la prevalencia depende de tantos factores no relacionados
directamente con la causa de la enfermedad, los estudios de prevalencia no
proporcionan pruebas claras de causalidad aunque a veces puedan
sugerirla. Sin embargo, son útiles para valorar la necesidad de asistencia
sanitaria, planificar los servicios de salud o estimar las necesidades
asistenciales.
Anteriormente era común el cálculo de la llamada prevalencia de periodo (o
lápsica), que buscaba identificar el número total de personas que
presentaban la enfermedad o atributo a lo largo de un periodo determinado.
No obstante, debido a las confusiones que origina, esta medida es cada vez
menos empleada, y en materia de investigación es mejor no utilizarla.
Incidencia.-
En los estudios epidemiológicos en los que el propósito es la investigación causal

o la evaluación de medidas preventivas, el interés está dirigido a la medición del
flujo que se establece entre la salud y la enfermedad, es decir, a la aparición de
casos nuevos. Como ya se mencionó anteriormente, la medida epidemiológica
que mejor expresa este cambio de estado es la incidencia, la cual indica la
frecuencia con que ocurren nuevos eventos. A diferencia de los estudios de
prevalencia, los estudios de incidencia inician con poblaciones de susceptibles
libres del evento en las cuales se observa la presentación de casos nuevos a lo
largo de un periodo de seguimiento. De esta manera, los resultados no sólo
indican el volumen final de casos nuevos aparecidos durante el seguimiento sino
que permiten establecer relaciones de causa-efecto entre determinadas
características de la población y enfermedades específicas. La incidencia de una
enfermedad puede medirse de dos formas:
 Mediante la tasa de incidencia (basada en el tiempo-persona).

 Mediante la incidencia acumulada (basada en el número de personas en
riesgo).
La tasa de incidencia (también denominada densidad de incidencia) expresa la
ocurrencia de la enfermedad entre la población en relación con unidades de
tiempo-persona, por lo que mide la velocidad de ocurrencia de la enfermedad. La
incidencia acumulada, en cambio, expresa únicamente el volumen de casos
nuevos ocurridos en una población durante un periodo, y mide la probabilidad de
que un individuo desarrolle el evento en estudio. La incidencia acumulada, por
esta razón, también es denominada riesgo.
Tasa de incidencia o densidad de incidencia: La tasa de incidencia (TI) es la

principal medida de frecuencia de enfermedad y se define como “el potencial
instantáneo de cambio en el estado de salud por unidad de tiempo, durante un
periodo específico, en relación con el tamaño de la población susceptible en el
mismo periodo”. Para que una persona se considere expuesta al riesgo en el
periodo de observación debe iniciar éste sin tener la enfermedad (el evento en
estudio).
El cálculo del denominador de la TI se realiza sumando los tiempos libres de

enfermedad de cada uno de los individuos que conforman el grupo y que
permanecen en el estudio durante el periodo. Este número se mide generalmente
en años, pero pueden ser meses, semanas o días, y se conoce como tiempo en
riesgo o tiempo-persona.
El número de individuos que pasan del estado sano al estado enfermo durante
cualquier periodo depende de tres factores:
a) del tamaño de la población,

b) de la amplitud del periodo de tiempo, y
c) del poder patógeno de la enfermedad sobre la población.
La tasa de incidencia mide este poder, y se obtiene dividiendo el número

observado de casos entre el tiempo total en el que la población ha estado en
riesgo, equivalente a la sumatoria de los periodos individuales en riesgo. Al sumar
periodos de observación que pueden variar de uno a otro individuo y considerar
sólo el tiempo total en riesgo la TI corrige el efecto de entrada y salida de
individuos al grupo durante el periodo de seguimiento.
A menudo no es posible calcular exactamente la duración del tiempo-persona para

los individuos que ya no están en riesgo, debido a que desarrollaron la
enfermedad. No obstante, para este grupo el valor total del tiempo-persona en
riesgo puede estimarse de manera aproximada –y generalmente satisfactoria–
multiplicando el tamaño medio de la población por la duración del periodo de
observación.
La TI no es una proporción –como la prevalencia y la incidencia acumulada– dado

que el denominador expresa unidades de tiempo y, en consecuencia, mide casos
por unidad de tiempo. Esto hace que la magnitud de la TI no pueda ser inferior a
cero ni tenga límite superior. La fórmula general para el cálculo de la TI es la
siguiente:
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑛𝑢𝑒𝑣𝑜𝑠

Tasa de incidencia = = 0.03
𝑠𝑢𝑚𝑎 𝑑𝑒 𝑡𝑜𝑑𝑜𝑠 𝑙𝑜𝑠 𝑝𝑒𝑟𝑖𝑜𝑑𝑜𝑠 𝑙𝑖𝑏𝑟𝑒𝑠
𝑑𝑒 𝑙𝑎 𝑒𝑛𝑓𝑒𝑟𝑚𝑒𝑑𝑎𝑑 𝑑𝑢𝑟𝑎𝑛𝑡𝑒 𝑒𝑙 𝑝𝑒𝑟𝑖𝑜𝑑𝑜
𝑑𝑒𝑓𝑖𝑛𝑖𝑑𝑜 𝑒𝑛 𝑒𝑙 𝑒𝑠𝑡𝑢𝑑𝑖𝑜 (𝑡𝑖𝑒𝑚𝑝𝑜 − 𝑝𝑒𝑟𝑠𝑜𝑛𝑎)
Incidencia acumulada: La incidencia acumulada (IA) se puede definir como la

probabilidad de desarrollar el evento, es decir, la proporción de individuos de una
población que, en teoría, desarrollarían una enfermedad si todos sus miembros
fuesen susceptibles a ella y ninguno falleciese a causa de otras enfermedades.
También se ha definido simplemente como la probabilidad, o riesgo medio de los
miembros de una población, de contraer una enfermedad en un periodo
específico.
Las cifras obtenidas mediante el cálculo de la IA son relativamente fáciles de

interpretar y proporcionan una medida sumamente útil para comparar los
diferentes riesgos de distintas poblaciones. Para calcular la IA en el numerador se
coloca el número de personas que desarrollan la enfermedad durante el periodo
de estudio (llamados casos nuevos) y en el denominador el número de individuos
libres de la enfermedad al comienzo del periodo y que, por tanto, estaban en
riesgo de padecerla. La incidencia acumulada es una proporción y, por lo tanto,
sus valores sólo pueden variar entre 0 y 1. A diferencia de la tasa de incidencia la
IA es adimensional. Su fórmula es la siguiente:
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑝𝑒𝑟𝑠𝑜𝑛𝑎𝑠 𝑞𝑢𝑒 𝑐𝑜𝑛𝑡𝑟𝑎𝑒𝑛 𝑙𝑎 𝑒𝑛𝑓𝑒𝑟𝑚𝑒𝑑𝑎𝑑

𝑒𝑛 𝑢𝑛 𝑝𝑒𝑟𝑖𝑜𝑑𝑜 𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑑𝑜
IA = = 0.03
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑝𝑒𝑟𝑠𝑜𝑛𝑎𝑠 𝑙𝑖𝑏𝑟𝑒𝑠 𝑑𝑒 𝑙𝑎 𝑒𝑛𝑓𝑒𝑟𝑚𝑒𝑑𝑎𝑑 𝑒𝑛 𝑙𝑎
𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑥𝑝𝑢𝑒𝑠𝑡𝑎 𝑎𝑙 𝑟𝑖𝑒𝑠𝑔𝑜 𝑒𝑛 𝑒𝑙 𝑖𝑛𝑖𝑐𝑖𝑜 𝑑𝑒𝑙 𝑒𝑠𝑡𝑢𝑑𝑖𝑜
Como la duración del periodo de observación influye directamente sobre la IA su

amplitud debe considerarse siempre que se interprete esta medida. Cuando los
miembros de una población tienen diferentes periodos bajo riesgo –debido a que
se incorporan o abandonan el grupo a lo largo del periodo de seguimiento– la IA
no puede calcularse directamente.
TEMA 6
ESTADÍSTICA DEMOGRÁFICA
En América Latina y el Caribe, los temas de población han sido objeto de debate y
acción pública, así como de investigación científica sistemática desde hace varias
décadas. Los resultados de esta preocupación colectiva son alentadores. El
descenso sostenido de la mortalidad y de la fecundidad significa un progreso en el
cumplimiento de derechos humanos y un mejoramiento de las condiciones para
los proyectos personales. Por su parte, la caída del ritmo de crecimiento de la
población ha atenuado una fuente importante de presión sobre los ecosistemas y
los recursos públicos.
Tener una visión autocomplaciente y suponer que los temas de población pierden
relevancia sería equivocado. Primero, porque aún varios países y grupos
importantes de población en toda la región presentan grandes rezagos en materia
de control de la mortalidad y de la fecundidad no deseada; casi sin excepción se
trata de los países y los segmentos más pobres, por lo cual sus patrones
demográficos operan como una desventaja adicional a las muchas que tienen.
Segundo, porque la demanda por servicios de calidad para continuar
disminuyendo la mortalidad y lograr que las parejas tengan los hijos que desean,
seguirá aumentando en el futuro. Y tercero, porque contrariamente a la idea de
que los asuntos de población pierden relevancia con la reducción de la mortalidad
y la fecundidad, la evidencia disponible sugiere que la mantienen, la complejizan o
la aumentan, aunque por razones diferentes a las del pasado.
FUENTES DE DATOS DEMOGRÁFICOS:
La información demográfica puede clasificarse de acuerdo con el objetivo básico

para la cual fue recolectada. Un dato demográfico se le llama primario si su
recolección se llevó a cabo para satisfacer las necesidades u objetivos de una
investigación concreta. Mientras que a un dato demográfico se le denomina
secundario si es utilizado en una investigación sin haber sido recolectado en el
contexto de la misma. Esta distinción es relativa pues un mismo dato puede ser
primario para ciertas investigaciones y secundario para otras. La importancia de
esta clasificación radica en la vinculación entre los datos y la investigación.
 Datos primarios: Tienen vínculo directo entre investigación y recolección

 Datos secundario: No existe vínculo entre su uso y el proceso de
recolección
Una segunda clasificación de la información, discrimina entre los datos directos y

los datos indirectos.
 Datos directos: Se recolectan de una manera simple, no existen mayores
supuestos en el proceso de recolección.
 Datos indirectos: Son obtenidos por medio de operaciones matemáticas y
su aplicación requiere de fuertes supuestos.
Finalmente, los datos demográficos se pueden clasificar como brutos, corregidos o

refinados.
 Datos brutos: Son aquellos que se representan sin desagregaciones,

ajustes o correcciones.
 Datos corregidos: Son los que se han sometido a técnicas matemáticas
que permiten suavizar su comportamiento y ajustarlos a patrones lógicos.
 Datos refinados: Son aquellos datos que han sido previamente tratados
con la intención de mostrar una idea precisa de lo que se pretende
analizar.
La mayoría de información que se utiliza para los análisis demográficos proviene

de tres fuentes básicas: Los censos, las estadísticas vitales y las encuestas
demográficas.
1.- Los censos de población: Esta es una de las estrategias de recolección de

información más antiguas. Según se ha investigado, existen registros de la
realización de técnicas similares desde los 3000 años AC. Los censos modernos
emergen lentamente en Europa alrededor del siglo XVII. Según las Naciones
Unidas, un censo se define como "Un conjunto de operaciones que consiste en
reunir, elaborar y publicar datos demográficos, económicos y sociales,
correspondientes a todos los habitantes de un país o territorio definido y referido a
un momento determinado o a ciertos períodos de tiempo dados".
El censo de población constituye una actividad estadística de gran utilidad para el

país o territorio. Es la principal fuente de datos básicos sobre población,
necesarios para el adecuado funcionamiento de la gestión socioeconómica y
política de un pueblo.
Errores censales:
En el caso de los censos los errores de cobertura se relacionan con la sub o

sobre-enumeración de personas. Estos errores se deben a la omisión o a la
duplicidad de información para ciertas personas en el momento de la enumeración
respectivamente. Pueden originarse por deficiencias del trabajo cartográfico,
errores de los enumeradores o de los supervisores. En algunas ocasiones se
presenta la omisión completa de un área geográfica, lo cual se debe a problemas
de accesibilidad, clima o error cartográfico.
Los errores de contenido afectan prácticamente a todas las personas y se pueden
presentar en diversas etapas. Pueden ser debidos a defectos en la confección de
la boleta, por ineficiencia del enumerador o por desconocimiento del
entrevistado. También puede producirse por errores en el proceso de codificación
o digitación de la información. Los errores comunes de contenido son:
 Declaración de la edad, existe sobre-representación de algunas edades y

sub-representatibidad de otras.
 Número de hijos tenidos, fundamentalmente cuando algunos de ellos han
fallecido.
 Problemas con las respuestas sobre la actividad económica.
2.- Los registros vitales: Ciertos sucesos o hechos que le ocurren a la población
o un segmento de ella pueden ser registrados conforme van ocurriendo,
señalando el momento y lugar donde sucedió. Los registros de esta información
son una fuente valiosa para los estudios demográficos. El más importante sistema
de registros para estos análisis es el registro civil, su misión consiste en registrar
los eventos vitales de una localidad o país en forma continua y permanente. Sin
embargo; además del registro civil existen otros registros tales como: registros
educativos, registros de población, registros de seguridad social, etc.
Los registros civiles constituyen la fuente de las estadísticas vitales. Su historia, al

igual que el censo, se remonta a épocas muy antiguas. En un principio estuvo a
cargo de la Iglesia, pero en un período reciente (a partir del siglo XIX) el Estado
comenzó a responsabilizarse por esta actividad. Actualmente la mayoría de países
cuenta con una institución que realiza esta labor y normalmente se les denomina
también Registro Civil.
Los hechos o sucesos vitales pueden ser anotadas en los registros en dos formas
diferentes:
 Según el lugar de ocurrencia del hecho

 Según el lugar de residencia de la persona objeto del hecho
Para los análisis globales del total de la población, uno u otro criterio no afectan el
estudio de las variables demográficas; sin embargo, cuando el registro de un
hecho vital se produce según el lugar de ocurrencia, dificulta los análisis internos
en las diferentes áreas geográficas de un país. Por esta razón se recomienda
utilizar, para este tipo de análisis, los registros según el lugar de residencia
habitual.
Características de las estadísticas vitales
 Universalidad: Todo individuo está en la obligación de registrar los hechos

vitales.
 Auspicio oficial: El Estado debe velar por crear las condiciones necesarias
para que los individuos puedan registrar estos eventos en forma simple.
 Continuidad: El registro de eventos vitales debe realizarse en forma
continua y permanente.
 Instantáneo: El registro de los eventos debe efectuarse inmediatamente
después de ocurridos los hechos.
Errores en los registros vitales:
 Los errores de cobertura con respecto al registro de los hechos vitales

obedecen, entre otras razones a la falta de recursos en el sistema (carencia
de personal, poca infraestructura, falta de información, etc.), carencia de
legislación, poca utilidad en el reporte del hecho e indiferencia de la
población a registrar el hecho (aspectos culturales).
 El principal problema que presentan las estadísticas vitales es el sub-
registro. Sin embargo, otro problema común es la inscripción tardía; por
diferentes razones la inscripción de un hecho se produce mucho tiempo (a
veces años) después de haber ocurrido. Los problemas con el sub-registro
tienen un inconveniente adicional, se presentan en forma diferencial entre
las distintas localidades. Las áreas rurales y las áreas de menor tamaño
son las más fuertemente impactadas por este problema, por lo que se
dificulta efectuar análisis demográficos a nivel desagregado.
 Con respecto a los errores de contenido se tienen problemas de no
repuesta en algunas preguntas, falseamiento de las respuestas (por
conveniencia), desconocimiento de respuestas, certificaciones no
especializadas (nacimientos y defunciones), etc.
3.- Las encuestas demográficas: Una técnica más reciente en el proceso de

recolección de datos demográficos, lo constituyen las encuestas por muestreo. Por
medio de las encuestas por muestreo se trata de obtener la información de una
pequeña porción (muestra) de la población que debe representar a la totalidad. La
mayoría de las veces los resultados de la muestra no interesan por si solos, sino
que son un medio para inferir o generalizar resultados hacia la población total o a
una buena parte de ella.
Tipos de encuestas demográficas:

 Prospectivas o de visitas repetidas: Registran los hechos de la muestra en
estudio en forma periódica durante algún tiempo. De este modo, un mismo
cuestionario es aplicado en forma reiterada a un mismo grupo de personas
durante el tiempo que requiera el estudio. Por medio de estas encuestas se
logran determinar los principales hechos demográficos: nacimientos,
defunciones, enfermedades, matrimonios, migración, etc.
 Retrospectivas: Un cuestionario se aplica una sola vez. Las respuestas
permiten reconstruir la historia demográfica de los individuos
entrevistados. Son muy utilizadas para estimar la mortalidad, la fecundidad
y la migración por medio de métodos directos o indirectos.
Errores en las encuestas demográficas:
En el caso de las encuestas demográficas, los errores de cobertura están

asociados con errores en el proceso de muestreo. Un marco muestral impreciso,
una estrategia defectuosa de muestreo, la falta de un planeamiento sistemático en
el proceso de recolección de información, etc.; pueden provocar graves errores en
el proceso de muestreo. Esta situación implicaría tener una muestra que no es una
fiel representación de la población y como consecuencia las generalizaciones o
inferencias que se realicen no corresponderían plenamente a la realidad.
Los errores de contenido son similares a los que se pueden presentar en los
censos. La principal ventaja en el caso de las encuestas radica en que el personal
se puede seleccionar más minuciosamente, se le puede brindar mejor
capacitación y el proceso de supervisión puede ser más eficiente. Pero
generalmente las encuestas tratan una mayor cantidad de temas que un censo y
la problemática tratada suele ser más compleja, esto generalmente redunda en
problemas con la calidad de la información obtenida.
DINÁMICAS POBLACIONALES:
Para estudiar una población debemos observar cómo se comporta en diferentes

aspectos vitales. Los más importantes y que nos permiten analizar la evolución
humana son la natalidad y la mortalidad que han variado a lo largo de la historia,
permitiendo el crecimiento de la población humana.
Para ser más exactos en nuestros análisis de las poblaciones, utilizamos

diferentes tasas que permiten un estudio más fácil de lo que se denomina
movimiento natural de la población.
La natalidad:
La natalidad es el número de nacimientos que se producen en una población en

un año. Se mide con la tasa de natalidad (TN) que representa el número de
nacimientos en una población durante un año por cada mil habitantes de ese
lugar. Se calcula multiplicando el número de nacimientos por mil y se divide por el
total de la población.
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑛𝑎𝑐𝑖𝑑𝑜𝑠 𝑣𝑖𝑣𝑜𝑠

𝑇𝑁 = 𝑥 100 ó 1000
𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛
Se considera natalidad alta cuando supera el 30%, media cuando está entre el
20% y el 30%, y baja cuando es menor del 20%.
Otra forma de medir la natalidad es la tasa de fecundidad general (TF), que es el

número de nacidos vivos en un año multiplicado por mil, y dividido entre el número
de mujeres fértiles (15 a 49 años) de dicha población en ese periodo.
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑛𝑎𝑐𝑖𝑑𝑜𝑠 𝑣𝑖𝑣𝑜𝑠

𝑇𝐹 = 𝑥 100 ó 1000
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑚𝑢𝑗𝑒𝑟𝑒𝑠 𝑓é𝑟𝑡𝑖𝑙𝑒𝑠 (15 − 49 𝑎ñ𝑜𝑠)
Los factores que afectan a la natalidad son económicos (cuanto mayor es el nivel
de vida menos hijos), biológicos (a mayor población joven, más nacimientos,
nupcialidad en edades tempranas hacen que aumente el nº de hijos), sociales
(cuanto más elevada sea la clase social y cultural disminuye el nº de hijos) e
ideológicos (existen religiones pronatalistas como el Islam o el Cristianismo y que
por tanto favorecen la natalidad; o el caso de regímenes políticos como el de
China que tienen políticas de control de la natalidad).
La mortalidad:
La mortalidad es el número de defunciones que se han producido en una

población durante un año. Para medirla se utiliza la tasa de mortalidad (TM), que
es el número de defunciones en un año por cada mil habitantes. Se calcula de la
siguiente manera:
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑒𝑓𝑢𝑛𝑐𝑖𝑜𝑛𝑒𝑠
𝑇𝑀 = 𝑥 100 ó 1000
𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛
Se considera mortalidad alta cuando supera el 15%, media entre 10% y 15%, y
baja cuando es inferior al 10%.
Existen otros datos que nos permiten perfilar mejor la demografía de un lugar y su
grado de desarrollo, así por ejemplo la esperanza de vida al nacer, que es el
número medio de años que espera que viva una persona cuando nace. Es mayor
entre las mujeres que entre los hombres, y mayor en los países desarrollados
(donde ronda los 80 años), que en los subdesarrollados (donde apenas si llega a
40). Se calcula de la siguiente forma:
𝑠𝑢𝑚𝑎 𝑑𝑒 𝑎ñ𝑜𝑠 𝑣𝑖𝑣𝑖𝑑𝑜𝑠 𝑑𝑒 𝑙𝑜𝑠 𝑚𝑖𝑒𝑚𝑏𝑟𝑜𝑠
𝐸𝑠𝑝𝑒𝑟𝑎𝑛𝑧𝑎 𝑑𝑒 𝑣𝑖𝑑𝑎 = 𝑥 100 ó 1000
𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑡𝑜𝑡𝑎𝑙
Se considera alta cuando supera los 70, media entre 60 y 70, y baja cuando no
llega a los 60.
También habría que tener en cuenta la tasa de mortalidad infantil que

representa el número de niños menores de un año fallecidos por cada mil
nacimientos producidos en ese lugar y año:
𝑑𝑒𝑓𝑢𝑛𝑐𝑖𝑜𝑛𝑒𝑠 𝑑𝑒 𝑚𝑒𝑛𝑜𝑟𝑒𝑠 𝑑𝑒 𝑢𝑛 𝑎ñ𝑜

𝑇𝑀𝐼 = 𝑥 100 ó 1000
𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑖𝑛𝑓𝑜𝑟𝑚𝑎𝑐𝑖ó𝑛
Se considera alta cuando supera el 50%, media entre el 50% y el 25%, y baja
cuando no supera el 25%.
Al igual que la natalidad, la mortalidad presenta diferencias a nivel espacial y

temporal debido a una serie de causas de tipo socioeconómicas (a mayor
desarrollo menor nivel de mortalidad), demográficas (mayor población joven da
menores tasas de mortalidad bruta), biológicas (diferencias entre los hombres y
las mujeres con un saldo negativo para los primeros).
Los movimientos de la población
Las poblaciones crecen o disminuyen a lo largo de la historia teniendo en cuenta

los propios movimientos naturales de la población, a los que hemos de sumar los
movimientos migratorios que estudiaremos en profundidad más adelante.
 El movimiento natural (MN) es el aumento o la disminución de la

población debido a factores meramente naturales como es la diferencia
entre el número de nacimientos y el de defunciones. Dicha diferencia puede
ser positiva, neutra o negativa. El balance final entre una y otra es el
crecimiento natural o vegetativo (CN= natalidad/mortalidad). Para
establecer comparaciones más exactas entre distintas poblaciones se
utiliza la tasa de crecimiento natural (TCN= CN x 1000/ nº medio de
habitantes). Son tasas altas las que superan el 20%, medias entre el 20% y
el 10%, bajas entre el 10% y el 0%, y negativas las que no superan el 0%.
 Los movimientos migratorios (MM) vienen a completar el panorama ya

que nos ayudan a estudiar los desplazamientos de la población en el
espacio. Si al movimiento natural le añadimos los movimientos migratorios
obtendremos el crecimiento real de una población, así: CR= MN +/- MM.
El saldo final puede ser positivo, neutro o negativo.
TEMA 7
TEORÍA ELEMENTAL DE LA PROBABILIDAD
EL PAPEL DE LA PROBABILIDAD EN ESTADÍSTICA
La probabilidad y la estadística están relacionadas en una forma importante. La

probabilidad se emplea como herramienta; permite que usted evalúe la
confiabilidad de sus conclusiones acerca de la población cuando tenga sólo
información muestral. Considere estas situaciones:
 Cuando lance al aire una sola moneda, verá cara (H) o cruz (T). Si lanza la
moneda varias veces al aire, va a generar un número infinitamente grande
de caras o cruces, es decir, toda la población. ¿Qué aspecto tiene esta
población? Si la moneda es imparcial, entonces la población debe contener
50% de H y 50% de T. Ahora lance al aire la moneda una vez más. ¿Cuál
es la probabilidad de que resulte una cara? Casi todos dirían que la
“probabilidad” es 1/2.
 Ahora suponga que no está usted seguro de que la moneda sea imparcial,
esto es, no sabe con certeza si la composición de la población es 50-50 y
decide hacer un experimento sencillo. Lanza al aire la moneda n- 10 veces
y observa 10 caras consecutivas. ¿Puede concluir que la moneda es
imparcial? Es probable que no, porque si así fuera, observar 10 caras en fi
la sería muy improbable; esto es, la “probabilidad” sería muy pequeña. Es
más probable que la moneda esté “cargada”.
Al igual que en el ejemplo de lanzar al aire una moneda, los expertos en

estadística usan la probabilidad en dos formas. Cuando la población es conocida,
se usa la probabilidad para describir la probabilidad de observar un resultado
muestral en particular. Cuando la población es desconocida y sólo se dispone de
una muestra de esa población, la probabilidad se usa para hacer enunciados
acerca de la composición de la población, es decir, hacer inferencias estadísticas.
Para entender los cálculos de probabilidad se debe empezar con algunos

ejemplos sencillos para ayudar a captar conceptos básicos de probabilidad.
EVENTOS Y EL ESPACIO MUESTRAL
Se obtienen datos al observar ya sea eventos no controlados en la naturaleza o

situaciones controladas en un laboratorio. Usamos el término experimento para
describir cualquiera de los dos métodos de recolección de datos.
Definición.- Un experimento es el proceso mediante el cual se obtiene una

observación (o medición).
La observación o medición generada por un experimento puede o no producir un

valor numérico. A continuación veamos algunos ejemplos de experimentos:
 Registrar la calificación de un examen.
 Medir la cantidad de lluvia diaria.
 Entrevistar a un dueño de casa para obtener su opinión sobre un
reglamento para distribuir por zonas un área verde.
 Probar una tarjeta de circuito impreso para determinar si es un producto
defectuoso o aceptable.
 Lanzar al aire una moneda y observar el lado que aparece.
Cuando se realiza un experimento, lo que observamos es un resultado llamado

evento simple, con frecuencia denotado por la mayúscula E con un subíndice.
Definición.- Un evento simple es el resultado que se observa en una sola

repetición del experimento.
Experimento: Lance un dado y observe el número que aparece en la cara

superior. Haga una lista de los eventos sencillos del experimento.
Solución Cuando el dado se lanza una vez, hay seis posibles resultados. Hay los
eventos sencillos citados a continuación:
Evento E1: observar un 1 Evento E4: observar un 4
Ahora podemos definir un evento como un conjunto de eventos sencillos, a

menudo denotado por una letra mayúscula.
Definición.- Un evento es un conjunto de eventos sencillos.
Podemos definir los eventos A y B para el experimento de lanzar al aire un dado:
A. Observar un número impar.

B. Observar un número menor a 4.
Como el evento A se presenta si la cara superior es 1, 3 o 5, es un conjunto de

tres eventos sencillos y escribimos A= {E1, E3, E5}. Del mismo modo, el evento B
ocurre si la cara superior es 1, 2 o 3 y está definido como una serie o conjunto de
estos tres eventos sencillos: B= {E1, E2, E3}.
A veces, cuando ocurre un evento, significa que no puede ocurrir otro.
Definición.- Dos eventos son mutuamente excluyentes si, cuando ocurre un

evento, los otros no pueden ocurrir y viceversa.
En el experimento de lanzar al aire un dado, los eventos A y B no son mutuamente

excluyentes, porque tienen dos resultados en común, si el número de la cara
superior del dado es 1 o 3. Ambos eventos, A y B, ocurrirán si se observa E1 o E3
cuando se realiza el experimento. En contraste, los seis eventos simples E1, E2, . .
. , E6 forman un conjunto de todos los resultados mutuamente excluyentes del
experimento. Cuando el experimento se realiza una vez, puede ocurrir uno y sólo
uno de estos eventos sencillos.
Definición.- El conjunto de todos los eventos sencillos se denomina espacio

muestral, S.
A veces es útil visualizar un experimento usando una imagen llamada diagrama

de Venn, que se ilustra en la figura. La caja exterior representa el espacio
muestral, que contiene todos los eventos sencillos, representados por puntos
marcados. Como un evento es un conjunto de uno o más eventos sencillos, los
puntos apropiados están circulados y marcados con la letra del evento. Para el
experimento de lanzar al aire un dado, el espacio muestral es S= {E1, E2, E3, E4,
E5, E6} o bien, de un modo más simple, S= {1, 2, 3, 4, 5, 6}. Los eventos A= {1, 3,
5} y B= {1, 2, 3} están circulados en el diagrama de Venn.
Diagrama de Venn para tiro de un dado
Algunos experimentos se pueden generar en etapas y el espacio muestral se

puede mostrar en un diagrama de árbol. Cada nivel de ramificación sucesivo del
árbol corresponde a un paso requerido para generar el resultado final.
Un técnico médico registra el tipo sanguíneo y factor Rh de una persona. Haga

una lista de los eventos sencillos del experimento.
Solución: Por cada persona, se hace necesario un procedimiento de dos etapas

para registrar las dos variables de interés. El diagrama de árbol se muestra en la
siguiente figura. Los ocho eventos sencillos del diagrama de árbol forman el
espacio muestral, S= {A+, A-, B+, B-, AB+, AB-, O+, O-}.
Diagrama de árbol de anterior ejemplo
Una forma alternativa para exhibir los eventos sencillos es usar una tabla de
probabilidad, como se muestra en la siguiente tabla. Los renglones y columnas
muestran los posibles resultados en las etapas primera y segunda,
respectivamente y los eventos sencillos se muestran en las celdas de la tabla.
Tabla de probabilidades
CÁLCULO DE PROBABILIDADES CON EL USO DE EVENTOS SENCILLOS
La probabilidad de un evento A es una medida de nuestra creencia de que el

evento A ocurrirá. Una manera práctica de interpretar esta medida es con el
concepto de frecuencia relativa. Recuerde que si un experimento se realiza n
veces, entonces la frecuencia relativa de un suceso particular, por ejemplo A, es:
𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎
Frecuencia relativa =
𝑛
donde la frecuencia es el número de veces que ocurrió el evento A. Si hacemos

que el número n de repeticiones del experimento se haga cada vez más grande
(n→∞), en última instancia se genera toda la población. En ésta, la frecuencia
relativa del evento A se define como la probabilidad del evento A; esto es,
𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎
𝑃(𝐴) = 𝑙𝑖𝑚 =
𝑛→∞ 𝑛
Como P(A) se comporta como una frecuencia relativa, P(A) debe ser una
proporción que se encuentre entre 0 y 1; P(A) = 0 si el evento A nunca ocurre, y
P(A) = 1 si el evento A siempre ocurre. Cuanto más cercano sea P(A) a 1, es más
probable que A ocurra.
Por ejemplo, si se lanza al aire un dado balanceado de seis caras un número de

veces infinito, se esperaría que la frecuencia relativa para cualesquiera de los seis
valores, x= 1, 2, 3, 4, 5, 6, fuera 1/6. Sobra decir que sería muy lento, si no
imposible, repetir un experimento un número infinito de veces. Por esta razón, hay
métodos alternativos para calcular probabilidades que hacen uso del concepto de
frecuencia relativa.
Una consecuencia importante de la definición de frecuencia relativa de una

probabilidad involucra a eventos sencillos. Como los eventos sencillos son
mutuamente excluyentes, sus probabilidades deben satisfacer dos condiciones.
REQUISITOS PARA PROBABILIDADES DE UN EVENTO SIMPLE
 Cada probabilidad debe estar entre 0 y 1.

 La suma de las probabilidades de todos los eventos sencillos en S debe ser
igual a 1.
Cuando es posible escribir los eventos sencillos asociados con un experimento y

determinar sus probabilidades respectivas, podemos hallar la probabilidad de un
evento A si sumamos las probabilidades de todos los eventos sencillos contenidos
en el evento A.
Definición.- La probabilidad de un evento A es igual a la suma de las

probabilidades de los eventos sencillos contenidos en A.
Las proporciones de fenotipos sanguíneos A, B, AB y O en la población de todos

los de raza caucásica en Estados Unidos se publican como .41, .10, .04 y .45,
respectivamente. Si al azar se escoge una persona de este origen étnico en la
población, ¿cuál es la probabilidad de que él o ella tengan tipo de sangre A o tipo
AB?
Solución: Los cuatro eventos sencillos, A, B, AB y O no tienen probabilidades

igualmente posibles. Sus probabilidades se encuentran usando el concepto de
frecuencia relativa como:
P(A)= .41 P(B)= .10 P(AB)= .04 P(O)= .45
El evento de interés está formado por dos eventos sencillos, de modo que:
P (la persona es tipo A o tipo AB) = P(A) + P(AB)
= .41 + .4 = .45
RELACIONES DE EVENTO Y REGLAS DE PROBABILIDAD
Hay veces en que el evento de interés se puede formar como una combinación de
algunos otros eventos. Sean A y B dos eventos definidos en el espacio muestral S.
Aquí hay tres relaciones importantes entre eventos.
Definición.- La unión de los eventos A y B, denotada por A Ս B, es el evento en

que ocurren A o B o ambos.
Definición.- La intersección de eventos A y B, denotada por A ∩ B, es el evento

en que ocurren A y B.
Definición.- El complemento de un evento A, denotado por Ac, es el evento en

que A no ocurre.
Las siguientes figuras muestran representaciones del diagrama de Venn de A Ս B,

A ∩ B y Ac, respectivamente. Cualquier evento simple en el área sombreada es un
posible resultado que aparece en el evento apropiado. Una forma de hallar las
probabilidades de la unión, la intersección o el complemento es sumar las
probabilidades de todos los eventos simples asociados.
El concepto de uniones e intersecciones se puede ampliar a más de dos eventos.
Por ejemplo, la unión de tres eventos A, B y C, que se escriben como A Ս B Ս C,
es el conjunto de eventos simples que están en A o B o C o en cualquier
combinación de esos eventos. Análogamente, la intersección de los tres eventos
A, B y C, que se escribe como A ∩ B ∩ C, es el conjunto de eventos simples que
son comunes a los tres eventos A, B y C.
Cálculo de probabilidades para uniones y complementos:
Cuando podemos escribir el evento de interés en la forma de una unión, un

complemento o una intersección, hay reglas de probabilidad especiales que
pueden simplificar nuestros cálculos. La primera regla se refiere a uniones de
eventos.
A.- REGLA DE LA ADICIÓN
Dados dos eventos, A y B, la probabilidad de su unión, A Ս B, es igual a:
P(A Ս B) = P(A) + P(B) - P(A ∩ B)
Observe en el diagrama de Venn en la siguientes figura que la suma P(A) + P(B)

cuenta dos veces los eventos simples que son comunes a A y B. La resta de P(A
∩ B) da el resultado correcto.
Cuando dos eventos A y B son mutuamente excluyentes o disjuntos, significa

que cuando ocurre A, B no puede ocurrir, y viceversa. Esto significa que la
probabilidad de que ambos ocurran, P(A ∩ B), debe ser cero. La siguiente figura
es una representación de un diagrama de Venn de dos de estos eventos sin
ningún evento simple en común.
Cuando dos eventos A y B son mutuamente excluyentes, entonces P(A ∩ B) = 0
y la Regla de la adición se simplifica a:
P(A Ս B) = P(A) + P(B)
La segunda regla se refiere a complementos de eventos. Se puede ver del

diagrama de Venn de la siguiente figura que A y Ac son mutuamente excluyentes y
que A Ս Ac = S, todo el espacio muestral. Se deduce que:
P(A) + P(Ac) = 1 y P(Ac) = 1 - P(A)
B.- REGLA PARA COMPLEMENTOS
P(Ac ) = 1 – P(A)
Una compañía de exploración petrolera planea perforar dos pozos de exploración.

Se emplea evidencia del pasado para tener acceso a los posibles resultados de la
siguiente tabla.
Resultados para el experimento de perforación petrolífera

Evento Descripción Probabilidad
A Ningún pozo produce petróleo ni gas. .80
B Exactamente un pozo produce petróleo o gas. .18
C Ambos pozos producen petróleo o gas. .02
Encuentre P (A Ս B) y P (B Ս C).
Solución: Por su definición, los eventos A, B y C son mutuamente excluyentes en
forma conjunta porque el suceso de un evento impide que ocurra cualquiera de los
otros dos. Por tanto:
P (A Ս B) = P(A) + P(B) = .80 + .18 = .98
P (B Ս C) = P(B) + P(C) = .18 + .02 = .20
El evento A Ս B se puede describir como el evento de que a lo sumo un pozo

produce petróleo o gas, y B Ս C describe el evento de que al menos un pozo
produce gas o petróleo.
INDEPENDENCIA, PROBABILIDAD CONDICIONAL Y LA REGLA DE LA

MULTIPLICACIÓN
Hay una regla de la probabilidad que se puede usar para calcular la probabilidad
de la intersección de varios eventos, pero esta regla depende del importante
concepto estadístico de eventos independientes o dependientes.
Definición.- Se dice que dos eventos, A y B, son independientes si y sólo si la

probabilidad del evento B no está influenciada o cambiada por el suceso del
evento A, o viceversa.
Daltonismo.- Suponga que un observador ve el género de una persona y si ésta

no distingue los colores rojo y verde. ¿Cambia la probabilidad de que una persona
sea daltónica, dependiendo de si es hombre o no? Defina dos eventos:
A. La persona es hombre.
B. La persona es daltónica.
En este caso, como el daltonismo es una característica relacionada con el sexo

masculino, la probabilidad de que un hombre sea daltónico será mayor que la
probabilidad de que una persona escogida de la población general sea daltónica.
La probabilidad del evento B, que una persona sea daltónica, depende de si ha
ocurrido o no ha ocurrido el evento A, que la persona sea hombre. Decimos que A
y B son eventos dependientes.
Como la probabilidad del evento B no ha cambiado por el suceso del evento A,

decimos que A y B son eventos independientes.
La probabilidad de un evento A, dado que el evento B ha ocurrido, se denomina

probabilidad condicional de A, dado que B ha ocurrido, denotada por P(A|B).
La barra vertical se lee “dada” y los eventos que aparecen a la derecha de la barra
son aquellos que se sabe han ocurrido. Usaremos estas probabilidades para
calcular la probabilidad de que A y B ocurran cuando se realice el experimento.
C.- REGLA GENERAL DE LA MULTIPLICACIÓN
La probabilidad de que A y B ocurran cuando el experimento se realiza es:
P(A ∩ B) = P(A) P(B|A)
P(A ∩ B) = P(B) P(A|B)
TIPOS DE PROBABILIDAD
A.- Probabilidad clásica o aleatoria: Se define como el número de resultados en

los que se presenta el evento / número total de resultados posibles.
Cada uno de los resultados posibles debe ser igualmente posible.
La probabilidad clásica, a menudo, se le conoce como probabilidad a priori, debido

a que si utilizamos ejemplos prevesibles como monedas no alterados, dados no
cargados y barajas normales, entonces podemos establecer la respuesta de
antemano, sin necesidad de lanzar una moneda, un dado o tomar una carta. No
tenemos que efectuar experimentos para poder llegar a conclusiones.
B.- Probabilidad de frecuencia relativa: Se define como:
 La frecuencia relativa observada, de un evento durante un gran número de

intentos.
 La fracción de veces que un evento se presenta a lo largo, cuando las
condiciones son estables.
Este evento utiliza las frecuencias relativas de las presentaciones pasadas de un

evento como una probabilidad. Determinamos que tan frecuente ha sucedido algo
en el pasado y usamos esa cifra para predecir la probabilidad que suceda
nuevamente en el futuro.
Cuando utilizamos el planteamiento de frecuencia relativa para establecer

probabilidades, el número que obtenemos como probabilidad adquirirá mayor
precisión a medida que aumentamos las observaciones.
C.- Probabilidad subjetiva: Las probabilidades subjetivas están basadas en las

creencias de las personas que efectúan la estimación de probabilidad asignada a
un evento por parte de un individuo, basada en la evidencia que se tenga
disponible. Esa evidencia puede presentarse en forma de frecuencia relativa de
presentación de eventos pasados, o puede tratarse simplemente de una creencia
meditada.
Las valoraciones subjetivas de la probabilidad permiten una más amplia

flexibilidad que los otros dos planteamientos. Los tomadores de decisiones pueden
hacer uso de cualquier evidencia que tengan a mano y mezclarlas con los
sentimientos personales sobre la situación.
D.- Probabilidad frecuencial: La probabilidad frecuencial o empírica es la que se

fundamenta en los datos obtenidos por encuestas, preguntas o por una serie larga
realizaciones de un experimento.
El cálculo de la probabilidad de un evento y la frecuencia relativa del mismo es lo

que se conoce como probabilidad frecuencial.
Para determinar la probabilidad frecuencial, se repite el experimento aleatorio un

número determinado de veces, se registran los datos y se divide el número de
veces que se obtiene el resultado que nos interesa, entre el número de veces que
se realizó el experimento.
E.- Probabilidad axiomática: Los axiomas de probabilidad son las condiciones

mínimas que deben verificarse para que una función que definimos sobre unos
sucesos determine consistentemente valores de probabilidad sobre dichos
sucesos.
En la definición axiomática de la probabilidad no se establece la forma explícita de

calcular las probabilidades sino únicamente se proponen las reglas que el cálculo
de probabilidades debe satisfacer.

Introducción A La Bioestadística

Загружено:

Сведения о документе

Исходное описание:

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Introducción A La Bioestadística

Загружено:

Авторское право:

Доступные форматы

TEMA 1

“La Ciencia es más una forma de

Carl Sagan (1934-1996)

LA ESTADÍSTICA COMO CIENCIA:

La Estadística es la ciencia que se encarga de recoger, organizar e interpretar los

Necesitamos una formación básica en Estadística para evaluar toda esta

En el siglo XVII el cálculo de probabilidades se consolida como disciplina

Por todo lo anteriormente expuesto deducimos que Bioestadística es la

Definiciones humorísticas de la estadística:

El razonamiento lógico se refiere al uso de entendimiento para pasar de unas

Los razonamientos pueden ser válidos (correctos) o no válidos (incorrectos). En

Los razonamientos no válidos que, sin embargo, parecen serlo, se denominan

El termino razonamiento es el punto de separación entre el instinto y el

Existe otro tipo de razonamiento denominado razonamiento no lógico o informal, el

En este razonamiento se generaliza para todos los elementos de un conjunto la

En un razonamiento inductivo válido, por tanto, es posible afirmar las premisas y,

Tradicionalmente, el razonamiento deductivo, se ha considerado que va de lo

Se utiliza el concepto de validez para el razonamiento deductivo y, para el

Un razonamiento es deductivo si la conclusión se sigue necesariamente de las

Lo que se dice en la conclusión, estaba en las premisas, por tanto, no se

La mayoría de los cisnes son blancos. Esto es un cisne.

Dicho de otro modo, la conjunción o producto de todas las premisas cuando es

Ejemplos de razonamiento deductivo

Premisa mayor: Toda planta nace, se reproduce y muere.

Premisa mayor: Las galletas tardan 45 minutos en hornearse.

El razonamiento inductivo es una modalidad del razonamiento no deductivo que

He observado el cuervo número 1 y era de color negro. El cuervo número 2

El cuervo número 3 también

Luego, todos los cuervos son negros.

En un razonamiento inductivo válido, por tanto, es posible afirmar las premisas y,

Dentro del razonamiento inductivo se distinguen dos tipos:

Completo: se acerca a un razonamiento deductivo porque la conclusión no aporta

Mario y Laura tienen cuatro hijos: María, Juan, Pedro, y Jorge.

María es rubia, Juan es rubio , Pedro es rubio, Jorge es rubio;

Por lo tanto todos los hijos de Mario y Laura son rubios.

María es rubia, Juan es rubio, Pedro es rubio, Jorge es rubio;

Por lo que todas las personas son rubias.

LOS CÁNONES DE MILL

John S. Mill propuso cinco métodos en el razonamiento inductivo.

I. Método de la concordancia. Si se encuentra una única circunstancia en común

III. Método de la concordancia y diferencia. Es el método de la concordancia,

IV. Método de los residuos. Consiste en eliminar determinadas circunstancias, e

V. Método de las variaciones concomitantes. Consiste en observar las

Características del razonamiento inductivo

No existe un criterio unánime a la hora de determinar qué se quiere decir cuando

Desde una perspectiva más restringida, Johnson-Laird a través de su taxonomía,

Un razonamiento inductivo implica un proceso de generalización desde

El inductivismo se caracteriza por tener 4 etapas básicas:

 Observación y registro de todos los hechos

Ejemplos de razonamiento inductivo

Premisa 1: Cuando Juan toca la llama de un encendedor se quema.

Premisa 1: Veo un cuervo de color negro.

Premisa 1: John sale al frío sin abrigarse y se enferma.

Premisa 1: John bebe un litro de whiskey y se embriaga.

Premisa 1: Ciudadano X tiene 25 años, vive en la región A y siempre vota por M.

Es la utilización del método científico por la estadística como un método científico

ETAPAS DEL MÉTODO ESTADÍSTICO

1.- Planificación de la investigación:

 Formular el problema científico, es el punto de partida de esta etapa, el

2.- Recolección de la información:

Comprende la búsqueda de los datos necesarios del objeto de investigación, esto

 Los errores que pueden cometerse en la recolección de datos y la manera