Вы находитесь на странице: 1из 17

BIOESTADÍSTICA.

Bloque I: Estadística Descriptiva

BLOQUE I: ESTADÍSTICA DESCRIPTIVA.

TEMA 1.1. INTRODUCCIÓN Y DEFINICIONES

Definición, Objetivos Y Etapas de la Estadística. La estadística es el estudio de la variabilidad realizado mediante las herramientas aportadas por las matemáticas. La variabilidad la encontramos en todas partes: la longitud de un organismo cualquiera, el peso, cualquier medida que estudiemos en él; número de coches que van a una gasolinera, etc

La estadística es, pues, el arte de utilizar estructuras matemáticas para responder a preguntas acerca de la variabilidad que hay en una población, en una población que se nos escapa por enorme o por impredecible. El objetivo principal de la inferencia estadística es la forma de obtener

conclusiones válidas para la población a partir de los datos de una muestra. Las etapas en las que opera la estadística son básicamente las siguientes:

a) El planteamiento del problema y la obtención de datos: Se enuncia al sistema a estudiar, se deciden las variables a medir y se obtienen los datos. En esta etapa se utiliza la estadística descriptiva.

b) La construcción de un modelo estadístico: las variables estadísticas suelen considerarse formadas por una parte predecible, que se ajusta a alguna expresión analítica, y una parte aleatoria cuya descripción se hace a través de alguna distribución estadística. En esta etapa actúa la inferencia estadística.

c) La comparación de las predicciones del modelo con los datos reales.

Estadística descriptiva e inductiva.

La

estadística

descriptiva

estudia

la

forma

de

obtener

datos

interesantes y de su descripción de forma útil.

La

Bloque I: Estadística Descriptiva

estadística inductiva o inferencial estudia la forma de extraer

conclusiones de los datos con la ayuda de la teoría de la probabilidad.

Población y Muestra. Llamaremos población a un conjunto numeroso de sistemas en los que se estudia una característica común dada que puede tomar distintos valores (variable numérica) o formas (opiniones, colores, cara o cruz, etc.) Frecuentemente no es posible estudiar todos los elementos de la población pues puede suceder que:

El estudio puede deteriorar o romper el sistema. Por ejemplo, el estudio de la resistencia de una pieza industrial o el efecto de una sustancia sobre un individuo. Es inviable desde el punto de vista económico o práctico. Cuando no es posible estudiar todos los elementos de la población, lo que se hace es estudiar subconjuntos reducidos de la población que se denominan muestras. El número de elementos de una muestra se denomina tamaño de la muestra. Entre las ventajas de la elección de una muestra hay que destacar:

El ahorro de tiempo. Parece claro que cuando la población es muy numerosa e interesa tener los resultados del estudio en un tiempo determinado, no parece posible, en principio, ir analizando uno a uno cada individuo o elemento de la población. El coste económico. Cuando la población tiene un tamaño muy grande, el número de personas dedicadas a su estudio y el material que hay que emplear hacen aconsejable que se tome una muestra representativa de dicha población. Calidad del estudio. Al suponer a la muestra un número menor de observaciones que el estudio de la población de la que ha sido extraída, puede realizarse con más detalle y detenimiento que si se trata del estudio de toda la población.

Bloque I: Estadística Descriptiva

Entre los inconvenientes de la elección de una muestra están:

La pérdida de información respecto a la población total. Al tomar una muestra, se pierde información que aportarían los elementos de la población no incluidos en la muestra. El peligro de tomar una muestra no representativa de la población. Si la muestra no es representativa, es decir, no se encuentran representados en ella todos los elementos de la población, se invalida, en gran medida, la veracidad de los resultados obtenidos con el estudio.

Caracteres cualitativos y cuantitativos. Al estudiar a los individuos de una población nos podemos fijar en distintos aspectos, por ejemplo, la profesión, la talla, el número de hermanos, etc. A esos aspectos de la población se les llama caracteres estadísticos. Pueden ser:

Cualitativos: Cuando no se pueden medir, por ejemplo, el color del pelo, la profesión, etc. Cuantitativos: Cuando se pueden medir, por ejemplo, la talla, el peso, etc.

Variables estadísticas. Llamamos variable aleatoria a los distintos valores que toma un carácter estadístico cuantitativo. Pueden ser:

Discreta: cuando tan solo puede tomar valores aislados, por ejemplo, número de hermanos, número de coches que tiene un individuo, número de discos vendidos, etc. Continua: cuando puede tomar todos los valores posibles en un intervalo, por ejemplo, la altura de una persona desde que nace hasta el momento actual.

Bloque I: Estadística Descriptiva

TEMA 1.2. DISTRIBUCIONES ESTADÍSTICAS DE UN CARÁCTER.

Distribuciones estadísticas de un carácter.

Podemos hablar de distintos tipos de distribuciones de frecuencias dependiendo del tipo de variable estudiada y de la forma en que se cogen los datos.

1. Distribuciones no agrupadas: cada valor de la variable está individualizado, formando una clase en la distribución.

Distribuciones tipo I: Son aquellas distribuciones que constan de un número reducido de observaciones y, en consecuencia, de un número reducido de valores distintos que toma la variable.

2. Distribuciones agrupadas:

Distribuciones tipo II: cuando el número de observaciones es grande, pero el número de valores distintos que toma la variable es pequeño. Dispondremos los datos en dos columnas:

x

i

n

i

x

1

n

1

x

2

n

2

x

3

n

3

x

4

n

4

 

.

.

x

k

n

k

Distribuciones Tipo III: ante un número grande de observaciones y de distintos valores que toma la variable conviene agrupar éstos en intervalos o clases, de forma que la frecuencia asociada al intervalo será el número total de datos observados pertenecientes a dicha clase. Se pierde información individualizada de las observaciones, pero ganamos operatividad. Cuando se requiera un valor numérico que represente al intervalo se tomará el punto medio del intervalo como representante del mismo; se le

Bloque I: Estadística Descriptiva

denomina marca de clase. Dispondremos los datos en dos

columnas

L

i

1 L

i

n

i

L

0

L

1

n

1

L

1

L

2

n

2

L

2

L

3

n

3

 

.

.

.

L

k

1

L

k

n

k

Frecuencias.

Número de elementos de un colectivo o de una muestra N

:

Valor de la

var

iable x

:

i

Frecuencia absoluta de x : n

i

i

Frecuencia relativa de x f

i

:

i

=

i

:

n

i

i

N

Frecuencia absoluta acumulada de x N

Frecuencia relativa acumulada de x F

i

:

i

=

=

n

i = 1

n

n

f

i

i = 1

i

Representaciones Gráficas.

Diagrama de barras. Esta forma de representación es propia de las

distribuciones del tipo II, es decir, cuando se tienen muchas

observaciones pero pocos valores distintos de la variable. Dicho

diagrama se elabora señalando en las abscisas de un sistema de ejes de

coordenadas los valores de la variable y construyendo sobre ellos unas

columnas de altura igual a la frecuencia de cada uno de los valores.

Histograma. Es el gráfico más usual cuando de distribuciones del tipo

III

se trata. Para elaborarlo se toman en el eje de abscisas de un sistema

de

ejes cartesianos los intervalos de la variable X y sobre ellos, la altura,

hi, de cada rectángulo así construido se calculará tomando

h i =

n

i

a

i

ai: amplitud de cada intervalo.

Bloque I: Estadística Descriptiva

Diagrama de sectores. El diagrama de sectores consiste en dividir un círculo en sectores circulares, de modo que la amplitud de cada sector sea proporcional a la frecuencia del dato que representa. Para calcular el número de grados sexagesimales que corresponde a cada modalidad se multiplica la frecuencia relativa por 360º: fi x 360º

Polígono de frecuencias. Es un gráfico que se obtiene a partir de un histograma, uniendo los puntos medios de los techos, o bases superiores, de los rectángulos.

Diagrama de tallos y hojas. Es una representación que está a medio camino entre la representación numérica y gráfica. Se construye realizando los siguientes pasos:

Se redondea la colección de datos a dos o tres cifras;

Las cifras de orden superior determinan los tallos normalmente de una o dos cifras;

A

continuación se escribe una raya vertical y se pone la cifra de las

unidades de orden inferior que determinan las hojas.

Diagrama de caja. Es también una representación a medio camino entre la representación numérica y gráfica y recoge la mediana, el recorrido intercuartílico, la presencia de posibles valores discordantes o atípicos, junto con una indicación de la posible asimetría de los datos. Se construye de la siguiente forma:

Se representan tres líneas horizontales correspondientes a la mediana

y al primer y tercer cuartel, que dan lugar a la caja;

Se trazan dos rectas horizontales, de menor tamaño que las que delimitan la caja y que cubran las observaciones que queden dentro del Q 1 - 1.5 RIM (RIM=Q 3 –Q 1 ) y Q 3 + 1.5 RIM;

Se representan por un punto las observaciones que quedan por debajo del primer cuartel menos 1.5RIM y por encima del tercer cuartel más 1.5RIM si es que existen.

Bloque I: Estadística Descriptiva

Pirámide de población. Es una representación gráfica que refleja la composición de una población respecto a su edad y sexo. Estudia conjuntamente una variable cualitativa o atributo (el sexo) y otra variable cuantitativa (la edad). Se representa en un sistema de ejes cartesianos, utilizando dos cuadrantes.

Bloque I: Estadística Descriptiva

Esquema de medidas.

Medidas de

centralización

Medidas de centralización Medidas de Dispersión Medidas de Forma

Medidas de

Dispersión

Medidas de centralización Medidas de Dispersión Medidas de Forma

Medidas de

Forma

Medidas de Dispersión Medidas de Forma Media Aritmética Mediana Moda Medidas de p osición

Media Aritmética

Mediana

Moda

Medidas de posición

Forma Media Aritmética Mediana Moda Medidas de p osición Cuartiles Deciles Percentiles Ran g o o

Cuartiles

Deciles

Percentiles

Rango o recorrido

Desviación Media

Varianza

Desviación Típica

Coeficiente de Variación

Tipificación de una variable

Medidas de Asimetría

de Variación Tip ificación de una variable Medidas de Asimetría Fisher Pearson Medidas de ap untamiento

Fisher

Pearson

Medidas de apuntamiento o Curtosis

Bloque I: Estadística Descriptiva

TEMA 1.3 MEDIDAS DE TENDENCIA CENTRAL.

Medidas de centralización: Indican valores con respecto a los que los

datos parecen agruparse.

Media Aritmética.

Media Aritmética para datos no agrupados

n

∑ i x i = 1 x = N Mediana.
∑ i
x
i
=
1
x =
N
Mediana.

Media Aritmética para datos agrupados

n

n x

i

i

x =

i =

1

N

Mediana

Me =

para

datos

no agrupados

x

N

2

N +

1

+

2

x

si N es impar

N

2

+

1

x

Si N es par

2

Moda.

a

L

i

Mediana

Me =

1

:

Límite

N

para

L

i

1

+

datos

N

2

agrupados

N

i

1

n

i

a

i

inf

erior de la clase mediana

:

número de datos

i

N

i

n

1

: Frecuencia acumulada de la clase

que antecede a la clase mediana

i

: Frecuencia de la clase mediana

:

Longitud del

int

ervalo

de la clase mediana

La moda es el valor de la variable que más veces se repite, es

decir, el valor de la variable que viene afectado por la máxima

frecuencia de la distribución.

En las distribuciones del tipo III pueden seguirse dos caminos:

a) Transformarla en una de tipo II mediante las marcas de clase y

tratarla como tal;

b) Si los intervalos tienen la misma amplitud:

Mo =

L

i 1

+

n i + 1

n

i

+

1

+

n

i

1

a

i

Si los intervalos no tienen la misma amplitud:

Mo

=

L

i 1

+

n + 1

i

a + 1

i

n

i + 1

a

i + 1

+

n

i 1

a

i 1

a

i

=

L

i 1

+

h

i

+ 1

h

i

+

1

+

h

i

1

a

i

Bloque I: Estadística Descriptiva

Relación entre la media, la mediana y la moda. Si la distribución es moderadamente simétrica, desde el punto de vista aritmético la media, la mediana y la moda están relacionadas:

X – Mo=3( x –Me) Otras medidas de centralización. Medidas de posición: Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos. Cuartiles: son aquellos números que dividen la sucesión en cuatro partes porcentualmente iguales. Cálculo de cuartiles cuando se trata de datos agrupados:

Q

r

=

L

i 1

+

rN

4

N

i 1

n

i

a

i

r= 1, 2,3 Deciles: son aquellos números que dividen la sucesión en diez partes porcentualmente iguales. Cálculo de deciles cuando se trata de datos agrupados:

D

r

=

L

i 1

+

rN

10

N

i 1

a

i

n

r=1,2,

Percentiles: son aquellos números que dividen la sucesión en cien partes porcentualmente iguales. Cálculo de percentiles cuando se trata de datos agrupados:

i

r=1,2,

,99.

P

r

=

L

i 1

+

rN

100

N

i 1

n

i

a

i

Bloque I: Estadística Descriptiva

TEMA 1.4. MEDIDAS DE DISPERSIÓN.

Indican la mayor o menor concentración de los datos con respecto a las medidas de centralización. Rango o Recorrido: se define como la diferencia entre el último valor de la variable y el primero, es decir, el campo de variación de la variable medido numéricamente. Desviación media: se define como la media aritmética de las desviaciones de los valores de la variable con respecto a un promedio, tomándose aquellas en valor absoluto. Si dicho promedio fuese la media aritmética, tendríamos:

Distribuci ones tipo I

Distribuci ones Tipo II y III

Dm =

Dm = =

N

N ∑ x i − x n i i = 1
N
∑ x
i − x
n
i
i
=
1

N

También es frecuente utilizar la desviación media con respecto a la mediana. Varianza : se define como la media aritmética de las desviaciones al cuadrado de los valores de la variable con respecto a su media.

Distribuci ones de tipo I

S

2

=

N (

i

= 1

x

i

x

) 2

N

Distribuci ones tipo II y III

S

2

=

N

i = 1

( x

i

) 2

x n

i

N

Desde el punto de vista de su aplicación desarrolla ndo ambas fórmulas queda :

S

2

=

N (

i

= 1

x

i

x

) 2

N

=

N

x

i

= 1

2

i

N

2

x

=

2

+

Distribuci ones tipo I

N N N 2 ⎛ 2 ⎞ 2 ∑ ⎜ x − 2 x X
N
N N
2
2
2
x
− 2
x
X
+
x
x
2
x
i
i
i
i
N
x
i
=
1
i
=
1
i =
1
=
2 X
+
N
N
N
N
2
N
N
N
2
2
x
x
∑ x
i
i
i
2
2
i = 1
i
=
1
i = 1
x
=
x
=
N
N
N
⎝ ⎜

Distribuci ones tipo II y III

S

2

=

x n

i

= 1

2

i

i

N

N

N

i = 1

x

i

N

2

=

Bloque I: Estadística Descriptiva

Desviación Típica o estándar: se define como la raíz cuadrada de la

varianza.

S

=

2 S
2
S

Coeficiente de Variación de Pearson, dado por la siguiente expresión:

C

V

(

X

)

=

S

X

X

Cuanto más se aproxime a cero el coeficiente de variación de Pearson la

media aritmética será más representativa, siendo la distribución más

homogénea.

Tipificación de una variable: la variable tipificada mide las desviaciones

de la variable con respecto a la media en unidades de desviación estándar,

siendo por ello una medida abstracta, de gran valor en la comparación de

distribuciones.

Y =

X

X

S X

Las variables tipificadas tienen la propiedad de tener media 0 y desviación

típica 1.Demostración como ejercicio.

Demostración:

X X

Y

=

 

S

X

Y

=

y

i

=

 

1

x

X

i

=

1

x

i

N X

 

2

=

N

(

y

i

N

Y

)

2

S

X

=

(

y

i

S

X

0

)

2

N

=

1

N

S

Y

N

 

N

N

=

 

1

(

X

X

)

= 0

S

X

x i X

2

=

1

(

x

i

x

)

2

=

S

2

X

S

X

 

S

2

X

 

N

S

2

X

= 1

Bloque I: Estadística Descriptiva

Medidas de forma. Medidas de asimetría: son indicadores del grado de asimetría y de si ésta se produce hacia la derecha o hacia la izquierda.

Coeficient e de asimetría

de Fisher

 

:

 

N

(

x

 

3

)

 
 

=

i = 1

i

x

n

n

g

 

=

m

3

donde

m

     

1

S

3

3

N

 

Coeficient e de asimetría

A

=

x

Mo

p S

de Pearson

:

No existirá asimetría cuando AS=0, será positiva cuando AS>0 y negativa cuando AS<0. Gráficamente:

A S >0 y negativa cuando A S <0. Gráficamente: As<0 Medidas de apuntamiento o curtosis:
A S >0 y negativa cuando A S <0. Gráficamente: As<0 Medidas de apuntamiento o curtosis:
A S >0 y negativa cuando A S <0. Gráficamente: As<0 Medidas de apuntamiento o curtosis:
A S >0 y negativa cuando A S <0. Gráficamente: As<0 Medidas de apuntamiento o curtosis:
A S >0 y negativa cuando A S <0. Gráficamente: As<0 Medidas de apuntamiento o curtosis:
A S >0 y negativa cuando A S <0. Gráficamente: As<0 Medidas de apuntamiento o curtosis:

As<0

Medidas de apuntamiento o curtosis:Se define en las distribuciones de tipo “campana” o campaniformes, es decir, unimodales y simétricas o con ligera

asimetría. Reconocen la mayor o menor concentración de frecuencias en torno

a la media y en la zona central, lo que provoca un mayor o menor

apuntamiento de la distribución. Su medida se establece, generalmente, con referencia a una distribución tipo, la distribución normal o de Gauss, discutiendo

si es más o menos apuntalada que ésta.

As>0

As=0

Coeficient e de curtosis o apuntamien to :

g =

2

m

4

S

4

Llamamos:

3 donde m

4

=

N

i = 1

(

x

i

x

)

4

n

i

N

Distribución platicúrtica, g2<0, menos apuntada que la normal.

Distribución mesocúrtica, g2=0, igual que la normal

Distribución leptocúrtica, g2>0, más apuntalada que la normal.

Bloque I: Estadística Descriptiva

TEMA 1.5. VARIABLES ESTADÍSTICAS BIDIMENSIONALES.

Cuando de un colectivo se observan conjuntamente dos caracteres cuantitativos, surgen las estadísticas de dos variables. Las distribuciones Tipo I:se representan en una tabla de dos columnas de la siguiente forma:

Valores

de X

x

x

x

M

x

1

2

3

N

Valores

de Y

y

y

y

M

y

1

2

3

N

Las distribuciones del tipo II:

 
 

Valores de X

Valores de Y

n

i

x

1

y

1

n

1

x

2

y

2

n

2

x

3

y

3

n

3

M

M

M

x

N

y

N

n

N

Las distribuciones Tipo III: podrán venir encabezadas por valores singulares o por intervalos de las variables sustituibles por las marcas de clase. En todo caso, pueden transformarse en distribuciones de tipo II.

 

Y1

Y2

Y3

----------------------------

Yk

X1

n11

n12

n13

----------------------------

n1k

X2

n21

n22

n23

----------------------------

n2k

X3

n31

n32

n33

----------------------------

 
       

----------------------------

 

Xh

nh1

nh2

nh3

----------------------------

nhk

Bloque I: Estadística Descriptiva

 

Y1

Y2

Y3

Yk

Totales

X1

n11

n12

n13

n1k

n1i

X2

n21

n22

n23

n2k

n2i

X3

n31

n32

n33

n3k

n3i

Xk

nh1

nh2

nh3

nhk

nhi

Totales

ni1

ni2

ni3

nik

N

Distribuciones marginales:

Distribuci ón m arg inal de la X X frecuencia s

:

 

x

1

n

1 i

x

2

n

2 i

M

M

x

h

n

ki

Covarianza:

 

Distribuci ón m arg inal de la Y

Y

y

y

M

y

1

2

h

frecuencia s

y

y

M

y

i 1

i 2

ih

:

La importancia de la covarianza reside en su aplicación para el estudio de la dependencia estadística entre variables.

D istribuci ones de Tipo I :

S xy

=

N

= 1

I

(

x

i

)(

x y

i

y

)

N

=

∑ ∑

x

i

x y

i

x

y

i

N

N

N

Distribuci ones de Tipo II y Tipo III :

S xy

=

N

= 1

I

(

x

i

)(

x y

i

)

y n

i

N

=

x y n

i

x

i

x n

i

i

y n

i

i

N

N

N

Propiedades de la covarianza:

Es invariante frente a cambios de origen, no así ante cambios de escala. Si las variables son independientes, su covarianza es cero. El recíproco no es cierto.

Bloque I: Estadística Descriptiva

Observaciones:

La covarianza ayuda a cuantificar la covariación entre dos variables;

así:

Si Sxy >o, existirá una tendencia a que mayores observaciones de

una de las variables se correspondan con mayores observaciones

de la otra variable.

Si Sxy<0, existirá una tendencia a que mayores observaciones de

una de las variables se correspondan con menores observaciones

de la otra variable.

Si Sxy =0, no se puede concluir que no exista relación entre ambas

variables.

Regresión y Correlación:

Regresión: mide el grado de dependencia entre dos variables.

Correlación: permite modelizar la relación de dependencia entre dos

variables y predecir los valores de una de ellas (variable explicativa) a

partir de los de la otra (variable explicativa).

Regresión lineal:

Re

Re

gresión lineal de Y sobre X

y

S XY y = 2 S X
S
XY
y
=
2
S
X

(

x

x

)

gresión lineal de X sobre Y

x

S XY x = 2 S Y
S
XY
x
=
2
S
Y

(y y )

:

:

Cuanto más cerca esté de 1, mejor será el ajuste, y cuanto más cerca esté de

0, peor será el ajuste.

Coeficiente de determinación general: determina la bondad del ajuste.

2

R =

S 2

XY

2

S S

X

2

Y

0

2

R

1

Coeficiente de correlación lineal:

r =

S XY

S S

X

Y

1 ≤ ≤ 1

r

Bloque I: Estadística Descriptiva

Propiedades:

Si r=1 ó r=-1, correlación lineal perfecta (positiva y negativa respectivamente), las rectas de regresión coinciden. Si –1<r<0, la correlación lineal es negativa y las dos resctas de regresión serán decrecientes. Si 0<r<1, la correlación lineal es positiva y las dos rectas de regresión serán crecientes. Si las variables X e Y son independientes, la covarianza será cero y por lo tanto r es cero, no existiendo correlación lineal. Predicción:

A partir de las rectas de regresión podemos hacer una predicción y la

fiabilidad o no de la misma me la da el coeficiente de determinación o bondad del ajuste R², de forma que, cuanto más cerca esté de 1 mejor será

el ajuste y por tanto la predicción;siendo malo tanto el ajuste como la

predicción en el caso en que R² esté próximo a 0.