Вы находитесь на странице: 1из 43

2.

VARIABLES ALEATORIAS

2.1 Concepto de variable aleatoria (VA).

Por teorías de probabilidad, se vio la necesidad de determinar el tamaño de conjuntos y


subconjuntos que representen eventos de interés en relación con el espacio muestral (I o
U) o colectar los puntos asociados con los eventos para calcular sus respectivas
probabilidades; pero en situaciones más complejas se requiere el concepto de variable
aleatoria.

El cálculo de probabilidades usa variables numéricas que se dicen aleatorias porque


vienen determinadas por el azar, pero el concepto va más allá, la variable aleatoria (VA)
es una función, subjetivamente definida en un espacio muestral que le asocia a cada
resultado posible de S un número real. Por ejemplo: la VA = suma () de los puntos al
tirar 2 dados, tiene como S, 36 pares de sucesos: (1, 1), (1, 2), ... (6, 6). Tabla 2.1

Tabla 2.1 Variable aleatoria definida como la suma de puntos al tirar dos dados
r d1 d2 sud r d1 d2 sud r d1 d2 sud
1 1 1 1 2 13 13 3 1 4 25 25 5 1 6
2 2 1 2 3 14 14 3 2 5 26 26 5 2 7
3 3 1 3 4 15 15 3 3 6 27 27 5 3 8
4 4 1 4 5 16 16 3 4 7 28 28 5 4 9
5 5 1 5 6 17 17 3 5 8 29 29 5 5 10
6 6 1 6 7 18 18 3 6 9 30 30 5 6 11
7 7 2 1 3 19 19 4 1 5 31 31 6 1 7
8 8 2 2 4 20 20 4 2 6 32 32 6 2 8
9 9 2 3 5 21 21 4 3 7 33 33 6 3 9
10 # 2 4 6 22 22 4 4 8 34 34 6 4 10
11 # 2 5 7 23 23 4 5 9 35 35 6 5 11
12 # 2 6 8 24 24 4 6 10 36 36 6 6 12
Esta VA así definida toma 11 valores enteros posibles de 2 a 12, y posibilita representar
cada punto muestral con los valores de la VA. La anterior se puede graficar como la
Figura 2.1

Figura 2.1. Representación de la VA suma de los puntos al tirar dos dados

19
Decir X(ri) = R, implica que a cada evento del S le corresponde un único número en el
campo de los Reales (R). Ejemplo, para la familia de los 3 hijos sea la VA, definida como
el número de niñas en la familia estudiada, Figura 2.2:

Figura 2.2 VA: número de niñas (N) en la familia de 3 hijos.


Numero de niñas familia 3 hijos
3.0
2.5
2.0
X(Resultados)
1.5
1.0
0.5
0.0

1 2 3 4 5 6 7

Resultados
Figura 2.3 Representación de la VA número de niñas (N) en una familia de 3 hijos.

NOTA: A cada evento del S le corresponde un único número en R, pero lo que no puede
suceder es que un evento se vaya en dos números diferentes como X (r 3) = 2 y X (r3) = 0.
Puede representarse funcionalmente como X(ri). Muchas VA, pueden definirse para un
mismo S, por ejemplo: con los 2 dados sean:
Y1 = el número salido al tirar el primer dado,
Y2 = el número al tirar el segundo dado,
X el promedio de tirar ambos dados,
X = (Y1 + Y2)/2 ;
X2 = (Y1 + Y2)2/Y1 ,y
X3 = Y1, etc.

El concepto de Variable Aleatoria propicia mecanismos para cartografiar los resultados


cualitativos de un experimento en una escala cuantitativa. En el caso de los 3 hijos
entonces el espacio muestral que va de (N, N, N) a (V, V, V) es de los puntos

20
secuenciales en que el primer valor indica si es N ó V en el primer nacimiento, etc.
Consiste de 23 puntos (con los cuales se pueden definir múltiples VA).

2.2 Tipos de variable aleatoria.

La división más gruesa habla de VA discretas y continuas. Una Variable Aleatoria Discreta
(VAD) surge generalmente del acto de contar, así sean contables finitos como en los
ejemplos mostrados o contables infinitos. El S que involucra un número contable de
puntos (finito o ) se dice discreto, o dicho de otra forma X(r i) se va solo en RE (enteros,
incluido el 0), por ejemplo, número de llamadas recibidas en una hora, número de
carambolas en un juego de billar, el número de fallas en un proceso de fabricación, el
número de árboles quemados en un incendio, el número de semillas germinadas en un
vaso de Petri.

Una Variable Aleatoria Continua (VAC), surge principalmente del acto de medir, puede
tomar cualquier valor en uno o más intervalos X(r i)  R (menores, mayores o iguales a
cero), como el tiempo para que crezca un árbol, la altura de una planta, los kgm. de fruta
de un cultivo.

2.3 Función de probabilidad: Es otra función que le asigna a cada VA. DISCRETA, su
respectiva probabilidad, Figura 2.5. Se expresa como P(xi) = P (X = xi), o sea la
probabilidad de que la variable X tome el valor particular xi, por ejemplo si X = Número de
Niñas  P(X=xi) = P(X=3) = 8/27.

Figura 2.5 Representación de la función de probabilidades en la familia de tres


hijos.
Por ejemplo para la suma de la tirada de dos dados, Tabla 2.2,

Tabla 2.2 Probabilidades asociadas a la tirada de dos dados

con su función mostrada en la Figura 2.6.

Figura 2.6. Representación de la función de probabilidades para la suma de la tirada


de 2 dados.

21
La función de la suma de los dados podría también escribirse así:
 xi  1
 36 xi  2...6
p( xi )  
13  xi xi  7...12
 36
Una función de probabilidades debe cumplir:
X
1) pr ( x)  0, xi  X ; 2)  pr ( x)  1  100%
i 1

2.4 Función de distribución acumulativa de probabilidad.

En muchos problemas prácticos en lugar del interés en la probabilidad para un xi, es


interesante conocer la probabilidad de que X  xi, que se denomina como F(xi) = F(X  xi)
= Pr(X  xi), y se obtiene por la sumatoria de los valores de la función de probabilidad
sobre los puntos del espacio muestral para los cuales la VA. toma valores  xi:
pr ( X  xi )  F ( xi )   p( xi ) (2.1)
En el caso de los 2 dados se presentan los valores alcanzados por la suma y sus
respectivas probabilidades en la Tabla 2.3
Tabla 2.3 Función de distribución acumulativa ( de 2 dados)

Obviamente 0  F (xi)  1 para todo xi; F (xi)  F(xj) para xi  xj

Figura 2.7 Distribución gráfica de probabilidades acumulada para la Σ dos dados.

2.5 Complemento de la función de distribución acumulativa de probabilidad:

Da la probabilidad de que una variable aleatoria exceda un valor específico x i.


p( X  xi )  1  F ( xi ) (2.2)

2.6 Función de densidad de una VA continua (VAC).

Si X es una VAC para ( X ) o sea que puede tomar cualquier valor en un


intervalo dado como el volumen de un árbol, el peso de una semilla, la estatura de una
persona, y muchas otras, al valor alcanzado por f(x) se le conoce como función de
densidad. Generalmente es una ecuación, (encontrarla es a veces objeto de la estadística
y, geométricamente es una altura en un punto X = x i) Figura 2.8.

2.6.1 Propiedades de la función de densidad y de probabilidades f(x) y F(x):


1) f ( xi )  0 (2.3) .

22
2) Tiene su F ( X  xi )  F ( xi )  p( X  xi ) que coincide con un área:
xi

F ( X  xi )  

f ( x)dx (2.4)

De acuerdo con lo anterior F(xi)  0 xi ; F(xi)  F(xj) si xi > xj

Figura 2.8 Representación de la función de densidad de una VAC.

Nota: El área bajo la curva es la  de áreas puntuales de base dx y altura f(x)

3) Dados 2 valores a y b con a < b:


b
p(a  X  b)   f ( x) dx  F ( x) a
b
(2.5)
a

Por ejemplo, considérese que el tiempo de extinción de una partícula radiactiva sea t. Por
trabajos prácticos se sabe que la probabilidad de supervivencia de tal partícula, más allá
de un tiempo t1 ,es et , constante (se conoce o se averigua), p(t  ti )  1  F (ti )  et , en
i i

consecuencia la distribución acumulativa para la extinción será: p(t  ti )  F (ti )  1  et ,i

que cumple con todas las propiedades enunciadas.

NOTA: 1) Se acostumbra definir la variable aleatoria con mayúsculas y su valor alcanzado


con minúsculas, aunque usadas indiscriminadamente será el contexto el que aclare la
situación.

2) El término distribución se puede usar como genérico para denotar las funciones de
probabilidad o de densidad. En el último ejemplo se puede decir que el tiempo de
extinción sigue una distribución exponencial, o que es una variable exponencialmente
distribuida.

3) Se ve la conveniencia del concepto de VA para describir eventos aleatorios, ya que


permite asociarle funciones a cada variable como una distribución, la cual si es conocida
puede describir la conducta probabilística de un problema, de un sistema, o de un
experimento; por lo cual, aparece una o más constantes, ejemplo , llamadas parámetros
de la distribución, que pueden proporcionar, localización, escala y forma de ellas. ( acá
es un parámetro de escala).

4) Al trabajar con VA y modelos estadísticos, generalmente se usan muestras aleatorias y


se obtienen los estimados de los parámetros.

5) Es común, dependiendo del tamaño de la muestra, agrupar especialmente con


variables continuas, apareciendo: distribuciones empíricas de frecuencias, sus gráficas
con paralelogramos, histogramas (gráficos de VA (abscisa) contra número alcanzado =
frecuencia), etc.

23
2.6.2 Resúmenes de los datos. El investigador antes de proceder a calcular debe
obtener una visión simplificada de sus datos. R le facilita esta labor. Para ver lo que
involucra el resumen estadístico de una prueba simple usaremos un archivo:
y
2.51 2.58 2.92 2.82 2.82 2.37 2.22 2.37 2.43 2.73
2.56 2.40 2.60 2.11 2.31 2.18 2.14 2.25 2.00 2.20
2.46 2.29 2.42 2.72 1.94 2.54 2.35 2.59 2.22 2.34
2.70 2.32 2.95 2.19 2.51 2.57 2.44 2.28 2.38 2.55
2.57 2.10 2.76 2.62 2.14 2.25 2.60 2.56 2.33 2.74
2.41 2.39 2.40 2.18 2.89 2.15 2.28 2.41 2.64 2.42
2.45 2.47 2.48 2.08 2.29 2.06 2.45 2.50 2.55 2.83
2.24 2.16 2.64 2.22 2.45 2.08 2.60 2.38 1.99 2.54
2.54 2.42 2.08 2.65 2.24 1.91 2.57 2.98 2.77 2.40
2.85 1.90 2.24 2.49 2.18 2.61 2.54 2.34 2.34 2.33
que se guardó como una sola columna en la dirección que se muestra, llamado das.txt:

data<-read.table("c:\\estadistica\\das.txt",header=T)
attach(data)
names(data)
[1] "y"

Usualmente deberíamos empezar con gráficos simples como, una gráfica indexada (index
plot): gráfico de dispersión con un argumento simple, en el cual los datos son graficados
en el orden en el cual fueron tomados o aparecen en el dataframe; una gráfica de cajas y
bigotes (box-and-whisker plot) y una gráfica de frecuencias (un histograma con
paralelogramos o cajuelas: bins) cuyos anchos los elige R). Se empezará con 3 de los
cuatro gráficos por salida con la siguiente orden:

par(mfrow=c(2,2))#esta orden le dice que abra cuatro ventanas


plot(y, main="Gráfica indexada")
boxplot(y,main="Gráfico de cajas")
hist(y,main="Histograma de los datos")

La gráfica indexada (superior izquierda) es particularmente valiosa para descubrir errores


posibles en el dataframe. Supóngase que el 52-esimo valor hubiera sido entrado como

24
21.75 en lugar del correcto 2.175: el error se vuelve evidente en la gráfica indexada (abajo
a la derecha). Este cuarto gráfico se hará alterando la base de datos, cambiando la
observación 52 por 21.75 en otro vector (y2) y graficamos
y2<-y
y2[52]<-21.75
plot(y2, main="Grafico con dato alterado",col="red")#Gráficos página anterior. Estos
resúmenes gráficos no podrían ser más simples. Existe otra orden; de muchas más
posibles, en R para histogramas, en la library(MASS)
truehist(y,main="Histograma de Y",col="gray")
Histograma de Y

1.5
1.0
0.5
0.0

1.8 2.0 2.2 2.4 2.6 2.8 3.0

2.7 Descriptores de una distribución.

Es frecuente y deseable resumir la información acerca de una distribución de una VA por


medio de unos pocos valores descriptivos de ellas, y aunque no se conozca la distribución
subyacente, es posible y útil calcular medidas resumen de unos datos, usualmente
medidas de tendencia central y diversos momentos que expresan otras características de
la distribución. Para conocerlos es importante el concepto de esperanza matemática.

2.7.1 Medidas de tendencia central (TC). Uno de los descriptores simples más
importantes, es el punto alrededor del cual se centra la distribución, conocidas como
medidas de TC. Las más importantes son la media, la mediana y la moda.

2.7.1.1 Valor esperado o media. El valor esperado, llamado media aritmética, promedio,
media, coincide con la esperanza matemática E(X), la cual se calcula como:
 xi p( xi ) VAD

E ( X )   i (2.6)
 x f ( x)dx VAC
 
Acá se puede pensar que el efecto de las funciones de probabilidad o de densidad es
asignar pesos relativos a los valores de la VA, por lo cual el valor esperado puede ser
mirado como el centro de gravedad de la distribución, esto es el punto alrededor del cual
la suma de las probabilidades a la izquierda balancea exactamente las de la derecha. Por
ejemplo encontrar el valor esperado al lanzar un solo dado libre de sesgos. Su espacio
muestral será:
Tabla 2.4. Probabilidades al arrojar un dado

25
6
E  x    xi p( xi )  11 6  2 1/ 6  ...  6 1 6  3.5 * En este caso la variable aleatoria
i 1

jamás toma su E(x).

Figura 2.9. Valor esperado de los puntos al arrojar un dado.

Otro ejemplo: Sea Y una variable aleatoria que representa la vida en segundos de un
alevino en un estanque con adultos, de acuerdo con su peso en grm/100 (X), cuya función
de densidad se encontró experimentalmente como f (x ) 2.85 x 2 . Encontrar la vida media
 30 30
1 2.85
para valores de 1  x  30, x: E ( x)   x 2
dx   x(2.85 x 2 )dx   dx  9.6434 .
3 x 1 1
x
Dada una muestra de datos x1 , x2 , , xn se define la media aritmética muestral como:
n

x i n n
a) X  i 1
; b) X   xi fr ( x j ); c) X   m j fr (mi ) (2.7)
n i 1 i 1

a) para datos sin agrupar, b) para datos discretos agrupados y c) para datos agrupados
en clases suponiendo que todos los datos de cada clase son idénticos a su marca de
clase, en que fr (x j ) son frecuencias relativas y fr (m j ) frecuencia relativa de la clase j. Se
prefiere esta media que usa todos los datos si ellos son muy homogéneos, pues es muy
sensible a las observaciones atípicas y un error en los datos puede distorsionarla
grandemente.

2.7.1.1.1 Media en R: La función R para calcular la media es mean(vector). Para el vector


y antes graficado
mean(y)
[1] 2.419456

mean(y2)
[1] 2.615205

2.7.1.1.2 Cálculo de una media ponderada en R. Sea el valor de una variable aleatoria:
vec1<-c(1,2,3,4)#va,x en la tabla
fre<-c(3,4,6,2)#frecuencia, número de veces que se encontró el 1, el 2, etc.
sum(fre)#orden para sumar los datos en la variable fre
[1] 15

med.pon<-vec1%*%fre/sum(fre)#objeto(med.pon) para el cálculo de la media ponderada


med.pon
[.1]
[1.] 2.466667.
Si los vectores tienen igual longitud se puede así:
vec1*fre
[1] 3 8 18 8

26
sum(vec1*fre)/sum(fre)
[1] 2.466667

2.7.1.2 Media geométrica. Cuando por intuición se aprecie que una distribución o una
población tiene comportamientos de progresiones geométricas o exponenciales, el valor
de equilibrio se puede estimar como
n
a) X g  n
x
i 1
i ; b) X g  Exp( LN ( x)) (2.8)

a Xg se le conoce como la media geométrica y se usa para incremento de seres vivos,


acumulación de capitales, tasas de mortalidad, por ejemplo: se midió el aumento de
trozas aprovechadas en un bosque por hora durante 4 horas con los siguientes
resultados. Buscar la rata de cambio promedia, tabla 2.5. La rata de cambio promedia
será X g 3 1.25 1.40 1.60 1.409
Tabla 2.5. Cambio en el número de trozas aprovechadas durante 4 horas.
No. DE TROZAS TIEMPO (HORAS) RATA DE CAMBIO % ACUMULADO
100 1 ---- 1
125 2 (125-100)/100 = 25 1.25
175 3 (175-125)/125 = 40 1.4
280 4 (280-175)/175 = 60 1.6

Generalizando, para procesos que cambian multiplicativamente más que aditivamente


esta es una mejor expresión de tendencia central. Por ejemplo: En una muestra de 5
plantas al azar se encontró un insecto dado así: 10, 1, 1000, 1, 10. Cuando se halla la
media aritmética: 204.4 existe un dato tan influencial (1000) que produce el resultado
anterior, que ni siquiera está cerca de uno de los datos encontrados, cuando el valor de
media geométrica: X g  5 10 11000 110  5 100000  10 es encontrado, coincide con
dos de los datos hallados. Otra forma de hallarla es con logaritmos, b) de ecuación (2.8)

X 10 1 1000 10 1 media Exp(media) =


LN(x) 2.303 0.000 6.908 2.303 0.000 2.303 10

En R: Calculo de la media geométrica para vec1

Me.geo<-exp(mean(log(vec1)))#objeto para calcular media geométrica


Me.geo
[1] 2.213364

2.7.1.4 Media Harmonica: Para distribuir poblaciones que siguen una progresión
aritmética inversamente proporcional, como los tiempos promedios de rendimientos en
una tarea se acostumbra esta media:
n
XH  n
(2.9) .
1

i 1 x

Para calcular por ejemplo el tiempo promedio de apeo o derribada de un árbol entre 3
hacheros que muestran los siguientes promedios/árbol tipo:
1. hachero tumba el árbol en 10’  en 1’ hace 1/10 de la tarea

27
2. hachero tumba el árbol en 15’  en 1’ hace 1/15 de la tarea
3. hachero tumba el árbol en 18’  en 1’ hace 1/18 de la tarea
3 3
Xh    13.5'  14.33'  X o sea diferente a la media aritmética.
1 10  1 15  1 18 0.222

Otro contexto. Una hormiga, tiene un territorio cuadrado de 2 metros de lado. Inicia un
recorrido pausado a una velocidad de 1 m/min, acelera en el lado 2 y lo recorre a 2 m/min,
el tercer lado lo recorre aun mas rápido a 4 m/min, pero cansada decide recorrer el último
tramo a 1m/minuto.

Si nos preguntan la velocidad promedia de este recorrido casi todos contestaríamos


X  (1 min
m
 2 min
m
 4 min
m
 1 min
m
) / 4  2 min
m

espacio
Pero es correcta esta respuesta? Veámoslo con la Física. Recuerde que V  m
min
.
tiempo
No queda duda que la hormiga recorrió 8 metros. Tiempos: primer recorrido: 2 min.,
segundo recorrido: 1min., tercer recorrido: 0.5 min., cuarto recorrido: 2 min. Por tanto, el
tiempo gastado total fue de 5.5 minutos. Entonces su velocidad promedio según la
8 m
fórmula debió ser V   1.4545 min
m
, que coincide con el cálculo de la media harmonica:
5.5 min
4
XH   1.4545 min
m
(   14  11 )
1
1
1
2

Función para la Media harmónica en R:

media.har<-function (x) 1/mean(1/x) #acá se declara que este objeto ahora es una función
media.har(vec1)
[1] 1.92

2.7.1.4 Mediana. Se define como el medio punto de la distribución. Para una función de
z
densidad f(x) la mediana es el punto tal que:  f ( x)dx  0.50 , o sea el valor de la variable
aleatoria que tiene exactamente la mitad del área bajo la función de densidad. Se define
igual para VAD, como el valor de la VA por debajo o por encima del cual se sitúa el 50%
de los datos de una muestra. Si x1, x2 ... xn representan en orden creciente la colocación
de los datos de una población, entonces su mediana se obtiene como a) como el dato que
ocupa el lugar (n+1)/2; b) promedio de dos datos centrales:
Xn  Xn
1
X me  a) X n 1 ; si n es impar; b) 2 2
; si n es par (2.10)
2 2

28
Por ejemplo, la mediana ( X me ) de 3, 12, 4, 8, 5, 16, 24  3, 4, 5, 8, 12, 16, 24.
n 1 7 1 8  12
cuarto número, para la serie: 3, 4, 5, 8, 12, 16, 24 y 27 X me 
 10 .
2 2 2
Para datos agrupados, se calcula como el centro del intervalo central (xa , xb ) que
verifique:
F ( X  xa )  0.5 y F ( X  xb )  0.5 (2.11)
Es muy apropiada para variables aleatorias no distribuidas simétricamente ya que usa
menos información que la media pues solo tiene en cuenta el orden y no su magnitud por
lo cual no se altera mucho con algunos errores en los datos, por ejemplo útil en la
distribución de ingresos personales por grupos de familias, que queda quizás mejor
representada con su mediana que con X ya que no es sensitiva a los pequeños números
de las observaciones extremas. El índice de letalidad media de insecticidas es otro
ejemplo. Por otra parte puede variar más de muestra a muestra que la media por lo cual
X está más cerca de  que la Mediana muestral de la Mediana poblacional.

En R, para los datos anteriores:


x<-c(3, 12, 4, 8, 5, 16, 24 )
> median(x)
[1] 8
> x1<-c(3, 12, 4, 8, 5, 16, 24,27 )
> median(x1)
[1] 10

2.7.1.4.1 Desviación absoluta con respecto a la mediana mad (o MAD).

La mad o (MAD) es una medida robusta de la variabilidad de una muestra univariada de


datos cuantitativos. Para una muestra x1 , x2 , . xn , se define como la mediana de las
desviaciones absolutas de los datos con respecto a la mediana:
MAD  mediana(| xi  mediana( X ) |)  2.11a 
Ejemplo para los datos (1, 1, 2, 2, 4, 6, 9), la mediana alcanza un valor de 2. Las
desviaciones absolutas alrededor de este valor son (1, 1, 0, 0, 2, 4, 7) cuya mediana es 1.
En R:
ej<-c(1, 1, 2, 2, 4, 6, 9)
median(ej)
[1] 2
mad(ej)
[1] 1.4826
sd(ej)
[1] 2.992053

Este estadístico es más elástico a las observaciones remotas que la desviación estándar
puesto que las distancias de la media vienen de sus cuadrados por lo cual las medidas
remotas podrían influenciarlas más drásticamente cuando en la MAD, las desviaciones de
un pequeño número de remotas, sería irrelevante. Por lo tanto, es una mejor medida de
dispersión para distribuciones sin media como la distribución de Cauchy, por ejemplo.

2.7.1.4.2 Relación entre la MAD y la desviación estándar. Como un estimador


consistente, la MAD se relaciona con σ así:
ˆ  k * MAD

29
en que k es un factor de escala constante y depende de la distribución de probabilidades
1
elegida. Para datos distribuidos normalmente k   1.4826 en que  1 es la
 1
(3 / 4) 
inversa de la distribución acumulativa de una normal estandarizada. Por ello para la MAD se
tiene:
1  x   MAD   MAD 
 p  x    MAD   p    p z    2.11b 
2       

 MAD   MAD  1  MAD   MAD 


Además     y puesto que 
  1    de
      2      
MAD 1
acá   1  3 / 4  de donde surge el factor de escala k  1 , con lo cual
  3 / 4
ˆ  1.4826*MAD
o sea, la esperanza de 1.4826 veces la MAD para grandes muestras dará la desviación
1
estándar de la población. este factor 1.4826  resulta del rango intercuartil que
 1
(3 / 4) 
cubre 50% entre 1/4 y ¾ de la distribución normal estándar acumulativa

2.7.1.5 Moda. Para variables discretas es el valor de la VA con la más alta probabilidad.
En VAC es el valor de VA asociado con el máximo de la función de densidad. También se
define como el valor que más se repite. No es buena pues es altamente influenciable por
la muestra. Su principal uso es descubrir subpoblaciones S’ dentro de S o poblaciones,
pero su gran virtud sobre todo para muestreos es conducir al concepto de estratificación,
división en subpoblaciones como lo muestra la Figura 2.10.

Figura 2.10 Distribución multimodal y concepto de estratos o subpoblaciones.

En R no hay una función estándar para la moda, para ello hay que bajar la biblioteca
“modeest” y usar la función mfv(vector). Ejemplo sea un conjunto de datos:
y3=c(74,40,56,72,40,82,76,72,87,81,50, 65, 62)

mfv(y3)#Aparecen dos modas:


[1] 40 72

2.7.2 Comparación de las 3 medidas. La X aritmética es muy sensible a observaciones


extremas, la mediana es menos afectada y la moda no es influenciada por ellas. Sus
relaciones se pueden apreciar en unas funciones hipotéticas de distribución. En general el
marco de comparación es el de una función cuyas 3 medidas coinciden en funciones
simétricas unimodales; Figura 2.11.

30
Figura 2.11 Posición relativa de las 3 medidas de TC. Sesgos de una distribución. a)
Asimétrica positiva, b) negativa

2.7.3 Otros descriptores. Momentos de una distribución. Los momentos son


estadísticos calculados con las sumas de las observaciones o las sumas a alguna
potencia. Con ellos además de las medidas de tendencia central es posible describir la
dispersión, simetría y grado de aplanamiento de una distribución.

Para simplificar la notación k será usado para designar E ( X k ) . Entonces 1 denota
E ( X 1 )  E ( X ) de la VA(X). k es conocido como el k-ésimo momento crudo de la
distribución o alrededor de cero, o quizás del origen.

2.7.3.1 Momento alrededor de la media. El k-ésimo momento alrededor de la media, o


momento central, se define en términos de esperanza matemática, para ambos tipos de
variables así:
  ( X   )k f ( x) dx para VAC
k  E ( X  1)  
k 1
(2.12)
 ( xi  1) p( xi ) para
 k
VAD
Una distribución queda completamente especificada si se le conocen todos sus
momentos, pero se considera adecuadamente descrita con los 4 primeros, especialmente
en distribuciones empíricas. El primer momento siempre es cero:
1  E ( X   '1 )  E( X )  E(  '1 )   '1   '1  0 . El segundo momento alrededor de la media es la
más famosa de las medidas de dispersión conocida como VARIANZA:
  ( X   )2 f ( x)dx : VAC
2  Var ( X )  E ( X   '1 )  E ( X   )  
2 2
(2.13)
 i
   2
( x ) p ( xi ) : VAD
Equivalentemente Var  X   2   1  se justifica así:
2

Var ( X )  E ( x   ) 2  E  x 2  2 x 1  ( 1) 2   E ( x 2 )  2 1 E ( x)   1   E ( x 2 )  2( 1) 2  ( 1) 2


2

 Var ( X )  ´2 ( 1) 2


En R existe la función:
var(x)
[1] 58.2381

2.7.3.2 Desviación estándar ( ) . La raíz cuadrada de Var(X) es la desviación promedia


o estándar. Se expresa en las mismas unidades de la variable original. Como se verá para
una VA que siga una distribución Normal, los valores de   , alcanzan una probabilidad
del 68.3% y del 95% para   2. En R existe la función:

31
sd(x)
[1] 7.631389

2.7.3.3 Sesgo. El sesgamiento (skewness) es la versión adimensional del tercer momento


con respecto a la media que se relaciona con la asimetría de una función. Es definido
como:
n

 ( yi  y )3 
a) μ3  E ( x  1)3  E ( x   )3 Poblacional , muestral : m3  i 1 

n  (2.14)
1 n m3 
b) γ sesgo  3  ( xi  X )3 ; si llamamos s3  (sd )3  ( s 2 )3 ; sesgo   1  
ns i 1 s3 

Otra fórmula útil para ello es 3  3  32 1  2(1)3 .

Aparecen las distribuciones simétricas cuando, 3 = 0, en cuyo caso la media y la


mediana coinciden y por tanto tienen un sesgo de cero, aunque la inversa no sea cierta
puesto que el coeficiente es muy afectado por valores extremos. En este caso es el signo
y no el valor absoluto del coeficiente, lo usado para la caracterización. Un coeficiente
positivo acompañado por mediana < media muestra una larga cola a la derecha del
histograma. Una distribución unimodal (o con un solo punto de máxima) con 3 > 0 se dice
que es sesgada a izquierda, Figura 2.11.

Un signo negativo muestra una larga cola a la izquierda del histograma con mediana >
media. La convención puede adoptar estos nombres por la posición de la mediana con
respecto a X . Cuando la mediana se localiza a la izquierda de la media se dice sesgo a la
3 3 
izquierda o asimétrica positiva. La cantidad 1 = 3 =   33 mide el sesgo
2  2  
3/ 2 3/ 2

relativo a su grado de dispersión, y como es una medida estandarizada, permite comparar


la simetría de distribuciones con escalas de medición diferentes. Valores negativos de 3
muestran sesgos a la derecha. Valores de 2  3  2 no se consideran severos
alejamiento de la simetría. Aparecen sesgos cuando alguna otra variable no considerada
o alguna realidad física limitan los valores cercanos al rango de los observados. El error
6
estándar del sesgo se obtiene como se1  que usaremos luego de estudiar la normal.
n
mom3<-sum(f*(d-mu)^3)/n
mom3
[1] 1201.784

r1<-mom3/(sd^3)
r1
sd 0.3145346
cp<-3*(mu-median(dicru$d))/sd
> cp
mean 0.6790207

Existe la prueba de Agostino, que en R se halla en la librería (moments)


library(moments)
> skewness(y, na.rm = FALSE)
[1] 0.1143677
> agostino.test(y)# D'Agostino skewness test

data: y

32
skew = 0.11437, z = 0.49566, p-value = 0.6201
alternative hypothesis: data have a skewness

2.7.3.4 Ahuzamiento o kurtosis.


El cuarto momento está relacionado con el grado de ahuzamiento o aplanamiento de una
función de densidad. Se define como:
a) 4  E ( x  1) 4  E ( x   ) 4 Poblacional 

1 n  (2.15) .
b)  curtosis  4  ( xi  X ) 4 Muestral 
ns i 1 
 
La estandarizada  2  42   4  44 es una medida relativa de la kurtosis. Valores de
1 
 2   4  3 son de distribuciones más puntiagudas que la normal (leptocúrticas),  2  3
platicúrticas y  2  3 mesocúrticas. Cuando se sitúa por fuera de 2 se consideran
severos alejamientos de la normal. Las distribuciones aplanadas tienen pocas
observaciones cerca del centro de la distribución o sea una mayor varianza. El
24
aproximado error estándar de la kurtosis es: se 2 
n
mom4<-sum(f*(d-mu)^4)/n
> mom4
12
[1] 189823.4
> r2<-(mom4/(sd^4))-3
> r2
sd
0.1778903

kurtosis(y, na.rm = FALSE)


[1] 2.629026

geary(y, na.rm = FALSE)


[1] 0.8025879

bonett.test(y)

Bonett-Seier test for Geary kurtosis

data: y
tau = 0.19240, z = -0.22066, p-value = 0.8254
alternative hypothesis: kurtosis is not equal to sqrt(2/pi)
bonett.test(y)

2.7.3.5 Momentos muestrales con respecto al origen de orden m. El m-ésimo


momento muestral de una VA con respecto al origen denotado como M (m ) , se define, en
igual forma, como:
M (m)   X m p( x) (2.16) .
x

Así el m (0) = 1. El m (1) = x P(x) = E(X) se conoce como la esperanza matemática de la


VAX y coincide con el valor medio de una distribución según se vio en la ecuación (33).
Se debe notar que si X es una variable aleatoria discreta y Y= f(x):
E(Y )  E( f ( x))   f ( x) p( x) (2.17)
Todo lo demás coincide con lo mostrado en los momentos poblacionales

33
2.7.3.6 Propiedades de la esperanza. Es interesante conocer, manejar y racionalizar los
siguientes conceptos, pues ayudan a entender otros; si k = constante:
1) E(k )   k p( x)  k  p( x)  k (2.18)
2) E(kx)   k x p( x)  k  x p( x)  kE( x) (2.19)
3) E(k  X )  E (k )  E ( X )  k  E ( X ) (2.20)
4) E(k  bX )  k  bE ( x) (2.21)
5) E( X  x )  E( X )  E ( X )  0 (2.22) .
o sea, siempre la  de desviaciones con respecto a la media = 0

2.7.3.7 Propiedades de la varianza. El momento central de orden 2 ya definido como.


M (2)   Var ( X )  E ( X   ) 2   ( x   ) p( x) (2.23)
2

tiene, entre otras las siguientes propiedades:


1) Var ( X )  E ( X   ) 2   x2  0 (2.24) ,
2) Var (kX )  k 2Var ( X )  Var (kX )  E (kX  k  ) 2  Ek 2 ( x   ) 2  k 2 2 ( x) (2.25) ,
3) Var (k )  0 (2.26) ,
4) Var (k  X )  Var ( X ) (2.27) ,
5) Var ( X )  E ( X 2 )   E ( X )  (2.28)
2

Esta última, otra forma muy útil de expresar este concepto.

2.7.4 Otros caracterizadores de Variables aleatorias Existen otras propuestas


estadísticas para caracterizar una variable.

2.7.4.1 Rango: Diferencia entre el mayor y el menor valor de una V.A. si X=x1, x2... xn,
entonces el rango muestral = xn  x1 , se considera una medida de dispersión cruda, al no
considerar sino los valores extremos. También es muy improbable que una muestra
contenga los verdaderos X máximo y mínimo, por lo cual generalmente subestima el
poblacional, por lo cual será un estimador sesgado e ineficiente. Sin embargo es
considerado útil por algunos. Si se entrega como parte de una información, es importante
que vaya acompañado de otras medidas de dispersión.
En R, existe la función range que le entrega los valores mínimo y máximo del vector y la
función diff(range(X)) que le entrega el valor del rango definido. Ejemplo:

range(x)
[1] 3 24

diff(range(x))
[1] 21

2.7.4.2 Percentil: Se llamará percentil al valor de la VA por debajo del cual se encuentra
el p% de los datos, por ejemplo, en un número de datos impar, la mediana es el percentil
50. Estas fracciones también se llaman en general fractiles, deciles, etc. Por ejemplo se
llama cuartiles a aquellos valores que dividen la distribución en cuatro partes iguales, así
Q1 es por definición igual al percentil 25, el Q 2 coincide con la mediana y Q3 es el percentil
75. Son usados para dar dispersión de datos ordenados como el Rango intercuartilítico o
rango intercuartil (RI) que es la diferencia entre los percentiles 75 y 25. En R, existe la
función quantile(x,porcentaje). Ejemplo:

34
quantile(y,0.25)#Entrega el percentile 25 de y
25%
2.241465

quantile(x,0.25)
25%
4.5

2.7.4.3 Coeficiente de variación. O coeficiente de variabilidad, se define como:


σ s
CV% = 100% ; cv% = x 100% (2.29)
μ x
El objeto de multiplicarlo por 100 es dar una sensación de escala, ya que los términos que
los componen dependen de la magnitud de los datos. Algunos autores se refieren a él a
veces como dispersión relativa, puede calcularse únicamente para datos en escala
racional así, no debería usarse a temperaturas de datos medidas en escalas Fahrenheit o
Celsius, por ejemplo. Tiene su mejor uso como descriptor en cierto grado de la
conducción de algunos diseños experimentales. Para algunos autores un muestreo
aleatorio simple con CV > 12% se considera deficiente en muchos experimentos
agrícolas. Su otro uso más frecuente es para el cálculo de tamaños de muestra. En R es
fácil encontrarlo, por ejemplo:
cv<- 100*sd(x)/mean(x)
> cv
[1] 74.19406

2.7.4.4 Índices de diversidad en escalas nominales: Para datos en escalas nominales


no existen medidas como la media o la mediana que sirvan de referentes para discutir su
grado de dispersión. En lugar del concepto anterior se habla de diversidad, cuando se
trata de la distribución de unas observaciones dentro de unas categorías establecidas.

Considérese por ejemplo que un ave, sea encontrada anidando en otras localidades
diferentes como enredaderas, aleros de las casas, ramas de los árboles o en cavidades
en las paredes. Si de 20 nidos observados, se encontraran de a 5/localidad, entonces se
podría hablar de una gran diversidad en sitios de anidamiento, pero si 17 nidos estuvieran
ubicados en las ramas de los árboles y 1 en los otros sitios, se hablaría de baja
diversidad. En otras palabras, observaciones distribuidas regularmente (similarmente)
entre las diversas categorías dan idea de alta diversidad, pero si el grueso de las
observaciones ocurre en sólo algunas de ellas se habla de baja diversidad.

La mayoría de medidas de este concepto surgió de las teorías de la información y se


basan en convertir la incertidumbre como sinónimo de diversidad. En el ejemplo
mostrado, si los 17 nidos estuvieran en ramas se podría predecir con mucha certeza el
hallazgo del próximo nido, casi un 85%, cuando ocurriera el primer caso 4 nidos/sitio (alta
diversidad en los sitios de anidamiento), se involucra una gran incertidumbre al predecir el
próximo sitio de anidamiento, seleccionado al azar. Cuando un conjunto de datos en una
escala nominal pueda ser considerado como una muestra aleatoria, entonces se conciben
varias medidas cuantitativas para la medición de la densidad. Tabla 2.6

2.7.4.4.1 Índice de shannon (1948). Se calcula como:


k
H    pi log pi (2.30)
i 1

35
También se conoce como Shannon Wiener, k = número de categorías, pi igual a la
proporción de observaciones encontradas en la categoría i cuando se tiene n = tamaño
muestral y fi = número de observaciones en la categoría i, con p i = fi/n, con lo cual (1) se
puede reescribir como:
k
n log n   fi log fi
H  i 1
(2.31)
n
Tabla 2.6 Sitios de anidamiento de las aves, en una ciudad y otros cálculos
Frecuencias observadas productos fre LOG fre
Localización
Muestra1 Muestra2 Muestra3 fi Log fi1 fi Log fi2 fi Log fi3
(i)
Enredaderas 5 1 2 3.495 0 0.602
Aleros 5 1 2 3.495 0 0.602
Ramas 5 1 2 3.495 0 0.602
Cavidades 5 17 34 3.495 20.918 52.07
n 20 20 40
Sumas 13.979 20.918 53.876
Shannon 0.602 0.255 0.255
H´max 0.602 0.602 0.602
J´ 1 0.424 0.424

El muestreo de sitios de anidamiento de las aves, en la ciudad dado por la Tabla 2.6,
presenta las soluciones. Cualquier base logarítmica puede usarse para ello, siendo muy
usadas las de 10, e, 2. Puede transitarse de una a otra así, Tabla 2.7. Por ejemplo si
H’=0.255 usando Base e, entonces H’=(0.255)x(3.3219) = 0.847 usando la base 2.

Tabla 2.7 Factor de multiplicación para convertir (H, H’, Hmax, H’max) calculadas
con bases diferentes

Convertir desde la Base


Convertir a la base: Base 2 Base10 Base e
2 1 1.4427 3.3219
e 0.6931 1 2.3026
10 0.301 0.4343 1

H’ tiene el problema de subestimar la diversidad en las poblaciones muestreadas pero el


efecto se disminuye al aumentar el tamaño de las muestras, pues es afectado tanto por la
distribución de los datos como por el número de categorías, por lo que teóricamente por lo
menos la máxima diversidad posible par aun conjunto de datos en K categorías se obtiene
por
  Log (k ) (2.32)
H max
Muchos autores prefieren usar:
H'
J' (2.33)

H max
como expresión de la diversidad con respecto a la máxima diversidad, similar a un CV%.

Este ha sido denominado como: índice de uniformidad por Pielow, pero sería preferible
asumirse como de homogeneidad o diversidad relativas. El complemento 1-J’ se muestra
también como un índice de heterogeneidad o de dominancia. Por lo expresado acerca de

36
k como subestimador del número de categorías de una población, la uniformidad muestral
J’ sobreestimará la de la población, siendo J’ un estimador sesgado.

2.7.4.4.1 Índice de diversidad de Brouillon. Cuando el conjunto de datos no se puede


asumir aleatorio, las dos primeras ecuaciones (2.30) y (2.31) no son buenas medidas de
diversidad, por ejemplo si se aplican a la población completa (S). En ese caso, o cuando
las muestras son sistemáticas se prefieren otros índices como el de Brouillon, por
ejemplo. Se calcula como:
n!
Log ( k
)
 fi !
H i 1
(2.34) ,
n
que también se puede reescribir como:
n
n!
Log ( ) ( Log n !   Log fi !)
f1 ! f 2 ! fk !
H  i 1
(2.35)
n n
Log n ! (k  d ) Log c ! d Log (c  1)!
La máxima diversidad será: H max  ;
n
en que c es la porción entera de n/k y, d el resto.
H
La medida de similaridad relativa de Brouillon es entonces: J  , con 1-J como índice
H max
de dominancia.

2.7.5 Distribución conjunta de dos variables aleatorias. Cuando en una misma


población se estudian dos características, aparece el concepto de distribución conjunta de
probabilidades. Se define una distribución conjunta de probabilidades de dos variables X y
Y de una población como:
p( xi , y j )  pr ( X  xi , Y  y j ) (2.36)
Por ejemplo: un árbol de 25 m de altura y 1,25 m3 de volumen, tiene una p(X = 25, Y =
1,25) = un valor dado. Similar a lo presentado para una sola variable, la distribución
conjunta de dos de ellas tiene las siguientes propiedades:
pr ( xi , y j )  0 (2.37) ,

 p( x ,
j i
i yj )  1 (2.38);

F ( xi , y j )  Pr( x  xi y y  y j ) (2.39)
y su covarianza, es una medida de la variación conjunta de dos variables aleatorias y se
define como: Cov( X , Y )   xy y es también:
E ( X   x )(Y   y )   ( x   )( y
j i
i x j   y ) p( xi , y j )  E ( XY )  E ( X ) E (Y ) (2.40) .

Ejemplo Al medir la estatura y peso de unas personas se obtuvieron los siguientes datos
Tabla 2.7.1, en la cual se dan diversas formas de calcular la covarianza

Un caso simple de distribución conjunta, lo constituye el caso de los 2 dados presentado


en la Tabla 2.8, Figura 2.12 solo que en este caso las VA son idénticas para los puntos
obtenidos en S. En otros casos, las cartas de un poker por ejemplo, permiten seleccionar
por ases y corazón negro, en una plantación, es posible seleccionar volúmenes de aserrío

37
y volúmenes de pulpa, en una industria, los daños pudieran ser eléctricos y mecánicos,
etc.

Tabla 2.7.1 Datos para calcular covarianza entre estatura y peso de una muestra de
personas
Estatura Peso Estat -Estpr Peso - Pespr (Estat -Estpr)(Peso-Pespr) Estat*Peso
0.55 8 -0.65 -32.64 21.22 4.4
0.65 12 -0.55 -28.64 15.75 7.8
0.75 17 -0.45 -23.64 10.64 12.75
0.85 22 -0.35 -18.64 6.53 18.7
0.95 26 -0.25 -14.64 3.66 24.7
1.05 32 -0.15 -8.64 1.3 33.6
1.15 38 -0.05 -2.64 0.13 43.7
1.25 42 0.05 1.36 0.07 52.5
1.35 42 0.15 1.36 0.2 56.7
1.45 54 0.25 13.36 3.34 78.3
1.55 60 0.35 19.36 6.78 93
1.65 66 0.45 25.36 11.41 108.9
1.75 72 0.55 31.36 17.25 126
1.85 78 0.65 37.36 24.28 144.3
medias 1.2 40.64 0 0 8.75 57.53
Covarianza 8.75

En la tabla 2.8, Figura 2.12 se estudia el caso de tirar 2 dados con las definiciones dadas
para las VA X = puntos al tirar el primer dado, Y valor alcanzado por el segundo dado con
respecto al primero
0, si el valor del segundo dado es menor que el del primero.
Y = ,
1, en caso contrario.

Tabla 2.8. Función de probabilidad conjunta para X y Y en parejas de dados

Figura 2.12. b) y c) Función de distribución conjunta cuando Y = 0 y Y = 1

38
La distribución acumulativa correspondiente a esta distribución conjunta se da en la Tabla
2.9 Por ejemplo el cálculo de F(3, 1) = 0 + 6/36 + 1/36 + 5/36 +2 /36 + 4/36; así mismo:
F(4, 1) = 0 + (6 + 1 + 5 + 2 + 4 + 3 + 3) = 24/36...etc.

Tabla 2.9 distribución acumulativa correspondiente a la distribución de tirar 2 dados.

2.8 Ayudas Tabulares y gráficas para el análisis de variables cualitativas y


cuantitativas.

2.8.1 Tablas de frecuencias. Despliegan la distribución de los valores de los datos en


forma de una tabla de números a diferencia de otros gráficos. Por ejemplo, como se
distribuyen unos árboles de acuerdo con su diámetro de referencia (dap), agrupados en
intervalos de clases (entre un límite inferior dapi y uno superior daps), tipificados por una
marca de clase (dap), por el tipo de hojas (simples o alternas en un lugar dado), y en
forma absoluta o relativa. Tabla 2.10

Tabla 2.10 Frecuencias agrupadas en clases de árboles de hojas simples y alternas


dapi

Limites dap diámetro Frecuencia Frecuencia relativa (%)


dapi daps dap Hojas sim Hoj altern HS% HA%
0,05 0,09 0,07 1 0 5,0 0,0
0,10 0,14 0,12 1 4 5,0 19,0
0,15 0,19 0,17 3 6 15,0 28,6
0,20 0,24 0,22 8 9 40,0 42,9
0,25 0,29 0,27 4 2 20,0 9,5
0,30 0,34 0,32 0 0 0,0 0,0
0,35 0,39 0,37 2 0 10,0 0,0
0,40 0,44 0,42 0 0 0,0 0,0
0,45 0,49 0,47 1 0 5,0 0,0
Totales 20 21 100,0 100,0

La construcción de tablas de frecuencia en R es simple, siguiendo los pasos mostrados.


Sea por ejemplo un base de los datos del dap de unos árboles en una parcela de Roble
d d d d d
1 24.77 11 13.49 21 26.64 31 27.91 41 18.25
2 26.60 12 16.15 22 19.57 32 21.64 42 25.28
3 19.63 13 15.32 23 23.28 33 12.63 43 16.08
4 15.17 14 25.17 24 21.67 34 27.87 44 24.91
5 26.42 15 20.00 25 14.90 35 16.22 45 24.47
6 21.54 16 17.05 26 13.59 36 22.88 46 17.05
7 20.52 17 13.34 27 22.05 37 26.37 47 11.79
8 22.17 18 11.34 28 18.77 38 11.59 48 13.01
9 12.55 19 14.91 29 22.94 39 25.00 49 26.36
10 10.29 20 11.07 30 11.79 40 25.62 50 19.19
Fueron llevado a R:
dap<-read.table("clipboard")

39
attach(dap)
names(dap)
[1] "d"
frec <- cut(d, breaks = 7,dig.lab = 4, right = FALSE)#Solicitud de 7 clases
tab.fr <- table(frec)#coloca los datos en las respectivas clases. Archivo muy largo
tadefr<-as.data.frame(tab.fr)#Construye como dataframe la table de frecuencas
tadefr
frec Freq
1 [10.27,12.81) 8
2 [12.81,15.32) 8
3 [15.32,17.84) 5
4 [17.84,20.36) 6
Etc…
2.8.2 Histogramas. Son tipos de cartas de barras que despliegan la información en tablas
en frecuencias relativas generalmente o a veces la absoluta, cuyo objetivo es causar un
buen impacto visual para resaltar ciertos elementos de la distribución, Figura 2.13,
construido con R, con los datos anteriores mediante:

hist(d,breaks=6,main="Histograma de los dap",col="gray")


Histograma de los dap
14
12
10
Frequency
8
6
4
2
0

10 15 20 25 30

d
Figura 2.13 Histograma de los d para la parcela de roble

2.8.2.1 Pasteles: Gráficos circulares de visualización rápida. Suponga que un grupo de 20


personas fue encuestado acerca de sus preferencias para tomar un jugo en las siguientes
categorías (1) Casero, (2) Embotellado, (3) Callejero y (4) Importado. Los resultados
fueron
pref<-c(3, 4, 1, 1, 3, 4, 3, 3, 1, 3, 2, 1, 2, 1, 2, 3, 2, 3, 1, 1, 1, 1, 4, 3, 1)

Esto puede graficarse de diferentes maneras: primero haremos una tabla resumen,
entonces vemos las siguientes opciones:
table(pref)
pref
1 2 3 4
10 4 8 3
par(mfrow=c(1,3))
barplot(pref,main="1a opcion, muchas clases")
barplot(table(pref),main="Agrupado en categorías")
barplot(table(pref)/length(pref),main="Agrupado pero por proporciones")

La primera opción no es atractiva, tiene muchas clases, la segunda es un buen resumen


con los datos crudos y la tercera similar a la anterior con datos relativizados.

40
1a opcion, muchas clases Agrupado en categorías Agrupado pero por proporciones

0.4
10
4

0.3
3

0.2
2

0.1
1

2
simple pastel con nombres otros colores

0.0
0

0
1 2 3 4 1 2 3 4

Una gráfica alternativa a la anterior es del tipo pastel que se obtiene en R así:

conteo.jugos = table(pref) # ubique la tabla en un objeto


names(conteo.jugos) = c("Casero\n vas","Embot\n botella", "Callejero","Importado")
pie(conteo.jugos, main=”pastel con nombres”) # imprime nombres
pie(conteo.jugos,col=c("red","green2","cyan","white"),main=”otros colores”)
par(mfrow=c(3,1))
pie(pref,main="simple")
pie(conteo.jugos, main="pastel con nombres") #
pie(conteo.jugos,col=c("gray","green2","blue","white"),main="otros colores")

6 Casero Casero
7 5
43 vas vas
8
9 2
10 Embot Embot
1
11 25 botella botella
12
13 24 Importado Importado
14
15 23
16 22
17 18 19221
0 Callejero Callejero

2.8.3 Cinco números resumen. Son un conjunto de estadísticos que sumarizan una
distribución en forma general: El mínimo, el máximo, los cuartiles y la mediana, pues
generan el rango intercuartil, la distancia entre el primero y el tercero como una medida
burda de dispersión o variabilidad. En R se logran mediante
summary(d)
Min. 1st Qu. Median Mean 3rd Qu. Max.
10.29 14.90 19.60 19.34 24.70 27.91

2.8.3.1 Observaciones remotas o outliers. Son observaciones alejadas, interesantes


por diversas circunstancias, su presencia puede manifestar errores en los datos, o resaltar
fenómenos inusuales o no percatados. Se definen como observaciones que se alejan del
cuartil más cercano por lo menos una vez y media el rango intercuartil.
LI  Q1 1.5 Q3  Q1  , LS  Q3  1.5 Q3  Q1  (2.41)
Por ejemplo para las hojas simples el rango intercuartil del dap es 0.08 (Q= 0.265-0.185 =
0.08), por lo cual diámetros al altura de pecho mayores que 0.385 ms (0.265+1.5*.08) o
menores que 0.065(0.185-1.5*0.08), serán clasificados como outliers. En la tabla hay dos,
uno usualmente corto 0.06 y otro usualmente largo 0.48 ms.

41
Con R, para el conjunto de daps de roble se calcula el rango intercuartil como:
IQR(d)
[1] 9.7925

2.8.3.2 Observaciones extremas o ouliers extremos, son los que se desvían más del
doble de los ordinarios. Los outliers extremos se desvían del cuartil más cercano por lo
menos tres veces el rango intecuartil. Por ejemplo dap mayores a 0.45 m
(0.225+3.0*0.075) o menores que (0.15-3.00*0.075) se clasifican como observaciones
remotas extremas.

Aparte de los conceptos vistos existen otros métodos gráficos simples de construir que
buscan mostrar patrones de distribución y corrigen ciertos errores cuando se hacen
agrupamientos de clase poco exitosos. De estos son particularmente interesantes los de
tallo y ramas y cajas de Tukey y el de bigotes de Box y Cox, y el de Pareto para variables
cualitativas.

2.8.4 Diagrama de Caja, Muesca y Bigotes (Box and Wishkers Plots). Se basan en
representación semigráficas para mostrar las características principales y datos atípicos
de una distribución de frecuencias, enfocándose en las colas de ella, con indicaciones de
la localización de la mediana y el rango intercuartilítico, que al depender del orden de los
datos y no de su magnitud, son poco influenciables por valores atípicos. En resumen
grafican los cinco números de resumen de los datos, con información acerca de la
localización, dispersión, sesgo y colas de unos datos.

La localización queda representada por la línea (la mediana) que corta la caja dentro de
ella, la dispersión por la altura de la caja (distancia entre los extremos de los bigotes), el
sesgo se muestra en la desviación dada entre la mediana y el centro de la caja o, por la
relación entre las longitudes de los bigotes. Las colas se aprecian por la longitud de los
bigotes relativa a la altura de la caja, y por observaciones alejadas que se dibujan
exprofeso. Los de caja se construyen así:
1- Se ordenan los datos de la muestra y se obtiene los valores mínimo, máximo y los tres
cuartiles principales Q1 , Q2 y Q3 .
2- Se dibuja un rectángulo con extremos en Q1 y Q3 y se indica la posición mediana en Q2
3- Se calculan los límites posibles para los valores atípicos, ecuación (2.41), por fuera de
los cuales se consideran los valores atípicos.

Por ejemplo se encontraron los siguientes volúmenes promedios por hectárea en un


bosque muestreado al azar, Tabla 2.11, con los cuales se construyó el gráfico de cajas,
Figura 2.14 a), en el cual se observan la mediana alrededor de 163, el primer cuartil 157,
el tercer cuartil 173 y valores extremos 145 y 183. El anterior puede transformarse un
diagrama de (Box and wishkers notchs), de muesca y bigotes, figura 2.14 b) en el cual la
longitud de la muesca en la caja alrededor de la mediana representa un intervalo de
confianza aproximado para ella. Las muescas de Tukey, se representan como una cintura
a ambos lados de la mediana, para dar la impresión de la significación de las diferencias
entre dos medianas.
Tabla 2.11 Volúmenes por hectárea en un inventario de una plantación

Vol Vol Vol Vol Vol Vol Vol Vol

42
145 152 158 158 164 168 174 178
148 153 158 159 165 170 175 179
148 155 158 160 165 170 175 180
150 155 158 161 165 170 175 180
150 157 158 162 167 172 175 183

Cajas en las cuales las muescas no se traslapan probablemente muestran diferencias


significativas entre diferentes medianas a diferencia de las que no traslapan. El tamaño de
las muescas se incrementa con la magnitud del RI y declinan con la raíz cuadrada del
RI
número de replicaciones muesca  1.58 . Por otra parte si una o ambas muescas se
r
extienden por fuera de los límites de la caja, ello indicaría falta de confianza en la prueba.
Para el ejemplo se presentan los límites de confianza, al 95%, entre 158 y 167
aproximadamente.

Figura 2.14 a) Diagrama de caja para los datos de la Tabla 2.11, b) de bigotes y
muesca (wishker notch)
En R, existe en la library(car) una función más elaborada para esos gráficos. Ejemplo la
base d datos ya usada data<-read.table("c:\\estadistica\\das.txt",header=T), Hagamos
y[101]<- -3.8
y[102]<- 7.6
Boxplot(~y, id.n=Inf,main="Boxplot con iden de remotos") # identify all outliers
[1] "101" "102"
Boxplot con iden de remotos
8

102
6
4
2
y

0
-2

101
-4

2.8.5 Diagrama de Tallos y hojas (Steam and Leafs). Es otro procedimiento, debido a
Tukey, para usar especialmente ante un número bajo de datos Figura 2.15. Consistente
en:
1- Redondear los datos a dos o tres cifras significativas expresados en unidades
convenientes
2- Generar una tabla con dos columnas separadas por una línea que: a) para números
con dos dígitos se escriben a la izquierda las cifras de las decenas que forman el tallo y a

43
la derecha las unidades. Por ejemplo 63 se escribe 6|3. Para tres cifras el tallo se
compondrá de decenas y centenas, así por ejemplo, 145 se escribe como 14|5, etc.
3_ Cada tallo define una clase y es escrito una sola vez, el número de hojas representa la
frecuencia de la clase.
3 14|588
7 15|0023
17 15|5578888889
(4) 16|0124
19 16|55578
14 17|00024
9 17|555589
3 18|003
Figura 2.15 Diagrama de tallo y hojas para los datos de la Tabla 2.9

Como se ve es una tabulación de frecuencias para los volúmenes, divididos en 8


intervalos llamados tallos, cada uno representado por una hilera o fila de los datos de la
Tabla. Cuando se dan puntos muy lejanos de los otros (remotos) se separan en los
extremos del gráfico, para llamar la atención sobre ellos. Con ellos se puede vislumbrar:
asimetrías, grado de dispersión, existencia de observaciones remotas, concentraciones y
clases vacías, entre otros. En el caso mostrado en la Figura 2.15 se observa una leve
asimetría, no se presentan espacios vacíos y la distribución no parece que se alejara
mucho de la normal. Se observa también, como se comportan los acumulados de arriba
hacia abajo y viceversa con respecto a la clase mediana. Existe también un diagrama
llamado stem.leaf.backback de la librería aplpack en R. Por ejemplo sean las longitudes
de ala de ambos sexos en una especie de aves.
loala esp loala esp loala esp loala esp
1 5.9 a 13 7.9 a 25 11.3 a 37 8.3 b
2 7.2 a 14 9.0 a 26 11.8 a 38 7.8 b
3 7.3 a 15 8.2 a 27 10.7 a 39 8.1 b
4 6.3 a 16 8.7 a 28 6.1 b 40 7.4 b
5 8.1 a 17 7.8 a 29 5.8 b 41 8.5 b
6 6.8 a 18 9.7 a 30 7.8 b 42 8.9 b
7 7.0 a 19 7.4 a 31 7.1 b 43 9.8 b
8 7.6 a 20 7.7 a 32 7.2 b 44 9.7 b
9 6.8 a 21 9.7 a 33 9.2 b 45 14.2 b
10 6.5 a 22 7.8 a 34 6.6 b 46 12.6 b
11 7.0 a 23 7.7 a 35 8.3 b 47 11.2 b
12 6.4 a 24 11.6 a 36 7.0 b

ala<-read.table("clipboard")
> attach(ala)
> names(ala)
[1] "loala" "esp"
library(aplpack)
a<-loala[1:27]
b<-loala[28:47]
stem.leaf.backback(a,b)
_________________________________
1 | 2: represents 1.2, leaf unit: 0.1
a b
_________________________________
| 5* |
1 9| 5. |8 1

44
3 43| 6* |1 2
6 885| 6. |6 3
11 43200| 7* |0124 7
(6) 988776| 7. |88 9
10 21| 8* |133 (3)
8 7| 8. |59 8
7 0| 9* |2 6
6 77| 9. |78 5
| 10* |
4 7| 10. |
3 3| 11* |2 3
2 86| 11. |
| 12* |
_________________________________
HI: 12.6
14.2
n: 27 20
_________________________________

stem.leaf.backback(a,b,m=1)#Con ajuste de los parámetros a 1


___________________________________________
1 | 2: represents 1.2, leaf unit: 0.1
a b
___________________________________________
1 9| 5 |8 1
6 88543| 6 |16 3
(11) 98877643200| 7 |012488 9
10 721| 8 |13359 (5)
7 770| 9 |278 6
4 7| 10 |
3 863| 11 |2 3
| 12 |6 2
___________________________________________
>
Existe también el PlotPyramid en la librería library(DescTools), como una manera de
graficar la distribución de la edad en poblaciones humanas. El porcentaje de personas con
unas categorías de edad son arregladas en gráficos de barras, espalada a espalada como
en los anteriores, por ejemplo para distinguir entre sexos, etc. Por ejemplo:
m.pob<-c(3.2,3.5,3.6,3.6,3.5,3.5,3.9,3.7,3.9,3.5,3.2,2.8,2.2,1.8,1.5,1.3,0.7,0.4)
f.pob<-c(3.2,3.4,3.5,3.5,3.5,3.7,4,3.8,3.9,3.6,3.2,2.5,2,1.7,1.5,1.3,1,0.8)
edad <- c("0-4","5-9","10-14","15-19","20-24","25-29","30-34","35-39","40-44","45-49","50-
54","55-59","60-64","65-69","70-74","75-79","80-44","85+")

PlotPyramid(m.pob, f.pob, ylab = edad, space = 0, col = c("gray",


"white"),main="Distribucion de la edad a una linea base",lxlab="Hombres",
rxlab="Mujeres",cex.lab=1.5 )

45
Distribucion de la edad a una linea base

85+
80-44
75-79
70-74
65-69
60-64
55-59
50-54
45-49
40-44
35-39
30-34
25-29
20-24
15-19
10-14
5-9
0-4

4 2 0 0 2 4

Hombres Mujeres
Alv aro/2018-02-11

2.8.6 Análisis de variables cualitativas. Diagrama de Pareto. La ley incipiente de


Pareto expresa que: la mayoría de defectos encontrados en un proceso (casi las tres
cuartas partes) corresponden a unas pocas clases (casi una cuarta parte). Esto para
muchos autores se extiende a diferentes campos como la geografía (tamaño de ríos,
montañas, ciudades), economía (distribuciones de riqueza, beneficios, etc.). Se construye
en dos pasos:
1- Se agrupan en categorías las variables y se ordenan las clases por su frecuencia
relativa de aparición.
2- Cada categoría se representa por un rectángulo cuya altura representa su frecuencia
relativa.
Ejemplo, se encontraron los siguientes defectos en árboles de una plantación, arboles
torcidos (T), I (inclinados), Secos (S), Dañados (D), R (altamente ramificados), Caidos (C),
A (Anillados), Tabla 2.12, construir el diagrama de Pareto y calificar por orden de
importancia los defectos encontrados en la plantación.

Tabla 2.12 Defectos encontrados en una plantación

Tipo de daño F Fac % % ac


T 72 72 43.9 43.9
I 48 120 29.3 73.2
S 18 138 11 84.2
D 10 148 6.1 90.2
R 8 156 4.88 95.1
C 6 162 3.66 98.8
A 2 164 1.22 100
TOTAL 164
library(qcc)
Package 'qcc', version 2.6
freda<-c(72,48,18,10,8,6,2)#vector de frecuencias
names(freda)<-c("T","I","S","D","R","C","A")#etiquetas asignadas a los daños
df.da<-data.frame(freda)#creacion del dataframe
df.da
freda
T 72
I 48
S 18

46
D 10
R 8
C 6
A 2
freda
T I S D R C A
72 48 18 10 8 6 2
pareto.chart(freda)

Pareto chart analysis for freda


Frequency Cum.Freq. Percentage Cum.Percent.
T 72 72 43.902439 43.90244
I 48 120 29.268293 73.17073
S 18 138 10.975610 84.14634
D 10 148 6.097561 90.24390
R 8 156 4.878049 95.12195
C 6 162 3.658537 98.78049
A 2 164 1.219512 100.00000

Los datos permiten ver que dos de los defectos tipifican en alto grado, quedando el resto
como incidentes menores. que produce, además, cuando le agregamos una línea con el
porcentaje de explicación acumulado deseado (por ejemplo, del 75%). Al hacer esto se
puede ver en el eje y cuanto corresponde al 75% de las frecuencias, para lo cual
adicionamos las frecuencias usando la función sum(freda) que multiplicamos por 0.75.

Luego se coloca la línea horizontal con la función de R (h=…) en este caso h= para
sum(frecuencias)*0.75. con color rojo, ancho de línea, ejemplo de 4, con la función lwd=4,
asi:
abline(h=(sum(fre)*0.75),col="red",lwd=4)
Diagrama de Pareto
100%
150

75%
Cumulative Percentage
100
Frecuencia

50%
50

25%
0%
0

T I S D R C A

Daños

Figura 2.16 Diagrama mejorado de Pareto para los datos de la Tabla 2.12

Existen otras opciones para mejorar el gráfico:


main: “para colocar título al diagrama”
xlab: etiqueta para el eje x
ylab: etiqueta para el eje x
col=type(length(defects)): Dispone la paleta de colores para cada barra del diagrama
(heat.colors para rojos y anaranjados, arco iris (rainbow para colores ROYGBIV),
terrain.colors para verdes tierra dentro de grisies, topo.colors para azules degradados,
etc)

47
cex.names=0.5 reduce las Fuentes de las etiquetas(0.5-0.8 muy usados)
las=1: orientación de las etiquetas en los ejes (1=todos horizontalmente, 2= todos
verticalmente, 3=perpendicular a los ejes)
pareto.chart(freda,main="Diagrama de Pareto",xlab="Daños",ylab="Frecuencia",
cex.names=0.6,las=1,col=terrain.colors(6))
abline(h=(sum(freda)*0.75),col="red",lwd=4), etc.

2.9 Elementos de Análisis Combinatorio (AC)

Cuando el número de eventos que componen ciertos conjuntos se vuelve muy grande es
importante conocer número y propiedades de los grupos que se pueden formar con los
diversos elementos de un S o de varios S, al distinguirlos por el número de elementos que
entran en cada grupo, por las clases de elementos y/o por el orden de colocación de ellos
dentro del grupo. De ello se ocupa el AC.

Las agrupaciones formadas serán: monarias, binarias, ternarias y así sucesivamente


según el número de elementos/grupo, este número designa el grado. Los elementos de
un grupo se consideran unos a continuación de otros sobre una línea recta (contorno
abierto) o sobre una circunferencia contorno cerrado, por lo cual se habla de
agrupaciones: lineales o circulares. Sean m los elementos dispuestos para formar grupos,
si son distintos:
m1  m2  m3 mm (2.42)
forman los grupos ordinarios, si algunos elementos son iguales se forman los grupos con
repetición. El AC estudia 3 clases de agrupaciones: variaciones, permutaciones y
combinaciones.
2.9.1 Variaciones (coordinaciones o arreglos). Se llaman “variaciones” de m objetos a,
b, c,.... l de grado n, a los diferentes grupos que pueden formarse con ellos, de suerte que
cada grupo contenga siempre n elementos y se diferencie de otro bien sea en algún
elemento o en el orden de colocación. Ello plantea entonces 2 problemas 1) cómo formar
variaciones de grado n, 2) cuántas serán.

2.9.1.1 Formación de las variaciones de grado n. Por sus diversos grados se forman
así: Las monarias o de 1er grado son los m elementos tomados aisladamente: a, b,
c…….., m, las binarias o de 2 grado se obtiene colocando uno a uno a la derecha de
cada elemento, los elementos restantes, las terciarias o de 3er grado se obtienen al
colocar a la derecha de cada binaria los m - 2 elementos restantes y, las n-arias o de
grado n se forman a partir de las de grado (n - 1) colocando todos los m - n + 1 elementos
restantes. Por ejemplo, sean a, b, c, ch, ... l, m elementos o m grupos distintos. Entonces:

Monarias: no hay diferencias en el grupo de n = 1


 a, b, c, ch...l 
b, a, c, ch,...l 
 
 
 
l , i............a 
Los elementos tomados de a uno no tienen orden de colocación, a forma un grupo, b
forma otro,.... l forma otro.

Binarias: ab, ac ... al

48
ba, bc ... bl
Ternarias: abc, abd, ... abl ... acb, acd ... acl. etc.

2.9.1.2 Número de variaciones de m objetos tomados en grupos de n: Vmn . Se


obtienen así:
Vm1  m (2.43)
Cada monaria produce (m-1) binarias:
Vm2  m(m  1) (2.44)

Cada binaria produce (m-2) ternarias:


Vm3  m(m  1)(m  2) (2.45)
Y así para el resto:
Vm4  m(m  1)(m  2)(m  3) (2.46)
lo que sugiere entonces la ley de formación general:
Vmn  m(m  1)(m  2)(m  3) (m  (n  1))  Vmn  m(m  1)(m  2) (m  n  1) (2.47)
que se puede expresar fácilmente así: El número de variaciones de m objetos de grado n,
es el producto de n enteros de los cuales el mayor es m. Entonces con 20 elementos es
posible formar grupos de a 4 así: V 20
4
= 20 x 19 x 18 x 17 = 116.280.

Una fórmula muy interesante surge transformando la anterior, acudiendo al concepto de


factorial de un número z = z!: producto de los números desde 1 hasta z. Ejemplo. 6! = 1 x
2 x 3 x 4 x 5 x 6. Es de notar que 0! = 1, por definición y operatividad. Sí la fórmula de
variaciones dada se multiplica y se divide por (m - n)!, se llega a la forma usual de su
presentación:
m(m  1)(m  2)...(m  n  1)(m  n)...1 m!
 
n
V m
(m  n)! (m  n)!
(2.48)

2.9.2 Permutaciones. Se llaman así a los grupos que pueden formarse con todos los
elementos de modo que se diferencien por el orden de colocación; o dicho de otra forma
una permutación es una V mm .Se designan como:
m! m!
Pm  Vmm    m! (2.49)
(m  m)! 0!
Similar al concepto anterior existen las permutaciones circulares, en las cuales por
tratarse de un contorno cerrado no habrá ni primero ni último elemento. Entonces
tomando fija la posición de cualquiera de los elementos solo quedan (m 1)! formas
distintas de organización. Se expresa entonces como:
Pc( m )  (m  1)! (2.50)
En R, en la librería DescTools, encuentra como formar esas permutaciones, ejemplo:
x<-letters[1:3]
> Permn(x)
[,1] [,2] [,3]
[1,] "a" "b" "c"
[2,] "b" "a" "c"
[3,] "b" "c" "a"
[4,] "a" "c" "b"
[5,] "c" "a" "b"
[6,] "c" "b" "a"

49
2.9.3 Combinaciones. Se llaman combinaciones de m elementos de grado n, a los
diferentes grupos que puedan formarse con n elementos de los m dados, de modo que
uno difiera de otro no en el orden de colocación, sino en un elemento por lo menos.

2.9.3.1 Formación de combinaciones de grado n. Las monarias: son los elementos


aislados a, b, c ... k, l. Las binarias, colocando a la derecha de cada elemento cada uno
de los siguientes en el orden dado:

Las ternarias escribiendo a la derecha de cada binaria cada uno de los elementos que
siguen en su orden dado:

En R, varios paquetes se ocupan de combinaciones, por ejemplo (library(combinat),


caTools y otros). Ejemplo formar la combinaciones de las primeras 6 letras del alfabeto,
de grado 5:
x<-letters[1:6]
combs(x, 5)
[,1] [,2] [,3] [,4] [,5]
[1,] "a" "b" "c" "d" "e"
[2,] "a" "b" "c" "d" "f"
[3,] "a" "b" "c" "e" "f"
[4,] "a" "b" "d" "e" "f"
[5,] "a" "c" "d" "e" "f"
[6,] "b" "c" "d" "e" "f"

2.9.3.2 Número de combinaciones. Una combinación binaria cualquiera como ac origina


dos grupos distintos ac y ca, que al permutar sus elementos quedan dentro de las
variaciones; o sea que las combinaciones binarias C m2 multiplicadas por el número de
permutaciones de sus elementos P2 dan lugar a todos los grupos que difieren en un
elemento o en el orden de colocación, es decir:
Cm2 P2  Vm2 ; Cm3 P3  Vm3 Cmn Pn  Vmn (2.51)
De acá entonces se puede concluir que:
Vmn m(m  1)(m  2) ... (m  n  1) m!
Cmn    (2.52)
Pn 1 2  3...  n (m  n)!n !
que también se escribe Cmn   mn  por simple notación y recibe el nombre de número
combinatorio, del cual se muestran algunas propiedades:
m
1) Todo   es un entero.
n 
2) Números combinatorios de igual número de elementos y órdenes complementarios son
m m 
iguales, o sea:     
n  m  n
m m  m  1  m  1
3) Un número combinatorio   se puede descomponer así:      
n  n  n   n 1 

50
4) Aplicando reiteradamente la anterior:
 m   m  1  m  2   m  3  m  n m  n
      ...    
  
n n   n  1   n  2  1  0 
 n   n  1
5) Aplicando reiteradamente la 3):      que al sumar y simplificar conduce a la
 n   n  1
importante fórmula:
 m   m  1  m  2   m  3   n   n  1
      ...    
  
n n  1   n  1   n  1   n  1  n  1
6) Aplicando algunas de las anteriores se puede encontrar el número de grupos entre los
m tomando los p primeros. Los sumandos de la derecha son grupos donde no entra
ninguno de los p primeros pero si uno, dos, tres, o p primeros:
 m   p  m  p   p  m  p   p  m  p   p  m  p 
               ...    
 n   0  n   1  n  1   2  n  2   p  n  p 

2.9.4 Variaciones con repetición. Aquellas cuyos elementos pueden repetirse una o
varias veces se representan como VRmn , por ejemplo: las variaciones binarias de m
elementos a, b, ...k, l se formarán así:

El número que puede formarse se deduce ya que m monarias reproducen m binarias:


VRm2  mm  m2 ; VRm3  mVRm2  m  m 2  m3 ; VRmn  m n (2.53)
En R en la library(DescTools), existe la function CombSet(x, m, repl=FALSE, ord=TRUE)

Ejemplo formar las variaciones con repetición de orden 3 de las cuatro primeras letras del
alfabeto:
x <- letters[1:4]; n <- length(x)
x
[1] "a" "b" "c" "d"
n
[1] 4

VRn<-CombSet(x, 3, repl=TRUE, ord=TRUE)


head(VRn)
[,1] [,2] [,3]
[1,] "a" "a" "a"
[2,] "b" "a" "a"
[3,] "c" "a" "a"
[4,] "d" "a" "a"
[5,] "a" "b" "a"
[6,] "b" "b" "a"

Observe la siguiente orden y encuentre las diferencias

head(VRn1<-CombSet(x, 3, repl=TRUE, ord=F))


[,1] [,2] [,3]
[1,] "a" "a" "a"
[2,] "a" "a" "b"
[3,] "a" "a" "c"
[4,] "a" "a" "d"

51
[5,] "a" "b" "b"
[6,] "a" "b" "c"

2.9.5 Permutaciones con repetición. Implica suponer que entre los m elementos hay
iguales al elemento a, iguales al b, etc, de forma que      m Suponiendo que
todos los elementos fueran distintos Pm m ! , pero hay ! permutaciones iguales:
m! m!
Pm  ; si hay  ! permutaciones iguales entonces Pm ,   , si hay  ! permutaciones
!  ! !
iguales entonces:
m!
Pm ,  , ...  (2.54)
 ! ! !... !
pero     ...    m .

2.9.6 Combinaciones con repetición. Las combinaciones con repetición de m elementos


de grado n, suponen que estos elementos pueden repetirse hasta n veces. Las binarias
generales de a, b, c…, l ; son :

o sea que el elemento escrito en primer lugar puede repetirse, lo que equivale a un
elemento más, entonces:
 m  1  m  n  1
VRm2  CRm2 P2  Cm2 1  ;  CRmn  n 1    (2.55)
 2   n 
Ejemplos: 1) De Medellín a Cali hay 15 municipios de parada de un transporte. ¿Cuántos
tiquetes distintos deberían imprimirse de modo que cada uno lleve los nombres de los
municipios de origen y de llegada? b) Si cada tiquete se usa indistintamente para dos
municipios, es decir de AZ, sirve como de ZA.
15 14
a) V152 15 14 210 tiquetes b) 105 tiquetes
2
2) Cuántos números de 3 cifras pueden formarse a) sin que haya ninguna repetida en
cada número, b) si se pueden repetir las cifras
a) V103 10 9 8 720 ; pero hay que restar los números que empiezan por cero o sea:
720-72=648. b) VR103 VR102 103 102 900

3) a) De cuántas maneras distintas se pueden filar 6 personas. b) Lo mismo pero en un


parque circular.
a) P6 6! 720 , b) Pc6  (6  1)!  5!  120

4) En una patrulla de scouts de 12 niños, ¿cuántos guardias diferentes de niños pueden


formarse?
12  11 10
C123   220
1 2  3

5) Qué probabilidades se tienen de sacar 10 u 11 al arrojar dos dados

52
Casos favorables
P . Casos posibles:V62 62 36 Casos favorables:
Casos posibles
6 y 4, 4 y 6, 5 y 5
 ; para 10: 3, para 11: 2, entonces:
6 y 5, 5 y 6
3 2 3 2 5
P10  ; P11  ; P   .
36 36 36 36 36

6) Una bolsa con 12 cartulinas del 1-12, qué probabilidad tendrá de que al extraer dos
cartulinas sumen el número 10.
Casos posibles: V122   122   12  11
Casos favorables 1+ 9 = 2 + 8 = 3 + 7 = 4 + 6 = 6 + 4 = 7 + 3 = 8 + 2 = 9 + 1  4 casos
favorables, al solo importar la suma:
4
P  0.03
12 11
7) El naipe español tiene 40 cartas (rey, caballo, sota, 7, 6, ..., 2, as) y 4 pintas, oro, copa,
espada y bastos. ¿Cuál será la probabilidad de que a un jugador le lleguen 3 reyes en un
manojo de 6 cartas?. Casos posibles:
 40  40  39  38  37  36  35 ´
   3 838.380
 6 6!
Casos favorables:
 4   36  4  3  2 36  35  34 28.560
      28.560 , entonces P  0.00744
3 3  3 2 1 2  3 ´
3 838.380
8) En un estante de una biblioteca con espacio para 25 libros hay 7 de estadística, 8 de
física y 10 de química. De cuántas maneras diferentes pueden colocarse según la
temática tratada? Son unas permutaciones con repetición:
25!
P257,8,10   21.034´470.600
7! 8! 10!
Es posible demostrar que la suma de todas las combinaciones sin repetición de n
elementos desde los de orden 1 hasta los de orden n es Sc = 2n – 1.

El análisis combinatorio es el camino que adoptan las matemáticas para traducir, en


números, los árboles de resultados vistos, que con poca información ayudan en la
concepción de los problemas pero que, con grandes bases de datos lo harían imposible.

2.10 Función de densidad conjunta de 2 VA X, Y continuas = f (x, y).

Dos VAC X y Y se dice que tienen una función bivariada o conjunta de densidad de
probabilidades, f(x, y), si para dos pares de valores (x1, x2) y (y1, y2),
y2 x2
p( x1  X  x2 y y1  Y  y2 )    f ( x, y) dx dy (2.56)
y1 x1

Todo es análogo a lo mostrado en VAD entonces deben cumplir:


1) f ( x, y)  0; x y y ;
 
2)  
 
f ( x, y ) dxdy  1 ,
3) p  ( x, y )  A   f ( x, y) dx dy para cualquier región A de un plano XY, entonces:
A

53
x1 y1
F ( x1 , y1 )  p1 ( x  x1 , y  y1 )    f ( x, y ) dx dy (2.57) .
 

La proporción del volumen generado con respecto al volumen del cilindro total total da la
probabilidad, Figura 2.17, que equivale al área gris claro contra el área total gris. El
volumen del cilindro equivale al 100% de probabilidades

Figura 2.17 Probabilidad conjunta de dos variables aleatorias

Por ejemplo para un embarque de mercancía, se garantiza que llegará a unas horas
dadas en un día escogido. Un comerciante específico encargará dicha mercancía durante
el mismo día. Sea: X = tiempo de recibo de la mercancía en fracciones de día, tales que:
0  X 1 y Y = tiempo de encargo de la mercancía en fracciones de día, tal que 0  Y 1.

Los recibos muestran que es muy probable que la mercancía sea recibida durante cortos
intervalos de tiempo por día, incluso antes de ser pedidos, y lo mismo para los intervalos
de solicitud y casi de igual longitud, o sea que los intervalos llegada–solicitud, son también
igualmente probables, por lo cual la función conjunta f(x, y) = 1. Cuando se cumpla lo
anterior este problema gráficamente debe ser como lo presenta la figura 2.18 a),

Figura 2.18. a) Elementos gráficos para resolver el problema. b), c) y d) Soluciones


intuitivas para los ejemplos (1) a (3)
que hará posible responder algunas preguntas asociadas con los tiempos relativos a la
llegada y solicitud de mercancías. Para hacerlo es bueno ver diagramáticamente el área
en el plano X Y en el cual se debe integrar f(x, y).

Problema (1). Cuál será la probabilidad de que tanto el encargo como la entrega de las
mercancías ocurran hasta el mediodía (12 m). Se plantea como:

54
 1 1 1 1 1 1 1 1
Pr  0  X  y 0  Y     2  2 1dxdy  ; o XY 0   
12

 2 2 0 0 4 2 2 4
Sin hacerlo matemáticamente la   1 4 , como lo muestra la figura 2.18 b).

Problema (2). Cuál será la probabilidad de que el encargo ocurra después de su


recepción. Se trata de encontrar:
1 x 1
Pr(0  X  1 y Y  X )    1dx dy  2 . Figura 2.18 c)
0 o

Problema (3). Cuál será la probabilidad de que el encargo ocurra durante el medio día
siguiente a su llegada, importante para artículos perecibles. Entonces se puede hacer en
 1 
dos partes: p  0  X  1 y X  Y  X   1 , Figura 2.18 d), o sea:
 2 
 1 1 1  1 x 1 1 1 1 1 3
p0  X  y x  Y  x    p   x  1 y x  Y  1   2  2 1dydx  1  1dydx   
 2 2 2  0 x
2
x 4 8 8

2.11 Distribuciones marginales.

Es muy importante a veces conocer una de las distribuciones de X o de Y. Ello es posible,


sumando o integrando sin la variable carente de interés. Si P(xi, yi) es la función de
probabilidad para dos VAD X y Y, es posible obtener pi(xi) de x como
p1 ( xi )   p( xi, y j ) (2.49)
j

o sea las distribuciones de Y dejando X constante, así mismo:


p2 ( y j )   p( xi , y j ) (2.50) ,
i

que muestra como se distribuye X para cada valor yj. Figura 2.18. Similarmente, para X y
Y funciones continuas con función de densidad conjunta f(x, y):
 
f1 ( x)   f ( x, y ) dy; f 2 ( y)   f ( x, y ) dx (2.51)
 

Las expresiones resultantes son llamadas funciones marginales de probabilidades para


VAD o funciones de densidad marginales para VAC. Por ejemplo con los datos de los
dados, Tabla 2.13, las probabilidades marginales p 1(x) = función de probabilidades al tirar
un solo dado, p2(y) da la probabilidad de que el segundo dado tome un valor menor que el
primero, o sea p2(0); o un valor igual o mayor que el del primer dado, o sea p 2(1).

Tabla 2.13 Funciones de probabilidades marginales: para los VA X, Y.


X 1 2 3 4 5 ~ Y 0 1
P1(X) 1/6 1/6 1/6 1/6 1/6 ~ P2(Y) 15/36 21/36

En el problema de la mercancía:
1 1
f1 ( x)   1dy  1 0  X  1; f 2 ( x)   1dx  1 0  Y  1
0 0

2.12 Independencia de variables aleatorias: recordar que P(AB) = P(A).P(B) si dos


eventos A y B son independientes. Se puede definir entonces que, dos VA, X y Y son
independientes si y únicamente si su función conjunta de probabilidades o su función de
densidad de probabilidades es el producto de sus funciones marginales de distribución.
Entonces si X y Y son independientes:

55
p  xi , y j   p1  xi  p2  y j  xi y j en VAD 

 (2.52)
f ( X , Y )  f1 ( X ) f 2 (Y ) XY en VAC 

concepto fundamental en el estudio de variables aleatorias. Se puede decir de muchas
formas, dos variables aleatorias X 1 y X 2 son independientes si el conocimiento que se tiene
de una de ellas no aporta información respecto de los valores que alcanzará la otra, o
como se expresó: si f (X1 X2 ) f (X1 ) o sea que la función condicionada es idéntica a la
función marginal, por ello también se puede decir que
f ( X1 , X 2 )  f ( X1 ) f ( X 2 ) (2.53)
ya vista. Es una condición tan fuerte la independencia que si varias VA x1 , x2 , , xn , aún
como datos son independientes también lo será cualquier subconjunto de ellas como:
x1 , x2 , , xh con h  n . Igual cosa sucede para cualquier conjunto de funciones de las
variables individuales g ( x1 ), g ( x2 ), , g ( xn ) o de conjuntos disjuntos de ellas
g1 ( x1 , x2 , , xi ), g2 ( x1 , x2 , , xk ), , gn ( x1 , x2 , , xn )
Por ejemplo, si al medir las alturas, diámetro y posición sociológica (PS) de unos árboles,
o sea la ubicación de sus copas en el dosel, la distribución de las alturas con una PS=3 es
la misma que con PS=2, altura y PS resultan independientes.

Otra consideración importante, que ya se había vislumbrado a través del concepto de


esperanza, es la necesidad de clarificar si dos variables son independientes al operar
matemáticamente con ellas, pues la suma o resta, multiplicación o división dan resultados
diferentes si aparece la covarianza como manifestación de dependencia.

2.13 Distribuciones condicionales.

Se vio que P(A|B) = Pr(AB)/P(B) o que Pr(B|A) = P(AB)/P(A). Inmediatamente surge el


concepto análogo con VA. Sean X y Y dos VAD con P x i , y j . La función de probabilidad
condicional de Y dado X, que se denotará: P y j x i es entonces la función de probabilidad
de Y, dado que se sabe que X = xi entonces:
p( xi , y j )
p( y j xi )  (2.54)
p1 ( xi )
P1 x i = ya definido como función de probabilidad marginal de X. Así mismo:
f (X , Y)
g (Y X )  (2.55)
f1 ( X , )
Si X y Y son VA independientes p( xi , y j )  p1 ( xi ) p2 ( y j ) =
p1 ( xi ) p2 ( y j )
p( y j xi )   p2 ( y j ); g (Y X )  f 2 ( y )   ( XY )  0 (2.56)
p1 ( xi )
2.14 Medidas descriptoras de distribuciones multivariadas. Si h(X, Y) es una función
de 2 VA. X y Y, entonces:
   h( X , Y ) f ( X , Y ) dy dx en VAC
  
E  h ( x, y )    (2.57)
 h( xi , y j ) p ( xi , y j ) en VAD
 i j
2.15 Otras reglas para esperanzas y varianzas.

56
Para muchas operaciones o demostraciones con variables aleatorias es importante
recordar que:
1) E ( X  Y )   x   y (2.58)
2) E( X )  x (2.59)
3) E ( XY )  E ( X ) E (Y )   x  y si X y Y son VA independientes (2.60)
4) VAR( X  Y )  VAR( X )  VAR(Y )  2COV ( X , Y ) si X y Y no son VAI (2.61)
5) VAR( X  Y )  VAR( X )  VAR(Y ) si VA independiente (2.62)
6) VAR( X  Y )  VAR( X )  VAR(Y )  2COV ( X , Y ) si no son VA indep. (2.63)
7) VAR( X  Y )  VAR( X )  VAR(Y ) si VA independiente (2.64)

Ejemplo. Encontrar los estadísticos para la distribución conjunta de las 2 variables


aleatorias X 1 y X 2 , donde X 1  frecuencia de aparición de una especie forestal;
X 2  frecuencia de aparición de un coleóptero, que después de un muestreo presentaron
los datos de la Tabla 2.14, en la cual se dan las funciones conjuntas de probabilidades
p12 ( Χ1, Χ 2 ) y, p(Χ 1) y p(Χ 2 ) :
E ( X1 )  1*0.26  2*0.33  3*0.41  2.15  1 E ( X 2 )  1*0.70  2*0.30  1.30  2
;

Tabla 2.14. Distribución conjunta de dos variables


X2
1 2 Pi(X1)
1 0.21 0.05 0.26
X1 2 0.18 0.15 0.33
3 0.31 0.1 0.41
Pj(X2) 0.7 0.3 1

3
 11  Ε ( X 1  1 )2   ( x1i  2.15) 2 pi ( X 1 ) 
i 1

(1  2.15) *0.26  (2  2.15) *0.33  (3  2.15)2 *0.41  0.6475


2 2

2
 22  Ε ( X 2  2 )2   ( x2 j  1.30)2 p j ( X 2 )  (1  1.30)2 *0.70  (2  1.30) 2 *0.30  0.21
j 1
3 2
12  Ε ( X1  1 )( X 2  2 )   ( x1ij  x1 )( x2ij  x2 ) pij ( X1 , X 2 ) 
i 1 j 1

(1  2.15) (1  1.30) *0.21  (2  2.15) (1  1.30) *0.18  (3  2.15) (1  1.30) *0.31


(1  2.15) (2  1.30) *0.05  (2  2.15) (2  1.30) *0.15  (3  2.15) (2  1.30) *0.10  0.05
3 2
 21  Ε ( X 2  2 )( X1  1 )   ( x1ij  x1 )( x2ij  x2 ) pij ( X1 , X 2 ) 
i 1 j 1
(1  1.30)(1  2.15) *0.21  (1  1.30)(2  2.15) *0.18  (1  1.30)(3  2.15) *0.31
(2  1.30)(1  2.15) *0.05  (2  1.30)(2  2.15) *0.15  (2  1.30)(3  1.30) *0.10  0.05

57
X
Y 1 2 yp(y) (y-pr)^2 cálculos covar
1 0.21 0.05 0.26 0.26 0.344 0.072 -0.040
2 0.18 0.15 0.33 0.66 0.007 0.008 -0.016
3 0.31 0.1 0.41 1.23 0.296 -0.079 0.060
0.7 0.3 1 2.15 0.648 VAR(y) 0.001 0.004 0.005
x*p(x) 0.7 0.6 1.3 covarianza
p(x-
0.063 0.147 0.21 VAR(x)
pr)^2
corr 0.009

2.16 Covarianza muestral.

La dependencia entre variables cuantitativas propicia el concepto de covarianza. Aparece


la noción de Covarianza Muestral como una medida de la asociación lineal entre las dos
variables X1 y X2:
1 n
 ( x1 j  x1 )( x2 j  x2 ) (2.65)
s12 
n j 1
que si resulta mayor que cero, V1 y V 2 crecen y, si es menor, V1 crece y V 2 decrece o
viceversa. En términos generales se expresa como:
1 n
sik   ( xij  xi )( xkj  xk ) (2.66)
n j 1
Cuando i  k  sik  ski  sii  skk .
Por efecto de variables en dimensiones y escalas diferentes, la medida anterior puede
distorsionarse, por lo cual se pueden eliminar las unidades de medición, apareciendo el
Coeficiente de Correlación Muestral, de los cuales existen varios como el de Pearson, el
de Sperman, el  de Kendall y otros. La covarianza de dos variables estandarizadas es
llamada la correlación lineal de Pearson
n

sik
 (x 1
ij  xi )( xkj  xk )
 ik  
j
(2.67)
n n
sii skk
 (x
j 1
ij  xi ) 2
 (x
j 1
kj  xk ) 2

Puede considerarse una versión estandarizada de la covarianza muestral, en que -1   


1.  = 0 implica falta de ajuste ¨lineal¨. Importa su signo si   0 un valor en el par  x
implica otro valor en el par  x , si   0 un valor grande en el par, implica otro valor
también grande o viceversa.

Ejemplo. Luego de una serie de mediciones en varios tipos de asociaciones de bosque,


fueron elegidos 14 datos de volumen promedio por hectárea contra diámetro promedio por
hectárea y se graficaron como se muestra en la Figura 2.19, es evidente la presencia de
2 observaciones relevantes, una del Catival, el bosque de los mejores volúmenes, mayor
en ambos ejes X 1 y X 2 cuando el Cedral a pesar de tener diámetro mayor que otras
especies da un bajo volumen comercial entre las 14 especies. Al calcular algunos

58
coeficientes de correlación se encontraron los valores de la Tabla 2.15. Resulta claro que
las observaciones remotas o atípicas tienen un efecto considerable en  12 .

Figura 2.19 Datos de diámetro promedio Χ 1 en cm/ha y volumen Χ 2 en m3/ha para


14 especies en varias asociaciones de bosque natural
Tabla 2.15 Coeficientes de correlación entre d y V para algunas especies de un
bosque

0.96 para las 14 especies


 12  0.80 para todas excepto el catival
0.98 para todas excepto el cedral
0.93 para todas excepto cedral y catival

Ejemplo R:
Sean unos datos da campo
asnm temp pH nuesp
1 300 26 3.5 78
2 750 24 6.33 86
3 1200 23 3.28 103
4 1500 22 6.01 105
5 1800 20 5.25 103
6 2100 18 6.13 120
7 2500 16 4.01 124
8 3200 13 5.81 132
9 3600 12 4.96 145
10 4000 8 4.45 170

eco<-read.table("clipboard")
attach(eco)
names(eco)
[1] "asnm" "temp" "pH" "nuesp"
> summary(eco)
asnm temp pH nuesp
Min. : 300 Min. : 8.00 Min. :3.280 Min. : 78.0
1st Qu.:1275 1st Qu.:13.75 1st Qu.:4.120 1st Qu.:103.0
Median :1950 Median :19.00 Median :5.105 Median :112.5
Mean :2095 Mean :18.20 Mean :4.973 Mean :116.6
3rd Qu.:3025 3rd Qu.:22.75 3rd Qu.:5.960 3rd Qu.:130.0
Max. :4000 Max. :26.00 Max. :6.330 Max. :170.0

var(eco)#Matriz de covarianzas
asnm temp pH nuesp
asnm 1505805.5556 -7143.3333 128.9055556 33114.4444444

59
temp -7143.3333 34.4000 -0.4840000 -158.9111111
pH 128.9056 -0.4840 1.2522011 0.4402222
nuesp 33114.4444 -158.9111 0.4402222 765.8222222

cor(eco)#Matriz de correlaciones
asnm temp pH nuesp
asnm 1.00000000 -0.99251538 0.09387504 0.97514465
temp -0.99251538 1.00000000 -0.07374441 -0.97906395
pH 0.09387504 -0.07374441 1.00000000 0.01421579
nuesp 0.97514465 -0.97906395 0.01421579 1.00000000

var(asnm)#entrega varianza para variables individuales


[1] 1505806
var(asnm,temp)#entrega covarianza entre dos variable
[1] -7143.333
cor(asnm,temp)#Correlación entre dos variable
[1] -0.9925154

Plot(eco)
10 15 20 25 80 120 160

3000
asnm

1000
25
20

temp
15
10

5.5
pH

4.5
3.5
160

nuesp
120
80

1000 3000 3.5 4.5 5.5

2.17 Funciones de varias variables aleatorias.

Son las que se forman de modo que una variable nueva aparezca como el resultado de
aplicar una operación a otras. De ellas las más conocidas son las famosas combinaciones
lineales. Sea X1, X2 ... Xn, una serie de variables aleatorias que pudieran reunirse en una
sola variable así:
k
Yi  a1 X 1  a2 X 2   ak X k  ...   a j X j ; a j  constante (2.68)
j 1

Por ejemplo, el costo de un producto se puede descomponer en varios costos:


C  C1 X1  C2 X 2 , en que: X1 = costo fijo; X2 = un costo variable, el volumen de un árbol
Vi a1 a2d 2 a3H , d un diámetro de referencia, H altura total. Los descriptores de las
combinaciones lineales se encuentran aplicando los conceptos de esperanza y algunas
de propiedades vistas:
 k  k
1) E (Yi )  E   a j X j    a j E ( X j )
(2.69)
  j 1
j 1

Por ejemplo: Y1  2 X 1  3 X 2  4 X 3  E (Y1 )  2 X 1  3 X 2  4 X 3


 k  k k
2)  2 (Yi )   2   a j X j    ai a  ( X j , X ); a j , a  constantes (2.70)
 j  j 1 1

por ejemplo:
Ye  a1 X 1  a2 X 2   2 (Ye )   2 (a1 X 1  a 2 X 2 )  a1a1 2 ( X 1 )  a1a2 ( X 1 , X 2 ) 
a2 a1 ( X 1 , X 2 )  a2 a2  2 ( X 2 )  a12 2 ( X 1 )  2a1a2 ( X 1 , X 2 )  a22 2 ( X 2 )

60
en que  ( X 1 , X 1 )   2 ( X 1 )

3) Si Xl son independientes, por ejemplo  ( X1 , X 2 )  0 :


 2 (a1 X1  a2 X 2 ak X k )   a j 2 ( X j ) (2.71)
j 1

Como casos especiales se presentan estos dos:


 2 ( X 1  X 2 )   2 ( X 1 )   2 ( X 2 ) VAI (2.72)
y la covarianza de dos funciones lineales de VA independientes.
k k
 (Y1 , Y2 ) con Y1   ai X i ; Y2   bi X i
j 1 j 1

 k  k k
 (Y1 , Y2 )     ai X i , b X
   a j b j ( X j )
i i
2
(2.73)
 j 1 j 1  j 1
Ejemplo. Y1  a1 X1  a2 X 2 ; Y2  b1 X1  b2 X 2   (Y1 , Y2 )  a1b1 2 ( X 1 )  a2b2 2 ( X 2 )

61