Вы находитесь на странице: 1из 14

Semana 2: Captulo 2

Despus de haber visto algo ms de R y RStudio, seguiremos con algunos conceptos de


Bioestadstica.
Anlisis descriptivo mediante tablas y grficos.
Recordemos que una vez que se ha tomado la decisin sobre cul ser la poblacin estadstica y
la muestra a analizar, una vez que se toman o miden las variables en cada elemento, deber
registrarse por escrito esta informacin. Despus de eso el investigador puede adems trasladar
esos datos a una base de datos de modo informtico. Lo que nunca debe hacerse es destruir la
base de datos en formato papel. En algn libro alguna vez se ley que es ms duradera la ms
suave de las tintas sobre papel que la mejor de las memorias y esto incluye tanto a memoria
neuronal como informtica. El papel es siempre el mejor plan B ante la ausencia de un valor, la
confirmacin de un dato anmalo o un posible error de tipeo.
Ahora, ya sea en papel o en la computadora, se tiene un listado de letras o nmeros, dependiendo
si la variable es cualitativa o cuantitativa y debiramos entonces resumir esa informacin. Ya
aprendimos una forma de resumir la informacin: con medidas de resumen. Ahora describiremos
otras dos: mediante tablas y grficos.
Tablas de distribucin de frecuencia
Variables cualitativas nominales
Se tiene una variable cualitativa nominal. Por ejemplo se les pregunta a 20 estudiantes tomados al
azar si se enteran de la informacin de la Carrera que cursan en los Avisadores, por vas
informticas o por comentarios de pasillo. Los resultados son:
Avisadores, avisadores, comentarios, informtica, comentarios,, avisadores.
Entonces se resume esa informacin en la siguiente tabla:

(FA)
11
6
3

(FR)
0,55
0,30
0,15

Variable
(X)
Avisadores
Comentarios
Informtica

Tabla 1: Distribucin de frecuencia del modo en que se enteran de la informacin importante los
estudiantes.
Donde: la variable modo en que se enteran de la informacin la denominamos X
: Frecuencia Absoluta: nmero de elementos que poseen un valor determinado de la variable.
En la tabla 1: 6 personas se enteran por Comentarios.
: Frecuencia Relativa: proporcin de elementos que poseen un valor determinado de la variable.
En la tabla 1: una proporcin de 0,3 se enteraron por Comentarios (dicho de otro modo, el 30,00%
de las personas se enteran por comentarios de pasillo).
Los grficos correspondientes a esta tabla son grficos de tortas y de barras (no confundir con
histograma).

DIPLOMATURA
Bioestadstica bsica aplicada, mediada con entorno R.

Semana 2: Captulo 2

Figura 1: Grfico de barras y de torta de una variable cualitativa

Variables cuantitativas

Si ocurriera que la informacin que poseemos es escasa, con pocos nmeros diferentes, no vale la
pena agruparla. Entonces se est en presencia de una Distribucin simple o de tipo 1.

Ejemplo 1. Se estudia el nmero de hojas que poseen las plntulas de una especie vegetal al mes
de haberlas sembrado. Se toman 5 plntulas, se les cuentan las hojas y los valores son: 12; 17; 11;
13; 8.

Figura 2: Representacin grfica de una distribucin de tipo 1

Si se tienen ms elementos tomados en la muestra, vale la pena el resumirlos en una tabla.

Distribucin de tipo 2
Ocurre cuando es necesario agrupar a una variable cuantitativa discreta con pocos valores
diferentes.
Ejemplo 2. En un hospital, se le pregunta a cada uno de los empleados de una muestra de 130, el
nmero de hijos que posee. Los resultados son: 1; 2, 0; 5; 7; 3; 1; 1; 3;; 4.
Entonces ahora s podemos resumir en una tabla donde en cada fila colocaremos el valor de la
variable del siguiente modo:

DIPLOMATURA
Bioestadstica bsica aplicada, mediada con entorno R.

Semana 2: Captulo 2

Variable
(FA)
(FR)
(FAAa)
(FRAa)
(FAAd)
(FRAd)
(X)
20
0,1538
20
0,1538
130
1
0
31
0,2385
51
0,3923
110
0,8462
1
36
0,2769
87
0,6692
79
0,6077
2
19
0,1462
106
0,8154
43
0,3308
3
11
0,0846
117
0,9000
24
0,1846
4
9
0,0692
126
0,9692
13
0,1000
5
3
0,0231
129
0,9923
4
0,0308
6
1
0,0077
130
1
1
0,0077
7
Tabla 2: Tabla de distribucin de frecuencias de la variable nmero de hijos
Donde: X es la variable nmero de hijos.
: Frecuencia Absoluta: nmero de elementos que poseen un valor determinado de la variable.
En la tabla 2: 31 personas poseen 1 hijo
: Frecuencia Relativa: proporcin de elementos que poseen un valor determinado de la variable.
En la tabla 2: una proporcin de 0,2385 poseen 1 hijo (dicho de otro modo, el 23,85% poseen un
hijo).
Frecuencia Absoluta Acumulada ascendente: nmero de elementos acumulados que poseen
un valor determinado de la variable y sus valores inferiores. En la tabla 2: 51 personas poseen 1
hijo o menos.
Frecuencia Relativa Acumulada ascendente: proporcin de elementos acumulados que
poseen un valor determinado de la variable y sus valores inferiores. En la tabla 2: una proporcin
de 0,3923 poseen 1 hijo o menos.
Frecuencia Absoluta Acumulada descendente: nmero de elementos acumulados que
poseen un valor determinado de la variable y sus valores superiores. En la tabla 2: 110 personas
poseen 1 hijo o ms.
Frecuencia Relativa Acumulada descendente: proporcin de elementos acumulados que
poseen un valor determinado de la variable y sus valores superiores. En la tabla 2: una proporcin
de 0,8462 poseen 1 hijo o ms.
Los grficos que corresponden a esta distribucin son los que se presentan en la Figura 3.

Figura 3: Representacin grfica de una distribucin de tipo 2. Se presenta un grfico de bastones


y de escalones (frecuencia acumulada)

DIPLOMATURA
Bioestadstica bsica aplicada, mediada con entorno R.

Semana 2: Captulo 2
Distribucin de tipo 3
Ocurre cuando es necesario agrupar una variable cuantitativa continua o una cuantitativa discreta
con muchos valores diferentes.
Ejemplo 3. Se tomaron 68 porciones de agua de un ro para estudiar la distribucin del
Carbonatos. Los resultados (en ppm) son: 423,07; 452,23;...; 561,34.
Como se puede ver es imposible disponer una tabla en la forma de la tabla 2.2, ya que si una
variable es continua es poco probable tener dos valores iguales de la variable. De tal modo,
quedara una tabla con 68 filas donde cada fila poseer una frecuencia absoluta de 1 (uno) para
resumir 68 valores. Por lo tanto es necesario dividir a la variable en distintos intervalos de clase.
Cada intervalo a su vez posee una amplitud determinada.
No hay un nmero de intervalos exactos, pero una aproximacin a ste fue propuesta por Sturges
en 1936 que se obtiene mediante la frmula:
k= 1+3,33 Log10(n),
Donde k es el nmero ptimo de intervalos.

MC

(FA)

(FR)

(FAAa)

(FRAa)

(FAAd)

Variable
X

(FRAd)

435,61

0,0294

0,0294

68

448,15

423,07

460,69

11

0,1618

13

0,1912

66

0,9706

473,23

448,15

485,77

18

0,2647

31

0,4559

55

0,8088

498,30

473,23

510,84

17

0,25

48

0,7059

37

0,5441

523,38

498,30

535,92

15

0,2206

63

0,9265

20

0,2941

548,46

523,38

561,00

0,0735

68

0,0735

573,54

548,46

Tabla 3: Tabla de distribucin de frecuencias de la variable Carbonato


Donde:
X: variable Carbonato (en ppm)
MC: Marca de clase (se obtiene promediando los extremos del intervalo)
: Frecuencia Absoluta: nmero de elementos que se encuentran en un determinado intervalo de
valores de la variable. En la tabla.3: 11 alcuotas de agua poseen entre 448,15 y 473,23 ppm de
Carbonato.
: Frecuencia Relativa: proporcin de elementos que se encuentran en un determinado intervalo
de valores de la variable. En la tabla 3: una proporcin de 0,1618 poseen entre 448,15 y 473,23
ppm de Carbonato (dicho de otro modo, el 16,18%).
Frecuencia Absoluta Acumulada ascendente: nmero de elementos acumulados que poseen
un valor determinado de la variable y sus valores inferiores. En la tabla 3: 13 alcuotas de agua
poseen menos de 473,23 ppm de Carbonato.
Frecuencia Relativa Acumulada ascendente: proporcin de elementos acumulados que
poseen un valor determinado de la variable y sus valores inferiores. En la tabla 3: una proporcin
0,1912 poseen menos de 473,23 ppm de Carbonato.

DIPLOMATURA
Bioestadstica bsica aplicada, mediada con entorno R.

Semana 2: Captulo 2
Frecuencia Absoluta Acumulada descendente: nmero de elementos acumulados que
poseen un valor determinado de la variable y sus valores superiores. En la tabla 3: 66 alcuotas de
agua poseen ms de 448,15 ppm de Carbonato.
Frecuencia Relativa Acumulada descendente: proporcin de elementos acumulados que
poseen un valor determinado de la variable y sus valores superiores. En la tabla 3: una proporcin
de 0,9706 poseen ms de 448,15 ppm de Carbonato.
A partir de la tabla 3 se pueden construir dos tipos de grficos: histogramas de frecuencias y su
respectivo grfico acumulado.

b
Figura 4: Representacin grfica de una distribucin de tipo 3. Se presenta un histograma de
frecuencias y de frecuencias acumuladas.
Se observa en la Figura 4a la presencia de un polgono de frecuencias que pasa por el valor
central de cada intervalo y en la Figura 4b una ojiva de frecuencias que pasa por el mayor valor del
intervalo.
Formas de la distribucin.
Es muy comn observar grficos de distribucin donde slo se grafican el eje x y una lnea
suavizada del polgono de frecuencias. De ese modo podremos observar la forma de la distribucin
de la variable. Esas formas pueden ser simtricas, asimtricas a la derecha, a la izquierda, entre
otros casos. (Figuras 5).

DIPLOMATURA
Bioestadstica bsica aplicada, mediada con entorno R.

Semana 2: Captulo 2

c
d
Figura 5: Formas de diferentes distribuciones. a: simtrica, b: asimtrica a la derecha, c: asimtrica
a la izquierda, d: en forma de J invertida.
Ahora presentaremos un grfico denominado Grfico de cajas, donde se puede observar
graficados medidas vistas anteriormente Media, Mediana, Cuartilos y Percentiles. A su vez se
observa la distancia del recorrido intercuartlico, si la variable es o no simtrica y si se presentan
datos anmalos o extremos (Figura 6).

A
b
Figura 6: Grfico de cajas de una distribucin simtrica (a) y asimtrica (b). Se observan
Percentiles, Cuartilos y Mediana, as como el punto representa Media y datos extremos.

Tambin es comn ver grficos que representa el valor de la media a la cual se le suma y se le
resta, por ejemplo un desvo estndar (Figura 7).

Figura 7: Grfico de puntos donde se consigna la media ms menos el desvo estandard

DIPLOMATURA
Bioestadstica bsica aplicada, mediada con entorno R.

Semana 2: Captulo 2
Un punto importante que nos qued sin desarrollar la semana pasada y que ahora que hemos visto
el tema distribucin de las variables podemos retomar es el siguiente:

Relaciones entre las distintas medidas de posicin.


En variables cuya distribucin es simtrica se observa que los valores de Media, Mediana y Modo
coinciden. Mientras que en las distribuciones asimtricas se van distanciando a medida que se
incrementa la asimetra.

Figura 8: Distribucin simtrica donde coinciden Media, Mediana y Modo. b: Distribucin


asimtrica a la derecha, donde Modo<Mediana<Media.

El recorrido de valores que pueden tener medidas de posicin vara de menos infinito a infinito
bien depende del rango de valores de cada variable en particular.
La unidad en que se expresan las medidas de posicin corresponde a la misma unidad de la
variable.

A continuacin comenzaremos a desarrollar opciones grficas con R:


1) Abra Rstudio.
2) Limpie el espacio de trabajo. (CLEAR).
3) Cargue (Importe) la base de datos SEMANA02_BASE03 (es la misma base anterior, pero
discriminando por sexo).
4) Comience a trabajar con las opciones grficas a continuacin.
Comenzaremos con grficos bsicos y al pasar las semanas iremos realizando opciones ms
complejas.

DIPLOMATURA
Bioestadstica bsica aplicada, mediada con entorno R.

Semana 2: Captulo 2
1) Histograma
Esta ser la primera opcin grfica que utilizaremos en R.
Un histograma es una representacin grfica que se aplica sobre una variable continua (o una
variable discreta con muchos valores diferentes). Anteriormente aislamos la informacin de la
columna y la asignamos a un nuevo objeto llamado VR (por Variable Respuesta).
Debemos entonces, primero aislar la informacin de una columna de la base de datos en un objeto
(que ser VR); y en segunda instancia indicarle a R que deseamos obtener un histograma de esa
variable.
Cree una nueva ventana de Scrip: File- New file- R Script
Copie las siguientes sentencias de este archivo, pguelo en su Ventana 1 de RStudio (ahora
llamada Untitled1), seleccinelo y haga clic en RUN.

VR <- SEMANA02_BASE03[,2]
hist(VR)

Si usted ha realizado los pasos anteriores correctamente, debera aparecer en la Ventana 4 un


histograma como el siguiente:

DIPLOMATURA
Bioestadstica bsica aplicada, mediada con entorno R.

Semana 2: Captulo 2

Si el grfico apareci, FELICITACIONES, ES ESTE SU PRIMER GRFICO en R!!!


Lo que hemos hecho es utilizar una funcin de R que es hist() y darle como argumento una
variable
continua.
Nosotros no hemos indicado en cuntos intervalos queramos dividir a los valores de la variable. Si
no indicamos la cantidad de intervalos, R decide una cantidad de intervalos para el caso.
Veremos ms adelante en el curso como indicar cuntas categoras deseamos para grfico de un
histograma.
Por defecto en el histograma las barras son de color blanco.
Si aplicamos el siguiente Script cambiar el color (Transcribirlo de la siguiente figura:)

Al ejecutarlo (RUN) obtendrs:

Fjate que con las flechas de arriba a la izquierda de la Ventana 4 puede mover los grficos:

DIPLOMATURA
Bioestadstica bsica aplicada, mediada con entorno R.

Semana 2: Captulo 2

Si usted desea guardar el grfico, tiene la posibilidad de hacerlo desde la solapaExport de la


Ventana 4.

Export
Save Plot as Image
y podrs guardarlo en el Directorio que desees, en el formato que prefieras.

2) Box plot (grfico de cajas).


Un grfico de Box Plot se realiza sobre una variable continua, que podra ser una variable
respuesta (VR).
Cuando creamos VR lo que hicimos fue aislar de la base de datos la informacin de una variable.
Ahora utilizaremos la funcin boxplot() para hacer un grfico de cajas con VR.
Pegue la siguiente sentencia en su Ventana 1.
VR <- SEMANA02_BASE03[,2]
boxplot(VR)
Esta ha sido la sentencia para crear un grfico de cajas con toda la informacin de una variable
continua.
Es muy comn tener que realizar varios grficos de cajas a la vez, pero teniendo en cuenta otra
variable, por ejemplo sexo. En ese caso, lo que tenemos son los valores de la variable respuesta
separados por los niveles de una variable categrica (por ejemplo varn y mujer, que son niveles
de la variable sexo). Esto genera una caja para cada nivel.
Por un lado, ya tenemos en un objeto la informacin de la variable respuesta (VR).
Debemos ahora aislar una columna de la base de datos, que sea una variable categrica y con
ambos elementos utilizar la funcin boxplot().
Copie y pegue las sentencias a continuacin en su hoja SCRIPT (Ventana 1), seleccinelas y haga
clic en RUN.
VC <- SEMANA02_BASE03[,3]
boxplot(VR ~ VC)

Si ha tenido xito, aparecer un grfico donde se observan dos cajas por separado.
Si le parece que le falta un poco de color, puede probar con la siguiente sentencia:
boxplot(VR ~ VC, col=red)

10

DIPLOMATURA
Bioestadstica bsica aplicada, mediada con entorno R.

Semana 2: Captulo 2
Aparecer entonces el siguiente grfico:

Es MUY frecuente que haya incompatibilidad en los signos especiales de los diferentes
programas. A veces RStudio no entiende las comillas: !! o bien !!!!
Mir en RStudio el script anterior y vas a ver que coloca a la funcin y al argumento con diferente
color (en la Ventana 1).
Si tu RStudio entendi, vas a ver antes de aplicar RUN lo siguiente:

Si tu RSudio no entendi, puede pasarte esto:

Fjate que red no est de un color diferente. Si eso ocurre, cuando apliques RUN, en la Ventana 3
aparecer un mensaje como:

Lo que debieras hacer es tipear en la Ventana 1 el texto debajo del que est copiado, utilizando la
comilla de SHIFT + 2. (las comillas provienen de una tecla doble comilla y no son dos teclas de una
comilla simple!!!!)

11

DIPLOMATURA
Bioestadstica bsica aplicada, mediada con entorno R.

Semana 2: Captulo 2

y all lo toma..

NOTA MUY IMPORTANTE: Hemos visto que las funciones necesitan argumentos.
Por ejemplo vimos:
summary

(VR)

o tambin
hist

(VR)

Generalizando entonces el modo de expresar estos Script fue:


funcion

(Argumento)

El orden en que se indican los argumentos es importante.


En el ejemplo:
boxplot

(VR

VC

col=red)

indica:

funcion

(Argumento 1

Argumento 2

Argumento 3)

Siempre en la funcin boxplot el primer argumento debe ser una variable cuantitativa, mientras que
el segundo argumento debe ser una variable nominal. Si usted cambia de lugar a VR y a VC,
obtendr un cartel de error.
Siempre existe un separador entre argumentos que deben ser colocados correctamente este

separador:
es exclusivo para separar la variable cuantitativa de la categrica. Para separar
cualquier otro argumento, se utiliza la coma. Si obviamos una coma, la funcin dar error.
Algo ms: las comillas son importantes en el argumento 3 (las comillas se obtienen con las teclas
SHIFT + 2. Algunas veces las otras comillas no son las correctas).
Recordemos que el argumento 3 de la funcin boxplot era el color, entonces se deca: col=red.

12

DIPLOMATURA
Bioestadstica bsica aplicada, mediada con entorno R.

Semana 2: Captulo 2
El primer tiempo con R en su computadora, usted descubrir todo un abanico de smbolos que
posiblemente desconoca en su teclado... Y tambin se dar cuenta que algunos estn por dems
escondidos para su gusto. Tmelo con calma. Solo necesita un poco de prctica.
Ejercitacin:
La base de datos llamada SEMANA02_BASE04 posee los datos tomados sobre el nivel de
glucemia del cordn umbilical de 40 pacientes recin nacidos. A su vez se dispone de la
informacin sobre el tipo de acidosis que posee el recin nacido o bien si es un control.
Se pide:
Obtenga las medidas de posicin y dispersin.
Realizar un histograma de frecuencias
Realizar un grfico de cajas
Realizar un grfico de cajas, particionado por acidosis.

Resumen de Script
Puede utilizar las sentencias a continuacin como un Script de referencia sobre la semana 2.
Le recomendamos:
1) No se malacostumbre a slo copiar y pegar Scripts ya hechos, sino que los tome como modelos
para verificar si usted los ha tipiado correctamente. Al iniciarse en R es muy comn equivocarse al
tipiar de parntesis, comillas, etc.
2) Visualice el ordenamiento del Script que generan los comentarios (iniciados con #), e intente
generar usted mismo cada vez que trabaja un Script ordenado.
A continuacin le indicamos un resumen de stos:
CUIDADO!!!
Muchas veces las comillas del SCRIPT que siguen, no son bien tomadas por RStudio!!!

#######################################################
##### INICIO SCRIPT SEMANA 2 - Capitulo 2
##### Histograma, Boxplot y opciones grficas en R
#######################################################
# Aislamos la Variable Respuesta Continua (VR)
VR <- SEMANA02_BASE03[,2]
# Aislamos la Variable Categrica (VC)
VC <- SEMANA02_BASE03[,3]
# Grfico de Histograma (Sin opciones)
hist(VR)
# Grfico de Histograma Rojo
hist(VR, col=red)

13

DIPLOMATURA
Bioestadstica bsica aplicada, mediada con entorno R.

Semana 2: Captulo 2
# Grfico BoxPlot sin opciones
boxplot(VR)
# Grfico Boxplot rojo
boxplot(VR, col=red)
# Grfico Boxplot, Particionado, rojo
boxplot(VR ~ VC, col=red)
######################################################
##### FIN SCRIPT SEMANA 2 - Capitulo 2
##### Histograma, Boxplot y opciones grficas en R
######################################################
Nota: El Script anterior slo funcionar si usted ya tiene cargada la base de datos
SEMANA02_BASE03 como un objeto de R. Habiendo cargado el archivo
SEMANA02_BASE03.csv con las opciones Import Dataset de RStudio entonces no le arrojar
mensajes de error.

14

DIPLOMATURA
Bioestadstica bsica aplicada, mediada con entorno R.

Вам также может понравиться