Академический Документы
Профессиональный Документы
Культура Документы
Utilizando o Ambiente R
Fonte:
M. J. Fontelles, Bioestatstica Aplicada Pesquisa Experimental. So Paulo,
Ed. Livraria da Fsica, 2012. (Vol. 1, p. 188).
Pr-processamento de dados
Etapas bsicas* (Han & Kamber, 2006):
Limpeza: eliminao de caracteres esprios, padronizao
de formatos, reduo de inconsistncias, imputao de
dados faltantes;
Integrao: Compilao das informaes a partir de bases
de dados heterogneas;
Transformao: Converso de tipo (numrico categrico
ou vice-versa), suavizao (remoo de rudos),
agrupamentos de valores em faixas, normalizao de
variveis, criao de novos atributos, etc.
Reduo de dimensionalidade, discretizao.
*A real necessidade de algumas atividades depende do problema e da
modelagem de interesse.
Pacote Rcmdr
Instalao: dentro do ambiente R:
install.packages('Rcmdr')
Chamada:
library(Rcmdr)
1a chamada do Rcmdr:
Instalar pacotes adicionais
Janela do R Commander:
Comandos R gerados
pela interface
Resultados impressos
Mensagens de erro,
avisos e outras notas
NA = missing values
Registros (um por linha) Separadores de campos (espaos)
Leitura do arquivo Nations.txt:
80
60
frequency
40
20
0
0 50 100 150
infant.mortality
Histogramas por grupos
Histogramas por grupos
region = Africa region = Americas
30
30
frequency
frequency
15
15
0
0
0 50 100 150 0 50 100 150
infant.mortality infant.mortality
30
frequency
frequency
15
15
0
0
0 50 100 150 0 50 100 150
infant.mortality infant.mortality
region = Oceania
30
frequency
15
0
0 50 100 150
infant.mortality
Diagrama em caixa (Box-plot)
Diagrama em caixa (Box-plot): interpretao
Md: Mediana
Qi: quartil inferior
Qs: quartil superior
(Qs Qi): intervalo inter-quartil
Informaes de interesse:
- Simetria
- Disperso
- Dados discrepantes
- Comparao entre grupos
200
100
Iraq
50
infant.mortality
20
10
5
Tonga
2
GDP
Matriz de grficos de disperso (Scatterplot matrix)
Matriz de grficos de disperso (Scatterplot matrix)
0 20000 40000 1 3 5 7
20 40 60 80
contraception
0
20000 40000
GDP
GDP muito assimtrico
0
100 150
Alternativa: nova varivel infant.mortality
com escala logartmica
50
0
7
TFR
5
3
1
0 20 40 60 80 0 50 100 150
Criao de nova varivel
Criao de nova varivel
Matriz de grficos de disperso com nova varivel
0 50 100 150 1 2 3 4 5 6 7
20 40 60 80
contraception
0
150
infant.mortality
100
50
0
4.5
logGDP
3.5
2.5
1.5
1 2 3 4 5 6 7
TFR
contraception
60
40
20
20 40 60 80
infant.mortality
logGDP
TFR
8000
census
2000
education
14
10
6
0 10000 25000
income
prestige
60
20
women
80
40
0
2000 6000 0 10000 25000 0 40 80
Ajuste de modelo linear (1 verso)
Ajuste de modelo linear (1 verso)
Ajuste de modelo linear (2 verso)
Ajuste de modelo linear (2 verso)
Anlise de Varincia (ANOVA)
R Studio
R Studio
IDE (integrated development environment) para R
Algumas vantagens:
Facilidade de execuo parcial ou total de scripts R
Insero de pontos de parada no cdigo (depurao)
Integra editor, console do R, ajuda, grficos, instalador de
pacotes, histrico de comandos, inspeo de variveis, etc.
Disponvel em http://www.rstudio.com/
Windows, Linux, OS X (Mac)
Algumas caractersticas de uso sero apresentadas
durante a aula.
Console do R
Editor
Aritmtica:
v <- 2*x + y + 1
Funes estatsticas e sumrios:
sum(x)
length(x)
mean(x) # equivalente a sum(x) / length(x)
var(x) # equivalente a sum((x-mean(x))^2) / (length(x)-1)
Sequncias regulares
s1 = 1:30
n=10
s2 = 1:n-1
s3 = 1:(n-1)
s4 = seq(-5, 5, by=.2)
Vetores lgicos
temp = x>13
Filtros
idxval = which(x>13)
xsel = x[idxval]
Vetores de caracteres
letras = c('a', 'b', 'c')
repeticao_a
labs <- paste(c("X","Y"), 1:10, sep='')
Operaes e funes matemticas:
2 + 4 * 5 # Order of operations
log (10) # Natural logarithm with base e=2.7182
log10(5) # Common logarithm with base 10
5^2 # 5 raised to the second power
5/8 # Division
sqrt (16) # Square root
abs (3-7) # Absolute value
pi # 3.14
exp(2) # Exponential function
round(pi,0) # Round pi to a whole number
round(pi,1) # Round pi to 1 decimal place
round(pi,4) # Round pi to 4 decimal places
Operaes e funes matemticas:
Listas
Ltest = list(a=1:10, b=3, t=Test)
Ltest2 = list()
Ltest2[[1]] = 1:10
Ltest2[[2]] = 1