Академический Документы
Профессиональный Документы
Культура Документы
net/publication/331940763
CITATION READS
1 702
1 author:
Alexandre Loures
Universidade Federal de Pelotas
23 PUBLICATIONS 5 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Free Trade Between Mercosur and the European Union: a Computable General Equilibrium Approach View project
All content following this page was uploaded by Alexandre Loures on 24 March 2019.
1 Apresentação 5
2 Funções Básicas no R 7
2.1 Usando o R como uma Calculatora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3 Estatísticas Básicas 11
3.1 Medidas de Posição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
5 Reference 25
3
4 SUMÁRIO
Capítulo 1
Apresentação
5
6 CAPÍTULO 1. APRESENTAÇÃO
Funções Básicas no R
Pode-se usar a linha de comando do R para realizar as quatro operações matemática básicas e outras
operações simples.
## Realizando uma soma
2 + 2
## [1] 4
## Realizando uma subtração
15 - 3
## [1] 12
## Realizando uma multiplicação
2 * 8
## [1] 16
## Realizando uma divisão
35/7
## [1] 5
## Extraindo a raiz quadrado
sqrt (16)
## [1] 4
7
8 CAPÍTULO 2. FUNÇÕES BÁSICAS NO R
log(8)
## [1] 2.079442
## Calculando o logaritmo na base 10 de 8
log(8, 10)
## [1] 0.90309
## Calculando o logaritmo na base 5 de 8
log(8, 5)
## [1] 1.29203
## Calculando a tangente de 9
tan(9)
## [1] -0.4523157
Outra recurso do R é poder atribuir qualquer valor a um objeto e usá-lo para realizar operações simples e
complexas.
## Igualando a divisão de 200 por 10 à 'q'
q <- 200/10
## [1] 20
## Multiplicando o objeto 'q' por 2
q * 2
## [1] 40
## Obtendo o seno do objeto 'q'
sin(q)
## [1] 0.9129453
## Adicionando 30 ao objeto 'q'
q + 30
## [1] 50
2.1. USANDO O R COMO UMA CALCULATORA 9
100 - q
## [1] 80
pi
## [1] 3.141593
## Obtendo o valor de 'e'
exp(1)
## [1] 2.718282
## Potência com R
x <- 2
x ^ 3
## [1] 8
## Outra Forma de Obter a Potência com R
y <- 2
y ** 3
## [1] 8
10 CAPÍTULO 2. FUNÇÕES BÁSICAS NO R
Capítulo 3
Estatísticas Básicas
3.1.1 Média
∑n
i=1 xi
x̄ = (3.1)
n
where:
xi → representa cada elemento da série e;
n → representa o número total de elementos da série.
Para calcular a média aritmética simples no R, a seguinte sintaxe é usada:
## Exemplo:
mean (x)
## [1] 24.83333
Média Geométrica
A média geométrica é a média das médias e é igual à nth raiz quadrado do produto (multiplicação) entre os
elementos de uma série cuja representação matemática é como a seguir:
√
ḡ = n
x1 ∗ x2 ∗ · · · ∗ xn (3.2)
11
12 CAPÍTULO 3. ESTATÍSTICAS BÁSICAS
ou
1
ḡ = (x1 ∗ x2 ∗ · · · ∗ xn ) n (3.3)
em que:
xi → representa cada elemento da série e;
n → representa o número total de elementos da série.
Existem alguns pacotes no R que possuem uma sintaxe para calcular a média geométrica, contudo, pode-se
lembrar da fórmula dessa média e calculá-la diretamente sem usar um comando específico para esse cálculo.
## Exemplo:
prod (x)
## [1] 128700000
## número dos elementos da série
n <- 6
## [1] 22.46966
Média Harmônica
Quando se trata de quantidades inversamente proporcionais (por exemplo, custo e quantidade), a média
harmônica é usada. Ou seja, a média harmônica é usada para calcular o custo médio das mercadorias
compradas com um valor monetário fixo, a velocidade média, etc.. Como o custo médio é igual à C = Pq
e a velocidade média é igual à V = dt , i.e., custo é inversamente propocional à quantidade e velocidade é
inversamente ao tempo. A fórmula da média harmônica é:
n
h̄ = (3.4)
1
x1 + 1
x2 + ··· + 1
xn
where:
xi → representa cada elemento da série e;
n → representa o número total de elementos da série.
Assim como para a média aritmética simples e para a média geométrica existem alguns pacotes no R que
possui uma sintaxe para calcular a média harmônica, contudo, não há necessidade de instalá-los para realizar
esse cálculo, basta entender a fórmula e aplicá-la manualmente no R.
## Exemplo:
a <- 1/x
n <- 6
n / b
## [1] 19.97129
3.1.2 Mediana
A mediana de qualquer série de dados separa a metade inferior da metade superior. Isto é, 50% da série
terão valores menores ou iguais à mediana e os outros 50% da série terão valores maiores ou iguais à
mediana. Existem duas observações que precisam serem feitas. Primeiro, os dados devem ser organizados
ordenadamente (pode estar na ordem crescente ou decrescente), i.e., não se deve trabalhar com dados brutos,
i.e., sem ordenação. Por exemplo, uma série de dados bruto {7, 9, 1, 5, 3} precisa ser ordenada {1, 3, 5, 7, 9} or
{9, 7, 5, 3, 1}. Segundo, deve-se verificar a fórmula para cada uma das situações que serão descritas a seguir.
Como última observações, a fórmula aplicada no cálculo da mediana não reporta o valor da mediana, mas
ao invés, a posição na qual o valor mediano encontra-se. Assim, encontrada a essa posição retorna-se a série
de dados para localizar a mediana.
1. se o número de termos da série em questão for ímpar, a mediana é o termo de ordem dado pela seguinte
fórmula: PMd = n+12 .
2. se o número de termos da série em questão for par, a mediana é a média aritmética simples dos termos
de ordem dados pelas fórmulas: PMd = n2 and PMd = n2 + 1.
em que:
PMd → é a posição do valor mediano na série e;
n → é o número de elementos na série.
Exemplo 2.1: Qual é a mediana da série 1, 3, 5, 7, 9?1 Uma vez que o número de termos da série é ímpar,
usa-se somente a fórmula PMd = n+1
2 . Então,
5+1 6
PMd = = =3
2 2
Portanto, o valor mediano está na 3 posição, i.e., a mediana é Md = 5.
Exemplo 2.2: Qual é a mediana da série 1, 3, 5, 7, 9, 10?2 Agora o número de termos na série é par, então
aplica-se duas fórmulas: PMd = n2 and PMd = n2 + 1. Portanto,
1 Note que a série já está ordenada, i.e., não são dados bruto.
2 Note que a série já está ordenada, i.e., não são dados bruto.
14 CAPÍTULO 3. ESTATÍSTICAS BÁSICAS
6
PMd = =3
2
e
6
PMd = +1=3+1=4
2
Assim, o valor mediano será a média aritmética simples dos valores que estão na 3 e 4 posições e que são,
respectivamente, 5 e 7.
5+7 12
x̄ = = =6
2 2
a <- c(1, 3, 5, 7, 9)
median (a)
## [1] 5
Para a outra série tem-se:
## Exemplo:
median (b)
## [1] 6
3.1.3 Moda
Moda é o valor da série que mais ocorre, i.e., com maior frequência. No entanto, em uma série pode ser que
não exista um termo repetitivo e, portanto, essa série é denominada amodal. Por sua vez, se dois elementos
ocorrem com mais frequência, a série é chamada bimodal e, nos casos em que há mais de dois elementos se
repetindo, a repetição de uma série é multimodal ou polimodal.
No R existem duas formas para calcular a moda. Se a série for pequena, facilitando a identificação visual da
moda, usa-se a sintaxe table (series name) que reportará os elementos da série e, abaixo deles, mostrará
com que frequência cada um deles ocorre. Mas para casos em que a série é muito grande, o que tornará
difícil a visualização, a sintaxe subset (table (series names), table (series name) == max (table
(series name))) é utilizada e reportará o elemento modal e abaixo dele a frequência com que ocorre.
3.1. MEDIDAS DE POSIÇÃO 15
## Exemplo:
w <- c(1, 2, 3, 4, 4, 4, 5, 6, 7)
table (w)
## w
## 1 2 3 4 5 6 7
## 1 1 1 3 1 1 1
Ou pode-se usar uma função que reportará o valor da moda, i.e., reportará o valor modal e não a frequência
para cada um dos elementos da série.
## Example:
z <- c(1, 2, 3, 4, 4, 4, 5, 6, 7)
## 4
## 3
16 CAPÍTULO 3. ESTATÍSTICAS BÁSICAS
Capítulo 4
Análise linear simples estuda a relação linear entre duas variáveis quantitativas. Sendo uma denominada de
variável dependente e a outra de variável indenpendente. Essa análise é realizada a partir de dois pontos de
vista diferentes:
1. regressão → que expressa a forma da relação linear entre as duas variáveis e;
2. correlação → que quantifica a força desse relacionamento.
Essa relação é representada por um modelo matemático, i.e., por uma equação que associará a variável
explicada à variável explicativa. A representação matemática dessa associação é a seguinte:
y = β0 + β 1 x + µ (4.1)
em que:
y → é a variável explicada ou dependente que será calculada e, portanto, é aleatória;
β0 e β1 → são os parâmetros desconhecidos do modelo que serão calculados. Quando se está trabalhando
com a população diz-se que essas são as estimativas, no entanto, se está trabalhando com uma amostra diz-se
que essas são os estimadores dos verdadeiros valores.
x → é a variável explicativa ou independente medida sem erro, i.e., sem aleatoriedade e;
µ → é a variável aleatória residual na qual as outras variáveis que influenciam o comportamento da variável
dependente y, e que não foram incluídas no modelo matemático, são encontradas x. Ou seja, são influências
na variável explicada y que não podem ser explicadas linearmente pelo comportamento da variável explicativa.
Exemplo 3.1: A Tabela I.1 do livro Econometria Básica, tradução da 5 edição, de Gujarati and Porter
(2011, p. 30) será usada nesse exemplo.
## Exemplo:
17
18 CAPÍTULO 4. REGRESSÃO LINEAR SIMPLES
pers_con
summary (pers_con)
Todavia, no dia a dia os pesquisadores já possuem uma base em uma extensão qualquer, por exemplo .csv,
e, então, precisam importar esses dados para o R. Para qualquer extensão o procedimento mais prático é
utilizar o processo choose.files() que irá permitir ao usuário escolher o diretório em que se encontra a
base. Por exemplo, para a extensão .csv o comando para importar uma base é da seguinte forma:
## importando uma base extensão `.csv' no R no padrão norte americano
Importante destacar que o comando read.csv funciona para bases .csv no padrão norte americano, i.e., as
colunas são separadas por vírgula e a casa decimal é representada por ponto. Contudo, se a base .csv estiver
no padrão brasileiro: colunas separadas por ponto e vírgula e a casa decimal é representada por vírgula o
comando para importar tal base seria:
## importando uma base extensão `.csv' no R no padrão brasileiro
Destaca-se que o comando summary reporta apenas algumas poucas estatísticas e, dessa forma, para realizar
uma análise mais completa sobre as variáveis em estudo pode-se empregar o comando describe do pacote
psych. Esse comando irá apresentar ao todo 11 estatísticas. A seguir apresenta-se cada uma delas:
skew → representa a assimetria da série. Um valor igual a zero indica que a série é perfeitamente simétrica.
Por sua vez, quanto mais distante de zero, mais assimétrica será a série;
kurtosis → representa o achatamento dos dados da série em relação à curva da distribuição normal (ou de
Gauss). Para uma série normal esse valor é igual a 0. Séries com esse valor são denominadas de mesocúr-
tica. Para valores maiores (> 0), então a série em questão é mais alta (afunilada) e concentrada do que
a distribuição normal. Diz-se que essa série é leptocúrtica. Já para valores menores (< 0) a série é mais
achatada do que a distribuição normal. Diz-se que essa série é platicúrtica. e;
se → representa o erro-padrão da série.
Para exemplificar o comando describe do pacote psych a seguir utiliza-se a variável gdp do data.frame
pers_con e, a partir das estatísticas descritivas reportadas pode-se identificar se a variável gdp possui uma
distribuição normal.
## chamando o pacote `psych'
library(psych)
describe(pers_con$gdp)
library(tseries)
jarque.bera.test(pers_con$gdp)
##
## Jarque Bera Test
##
## data: pers_con$gdp
## X-squared = 3.1944, df = 2, p-value = 0.2025
De posse do resultado do teste Jarque-Bera para normalidade não se rejeita a hipótese de normalidade se
o valor p-value for maior do que o nível de significância escolhido. Para o exemplo, nota-se que para os
níveis de significância padrão (1%, 5% e 10%) não se rejeita a hipótese de normalidade, i.e., a variável gdp
possui uma distribuição aproximadamente normal uma vez que o p-value é maior do que aqueles níveis de
significância.
Outro teste para normalidade seria o Shapiro test cuja hipótese nula é: a série em questão é normalmente
distribuída.
## realizando o teste Shapiro para normalidade
shapiro.test(pers_con$gdp)
21
##
## Shapiro-Wilk normality test
##
## data: pers_con$gdp
## W = 0.94175, p-value = 0.02276
O resultado desse teste ratifica o resultado do teste Jarque-Bera nos níveis de significância (5% e 10%), i.e.,
a série gdp possui uma distribuição aproximadamente normal uma vez que a esses níveis não se rejeita a
hipótese nula de uma série normalmente distribuída.
Também pode-se “plotar” um histograma da série para uma análise visual para normalidade. A seguir,
plota-se o histograma para a série gdp do data.frame pers_con e adicionam-se a curva normal (linha azul) e
a curva para a série em questão, gdp (linha vermelha). Note que a linha em vermelha se aproxima de uma
distribuição normal.
## plotando o histograma para a série `gdp' do data.frame `pers_con'
0.00000
GDP
Os valores da análise de correlação estarão sempre entre +1 e −1 e indicam a relação entre duas variáveis
22 CAPÍTULO 4. REGRESSÃO LINEAR SIMPLES
lineares. Em que a magnitude da vairável indica a força da correlação e o sinal indica a direção da relação,
se a correlação é positiva ou negativa, i.e., se as variáveis são diretamente proporcionais ou inversamente
proporcionais, respectivamente.
## calculando a correlação entre as variáveis do data.frame
A estatística covariância é uma medida do grau de interdependência numérica entre duas variáveis. Assim,
se duas variáveis são independentes umas das outras espera-se que elas tenham covariância igual a zero. Por
sua vez, um sinal positivo indica uma relação linear positiva enquanto um sinal negativo sinaliza uma relação
linear negativa.
## calculando a covariância entre as variáveis do data.frame
## [1] 4433597
## estimando a regressão linear simples entre 'epc' and 'gdp'
summary (reg)
##
## Call:
## lm(formula = pers_con$ecp ~ pers_con$gdp)
##
## Residuals:
## Min 1Q Median 3Q Max
## -148.819 -49.780 -5.844 36.780 169.113
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2.970e+02 2.814e+01 -10.56 1.23e-13 ***
## pers_con$gdp 7.213e-01 4.327e-03 166.70 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 71.96 on 44 degrees of freedom
## Multiple R-squared: 0.9984, Adjusted R-squared: 0.9984
## F-statistic: 2.779e+04 on 1 and 44 DF, p-value: < 2.2e-16
## plotando o gráfico para a regressão linear simples entre 'ecp' and 'gdp'
8000
6000
pers_con$ecp
4000
2000
pers_con$gdp
## adicionando a linha da regressão linear simples estimada entre 'ecp' and 'gdp'
## e renomeando os eixos 'x' and 'y'
8000
6000
ecp
4000
2000
gdp
Para testar se a forma funcional está correta pode-se usar o teste RESET proposto por Ramsey (1969) e que
está disponível no pacote lmtest.
library (lmtest)
resettest (pers_con$ecp ~ pers_con$gdp, power = 2, type = 'regressor')
##
## RESET test
##
## data: pers_con$ecp ~ pers_con$gdp
## RESET = 28.579, df1 = 1, df2 = 43, p-value = 3.238e-06
Para obter os resíduos e os valores ajustados pode-se usar os seguintes comandos, respectivamente,
resid <- resid (reg)
Para testar a presença de heterocedasticidade nos dados aplica-se o teste Breusch-Pagan proposto por
Breusch and Pagan (1979) contra a heterocedasticidade disponível no pacote lmtest.
bptest (pers_con$ecp ~ pers_con$gdp)
##
## studentized Breusch-Pagan test
##
## data: pers_con$ecp ~ pers_con$gdp
## BP = 20.183, df = 1, p-value = 7.037e-06
Capítulo 5
Reference
25
26 CAPÍTULO 5. REFERENCE
Referências Bibliográficas
Breusch, T. S. and Pagan, A. R. (1979). A simple test for heteroscedasticity and random coefficient variation.
Econometrica: Journal of the Econometric Society, pages 1287–1294.
Gujarati, D. N. and Porter, D. C. (2011). Econometria Básica. Editora Campus, Rio de Janeiro: Elsevier,
5 edition.
Ramsey, J. B. (1969). Tests for specification errors in classical linear least-squares regression analysis. Journal
of the Royal Statistical Society. Series B (Methodological), pages 350–371.
27