Вы находитесь на странице: 1из 4

ANALISE DE DADOS EM PYTHON

1 – IMPORTAR BIBLIOTECAS

a) Pandas
import pandas as pd
b) Numpy
Import numpy as np
c) Display
from IPython.display import display
pd.options.display.float_format = '{:,.2f}'.format
d) Matplotlib
import matplotlib
import matplotlib.pyplot as plt
%matplotlib inline

2 – CARREGAR DADOS

a) Arquivo CSV
base = pd.read_csv('nome do arquivo.CSV', sep = ';', encoding='latin1', skiprows=1,
decimal = ',')
Obs: sep -> utilizado para especificar o separador das colunas;
encoding -> utilizado para especificar os tipos de caracteris no dataset;
skiprows -> utilizado para iniciar os dados em uma determinada linha;
decimal -> especifica o separador decimal;
parse_dates -> Converte str para data.
Caso necessite salvar o arquivo em CSV usar a sintaxe: base.to_csv(‘nome_arq.csv’).
b) Arquivo TXT
c) Arquivo Excel
d) Json
e) Website

3 – VERIFICAR A ESTRUTURA DOS DADOS

a) Dtypes -> utilizado para ver os tipos de cada variável;


Sintaxe: base.dtypes
b) Info() -> além de verificar os tipos de cada variável, mostra a quantidade de linhas
preenchidas, total de colunas, memoria utilizada e dados nulos e não nulos;
Sintaxe: base.info()
c) Shape -> apresenta a quantidade de linhas e colunas.
Sintaxe: base.shape
d) Describe -> utilizado para apresentar os principais dados estatísticos de uma variável
numérica como: max, mim, media, e os percentis;
Sintaxe: base.describe()
e) Converter Srting para numérico -> Se o valor número for float o primeiro passo é usar
“decimal” na importação dos dados, caso não funcione usar a sintaxe abaixo que pode
ser usada tanto para float quanto para inteiro:
Sintaxe: base.[‘nome variável’] = base.[‘nome variável’].str.replace(‘,’, ‘.’) -> subs virgula
por ponto
base.[‘nome variável’] = base.[‘nome variavel’].astype(float) -> convert str para
numérico.
Para inteiro fazer o seguinte:
base.[‘nome variável’] = base.[‘nome variável’].str.replace(‘.’, ‘ ’) -> subs ponto por nada
base.[‘nome variável’] = base.[‘nome variavel’].astype(int) -> convert str para numérico.

f) Converter Srting para data -> Para converter str para data primeiro utilizar o comando
“parse_dates” na importação da base, abaixo a sintaxe:
Sintaxe: parse_dates = ([‘nome da var1’, ‘nome da var2’])

4 – ANALISE DOS DADOS

4.1 – FUNÇÕES PARA ANALISAR OS DADOS

a) Value_counts -> utilizado para contar a quantidade de vezes que um dado apareceu em
uma tabela;
Sintaxe: base[‘nome variavel’].value_counts()
b) Sum -> utilizado para somar uma variavel numérica;
Sintaxe: base[‘nome variavel’].sum()
c) Max() -> utilizado para apresentar o maior valor da variavel;
Sintaxe: base[‘nome variavel’].max()
d) Min() -> utilizado para apresentar o menor valor da variável;
Sintaxe: base[‘nome variavel’].min()
e) sort_values -> utilizado para ordenar uma variavel;
Sintaxe: base.sort_values(‘variavel’, ascending=False or True)

4.2 – MANIPULAÇÃO DO DATAFRAME


a) Fatiando a tabela -> para fatiar um data frame usar a sintaxe abaixo:
Sintaxe: base2 = base[[‘nome var1’, ‘nome var2’, ‘nome var3’]]
Com condição: base2=base[base [‘nome var1’] == ‘condição’][[ ‘nome var2’, ‘nome
var3’]]
b) Criar nova coluna -> Caso necessite criar uma nova coluna usar a sintaxe abaixo:
Sintaxe: base[‘nova variavel’] = base[‘nome var’] ou alguma condição;
c) Filtro -> Filtros são utilizados quando se quer saber algo especifico do dataframe, para
se criar um filtro usar a sintaxe abaixo:
Sintaxe: base[base [‘nome var1’] == ‘condição’]
Simbos para condições:
== atribuição
> maior
>= maior ou igual
< menor
<= menor ou igual
!= diferente
&e
| ou
d) Group by -> Utilizado quando se quer agrupar um dado especifico, abaixo a sintaxe:
Sintaxe:base.groupby(‘variavel a ser agrupada’)[‘variavel do agrupamento].especificar a
função de agrupamento.
sum(), max(), min(), count() entre outras.
e) Transposição -> usado quando ser quer transformar linhas em colunas;
Sintaxe: base.T
f) Renomear coluna -> Caso necessite trocar o nome de alguma colunas usar as possiveis
sintaxes abaixo:
Sintaxe: 1º Criar serie com os nomes das colunas
Cols =[‘var1’, ‘var2’,varn’]
2º Usar a função Columns~
Base.colums = Cols
Obs: Esse metodo é para trocar o nome de todas as variaveis, caso necessite alterar o
nome de uma especifica usar a sintaxe a baixo.
Sintaxe: base.rename(columns = {base.columns[posicao da colunas]:’nome colunas’},
inplace = True)
g) Transformar uma serie em data frame -> Caso necessite tranasformar uma grupo de
dados em data frame usar a seguinte sintaxe:
Sintaxe: base_nova = pd.DataFrame(dados a ser transformado em dataframe)

4.3 – MANIPULAÇÃO DO DATAFRAME (UNIFICANDO BASES)


Para unificar bases de dados em python podemos utilizar as funções merge, join, append ou
concat.
a) Concat -> utilizado para unir duas ou mais bases sem a necessidade de especificar uma
ou mais chave;
Sintaxe: Pd.concat([BASE_A, BASE_B], ignore_index=True);
b) Append -> A função append unifica duas ou mais bases uma abaixo da outra desde que
as bases tenham as mesmas colunas;
Sintaxe: Base_A.append(Base_B, ignore_index=True).
c) Merge -> As funções merge e join são mais indicadas para ocasiões que necessitam de
uma ou mais chaves para a união das bases, abaixo a sintaxe para a função merge;
Sintaxe para uma chave:
pd.merge(base_A, base_B, on=”chave”, how=”left, right, inner, outer”)
Sintaxe para duas ou mais chaves:
pd.merge(base_A, base_B, on=[”chave1”, “chave2”], how=”left, right, inner, outer”)

Obs: Caso as chaves não tenham o mesmo nome usar a sintaxe abaixo:

pd.merge(base_A, base_B, right_on=[”chave1_direita”, “chave2_direita”],


left_on=[”chave1_esquerda”,“chave2__esquerda”] how=”left, right, inner, outer”)
d) Join
Sintaxe:Base_A.join(Base_B, how=” left, right, inner, outer”)
5 – GRÁFICOS

6 – MODELAGEM ESTATISTICA

7.1 – SERIES TEMPORAIS (conjunto de dados gerados ao longo do tempo)

a) Co