Вы находитесь на странице: 1из 1

Importao do arquivo csv no rapidMiner:

-seleo dos dados do arquivo e colocao dos seus tipos,


-Pr-processamento:
-Foi feita a seleo vertical dos dados, escolha de que colunas iriam ficar,
as que tiveram todos os valores idnticos (constantes) nas linhas foram excludas (
localnascimento, uf e municpio), o campo nome foi retirado pois tornaria cada lin
ha particular.
- Alm disso, no campo localNascimento, que foi retirado na etapa anterior
, tinha outro problema pois em algumas linhas havia informao imcompleta, e os valo
res de cidade vlidos eram os mesmos. No caso, optei por no corrigir, e retirei est
a informao, para no ter que inferir uma informao que pode no ser real.
-Foi feita a codificao dos dados nominais em numricos a fim de deixar prepa
rado para executar os algoritmos de clustering, pois eles no aceitam valores nomi
nais.
-Os dados tambm foram normalizados, a fase de normalizao transforma os valo
res dos dados em escalas nmericas, h trs mtodos de fazer esta converso no rapidMiner:

-A z-transformation, que uma normalizao estatstica, seu objetivo co
nverter um dado dentro de uma distribuio normal com mdia=0 e varincia=1. A frmula da
normalizao estatstica Z = (X-u)/s. Ento tendo os valores do atributo como um vetor X
ento se subtrai a mdia dos valores do atributo, u, e divide a diferena pelo desvio
padro, assim obtendo um outro vetor Z que tem distribuio normal com mdia 0 e uma un
idade de varincia. contudo, a faixa da distribuio normal padro (N (0,1)) no fica entr
e 0 e 1 mas entre -3 e +3, aproximadamente.
-A range transformation, que normaliza todos os valores do atrib
uto de acordo com uma faixa de um valor mnimo at um valor mximo, especificados pelo
usurio. Este foi o tipo de normalizao ecolhida, entre os valores 0 e 1.
-A proportion transformation, onde cada valor de atributo normal
izado como uma proporo do total do somatrio dos valores do respectivo atributo, ou
seja cada atributo divido pela soma de todos os valores do atributo.
-A interquartile range que realizada usando a faixa do inter qua
rtil. A faixa a diferena entre o maior e o menor valores no conjunto de dados. Um
a vez que a faixa somente leve em considerao dois valores do conjunto de dados int
eiro, ela pode ser bastante afetada pelas discrepncias nos dados. Portanto, um ou
tro critrio, a faixa interquartil, geralmente utilizada. Ela representa a distncia
entre o 25 e o 50 percentis (Q3 - Q1). A faixa interquartil essencialmente a faix
a dos 50% internos ao conjunto de dados. Pelo fato de ele usar os 50% internos,
a faixa interquartil no afetada pelas discrepncias ou valores extremos.
-Tarefa:
-Foi escolhida a tarefa de agrupamento/clustering, para separar os aluno
s pelo perfil de uso do computador dado pelo governo
No weka, usando um dos grficos gerados pelo algoritmo DBScan, foi escolhido Y o l
ocal de uso, X o tipo de tarefa e na cor se era individual ou no.

Вам также может понравиться