-seleo dos dados do arquivo e colocao dos seus tipos,
-Pr-processamento: -Foi feita a seleo vertical dos dados, escolha de que colunas iriam ficar, as que tiveram todos os valores idnticos (constantes) nas linhas foram excludas ( localnascimento, uf e municpio), o campo nome foi retirado pois tornaria cada lin ha particular. - Alm disso, no campo localNascimento, que foi retirado na etapa anterior , tinha outro problema pois em algumas linhas havia informao imcompleta, e os valo res de cidade vlidos eram os mesmos. No caso, optei por no corrigir, e retirei est a informao, para no ter que inferir uma informao que pode no ser real. -Foi feita a codificao dos dados nominais em numricos a fim de deixar prepa rado para executar os algoritmos de clustering, pois eles no aceitam valores nomi nais. -Os dados tambm foram normalizados, a fase de normalizao transforma os valo res dos dados em escalas nmericas, h trs mtodos de fazer esta converso no rapidMiner:
-A z-transformation, que uma normalizao estatstica, seu objetivo co nverter um dado dentro de uma distribuio normal com mdia=0 e varincia=1. A frmula da normalizao estatstica Z = (X-u)/s. Ento tendo os valores do atributo como um vetor X ento se subtrai a mdia dos valores do atributo, u, e divide a diferena pelo desvio padro, assim obtendo um outro vetor Z que tem distribuio normal com mdia 0 e uma un idade de varincia. contudo, a faixa da distribuio normal padro (N (0,1)) no fica entr e 0 e 1 mas entre -3 e +3, aproximadamente. -A range transformation, que normaliza todos os valores do atrib uto de acordo com uma faixa de um valor mnimo at um valor mximo, especificados pelo usurio. Este foi o tipo de normalizao ecolhida, entre os valores 0 e 1. -A proportion transformation, onde cada valor de atributo normal izado como uma proporo do total do somatrio dos valores do respectivo atributo, ou seja cada atributo divido pela soma de todos os valores do atributo. -A interquartile range que realizada usando a faixa do inter qua rtil. A faixa a diferena entre o maior e o menor valores no conjunto de dados. Um a vez que a faixa somente leve em considerao dois valores do conjunto de dados int eiro, ela pode ser bastante afetada pelas discrepncias nos dados. Portanto, um ou tro critrio, a faixa interquartil, geralmente utilizada. Ela representa a distncia entre o 25 e o 50 percentis (Q3 - Q1). A faixa interquartil essencialmente a faix a dos 50% internos ao conjunto de dados. Pelo fato de ele usar os 50% internos, a faixa interquartil no afetada pelas discrepncias ou valores extremos. -Tarefa: -Foi escolhida a tarefa de agrupamento/clustering, para separar os aluno s pelo perfil de uso do computador dado pelo governo No weka, usando um dos grficos gerados pelo algoritmo DBScan, foi escolhido Y o l ocal de uso, X o tipo de tarefa e na cor se era individual ou no.