Академический Документы
Профессиональный Документы
Культура Документы
SUMARIO PAGINA
1. Business I ntelligence 2
2. Data Mining 3
2.1 O Processo de Descoberta do Conhecimento em BDs(KDD ) 3
2.2 Data Mining 5
3. Data Warehouse 8
3.1 Conceitos Básicos 8
3.2 Características do Data Warehouse 9
3.3 Data Marts 11
Comparação - Data Mining x Data Warehouse 12
3.4 ETL 13
4. Ferramentas OLAP 16
4.1 Definição 16
4. 2 Ooeracões em OLAP 17
4. 3 Arquiteturas OLAP 18
4.4 Duas formas de modelagem multidimensional: star e snow flake 19
Exercícios Comentados 22
Considerações Finais 53
Exercícios 54
Gabarito 72
Aos estudos !
O Banco de dados, como o próprio nome diz, é populado com dados, que
estão relacionados com alguma finalidade . As informações, em um segundo
momento, são depreendidas dos próprios dados, com certa facilidade . Às vezes,
a própria modelagem dos dados em um formato apresentável já extrai
informação.
Seleção
Processo que define quais serão os dados a serem trabalhados. Os dados
podem ser selecionados das mais diversas fontes de dados, tais como: banco de
dados relacional, arquivo texto legado, dentre outros. Ainda, dentro do universo
de dados selecionados, outras restrições podem ser aplicadas.
Pré-processamento
Estágio de “limpeza dos dados”, por meio de remoção de inconsistências,
ajustes de formatos de dados, análise de outliers (remover do universo dos
dados ou considerá-los?).
Transformação
Transformam-se os dados em formatos utilizáveis. Esta dependerá da
técnica data mining usada.
Exs: Rede neural, que converte valor literal em valor numérico
Disponibilização os dados de maneira usável e navegável.
Data mining
É a verdadeira extração dos padrões de comportamento dos dados.
Estudaremos à parte.
3. DATA WAREHOUSE
Abordagem Bottom Up
Extração
Transformação
Carga
4.1 Definição
Qual a margem de lucro para bicicletas em fevereiro? Esse é o tipo de pergunta que o OLAP vai responder, em
uma busca multidimensional no banco de dados (tempo, produto, margem de lucro)
Drill Up (ou Roll Up): O Drill Up é o contrário do Drill Down. Ele ocorre
quando o usuário aumenta o grau de granularidade, diminuindo o nível de
detalhamento da informação, como passar de mês para trimestre.
Slice And Dice: O Slice and Dice é uma das principais características de
uma ferramenta OLAP. Como a ferramenta OLAP recupera o microcubo, surgiu a
necessidade de criar um módulo que se convencionou de Slice and Dice para
ficar responsável por trabalhar esta informação. Ele serve para modificar a
posição de uma informação, alterar linhas por colunas de maneira a facilitar a
compreensão dos usuários e girar o cubo sempre que tiver necessidade.
Considerações
Alternativa e).
d) a implantação de Governança em TI
a) I e II.
b) II e III.
c) I, III e IV.
d) I, II e III.
e) I e IV.
II. Errada. O Data Mining tem por objetivo encontrar padrões úteis em
bases de dados, não se relacionando com comparações de dados informados
pelo usuário.
IV. Correta.
(http://www.devmedia.com.br/mineracao-de-dados-data-warehouse-data-
mining-bi-e-olap-atraves-do-fastcube-revista-clubedelphi-146/26537)
Alternativa d).
A alternativa e), por fim, poderia até colocar uma dúvida na sua cabeça,
mas ela possui, na “ponta da linha”, um banco de dados multidimensional. Mas
um banco de dados multidimensional por si só não oferece análise e utilização
estratégica da informações. Quem possibilita isso é um Sistema OLAP.
Relembrando:
Alternativa a).
Analisando as alternativas:
a) descrição.
b) agrupamento.
c) visualização.
d) análise de outliers.
a) Associação.
b) Classificação.
c) Avaliação.
d) Agregação.
e) Padrões sequenciais
Alternativa c).
a) I e II
b) II e III
c) I e III
d) III e IV
e) II e IV
a) I, apenas.
b) I e II, apenas.
c) I e III, apenas.
d) I, II e III.
e) II e III, apenas.
Abordagem Bottom Up
Assinale:
Qual a margem de lucro para bicicletas em fevereiro? Esse é o tipo de pergunta que o OLAP vai responder, em
uma busca multidimensional no banco de dados (tempo, produto, margem de lucro)
a) drill-across.
b) star.
c) cube.
d) pivot.
e) cross-join.
e) Outra frase que começa certa e termina falando nada com nada. As
dimensões são apenas atributos cujo enfoque é relevante para a análise
em questão.
a) I e II, apenas.
b) III e IV, apenas.
c) I, II e III, apenas.
d) II, III e IV, apenas.
e) I, II, III e IV.
Analisando:
a) matriz de dados.
b) lista ligada.
c) matriz hash.
d) milestone.
e) cubo de dados.
Alternativa a).
Alternativa b).
Alternativa d).
a) um gráfico multidimensional.
b) uma esfera.
c) uma planilha.
d) um cubo.
b) sua existência é incompatível com o uso dos sistemas legados, pois sua
tecnologia antiquada impede que estes sejam integrados em um sistema de data
warehousing.
a) ROLLUP.
b) GROUP BY.
d) HAVING.
e) SELECT.
Alternativa a).
c) São voláteis.
e) Seus dados não podem ser alterados, mas podem ser excluídos.
Não é bem assim! Ele é não volátil no sentido de não poderem ser
excluídos ou alterados dados válidos. Observou que o DW é variante no
tempo? Ora, se um DW guarda apenas informações dos últimos 10 anos de uma
empresa, o que acontece com os dados que ultrapassam esse período de
longevidade? Naturalmente, eles serão excluídos do DW, preferencialmente, com
o armazenamento de uma cópia de backup.
Esta aula foi um pouco mais curta, porque, via de regra, este conteúdo é
unido à parte de Bancos de Dados. Entretanto, como o conteúdo de Banco de
Dados para vocês ficou muito extenso, fiz questão de separar esse tópico.
Victor Dalton
d) a implantação de Governança em TI
a) I e II.
b) II e III.
c) I, III e IV.
d) I, II e III.
e) I e IV.
(http://www.devmedia.com.br/mineracao-de-dados-data-warehouse-data-
mining-bi-e-olap-atraves-do-fastcube-revista-clubedelphi-146/26537)
a) descrição.
b) agrupamento.
c) visualização.
d) análise de outliers.
e) análise de associações.
a) Associação.
b) Classificação.
c) Avaliação.
d) Agregação.
e) Padrões sequenciais
a) I e II
b) II e III
c) I e III
d) III e IV
e) II e IV
a) I, apenas.
b) I e II, apenas.
c) I e III, apenas.
d) I, II e III.
e) II e III, apenas.
Assinale:
a) drill-across.
b) star.
c) cube.
d) pivot.
e) cross-join.
a) I e II, apenas.
b) III e IV, apenas.
c) I, II e III, apenas.
d) II, III e IV, apenas.
e) I, II, III e IV.
a) matriz de dados.
b) lista ligada.
c) matriz hash.
d) milestone.
e) cubo de dados.
a) um gráfico multidimensional.
b) uma esfera.
c) uma planilha.
d) um cubo.
b) sua existência é incompatível com o uso dos sistemas legados, pois sua
tecnologia antiquada impede que estes sejam integrados em um sistema de data
warehousing.
a) ROLLUP.
b) GROUP BY.
Prof. Victor Dalton
www.estrategiaconcursos.com.br 71 de 72
Tecnologia da Informação para ICMS/SP 2015 Pré Edital
Agente Fiscal de Rendas Especialidade Gestão Tributária
Prof Victor Dalton Aula 05
c) OLAPUP.
d) HAVING.
e) SELECT.
c) São voláteis.
e) Seus dados não podem ser alterados, mas podem ser excluídos.
GABARITO
1.e 2.e 3.c 4.b 5.e 6.d 7.d 8.a 9.e 10.e
11.d 12.c 13.e 14.e 15.b 16.e 17.c 18.b 19.e 20.b
21.b 22.a 23.a 24.d 25.a 26.e 27.a 28.a 29.e 30.a
31.e 32.b 33.d 34.d 35.d 36.c 37.e 38.a 39.a 40.e