Академический Документы
Профессиональный Документы
Культура Документы
INSTITUTO DE INFORMTICA
PROGRAMA DE PS-GRADUAO EM COMPUTAO
AGRADECIMENTOS
Agradeo minha orientadora, Carla Dal Sasso Freitas, pelo auxlio e estmulo
recebido durante a realizao desse trabalho e a todos os integrantes do grupo de
computao grfica da UFRGS (um GRUPO de verdade, do qual eu tenho muito
orgulho em fazer parte). No posso deixar de agradecer tambm a pacincia e boa
vontade daqueles que participaram uma ou vrias vezes dos meus experimentos de
avaliao.
Por fim, agradecimentos muito especiais minha famlia: minha me Lcia, meu pai
Luiz Clvis, minha irm Micheli e meu namorado Fbio.
SUMRIO
LISTA DE FIGURAS.......................................................................................... 7
LISTA DE TABELAS ....................................................................................... 10
RESUMO.......................................................................................................... 11
ABSTRACT...................................................................................................... 12
1 INTRODUO ........................................................................................... 13
1.1
1.2
1.3
Motivao ............................................................................................................. 14
Objetivos e Contribuies ................................................................................... 15
Organizao do Trabalho ................................................................................... 15
3.2.1
3.2.2
3.2.3
XmdvTool........................................................................................................... 39
Snap-Together .................................................................................................... 40
GeoVista Studio.................................................................................................. 43
7.5
7.6
8 CONCLUSES .......................................................................................... 98
8.1
8.2
REFERNCIAS.............................................................................................. 102
LISTA DE FIGURAS
Figura 5.9: Procedimento utilizado para garantir que aes realizadas em uma
visualizao 2D da matriz de Scatter Plot sejam executadas tambm nas
suas demais visualizaes............................................................................ 68
Figura 5.10: Cenrio de explorao construdo na aplicao prottipo ......................... 71
Figura 5.11: Arquitetura do prottipo desenvolvido ...................................................... 72
Figura 5.12: Estrutura do grafo de coordenao e seus relacionamentos com outros
mdulos da aplicao ................................................................................ 73
Figura 5.13: Processo de criao e viabilizao de uma nova coordenao .................. 74
Figura 5.14: Representao grfica de um grafo de coordenao.................................. 75
Figura 5.15: Conectando os nodos da nova coordenao............................................... 75
Figura 5.16: Seleo de interaes a serem coordenadas............................................... 76
Figura 5.17: Nodos conectados pela ao de seleo..................................................... 76
Figura 5.18: Removendo uma coordenao ................................................................... 76
Figura 5.19: Processo de gerenciamento de coordenaes ............................................ 77
Figura 5.20: Atividades realizadas pelo usurio e aplicao no processo de
propagao de uma interao .................................................................... 78
Figura 5.21: Seqncia de operaes realizadas pelos objetos envolvidos na
propagao de interaes .......................................................................... 79
Figura 5.22: Mtodos da interface Visualization relacionados ao processo de
coordenao............................................................................................... 81
Figura 7.1: Indicao das dezesseis medidas extradas do crnio de um tuco-tuco para
a anlise morfomtrica tradicional. (a) Vista dorsal, (b) vista ventral e (c)
vista lateral................................................................................................... 89
Figura 7.2: Identificao de um animal com medidas fora do padro (item destacado) 91
Figura 7.3: Representao do conjunto inteiro de dados morfomtricos com locais
de coleta mapeados para cor ........................................................................ 92
Figura 7.4: Representao em Coordenadas Paralelas das amostras morfomtricas
coletadas em Pelotas (cor verde), Bag (cor azul) e Taim (cor vermelha).. 93
Figura 7.5: Representao em Matriz de Scatter Plot das amostras morfomtricas
coletadas em Pelotas (cor verde), Bag (cor azul) e Taim (cor vermelha).. 94
Figura 7.6: Representao do conjunto inteiro de dados morfomtricos com machos
mapeados para a cor rosa e fmeas mapeadas para a cor preta ................... 94
Figura 7.7: Grficos gerados com o sistema NCSS, scatter plot (esquerda) e box plot
(direita), utilizados na anlise do dimorfismo sexual. ................................. 96
Figura 7.8: Grficos gerados com o sistema NCSS, scatter plot (esquerda) e box plot
(direita), utilizados na anlise de variaes por local de coleta................... 96
LISTA DE TABELAS
RESUMO
ABSTRACT
1 INTRODUO
14
1.1 Motivao
Mltiplas visualizaes de um mesmo conjunto de dados permitem observ-lo sob
vrias perspectivas, bem como explorar os pontos fortes e minimizar os efeitos dos
pontos fracos das tcnicas envolvidas (KEIM, 1996; EICK; KARR, 2000). Diversas
ferramentas genricas de visualizao de informaes oferecem vrias tcnicas e
permitem o seu uso coordenado para visualizar um mesmo conjunto de dados. No
entanto, em geral, o conjunto de tcnicas e as formas de coordenao disponveis so
fixos, pr-estabelecidos durante o projeto da ferramenta, o que limita a potencialidade
do uso das tcnicas em contextos de aplicaes diversos e a liberdade do usurio no
processo de explorao das mesmas. Ambientes que permitem flexibilidade na
configurao da coordenao entre mltiplas visualizaes, possibilitando a criao de
cenrios personalizados para as necessidades do usurio, tm sido tema de estudos e j
existem algumas iniciativas, como Snap-Together (NORTH, 2000) e GeoVISTA Studio
(GAHEGAN et al., 2000), que sero abordadas com maior detalhamento no Captulo 3.
A primeira destas ferramentas genrica, podendo ser aplicada para a anlise de
variados tipos de dados e domnios de aplicao; a ltima, entretanto, enfatiza o
tratamento de dados espaciais (geo-referenciados).
Assim como a ferramenta GeoVISTA Studio, a maioria das aplicaes existentes
que suportam mltiplas visualizaes coordenadas so projetadas para atender, com
maior nfase, dados relativos a um domnio especfico. Assim, a tarefa de determinao
das aes de interao coordenadas em uma ferramenta facilitada e a mesma adquire
condies para atender melhor as necessidades dos usurios no processo de
compreenso e anlise dos dados.
Um problema encontrado atualmente em ferramentas de mltiplas visualizaes
coordenadas genricas a baixa variedade de interaes coordenadas que as mesmas
suportam. Os usurios de Snap-Together, por exemplo, tm suas aes de interao
limitadas seleo e navegao, mas ...muito mais interaes deveriam ser suportadas,
tendo em vista que o objetivo da ferramenta a visualizao exploratria
(BOUKHELIFA et al., 2003).
A delimitao das coordenaes suportadas por uma ferramenta de visualizao
genrica uma tarefa difcil. Devido natureza multiforma das diversas visualizaes,
15
aes executadas sobre uma delas nem sempre podem ser diretamente aplicadas para
outras. Alm disso, algumas coordenaes possveis de serem alcanadas, podem no
possuir utilidade; e ainda, outras podem ser impossveis de realizar (BOUKHELIFA et
al., 2003). Na rea de visualizao de informaes multidimensionais, ainda no existe
uma ferramenta genrica, capaz de atender os diversos domnios de aplicao em que
dados multidimensionais podem ser gerados, flexvel na escolha das visualizaes e das
aes coordenadas e com um conjunto rico e variado destas ltimas. Esta observao foi
a principal motivadora para a realizao desse trabalho.
Varivelj
Varivelk
Casox
Valorix
Valorjx
Valorkx
...
Casoy
Valoriy
Valorjy
Valorky
...
...
...
...
...
...
17
18
Figura 2.2: Tcnica Coordenadas Paralelas com sobreposio de linhas (15.000 itens de
dados representados) (KEIM, 1997)
19
20
Valores maiores dos atributos (ou dimenses) atraem o ponto projetado para
regies prximas aos eixos associados a estes atributos.
21
22
23
24
25
Visto que o foco est na relevncia dos dados com respeito a uma consulta,
diferentes formas de distribuio dos pixels podem ser apropriadas: em espiral, onde as
respostas corretas so apresentadas no centro da janela e os valores prximos ao redor
desta regio, ou por eixos, indicando distncias positivas e negativas (ver figura 2.10).
26
27
mapeamento nominal
figura
glifo
tamanho
retngulo,
crculo, linha,
glifo, texto
cor
retngulo,
crculo, linha,
glifo, texto
orientao
retngulo,
linha, texto
mapeamento quantitativo
28
Figura 2.13: Usando consultas dinmicas para verificar a concentrao espacial de itens
de dados em uma regio de interesse (SHIMABUKURO, 2004)
29
Figura 2.14: Magic lenses: Uma lente de viso aramada 3D e uma lente de aumento 2D
(BIER et al., 1993).
2.2.4 Zoom
Zoom uma tcnica interativa muito conhecida e amplamente utilizada por diversas
aplicaes. Ao representar graficamente conjuntos de dados com um grande nmero de
itens de dados, importante que estes ltimos sejam exibidos de forma comprimida,
com o objetivo de fornecer uma viso de overview do conjunto inteiro. Mas, ao mesmo
30
Figura 2.15: Usando a tcnica detalhes por demanda para obter informaes adicionais
sobre um item de dado (extrado de AHLBERG; SHNEIDERMAN, 1994).
32
33
34
35
36
37
38
Figura 3.5: Usando a coordenao drill down para visualizar o contedo de agregaes
no Snap-Together (FREDRIKSON et al., 1999)
39
40
41
42
representam a segunda tabela de dados. Isto pode ser comprovado observando a figura
3.7: a ao selection da visualizao Coordenadas Paralelas est coordenada com a ao
load da visualizao Tabela, ento a seleo de um item na primeira representao, no
caso o estado California, causa a exibio de informaes acerca de todas as cidades
deste estado, apenas, na segunda visualizao.
43
44
Figura 3.8: Cenrio construdo em GeoVista Studio com todas as suas tcnicas de
visualizao multidimensionais
4 O TOOLKIT INFOVIS
Filtragem;
Deformao espacial.
46
rvores Icicle e (6) treemaps, para rvores; (7) diagramas de nodos e arestas e (8)
matrizes de adjacncia, para grafos.
47
com arrays. Algumas linhas podem ter seus valores no definidos. Este mecanismo
importante, porque conjuntos de dados do mundo real freqentemente possuem valores
faltando, e, alm disso, facilita a representao de estruturas de dados gerais.
Um conjunto de dados armazenado como uma tabela, onde cada linha representa
um registro (item de dado) e cada coluna representa um atributo. Isto natural para
conjuntos de dados tabulares, mas rvores e grafos tambm so representados com essa
estrutura de dados. rvores e grafos so implementados como wrappers no topo de
tabelas com informao topolgica representada por colunas internas (FEKETE, 2003).
Estas ltimas contm informaes internas e no so salvas para arquivos e nem
disponveis para consultas dinmicas.
4.1.3 Visualizaes
Visualizaes transformam um conjunto de atributos armazenados em colunas de
tabela para representaes visuais. Alm disso, elas executam filtragem, zoom,
navegao e picking. Cada visualizao dispe de uma lista de atributos visuais que
podem ser associados com colunas de dados. Esses atributos so utilizados para mudar a
cor ou propriedades geomtricas dos itens exibidos (FEKETE, 2002). Para seu controle,
a visualizao mantm uma coluna interna de objetos grficos (FEKETE, 2003). Alguns
atributos visuais so genricos e padres para todas as visualizaes, como cor (color),
tamanho (size), transparncia (alpha) e label. Outros, so especficos de uma
visualizao, como eixo x e eixo y no scatter plot 2D, ou de algumas, como os atributos
visuais de aresta e vrtice nas visualizaes de grafos.
As visualizaes so redesenhadas quando pelo menos uma coluna a que elas se
referem modificada. Alm disso, quando um atributo visual usado para computar as
figuras modificado, estas ltimas so invalidadas e recomputadas para o prximo
rendering ou picking. A seleo, filtragem e ordenao, que no so atributos visuais,
comportam-se exatamente do mesmo modo. Por default, elas so associadas com
colunas internas. As permutaes so usadas para ordenao e filtragem. Elas
especificam uma ordem para as linhas da tabela e so capazes de esconder (filtrar) uma
linha da visualizao apenas no a especificando na ordenao. Permutaes tambm
mantm o mapeamento de um nmero de linha para seu ndice e a contagem das linhas
visveis.
Visualizaes usam vrios subcomponentes para gerenciar cores, permutaes,
redesenho, labeling e deformaes espaciais. O mapeamento de atributos de dados para
cores feito atravs de uma interface, chamada color visualization, que retorna uma cor
a partir de uma linha da tabela.
O redesenho est dividido entre o layout e o rendering. Na maioria dos casos, o
layout pode ser reusado. Selees apenas causam redesenho sem refazer layout, picking
tambm reusa o layout j computado e a filtragem, em geral, apenas muda o conjunto de
itens redesenhados, no seu layout. Este ltimo poderia ser recomputado cada vez que
um item filtrado, no entanto, o tempo necessrio para o redesenho dos itens mudaria
drasticamente, sendo talvez impossvel atualizar as mudanas de um frame para o
prximo (FEKETE, 2003).
O rendering de itens de dados est relacionado com figuras, computao de cores e,
opcionalmente, com lentes fisheye. Por default, o rendering itera sobre cada linha nofiltrada da tabela, na ordem de permutao, computando a cor com o componente color
48
visualization. A figura representando um item de dado pintada, bem como sua borda
geralmente preta para itens no-selecionados e vermelha para os selecionados.
As visualizaes opcionalmente suportam labels dinmicos e deformaes espaciais.
O primeiro componente usa o mecanismo picking para computar os labels sob o
ponteiro do mouse. Dois mtodos so fornecidos pelo toolkit para picking: o primeiro
retorna o item desenhado mais frente em uma posio espacial e o segundo retorna
uma lista de itens que intersecionam um retngulo. O segundo componente opcional,
deformao espacial, aplicado pelo rendering depois que as figuras dos itens de dados
foram computadas pelo layout. O toolkit suporta, atualmente, um subconjunto das
deformaes de Carpendale (CARPENDALE; MONTAGNESE, 2001). Um objeto
Fisheye usado para transformar uma figura Java na sua deformao atravs de lentes.
A implementao verifica se uma figura especfica intersecciona a lente e, se isto no
ocorre, ela retorna sem alteraes. Mas, se a interseo acontece, itera-se sobre a borda
da figura, aplicando-se a deformao de lentes para cada vrtice de controle (FEKETE,
2003).
4.1.4 Componentes
O toolkit InfoVis fornece vrios componentes para suportar manipulaes
interativas. Por default, a cada visualizao est associado um painel de controle padro
organizado em um grupo de abas. Programadores podem usar seus prprios painis de
controle, substituindo ou acrescentando componentes e mecanismos de interao.
O painel de controle padro apresenta os seguintes componentes: consultas
dinmicas e filtros, seleo, ordenao, labels dinmicos, lente fisheye e manipulao de
atributos visuais. Todos esses componentes so descritos e ilustrados na seo 4.4.
49
50
Color A coluna usada para especificar a cor dos itens. Sua constante string
Visualization.VISUAL_COLOR.
Size A coluna usada para especificar o tamanho dos itens. Sua constante
string Visualization.VISUAL_SIZE.
Filter A coluna usada para especificar quais itens esto filtrados. Ela deve
ser
uma
FilterColumn
e
sua
constante
string
Visualization.VISUAL_FILTER.
Sort A coluna usada para especificar a ordem (de sobreposio) dos itens
na visualizao. Sua constante string Visualization.VISUAL_SORT.
51
visualizado: Shape uma interface Java que descreve uma geometria geral. As
visualizaes especficas podem decidir que tipo de figura elas criam e em qual posio.
Geralmente, um Rectangle2D Java que implementa a interface Shape.
As figuras computadas so armazenadas em uma coluna visual chamada
Visualization.VISUAL_SHAPE.
O mtodo usado para computar o layout das figuras, geralmente implementado nas
classes especficas de visualizao, denominado computeShapes. Este mtodo
chamado apenas antes do desenho, quando um dos seguintes eventos ocorre (FEKETE,
2002):
A visualizao deve ser mostrada na tela e nenhum layout foi computado antes;
Uma coluna visual envolvida na computao do layout foi associada com uma
nova coluna da tabela;
Depois que todas as figuras foram computadas, os itens podem ser mostrados de
uma nica vez, na ordem definida pelo atributo sorting. A implementao padro usa o
mtodo paintItems para essa tarefa, geralmente definido na classe DefaultVisualization,
e cujo cdigo exibido na figura 4.4.
52
Figura 4.6: As quatro abas do painel de controle: (a) Filters; (b) Visual; (c) Excentric; e
(d) Fisheyes.
A aba Filters contm, basicamente, barras de filtragem correspondentes aos
atributos do conjunto de dados, conforme pode ser observado na figura 4.6(a). As barras
de filtragem permitem que o usurio possa ocultar da representao visual itens de
dados dentro de uma faixa de valores (para atributos numricos). Quando uma barra
movida da esquerda para a direita, os itens so ocultados, progressivamente, daqueles
que possuem o menor valor para o atributo relativo barra at aqueles que apresentam o
maior valor para o mesmo. J quando o sentido de movimentao da barra invertido, o
desaparecimento de itens se d em ordem reversa. Para atributos de dados categricos, o
processo de filtragem realizado atravs da seleo de strings em uma lista. Apenas os
itens de dados que possuem as strings selecionadas como valores para um atributo
categrico so desenhados na representao visual.
A aba Visual, cujos componentes podem ser observados na figura 4.6(b),
disponibiliza mecanismos de interao que alteram atributos visuais dos objetos
representando itens de dados. Os mecanismos denominados Color by, Alpha by e Size
by utilizam variaes progressivas na intensidade da cor, nvel de transparncia e
tamanho dos objetos itens de dados, respectivamente, para representar quo alto o
valor que cada objeto apresenta para um determinado atributo (escolhido pelo usurio).
No recurso Color by, a menor intensidade de cor atribuda ao item de dado que possui
53
o menor valor para o atributo sendo mapeado e a maior intensidade aplicada ao item
que apresenta o maior valor para o mesmo. Os recursos Alpha by e Size by aplicam suas
variaes segundo este mesmo critrio. As visualizaes geradas pela aplicao dos
mecanismos de interao Color by e Size by, com a tcnica Coordenadas Paralelas e
Radviz, podem ser observadas na figura 4.7.
Figura 4.7: Visualizaes geradas pela aplicao dos mecanismos de interao Color by
( esquerda) e Size by ( direita) sobre as tcnicas Radviz (acima) e Coordenadas
Paralelas (abaixo)
O mecanismo denominado Sort by trabalha de forma semelhante aos mencionados
acima. No entanto, ele utiliza o valor que cada objeto item de dado possui para um
determinado atributo (especificado pelo usurio) como critrio para a ordenao dos
objetos em profundidade. Ou seja, a ordem em que objetos se sobrepem na
representao visual pode ser determinada pela escala de valores de um atributo do
conjunto de dados. O primeiro item a ser desenhado aquele que possui o menor valor
para o atributo determinante e o ltimo item desenhado aquele que apresenta o maior
valor para o mesmo.
O usurio pode tambm especificar um atributo de dados, que determina os labels
exibidos para cada item de dado, atravs do mecanismo de interao Label by. Quando
o componente Label all items da aba Visual encontra-se habilitado, cada item aparece na
visualizao com um label associado e o contedo deste ltimo o valor que o objeto
possui para o atributo determinante.
Alm de todos os mecanismos de interao j citados, a aba Visual tambm permite
ao usurio modificar algumas configuraes padro dos itens de dados, como o tamanho
(componente Default size), o nvel de transparncia (componente Default alpha) e a cor
54
55
Figura 4.10: Visualizao dos valores que o 142 item de dado do conjunto sobre carros
possui para cada atributo
4.4.1 Mecanismos Adicionados
Com o objetivo de ampliar os recursos de interao oferecidos pelo toolkit InfoVis,
foram adicionados novos mecanismos no painel de controle das tcnicas de visualizao
multidimensionais. Os mesmos foram acrescentados aps um estudo de avaliao
preliminar (relatado no captulo 6), que revelou a necessidade destes mecanismos para a
realizao de algumas tarefas de usurio, envolvidas no processo de explorao de
conjuntos de dados.
Assim, no final da aba Visual do painel de controle, foram adicionados os
componentes grficos exibidos na figura 4.11, que compem o novo mecanismo de
interao, denominado Attributes Manipulation. Por meio deste mecanismo, o usurio
pode remover (filtrar) atributos de dados da visualizao associada ao painel de
controle, bem como tambm alterar a ordem em que estes atributos aparecem na
mesma. Para remover um atributo, o usurio deve selecionar o nome deste na lista de
atributos que aparece direita na figura 4.11 e pressionar o boto Remove. Ao contrrio,
para adicionar este atributo novamente visualizao, o procedimento selecinar o
nome deste na lista de atributos esquerda na figura 4.11 e pressionar o boto Add. No
entanto, se o usurio deseja apenas trocar a localizao de um atributo por outro, na
representao visual, ele deve selecionar seu nome na lista de atributos da direita e
pressionar o boto Up, para troc-lo de posio com o atributo acima na lista, ou o boto
Down, para troc-lo de posio com o atributo abaixo na lista.
Outro componente de interao adicionado ao painel de controle do toolkit, agora na
aba Filters, um boto para filtragem (um para cada atributo de dados). Ao pressionar o
56
mesmo, apresentada uma janela onde um intervalo numrico (valor inicial e final) de
filtragem pode ser rapidamente fornecido. A finalidade deste a mesma das barras de
filtragem (scroll bars), no entanto ele oferece maior agilidade para filtrar um intervalo
previamente conhecido de valores.
58
suportar ainda mapeamentos de dados para o tipo de figura utilizada como objeto de
dado e sua orientao. Alm disso, outro tipo de mapeamento visual pode ainda ser
utilizado em tcnicas de projeo geomtrica: a ordenao em profundidade. Este tipo
de mapeamento utiliza valores de atributo para determinar a ordem em que objetos de
dados so desenhados na representao visual. Como o problema da sobreposio de
objetos costuma ser muito acentuado em tcnicas de projeo geomtrica, a
possibilidade de alterar a ordem de desenho destes objetos muito ltil para uma
explorao mais efetiva do conjunto de dados.
Em tcnicas multidimensionais iconogrficas, possvel o emprego de
mapeamentos de dados para cor, espessura e transparncia. Um glifo ou cone que
representa um item de dado nestas tcnicas pode refletir seu valor para um determinado
atributo atravs da cor ou nvel de transparncia que desenhado ou ainda atravs da
espessura de suas linhas (ver a figura 3.2 para um exemplo). Geralmente, os glifos ou
cones dessa categoria de tcnicas no possuem uma localizao determinada onde
devem ser exibidos na tela e, por esta razo, no costumam haver sobreposies dos
mesmos. Se no h sobreposio de objetos, no faz sentido o emprego do mapeamento
de dados para ordenao em profundidade.
As tcnicas orientadas a pixel, finalmente, no permitem nenhum tipo de
mapeamento de dados para propriedades visuais definido pelo usurio. Estas tcnicas j
possuem uma forma de mapeamento fixa, que no pode ser alterada pelo usurio. Ou
seja, todas as tcnicas dessa categoria utilizam um mapa de cores fixo, que utilizado
para mapear os valores de itens de dados para todas as dimenses. No possvel
utilizar um mapa de cores para representar apenas valores de uma dimenso, como
feito em tcnicas de projeo geomtrica e iconogrficas. Outros tipos de mapeamentos
tambm no so possveis: diferentes nveis de transparncia tornariam a visualizao
confusa; diferentes tamanhos no podem ser aplicados para pixels; e ordenao em
profundidade no faz sentido, pois no h sobreposies.
5.1.2 Reordenao de Dimenses
Todas as tcnicas de visualizao multidimensionais suportam alguma forma de
reordenao de dimenses. Em tcnicas de projeo geomtrica que representam
dimenses como eixos, esse tipo de interao bastante intuitivo: consiste apenas em
mudar a disposio dos eixos na visualizao. Na tcnica Matriz de Scatter Plots, a
reordenao de dimenses pode ser executada alterando a numerao da linha e coluna
da matriz, representativas de uma dimenso.
Na tcnica iconogrfica Faces de Chernoff, a reordenao de dimenses pode ser
realizada alterando a caracterstica da face (olhos, nariz, boca, etc.) que representa cada
dimenso. Na tcnica Glifos em Estrela, a reordenao realizada alterando a posio,
em graus, dos raios que representam as dimenses.
Finalmente, nas tcnicas orientadas a pixel, a reordenao de dimenses pode ser
aplicada simplesmente trocando a ordem em que as janelas de dimenses aparecem na
tela.
5.1.3 Filtragem
Em visualizaes multidimensionais, dois tipos de filtragem podem ser realizadas:
de objetos de dados e de dimenses.
59
60
61
Figura 5.2: Criao e desenho das linhas que representam atributos na tcnica
Coordenadas Paralelas (implementado por Fekete)
A figura 5.3 apresenta o cdigo Java executado pelo mtodo computeShapes,
responsvel pela criao dos objetos que representam os itens de dados na tcnica
Coordenadas Paralelas. O cdigo das linhas 6 35 executado para cada item de dado,
conforme determina o lao for da linha 5. As linhas 8 12 verificam se j existe um
objeto GeneralPath caminho geomtrico formado por segmentos de linha reta para
o item de dado atual. Se tal objeto existe, ele tem seus atributos inicializados, caso
contrrio, um novo objeto GeneralPath criado.
O lao for da linha 15 indica que cada item de dado ser considerado em relao a
cada atributo do conjunto de dados a partir desse ponto. Com isto, as linhas de cdigo
contidas no lao tm como objetivo calcular a posio em que as linhas horizontais
62
Figura 5.3: Criao dos objetos que representam itens de dados na tcnica Coordenadas
Paralelas (implementado por Fekete)
5.2.1.2 Radviz
A tcnica Radviz no faz parte do conjunto de tcnicas de visualizao que
acompanham o toolkit InfoVis. Ela foi incorporada ao mesmo para a construo da
aplicao relatada nesse trabalho.
A implementao dessa tcnica no toolkit representa os atributos (dimenses) do
conjunto de dados por meio de linhas que emanam radialmente do centro de um crculo
e terminam em seu permetro. A ordenao inicial dos atributos no crculo (em sentido
horrio) segue a mesma ordem em que estes aparecem no arquivo de dados. No final de
cada linha, no permetro do crculo, o nome do atributo que a mesma representa
permanece visvel. Alm disso, para facilitar a compreenso do mapeamento dos pontos
63
de dados realizado pela tcnica, todos os seus valores so normalizados para o intervalo
de 0 1.
Os itens de dados, representados nessa implementao por pequenas elipses,
aparecem, inicialmente, todos com a mesma cor. A figura 5.4 mostra a representao
visual da tcnica Radviz implementada no toolkit InfoVis, exibindo o conjunto de dados
sobre carros.
Os procedimentos seguidos para a criao das linhas e das pequenas elipses, que
representam os atributos e os itens de dados, respectivamente, sero detalhadamente
descritos a seguir, por representarem as operaes fundamentais da tcnica Radviz.
Na implementao dessa tcnica no toolkit InfoVis, as linhas representando atributos
tambm foram computadas e desenhadas dentro do mtodo paintBackground, como
ocorreu com as linhas de atributos na tcnica Coordenadas Paralelas. No entanto, nesse
caso, as mesmas no foram incorporadas ao plano de fundo (background) do grfico
2D, mas sim desenhadas como objetos separados do mesmo. A razo para isto a
preciso necessria (double) para o desenho das linhas de atributos do Radviz, preciso
esta no alcanada com o mtodo drawLine (figura 5.2 linha 9) empregado em
Coordenadas Paralelas, que trabalha apenas com valores inteiros. A figura 5.5 mostra o
cdigo Java executado pelo mtodo paintBackground da tcnica Radviz.
64
executadas pelo mtodo paintBackground, mas foram ocultadas da figura 5.5 porque
no possuem importncia significativa para esse trabalho.
Figura 5.5: Criao e desenho das linhas que representam atributos na tcnica Radviz
A figura 5.6 apresenta o cdigo Java executado pelo mtodo computeShapes,
responsvel pela criao dos objetos que representam itens de dados na tcnica Radviz.
As operaes que determinam a posio onde estes objetos devem aparecer so
executadas para cada item de dado, conforme determina o lao for da linha 12, e
considerando-os em relao a cada atributo, como determina o lao while da linha 18.
Todos os valores de um item de dado so, primeiramente, normalizados para o
intervalo [0, 1], com base nos valores mnimo e mximo do atributo ao qual ele se refere
(linhas 20-21). Nas linhas 22 26, a posio do item de dado para cada atributo isolado
e seu valor normalizado so acumulados e registrados. A localizao final de um item
(onde a soma das foras das molas dos atributos zero) encontrada dividindo a soma
das posies do item para cada atributo isolado pela soma dos valores normalizados,
multiplicando o resultado pelo raio do crculo Radviz e, finalmente, somando as
coordenadas do seu centro (linhas 31 e 32). Um novo objeto elipse criado nessa
posio (linha 36) e armazenado (linha 37).
65
Figura 5.6: Criao dos objetos que representam itens de dados na tcnica Radviz
5.2.1.3 Matriz de Scatter Plots
A tcnica multidimensional Matriz de Scatter Plots tambm no faz parte do
conjunto de tcnicas de visualizao do toolkit InfoVis. No entanto, a tcnica Scatter
Plot 2D, que exibida em cada clula dessa matriz, j se encontrava implementada no
mesmo. Assim, construiu-se a implementao da Matriz de Scatter Plots no toolkit
como um agrupamento de n Scatter Plots 2D. O valor de n corresponde ao quadrado do
nmero de dimenses dos dados (dimensoes2).
Cada Scatter Plot 2D criado para compor a matriz uma visualizao independente,
que implementa os mtodos paintBackground e computeShapes da interface de
visualizao, assim como as tcnicas descritas acima. Logo, no necessrio fornecer,
para a classe de visualizao que representa a Matriz, uma implementao para estes
mtodos, pois a representao visual dessa matriz formada pelo conjunto das
representaes de seus Scatter Plots 2D.
66
67
68
Figura 5.9: Procedimento utilizado para garantir que aes realizadas em uma
visualizao 2D da matriz de Scatter Plots sejam executadas tambm nas suas
demais visualizaes
5.2.2 Coordenaes
O toolkit InfoVis, utilizado para a construo da aplicao em questo, implementa
e disponibiliza para todas as suas visualizaes (sem coordenao) grande parte das
tcnicas interativas que podem ser coordenadas na visualizao de dados
multidimensionais (apenas as manipulaes de atributos de dados no so suportadas).
Assim, na aplicao desenvolvida foi necessrio apenas habilitar a coordenao
dinmica destas tcnicas e acrescentar aquelas ainda no suportadas pelo toolkit.
69
Size by: Aplica variaes progressivas no tamanho dos objetos de dados para
representar quo alto o valor que cada objeto apresenta para um determinado
atributo (escolhido pelo usurio). O menor tamanho atribudo ao objeto de
dado que possui o menor valor para o atributo sendo mapeado e o maior
tamanho aplicado ao objeto de dado que apresenta o maior valor para o
mesmo (figura 5.10, centro).
70
Sort by: Utiliza o valor que cada item de dado possui para um determinado
atributo (especificado pelo usurio) como critrio para a ordenao dos objetos
de dados em profundidade. Ou seja, a ordem em que figuras de itens se
sobrepem na representao visual pode ser determinada pela escala de valores
de um atributo do conjunto de dados. O primeiro item a ser desenhado aquele
que possui o menor valor para o atributo determinante e o ltimo item
desenhado aquele que apresenta o maior valor para o mesmo.
Label by: Determina que o contedo de labels exibidos para cada objeto de
dado ser o valor que este possui para um determinado atributo (escolhido
pelo usurio).
71
72
73
74
75
76
77
78
Figura 5.21: Seqncia de operaes realizadas pelos objetos envolvidos na propagao de interaes
79
80
Selection
Filtering
Sort by
Label by
Color by
Size by
Alpha by
Attributes
Manipulation
81
6 AVALIAO PRELIMINAR
83
Clusters;
84
Incitao/Presteza
85
86
6.1.4.5 Conciso
O nico problema relatado, por dois usurios, quanto a esse critrio foi que a
interface de ambas as tcnicas avaliadas no permite a eliminao (filtragem) de itens
desnecessrios para uma anlise, quando seus valores para um determinado atributo
esto entre os valores de itens relevantes para a mesma. Ou seja, no permitido
especificar dois intervalos diferentes para a filtragem. Esse problema foi considerado
simples (severidade 2).
6.1.4.6 Aes Mnimas
O problema identificado por um dos usurios para esse critrio est relacionado com
a volta da aplicao para o estado inicial. Para que a visualizao de uma tcnica volte a
ser exibida exatamente como apareceu inicialmente, o usurio precisa desfazer, uma por
uma, todas as alteraes realizadas na representao visual por meio de mecanismos de
interao, o que pode envolver um grande nmero de aes. O mesmo usurio sugeriu a
criao de um boto reset (de inicializao) para a resoluo desse problema. Este
ltimo foi considerado do tipo cosmtico (severidade 1), pois no h necessidade
imediata de soluo.
6.1.4.7 Densidade Informacional
O observador do experimento notou que um nmero elevado de itens na
visualizao influencia a interpretao da tcnica Coordenadas Paralelas. Quando havia
muitas linhas horizontais, os usurios sentiam dificuldade para acompanhar o caminho
que elas seguiam aps atravessar uma linha vertical de um atributo. Esse problema foi
considerado do tipo cosmtico (severidade 1), pois inerente tcnica, embora existam
formas de ameniz-lo (trocando a ordenao dos atributos ou retirando alguns, por
exemplo).
6.1.4.8 Flexibilidade
A interface de ambas as tcnicas avaliadas possui poucos recursos alternativos que
do flexibilidade execuo de tarefas. Os recursos no oferecidos e que os usurios
sentiram falta foram:
6.1.4.9 Compatibilidade
Um dos usurios notou que a seleo de um item com o mouse considera sempre o
item mais ao fundo como o selecionado. Quando h ocluso de objetos, o normal seria a
seleo considerar o objeto mais frente, como acontece em outras aplicaes.
87
Para anlises mais complexas do conjunto de dados, em que era necessrio observar
mais de uma visualizao, todos os estudantes usaram algum mecanismo de
interao coordenado.
7 ESTUDO DE CASO
89
separados por local da coleta e sexo, esperavam obter as seguintes informaes a partir
da representao destes dados:
Figura 7.1: Indicao das dezesseis medidas extradas do crnio de um tuco-tuco para a
anlise morfomtrica tradicional. (a) Vista dorsal, (b) vista ventral e (c) vista lateral.
7.3 Procedimento
Esse estudo de caso foi realizado de maneira informal e contou com a participao
de dois especialistas em morfometria craniana. Ambos os sujeitos so alunos de
doutorado da rea de Gentica, nesta universidade.
90
7.4 Resultados
No final da seo 7.1 foram citadas as informaes que os especialistas desse estudo
esperavam obter com a explorao de seus dados morfomtricos na aplicao
desenvolvida. Nessa seo, sero apresentadas as informaes que eles conseguiram
realmente obter ao final do estudo e as tcnicas de visualizao e interao que
possibilitaram isto.
7.4.1 Identificao de Crnios com Medidas Fora do Padro
Os usurios especialistas destacaram em suas avaliaes que a visualizao
Coordenadas Paralelas foi muito til para a rpida identificao de crnios com medidas
fora do padro e/ou medidas que apresentam diferenas significativas entre os
indivduos. Estas ocorrncias, segundo eles, podem indicar erros na coleta das medidas
e, por esta razo, a identificao das mesmas muito importante.
A visualizao do conjunto total de indivduos contidos nos dados analisados nesse
estudo j permite a identificao de crnios fora do padro, conforme mostra a figura
7.2, e medidas que apresentam diferenas significativas entre indivduos. A
possibilidade de destacar na representao visual um determinado item e, paralelamente,
observar seus valores de atributo na tabela do painel de controle facilita ainda mais a
observao de um determinado item em relao ao todo, segundo os usurios
especialistas. Por exemplo, o item destacado na visualizao da figura 7.2 foi
identificado pelos mesmos como sendo um indivduo jovem, devido s medidas
91
pequenas apresentadas. Este, ento, deveria ser retirado do conjunto de dados, j que
apenas indivduos adultos devem compor a amostragem.
As visualizaes Radviz e Matriz de Scatter Plots no chegaram a ser exploradas
pelos usurios nessa tarefa.
Figura 7.2: Identificao de um animal com medidas fora do padro (item destacado)
7.4.2 Identificao de Variaes nos Padres de Medidas de Diferentes
Localidades
Um dos objetivos da anlise morfomtrica de crnios verificar se existem
variaes nas medidas de crnios em funo da localizao geogrfica das amostras.
Para tentar identificar estas variaes entre diferentes localidades (o conjunto de dados
analisado contm 10 localidades), os especialistas do estudo de caso inicialmente
retiraram o atributo cromossomos da representao visual e mapearam o contedo do
atributo local (categrico) para cor, na visualizao Coordenadas Paralelas. Com isto, os
itens de dados representados foram divididos em 10 cores diferentes, cada cor
representando um local de coleta. No entanto, isto no foi suficiente para obter as
informaes de variaes desejadas, devido grande sobreposio e cruzamento de
linhas, que pode ser observada na figura 7.3.
Para melhorar a visualizao, os especialistas aplicaram diversas combinaes de
filtros por local, ou seja, variaram o nmero de locais de coleta visualizados
simultaneamente, bem como tambm os locais propriamente ditos. Com isto, eles
conseguiram obter informaes de variaes interessantes: as amostras coletadas em
Pelotas (cor verde claro), por exemplo, apresentam um padro de medidas um pouco
mais alto, em geral, que as amostras coletadas em outros locais; as amostras coletadas
na Estao Ecolgica do Taim (em cor vermelha) apresentam o padro de medidas mais
baixo entre todos os locais analisados; e as amostras coletadas nos demais locais
apresentam um padro semelhante de medidas, intermedirio entre Taim e Pelotas. A
visualizao Matriz de Scatter Plots, com o atributo local mapeado para cor tambm,
foi observada em paralelo com Coordenadas Paralelas e ajudou a validar as informaes
de variao mencionadas acima.
92
As figuras 7.4 e 7.5 mostram apenas os itens de dados que representam amostras
coletadas em Pelotas (cor verde), Bag (cor azul) e Taim (com vermelha), utilizando as
tcnicas Coordenadas Paralelas e Matriz de Scatter Plots, respectivamente. Claramente,
possvel perceber trs padres distintos de medidas: o padro mais alto representa
Pelotas, o intermedirio representa Bag e o mais baixo representa Taim. Os demais
locais de coleta, no representados nessas figuras, seguem aproximadamente o mesmo
padro de medidas de Bag.
7.4.3 Identificao de Variaes nas Medidas de Animais com Nmero de
Cromossomos Diferente
A anlise morfomtrica tem como objetivo tambm verificar se ocorrem variaes
nas medidas de animais que possuem um nmero diferente de cromossomos. No caso
do conjunto de dados analisado nesse estudo, h apenas 3 numeraes diferentes de
cromossomos e estas possuem relao direta com os locais de coleta, ou seja, os
indivduos de Taim e Rio Grande tm 46 cromossomos, os de Alegrete tm 40 e os
indivduos dos demais locais de coleta tm 44 cromossomos. Assim, para a anlise de
variaes nas medidas de crnios em funo do nmero de cromossomos, o
procedimento seguido o mesmo utilizado para a anlise de variaes em decorrncia
do local de coleta (descrito acima) e os resultados tambm so semelhantes. Portanto, os
bilogos puderam confirmar variaes nas medidas de crnios relacionadas com o
nmero de cromossomos das amostras.
93
94
95
96
Figura 7.7: Grficos gerados com o sistema NCSS, scatter plot (esquerda) e box plot
(direita), utilizados na anlise do dimorfismo sexual.
Figura 7.8: Grficos gerados com o sistema NCSS, scatter plot (esquerda) e box plot
(direita), utilizados na anlise de variaes por local de coleta.
7.6 Concluses
A tcnica de visualizao multidimensional que melhor auxiliou os especialistas
desse estudo na obteno das informaes desejadas foi Coordenadas Paralelas. Os
especialistas consideraram o mapeamento desta tcnica bastante claro e o nico capaz
de permitir dedues precisas e detalhadas a respeito dos dados, que era o seu principal
objetivo.
Em relao tcnica Radviz, os especialistas consideraram seu mapeamento
complicado e de difcil compreenso. Alm disso, os dados analisados nesse estudo de
caso no apresentam caractersticas adequadas para a representao com essa tcnica,
pois todos os itens de dados possuem valores com pesos semelhantes, o que faz com que
estes sejam desenhados todos muito prximos, no centro do crculo. Por estas razes, a
tcnica Radviz no contribuiu para a anlise realizada.
A tcnica Matriz de Scatter Plots, por outro lado, foi observada paralelamente
tcnica Coordenadas Paralelas e ajudou a validar informaes extradas a partir desta
ltima, como as variaes nas medidas coletadas em diferentes localidades. Alm disso,
a correlao entre atributos, representada na Matriz, demonstra claramente que todas as
97
8 CONCLUSES
99
itens de dados que podem ser mostrados efetivamente e o alto ndice de sobreposio
visual destes. Quando exibindo conjuntos de dados com muitos itens, a ocupao do
espao de tela torna-se muito densa e o grande nmero de cruzamentos e sobreposies
de linhas horizontais causam confuso visual, que impede a compreenso dos dados
representados. Devido a isto, o nmero mximo de itens de dados que podem ser
exibidos por Coordenadas Paralelas fica limitado em torno de mil itens (Keim, 1996).
No entanto, mesmo para conjuntos de dados pequenos, pode haver sobreposio de itens
e confuso visual, o que prejudica a percepo de clusters de dados.
A tcnica Radviz pode representar um grande nmero de dimenses e itens de dados
simultaneamente, sem provocar confuso visual. A mesma muito boa para a
identificao de outliers e clusters de dados, mas, por outro lado, sua representao dos
dados tambm pode ser prejudicada pela sobreposio de itens de dados. Este problema
pode ser contornado, contudo, atravs de mecanismos de interao que permitam alterar
a disposio dos atributos no layout da tcnica. A maior deficincia dessa tcnica , sem
dvida, o fato de no ser possvel estimar os valores dos itens de dados. Alm disso, os
estudos de avaliao relatados nesse trabalho mostram claramente que a tcnica Radviz
tem um aprendizado mais difcil.
A Matriz de Scatter Plots , entre as trs tcnicas avaliadas, a de mais fcil
aprendizagem. No entanto, ela possui limitaes quanto ao nmero de dimenses e itens
de dados que podem ser representados. Para visualizar adequadamente caractersticas de
um conjunto de dados com mais de 10 dimenses, necessria a utilizao de recursos
interativos. Mas, mesmo assim, no ser possvel, nestes casos, observar todas as
clulas da matriz simultaneamente. A visualizao dessa tcnica muito til para a
percepo de outliers, clusters e correlaes entre dimenses dos dados.
Tabela 8.1: Comparao das tcnicas Coordenadas Paralelas, Radviz e Matriz de Scatter
Plots segundo critrios encontrados na literatura. Os smbolos ++, +, 0, - , -correspondem excelente, bom, mdio, pobre e muito pobre (simbologia
proposta por KEIM, 1996).
Coordenadas
Paralelas
Radviz
Matriz de
Scatter Plots
++
++
++
Curva de aprendizagem
++
++
--
Representao de Outliers
++
++
++
Representao de Clusters
++
++
Sobreposio visual
--
Nmero de dimenses
100
como os valores de dimenses e seus intervalos. Essas tcnicas possuem pontos fortes
diferentes, sendo que uma complementa as fraquezas da outra. De um lado, Radviz
oferece pouca confuso visual e representao clara de clusters de dados, mas ela no
permite a visualizao de informaes quantitativas; por outro lado, Coordenadas
Paralelas mostra claramente valores de itens de dados e intervalos de atributos, mas
apresenta grande confuso visual (at mesmo para conjuntos de dados pequenos).
Um outro enfoque de representao dos dados fornecido ainda pela tcnica Matriz
de Scatter Plots, que possibilita que determinadas anlises dos dados sejam mais
efetivas utilizando essa tcnica do que as anteriores. Por exemplo, a Matriz de Scatter
Plots oferece a representao mais clara e fcil para a identificao de correlaes entre
quaisquer dimenses dos dados.
Com o uso de coordenaes, as possibilidades de colaborao entre essas tcnicas
aumentam consideravelmente. Por exemplo, um cluster de dados pode ser facilmente
identificado na tcnica Radviz. Com a coordenao brushing-and-linking habilitada,
selecionando, nessa tcnica, os itens que compem o cluster ir destacar os mesmos nas
outras duas visualizaes. Com isto, pode-se ento observar a representao de
Coordenadas Paralelas e verificar os valores destes itens para cada atributo. Bertini et al.
(2005) realizaram estudos de avaliao que demonstram outros ganhos com o uso
coordenado das tcnicas Radviz e Coordenadas Paralelas.
Enfim, alm de ser especfica para dados multidimensionais, a aplicao relatada
nesse trabalho apresenta ainda vrias vantagens para a explorao deste tipo de dados
em relao a outros sistemas:
101
Interface grfica:
O resultado do experimento de avaliao de usabilidade realizado com a
aplicao em questo (relatado no captulo 6) apontou diversas falhas e
problemas com a interface grfica inicial que se tinha naquele momento. Por
questes de tempo, apenas os problemas mais graves foram resolvidos aps o
experimento, restando ainda muitos melhoramentos para serem realizados. Por
exemplo, devem ser disponibilizadas opes para abrir/salvar cenrios de
explorao e recursos alternativos para a interao do usurio.
Visualizaes:
A implementao da tcnica Matriz de Scatter Plots , dentre as tcnicas de
visualizao j suportadas, aquela que mais necessita de melhoramentos. Para
aumentar a efetividade dessa tcnica na representao de conjuntos de dados
com grande nmero de dimenses ou itens de dados, interaes como o zoom
devem ser habilitadas para uso nas clulas da matriz.
Coordenaes:
No contexto das tcnicas de coordenao, poderiam ser disponibilizadas
diferentes formas de implementao para uma mesma tcnica. Por exemplo, a
filtragem de itens de dados poderia ser realizada atravs de um outro widget
grfico que no uma slider bar. Da mesma forma, o brushing-and-linking
poderia ser ativado tambm apenas pela passagem do mouse sobre um item de
dado, sem necessitar da seleo.
REFERNCIAS
103
em:
FEKETE, J. D. The InfoVis Toolkit. [S.l.]: INRIA Futurs, 2003. (RR - 4818).
FEKETE, J. D. The InfoVis Toolkit. In: IEEE SYMPOSIUM ON INFORMATION
VISUALIZATION, InfoVis, 2004. Proceedings... [S.l.]: IEEE Press, 2004.
FISHKIN, K.; STONE, M. C. Enhanced Dynamic Queries Via Movable Filters. In:
HUMAN FACTORS IN COMPUTING SYSTEMS, CHI, 1995. Proceedings... Denver,
CO: [s.n.], 1995.
FREDRIKSON, A. et al. Temporal, Geographical and Categorical Aggregations
Viewed through Coordinated Displays: A Case Study with Highway Incident Data. In:
WORKSHOP ON NEW PARADIGMS IN INFORMATION VISUALIZATION AND
MANIPULATION, ACM CIKM, 1999. Proceedings... [S.l.:s.n.], 1999.
104
105
106