Академический Документы
Профессиональный Документы
Культура Документы
Belém-PA
2018
Caio Marcos Flexa Rodrigues
Belém-PA
2018
Lista de ilustrações
AM Aprendizado de Máquina
CH Calinski-Harabasz
DB Davies-Bouldin
DI Damage Indicator
GS Gap Statistic
LM L-Method
MD Mineração de Dados
SC Silhouette Coefficient
1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Trabalhos relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3 Contextualização e terminologias do trabalho . . . . . . . . . . . . . . . . . 14
3.1 Validação de cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.1 Índice CH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.2 Índice DB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.3 Índice SC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.4 Índice BIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.5 Índice GS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.6 Índice LM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1.7 Índice WB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4 Espalhamento equidistante mútuo: hipótese e contribuições . . . . . . . . . 20
4.1 Índice MEC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.2 Desajuste MEM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
6 Justificativa e contribuição à área . . . . . . . . . . . . . . . . . . . . . . . . 27
7 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
7.1 Objetivo geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
7.2 Objetivos específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
8 Metodologia de pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
9 Dados de teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
9.1 Conjuntos de dados do mundo real . . . . . . . . . . . . . . . . . . . . . . 30
9.2 Conjuntos de dados sintéticos . . . . . . . . . . . . . . . . . . . . . . . . . 31
9.3 Conjuntos de dados SHM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
10 Resultados experimentais e análises . . . . . . . . . . . . . . . . . . . . . . 40
10.1 Dos conjuntos de dados reais . . . . . . . . . . . . . . . . . . . . . . . . . . 40
10.2 Dos conjuntos de dados sintéticos . . . . . . . . . . . . . . . . . . . . . . . 42
10.3 Do estudo de caso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
10.3.1 Validação de cluster em SHM . . . . . . . . . . . . . . . . . . . . . 47
10.3.2 Detecção de danos com MEM . . . . . . . . . . . . . . . . . . . . . 47
11 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
12 Artigos, propostas e cronograma . . . . . . . . . . . . . . . . . . . . . . . . 51
Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
7
1 Introdução
O mundo está cada vez mais repleto de dados profícuos, sobretudo porque, em sua
maioria, são armazenados em mídias eletrônicas todos os dias. Por essa razão, desde meados
do século passado — primórdios da Revolução da Informação — conservou-se um alto
potencial para a pesquisa e desenvolvimento de técnicas que visam a análise automatizada,
classificação e recuperação de dados (GANDOMI; HAIDER, 2015). Declarações recentes
ratificam a esse respeito que, de todos os dados já produzidos pela humanidade, por volta
de 90% foram gerados nos anos de 2015 e 2016, de forma que esse conteúdo ainda duplicará
em decorrido o mesmo período de tempo (GARDINER et al., 2017). Exponencialmente
crescentes, tanto o tamanho quanto a complexidade dos dados são tidos por Big Data e,
portanto, ambos merecem atenção.
Avaliação
Operacional
Aquisição de
Dados
Extração de
Características
Modelagem
Estatística
Não obstante, nota-se que o aprendizado não supervisionado é a única opção para a
maior parte da infraestrutura de engenharia civil onde processos SHM são aplicados (como
em pontes), dado ser incomum que observações de condição com dano estejam disponíveis
para distinguimos os principais estados de variância habitual do sistema daqueles exibidos
apenas quando dano se faz presente (SANTOS et al., 2016). Dessa forma, Cremona (2016)
frisa a clusterização de dados como uma ferramenta crucial para a modelagem estatística
de SHM.
algoritmos entre parênteses (XU; TIAN, 2015; LANGONE et al., 2017): o expoente
fuzzificador (Fuzzy C-Means — FCM); o número mínimo de objetos e a ε-vizinhança de
um ponto (Clusterização Espacial de Aplicações com Ruído Baseada em Densidade, do
inglês: Density Based Spatial Clustering of Application with Noise — DBSCAN); número de
outliers (Clusterização Espectral de Kernel Adaptável, do inglês: Adaptive Kernel Spectral
Clustering — AKSC); e número de clusters, o mais comum e importante de todos. A
quantidade de agrupamentos é requerida em todos os algoritmos indicados entre parênteses,
com exceção do DBSCAN. Tal fato aumenta a complexidade envolvida no ajuste por
parte de analistas de dados, aquem de diminui-la à primeira vista. Porque, não precisando
diretamente do número de clusters para modelagem de grupos de formato arbitrário, o
DBSCAN impõe a configuração de outras duas entradas. Em contrapartida, Modelos de
Mistura Gaussiana (Gaussian Mixture Models — GMM) e o consagrado K-médias (do
inglês, K-means) são boas amostras de algoritmos que necessitam apenas do número de
clusters.
enunciada como o meio mais confiável de determina-los (PAGNUCO et al., 2017). Nesse
cenário, índices de validade analisam de perto duas questões concernentes à estrutura
subjacente dos dados: quantos agrupamentos estão presentes e qual a qualidade da partição
encontrada. Todavia, a maioria dos índices dispostos na literatura são condicionados ao
número de objetos em clusters e, por isso, tendem a ignorar grupos pequenos ou de baixa
densidade com frequência, assim como selecionam soluções subótimas quando encontram
agrupamentos em determinado grau de sobreposição ou baixa separação (ŽALIK; ŽALIK,
2011; GUERRA et al., 2012). Todas essas e outras desvantagens serão exploradas nos
capítulos mais adiante.
2 Trabalhos relacionados
O índice Dunn (DUNN, 1973) mede a razão entre a menor e a maior distância
intra-cluster em um particionamento, do qual muitas versões foram propostas nos anos
subsequentes (PAL; BISWAS, 1997; BEZDEK; PAL, 1998). O índice SD (HALKIDI;
VAZIRGIANNIS; BATISTAKIS, 2000) é definido com base nos conceitos de espalhamento
médio para clusterização e a separação total entre clusters. O índice S_Dbw verifica os
processos de variância intra-cluster e inter-cluster, muito similar ao SD. Chou, Su e Lai
(2002) usaram a distância não métrica extraída do conceito de simetria de ponto (SU;
CHOU, 2001), como também a simetria média total dos centroides, na produção de um
índice de validade baseado na simetria de ponto (Point-Symmetry — PS). Posteriormente,
Chou, Su e Lai (2004) propuseram o índice CS que obtém bons resultados quando a
densidade e/ou tamanho dos agrupamentos alcançados é diferente. Seu ponto fraco,
contudo, é o elevado custo computacional.
Outros autores optam por focar o fenômeno cotovelo ou ponto de joelho (TIBSHI-
RANI; WALTHER; HASTIE, 2001; SALVADOR; CHAN, 2004; ZHAO; HAUTAMAKI;
FRäNTI, 2008). Por exemplo, Tibshirani, Walther e Hastie (2001) propuseram o Gap esta-
tístico (Gap Statistic — GS), índice que visa algumas medidas estatísticas para resolução
da questão, ao passo que o Método-L (L-Method — LM) obtém o ponto de joelho dada
uma curva de soluções através do par de retas que melhor a ajusta (SALVADOR; CHAN,
2004). O Critério de Informação Bayesiana (Bayesian Information Criterion — BIC),
diferente dos critérios anteriores, é derivado do teorema de Bayes (SCHWARZ, 1978), logo,
usado para determinar o modelo de mistura mais apropriado baseado na distribuição de
probabilidades dos dados de entrada (FRALEY; RAFTERY, 2002).
Capítulo 2. Trabalhos relacionados 13
• pκ ∩ pl = ø, κ, l = 1, . . . , K e κ =
6 l (cada objeto pertence exclusivamente a um único
cluster);
4. Selecionar o K̂, valor máximo ou mínimo (Figura 3), para o qual o particionamento
de dados forneceu o melhor resultado.
Por sua vez, índices são considerados virtualmente independentes dos algoritmos
de clusterização utilizados (WU; YANG, 2005) e normalmente caem em uma das duas
categorias fundamentais: validação de cluster interna e validação de cluster externa
(GUERRA et al., 2012; MARY; SIVAGAMI; RANI, 2015). A validação interna não
requer conhecimento sobre o domínio do problema, de forma tal que a qualidade da
partição que utiliza índices de validade interna é validada pela verificação de cada partição
individualmente. Portanto, critérios de validade interna são medidas que utilizam apenas
informações intrínsecas aos dados, e por isso mesmo possuem forte apelo prático. Em
contra partida, a validação externa é mais acurada, porém nada factível em termos práticos.
Nesse caso, avaliamos o quanto a solução obtida se aproxima de uma estrutura pré-definida
baseada no conhecimento prévio e intuitivo concernente a natureza dos dados. Existe
uma subcategoria, ainda, que cobre ambas as outras, usada para comparar esquemas de
clusterização: a validação relativa baseada na análise repetida de um mesmo algoritmo a
partir de diferentes parâmetros para obter um resultado estável (MOULAVI et al., 2014).
Por esses motivos, optamos por desenvolver um índice de validade interna, comparando-
o com outros afins com o intuito de validar a proposta em um número exaustivo de casos
através de conjuntos de dados. Observamos que por questão de simplicidade nossas análises
serão focadas no largamente usado procedimento de clusterização K-médias, assim como
em (TIBSHIRANI; WALTHER; HASTIE, 2001; RENDóN et al., 2011).
As seções a seguir oferecem uma visão mais detalhada dos sete índices internos
comparados com aquele proposto em nosso estudo em termos de formulação matemática.
São eles: CH, DB, SC, BIC, GS, LM e WB, onde os quatro primeiros são os mais tradicio-
nais e, portanto, comparados na literatura de validação de cluster; esses, os mais recentes
e superiores a outros critérios de avaliação que os precederam como reportado por seus
próprios autores, porém ainda não exaustivamente confrontados. Logo abaixo denotamos
que
PK Pnκ
WK = κ=1 i=1 (xi − θκ )(xi − θκ )> é a matriz de dispersão dentro do cluster K,
PK
BK = κ=1 nκ (θκ − x̄)(θκ − x̄)> a matriz de dispersão entre grupos em função de K para
os dados particionados.
3.1.1 Índice CH
O índice CH (CALIńSKI; HARABASZ, 1974) é definido pelo número de clusters
K que maximiza a Equação 3.1.
BK N −K
CH(K) = × . (3.1)
WK K −1
3.1.2 Índice DB
O índice DB (DAVIES; BOULDIN, 1979) é formulado como a máxima razão entre a
homogeneidade interna e a separação de clusters de acordo com o valor de K que minimiza
DB(K) da seguinte maneira:
K
!
1 X δκ + δl
DB(K) = max , (3.2)
K κ=1 κ6=l dist(θκ , θl )
onde
l = 1, . . . , K,
q
|xij − θκj |u é o desvio padrão para u = 2,
1 Pnκ Pm
δκ = u
nκ i=1 j=1
qP
dist(θκ , θl ) = v m
j=1 |θκj − θlj |v a distância Euclidiana quando v = 2.
3.1.3 Índice SC
Rousseeuw (1987) propôs o uso do SC, maximizando a Equação 3.3, onde SC(K) ∈
[−1, 1].
N
1 X
SC(K) = S(i), (3.3)
N i=1
onde
b(xi )−a(xi )
S(i) = max{a(xi ),b(xi )}
,
Capítulo 3. Contextualização e terminologias do trabalho 18
1 Pnκ
a(xi ) = nκ −1 j=1 dist(xi , xj ), x ∈ pκ , é a dissimilaridade média do i-ésimo objeto para
j6=i
quaisquer outros objetos pertencentes a pκ ,
Pnl
b(xi ) = min{ n1l j=1 dist(xi , xj )}, xj ∈ pl , é a dissimilaridade média do i-ésimo objeto para
l6=κ
todos os objetos do cluster mais próximo a ele.
onde
1 Pni
Di = N −K j=1 kxj − θi k2 é o ajuste do modelo aos dados de entrada.
3.1.5 Índice GS
O GS foi desenvolvido por (TIBSHIRANI; WALTHER; HASTIE, 2001) para a
comparação dos resultados de validação de um dado conjunto de dados a outro tomado
a partir de uma distribuição nula de refência apropriada. Então, o índice GS é definido
como:
B
1 X
GS(K) = (log (WKb )) − log (WK ) , (3.5)
B b
onde
PK 1
dist(xi , xj ), ∀x ∈ pκ , de forma que i 6= j,
P
WK = κ=1 2nκ
O número razoável de clusters é dado pelo menor valor de K, tal que GS(K) ≥ GS(K +
q
1) − sK+1 , onde sK = sdK 1 + 1/B e sdK é o desvio padrão de {log (WKb )}.
Capítulo 3. Contextualização e terminologias do trabalho 19
3.1.6 Índice LM
Dada uma curva de avaliação (conjunto de soluções de agrupamento em sequência),
o LM (SALVADOR; CHAN, 2004) tem como finalidade encontrar o ponto de joelho por
intermédio da fronteira entre o par de linhas retas que melhor fit a curvatura. O LM index
denota a raiz do erro quadrático médio (RMSE, do inglês Root Mean Squared Error) total
minimizada em função de K como abaixo
K −1
LM(K) = × RMSE(LK )+
Kmax − 1
(3.6)
Kmax − K
× RMSE(RK ),
Kmax − 1
onde
3.1.7 Índice WB
Zhao, Xu e Fränti (2009) propuseram um simples, porém eficiente, método sum-
of-square. Os autores enfatizaram o vantajoso efeito de multiplicar o número de clusters
por WK (Equação 3.7), uma vez que, desse modo, o índice determinará o K pelo valor
mínimo da função sem que haja a necessidade de qualquer método de detecção do ponto
de joelho.
WB(K) = K × WK /BK . (3.7)
20
pairwise intra-cluster
dκ = dist(xi , xj ), (4.1)
sujeito a
∀xi , xj ∈ pκ , i 6= j,
onde
σκ2 = Eκ(1) − Eκ(2) , (4.4)
onde
1
K se K > 1
max dist(θi , θj )
λ= ∀θ∈Θ (4.7)
i6=j
1 c.c.
A medida de separação e penalização global λ assim formulada, portanto, não depende
única e exclusivamente de pκ , porém do maior afastamento entre os pares de pontos
representativos de cada partição de dados (p. ex., centroide ou centralização da massa
de dados de pκ no caso da aplicação do K-médias). Em poucas palavras, λ mensura o
resultado da solução como um todo.
Finalmente, nota-se que a Equação 4.6 deva ser minimizada, isto é, que K̂ é inferido
pela variação de K ∈ [Kmin , Kmax ] que determinou o menor valor de MEC,
Não obstante, a Equação 4.2 pode ser equivalentemente otimizada a uma complexi-
dade log-linear em função de Lκ , para que alcançemos uma maior eficiência computacional
com o emprego do critério. A razão disso está na reformulação da Equação 4.2 pela
Capítulo 4. Espalhamento equidistante mútuo: hipótese e contribuições 23
(a)
(b)
(c)
4
MEC
mínimo global:
3
(d)
Figura 4 – Resultados do MEC para um mesmo conjunto de oito dados, tal que cada linha
pontilhada configure um módulo de dissimilaridade intra-cluster representado
por um centroide quadrático e ciano, onde: (a) K = 1; (b) K = 2; (c) K = 4;
(d) validação dos resultados.
Capítulo 4. Espalhamento equidistante mútuo: hipótese e contribuições 24
onde dˆκ é a ordenação crescente dos valores de dκ e L̃κ = Lκ − 1 = #cκ . Por sua vez, cκ é
uma variável auxiliar que consiste num vetor cumulativo e natural ordenado de dˆκ definido
como
c(κL̃κ ) = dˆ(L
κ
κ)
≥ 0
c(κL̃κ −1) = cκ + dˆκ κ
(L̃κ ) (L −1) L̃
≥ cκ κ )
(
.. .. .. (4.10)
. . .
c(1)
κ = cκ + dˆκ
(2) (2) (2)
≥ cκ .
p0κ = p_
κ z = {x1 , x2 , . . . , xnκ , z}, (4.11)
Isto posto, MEM é definido explicitamente como uma perturbação mensurada da razão
tomada entre parâmetro recalculado e original do critério:
Σ(p0 ) M(p0κ )
κ
DI(z) = α × − 1 , (4.13)
Σ(pκ ) M(pκ )
Capítulo 4. Espalhamento equidistante mútuo: hipótese e contribuições 25
onde
min
0
d0
α= d >0
= min d0 (1 + nκ ), (4.14)
1 0
d >0
1+nκ
5 Motivação
Por outro lado, a validação interna não requer conhecimento sobre o domínio do
problema, de forma tal que a validade da partição que utiliza especificamente esses índices
é qualificada pela verificação de cada uma individualmente. Portanto, é correto salientar
que critérios de validade interna possuem forte apelo prático, haja vista que são medidas
de razoabilidade da solução que utilizam apenas informações intrínsecas aos dados.
7 Objetivos
8 Metodologia de pesquisa
9 Dados de teste
O conjunto de dados Iris (Bezdeket al., 1999) contém 150 exemplos de dados
relacionados a três classes ou clusters balanceados de espécies, designadamente: (I) Iris
setosa, (II) Iris Versiculor e (III) Iris Virginica. A classe Iris setosa é fortemente separável
das demais, porém a Iris Versiculor e Iris Virginica não são linearmente separáveis uma da
outra. Cada data point é descrito por um conjunto de quatro atributos: comprimento da
sépala, largura da sépala, comprimento da pétala e largura da pétala.
Oito conjunto de dados sintéticos são de nossa própria autoria, desses oito, os três
primeiros foram construídos para demonstrar o bom funcionamento das bases de nosso
critério, com efeito: o espalhamento equidistante mútuo dos dados. Assim, S1 foi pensado
como quatro clusters de formato triangular e equilátero (see Figura 4), onde cada ponto é
posicionado exatamente nos cantos pertencentes a seu agrupamento, totalizando 12 data
points com o intuito de validar a hipótese oriunda do MESC index. O mesmo acontece com
S2 (Figura 5a), porém com um único diferencial, aqui, cada triângulo é irregular. Outro
polígono é representado no cojunto de dados S3 (Figura 5b) com número de clusters K = 2
e size N = 8. A despeito das condições ideais constituídas a priori, S2 e S3 intentam provar
que a avaliação do MESC pode ser extensível a conjuntos de subjacência de outros tipos.
3.5 5
4
3
2.5
2
1
2
1.5
−1
1 −2
1 1.5 2 2.5 3 3.5 1 2 3 4 5 6 7 8
(a) (b)
3.5 1
0.9
3
0.8
2.5 0.7
0.6
2
0.5
1.5
0.4
1 0.3
0.2
0.5
0.1
0 0
0 0.5 1 1.5 2 2.5 3 3.5 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
(a) (b)
1 30
0.9
25
0.8
0.7 20
0.6
15
0.5
10
0.4
0.3 5
0.2
0
0.1
0 −5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 −5 0 5 10 15 20 25 30
(c) (d)
8
1
1 2 3 4 5 6 7 8
(e)
Figura 6 – Visualização bidimensional dos conjuntos de dados sintéticos S4−8 , cujo número
esperado de clusters K ◦ é, respectivamente: (a) um; (b) um; (c) dois; (d) seis
(ou dois) e diagrama de Voronoi; (e) seis (cinco ou três) e diagrama de Voronoi.
30, respectivamente. Por fim, geramos dois conjuntos hierárquicos, S7 e S8 (Figura 6), de
dados uniforme e normalmente distribuídos, respectivamente. De outra forma, S7 tem
K = 6 agrupamentos, interessantemente também agrupado ainda em K = 2 (resposta
subótimo). S8 permite duas outras soluções subótimas além dos seus seis clusters, nesta
ordem, K = 5 e 3. Daí a nomenclatura K = 6(2) e K = 6(5, 3). A ideia principal é que
um bom critério de validade possa identificar, aquem do resultado ótimo, outras possíveis
soluções subótimos, mesmo para distribuições, densidades, tamanhos e hierarquias de
dados diferentes, bem como um alto valor de K no caso das misturas Gaussianas que
notamos na Figura 8.
4 6
3.5 5
3 4
2.5 3
2 2
1.5 1
1 0
1 1.5 2 2.5 3 3.5 4 1 2 3 4 5 6 7
(a) (b)
10 6.5
9 6
5.5
8
5
7
4.5
6
4
5
3.5
4
3
3
2.5
2
2
1 1.5
0 1
−1 0 1 2 3 4 5 6 7 8 9 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 6.5
(c) (d)
Figura 7 – Visualização bidimensional dos conjuntos de dados sintéticos S9−12 , cujo número
esperado de clusters K ◦ é, respectivamente: (a) quatro; (b) nove; (c) dez e
outliers destacados em vermelho; (d) dez (adaptado de (SALVADOR; CHAN,
2004)).
que precisam ser transpostos para uma boa validação de cluster. São eles: (S9 ) quatro
clusters cônvacos, bem separados e size N = 2000; (S10 ) um conjunto de dados com nove
clusters de formato quadrático conectados at the corners e size N = 4500; (S11 ) dez clusters
côncavos, onde uma metade é composta de clusters sobrepostos e a outra de fortemente
separados, bem como uma distribuição uniforme de outliers e tamanho N = 3000; por
último, (S12 ) dez clusters bem separados de diferentes tamanhos e densidades de data
points, onde N = 3200.
10 10
9 9
8 8
7 7
6 6
5 5
4 4
3 3
2 2
1 1
0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
(a) (b)
10 10
9 9
8 8
7 7
6 6
5 5
4 4
3 3
2 2
1 1
0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
(c) (d)
Figura 8 – Visualização bidimensional dos conjuntos de dados sintéticos S13−16 , cujo nú-
mero esperado de clusters K ◦ é, respectivamente: (a) quinze; (b) quinze; (c)
quinze; (d) quinze (FRäNTI; VIRMAJOKI, 2006).
Tabela 1 – Características dos conjuntos de dados artificiais. (*) Válido para a maioria
dos clusters do referido conjunto de dados.
Conjuntos
N K◦ Separação Compactação Distribuição Densidade Sobreposição Formato Ruído
de dados
S1 12 4(2) Alto Baixo —— Baixo —— Triangular ——
Data Descrição
04-08-1998 Medição de referência I (antes de qualquer cenário de dano)
09-08-1998 Após a instalação do sistema de sedimentação
10-08-1998 Sedimentação de pilar = 2 cm
12-08-1998 Sedimentação de pilar = 4 cm
17-08-1998 Sedimentação de pilar = 5 cm
18-08-1998 Sedimentação de pilar = 9.5 cm
19-08-1998 Inclinação da fundação
20-08-1998 Medição de referência II (depois da remoção do sistema de sedimentação)
25-08-1998 Espalhamento de concreto (12 m2 )
26-08-1998 Espalhamento de concreto (24 m2 )
27-08-1998 Deslizamento de terra no pilar
31-08-1998 Falha das articulações (ou ligamentos) de concreto
02-09-1998 Falha da cabeça de ancoragem I
03-09-1998 Falha da cabeça de ancoragem II
07-09-1998 Ruptura do tendão I
08-09-1998 Ruptura do tendão II
09-09-1998 Ruptura do tendão III
(a)
(b)
(c)
Figura 9 – Esquema para a Ponte Z-24 (a), bem como cenários de dano por falha da
cabeça de ancoragem (b) e ruptura do tendão (c).
Capítulo 9. Dados de teste 37
Figura 10 – Primeiras duas frequências naturais estimadas pela coleta de dados diária às
5 da manhã.
A Ponte Tamar (Figura 12) foi construída em meados de 1961 para interligar as
cidades de Saltash e Cornwall por meio da estrada A38 no Reino Unido. A Figura 13
mostra as primeiras cinco frequências naturais obtidas durante a fase de extração de
características usando identificação estocástica de subespaço (PEETERS; ROECK, 1999)
através de dados coletados no período de 1 de Julho de 2007 à 24 do Fevereiro de 2009,
totalizando 602 observações ou amostras.
Capítulo 9. Dados de teste 39
Este capítulo se divide em três seções de análise dos resultados. Nas duas primeiras
seções, 10.1 e 10.2, explanamos o desempenho dos sete índices de validade em diversos
conjuntos de dados através de uma série de indicadores estatísticos. São eles: frequência
absoluta, média e desvio padrão de K̂ a partir de cinquenta validações de cluster sobre os
conjuntos de dados, de modo que também considerou-se exibir um gráfico de histograma
para a distribuição dos resultados num esforço para facilitar a compreensão do leitor do
que fora alcançado. Por fim, o erro entre o número desejado e ajustado de clusters fora
estimado para denotar que, na média, o comportamento de MEC tende a superar os
demais índices.
Terceira e última seção deste capítulo, a seção 10.3 apresenta um estudo de caso
para avaliação de soluções de clusterização no contexto de SHM, quando não se conhece
ao certo o número de clusters nos quais os dados se agrupam. Para isso, algum insight dos
dados e conhecimento técnico da área são necessários. Os resultados são então validados
conforme o pipeline convencional da área, mediante: curvas ROC, erros Tipo I e Tipo II e
DIs, descritos no Capítulo 8. Além da validação em si, o método de detecção de outliers
MEM tem seu funcionamento comparado ao que tradicionalmente se alcança a partir da
distância Euclidiana, novamente conforme o pipeline particular de SHM.
foram: GS (9.08 ± 4.44), CH (11.48 ± 3.97) e BIC (4.50 ± 4.02), destaques negativos da
segunda linha na Tabela 3, pouco importando se por algumas vezes encontraram o número
correto de agrupamentos, decerto que caracterizam-se principalmente por grandes desvios
e médias ainda maiores.
Por sua vez, a Tabela 3 apresentou uma diversidade bem menor de resultados na
base de dados Wine em relação à sua anterior, Iris, pois não apenas MEC destacou-se aqui,
como também GS, SC e CH, com frequência absoluta 50 e média e desvio de 3.00 ± 0.00
respectivamente, totalizando a maioria dos índices estatisticamente experimentados. Na
contramão, LM (2.00 ± 0.00) alcançou equilíbrio, porém sem detectar uma única vez a
K ◦ = 3.
50 35 0 50 50 44 50
Wine 3 15
3.00 ± 0.00 5.42 ± 4.03 2.00 ± 0.00 3.00 ± 0.00 3.00 ± 0.00 4.24 ± 3.44 3.00 ± 0.00
0 4 2 0 0 13 0
Glass 6 15
7.84 ± 0.84 9.94 ± 3.15 4.12 ± 0.77 12.86 ± 1.71 2.64 ± 0.75 8.28 ± 3.09 2.14 ± 0.35
Capítulo 10. Resultados experimentais e análises 42
a Figura 14c nos permite concluir que MEC supera DB a despeito de sua frequência 0
(Tabela 5), visto que a dispersão de K̂ é muito acentuada para DB, assemelhando-se
somente a de BIC.
Tabela 4 – Média do RMSE tomada a partir das três bases de dados reais para cada um
dos índices de validade.
MEC BIC LM GS SC DB CH
(a)
(b)
(c)
Figura 14 – Histograma tomado a partir das cinquenta validações de cluster para cada
base de dados reais: (a) Iris; (b) Wine; (c) Glass.
Capítulo 10. Resultados experimentais e análises 44
47 6 0 0 7 1 47
S2 4 6
3.94 ± 0.24 4.12 ± 0.94 2.80 ± 0.40 1.00 ± 0.00 3.20 ± 0.53 5.90 ± 0.36 3.94 ± 0.24
50 50 50 0 50 27 50
S3 2 4
2.00 ± 0.00 2.00 ± 0.00 2.00 ± 0.00 1.00 ± 0.00 2.00 ± 0.00 2.92 ± 1.01 2.00 ± 0.00
50 0 0 50 0 0 0
S4 1 15
1.00 ± 0.00 13.66 ± 6.53 5.00 ± 0.00 1.00 ± 0.00 12.60±11.05 25.44 ± 5.25 6.16 ± 0.71
50 0 0 50 0 0 0
S5 1 15
1.00 ± 0.00 8.98 ± 3.40 3.28 ± 0.50 1.00 ± 0.00 6.12 ± 2.32 11.86 ± 3.29 12.10 ± 2.35
50 12 50 7 50 50 0
S6 2 15
2.00 ± 0.00 9.30 ± 4.51 2.00 ± 0.00 8.66 ± 4.00 2.00 ± 0.00 2.00 ± 0.00 12.34 ± 2.49
11 0 0 0 0 0 0
S7 6(2) 15
6.26 ± 1.87 2.00 ± 0.00 2.00 ± 0.00 2.00 ± 0.00 2.00 ± 0.00 2.00 ± 0.00 2.00 ± 0.00
11 8 0 11 6 5 11
S8 6(5,3) 15
7.44 ± 1.28 4.44 ± 1.74 2.74 ± 0.94 7.20 ± 1.16 4.34 ± 1.48 3.94 ± 1.15 7.20 ± 1.16
46 46 4 46 46 46 46
S9 4 15
4.08 ± 0.27 4.04 ± 0.28 3.08 ± 0.27 4.08 ± 0.27 4.08 ± 0.27 3.92 ± 0.27 4.08 ± 0.27
28 28 0 28 28 28 28
S10 9 15
9.48 ± 0.58 9.36 ± 0.66 3.00 ± 0.00 9.48 ± 0.58 9.42 ± 0.57 8.60 ± 0.53 9.48 ± 0.58
9 4 0 7 5 7 7
S11 10 30
9.60 ± 1.88 7.68 ± 3.44 5.14 ± 0.76 11.02 ± 1.41 6.98 ± 2.02 6.50 ± 1.85 10.90 ± 1.45
17 12 0 6 9 9 2
S12 10 30
9.54 ± 2.03 10.66 ± 4.23 4.94 ± 0.47 19.12 ± 8.17 8.30 ± 1.18 8.20 ± 1.46 22.16 ± 7.41
10 9 0 10 15 11 10
S13 15 30
16.12 ± 0.80 13.50 ± 3.45 4.62 ± 0.60 16.12 ± 0.80 15.42 ± 0.88 13.96 ± 1.01 16.12 ± 0.80
17 11 0 16 18 18 16
S14 15 30
15.82 ± 1.00 12.78 ± 4.58 4.16 ± 0.37 16.14 ± 0.97 15.56 ± 1.05 14.32 ± 0.98 16.14 ± 0.97
12 5 0 13 13 12 12
S15 15 30
13.54 ± 1.69 9.28 ± 5.90 4.10 ± 0.30 15.60 ± 1.26 14.78 ± 1.46 13.30 ± 1.62 15.94 ± 1.32
15 2 0 19 18 19 19
S16 15 30
13.10 ± 2.26 14.40 ± 8.77 4.64 ± 0.49 15.32 ± 1.08 15.38 ± 1.16 14.10 ± 1.17 15.54 ± 1.07
partir de médias e desvios padrões bastante elevados, chegando até a 12.10 ± 2.35 no pior
caso (CH).
Tabela 6 – Média do RMSE tomada a partir dos dezesseis conjuntos de dados sintéticos
para cada um dos índices de validade.
MEC BIC LM GS SC DB CH
10 10
9 9
8 8
7 7
6 6
5 5
4 4
3 3
2 2
1 1
0 0
−1 0 1 2 3 4 5 6 7 8 9 −1 0 1 2 3 4 5 6 7 8 9
(a) K̂ = 9 (b) K̂ = 11
10
0
−1 0 1 2 3 4 5 6 7 8 9
(c) K̂ = 10
não devido às fraquezas dos índices. É assim porque o K-médias, não sendo capaz de lidar
satisfatoriamente com outliers, nem sempre produzirá soluções coerentes que diferenciem
bem os cinco clusters mais internos quando K = 10 (Figura 7c) – a depender de sua
inicialização de parâmetros.
segunda maior, igual a 12, através da avaliação de BIC (10.66 ± 4.23). No extremo oposto,
os destaques negativos foram notórios, a saber: GS (19.12 ± 8.17) e CH (22.16 ± 7.41),
como consequência de valores de média elevadíssimos e alta instabilidade em seu entorno.
(a) (b)
(c) (d)
(e) (f)
(g) (h)
(a) (b)
(c) (d)
(e) (f)
(g) (h)
11 Conclusões
Ele obteve uma boa performance, mesmo em S7 , S11 e S12 . Ou seja, três dos conjuntos
de dados que simulam hierarquia de dados, baixa separação de cluster, presença de outliers
e agrupamentos com diferentes tamanhos e densidades. Cenários esses encontrados como
alguns dos maiores impedimentos para validação de cluster, bem como pouco explorados
ao mesmo tempo no mesmo trabalho.
Em termos da análise de resultados, pode-se notar que MEC recebera grande ênfase
em vários testes e conjuntos de naturezas distintas, alcançando com mais frequência do que
qualquer outro índice o número esperado de clusters. Com exceção dos testes realizados na
base de dados Glass e nos quatro últimos conjuntos sintéticos, MEC alcançou os melhores
resultados quando comparado a outros índices bem estabelecidos na literatura.
Referências
ŽALIK, K. R.; ŽALIK, B. Validity index for clusters of different sizes and densities.
Pattern Recognition Letters, v. 32, n. 2, p. 221 – 234, 2011. ISSN 0167-8655. Disponível
em: <http://www.sciencedirect.com/science/article/pii/S0167865510002928>. Citado 3
vezes nas páginas 11, 14 e 27.
BEZDEK, J. C.; PAL, N. R. Some new indexes of cluster validity. Trans. Sys. Man Cyber.
Part B, IEEE Press, Piscataway, NJ, USA, v. 28, n. 3, p. 301–315, jun. 1998. ISSN
1083-4419. Disponível em: <http://dx.doi.org/10.1109/3477.678624>. Citado 2 vezes nas
páginas 12 e 31.
CHOU, C. H.; SU, M. C.; LAI, E. Symmetry as a new measure for cluster validity. In: in
Second WSEAS International Conference on Scientific Compuation and Soft Computing.
[S.l.: s.n.], 2002. p. 209–213. Citado na página 12.
CHOU, C. H.; SU, M. C.; LAI, E. A new cluster validity measure for clusters with
different densities. In: 2003 the IASTED International Conference on Intelligent Systems
& Control (accepted). Submitted Papers. [S.l.: s.n.], 2004. p. 2005–2020. Citado na página
12.
CREMONA, C. Big data and structural health monitoring. In: Challenges in Design and
Construction of an Innovative and Sustainable Built Environment, 19th IABSE Congress
Stockholm. [S.l.]: Challenges in Design and Construction of an Innovative and Sustainable
Built Environment, 2016. p. 1793–1801. Citado 2 vezes nas páginas 7 e 9.
DAVIES, D. L.; BOULDIN, D. W. A cluster separation measure. IEEE Trans. Pattern Anal.
Mach. Intell., IEEE Computer Society, Washington, DC, USA, v. 1, n. 2, p. 224–227, fev.
Referências 54
DUNN, J. C. A fuzzy relative of the isodata process and its use in detecting compact
well-separated clusters. Journal of Cybernetics, v. 3, n. 3, p. 32–57, 1973. Disponível em:
<http://dx.doi.org/10.1080/01969727308546046>. Citado na página 12.
FRäNTI, P.; VIRMAJOKI, O. Iterative shrinking method for clustering problems. Pattern
Recogn., Elsevier Science Inc., New York, NY, USA, v. 39, n. 5, p. 761–775, maio 2006.
ISSN 0031-3203. Disponível em: <http://dx.doi.org/10.1016/j.patcog.2005.09.012>.
Citado 3 vezes nas páginas 2, 33 e 34.
<http://www.sciencedirect.com/science/article/pii/S1877050915018244>. Citado na
página 7.
GANDOMI, A.; HAIDER, M. Beyond the hype: Big data concepts, methods, and
analytics. International Journal of Information Management, v. 35, n. 2, p. 137 – 144,
2015. ISSN 0268-4012. Disponível em: <http://www.sciencedirect.com/science/article/pii/
S0268401214001066>. Citado na página 7.
GIL, D.; SONGI, I.-Y. Modeling and management of big data: Challenges and
opportunitiesi. Future Generation Computer Systemsi, v. 63i, n. Supplement Ci, p.
96 – 99i, 2016i. ISSN 0167-739Xi. Modeling and Management for Big Data Analytics
and Visualizationi. Disponível em: <http://www.sciencedirect.com/science/article/pii/
S0167739X15002514i>. Citado na página 7.
JAIN, A. K. Data clustering: 50 years beyond k-means. Pattern Recogn. Lett., Elsevier
Science Inc., New York, NY, USA, v. 31, n. 8, p. 651–666, jun. 2010. ISSN 0167-8655.
Disponível em: <http://dx.doi.org/10.1016/j.patrec.2009.09.011>. Citado 3 vezes nas
páginas 9, 14 e 27.
Referências 56
KIM, M.; RAMAKRISHNA, R. S. New indices for cluster validity assessment. Pattern
Recogn. Lett., Elsevier Science Inc., New York, NY, USA, v. 26, n. 15, p. 2353–2363, nov.
2005. ISSN 0167-8655. Disponível em: <http://dx.doi.org/10.1016/j.patrec.2005.04.007>.
Citado na página 13.
NOULAS, A. et al. Exploiting semantic annotations for clustering geographic areas and
users in location-based social networks. In: 3rd Workshop Social Mobile Web, Colocated
with Fifth International AAAI Conference on Weblogs and Social Media. [S.l.: s.n.], 2011.
Citado na página 9.
SU, M. C.; CHOU, C. H. A modified version of the k-means algorithm with a distance
based on cluster symmetry. IEEE Trans. Pattern Anal. Mach. Intell., IEEE Computer
Society, Washington, DC, USA, v. 23, n. 6, p. 674–680, jun. 2001. ISSN 0162-8828.
Disponível em: <http://dx.doi.org/10.1109/34.927466>. Citado na página 12.
WU, K.-L.; YANG, M.-S. A cluster validity index for fuzzy clustering. Pattern Recogn.
Lett., Elsevier Science Inc., New York, NY, USA, v. 26, n. 9, p. 1275–1291, jul. 2005. ISSN
0167-8655. Disponível em: <http://dx.doi.org/10.1016/j.patrec.2004.11.022>. Citado 3
vezes nas páginas 13, 16 e 21.
XU, R.; WUNSCH II, D. Survey of clustering algorithms. Trans. Neur. Netw., IEEE Press,
Piscataway, NJ, USA, v. 16, n. 3, p. 645–678, maio 2005. ISSN 1045-9227. Disponível em:
<http://dx.doi.org/10.1109/TNN.2005.845141>. Citado na página 14.
ZAKI, M.; MEIRA, W. Data Mining and Analysis: Fundamental Concepts and Algorithms.
New York, NY, USA: Cambridge University Press, 2014. ISBN 0521766338, 9780521766333.
Citado na página 13.
ZHAO, Q.; HAUTAMAKI, V.; FRäNTI, P. Knee point detection in bic for detecting
the number of clusters. In: Proceedings of the 10th International Conference on
Advanced Concepts for Intelligent Vision Systems. Berlin, Heidelberg: Springer-
Verlag, 2008. (ACIVS ’08), p. 664–673. ISBN 978-3-540-88457-6. Disponível em:
<http://dx.doi.org/10.1007/978-3-540-88458-3_60>. Citado na página 12.
ZHAO, Q.; XU, M.; FRäNTI, P. Sum-of-squares based cluster validity index and
significance analysis. In: Proceedings of the 9th International Conference on Adaptive
and Natural Computing Algorithms. Berlin, Heidelberg: Springer-Verlag, 2009.
(ICANNGA’09), p. 313–322. ISBN 3-642-04920-6, 978-3-642-04920-0. Disponível em:
<http://dl.acm.org/citation.cfm?id=1813739.1813774>. Citado na página 19.