Вы находитесь на странице: 1из 142

SISTEMA COMPUTACIONAL PARA O PROCESSAMENTO TEXTUAL DE PATENTES INDUSTRIAIS

Graziella Martins Caputo

DISSERTAO SUBMETIDA AO CORPO DOCENTE DA COORDENAO DOS PROGRAMAS DE PS-GRADUAO DE ENGENHARIA DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS

NECESSRIOS PARA A OBTENO DO GRAU DE MESTRE EM CINCIAS EM ENGENHARIA CIVIL.

Aprovada por: ________________________________________________ Prof. Nelson Francisco Favilla Ebecken, D.Sc

________________________________________________ Prof. Alexandre Gonalves Evsukoff, D.Sc

________________________________________________ Prof. Myrian Christina de Arago Costa, D.Sc

________________________________________________ Prof. Adelaide Maria de Souza Antunes, D.Sc

RIO DE JANEIRO, RJ - BRASIL ABRIL DE 2006

CAPUTO, GRAZIELLA MARTINS Sistema Computacional para o Processamento Textual de Patentes Industriais [Rio de Janeiro] 2006 X, 132 p. 29,7 cm (COPPE/UFRJ, M. Sc., Engenharia Civil, 2006) Dissertao - Universidade Federal do Rio de Janeiro, COPPE 1. Minerao de Textos 2. Patentes Industriais 3. Inteligncia Competitiva I. COPPE/UFRJ II. Ttulo (srie)

ii

Agradecimentos

Em primeiro lugar, agradeo enormemente aos meus pais, pelo apoio e incentivo que me proporcionaram durante todos os meus percursos percorridos e decises tomadas, e aos meus irmos pelo apoio e carinho.

Agradeo ao meu namorado, Alexandre, pela pacincia e apoio incondicional, e por ter transformado todo o difcil e longo caminho em algo mais prazeroso de ser vivido. Auristela e Nina por terem me acolhido como se fosse da famlia.

Agradeo ao meu orientador, Prof. Nelson Francisco Favilla Ebecken, pela orientao e incentivo mesmo nos momentos que pareciam mais difceis, fazendo com que todas as dvidas se esclarecessem.

Agradeo aos amigos Valria, Renan, Daniel, Guilherme, ngelo e Estela, por transformarem o trabalho em algo extremamente prazeroso. E ao Carlos Sics, pela ajuda indispensvel na aquisio das patentes.

E CAPES pelo suporte financeiro que viabilizou a realizao desta dissertao.

iii

Resumo da Dissertao apresentada COPPE/UFRJ como parte dos requisitos necessrios para a obteno do grau de Mestre em Cincias (M.Sc.)

SISTEMA COMPUTACIONAL PARA O PROCESSAMENTO TEXTUAL DE PATENTES INDUSTRIAIS

Graziella Martins Caputo

Abril /2006

Orientador: Nelson Francisco Favilla Ebecken Programa: Engenharia Civil

O presente trabalho apresenta um estudo relacionado aplicao de mtodos de minerao de textos em patentes industriais brasileiras (banco de dados do INPI) como ferramenta de vantagem competitiva para empresas de tecnologia. O principal objetivo descobrir, utilizando anlise dos resumos das patentes, as principais empresas desenvolvedoras em todas as reas tecnolgicas, auxiliando na identificao de competidores. A minerao de patentes capaz de descobrir, atravs de direcionamento das pesquisas, novas tendncias tecnolgicas que auxiliem a tomada de decises e a criao de estratgias que antecipem a demanda e forneam vantagem competitiva atravs de inovaes tecnolgicas.

iv

Abstract of Dissertation presented to COPPE/UFRJ as a partial fulfillment of the requirements for the degree of Master of Science (M.Sc.)

COMPUTATIONAL SYSTEM FOR THE TEXTUAL PROCESSING OF INDUSTRIAL PATENTES

Graziella Martins Caputo

April /2006

Advisor: Nelson Francisco Favilla Ebecken Department: Engenharia Civil

This work presents a study related to the application of text mining methods in Brazilian industrial patents (INPI databases) as a tool of competitive profit for technology companies supplying. The main objective is to discover, using patents abstracts analysis, the main developers companies in all technological areas, helping in the competitors identification. The patents mining are capable to discover, through the research aiming perception, new industrial trends helping the decision taker and create strategies that anticipate the demand and to get a competitive profit through technological innovations.

ndice
ndice ............................................................................................................................... vi ndice de Figuras ........................................................................................................... viii ndice de Tabelas ...............................................................................................................x 1 Introduo..................................................................................................................1 1.1 Motivao ......................................................................................................2 2 Prospeco Tecnolgica ............................................................................................5 2.1 Inteligncia Competitiva................................................................................7 2.2 Patente ...........................................................................................................9 2.2.1 Detalhes da Patente..............................................................................10 2.2.2 O Conhecimento e as Patentes.............................................................13 3 Anlise de Patentes..................................................................................................16 3.1 Coleta de dados............................................................................................17 3.2 Anlise estatstica ........................................................................................23 3.3 Anlise de citao........................................................................................24 3.4 Minerao de textos.....................................................................................25 3.4.1 Anlise dos Dados ...............................................................................26 3.4.2 Algoritmo de Clustering ......................................................................28 3.4.3 Aplicao de minerao de texto em patentes industriais ...................29 3.5 Ferramentas de minerao de textos para patentes......................................30 3.2.1 Wisdomain...........................................................................................31 3.2.2 Temis ...................................................................................................32 3.2.3 VantagePoint .......................................................................................33 3.2.4 Aureka .................................................................................................35 3.2.5 Anacubis ..............................................................................................37 3.2.6 BizInt Smart Charts .............................................................................38 3.2.7 ClearForest...........................................................................................39 3.2.8 Statistica...............................................................................................40 4 Sistema de Minerao de Textos nos Documentos de Patentes ..............................42 4.1 Linguagem Java...........................................................................................43 4.2 Captura dos dados........................................................................................43 4.3 Descrio do Sistema...................................................................................46 4.3.1 Anlises Estatsticas ............................................................................47 4.3.2 Pr-Processamento...............................................................................50 4.3.3 Clustering.............................................................................................51 5 Estudo de Caso ........................................................................................................54 5.1 Base de Dados .............................................................................................54 5.1.1 E21B ....................................................................................................55 5.1.2 Petrleo................................................................................................55 5.2 Anlise dos Dados .......................................................................................56 5.2.1 E21B Classificao...........................................................................56 5.2.2 E21B Depositantes ...........................................................................60 5.2.3 Petrleo Classificao.......................................................................61 5.2.4 Petrleo Depositantes .......................................................................65 5.3 Pr-processamento.......................................................................................67 vi

5.3.1 E21B ....................................................................................................68 5.3.2 Petrleo................................................................................................69 5.4 Clusterizao ...............................................................................................70 5.4.1 E21B Clustering ...............................................................................71 5.4.1.1 E21B Temis ..................................................................................84 5.4.1.2 E21B Statistica .............................................................................87 5.4.2 Base Petrleo .......................................................................................91 5.4.2.1 Clustering de Patentes de 1996 a 2000............................................91 5.4.2.2 Petrleo (1996 a 2000) Temis ....................................................101 5.4.2.3 Petrleo (1996 a 2000) Statistica................................................103 5.4.2.4 Clustering de Patentes de 2000 a 2005..........................................105 5.4.2.5 Petrleo (2001 a 2005) Temis ....................................................115 5.4.2.6 Petrleo (2001 a 2005) Statistica................................................118 5.5 Consideraes Finais .................................................................................120 6 Concluso ..............................................................................................................122 6.1 Trabalhos Futuros ..............................................................................................124 Referncias Bibliogrficas.............................................................................................126

vii

ndice de Figuras
Figura 2-1 Ciclo da Inteligncia .....................................................................................7 Figura 3-1 Categorias da Minerao na Web ................................................................19 Figura 3-2 Pgina de Consulta Base de Patentes do INPI .........................................21 Figura 3-3 Pgina de Detalhes da Patente ....................................................................22 Figura 3-4 Mdulo de Citao......................................................................................32 Figura 3-5 Temis, mdulo IDC ....................................................................................33 Figura 3-6 VantagePoint...............................................................................................34 Figura 3-7 ThemeScape................................................................................................36 Figura 3-8 Citation Analisys.........................................................................................36 Figura 3-9 Anacubis .....................................................................................................38 Figura 3-10 BizInt Smart Chart ....................................................................................39 Figura 3-11 Statistica Mdulo Textual......................................................................41 Figura 4-1 Patente capturada pelo Sistema...................................................................45 Figura 4-2 Tela Principal..............................................................................................46 Figura 4-3 Tela das Classificaes existente no conjunto de Patentes processadas.....48 Figura 4-4 Tela dos Depositantes existente no conjunto de Patentes processadas.......49 Figura 4-5 Tela de Visualizao dos Resultados da Clusterizao ..............................52 Figura 5-1 Subgrupos relacionados base E21B .........................................................57 Figura 5-2 Subclasses relacionadas base E21B .........................................................59 Figura 5-3 Depositantes com a classificao E21B......................................................60 Figura 5-4 Quantidade de patentes por depositantes de classificao E21B................61 Figura 5-5 Subclasses presentes na base Petrleo entre os anos de 1996 e 2000 .....62 Figura 5-6 Subclasses presentes na base Petrleo entre os anos de 2001 e 2005 .....63 Figura 5-7 Depositantes de patentes com o termo petrleo nos anos entre 1996 e 2000 .................................................................................................................................65 Figura 5-8 Quantidade de patentes por depositantes nos anos entre 1996 e 2000 .......66 Figura 5-9 Depositantes de patentes com o termo petrleo nos anos entre 2001 e 2005 .................................................................................................................................66 Figura 5-10 Quantidade de patentes por depositantes nos anos entre 2001 2005 .....67 Figura 5-11 Resultado do clustering de E21B..............................................................71 Figura 5-12 Grfico de comparao da ferramenta implementada e Temis para E21B .........................................................................................................................................86 Figura 5-13 Grfico de comparao da ferramenta implementada e Statistica para E21B ................................................................................................................................89 Figura 5-14 Clusterizao da base de dados com o termo Petrleo de 1996 a 2000 92 Figura 5-15 Grfico de comparao da ferramenta implementada e Temis para petrleo (1996 a 2000) ...............................................................................................102 Figura 5-16 Grfico de comparao da ferramenta implementada e Statistica para petrleo (1996 a 2000) ...............................................................................................105 Figura 5-17 Clusterizao da base de dados com o termo Petrleo de 2001 a 2005 .......................................................................................................................................106 Figura 5-18 Grfico de comparao da ferramenta implementada e Temis para petrleo (2001 a 2005) ...............................................................................................117

viii

Figura 5-19 Grfico de comparao da ferramenta implementada e Statistica para petrleo (2001 a 2005) ...............................................................................................119

ix

ndice de Tabelas
Tabela 2-1 Setores da patente.......................................................................................12 Tabela 5-1 - Quantidades de patentes de Petrleo coletadas...........................................56 Tabela 5-2 Documentos e palavras-chave dos clusters de E21B .................................72 Tabela 5-3 Resultado da ferramenta Temis para a base E21B .....................................85 Tabela 5-4 - Resultado da ferramenta Statistica para a base E21B .................................88 Tabela 5-5 Resultado da ferramenta desenvolvida para a base Petrleo (1996 a 2000)................................................................................................................................93 Tabela 5-6 Resultado da ferramenta Temis para a base Petrleo (1996 a 2000)....101 Tabela 5-7 Resultado da ferramenta Statistica para a base Petrleo (1996 a 2000) .......................................................................................................................................104 Tabela 5-8 Resultado da ferramenta desenvolvida para a base Petrleo (2001 a 2005)..............................................................................................................................107 Tabela 5-9 Resultado da ferramenta Temis para a base Petrleo (2001 a 2005)....116 Tabela 5-10 Resultado da ferramenta Statistica para a base Petrleo (2001 a 2005) .......................................................................................................................................118

1 Introduo

Diante da crescente globalizao, os avanos tecnolgicos e cientficos ocorrem rapidamente em diversos setores da indstria, comrcio e servios. Esse fenmeno, quebrou barreiras comerciais facilitando a obteno de novos recursos e acelerando o acesso s informaes. A internet veio como grande colaboradora do processo, facilitando as vias de comunicao, armazenando e expondo a maior parte das informaes utilizadas nos dias de hoje. Para acompanhar essas mudanas, as empresas necessitam estar em constante renovao para se tornarem competitivas e sobreviverem na atual corrida por busca de consumidores e inovaes tecnolgicas. Por isso, as empresas inovadoras e detentoras de conhecimento esto mais hbeis a acompanhar o crescimento tecnolgico, entender melhor as necessidades de seus consumidores e realizar estudos para antecipar possveis mudanas no mercado. Possuir conhecimento requer, no entanto, que as instituies se atualizem continuamente das tendncias do mercado. Isso envolve conhecer as caractersticas do mercado no qual a organizao est inserida, analisar os fatores que influenciam em seus desenvolvimentos e acompanhar o comportamento dos concorrentes. Por esse motivo, as organizaes que incluem pequenas e grandes empresas, agncias governamentais, associaes, centros acadmicos e outros buscam entender o ambiente em que operam para organizarem a melhor estratgia e tomarem as melhores decises, atravs de diretivas de marketing, econmicas e outras. Para alcanar tal nvel, utilizam tcnicas da Inteligncia Competitiva, tcnicas computacionais e profissionais qualificados, cujas concluses possam auxiliar na tomada de deciso e obteno de vantagem competitiva.

Os diversos setores, que esto direta ou indiretamente ligados s organizaes, geram, diariamente, uma enorme massa de dados, cujo extenso volume torna difcil sua interpretao e manipulao. Esse problema vem sendo tratado por tcnicas computacionais inteligentes, que auxiliam na busca, seleo e extrao de informao. A minerao de textos permite a compreenso das informaes existentes nos documentos textuais, e que atravs de anlise e aplicao dos resultados, as organizaes se tornam capacitadas para inovarem conforme a demanda.

1.1 Motivao

Todos os dias, novos produtos so inventados, novas idias surgem e para que seja preservado o direito de propriedade industrial sobre o produto ou idia, novas patentes so depositadas. Essas patentes possuem os detalhes dos produtos, e garantem ao depositante o direito sobre qualquer produto que possua as mesmas caractersticas especificadas na patente. Atravs de uma anlise detalhada dessas patentes, possvel visualizar as tendncias tecnolgicas e entender o ambiente intelectual da organizao concorrente e a partir dos resultados, obter um ganho competitivo atravs de inovaes. Os documentos de patentes so um amplo recurso de conhecimento tcnico e comercial em termo de progresso tcnico, tendncias do mercado e propriedade intelectual, sendo a anlise desses documentos alvo de estudos de anlise estratgica, prospeco tecnolgica, planejamento, gesto, formulao e avaliao de programas e um importante veculo de P&D para as instituies. O objetivo principal desta dissertao estudar a importncia da utilizao de tcnicas computacionais de descoberta de conhecimento em documentos de propriedade industrial brasileira, buscando capturar informaes relevantes no que diz respeito a tendncias e inovaes tecnolgicas.

O fato das patentes se apresentarem em formato texto, comumente chamados de dados no-estruturados, tcnicas tradicionais de minerao de dados no so suficientes para extrarem todo o conhecimento contido nas mesmas. Por tal fato, essa dissertao utiliza a tcnica de minerao de texto, visando obter o mximo de informaes que podem ser teis no auxilio do entendimento do mercado competidor. A minerao de textos faz parte do processo de descoberta de conhecimentos em textos, ou KDT (Knowledge Discovery from Text), que busca extrair padres ou conhecimentos, interessantes e no triviais, a partir de documentos textuais (KOSTOFF, 2004). A implementao dessa tcnica para base de dados de patentes depende de padres especiais, diferentemente de outros documentos, pois busca no perder as informaes referentes s particularidades presentes nos documentos de patentes. Por isso, foi desenvolvida uma ferramenta de minerao de textos exclusiva para base de patentes, capaz de distinguir e fazer uso de campos especficos da patentes, como CLASSIFICAO, DEPOSITANTES e outros. Os resultados obtidos neste estudo com o uso desta ferramenta, sero analisados e comparados com resultados de outras ferramentas de minerao de texto. Para melhor entendimento da importncia da aplicao e melhor aproveitamento dos resultados gerados, o segundo captulo introduz o conceito de inteligncia competitiva e o detalhamento das caractersticas dos documentos de patentes. O captulo 3 descreve as principais tcnicas utilizadas nos dias de hoje, para a manipulao e anlise dos campos presentes nas patentes, tanto textuais quanto os categricos, dando nfase na metodologia de minerao de textos. Descreve ainda algumas das principais ferramentas existentes de busca por conhecimento em documentos de patentes. O quarto captulo apresenta as funcionalidades da ferramenta desenvolvida para manipular as bases de patentes industriais, o processo de minerao de textos ocorrido nos documentos e a busca por outras informaes relevantes. O captulo 5 apresenta os resultados obtidos pela ferramenta quando aplicada aos estudos de caso. Destaca os pontos mais importantes e os compara com os resultados obtidos a partir de outras ferramentas comerciais.

O captulo 6 apresenta as concluses do trabalho, tal como sugestes de outras funcionalidades a serem inseridas no processo de minerao de textos e outras anlises de patentes.

2 Prospeco Tecnolgica

O mercado passou por uma transio de uma economia tipicamente industrial para uma economia voltada para o setor de servios, onde a hegemonia econmica e social exercida por aqueles que administram o conhecimento e a informao (MORAIS, 1999). Para estar ativa diante do alto nvel de concorrncia existente para a maioria das empresas, necessrio, acima de tudo que a empresa esteja sempre atualizada e trabalhando de forma inteligente. Para isso, a mesma precisa possuir as informaes necessrias para obter o conhecimento de identificar sentidos, interpretar o seu ambiente, mercados, fornecedores e clientes. Alm disso, as empresas precisam estar sempre atentas para os chamados microambientes e macroambientes. O microambiente composto por foras prximas a empresa que afetam a sua habilidade para servir aos seus clientes - os canais de marketing, os mercados consumidores, os concorrentes e o pblico. O macroambiente composto por foras sociais maiores que afetam todo o microambiente, foras demogrficas, econmicas, fsicas, tecnolgicas, polticas e culturais. Esses ambientes geram grandes massas de dados e as empresas precisam buscar metodologias de gerenciamento das informaes. Nesse sentido, informao pode ser definida com um conjunto de dados com um determinado significado, sendo o dado um registro de algum determinado evento. Inteligncia a informao devidamente filtrada e analisada. No contexto tcnico-econmico atual, a inteligncia tem assumido importncia crescente, fazendo com que a empresa necessite desse elemento para o seu processo de inovao tecnolgica e para o aumento de sua competitividade.

Mtodos de manipulao dessas informaes vem sendo estudados e implantados nas organizaes em busca de melhor domnio sobre os dados que as mesmas possuem (BRENNER, 2005). A Inteligncia de Negcios (Business Intelligence ou BI) um processo organizacional pelo qual a informao sistematicamente coletada, analisada e disseminada como inteligncia aos usurios que possam tomar aes a partir dela. BI (KUDYBA et all., 2003) a rea que recolhe informaes de seus clientes e

fornecedores e as analisa, para ajud-los a identificar oportunidades e criar estratgias que antecipem a demanda. Essa rea atende a vrios setores da empresa, como a de recursos humanos, marketing, gerenciamento de tecnologia e de especialistas, entre outras, alm de utilizar ferramentas para auxiliar nos negcios, como o CRM, Data Warehouse, Minerao de Dados e ferramentas OLAP (SULLIVAN, 2001). Um outro processo que tem sido amplamente explorado por organizaes inovadoras o conceito de Inteligncia Competitiva que busca obter informaes sobre a concorrncia sem recorrer a meios inescrupulosos ou ilegais. A Inteligncia Competitiva (Competitive Intelligence ou IC) (TARAPANOFF, 2001) foi definida pela Sociedade de Profissionais de Inteligncia Competitiva (Society of Competitive Intelligence Professionals ou SCIP em SOCIETY, 2006) como um programa sistemtico e tico para recolhimento, anlise e gerenciamento de informaes externas que podem afetar os planos, decises e operaes de uma companhia. Alguns autores consideram que o termo Inteligncia de Negcios sinnimo de Inteligncia Competitiva. Para finalidade dessa dissertao, no entanto, ambos sero tratados de forma diferente, como nas duas principais entidades representativas no assunto: a Sociedade dos Profissionais de Inteligncia Competitiva (SCIP), nos EUA, e a Associao Brasileira dos Analistas de Inteligncia Competitiva (ABRAIC). Na prxima seo, a IC e sua importncia brevemente discutida, so descritos os principais detalhes existentes nos documentos de patente, tal como o detalhamento do ganho competitivo obtido quando esses documentos so utilizados pela equipe de IC.

2.1 Inteligncia Competitiva

O processo de Inteligncia Competitiva tem ganhado importncia cada vez maior dentro das empresas, tornando-se ferramenta de apoio indispensvel em diversos nveis organizacionais, como planejamento estratgico, marketing, programas de gesto do conhecimento, entre outros (TYSON, 1998; KAHANER, 1996). Cabe IC realizar estudos para antecipar possveis mudanas no mercado, descobrir novos e potenciais concorrentes e se manter atualizado sobre novas tecnologias, produtos e processos, bem como mudanas polticas, legislativas e regulatrias que possam afetar os negcios da empresa Nesta questo, a organizao precisa estar sempre atenta s organizaes competidoras, por isso, um dos papeis da inteligncia competitiva unir esses conceitos e entender ligaes entre pessoas e companhias. De um modo geral, um Sistema de Inteligncia descrito atravs de 4 etapas como mostra a Figura 2.1 .

Figura 2-1 Ciclo da Inteligncia

Na primeira fase, ou Planejamento e Direcionamento, a administrao deve estar envolvida no processo de definio do tipo de inteligncia necessria. a etapa inicial, mas pode tambm ser a final, quando o resultado apresentado para a tomada de

decises e as aes subseqentes podem gerar a necessidade de novos processos de inteligncia. A fase de Captura, Processamento e Armazenamento das informaes envolve diversas etapas como a determinao das informaes necessrias, a identificao das fontes e a coleta de informaes. Para o sucesso desse tipo de sistema, no se deve fazer uso apenas de informaes publicadas. A participao de eventos, conversas com consumidores, fornecedores, parceiros, empregados, especialistas na rea e at mesmo concorrentes, podem fazer parte do processo de coleta de dados O contedo e as fontes das informaes depender das tcnicas e mtodos utilizados para anlise, que podem ser diversas: anlise SWOT (AZEVEDO et all., 2001), benchmarking, foras de Porter, fatores crticos de sucesso, balanced scored, minerao de dados, perfil dos concorrentes, anlise financeira, cenrios, jogos de guerra, entre outros. Por isso, a anlise considerada a etapa mais difcil, quando necessrio interpretar, procurar modelos e produzir diferentes cenrios. A disseminao a etapa da distribuio do produto da inteligncia, quando so sugeridas e defendidas possveis aes a tomar. Todo esse processo de planejamento e operacionalizao do sistema leva em conta aspectos como abrangncia do ambiente competitivo e planejamento estratgico da empresa. Apesar da importncia dos Sistemas de IC, a maioria dos autores corroboram que a gerao da inteligncia realizada de fato pelos seres humanos, com a ajuda dos sistemas bem estruturados capazes de apresentar mtodos e tcnicas de anlise, bem como proporcionar a coleta e a disseminao da inteligncia (KNOWLEDGE, 2006). importante lembrar, no entanto que a prtica da Inteligncia Competitiva guarda as suas prprias peculiaridades ticas. O carter tico e legal da fase de obteno da informao, principalmente envolvendo os concorrentes, como pressuposto da IC, foi citada por COTTRILL (1998). O aumento do uso e coleta de informaes sobre o mercado e a concorrncia, e o desenvolvimento de tcnicas pode gerar mtodos cuja aplicao eticamente questionvel. Por esse motivo, preciso que a organizao esteja sempre atenta para

identificar os limites ticos de conduta no desempenho das prticas de Inteligncia Competitiva (BOATRIGHT, 2000). As informaes utilizadas na aplicao de mtodos de IC numa organizao possuem origem em diversas fontes e variados formatos. Nesse contexto, pode-se verificar que vrios dados que esto simplesmente armazenados, podem ser utilizados para obter um enorme ganho competitivo, como por exemplo, a utilizao de registros de call centers (CAPUTO et all, 2006) para a compreenso e melhoria do CRM interno, o monitoramento de pginas web (MARINHO et all, 2003) concorrentes visando estar sempre atento s mudanas dos mesmos e de seus planejamento estratgicos (LIU, 2001). Da mesma forma, qualquer publicao existente relacionada empresa e s suas concorrentes, pode ser utilizada como recurso para a anlise e obteno de inteligncia. Um outro recurso que tem sido tratado com grande ateno pelos pesquisadores a utilizao de documentos de patentes como recurso da IC (PEREIRA, 2003). Atravs da anlise e aplicao de tcnicas computacionais inteligentes, possvel fazer progresses tecnolgicas e descobrir o direcionamento estratgico concorrente (LARKEY, 1999). A seguir, realizado um estudo aprofundado sobre a utilizao das patentes, tal como o detalhamento das caractersticas e atributos importantes para a obteno de conhecimento.

2.2 Patente

Os documentos de patentes, por possurem grande quantidade de informaes sobre detalhes tcnicos, so considerados um amplo recurso de conhecimento cientfico e comercial, como pode ser visto em AHMAD et all (2003). A anlise das patentes tem recebido importncia nos dias de hoje no processo de inovao, pois o ciclo de inovao tem se tornado menor, e a demanda por marketing mais voltil.

Em um nvel macro, a anlise de patentes tem sido aplicada em diversas reas, como na gerao de indicadores econmicos, medindo a relao entre o desenvolvimento da tecnologia e o crescimento da economia (GRANDSTRAND, 1999; GRILLICHES, 1990; HOLL et all, 2000), estimando conhecimento tecnolgico e o seu impacto na produtividade (EVENSON et all, 1988), ou comparando desempenho inovativo no contexto internacional (PACI et all, 1997). No nvel micro, a anlise de patentes tem sido usada para evoluir a competitividade (NARIN et all, 1987), desenvolver planos tecnolgicos (MOGEE, 1991), priorizar investimentos de P&D (HIRSCHEY et all, 2001), ou monitorar mudanas tecnolgicas internas (ARCHIBUGI et all, 1996). A utilizao e aplicabilicadade dessa anlise contemplada por uma variedade de reas de tecnologia, como na gerncia de P&D e no meio acadmico. Os documentos de patentes so estruturados de acordo com o formato denominado bibliomtrico (KARKI, 1999; NARIN, 1994), ou seja, so separados atravs de vrios atributos que identificam e caracterizam as patentes. Esses dados incluem nmero da patente, tipo de documento, ttulo, resumo, inventor, depositante, requerente, classificao internacional ou PCI, entre outros. A escolha adequada dos atributos da patente na utilizao da Inteligncia Competitiva requer a compreenso detalhada de cada um dos mesmos, visando alcanar maior desempenho a partir da tcnica de anlise utilizada.

2.2.1

Detalhes da Patente

A propriedade intelectual uma parcela do capital intelectual protegido por legislao especfica e engloba patentes, marcas, desenho industrial etc. Os direitos sobre a propriedade intelectual so tipicamente divididos entre o direito autoral e a propriedade industrial. O direito autoral, se refere a autores de obras literrias e artsticas, incluindo softwares, artistas intrpretes ou executores, gravadoras de msica e rgos de radiodifuso. J a propriedade industrial, inclui as invenes, os desenhos e modelos.

10

As invenes so, tradicionalmente, protegidas atravs de patentes. Uma patente um direito, concedido pelo governo, de explorao comercial de uma inveno, durante um determinado limite do tempo. O dono de uma patente, segundo o seu interesse, pode licenciar sua inveno para outros usarem, sob condies de pagamento de "royalties". As bases de patentes armazenam cerca de 70% da informao tecnolgica disponveis em todo o mundo e por isso, so importantes fontes de informao tecnolgica. Tradicionalmente, uma patente somente tem validade no pas onde foi depositada. Para ter validade internacional, a patente deve ser depositada na base de dados de patente internacional, segundo o Tratado de Cooperao em matria de Patentes - PCT (PCT, 2006), de 1970, onde a patente passa a ter validade nos mais de 100 pases signatrios deste tratado. No Brasil, o Instituto Nacional de Propriedade Industrial (INPI, 2006), vinculada ao Ministrio do Desenvolvimento, Indstria e Comrcio Exterior, responsvel por regulamentar e proteger o direito s propriedades intelectuais de marcas e patentes. O banco de patentes rene um volume aproximado de 24 milhes de documentos de patentes armazenados em papel, microformas e em CD-ROM e distribudos em cerca de 4000 m2. Mensalmente so acrescidos a seu acervo cerca de 40 mil novos documentos nacionais e estrangeiros. Esta documentao originria dos principais pases industrializados e organizaes internacionais: Estados Unidos, Gr-Bretanha, Frana, Holanda, Espanha, Alemanha, Canad, Austrlia, Sua, Japo (resumos em Ingls), Escritrio Europeu de Patentes, Organizao Mundial da Propriedade Intelectual (documentao do PCT) e Organizao Africana da Propriedade Intelectual, alm do Brasil. As patentes podem ser classificadas em dois tipos diferentes: a) patentes de inveno (PI), que so os avanos do conhecimento tcnico que combinam atividade inventiva e aplicao industrial. Esse tipo de patente possui validade de 20 anos a partir da data de depsito; e b) modelo de utilidade (MU), que uma nova forma ou disposio de objeto de uso prtico, com aplicao industrial, e representa melhoria funcional de um produto ou um processo j existente. caracterizado como um ato inventivo. Possui validade de 15 anos a partir da data de depsito.

11

Esses documentos possuem um formato padro internacional, e classificadas de acordo com a Classificao Internacional de Patentes (CIP), que permite a rpida recuperao por rea tecnolgica, atravs de indexao. As patentes podem ser classificadas em 8 (oito) setores principais, com 64000 (sessenta e quatro mil) subdivises. Cada subdiviso tem um smbolo composto de algarismos arbicos e de letras do alfabeto latino. Os 8 (oito) setores principais so denominados de sees, a saber:

Seo A Seo B Seo C Seo D Seo E Seo F Seo G Seo H

Necessidades Humanas Operaes de Processamento; Transporte Qumica e Metalurgia Txteis e Papel Construes Fixas Eng. Mecnica / Iluminao / Aquecimento Fsica Eletricidade
Tabela 2-1 Setores da patente

O smbolo completo da classificao internacional das patentes constitudo por smbolos representando a Seo (conforme anteriormente), Classe (nmero composto por dois algarismos), Subclasse (letra maiscula), grupo e Subgrupo, como por exemplo: A Seo 01 Classe B Subclasse 1/00 Grupo Principal ou 1/24 Subgrupo A partir dessa classificao, as patentes so facilmente localizadas tal como o acesso a um determinado tipo de tecnologia.

12

As patentes brasileiras podem ser consultadas atravs do site oficial do INPI, onde possvel realizar pesquisa bsica ou avanada atravs de atributos existentes no documento. A pesquisa retorna informaes simplificadas das patentes que inclui alguns campos, como o nmero do pedido, data de depsito, prioridade unionista, classificao, ttulo, resumo, nome do depositante, nome do inventor, nome do procurador e PCT, conforme ser descrito no captulo 4. Este tipo de consulta on-line de extrema importncia, pois reduz o nmero de pedidos de patentes invlidas, otimizando o servio de concesso de novas patentes. Dessa forma, de extrema importncia para o pas que exista um rgo de gerenciamento dos depsitos de patentes, garantindo o direito do inventor, pois essa proteo abrange no apenas empresrios e organizaes particulares. O aumento no nmero de patentes de um pas pode influenciar diretamente a economia do mesmo, pois atravs da inovao, o mesmo se torna apto pra evoluir em um tecnologia e aumentar a quantidade de produtos comercializados e inovaes para a exportao, agregando valor a seus produtos.

2.2.2

O Conhecimento e as Patentes

Necessidades, preocupaes, modas, costumes e diversos outros assuntos relacionados a um determinado perodo de tempo, podem ser facilmente identificados atravs de anlise da freqncia em que patentes predominaram naquele perodo. Por exemplo, a descoberta de uma doena faz com que se desenvolvam produtos para combat-la, e uma tendncia da moda cria vrios acessrios, assim como houve perodos de desenvolvimento que marcaram uma poca brasileira que podem ser claramente observados nas patentes existentes como a necessidade de higiene, produo de energia meios de comunicao e vrios outros. Neste ponto, podemos observar que o incremento do volume de documentos de patentes numa classificao indica uma tendncia tecnolgica, ou seja, o direcionamento das pesquisas, a nvel mundial, e/ou reflexos posteriores no mercado. Esta valiosa fonte de informao tecnolgica tornou-se um insumo estratgico imprescindvel para as empresas que desejam se manter atualizadas sobre o

13

desenvolvimento tecnolgico do seu setor, e assim, possibilitando a elevao do nvel tcnico, uma vez que nas patentes esto contidos tanto conceitos cientficos quanto detalhes do processo (GANGULI, 2004, LARKEY, 1998). Alm disso, atravs da anlise de patentes, possvel identificar efetivamente quais so os seus maiores concorrentes, alm de compreender em quais reas tecnolgicas e quais produtos estes pretendem investir, obter informaes sobre planos estratgicos, ter uma projeo do risco financeiro ao entrar num mercado altamente competitivo, obter uma anlise sobre planos e produtos de seus concorrentes, explicitando uma real conscincia dos valores de seus produtos e inovaes, atravs da identificao de aspectos estratgicos do mercado (POYNDER, 1998). Como resultado, podemos obter um levantamento sobre os mais importantes fornecedores de tecnologia, equipamentos e produtos, ou mesmo se as caractersticas de interesse de uma organizao j esto obsoletas ou no. As informaes contidas em documentos de patentes oferecem grande utilidade para indstria e empresas atravs de anlise em reas afins e inovaes concorrentes, resultando uma melhora da gesto do conhecimento tecnolgico. A anlise de patentes, tal como o seu mapeamento, pode ser executada sobre vrios aspectos e podem ser utilizados tanto os documentos de patentes, quanto qualquer literatura a respeito. No geral, sua anlise visa extrair conhecimento processando os dados sob diferentes critrios, dependendo do tipo de informao que se quer ter acesso. Esse processo pode ser executado a partir de vrias perspectivas, como por exemplo, anlise estatstica, anlise de citao, minerao dos dados e minerao de textos. Essa variedade de tcnicas computacionais para o processamento so descritas no captulo 3. Esses mtodos visam capturar padres existentes nesses documentos e que podem oferecer alguma informao nova e relevante. Vrios estudos so dedicados a alcanar esse propsito, como pode ser verificado em GUPTA et all. (2000), onde aplicada anlise bibliomtrica em patentes de carbono nanotubo para medir o crescimento da atividade da indstria de carbono de nanotubos e os seus links com a cincia.

14

Um outro exemplo da aplicao de anlise de patente o estudo realizado por APPLEYARD et all. (1999), para detectar o impacto de tecnologia de semicondutores americanos no resto do mundo. E o estudo de KARKI (1997), que utiliza a anlise de patentes como uma ferramenta policial. Nesse sentido, a anlise de patentes tem sido grandemente utilizada na identificao de novas tendncias tecnolgicas e previso de novas necessidades, em vrios setores industriais, como farmacutico, petrolfico e prestao de servios, pois antecipando os novos produtos e levando em considerao o seu desenvolvimento industrial ao longo dos anos, possvel fazer uma previso de como a tecnologia gradativamente evolui.

15

3 Anlise de Patentes

A aplicao de tcnicas computacionais inteligentes na anlise de documentos de patentes como ganho competitivo tem sido amplamente explorada e abordada de diversas maneiras. Dessa forma, um nmero de tcnicas tem sido utilizadas para a manipulao e anlise de dados bibliomtricos, que caracterizam os documentos de patentes, por possurem atributos bem definidos como nmero da patente, data de depsito, ttulo, inventor, e outros. A anlise bibliomtrica nas patentes pode fornecer informao sobre a natureza e crescimento de uma atividade inventiva. Uma srie de estudos indicam a utilizao desse tipo de tcnica para a anlise do status e das tendncias do desenvolvimento da tecnologia (KARKI, 1999; NARIN, 1994). No entanto, para que a anlise dos documentos seja bem sucedida, algumas questes devem ser respondidas. Um exemplo disso conhecer bem a necessidade que leva a realizar tal anlise. Se a necessidade apenas conhecer qual a empresa que mais depositou patentes nos ltimos 5 anos, uma anlise estatstica sobre os documentos pode parecer suficiente. Um outro ponto que deve ser levando em conta a escolha apropriada do domnio de documentos que sero utilizados. A coleta de documentos que no pertencem ao escopo do problema pode prejudicar os resultados. Alm dessas questes, nas prximas sees, sero discutidos os principais assuntos que devem ser levados em conta no procedimento de anlise de patentes. Essa discusso inclui o mtodo de captura de patentes comumente utilizado e alguns dos mtodos computacionais e estatsticos de anlise de patentes. Os objetivos dos respectivos mtodos tambm so apresentados.

16

No final do captulo, so descritas algumas das principais ferramentas existentes no mercado capazes de processar e analisar inteligentemente os dados de documentos de patentes.

3.1 Coleta de dados

A utilizao da internet para ganho competitivo tem sido amplamente explorada e apresenta resultados bastante animadores devido a grande diversidade e quantidade de dados presentes na World Wide Web atualmente. A web se tornou um importante canal na conduo de negcios devido ao fato de disseminar rpida e eficientemente informaes e ser capaz de conectar pessoas no mundo inteiro. Recuperar informaes relevantes na internet, no entanto, uma tarefa bastante trabalhosa, pois os dados so tipicamente no rotulados, distribudos, heterogneos, semi-estruturados e multidimensionais. As ferramentas de busca existentes podem apresentar baixa preciso. Elas se baseiam na insero de palavras chaves pelo usurio e apresentam como resposta pginas ordenadas de acordo com a similaridade da consulta. A baixa preciso na relevncia dos resultados e inabilidade de indexar todas as informaes presentes na web dificultam o encontro de informaes relevantes. Uma outra dificuldade extrair conhecimento potencialmente usual a partir dos dados recuperados (CRAVEN et al., 1998). Outros problemas relacionados a ferramentas de busca podem ser encontrados em LAWRENCE et al. (1999). Todos esses fatores iro prejudicar a criao de novos conhecimentos a partir da informao presente na web. A personalizao da informao um outro problema encontrado na recuperao de pginas. Esse problema est diretamente ligado a forma como a consulta feita. Diferentes pginas web utilizam termos diferentes para expressarem a mesma entidade, como por exemplo, um sistema de vendas pode utilizar o termo cliente ou consumidor. Da mesma forma, o mesmo termo pode ser utilizado em diversas reas, tendo um significado diferente em cada uma delas.

17

Para contornar todos esses problemas, surge a disciplina web mining, que busca identificar pginas relevantes na web atravs de anlise inteligente, de acordo com a necessidade do usurio e capaz de estruturar e processar os dados visando obter o maior ganho de informao. As ferramentas de busca de informaes visam rastrear contedo dentre as pginas da web, aquelas que se assemelham ao esperado pelo usurio. As tcnicas de busca por essas informaes incluem busca baseada em palavra chave (BRIN et all, 1998), consultas web (MENDELZON et al., 1997), e preferncias do usurio (UNDERWOOD et al., 1998). Essas tcnicas so baseadas em conceitos de Inteligncia Artificial, Recuperao de Informao e outras reas de descoberta de conhecimento. Os componentes mais importantes de web mining incluem recuperao de informao, extrao de informao, generalizao e anlise. Recuperao de informao (FRAKES et al., 1992) se refere a recuperao automtica de documentos relevantes, utilizando indexao de documentos e mecanismos de busca. Extrao de informao auxilia na identificao de fragmentos de documentos que constituem a semntica da web (COWIE, 1996). Generalizao est relacionada a rea de reconhecimento de padres e aprendizado de mquina: clustering e minerao de regras de associao. J a anlise corresponde extrao, interpretao, validao e visualizao do conhecimento obtido a partir da Web. O processo pode ser efetuado basicamente de trs maneiras distintas que incluem Minerao de uso na Web, Minerao de Estrutura na Web e Minerao de Contedo na Web (SCIME, 2005). A figura 3.1 ilustra as diferentes formas de captura de conhecimento na web:

18

Figura 3-1 Categorias da Minerao na Web

A Minerao de Uso visa descobrir padres de acesso de usurios atravs de logs em pginas da web, armazenados em bases de dados. A partir desse padro possvel identificar informaes de maior relevncia e assim entender as necessidades do usurio, prevendo o seu comportamento nas pginas e melhor auxiliando organizao a tarefa de satisfazer o seu cliente. A Minerao de Estruturas analisa a organizao das pginas web e as ligaes existentes entre as mesmas, ou seja, a informao implcita contida dentro dos documentos. Essas ligaes so formadas basicamente pelos hiperlinks, e dessa forma, a rede de documentos tratada como um grafo orientado. A tcnica parte do principio que uma pgina bastante referenciada por outras possui um grau de importncia elevado. J a Minerao de Contedo utiliza o contedo existente dentro dos documentos das pginas web como principal fonte de descoberta de informaes relevantes. Esse contedo formado no apenas do texto, mas tambm de qualquer outro dado presente na pgina, como udio, vdeo, smbolos, metadados e hipertextos. Nessa dissertao, apenas os dados textuais das patentes foram considerados para o descoberta de conhecimentos novos. Por tal fato, a categoria de minerao de contedo a que melhor se destaca no processamento das patentes, pois capaz de considerar e processar o texto presente no contedo e assim trata-lo como um simples problema de minerao de textos.

19

Dessa forma, a minerao de contedo ser exemplificada nas prximas sees atravs do processamento dos dados das patentes recuperadas atravs de pginas da web e tratadas como minerao de textos. Especificamente para as patentes brasileiras, uma parcela dos dados encontramse atualmente disponveis na pgina oficial do Instituto Nacional de Propriedade Intelectual. Dessa forma, a minerao de contedo realiza a busca a partir dos campos existentes nas patentes. Essas patentes, tal como os documentos de marcas e desenhos industriais, podem ser consultadas atravs de um servio oferecido na pgina principal do site oficial do INPI. Esse acesso garantido a qualquer pessoa que queria buscar algum documento especfico na base de dados existente. Para se ter acesso a essa base, porm, um procedimento inicial requerido. necessria uma autenticao atravs da identificao visual de caracteres expostos no browser atravs de figura e a digitao dos mesmos em um campo indicado na pgina de consulta. O site disponibiliza dois tipos de consulta. A primeira delas, padro da pgina a pesquisa bsica, que apresenta opo de consulta atravs do nmero do processo e de palavras existentes no TTULO, no RESUMO, no NOME DO DEPOSITANTE e no NOME DO INVENTOR. A segunda consulta, alm das opes oferecidas pela

consulta bsica, ainda apresenta busca atravs de DATAS de DEPSITO e de PRIORIDADE, atravs do PAS e do NMERO da prioridade, CLASSIFICAO e nmero do depsito PCT. A busca atravs de palavras chaves, na pesquisa avanada possui a possibilidade de manipular operadores lgicos como AND, OR e NOT, como indicado na figura 3.2.

20

Figura 3-2 Pgina de Consulta Base de Patentes do INPI

O resultado apresentado pela consulta consiste de uma lista de links para a descrio simplificada das patentes que obedecem aos atributos requisitados na pesquisa. Essa lista de links formada pelos respectivos nmeros dos processos, datas de depsito e ttulo das patentes retornadas, e ordenadas de acordo com a data apresentada. Os mesmos levam a uma pgina contendo uma descrio da patente composta por alguns dos principais atributos presentes nas mesmas. Entre esses atributos, se destacam: Nmero do Pedido; Data do Depsito; Prioridade Unionista, com o Pas, Nmero e Data; Classificao da Patente; Ttulo; Resumo; 21

Nome do Titular; Nome do Depositante; Nome do Inventor; Nome do Procurador; Inicio da Fase Nacional; PCT; W.O.; A figura 3.3 representa um exemplo da pgina de patentes oferecida pelo INPI,

com alguns dos atributos que a mesma contm.

Figura 3-3 Pgina de Detalhes da Patente

22

Esses atributos foram coletados da pgina para a execuo da minerao de textos, porm vrias restries foram detectadas a partir da pgina do INPI. A primeira restrio ocorre na captura das patentes a partir dos links listados nos resultados. O acesso aos resultados permite uma visualizao mxima de 19 patentes. A partir desse nmero, a pgina expira e o browser retorna para a pgina principal. Alm disso, o tempo de permanncia na pgina de consulta dos resultados tambm pode fazer com que a pgina expire, retornando, da mesma forma, pgina principal. Por esses motivos, uma ferramenta foi implementada para automatizar o processo de coleta das patentes da pgina do INPI, segundo as informaes descritas na seo 4.2.

3.2 Anlise estatstica

A anlise estatstica das patentes consiste em analisar numericamente os atributos existentes nos documentos. Esse processamento comumente utilizado para a identificao de freqncias presentes nas patentes, como por exemplo, descobrir as empresas que mais depositaram patentes nos ltimos 5 anos e que so relacionadas a um determinado produto de interesse da organizao que realiza a pesquisa, o que pode auxiliar na identificao dos maiores concorrentes da mesma. Essa anlise realizada atravs de consultas (queries) nos documentos, podendo ser a pesquisa realizada a partir dos atributos presentes nas patentes, como depositante, data, classificao e outros. O resultado dessa anlise pode ser melhor entendido se for visualizado atravs de grficos, onde as freqncias so melhor identificadas. Exemplos de ferramenta que utilizam anlise estatstica a partir de atributos de patentes sero exemplificados nas sees subseqentes.

23

3.3 Anlise de citao

A manipulao e anlise de dados bilbiomtricos tem sido amplamente utilizado para o estudo de interfaces da cincia e da tecnologia. A anlise de citao de patentes (MICHEL, 2001) uma das ferramentas mais utilizadas, e baseada no nmero de citaes de uma patente em suas patentes

subseqentes. A quantidade de citaes por patentes representa a importncia relativa da mesma. Essas citaes so baseadas na idia de que uma patente ir citar aquelas que a antecedem na criao daquela nova patente, podendo ser uma a evoluo da outra, e dessa forma, conhecendo quais patentes foram originadas por algum tipo de tecnologia, ou o contrrio, descobrir qual tecnologia gerou alguma do presente, identificando assim, o que muitos autores chamam de famlia de patentes. Dessa forma, a anlise fornece informaes sobre a origem e o crescimento de uma dada atividade inventiva, alm dos depositantes ativos na indstria, academia e governo, relacionamento de inventores, ligaes com assuntos cientficos e tendncias tecnolgicas. Basicamente, a metodologia cria uma rvore de conexes entre as patentes a partir das citaes que existem nas mesmas, da mesma forma que uma anlise de citao cientfica conecta as referncias em uma base de dados de artigos cientficos (KARKI, 1997). Essa metodologia pode produzir vrios ndices como a quantidade de citaes por patentes, as patentes mais citadas, links que no possuem patentes, ndice de impacto tcnico, tempo de ciclo de uma tecnologia e outros. Esses ndices tm sido usados para medir qualidade de vantagens tcnicas (HIRSCHEY, 2001), detectar negociaes poderosas entre empresas (MOWERY, et al., 1998), descobrir valores econmicos de novas criaes em valores de equaes (HOLL, et al, 2000) e a quantidade de conhecimento (TIJSSEN, 2001). Apesar da facilidade na identificao das citaes, alguns problemas so encontrados na anlise, como por exemplo, a complexidade das relaes existentes entre vrios documentos, pois a anlise apenas indica a ligao entre duas patentes. Dessa

24

maneira, o escopo da anlise fica restrito patente que cita e aquela que citada, limitando assim, o potencial da informao. Um outro problema que a anlise de citao no capaz de considerar relao interna entre patentes, levando em considerao apenas a existncia e freqncia das citaes. E finalmente, consome um enorme tempo de processamento pois necessita de uma busca exaustiva.

3.4 Minerao de textos

A minerao de dados envolve a extrao dos dados nos campos que possuem algum tipo de categoria, por exemplo, quando se deseja encontrar a relao entre procurador e cdigos da Classificao Internacional de Patentes para uma rea especifica de tecnologia (FATTORI, 2003). Atravs dessa perspectiva, pode-se ter uma idia dos maiores envolvidos em uma rea de tecnologia e em que tipo de trabalho est focado (YOON et all, 2003, ZANASI, 2001). No caso da minerao de textos, o processo envolve a clusterizao dos documentos baseados no conceito em que se encontram e os dados utilizados so no estruturados (REZENDE, 2000). Levando em considerao que grande parte das informaes nas patentes encontram-se na forma textual, a aplicao de minerao de textos tem grande utilidade para melhor compreenso do conhecimento existente nesses documentos e consequentemente fornecendo recursos para a aplicao de Inteligncia Competitiva. Um exemplo disso a anlise dos atributos textuais das patentes de um dado procurador. No mapeamento, os conceitos ou assuntos so buscados e clusters dos documentos que possuem os mesmos conceitos so criados. Atravs da anlise desses clusters, que agora encontram-se organizados, pode-se rapidamente obter uma idia geral dos conceitos envolvidos na organizao e como eles se relacionam. Esses atributos no estruturados so representados pelos campos TITULO e RESUMO, que esto disponveis nas patentes do INPI. Alm desses campos, nas patentes internacionais tambm esto disponveis detalhes tcnicos que se apresentam sob forma no estruturada no campo DESCRIO, como no caso da base de dados

25

USPTO (United States Patent and Trademark Office) que pode ser encontrada em UNITED (2006). Para processamento dos dados textuais importante identificar atributos ou termos que contenham informaes importantes para anlises futuras. Em alguns casos, suficiente encontrar significncia em palavras dentro do texto, ou seja, encontrar entre o conjunto total de palavras aquelas que melhor representa o contedo do documento, e a partir dessa cadeia de caracteres, coletar estatsticas e us-las para processamento. O processo de minerao de textos composto por vrias etapas que podem ser executadas por diferentes tcnicas de acordo com a que melhor satisfaa a base de dados a ser processada. Por isso, a seguir so apresentados alguns detalhes do KDT teis para o processamento das patentes brasileiras, que requerem tcnicas especiais para a adaptao ao idioma portugus (LOPES, 2004).

3.4.1

Anlise dos Dados

Pelo fato da manipulao de arquivos de texto ser de difcil interpretao pelo computador, uma etapa de preparao do texto necessria no processo de descoberta do conhecimento (ZANASI, 2005). Um forma bastante comum de representao do conjunto de documentos sob um modelo geomtrico, chamado de Modelo de Espao Vetorial (ROSS et al., 1997) ou VSM (Vectorial Space Model). Nessa representao, os documentos so representados por pontos (ou vetores) em um espao Euclidiano t-dimensional onde cada dimenso corresponde a um termo do dicionrio. Os termos so representantes das palavras contidas dentro do vocabulrio dos documentos. O conjunto total das palavras pertencentes ao espao vetorial chamado de dicionrio (SALTON, 1989). Uma grande vantagem na representao pelo VSM a simplicidade de manipulao dos documentos e a facilidade de visualizao. Alm dos documentos, as consultas tambm podem ser interpretadas dentro do modelo, onde cada termo existente na consulta seria representado por uma coordenada dentro do espao vetorial. 26

Cada termo possui um peso associado para descrever a sua importncia dentro de um documento, o que define a localizao deste no espao vetorial. A distncia de dois documentos ou de duas consultas ir definir a similaridade existente entre eles. Essa distncia calculada usando a medida de similaridade chamada de distncia do coseno, que corresponde ao co-seno do angulo entre dois vetores. Essa medida representada pela equao a seguir:
r r qd cos(q, d ) = r r q d

ou seja,

cos(q, d ) =

q d
i =1 i n i =1 2 i

q d
i =1

(1)
2 i

onde, q = (q1 , q 2 , K q n ) o vetor da consulta com os pesos de cada termo da consulta qi e d = (d1 , d 2 ,K d n ) o vetor do documento com os respectivos pesos de cada termo d i (SALTON, 1975). Os pesos dos termos dos documentos e consultas so atribudos de vrias maneiras, onde os mais comuns deles so: binria, TF e TF*IDF (SALTON, 1983). Uma anlise eficiente do conjunto de documentos dever detectar palavras com significados iguais e trat-las como o mesmo termo. Por esse fato, o prximo passo a ser executado ocorre a nvel morfolgico, onde similaridades de significados e relevncia dos termos so identificados, e a dimenso dos documentos pode ser drasticamente reduzida. Esse pr-processamento pode ser realizado atravs de listas de stopwords, onde esto contidos termos que no trazem conhecimento ao texto e por isso podem ser eliminados do processo. Alm disso, os termos que apresentam freqncia muito alta em todos os documentos tambm no so considerados discriminatrios na classificao das patentes, por isso, so considerados irrelevantes e acrescentados na lista. Como por exemplo, no caso da consulta ser baseada nos documentos que possuem a palavra petrleo no campo resumo, este termo no ter significncia discriminatria para a clusterizao.

27

O pr-processamento das patentes tambm inclui a aplicao de algoritmos de stemming para a reduo de variaes morfolgicas para um nico radical. Foram adaptados diferentes abordagens desse algoritmo para a lngua portuguesa como o caso dos mtodos Stemmer S (HARMAN, 1991), Porter (PORTER, 1980) e Lovins (LOVINS, 1968).

3.4.2

Algoritmo de Clustering

Clustering ou agrupamento, uma tcnica de aprendizado no supervisionado, com o objetivo de encontrar uma estrutura em uma coleo de dados que no sejam prclassificados. Esse procedimento utilizado para agrupar documentos

semelhantes(YANG, et al., 1997). Um sistema de clustering de texto deve desempenhar a tarefa fundamental de descobrir elementos compartilhados por documentos. O critrio de similaridade entre os documentos dado pela distncia existente entre eles. Dois ou mais documentos iro pertencer ao mesmo grupo se estiverem prximos um dos outros no espao vetorial. Para o mtodo de clusterizao k-means (MACQUEEN, 1967; FABER, 1994), dado um nmero fixo k, o algoritmo dever achar k grupos de documentos. O centro de cada cluster definido como o vetor mdio dos dados, ponderado por todos os itens do cluster. O algoritmo inicia inserindo, aleatoriamente, k centrides ao espao do conjunto. A seguinte iterao ento feita: Cada documento associado ao cluster que possuir o centride mais prximo. Calcula-se o centride de cada cluster. A iterao termina quando no houver mais atualizaes ou o nmero de iteraes seja alcanada. A distncia entre os documentos e os centrides definida como uma funo objetivo, onde, nesse caso, a interpretao de documentos textuais mais eficiente utilizando a medida do co-seno definida na equao (1).

28

Como os centrides so inseridos aleatoriamente no espao do conjunto, uma soluo diferente encontrada a cada vez que o algoritmo executado. Dessa forma, o algoritmo executado diversas vezes, sendo que cada vez os centrides so iniciados numa posio diferente. A soma das distncias dos documentos aos seus respectivos centros so armazenadas, e a soluo que apresentar menor distncia considerada a melhor soluo.

3.4.3

Aplicao de minerao de texto em patentes industriais

A minerao de textos bastante utilizada no ramo de negcios, oferecendo ganho competitivo e facilidades na compreenso dos dados existentes. Os resultados obtidos com a anlise inteligente das fontes de recursos auxiliam em uma das tarefa mais difceis existentes dentro de uma organizao: a tomada de deciso. Essas diretivas so amplamente diversificadas e utilizadas de acordo com a necessidade organizacional. As aplicaes de minerao de textos em documentos de patentes industriais permitem a utilizao da tomada de deciso gerando impactos comerciais. Esse processamento se torna indispensvel para o entendimento do contedo das patentes quando a base de dados consiste de um grande nmero de documentos (KOSTER et all, 2001). Cada patente possui em mdia 5000 palavras, e milhares de patentes so depositadas por ano. Sendo assim, a identificao de novos conhecimentos se torna uma tarefa bastante trabalhosa para ser executada por um ser humano. A aplicao de clusterizao estrutura os dados e fornece melhor visualizao das informaes presente nos documentos. A tcnica consiste em criar clusters dos documentos, medindo similaridades entre as patentes e identificando as palavras-chaves desses clusters. A partir desses clusters e das palavras-chave, possvel identificar diversas vantagens para utilizao competitivas, como por exemplo, entender os principais

29

assuntos relacionados s patentes processadas, gerados por cada cluster, alm de reconhecer as principais organizaes ativas em cada assunto, assim realizando uma anlise da concorrncia. Com essas anlises, possvel reconhecer uma segmentao de mercado, agregar valor aos produtos, identificar novos concorrentes e novas tendncias, identificar oportunidades e ameaas no mercado, e melhor aproveitar o capital intelectual. A minerao de textos utilizada para a anlise de patentes tem sido amplamente utilizada em diversas reas de atuao, como por exemplo, empresas de automao, mercado farmacutico, centros de pesquisa, reas biolgicas, servios financeiros, telecomunicaes, governamentais e outros.

3.5 Ferramentas de minerao de textos para patentes

Muitas ferramentas de minerao de textos tm sido desenvolvidas visando oferecer inteligncia tcnica competitiva e melhor gerenciamento tecnolgico, auxiliando na extrao de conhecimento de bases de dados textuais. Atravs dessas ferramentas, a minerao dos textos pode ser facilmente aplicada e os resultados interpretados de diferentes formas. A utilizao de patentes como vantagem competitiva cria a necessidade de se possuir ferramentas prprias para o processamento desse tipo de dado. Como j citado anteriormente, as patentes possuem um formato especial e o tratamento das mesmas como simples dados textuais poderia ocasionar numa enorme perda de informaes. Por isso, pode ser notado um crescimento no nmero de empresas desenvolvedoras de softwares capazes de processar de maneira eficiente os atributos contidos nas patentes. A Sociedade Internacional de Informaes de Patentes uma organizao que busca apoiar o desenvolvimento de sistemas de anlise e de pesquisa em informaes de patentes (PIUG, 2006).

30

Existem vrias empresas de fornecimento de servios relacionados a patentes associadas a essas sociedade, como por exemplo, servios de downloads de patentes, consultoria em busca por patentes especificas, proteo aos direitos de propriedade intelectual, e sendo do interesse dessa dissertao, organizaes desenvolvedoras de sistemas de anlises de documentos de propriedade intelectual. Essas empresas oferecem diferentes tipos de sistemas, com diferentes acessos e processamentos dos dados textuais. Algumas das principais empresas podem ser encontradas em (ANALYSIS, 2006), alm das citadas a seguir.

3.2.1

Wisdomain

A empresa Wisdomain (WISDOMAIN, 2006), oferece uma ferramenta de suporte deciso baseada em dados de patentes chamada Focust. A ferramenta dividida em trs mdulos: o Mdulo de Busca, o Mdulo de Citao e o Mdulo de Anlise. O Mdulo de Busca fornece um acesso bastante flexvel a diversas bases de patentes disponveis na web, como US, EP, JP, PCT e INPADOC. Alm disso, permite a visualizao dessas patentes o que ajuda na organizao atravs da interface da ferramenta. A busca pela patente permite a utilizao de vrios atributos, como busca por palavras-chave, nmero da patente, ou qualquer outro elemento presente na patente. Atravs do Mdulo de Citao, possvel criar a genealogia das patentes, ou seja, atravs de uma rvore, a ferramenta ilustra quais patentes foram precursoras de uma determinada tecnologia e quais patentes seguiram a partir da outra, atravs de uma anlise de citao. Atravs dessa funcionalidade, possvel descobrir quais foram os principais responsveis pela evoluo da tecnologia, quem predomina na sua evoluo, atualmente, alm de outras anlises.

31

Figura 3-4 Mdulo de Citao

O Mdulo de Anlise realiza uma estratgia de anlise que visa atender ao suporte deciso atravs de reas como inteligncia competitiva, tendncias de desenvolvimento industrial, valor da patente, ciclo de vida da patente e estratgias de comercializao. Esse mdulo apresenta trs funcionalidades: a) anlise por minerao de textos, que permite a gerao de rvores atravs de palavras-chave. Os documentos so clusterizados por suas similaridades. b) visualizao bi e tridimensional das estatsticas geradas pela ferramenta a partir das patentes, o que auxilia na compreenso dos grficos e relatrios requeridos pelo usurio. E c) gerenciamento flexvel dos documentos, que auxilia na ligao entre os documentos e qualquer atributo e, dessa forma, um conjunto de documentos podem ser visualizados, analisando apenas alguns de seus atributos.

3.2.2

Temis

O Insight Discoverer Clusterer (IDC, 2006), desenvolvido pela Temis (TEMIS, 2006) capaz de agrupar e classificar os documentos de acordo com as suas semelhanas semnticas.

32

O processo de clusterizao baseado em combinao lingstica e anlise estatstica. O seu pre-processamento realizado de tal forma a distinguir os documentos atravs da morfologia e semntica dos seus termos, identificando-os como verbos, adjetivos ou nomes. Com a utilizao de cartuchos especficos para cada idioma, IDC utiliza informaes gramaticais para auxiliar na identificao da classe de cada termo. O usurio tem a possibilidade de determinar o nvel que cada cluster pode assumir, e o nmero mximo de clusters que podem ser gerados. O resultado dado atravs de visualizao por arquivos HTML, figura 3.5, onde possvel analisar grupos e sub-grupos encontrados pela ferramenta.

Figura 3-5 Temis, mdulo IDC

3.2.3

VantagePoint

A VantagePoint (VANTAGEPOINT, 2006) foi desenvolvida para auxiliar gerentes tcnicos e profissionais de inteligncia tcnica competitiva a extrarem conhecimento novo e til de bases de dados de patentes.

33

Os atributos so minerados atravs de busca por padres, e tcnicas baseadas em regras e processamento de linguagem natural. Essa ferramenta foi desenvolvida para trabalhar com dados bibliogrficos, e dessa forma, consegue distinguir os diferentes campos como autor, titulo, data, pas e outros. Atravs de matriz de covarincia, o usurio pode fazer associaes como autor e ano de publicao para identificar tendncias de publicaes ao longo do tempo. Alm disso, atravs da anlise estatstica multidimensional, VantagePoint pode identificar clusters e relaes entre conceitos, autores, procuradores e pases. Cada n da figura 3.6 representa termos combinados de acordo com a freqncia que ocorrem juntamente. Os ns da proximidade apresentam a correlao entre os termos.

Figura 3-6 VantagePoint

34

Atravs desse mapa, o usurio pode visualizar qualquer atributo do conjunto de documentos, dessa forma, as correlaes mostram mais claramente as tendncias ao longo do tempo. Um thesaurus utilizado pelo VantagePoint onde o usurio possui permisso de edio para melhor especializao e reduo da quantidade de termos da base de dados, alm de utilizar tcnicas de combinao fuzzy para identificar, associar, e reduzir o tamanho total da base.

3.2.4

Aureka

A software Aureka, desenvolvido pela MicroPatent (MICROPATENT, 2006), possui acesso a diversas repositrios de patentes como US, DE, EP, GB, JP (apenas resumos) e autorias de PCT. Alm disso, Aureka capaz de importar documentos como artigos de conferncia, artigos de jornal, referncias de estado da arte, relatrios tcnicos, grficos, invenes em aberto e outros. Essas patentes so acessadas atravs da funcionalidade chamada PowerBronse, onde centenas de patentes so facilmente acessadas e com isso, apenas as patentes que o usurio considerar importante sero armazenadas para anlise posterior. Aureka possui um sistema de diretrios, que auxiliam na armazenagem das patentes selecionadas e essas informaes so compartilhadas com os diversos usurios da organizao. Apresenta dois modos de visualizao dos resultados: o modo ThemeScape, representado pela figura 3.7 e o modo CitationAnalisys representado pela figura 3.8.

35

Figura 3-7 ThemeScape

O modo de visualizao atravs do ThemeScape uma funcionalidade baseada no mapeamento de conceito. capaz de analisar estatisticamente quais so as palavras chave ou os tpicos que os documentos possuem em comum. Os temas, so representados visualmente como contorno no mapa. Os picos representam os assuntos principias. A proximidade dos pontos aos picos representa a relao entre os termos tcnicos e o assunto. Atravs dessa funcionalidade possvel identificar onde as patentes de uma organizao esto relacionadas com as de outras.

Figura 3-8 Citation Analisys

36

CitationAnalisys determina as citaes existentes na patente de interesse. Atravs dessa funcionalidade possvel identificar tendncias tecnolgicas em uma determinada rea. A representao dada por uma rvore hiperblica que demonstra as patentes que referenciam e que so referenciadas por outras. Isso permite encontrar a raiz da tecnologia e entender as direes pela qual aquela tecnologia evoluiu.

3.2.5

Anacubis

O analisador de Propriedade Intelectual da Anacubis (ANACUBIS, 2006) foi desenvolvido visando atender as necessidades de profissionais de patentes. Faz parte da desenvolvedora i2 ChoicePoints e seu grupo de desenvolvimento. A i2 ChoicePoints fornece soluo de anlise investigativa para aplicao de leis em agncias governamentais e no setor comercial. Est preparado para ligar diretamente a qualquer sistema de banco de dados e integra com qualquer outro produto i2. Atravs do i2 Analysts Notebook possvel apresentar os eventos de acordo com as suas ordens cronolgicas, alm de revelar estruturas, detectar padres de crimes e identificar pontos chaves atravs de anlise espacial. A figura 3.9 mostra o mdulo de visualizao dos documentos e as conexes que a ferramenta capaz de efetuar entre pessoas, contas bancrias, organizaes e qualquer outro elemento sob investigao. Alm disso, os grficos criados pelos usurios podem facilmente ser compartilhados atravs do mdulo ChartReader.

37

Figura 3-9 Anacubis

Anacubis tem sido utilizado numa variedade de solues como na rea militar, no combate ao terrorismo, contra o crime organizado, drogas, volume criminal, deteco de fraudes financeiras, prises, telecomunicaes e outros.

3.2.6

BizInt Smart Charts

A BizInt Smart Charts para Patentes (BIZINT, 2006) utiliza como base de dados vrios repositrios de patentes, como Derwent World Patents Index, Claims, CA/Caplus, WPI, MicroPatent, Delphion e outros. A atual verso 3.1 armazena os dados em forma de relatrios tabulares, onde cada coluna representa um atributo da patente, como depositante, titulo e imagem, e cada linha representa uma patente. Atravs de duplo clique sobre a linha, uma nova janela aberta dando acesso patente completa, e da mesma forma, possvel ter acesso s imagens referentes patente. Essas tabelas so editveis e pode-se acrescentar 38

novas linhas e novas colunas. Esses relatrios podem ser exportados para formato HTML ou Excel, como mostra a figura 3.10.

Figura 3-10 BizInt Smart Chart

possvel tambm criar os relatrios tabulares importando e combinando resultados de buscas de ferramentas como STN, Questel*Orbit, Dialog, MicroPatent ou Delphion, alm de gerar estatsticas de acordo com os dados selecionados.

3.2.7

ClearForest

A ClearForest (CLEARFOREST, 2006) oferece ferramentas para pesquisas intensivas que visam auxiliar em processos de inteligncia de negcios. 39

O mdulo ClearTags, atravs da utilizao de tecnologias de tags, semntica avanada, e estatsticas, capaz de produzir tags estruturais de informaes crticas existentes entre os documentos e classificar alguns conceitos bsicos como pessoa, companhia ou localizao. Uma vez que os dados estejam separados pelo seu conceito, dado pelo mdulo de Tags, o ClearForest Extraction Modules, mdulos especficos de extrao de conhecimento, capaz de identificar entidades importantes em uma indstria, e extrair o relacionamento existente entre esses elementos. Esses mdulos atuam sobre bases especficas com diferentes objetivos. O mdulo de anlise de patentes, desenvolvida para profissionais de propriedade intelectual, agem sobre documentos de patentes visando diminuir o tempo do ciclo entre executar e tomar uma deciso, acentuar capacidades de anlise competitiva, obter melhor percepo nos esforos de parceiros de P&D e competidores e diminuir o custo de pesquisas. Os resultados extrados desse mdulo incluem: principais competidores de uma determinada rea, patentes mais importantes e grficos cronolgicos.

3.2.8

Statistica

A ferramenta Statistica, desenvolvida pela StatSoft (STATSOFT, 2006), tem a capacidade de manipular, gerenciar, e visualizar vetores de dados. Possui procedimentos de minerao de dados, tais como classificao, clusterizao, predio e tcnicas exploratrias. Apresenta um mdulo de converso de texto para dados numricos, utilizando algoritmos de freqncia dos termos nos documentos, freqncia binria, log da freqncia e freqncia inversa dos documentos. Alm disso, utiliza listas de StopWords e algoritmos de Stemming (com suporte para vrios idiomas, inclusive o Portugus). Uma vez que os dados tenho sido convertido para o formato numrico, a ferramenta trata o problema como uma minerao de dados.

40

Na figura 3.11 apresentado o conjunto de passos a serem realizados para o processamento de textos. Este processo inclui o pr-processamento, a alterao dos resultados do pr-processamento, ou seja, juno ou eliminao de outros termos e o resultado da clusterizao.

Figura 3-11 Statistica Mdulo Textual

Para utilizar dados de patentes no Statistica, apenas os campos textuais so inseridos, tratados como um conjunto de arquivos, cada um contendo um texto. A clusterizao retorna como resultado os documentos agrupados pela clusterizao e os seus respectivos centrides.

41

4 Sistema de Minerao de Textos nos Documentos de

Patentes

Para a aplicao de mtodos computacionais em patentes, como a minerao de textos, so necessrios procedimentos especiais, capazes de manipular os atributos presentes em tais documentos, como RESUMO, DATA, e outros, de maneira a fornecer o maior ganho de informao inclusa nos mesmos. Por esse fato, uma ferramenta de minerao de textos foi implementada e adequadamente modelada para manipular patentes e melhor visualizar os resultados obtidos da minerao de textos. A ferramenta desenvolvida tem o objetivo de utilizar algumas das tcnicas de processamento de documentos, sendo utilizada para a manipulao e entendimento de contedo de patentes brasileiras e a partir dos resultados, ser capaz de auxiliar no processo de tomada de deciso. A minerao de textos foi adotada de acordo com a necessidade de processamento das patentes, visando obter melhores resultados. Alm disso, algumas propriedades estatsticas foram implementadas, visando entender relaes existentes entre as patentes, e consequentemente, a relao existente entre as reas atuao das mesmas. A implementao da fase de pr-processamento foi testada com diversos algoritmos, sendo que apenas os que forneceram melhores resultados para os documentos de patente fazem parte do sistema atual. A seguir, ser descrita a linguagem utilizada para a implementao da ferramenta, os algoritmos utilizados no pr-processamento e para obteno dos clusters, tal como as opes de processamento dos atributos e as propriedades de anlises estatsticas que podem ser utilizadas nas patentes.

42

4.1 Linguagem Java

A linguagem Java tem ocupado um espao muito grande entre as ferramentas de desenvolvimento de sistemas por apresentar um grande nmero de vantagens. Entre essas vantagens, encontra-se o fato da linguagem possuir diversas bibliotecas que so facilmente anexveis a qualquer sistema, sendo que algumas podem ser encontradas gratuitamente na internet. Essas bibliotecas so chamadas de APIs. Dentre essas APIs, encontramos vrias bibliotecas grficas que podem oferecer melhor visualizao grfica. E alm disso, o fato de surgir a partir da linguagem C a torna extremamente simples. A linguagem disponibilizada gratuitamente atravs da rede de

desenvolvimento Sun (SUN, 2006), e a ferramenta utilizada para desenvolvimento do sistema foi o Eclipse (ECLIPSE, 2006), por ser capaz de manipular java com grande praticidade. Alm disso, o fato da linguagem ser orientada a objetos, capaz de simular mais facilmente problemas reais. Esse fato de suma importncia, pois oferece portabilidade e facilita a insero de novos requisitos futuros. Por esses motivos, o sistema apresentado nesta dissertao foi desenvolvido a partir da linguagem java, visando retirar o melhor proveito, alcanar um melhor desempenho, e dar suporte a futuras necessidades e melhorias a serem realizadas.

4.2 Captura dos dados

A escolha adequada dos dados a ser processados pelo sistema de minerao de textos um fator de suma importncia para a obteno de resultados consistentes e relevantes. O uso de documentos irrelevantes para uma determinada aplicao reduz o grau de confiabilidade nos resultados e diminui o desempenho do processo. Nesse sentido, algumas formas de busca de patentes tem sido estudadas, como pode ser visto em DEBOYS (2004), que define a melhor seqncia de decises a serem tomadas na busca pelos documentos. 43

Alguns fatores determinam uma boa qualidade das patentes buscadas e os efeitos e riscos associados a decises comerciais. Alguns pontos podem ser destacados durante a tomada de deciso, como por exemplo: Definio daquilo que pode ser buscado Definio do que pode ser esperado do resultado da busca levando em conta os recursos disponveis e suas limitaes Definio de atributos como palavras-chave, classificaes, depositantes, ano, e outros. Definio dos atributos relevantes das patentes buscadas e que sero usados na anlise. Todos esses fatores so de extrema importncia para a obteno de resultados consistentes e relevantes. Os detalhes dessa seqncia de passos para a tomada de deciso na busca por patentes pode ser encontrado em FLETCHER (1992). Pelo fato do site do INPI possuir dificuldades em capturar esses dados, uma ferramenta isolada foi desenvolvida com o objetivo de automatizar essa captura. O processo de captura dos dados dividido em duas partes: a) depois de realizada a consulta, os nmeros dos depsitos das patentes retornadas so salvos em um arquivo de formato texto. b) a ferramenta tem a funo de ler os 19 primeiros nmeros contidos na lista, espera at que o usurio realize a autenticao manual requerida pela pgina de consultas do INPI, captura as patentes equivalentes aos nmeros lidos e parte para os 19 prximos nmeros. O processo de autenticao e leitura continua at que todos os nmeros de depsito tenham sido lidos e as patentes armazenadas. A figura 4.1 representa uma patente recuperada de uma consulta realizada pela ferramenta. As propriedades da patente so preservadas e dessa forma no h perda de informao. Essas propriedades so caracterizadas pelos atributos que a patente possui, e os mesmos so acompanhados dos nmeros que os caracterizam, como no exemplo da figura 4.1, a DATA DE DEPOSITO identificado pelo nmero 22.

44

Figura 4-1 Patente capturada pelo Sistema

45

4.3 Descrio do Sistema

O sistema de Anlise de Patentes foi desenvolvido de tal forma a manipular arquivos de formato texto, representado na figura 4.1, conforme aqueles salvos pela ferramenta descrita anteriormente. O sistema foi desenvolvido para realizar alguns processamentos de anlise das patentes, que podem ser caracterizados pela anlise estatstica dos atributos CLASSIFICAES e DEPOSITANTES das patentes, e pela minerao de textos realizado no atributo RESUMO. A figura 4.2 apresenta a tela inicial do sistema com as opes de processamento e visualizaes.

Figura 4-2 Tela Principal

46

Os documentos a serem processados so selecionados a partir da opo Buscar, onde o diretrio selecionado pode ser visualizado no campo Arquivos de Patentes. Todas as operaes de busca por informao so realizadas sobre esses arquivos. No geral, os atributos a serem utilizados por cada etapa so identificados pelos nmeros que os caracterizam.

4.3.1

Anlises Estatsticas

Das patentes utilizadas no processo de descoberta de contedo, possvel identificar determinados valores estatsticos que podem oferecer ganho no que diz respeito a diversificao do contedo dos documentos e a relao existente entre as patentes. Para esse processo de anlise estatstica, dois atributos foram utilizados no sistema: CLASSIFICAO e DEPOSITANTES.

Classificao

Dado um conjunto de patentes, obtido a partir da execuo de uma consulta qualquer na base de dados de patentes, a freqncia com que cada CLASSIFICAO aparece demonstra os principais setores que se destacam no conjunto, como por exemplo, fsica ou eletricidade, ou suas classes, subclasses e subgrupos, demonstrando qual o principal assunto referente ao conjunto. A partir dessa informao, pode-se perceber tambm como um conjunto de patentes retornados por uma mesma consulta abrange diferentes reas. A figura 4.3 apresenta a tela presente no sistema cujo papel listar as classificaes existentes no conjunto, tal como a freqncia com que cada uma aparece.

47

Figura 4-3 Tela das Classificaes existente no conjunto de Patentes processadas

As informaes apresentadas na tela de Classificaes so obtidas a partir dos documentos recuperados na busca pelas patentes e que possuem o formato apresentado na figura 4.1. O atributo CLASSIFICAES obtido a partir do nmero 51 (cinqenta e um), que padro do atributo em todas as patentes internacionais de acordo com o PCT.

Depositantes

A relao dos DEPOSITANTES e o nmero de patentes industriais depositadas por cada um deles pode auxiliar no processo de Inteligncia Competitiva a descobrir quais so os maiores concorrentes em um determinado produto e os maiores detentores de alguma determinada tecnologia. Alm disso, atravs dessa lista de depositantes, possvel perceber parcerias realizadas entre pesquisadores, empresas ou institutos de pesquisa para o desenvolvimento e pesquisa de um produto ou tecnologia. 48

A figura 4.4 apresenta a tela no Sistema responsvel pelo processamento e visualizao dos depositantes das patentes processadas.

Figura 4-4 Tela dos Depositantes existente no conjunto de Patentes processadas

O atributo DEPOSITANTE obtido a partir do nmero 71 (setenta e um) existente na patente conforme o formato apresentado na figura 4.1. Esse nmero padro conforme determinado pelo PCT. Um problema bastante comum encontrado nas patentes a diferente forma de digitalizao dos nomes dos depositantes no atributo. O mesmo depositante pode aparecer com pequenas variaes no nome, o que impediria o sistema reconhece-lo como um s depositante. Um exemplo disso o depositante Petroleo Brasileiro S/A. PETROBRS (BR/RJ) e Petroleo Brasileiro S.A.- Pretrobras (BR/RJ), que possui erros de digitao e caracteres diferentes. Para contornar tal situao, o sistema utiliza uma lista, chamada de Alias, com as variaes que podem ser encontradas nos diferentes depositantes e auxilia o sistema a identificar grupos similares de depositantes. Essas relaes existentes no arquivo Alias

49

so digitadas pelo prprio usurio a partir da observao dos depositantes e da necessidade de novos agrupamentos.

4.3.2

Pr-Processamento

Os termos presentes nos documentos so lidos um a um e armazenados em um vetor, chamado de dicionrio. Paralelamente, para cada documento, um vetor v criado (sendo v = 1 ... d, e d o nmero de documentos), onde a quantidade de cada termo dentro do documento armazenada, juntamente com o ndice do termo dentro do dicionrio (SALTON, 1989). O primeiro processo realizado nos termos o case folding, que facilita a identificao das palavras, convertendo-as para o mesmo tipo de caractere. Nessa implementao o case folding utilizado foi o de caracteres minsculos. A seguir, uma lista de StopWords foi utilizada para retirar as palavras que no apresentavam relevncia para a clusterizao. Essa lista est contida internamente no sistema e contm termos comumente utilizados para a lngua portuguesa, como conjunes e artigos. Alm disso, o usurio tem a liberdade de inserir uma nova lista de termos que o mesmo considerar irrelevante para o processo atravs do campo Arquivo de StopWords, presente na tela inicial do sistema, conforme descrito na figura 4.2. importante ressaltar ainda que qualquer tipo de caractere no alfabtico foi eliminado durante a fase de pr-processamento. Esses caracteres incluem tanto nmeros quanto caracteres especiais como traos, aspas, parnteses e outros. O algoritmo utilizado para a reduo dos termos at os seus radicais foi o Stemmer Portuguese ou RSLP (Removedor de Sufixos para a Lngua Portuguesa). O algoritmo composto de uma seqncia de passos que reduz gradativamente os sufixos dos termos, iniciando pela remoo do plural, seguindo da remoo de feminino, reduo do advrbio, reduo do aumentativo/diminutivo, reduo de sufixo de nome, reduo de verbo, reduo da ltima vogal, e finalmente, a reduo dos acentos. Um melhor detalhamento dobre o algoritmo de stemming pode ser encontrado em ORENGO (2001) e CHAVES (2003).

50

Os termos resultantes do processo de pr-processamento, reduzidos aos seus radicais, so atualizados no vetor de dicionrio. Um passo que desempenhou um papel bastante importante na clusterizao, melhorando os resultados do processamento, foi a retirada dos termos que possuam baixa presena entre os documentos e aqueles que possuam uma presena muito alta entre os documentos. Constatou-se que palavras que apareciam em apenas alguns documentos, e s vezes em apenas um, no ofereciam ganho discriminatrio entre os grupos, tal como aqueles que estavam presente em todos. Os termos resultantes so submetidos medida de atribuio de pesos TFxIDF, onde cada termo dentro de cada documento recebe um valor relacionado importncia deste dentro do documento. Esses pesos so armazenados nos vetores dos documentos juntamente com o ndice relativo a cada termo dentro do dicionrio. A partir dos vetores de valores obtidos, os dados esto preparados para o processo de clusterizao.

4.3.3

Clustering

O clustering aplicado aos documentos de patente tem o objetivo de encontrar entre os documentos, aqueles grupos que se assemelham. A minerao de textos pode ser aplicada em diversos campos de uma patente, como por exemplo, o TITULO, o RESUMO e a DESCRICAO. As patentes utilizadas nessa dissertao, no entanto, possuem apenas os campos TITULO e DESCRICAO. A opo Resumos, implementada no sistema, tem a propriedade de selecionar e armazenar os resumos das patentes selecionadas no campo Arquivos de Patentes. Essa funcionalidade pode ser estendida, futuramente, para a clusterizao apenas dos ttulos das patentes, e para a descrio, caso as patentes a possuam. O campo RESUMO obtido a partir do nmero 57 (cinqenta e sete), conforme indicado na figura 4.1, padro determinado pelo PCT. Uma vez aplicado o pr-processamento nos dados o processo de clusterizao iniciado.

51

O algoritmo kmeans aplicado aos dados utilizando como medida de distncia entre os clusters a medida do cosseno. A quantidade de clusters predeterminada no campo nmero de clusters, e o algoritmo executado at que os resultados se estabilizem ou a quantidade de iteraes do campo nmero de iteraes seja alcanado. Por configurao, caso o usurio no inserira o nmero de iteraes, o algoritmo ir executar 100 iteraes. Alm disso, o nmero de clusters pode ser determinado pelo usurio ou o algoritmo ir supor buscar por dez clusters. A tela retornada pela clusterizao apresentada na figura 4.5. Para cada cluster, o sistema imprime os 10 termos (radicais das palavras) que mais caracterizam aquele elemento.

Figura 4-5 Tela de Visualizao dos Resultados da Clusterizao

52

Ao selecionar uma linha na tabela de cluster, uma tabela imprime os nomes dos documentos de patentes relacionados ao cluster referente quela linha. Para melhor entendimento do contedo do cluster, a opo Visualizar Documentos abre um arquivo texto com todas as patentes que pertencem ao cluster selecionado. A opo Exportar Lista de Documentos salva em um arquivo texto os documentos pertencentes quele cluster. Dessa forma, ao retornar para a tela principal, representada na figura 4.2, caso a seleo do Arquivo de Patentes seja esse texto com documentos, as opes de Classificao e Depositantes ir revelar os principais depositantes e classificaes encontradas em cada cluster. Dessa forma, as opes Visualizar Documento, Classificaes e Depositantes ir auxiliar no processo de entendimento de cada cluster e consequentemente, melhorar o processo de tomada de deciso.

53

5 Estudo de Caso

Neste captulo, ser apresentada a aplicao da ferramenta de minerao de textos desenvolvida para o processamento e busca de conhecimento em patentes e os resultados obtidos das bases de dados utilizadas. As bases foram obtidas a partir do processo descrito anteriormente. Os resultados obtidos da ferramenta de patente sero comparados com os resultados obtidos a partir de outras duas ferramentas de minerao de textos j existentes: o mdulo IDC desenvolvido pela Temis e o programa Statistica, desenvolvido pela StatSoft.

5.1 Base de Dados

As bases de dados utilizadas na busca por conhecimento na presente dissertao foram escolhidas atravs de diversos processamentos anteriormente realizados e testes de bases de dados. Chegou-se concluso que alguns atributos possuam grande importncia na representatividade do atual foco de pesquisa e desenvolvimento. Os estudos foram baseados nas classificaes e palavras-chave que apareciam com grande freqncia nas patentes mais atuais disponveis no site do INPI. Dentre os atributos que receberam maior destaque, uma palavra-chave e duas classificaes foram selecionadas para compor a base de dados a ser utilizada no processamento da presente dissertao. As patentes foram divididas de acordo com cada atributo e por isso foram geradas duas bases de dados: uma base com documentos de patentes que possuam a

54

classificao E21B e uma base com documentos de patentes que possuam o termo petrleo inseridos no campo RESUMO. Essas bases sero descritas a seguir.

5.1.1

E21B

Essa classificao, de acordo com a stima edio (1999) da Classificao Internacional de Patentes (CIP), volume 5, tem a seguinte descrio: Seo E: Construes Fixas. Subseo 21 da seo E: Perfurao do Solo; Minerao; Obteno de Fluidos de Poos. Subclasse E21B: Perfurao do solo, por exemplo, perfurao profunda; Obteno de leo, gs, gua, materiais solveis ou fundveis ou uma lama de minerais de poos. Foram encontradas 2535 patentes com essa classificao, sendo a mais antiga delas, depositada em janeiro de 1982, e 1412 depositadas nos ltimos dez anos.

5.1.2

Petrleo

Para efeito de busca por tendncias tecnolgicas e industriais desenvolvidas ao longo dos anos, as patentes coletadas com a palavra-chave petrleo foram separadas utilizando como critrio, o ano do depsito da patente. Dessa forma, as patentes dos ltimos dez anos que possuam a palavra-chave petrleo presente no atributo RESUMO, foram selecionadas para pertencer base de dados, ou seja, aquelas depositadas entre 1996 e 2005. No entanto, o nmero de patentes depositadas em cada ano muito baixo, e por esse motivo, as patentes foram reagrupadas formando dois grupos de cinco anos cada, um entre os anos de 1996 e 2000 e o outro entre os anos de 2001 e 2005.

55

A tabela 5.1 apresenta um resumo do nmero de patentes obtidas na fase de captura dos dados, separadas pelo respectivo conjunto de acordo com o ano em que foi depositada.

Ano 1996 - 2000 2001 - 2005


Total

Qtd. de patentes com o termo Petrleo 226 319


545

Tabela 5-1 - Quantidades de patentes de Petrleo coletadas

No total, 545 patentes relacionadas ao termo Petrleo foram depositadas nos ltimos dez anos.

5.2 Anlise dos Dados

As anlises das bases de dados foram realizadas com relao s caractersticas presentes na ferramenta de manipulao de patentes implementada para a presente dissertao. A seguir sero apresentados os resultados e concluses das anlises estatsticas realizadas nas bases de patentes, verificando as CLASSIFICAES e

DEPOSITANTES de maior destaque nas bases.

5.2.1

E21B Classificao

Dentre as patentes que possuem a classificao E21B podem-se observar vrias subsees presentes, como mostrado na figura 5.1.

56

Figura 5-1 Subgrupos relacionados base E21B

Das subsees presentes no conjunto de patentes, pode-se perceber da figura 5.1 que algumas receberam maior destaque por estarem presentes em maior nmero de patentes, que so: E21B 43/00: Perfurao do solo. Mtodos ou aparelhos para obter leo, gs, gua, materiais solveis ou fundveis ou de lama minerais de poos. E21B 43/12: Obteno de fluidos de poos; mtodo ou aparelho para controlar o fluxo do fluido obtido em poos. E21B 17/00: Outros equipamentos ou detalhes para perfurao; Equipamento de poos ou manuteno de poos; Hastes ou tubos de perfurao; Ferramentas flexveis de perfurao; Hastes quadradas (Kellies); Comandos; Hastes de suco; Tubulao de revestimento; Tubos de produo E21B 17/01: Hastes ou tubos de perfurao; Ferramentas flexveis de perfurao; Hastes quadradas (Kellies); Comandos; Hastes de suco; Tubulao de revestimento; Tubos de produo. Tubos ascendentes

57

E21B 43/01: especialmente adaptados para a obteno por meio de instalaes subaquticas

E21B 37/06: Outros equipamentos ou detalhes para perfurao; Equipamentos de poos ou manuteno de poos; Mtodos ou aparelhos para limpar furos de sondagem ou poos utilizando meios qumicos para impedir ou limitar a deposio de parafinas ou de substncias similares.

E21B 47/12: Provas ou ensaios; Levantamento de furos de sondagem ou de. Meios para transmitir sinais de medio do poo para a superfcie, por ex., perfilagem durante a perfurao

E21B 33/13: Outros equipamentos ou detalhes para perfurao; Equipamentos de poos ou manuteno de poos; Vedao ou obturao de furos de sondagem ou de poos. Mtodos ou dispositivos para cimentao, para obturao de furos, fendas ou similares. Alm disso, pode-se observar a presena de um subgrupo com freqncia

relativamente alta no conjunto de patentes com classificao E21B: C09K 7/02. Que de acordo com a CIP: C09K 7/02: Qumica e Metalurgia. Corantes; Tintas; Polidores; Resinas naturais; Adesivos; Composies diversas; Diversas aplicaes de substncias.

Substncias para aplicaes diversas, no includas em outro local. Composies para perfurao de poos; Fludos no aquosos contendo compostos orgnicos ou inorgnicos. A partir dessa descrio, pode-se perceber a presena de alm de materiais de diversas formas de perfurao de solo, mas tambm compostos que auxiliam nesse processo. Uma observao macro das classificaes relacionadas classificao E21B nas patentes est indicada na figura 5.2.

58

Figura 5-2 Subclasses relacionadas base E21B

Duas classificaes receberam grande destaque por se relacionarem com E21B, entre elas, C09K, tambm destaque nas subsees, e a classificao relacionada F16L, sendo: F16L: Engenharia Mecnica; Iluminao; Aquecimento; Armas; Exploso. Elementos ou unidades de engenharia; Medidas gerais para assegurar e manter o funcionamento efetivo de mquinas ou instalaes; Isolamento trmico em geral. Tubos; Juntas ou acessrios para tubos; Suportes para tubos ou cabos; Meios para isolamento trmico em geral. A partir das observaes presentes nas classificaes relacionadas s da base de patente e suas subsees, pode-se avaliar qual conjunto de tcnicas, materiais e compostos necessrios para a composio dos produtos presentes nos documentos de propriedade intelectual e quais so os geralmente mais utilizados para a realizao da perfurao de solo para obteno de fluidos de poos.

59

Ou seja, mtodos de perfurao de solo para obteno de leo, gs, gua e outros, esto intimamente ligados a materiais da engenharia como tubos, suportes e meios de isolamente trmico.

5.2.2

E21B Depositantes

Para a classificao E21B, 585 diferente depositantes foram encontrados. A figura 5.3 ilustra os resultados.

Figura 5-3 Depositantes com a classificao E21B

Do total de depositantes encontrado, foi observado que 75% empresas depositaram apenas uma patente ao longo dos anos, 11% depositaram duas patentes, e assim sucessivamente, conforme mostrado na figura 5.4.

60

Nmero de depositantes e de patentes depositadas


0% 1% 1% 12%
depositantes de 1 patente depositantes de 2 patentes depositantes entre 3 e 10 patentes

11%

depositantes entre 11 e 20 patentes depositante entre 21 e 99 patentes

75%

depositantes entre 100 e 151 patentes

Figura 5-4 Quantidade de patentes por depositantes de classificao E21B

A empresa que mais tem depositado patentes ao longo dos ltimos anos com relao classificao E21B a Halliburton Energy Services, INC (US) com 151 patentes, sendo a Shell Internationale Research Maatschappij B.V. (NL) e a Petrleo Brasileiro S.A. - Petrobras (BR/RJ) as maiores depositantes na seqncia, com 110 e 86 patentes, respectivamente.

5.2.3

Petrleo Classificao

Em busca de mudanas no foco de pesquisa e desenvolvimento de novas tecnologias relacionadas ao componente Petrleo, as bases relacionadas ao termo foram analisadas separadamente. A base que contm as patentes industriais dos anos de 1996 a 2000 possuem um total de 93 diferentes classificaes, como pode ser visto na figura 5.5.

61

Figura 5-5 Subclasses presentes na base Petrleo entre os anos de 1996 e 2000

As classificaes que mais se destacam na base de dados so E21B, C10G e C10L, definidas de acordo com a CIP: E21B: Construes Fixas. Perfurao do Solo; Minerao; Obteno de Fluidos de Poos. Perfurao do solo, por exemplo, perfurao profunda; Obteno de leo, gs, gua, materiais solveis ou fundveis ou uma lama de minerais de poos. C10G: Indstrias do petrleo; do gs ou do coque; gases tcnicos contendo monxido de carbono; combustveis; lubrificantes; turfa. Craqueamento de leos de hidrocarboneto; Produo de misturas lquidas de hidrocarboneto, por ex., hidrogenao destrutiva; oligomerizao, polimerizao; Recuperao de leos de hidrocarboneto a partir de xisto etuminoso, arenito olefero, ou gases;

Refinao de misturas constitudas principalmente de hidrocarboneto; Reforma de nafta; Ceras minerais. C10L: Indstrias do petrleo; do gs ou do coque; gases tcnicos contendo monxido de carbono; combustveis; lubrificantes; turfa. Combustveis no

62

includos em outro local;

Gs natural; Gs natural de sntese obtido por

processos no abrangidos pelas subclasses C10G, K; Gs liquefeito de petrleo; Adio de substncias a combustveis ou ao fogo para reduzir fumaa ou depsitos indesejveis ou para facilitar a remoo de fuligem; Acendedores de fogo. Sendo que o subgrupo que mais se destaca entre os subgrupos presentes E21B 37/06: E21B 37/06: Outros equipamentos ou detalhes para perfurao; Equipamentos de poos ou manuteno de poos; Mtodos ou aparelhos para limpar furos de sondagem ou poos utilizando meios qumicos para impedir ou limitar a

deposio de parafinas ou de substncias similares. J a base que possui as patentes com termo Petrleo depositadas nos anos entre 2001 e 2005 possui 100 diferentes classificaes, como se apresenta na figura 5.6.

Figura 5-6 Subclasses presentes na base Petrleo entre os anos de 2001 e 2005

63

Do total de classificaes encontradas, 3 receberam maior destaque, sendo elas as classificaes E21B, C10G e B01J. So definidas segundo a CIP: E21B: Construes Fixas. Perfurao do Solo; Minerao; Obteno de Fluidos de Poos. Perfurao do solo, perfurao profunda; Obteno de leo, gs, gua, materiais solveis ou fundveis ou uma lama de minerais de poos. C10G: Qumica e Metalurgia. Indstrias do petrleo; do gs ou do coque; gases tcnicos contendo monxido de carbono; combustveis; lubrificantes; turfa. Craqueamento de leos de hidrocarboneto; Produo de misturas lquidas de hidrocarboneto, por ex., hidrogenao destrutiva; oligomerizao,

polimerizao; Recuperao de leos de hidrocarboneto a partir de xisto etuminoso, arenito olefero, ou gases; Refinao de misturas constitudas principalmente de hidrocarboneto; Reforma de nafta; Ceras minerais. B01J: Operaes de Processamento; Transporte. Processos ou aparelhos fsicos ou qumicos em geral. Processos qumicos ou fsicos, por ex., catlise, qumica coloidal; Aparelhos pertinentes aos mesmos. Dentre as subsees, aquelas que receberam maior destaque so C10G 49/00, definida pela CIP como: C10G 49/00: Tratamento de leos de hidrocarboneto, na presena de hidrognio ou de compostos geradores de hidrognio A partir dessas observaes, pode-se notar que as classificaes que predominam nas patentes relacionadas a petrleo so E21B e C10G, relacionadas a Perfurao de solo e misturas liquidas, respectivamente. Porm, houve uma diferena no foco de pesquisa, ocorridos nos anos determinados pelas bases de estudos, sendo que entre os anos de 1996 e 2000 o estudo foi maior na classificao C10L, combustveis e gs natural, e entre os anos de 2001 a 2005 o estudo foi maior na classificao B01J, processos qumicos ou fsicos e aparelhos para os mesmos.

64

5.2.4

Petrleo Depositantes

Analisando os depositantes de maior destaque nas bases de dados de patentes selecionadas, pode-se notar que nos anos 1996 a 2000 tiveram 130 diferentes depositantes, incluindo o nmero de parcerias realizadas. A figura 5.7 apresenta o resultado obtido.

Figura 5-7 Depositantes de patentes com o termo petrleo nos anos entre 1996 e 2000

O depositante que recebeu maior destaque foi Petrleo Brasileiro S.A. Petrobras (BR/RJ) com 26 patentes depositadas mais uma parceria com Tecnologia LTDA (BR/RJ). Do total de classificaes, pode-se observar que 83% depositantes apenas depositaram 1 patente nos 5 anos analisados, 9% depositaram 2 patentes, e assim por diante, de acordo com a figura 5.8.

65

Nmero de depositantes e de patentes depositadas


1% 1% 2% 4% 9% depositantes de 1 patente depositantes de 2 patentes depositantes de 3 patentes depositantes de 4 patentes depositante de 5 patentes depositante de 26 patentes 83%

Figura 5-8 Quantidade de patentes por depositantes nos anos entre 1996 e 2000

Entre os anos de 2001 e 2005, 169 diferentes depositantes foram encontrados, incluindo o nmero de parcerias realizadas, conforme mostra a figura 5.9.

Figura 5-9 Depositantes de patentes com o termo petrleo nos anos entre 2001 e 2005

66

Pode-se notar que a empresa Shell Internationale Research Maatschappij B.V. (NL) depositou, entre os anos 2001 e 2005, 52 patentes, seguindo da empresa Petrleo Brasileiro S.A. - Petrobras (BR/RJ), com 42 patentes depositadas individualmente mais 2 patentes em parceria com as empresas Albrecht Equipamentos Industriais Ltda. (BR/SC) e Akzo Nobel N.V. (NL).
Nmero de depositantes e de patentes depositadas
1% 1% 2% 3% 14% depositantes de 3 patentes depositantes de 5 patentes depositantes entre 6 e 8 patentes 79% depositaram mais de 40 patentes depositantes de 1 patente depositantes de 2 patentes

Figura 5-10 Quantidade de patentes por depositantes nos anos entre 2001 2005

Do total dos depositantes, pode-se observar que 79% das empresas depositaram apenas 1 patentes ao longo dos anos, 14% depositou 2 patentes, e assim por diante, conforme mostra a figura 5.10.

5.3 Pr-processamento

A base de dados utilizada para a execuo da minerao de textos se reduz aos campos RESUMO nas patentes. Vale destacar que nem todas as patentes possuam um RESUMO associado, por isso, algumas delas acabaram sendo desconsideradas na anlise atravs da minerao de texto. Esse campo, tal como alguns outros presentes na patente, possuem alguns erros de digitao, e por esse fato, o trabalho de pr-processamento foi realizado de maneira iterativa, de forma que os termos que resultavam no dicionrio e que apareciam de

67

forma digitalizada incorretamente foram reeditados nos documentos utilizados. Dessa maneira, uma reviso manual dos documentos foi realizada, porm apenas para os termos considerados relevantes para a classificao. Esse processo diminuiu a quantidade total de termos em cerca de 1,4%. J o pr-processamento efetuado pela ferramenta para o processamento das patentes constitui da retirada de lista de palavras no relevantes, chamadas de Stopwords e da utilizao da tcnica de Stemming. A lista de StopWords composta, alm dos termos que no possuem informao, como conjuno, tambm alguns termos que no apresentam importncia dentro da base de dados sendo processada. A aplicao do Stemming diminui o nmero total de termos no vetor atravs do agrupamento de termos semelhantes reduzindo-os aos seus radicais. Alm disso, os termos que possuam freqncia muito alta dentro do conjunto total de documentos e aqueles que possuam freqncia baixa, foram desconsiderados. Por conveno, adotamos que seriam mantidos apenas aqueles termos que apareciam em mais de um documento e menos que todos. Todo o pr-processamento realizado em cima do vetor de termos chamado dicionrio, e os vetores relativos a cada documento so atualizados a medida que os ndices do dicionrio, representantes dos termos, so alterados. Dessa lista de processos a serem aplicados, chegou-se aos resultados que sero apresentados a seguir para cada base de dados.

5.3.1

E21B

A base de dados formada de patentes cuja CLASSIFICAO faz parte do grupo E21B, continha originalmente, 2535 patentes, sendo que apenas 1979 documentos possuem um RESUMO associado. No total, 301382 termos foram encontrados presentes no campo pr-processado das patentes.

68

A aplicao da lista de Stopwords no vetor reduziu o conjunto total de termos para 13235 termos. A aplicao do algoritmo Stemming reduziu esse total para apenas 4726 termos, cerca de 64,3% da base de Stopwords. Com a retirada dos termos mais freqentes e daqueles menos freqentes, a base E21B passou a ter somente 2238 termos no seu vetor de dicionrio, reduzindo aproximadamente 52,65% o nmero de termos, e consequentemente, melhorando o tempo de processamento e a qualidade dos resultados.

5.3.2

Petrleo

O pr-processamento da base de dados composta pelas patentes que possuam o termo petrleo no campo RESUMO, foi realizado separadamente para as patentes que foram depositadas entre os anos de 1996 e 2000 e entre os anos de 2001 e 2005. Como resultado, a primeira base possua inicialmente um total de 34954 termos sendo esse nmero reduzido para 4627 com a retirada dos termos presentes na StopList. Com a aplicao do algoritmo de Stemming, as palavras foram reduzidas aos seus radicais, diminuindo 43% do total de termos presentes no vetor Dicionrio da base de dados, compondo assim apenas 1965 termos. A reduo dos termos mais freqentes e os menos freqentes resultou em um total de 922 termos considerados relevantes, lembrando que o termo petrleo, presente em todos os documentos a serem clustrizados, foi retirado do conjunto de termos por no possuir um alto grau discriminatrio dos clusters. Alm disso, aqueles termos que estavam presentes em apenas um nico documento tambm foram desconsiderados do processo. A segunda base de patentes, compreendendo os anos de 2001 a 2005, possuam originalmente 47457 termos. A retirada dos termos irrelevantes, presentes na lista de StopWords, reduziu esse total para 5305 termos e em seguida o algoritmo de Stemming reduziu para 2206 radicais. Os termos mais freqentes e menos freqentes no conjunto total de documentos tambm foram retirados, igualmente ao processo realizado na primeira base, e reduziu para 1122 o nmero total de termos.

69

5.4 Clusterizao

Pelo fato de no possuir uma classificao prvia dos documentos clusterizados, no possvel obter uma relao do grau de preciso do sistema. No entanto, a partir da anlise dos resultados de cada cluster, levando em considerao alguns fatores como o conjunto de documentos agrupados no mesmo cluster, as palavras-chave mais significativas de cada conjunto, as classificaes e depositantes predominantes dos resultados dos clusters, algumas concluses podem ser retiradas e utilizadas como auxilio IC. O nmero de clusters foi escolhido baseado em pr-anlises de outras quantidades de clusters. Dessas pr-anlises, determinou-se que pela variedade de tpicos existentes dentro do conjunto de patentes, a quantidade ideal de clusters tendia ao maior nmero possvel, o que quer dizer que tendia a criar vrios clusters de pequenas quantidades de documentos, com assunto especficos, como por exemplo, clusters separando dispositivos das tcnicas de perfurao atravs de presso de fluidos aquosos. Para evitar que assuntos similares fossem separados por pequenos detalhes, o nmero de clusters foi testado visando tambm, no perder as informaes importantes presentes no conjunto total. Porm, apenas um sistema matemtico elaborado poderia determinar com maior preciso o nmero ideal de clusters. A seguir, so apresentados os resultados da clusterizao realizada pela ferramenta implementada para a dissertao contendo: uma anlise de cada cluster criado, uma viso das classificaes e dos depositantes predominantes em cada conjunto. So apresentados tambm os resultados da aplicao das bases em duas ferramentas distintas: o mdulo IDC desenvolvido pela Temis e o mdulo de minerao de textos do software Statistica de Statsoft.

70

5.4.1

E21B Clustering

As patentes de E21B, no total 1979 com o campo RESUMO, foram clusterizadas pela ferramenta da dissertao tendo como base o nmero de clusters igual a dez. A figura 5.11 apresenta a tela de sada da clusterizao desses documentos, apresentando os radicais considerados mais importantes para cada um dos clusters criados.

Figura 5-11 Resultado do clustering de E21B

A tabela 5.2 mostra quantos documentos foram selecionados em cada cluster e as palavras-chaves, que foram consideradas mais representativas do conjunto total de termos presente em cada cluster.

71

Cluster Num. de Patentes 1 106

Nome

Palavras-chave

Broca

broca;

perfurador;

cortador;

extremidade;

formao; fludo; ferramenta; incluir; inferior; durante. 2 216 Gs gs; produo; fluidos; gua; sistema; liquido; injeo; formao; bombeamento; reservatrio. 3 48 Rosca rosca; perfurao; extremidade; conexo;

vedao; seo; junta; formao; acoplamento; tubulares. 4 228 Perfurador perfurador; fluido; formao; disposio;

presso; sistema; sonda; ferramenta; lama; interior. 5 362 Vedao vedao; dispositivo; alojamento; superior; extremidade; posio; anel; presso; inferior; ferramenta. 6 222 Eletricidade sistema; fluido; sondagem; dispositivo;

formao; energia; sinal; presso; eletricidade; tubulao. 7 214 Vlvula vlvula; fluido, presso; sistema; linha;

ferramenta; produo; hidrulica; equipamento. 8 178 Plataforma estrutura; ascendente; flutuante; martimo; sistema; disposio; produo; plataforma; extremidade; instrumento. 9 173 Tubulao tubulao; extremidade; primeiro; formao; sistema; produo; fluido; disposio; segundo; vedao. 10 232 Fluidos fluido; formao; composio; aquoso;

tratamento; partcula; contedo; material; gua; perfurao.


Tabela 5-2 Documentos e palavras-chave dos clusters de E21B

72

Um termo foi selecionado para representar o cluster, como pode ser visto na tabela 5.2. Dessa forma, quando um cluster for citado ao longo do captulo, o mesmo ser referenciado pelo termo escolhido. Esse nome foi escolhido com base nos critrios: principal palavra-chave ou palavra-chave mais representativa ou conjunto de palavras mais representativas. Partindo desses resultados apresentados, pode-se analisar o significado dessas palavras-chave, levando em considerao o texto presente nos documentos clusterizados. A seguir, apresentado uma anlise de cada um dos clusters encontrados, juntamente de alguns ttulos de patentes escolhidos aleatoriamente dentro dos clusters, como forma de ilustrao do contedo do mesmo. As classificaes e os depositantes de maiores destaque dentro de cada cluster tambm foram analisados para efeito de melhor entendimento do resultado da clusterizao.

73

Cluster 1 - Broca Descrio do cluster:

Broca; perfurador; cortador; extremidade; formao; fludo; ferramenta; incluir; inferior; durante.
Ttulos pertencentes ao cluster:

Ttulo: Dispositivo de guiagem em operaes de perfurao de rocha, luva de guiagem e haste de broca

Ttulo: Cortadores giratrios para brocas de rocha Ttulo: Acoplador para circulao contnua de fluidos de perfurao atravs de um fio de broca, mtodo de adio ou remoo dos tubulares para e de um fio de broca, aparelho para perfurao na terra

Ttulo: Conepunho acoplvel para reaproveitamento das hastes de brocas integrais.

Ttulo: Broca de diamantes fungveis para sondas de arrasto

Classificaes de Destaque:

E21B 10/46: Brocas de Perfurao; caracterizadas pelas peas resistentes ao desgaste, por ex., com inseres de diamantes.

E21D: Poos, Tneis; Galerias; Cmaras subterrneas grandes

Depositantes de Destaque:

Down Hole Technologies PTY Ltd. (AU) Halliburton Energy Services, INC (US)

Concluso da anlise:

Broca para perfurao e corte (com formao de hastes inferiores e superiores e com escape de fluidos).

74

Cluster 2 - Gs Descrio do cluster:

Gs;

produo;

fluidos;

gua;

sistema;

liquido;

injeo;

formao;

bombeamento; reservatrio.
Ttulos pertencentes ao cluster:

Ttulo: Processo para recuperar hidrocarbonetos a partir de uma formao subterrnea por injeo de vapor contendo aditivo.

Ttulo: Dispositivo de injeo d'gua sob presso de crescente Ttulo: Processo para a recuperao de hidrocarbonetos de uma formao subterrnea, na ausncia de vapor de gua, usando-se um gs no-condensvel

Ttulo: Processo de bombeamento de mistura difsica lquido-gs num poo de extrao e dispositivo de aplicao do processo

Classificaes de Destaque:

E21B 43/12: Obteno de fluidos de poos; mtodo ou aparelho para controlar o fluxo do fluido obtido em poos.

E21B 43/34: aparelhos separadores. Disposies para separar materiais produzidos pelo poo

B01D: Processos ou aparelhos fsicos ou qumicos em geral. Separao.

Depositantes de Destaque:

Petroleo Brasileiro S.A. - Petrobras (BR/RJ) Shell Internationale Research Maatschappij B.V. (NL) Alpha Thames Ltd (GB).

Concluso da anlise:

Sistema de bombeamento para injeo de gua e fluidos quentes (vapor e gases) para perfurao, ou injeo de fluidos em poos de reservatrio de gua e/ou gs.

75

Cluster 3 - Rosca Descrio do cluster:

Rosca; perfurao; extremidade; conexo; vedao; seo; junta; formao; acoplamento; tubulares.
Ttulos pertencentes ao cluster:

Ttulo: Processo e dispositivo para realizao do aparafusamento de uma junta roscada para tubos de ao

Ttulo: Disposio em rosca para hastes perfuratrizes Ttulo: Conexo roscada e conduto tubular Ttulo: Acoplamento de rosca para hastes de perfurao a percusso

Classificaes de destaque:

E21B 17/042: Hastes ou tubos de perfurao; ferramentas flexveis de perfurao; hastes quadradas (kellies); comandos; hastes de suco; tubulao de revestimento; tubos de produo engates; juntas entre haste e broca ou entre haste e haste roscados.

F16L: Elementos ou unidades de engenharia; Medidas gerais para assegurar e manter o funcionamento efetivo de mquinas ou instalaes; Isolamento trmico em geral. Tubos; Juntas ou acessrios para tubos; Suportes para tubos ou cabos; Meios para isolamento trmico em geral.

Depositantes de Destaque:

Sandvik AB (SE) Petroleo Brasileiro S.A. - Petrobras (BR/RJ)

Concluso da anlise:

Acoplamento tubulares de roscas para perfurao e roscas macho e fmea para garantir vedao.

76

Cluster 4 - Perfurador Descrio do cluster:

Perfurador; fluido; formao; disposio; presso; sistema; sonda; ferramenta; lama; interior.
Ttulos pertencentes ao cluster:

Ttulo: Dispositivo e mtodo para tratamento de lama de perfurao recebida de um poo, sistema e dispositivo para perfurar um poo

Ttulo: Processo para a avaliao de fluidos de perfurao baseado na anlise termo-gravimtrica (tga)

Ttulo: Processo para otimizar a remoo de rebocos formados nas paredes de poos horizontais por fluidos de perfurao drill-in

Ttulo: Mtodo e aparelho para variao de densidade de fluidos de perfurao em aplicaes de perfurao de leo em guas profundas

Classificaes de destaque:

C09K: Corantes; Tintas; Polidores; Resinas naturais; Adesivos; Composies diversas; Diversas aplicaes de substncias. Substncias para aplicaes diversas, no includas em outro local.

E21B 21/00: Mtodos ou aparelhos para lavar furos de sondagem, por ex., pela utilizao do ar de exausto do motor

Depositantes de Destaque:

Shell Internationale Research Maatschappij B.V. (NL) Halliburton Energy Services, INC (US), sendo uma em parceria com Commonwealth Scientific And Industrial Research Organisation (AU)

Concluso da anlise:

Fluidos de perfurao (por presso) e ferramenta para tratamento de lama formada por perfurao em interiores.

77

Cluster 5 - Vedao Descrio do cluster:

Vedao; dispositivo; alojamento; superior; extremidade; posio; anel; presso; inferior; ferramenta.
Ttulos pertencentes ao cluster:

Ttulo: Conexo giratria com vedao metlica Ttulo: Aparelho de ferramenta de sondagem responsiva presso no anel e processo para sua operao

Ttulo: Conjunto de obturao para a vedao entre um mandril interno e um revestimento de poo, e aparelhagem para o assentamento de uma guia de sonda e para a alterao de perfurao atravs de um revestimento de poo com uma nica viagem da coluna de perfurao.

Ttulo: Dispositivos para vedao de vazamentos em coluna de produo de petrleo ou similares

Classificaes de destaque:

F16L: Elementos ou unidades de engenharia; Medidas gerais para assegurar e manter o funcionamento efetivo de mquinas ou instalaes; Isolamento trmico em geral. Tubos; Juntas ou acessrios para tubos; Suportes para tubos ou cabos; Meios para isolamento trmico em geral.

E21B 33/038: Vedao ou obturao de furos de sondagem ou de poos. Cabeas de poos; Sua fixao. Conectores utilizados sobre cabeas de poos, por ex., para conectar equipamentos preventivos de exploses e tubos ascendentes

Depositantes de Destaque:

Cooper Cameron Corporation (US) Halliburton Energy Services, INC (US)

Concluso da anlise:

Dispositivos de vedao, obturao e sondagem como anis de borracha e metal.

78

Cluster 6 - Eletricidade Descrio do cluster:

Sistema; fluido; sondagem; dispositivo; formao; energia; sinal; presso; eletricidade; tubulao.
Ttulos pertencentes ao cluster:

Ttulo: sistema para produzir fluidos a partir de duas zonas diferentes no interior de um furo de sondagem, para uso em um ambiente de furo de sondagem, para administrao de fluidos com respeito a uma pluralidade de zonas

Ttulo: processo e sistema para determinao do tamanho de um material penetrado no furo de sondagem e para determinao do tamanho de um furo de sondagem

Ttulo: dispositivo de furo de sondagem para controlar o fluxo de fluido atravs de um poo de produo de fluido de hidrocarboneto

Ttulo: processo de formao de um furo de sondagem e aparelho para realizao do processo

Classificaes de destaque:

E21B 47/12: Provas ou ensaios; Levantamento de furos de sondagem ou de. Meios para transmitir sinais de medio do poo para a superfcie, por ex., perfilagem durante a perfurao.

G01V: Fsica. Medio; Aferio. Meteorologia.

Depositantes de Destaque:

Shell Internationale Research Maatschappij B.V. (NL) Schlumberger Surenco S.A. (PA)

Concluso da anlise:

Dispositivos de furos de sondagem para administrao de fluidos (injeo, controle de fluxo e reteno). Sonda de transmisso, transferncia, medio e produo de energias e deteco de sinais de energia (por exemplo, eltrica, eletromagntica e outras).

79

Cluster 7 - Vlvula Descrio do cluster:

Vlvula; fluido, presso; sistema; linha; ferramenta; produo; hidrulica; equipamento.


Ttulos pertencentes ao cluster:

Ttulo: Vlvula para controle do fluxo de um conduto de transmisso de fluido em um poo subterrneo

Ttulo: Conjunto de sede de teste rpido, vlvula e mtodo para simultaneamente testar no campo a integridade de presso

Ttulo: Vlvula de presso aperfeioada Ttulo: Acionador rpido de vlvula e ferramenta que comporta uma vlvula Ttulo: Suspensor de tubos com vlvula esfera no orifcio anular

Classificaes de destaque:

E21B 43/06: Mtodos ou aparelhos para obter leo, gs, gua, matrias solveis ou fundveis ou de lama minerais de poos

F16K: Engenharia Mecnica; Iluminao; Aquecimento; Armas; Exploso. Elementos ou unidades de engenharia; medidas gerais para assegurar e manter o funcionamento efetivo de mquinas ou instalaes; isolamento trmico em geral. Vlvulas; torneiras; registros; bias de acionamento; dispositivos para ventilar ou arejar.

Depositantes de Destaque:

Petrleo Brasileiro S.A. - Petrobras (BR/RJ) Halliburton Energy Services, INC (US)

Concluso da anlise:

Vlvula de pressurizao de fluidos.

80

Cluster 8 - Plataforma Descrio do cluster:

Estrutura; ascendente; flutuante; martimo; sistema; disposio; produo; plataforma; extremidade; instrumento.
Ttulos pertencentes ao cluster:

Ttulo: Sistema com uma estrutura de guia para tubos ascendentes de produo de petrleo; estrutura de guia para tubos ascendentes; elementos de flutuao de tubos ascendentes e uma plataforma de produo semi-submersvel

Ttulo: Estrutura de torre para plataforma submarina Ttulo: Estrutura de torre e construo para sustentar plataforma martima Ttulo: Arranjo em uma unidade de flutuao de suporte, plataforma e processo para fabricar uma plataforma

Classificaes de destaque:

E21B 17/01: Hastes ou tubos de perfurao; Ferramentas flexveis de perfurao; Hastes quadradas (Kellies); Comandos; Hastes de suco; Tubulao de revestimento; Tubos de produo. Tubos ascendentes

B63b: operaes de processamento; transporte. Navios ou outras embarcaes; Equipamento correlato.

Depositantes de Destaque:

Petroleo Brasileiro S.A. - Petrobras (BR/RJ) Institut Francais du Petrole (FR)

Concluso da anlise:

Estrutura flutuante para plataformas martimas.

81

Cluster 9 Tubulao Descrio do cluster:

Tubulao; extremidade; primeiro; formao; sistema; produo; fluido; disposio; segundo; vedao.
Ttulos pertencentes ao cluster:

Ttulo: Tubulao para produo de petrleo/gs e processos para coleta de petrleo/gs produzido a partir de pelo menos um poo de produo, para teste da produo de um poo de petrleo/gs e para limpeza por raspagem de um primeiro e um segundo oleodutos de produo de petrleo/gs

Ttulo: dispositivo de acoplamento para permitir o acoplamento estanque a fluido de extremidades opostas de um primeiro e um segundo elementos substancialmente tubulares, e, processo para acoplar entre si as extremidades opostas de um primeiro e um segundo elementos substancialmente tubulares

Ttulo: mtodo para bloqueio monitorado por sensor de explosividade para manuteno em tubulaes de transporte de fluidos inflamveis

Classificaes de destaque:

E21B 43/10: Mtodos ou aparelhos para obter leo, gs, gua, matrias solveis ou fundveis ou de lama minerais de poos. Colocao ou fixao de tubos de revestimento, peneiras (ou filtros) ou tubos auxiliares de revestimento em poos.

F16L: Elementos ou unidades de engenharia; Medidas gerais para assegurar e manter o funcionamento efetivo de mquinas ou instalaes; Isolamento trmico em geral. Tubos; Juntas ou acessrios para tubos; Suportes para tubos ou cabos; Meios para isolamento trmico em geral.

Depositantes de Destaque:

Shell Internationale Research Maatschappij B.V. (NL) Halliburton Energy Services, INC (US)

Concluso da anlise:

Tubulaes para transporte e vedao de fluidos.

82

Cluster 10 Fluidos Descrio do cluster:

Fluido; formao; composio; aquoso; tratamento; partcula; contedo; material; gua; perfurao.
Ttulos pertencentes ao cluster:

Ttulo: Aditivo para adio a um fluido de tratamento de poos, composio de tratamento de poos em microemulso externa de cido e/ou gua, fluido de fraturamento de espuma e processo para o tratamento de uma formao subterrnea

Ttulo: fluido viscoso aplicvel para tratamento de formaes subterrneas Ttulo: Processo para preparar um copolmero adequado para uso como aditivo para fluido de perfurao ou similar; preparar um fluido de perfurao; perfurar um furo de sonda na terra.

Ttulo: Processo de acabamento ou manuteno de um poo e fluido de perfurao de poo no aquoso isento deslidos

Classificaes de destaque:

C09K: Corantes; Tintas; Polidores; Resinas naturais; Adesivos; Composies diversas; Diversas aplicaes de substncias. Substncias para aplicaes diversas, no includas em outro local.

E21B 37/06: Mtodos ou aparelhos para limpar furos de sondagem ou poos utilizando meios qumicos para impedir ou limitar a deposio de parafinas ou de substncias similares.

Depositantes de Destaque:

Sofitech N.V (BE) Halliburton Energy Services, INC (US) sendo uma em parceria com Pinnacle Technologies, INC. (US) e outra com o Institut Francais Du Petrole (FR)

Concluso da anlise:

Fluidos de composio aquosa para tratamento de formaes subterrneas e para perfurao. 83

Dos resultados apresentados pela ferramenta, pode-se notar que os clusters possuem significados bem definidos o que os diferenciam uns dos outros.

5.4.1.1 E21B Temis

Tal como foi realizado no teste realizado com a ferramenta anterior, o mdulo IDC foi executado criando 10 clusters a partir das 1979 patentes que possuam o campo RESUMO. A Tabela 5.3 mostra o nmero de documentos agrupados em cada clusters, tal como o termo escolhido para representa-lo e o conjunto de palavras mais representativas. O termo representativo foi escolhido com base na palavra que melhor representa cada conjunto, seguido do termo _Temis, para diferenciar os clusters semelhantes aos encontrados anteriormente.

84

Cluster

Nm. de Patentes

Nome

Palavras-chave

266

Rosca_Temis

elemento; tubular; vedao; membro; rosca; corpo; anel; interno; superfcie; externo.

243

Vlvula_Temis

vlvula; presso;

orifcio;

controle; fluxo;

rvore; linha;

passagem;

hidrulico; alojamento 3 232 Perfurao_Temis furo; sondagem; perfurao; ferramenta; poo; fluido; formao; mtodo; coluna; sistema 4 223 Flutuante_Temis tubo; flutuante; ascendente; revestimento; coluna;

perfurao;

dispositivo; extremidade; suporte; poo 5 223 Gs_Temis gs; petrleo; gua; produo; bomba; reservatrio; leo; injeo; poo; fase 6 214 Fluidos_Temis composio; agente; subterrneo; formao; cido;

tratamento;

aquoso;

fluido; cimento; gua 7 193 Broca_Temis broca; haste; perfurao; corte; eixo; elemento; rotativo; corpo; extremidade; cortante 8 156 Eletricidade_Temis tubulao; energia; sinal; eltrico; dado; sistema; poo; cabo; sensor; dispositivo 9 151 Plataforma_Temis estrutura; conduto; plataforma; mar; submarino; navio; parte; linha; guia; suporte 10 78 Tela_Temis tela; lama; cascalho; filtro; densidade; intervalo; perfurao; areia; partcula; poo
Tabela 5-3 Resultado da ferramenta Temis para a base E21B

85

Comparando os resultados obtidos por Temis e os resultados citados anteriormente pode-se destacar alguns pontos de semelhanas entre os cluster criados. A figura 5.12 apresenta a proporo de documentos coincidentes em cada cluster. Como por exemplo, o cluster Broca possui 0% de documentos semelhantes ao cluster Rosca_temis, 0% do cluster Vlvula_Temis, 3,7% do cluster

Perfurador_Temis, e assim sucessivamente, tal como o cluster Gs possui 0,4% de documentos sumelhantes com o cluster Rosca_Temis, etc.

100 90 80 70 60 50 40 30 20 10 0 Broca Gs Ros ca_Tem is Fluidos _Tem is Ros ca Perfurao Vedao Eletricidade Vlvula Plataform a Tubulao Fluidos

Vlvula_Tem is Broca_Tem is

Perfurador_Tem is Eletricidade_Tem is

Flutuante_Tem is Plataform a_Tem is

Gs _Tem is Tela_Tem is

Figura 5-12 Grfico de comparao da ferramenta implementada e Temis para E21B

Pode-se observar que: O cluster Broca encontrado pela ferramenta de minerao de patentes, tem 92% de seus documentos presentes no cluster Broca_Temis. O cluster Gs possui 75% de documentos coincidentes com o cluster Gs_Temis. O cluster Rosca possui 64% de documentos coincidentes com o cluster Rosca_Temis. O cluster Perfurao possui 44% dos seus documentos presentes no cluster Perfurao_Temis. O cluster Vedao possui 40% dos seus documentos presentes no cluster Rosca_Temis.

86

O cluster Eletricidade coincide 48% de seus documentos com o cluster Eletricidade_Temis, e em menor proporo, 28% com o cluster Perfurador_Temis, indicando o uso de eletricidade para mtodos e sistemas de perfurao.

O cluster Vlvula coincide 63% dos seus documntos com o cluster Vlvula_Temis.

O cluster Plataforma coindice 49% de seus documentos com o cluster Plataforma_Temis, e 41% com o cluster Flutuante_Temis.

Cluster

Tubulao

possui

maior

semelhana

com

cluster

Rosca_Temis. Como o cluster Rosca_Temis foi aquele que possui maior nmero de documentos agrupados, encontra-se distribuido em trs clusters diferentes da ferramenta. O cluster Fluidos coincide 84% com o clustr Fluidos_Temis..

O cluster Tela_Temis no coincide fortemente com nenhum dos clusters encontrados pela ferramenta. Apesar de alguns termos encontrados em ambas as clusterizaes serem diferentes, o significado dos clusters podem ser considerados semelhantes para aqueles que apresentaram proporo de similaridade alta. Essa diferena se deve ao fato de cada ferramenta possuir uma diferente tcnica computacional de busca por palavras-chave.

5.4.1.2 E21B Statistica

A ferramenta Statistica encontrou um total de 863 termos nos 1979 documentos, utilizando a mesma lista de StopWords da ferramenta implementada, e a opo Stemming language configurada para o idioma portugus, presente na prpria ferramenta Statistica. A funo de freqncia inversa dos documentos foi utilizada como clculo estatstico das ocorrncias dos termos.

87

Cluster Nm. de Patentes 1 282

Nome

Palavras-chave broca; extremidade; haste; perfurador;

Broca_Rosca_Statistica

elemento; tubo; eixo; rotativo; rosca; interno. ascendente; mar; estrutura; tubulao; instalao;

193

Plataforma_Statistica

submarino;

plataforma; flutuante; linha; leito. Perfurao__Vlvula_ Statistica perfurao; sistema; dispositivo; poo; controle; inveno; submarino;

530

vlvula; fluido; processo. furo; revestimento; aparelho; poo;

187

Revestimento_Statistica tubulao;

mtodo;

sondagem;

primeiro; perfurao; coluna. gs; separador; liquido; produo; 5 164 Gs_Statistica reservatrio; gua; injeo; leo;

petrleo; hidrocarboneto. composio; cido; agente; formao; 6 197 Fluidos_Statistica subterrneo; aquoso; gua; tratamento; aditivo; composto. dado; determinar; medida; medio; 7 144 Sinal_Statistica formao; sinal; sensor; sinal; furo; parmetro. vedao; vlvula; alojamento; anel; 8 193 Vedao_Statistica corpo; orifcio; posio; extremidade; anular; passagem. tela; cascalho; areia; intervalo; tubo; 9 27 Tela_Statistica fluxo; enchimento; furo; membro; poo. energia; 10 62 Eletricidade_Statistica eltrica; eletricidade;

condutor; cabo; tubulao; petrleo; corrente; comunicao; controle.

Tabela 5-4 - Resultado da ferramenta Statistica para a base E21B

88

A figura representa o grfico de documentos coincidentes entre os clusters encontrados pela ferramenta e os do Statistica.
100 80 60 40 20 0
a de a a Fl ui do Br oc os c af or m id a s

tri c

El e

Broca_Rosca_Statistica Revestimento_Statistica Sinal_Statistica Eletricidade_Statistica

Plataforma_Statistica Gs_Statistica Vedao_Statistica

Figura 5-13 Grfico de comparao da ferramenta implementada e Statistica para E21B

Pode-se observar: O cluster Broca possui 67% de seus documentos incluidos no Broca_Rosca_Statistica; O cluster Gs possui 65% de seus documentos incluidos no cluster Gs_Statistica; O cluster Rosca possui 65% de seus documentos incluidos no cluster Broca_Rosca_Statistica. O fato do cluster Broca_Rosca_Statistica possuir um nmero alto de documentos, acumula documentos de dois clusters distintos dos encontrados pela primeira ferramenta testada; O cluster Perfurao possui 33% de seus documentos presentes no cluster Perfurao_Vlvula_Statistica; O cluster Vedao possui 30% de seus documentos presentes no cluster Vedao_Statistica; O cluster Eletricidade possui 45% de seus documentos presentes no cluster Sinal_Statistica, 24% no cluster Perfurao_Vlvula_Statistica e apenas 23% no cluster Eletricidade_Statistica;

89

Pl

at

Perfurao_Vlvula_Statistica Fluidos_Statistica Tela_Statistica

O cluster Vlvula possui 43% de seus documentos presentes no cluster Perfurao_Vlvula_Statistica;

O cluster Plataforma possui 66% de seus documentos presentes no cluster Plataforma_Statistica;

O cluster Tubulao possui 35% de seus documentos presentes no cluster Revestimento_Statistica;

O cluster Fluidos possui 78% de seus documentos presentes no cluster Fluidos_Statistica.

O cluster Tela_Statistica no coincide fortemente com nenhum dos clusters comparados, porm apresenta grande semelhana com o cluster Tela_Temis, encontrado pelo mdulo IDC.

90

5.4.2 Base Petrleo

Os textos contidos nos campos RESUMO presente nos documentos das patentes que possuem o termo Petrleo foram clusterizados em 7 diferentes clusters atravs da ferramenta desenvolvida para a presente dissertao. A partir dos resultados obtidos por ambas as bases, que se referem s patentes depositadas entre 1996 e 2000 e s patentes depositadas entre 2001 e 2005, possvel realizar comparaes e anlises para identificar as tendncias e mudanas ocorridas no desenvolvimento industrial e tecnolgicos das reas relacionadas ao tema. Os resultados de cada uma das duas bases so ainda comparados com aqueles encontrados pelas ferramentas Temis e Statistica, utilizando o mesmo nmero de clusters.

5.4.2.1

Clustering de Patentes de 1996 a 2000

O resultado da clusterizao da base de dados que compreende aos anos de 1996 a 2000 pode ser visualizado na Figura 5-14. Na tela de resultados da ferramenta de clusterizao de patentes esto disponveis os nomes dos documentos de patentes agrupados e os radicais das palavras consideradas mais importantes em cada cluster.

91

Figura 5-14 Clusterizao da base de dados com o termo Petrleo de 1996 a 2000

O nmero de patentes encontradas em cada cluster e as palavras-chave de cada um deles pode ser visualizado na Tabela 5-5. A cada cluster, foi dado um nome que melhor represente o assunto principal contido nas patentes agrupadas. Esse nome foi dado seguindo algum dos critrios: termo mais significativo ou conjunto de termos que melhor definem o significado do cluster.

92

Cluster

Nm. de Patentes

Nome

Palavras-chave

30

GLP

Gs; produo; glp; disposio; botijo; dois; presso; equipamento; sistema; temperatura.

40

Aditivo

Combustvel; derivar; componente; aditivo; fluido; frao; perfurao; formao; combusto; liquido.

32

Flutuante

Produo; estrutura; flutuante; reservatrio; sistema; disposio; fluido; tubulao; guia; presso.

35

Mistura

gua; fluido; formao; composio; contedo; presso; aquoso; sistema; telha; mistura.

20

Vedao

Vedao; roda; gs; produo; obturao; mecanismo; presso; fluido; anel; ancoragem.

44

Gs

Sistema; gs; gua; presso; liquido; produo; formao; fluido; conexo; presente.

25

Alimentao

Contedo; alimentao; metal; zona; formao; carga; corrente; material; produo; sistema.

Tabela 5-5 Resultado da ferramenta desenvolvida para a base Petrleo (1996 a 2000)

Uma anlise em cada um dos clusters resultantes foi realizada, observando os ttulos presentes nas patentes agrupadas, as classificaes que mais se destacam, os depositantes mais ativos naquela rea, e uma anlise dos significados das palavraschave encontradas.

93

Cluster 1 GLP Descrio do cluster:

Gs; produo; GLP; disposio; botijo; dois; presso; equipamento; sistema; temperatura
Ttulos pertencentes ao cluster:

Ttulo: Medidor de gs liquefeito de petrleo (glp), residencial e industrial Ttulo: Vaporizador termo-eltrico de gs liquefeito de petrleo (glp) para uso em instalaes de mdias e grandes vazes

Ttulo: Processo aperfeioado para o fornecimento de gs liquefeito de petrleo Ttulo: Detector de gs Ttulo: Equipamento e processo para venda automtica de botijes de gs liquefeito de petrleo.

Classificaes de destaque:

E21B 43/12: Obteno de fluidos de poos. Mtodos ou aparelhos para obter leo, gs, gua, matrias solveis ou fundveis ou de lama minerais de poos. Mtodos ou aparelhos para controlar o fluxo do fluido obtido para ou em poos

Depositantes de Destaque:

Elf Exploration Production (FR) Petroleo Brasileiro S.A. - Petrobras (BR/RJ)

Concluso da anlise:

Produo, medio e vaporizao de GLP (Gs Liquefeito de Petrleo).

94

Cluster 2 Aditivo Descrio do cluster:

Combustvel; derivar; componente; aditivo; fluido; frao; perfurao; formao; combusto; liquido.
Ttulos pertencentes ao cluster:

Ttulo: Mtodo para separar os elementos componentes de uma disperso Ttulo: Aditivo para gs liquefeito de petrleo (g.l.p.), a usar em motores de combusto interna.

Ttulo: Aditivo para gs liquefeito de petrleo usado, em fornos cermicos, como combustvel.

Ttulo: Controle automtico de razo entre vazo em sistema de combusto a oxignio e gases combustveis

Classificaes de destaque:

C10L 1/22: Combustveis no includos em outro local gs natural; Gs natural de sinttico obtido por processos no abrangidos pelas subclasses c 10 g, k; Gs liquefeito de petrleo; Adio de substncias a combustveis ou ao fogo para reduzir fumaa ou depsitos indesejveis ou para facilitar a remoo de fuligem; Acendedores de fogo. Combustveis carbonceos lquidos contendo nitrognio.

Depositantes de Destaque:

Petrleo Brasileiro S.A. - Petrobras (BR/RJ) COMPANHIA ULTRAGAZ S/A. (BR/SP)

Concluso da anlise:

Tcnicas de produo de combustveis derivados de petrleo e utilizao de outros componentes para esse fim, como por exemplo, aditivo.

95

Cluster 3 Flutuante Descrio do cluster:

Produo; estrutura; flutuante; reservatrio; sistema; disposio; fluido; tubulao; guia; presso.
Ttulos pertencentes ao cluster:

Ttulo: Mtodo e dispositivo para estabilizao da produo de poos de petrleo

Ttulo: Mtodo e aparelhagem para escoamento da produo submarina de petrleo

Ttulo: Estrutura flutuante poligonal para uso no mar alto

Classificaes de destaque:

E21B 43/013: Mtodos ou aparelhos para obter leo, gs, gua, matrias solveis ou fundveis ou de lama minerais de poos especialmente adaptados para a obteno por meio de instalaes subaquticas. Ligando uma linha de fluxo de produo a uma cabea de poo sob gua.

E21B 33/038: Vedao ou obturao de furos de sondagem ou de poos. Cabeas de poos; Sua fixao. Conectores utilizados sobre cabeas de poos, por ex., para conectar equipamentos preventivos de exploses e tubos ascendentes

E21B 17/01: Hastes ou tubos de perfurao; Ferramentas flexveis de perfurao; Hastes quadradas (Kellies); Comandos; Hastes de suco; Tubulao de revestimento; Tubos de produo. Tubos ascendentes

E21B 34/00: Disposies para vlvulas utilizadas em furos de sondagem ou poos

Depositantes de Destaque:

Petrleo Brasileiro S.A. - Petrobras (BR/RJ)

Concluso da anlise:

Mtodos e sistemas para a produo de petrleo atravs de estruturas flutuantes e utilizando tubulaes. 96

Cluster 4 Mistura Descrio do cluster:

gua; fluido; formao; composio; contedo; presso; aquoso; sistema; telha; mistura.
Ttulos pertencentes ao cluster:

Ttulo: Fluidos de poo de escavao de petrleo baseado na gua Ttulo: Sistema de remoo de sedimentos Ttulo: Unidade de separao leo-gua Ttulo: Composio qumica; microemulso, mtodo para preparar uma composio para limpeza de poo, microemulsificada; mtodo para limpar e umedecer com gua cortes removidos a partir de poos de petrleo, bem como mtodos para limpar um poo de petrleo

Classificaes de destaque:

E21B 37/06: Mtodos ou aparelhos para limpar furos de sondagem ou Poos utilizando meios qumicos para impedir ou limitar a deposio de parafinas ou de substncias similares

Depositantes de Destaque:

Sofitech N.V (BE) Hercules Incorporated (US)

Concluso da anlise:

Trata-se de misturas de contedos aquosos e outros fluidos.

97

Cluster 5 Vedao Descrio do cluster:

Vedao; roda; gs; produo; obturao; mecanismo; presso; fluido; anel; ancoragem.
Ttulos pertencentes ao cluster:

Ttulo: Conjunto de vedao Ttulo: Obturador para poos de petrleo Ttulo: Obturador removvel de segregao de trechos de poos de petrleo para teste seletivo em poos revestidos

Ttulo:Isqueiro gs.

Classificaes de destaque:

F23Q 2/46: Engenharia mecnica; iluminao; aquecimento; armas; exploso aparelhos de combusto; processos de combusto. Ignio; Dispositivos extintores Isqueiros contendo combustvel, por ex., para cigarros. Rodas de frico; Disposio das rodas de frico.

F23Q 2/16: Engenharia mecnica; iluminao; aquecimento; armas; exploso. Aparelhos de combusto; processos de combusto. Ignio; Dispositivos extintores. Isqueiros contendo combustvel, por ex., para cigarros. Isqueiros com combustvel gasoso, por ex., sendo o gs armazenado em estado lquido.

E21B 33/12: Vedao ou obturao de furos de sondagem ou de poos no furo de sondagem. Obturadores; Tampes.

Depositantes de Destaque:

Cricket (FR) Weatherfod Industria e Comrcio Ltda (BR/RS)

Concluso da anlise:

Obturador de poos de petrleo e isqueiros gs.

98

Cluster 6 Gs Descrio do cluster:

Sistema; gs; gua; presso; liquido; produo; formao; fluido; conexo; presente
Ttulos pertencentes ao cluster:

Ttulo: Tratamento de guas residuais contaminadas com petrleo atravs de misturador/decantador inverso de fases

Ttulo: Separador de gs dotado de controle automtico de nvel Ttulo: Equipamento para coletagem de leo e derivados de petrleo da superfcie da gua

Ttulo: Separador-bomba centrfugo bifsico de baixa taxa de cisalhamento Ttulo: Mtodo e aparelho para filtrao, desgaseificao, desidratao e remoo de produtos de envelhecimento em leos de petrleo

Classificaes de destaque:

E21B 43/00: Mtodos ou aparelhos para obter leo, gs, gua, matrias solveis ou fundveis ou de lama minerais de poos.

Depositantes de Destaque:

Petrleo Brasileiro S.A. - Petrobras (BR/RJ)

Concluso da anlise:

Sistemas para separar gua e gs liquefeito de petrleo.

99

Cluster 7 Alimentao Descrio do cluster:

Contedo; alimentao; metal; zona; formao; carga; corrente; material; produo; sistema.
Ttulos pertencentes ao cluster:

Ttulo: Processo para preparar coque de qualidade de anodo a partir de uma carga de alimentao de resduo de petrleo contendo contaminantes de metal e enxofre

Ttulo: Processo para converter cargas de alimentao de petrleo ebulindo na faixa de resduos em produtos de ponto de ebulio mais baixo

Ttulo: Processo para a reduo da quantidade de cidos carboxlicos em correntes de petrleo

Ttulo: Processo para preparar coque de qualidade de anodo a partir de uma carga de alimentao de resduo de petrleo contendo contaminantes de metal e enxofre

Classificaes de destaque:

C07C 7/148: Qumica Orgnica. Compostos acclicos ou carbocclicos. Purificao; Separao; Estabilizao; Uso de aditivos por tratamento que origine modificao qumica de pelo menos um composto

C08F 240/00: Compostos macromoleculares orgnicos; sua preparao ou seu processamento qumico; composies baseadas nos mesmos. Compostos macromoleculares obtidos por reaes compreendendo apenas ligaes insaturadas carbonocarbono. Copolmeros de compostos tendo uma ou mais ligaes triplas carbono-carbono

Depositantes de Destaque:

Exxon Research And Engineering Company (US)

Concluso da anlise:

Processos e materiais para cargas de alimentao de petrleo e remoo de metal.

100

5.4.2.2 Petrleo (1996 a 2000) Temis

A seguir apresentado na Tabela 5-6 a relao de palavras-chave encontradas pelo mdulo IDC para a base de dados composta de patentes depositadas entre os anos 1996 a 2000 e que continham o termo petrleo no seu RESUMO. A tabela mostra ainda o nmero de documentos agrupados em cada cluster, do total de 226 documentos encontrados. O nome dado ao cluster foi escolhido de acordo com o termo que melhor representa o mesmo, seguido do termo _Temis.

Cluster

Nm. de Patentes

Nome

Palavras-chave

43

Gs_Temis

fase;

poo;

mtodo;

escoamento;

gs;

produo; hidrocarbonetos; linha; fluido; etapa. 2 39 Alimentao _Temis 3 35 Flutuante _Temis 4 30 Vedao _Temis 5 28 GLP_Temis cido; metal; composio; carga; cimento; processo; alimentao; resinar; conter; referir. tubo; conexo; cabo; flutuante; estrutura; navio; submarino; assessor; elemento; interno. coluna; bomba; vedao; poo; elemento; bombear; camisa; sistema; duplo; areia. gs; GLP; recipiente; roda; vlvula; liquefazer; botijo; segurana; automtico; regulador. 6 26 Proteo _Temis 7 25 Aditivo _Temis gua; derivar; leo; tanque; produto; proteo; rocha; alumnio; pena; equipamento. combustvel; motor; aditivo; soluo; tomo; lcool; forno; veculo; marcador; composto.

Tabela 5-6 Resultado da ferramenta Temis para a base Petrleo (1996 a 2000)

101

O grfico da figura 5.15 apresenta a proporo de documentos coincidentemente agrupados nos resultados apresentados pela ferramenta e os resultados de Temis.

60 50 40 30 20 10 0 GLP Aditivo Flutuante Mistura Vedao Gs Alimentao

Gs_Temis GLP_Temis

Alimentao_Temis Proteo_Temis

Flutuante_Temis Aditivo_Temis

Vedao_Temis

Figura 5-15 Grfico de comparao da ferramenta implementada e Temis para petrleo (1996 a 2000)

De acordo com o grfico de comparaes dos resultados, pode-se observar que: O clusters GLP possui 50% de documentos coincidentes com o cluster GLP_Temis; O cluster Aditivo possui 45% de documentos coincidentes com o cluster Aditivo_Temis; O cluster Flututante possui 34% de documentos coincidentes com o cluster Flututante_Temis; O cluster Mistura possui 40% de documentos coincidentes com o cluster Alimentao_Temis; O cluster Vedao possui 30% de documentos coincidentes com o cluster Vedao_Temis e 25% de documentos coincidentes com os clusters Flutuante_Temis e GLP_Temis. O cluster Gs possui 39% de documentos coincidentes com o cluster Gs_Temis;

102

E o cluster Alimentao possui 56% de documentos coincidentes com o cluster Alimentao_Temis. A relao de documentos coincidentes se apresenta com uma proporo alta,

formando clusters bem definidos e semelhantes. Porm, o cluster Proteo_Temis no se destacou na ferramenta anterior, estando oculto dentro de outros clusters.

5.4.2.3 Petrleo (1996 a 2000) Statistica

A ferramenta Statistica encontrou no seu pr-processamento 712 termos (radicais) relevantes no total de 226 documentos a serem clusterizados, utilizando a mesma lista de StopWords utilizada pela ferramenta anterior. Do total de termos, aqueles que no se encontravam presentes em pelo menos 1% do total de documentos foram retirados do processo de clusterizao. O algoritmo de clusterizao utilizado foi o k-means, utilizando o mesmo nmero de clusters usado nos testes anteriores da presente base de dados. Na tabela 5.7 apresentado o nmero de documentos agrupados, o nome dado aos clusters, seguido do termo _Statistica e o conjunto de palavras-chave que a ferramenta considerou mais importante para a clusterizao.

103

Cluster

Nm. de Patentes

Nome

Palavras-chave

115

Flutuante _Statistica

Poo;

tubo;

gs;

sistema;

bombeamento;

separador; gua; flutuante; fluido; produo. Vedao; vlvula; roda; obturao; ancoragem; coluna; produo; poo; fase; injeo. Fluxo; monitor; sensor; presso; medio; sintese; fluido; vazamento; diferencial; central. Decantar; cmara; funcionamento; leito;

14

Vedao _Statistica

12

Vazamento _Statistica

12

Separador _Statistica

condio; separador; orgnico; interface; diesel; mistura.

62

Aditivo _Statistica

Decomposio; cido; continuo; partcula; peso; processo; aditivo; resduo; leo; soluo. Zona; abaixo; corrente; kpa; cataltico; reator; parcial; alimentao; referente; ascendente. Botijo; segurana; liquefeito; gs; glp; recipiente;

Alimentao _Statistica

15

GLP _Statistica

vaporizao;

desenvolvimento;

recebimento; eltrico.
Tabela 5-7 Resultado da ferramenta Statistica para a base Petrleo (1996 a 2000)

Na figura 5.16 apresentado o grfico de propores de documentos clusterizados coincidentemente pela ferramenta implementada e Statistica. O fato do Statistica ter agrupado a maioria dos documentos em um nico cluster fez com que vrios grupos encontrados anteriormente se distribussem ao longo de apenas 2 grupos: Flutuante_Statistica e Aditivo_Statistica.

104

80 70 60 50 40 30 20 10 0 GLP Aditivo Flututante_Statistica Aditivo_Statistica Flutuante Mistura Vedao Vazamento_statistica GLP_Statistica Gs Alimentao

Vedao_Statistica Alimentao_Statistica

Separador_Statistica

Figura 5-16 Grfico de comparao da ferramenta implementada e Statistica para petrleo (1996 a 2000)

Pode-se notar que: O cluster GLP apresentou 33% de seus documentos coincidentes com o cluster GLP_Statistica; O cluster Vedao apresentou 25% de documentos coincidentes com o cluster Vedao_Statistica; O cluster Alimentao apresentou 16% de documentos coincidentes com o cluster Alimentao_Statistica. Os demais clusters no apresentaram tamanha semelhana, pelo fato da distribuio realizada pelo Statistica ocorrer de forma diferente. Essa ferramenta foi capaz de encontrar os dois conjuntos maiores de assuntos relacionados s patentes, ou seja, mtodos e aparelhos para flutuao e alguns aditivos, e encontrou ainda algumas patentes que se diferenciam das demais como os clusters Vazamento e Separador.

5.4.2.4

Clustering de Patentes de 2000 a 2005

A tela de resultados do processamento das patentes depositadas entre os anos de 2001 e 2005 pode ser visualizado na Figura 5-17. A tela apresenta os nomes dos documentos de patentes agrupados e os radicais das palavras consideradas mais importantes em cada cluster.

105

Figura 5-17 Clusterizao da base de dados com o termo Petrleo de 2001 a 2005

Na Tabela 5-8 apresentado o nmero de documentos agrupados em cada cluster e as palavras-chave que descrevem cada um deles.

106

Cluster

Nm. de Patentes

Nome

Palavras-chave

49

Composio Composio;

gs;

derivados;

formao;

mistura; contedo; presena; Fischer-Tropsch; natural; gua. 2 43 Alimentao Alimentao; combustvel; catalisador

produo; incluso; mistura; relacionamento; mudana; lubrificantes; total 3 40 Tratamento Tratamento; contedo; liquido; corrente;

carga; matria; presso; gs; temperatura; fibra 4 56 Gs Gs; sistema; vlvula; produo; injeo; fluido; presso; formao; equipamento; sada 5 13 Corante Lquido; marcao; corante; dieletro; alquila; independente; mximo; absoro;

substituio; antraquinona 6 77 Plataforma gua; produo; sistema; mar; camada; flutuante; inferior 7 41 Energia Dispositivo; sistema; tubulao; energia; plataforma; superior; presso;

corrente; eletricidade; estrutura; comunicao; gs; fluido


Tabela 5-8 Resultado da ferramenta desenvolvida para a base Petrleo (2001 a 2005)

A seguir apresentada uma descrio do contedo presente em cada um dos clusters encontrados, o que inclui as palavras-chave, alguns ttulos escolhidos aleatoriamente para a ilustrao da consistncia dos clusters, as classificaes mais relevantes entre as patentes, os depositantes que mais atuam no conjunto de patentes depositadas e uma concluso resumida sobre o contedo das documentos pertencente a cada cluster, obtida atravs de interpretao dos RESUMOS.

107

Cluster 1 Composio Descrio do cluster: Composio; gs; derivados; formao; mistura; contedo;

presena; Fischer-Tropsch; natural; gua.


Ttulos pertencentes ao cluster:

Ttulo: Material de sustentao de poos de gs e de petrleo, composio e mtodo de formao respectivos e mtodos de aumento da permeabilidade de uma fratura de poo de gs ou de petrleo

Ttulo: Processos para a fabricao de uma matria-prima bsica de lubrificantes e para receber um produto fischer-tropsch de gs natural convertido, e, mtodo para a fabricao de produtos de hidrocarbonetos a partir de campos remotos de gs natural

Ttulo: Mtodo de inibio da oxidao de um produto de fischer-tropsch, e, produto hidrocarbonceo misturado

Ttulo: Composies de fluido de perfurao biodegradvel base de leo e processo de perfurao de poos de petrleo e gs

Classificaes de destaque:

C09K 7/00: Corantes; tintas; polidores; resinas naturais; adesivos; composies diversas; diversas aplicaes de substncias. Substncias para aplicaes diversas, no includas em outro local. Composies para perfurao de poos.

Depositantes de Destaque:

Petrleo Brasileiro S.A. - Petrobras (BR/RJ)

Concluso da anlise:

Utilizao de produtos e derivados de Fischer-Tropsch para formao e mistura de combustvel, petrleo e gs natural.

108

Cluster 2 Alimentao

Esse cluster representa uma srie de patentes depositadas pela empresa Shell Internationale Research Maatschappij B.V. (NL), e se diferenciam, no geral, apenas por algumas classificaes.
Descrio do cluster:

Alimentao;

combustivel;

catalisador

produo;

incluso;

mistura;

relacionamento; mudana; lubrificantes; total


Ttulos pertencentes ao cluster:

Ttulo: Mtodos de produzir um produto de petrleo bruto e combustvel de transporte, combustvel de aquecimento, lubrificantes ou substncias qumicas, e, produto de petrleo bruto

Ttulo: Mtodos de produzir um catalisador de sulfeto de metal de transio, um produto de petrleo bruto e combustvel de transporte, combustvel de aquecimento, lubrificantes ou substncias qumicas, catalisador de sulfeto de metal de transio, e, produto de petrleo bruto

Classificaes de destaque:

C10G: Craqueamento de leos de hidrocarboneto;

Produo de misturas

lquidas de hidrocarboneto; Recuperao de leos de hidrocarboneto a partir de xisto betuminoso, arenito olefero, ou gases; Refinao de misturas constitudas principalmente de hidrocarboneto; Reforma de nafta; Ceras minerais C10G 49/00: Tratamento de leos de hidrocarboneto, na presena de

hidrognio ou de compostos geradores de hidrognio. C10G 49/26: Controle ou regulagem C10G 65/00: Tratamento de leos hidrocarbonetos apenas por dois ou mais processos de hidrotratamento
Depositantes de Destaque:

Shell Internationale Research Maatschappij B.V. (NL)

Concluso da anlise:

Mtodos e produtos de produo de combustveis, lubrificantes, substancias qumicas, produto de petrleo bruto e catalisadores.

109

Cluster 3 Tratamento Descrio do cluster:

Tratamento; contedo; liquido; corrente; carga; matria; presso; gs; temperatura; fibra
Ttulos pertencentes ao cluster:

Ttulo: Material em ao com superfcie tratada, mtodo para sua fabricao, e lquido para tratamento por converso qumica

Ttulo: Processo de tratamento de cargas de hidrocarabonetos Ttulo: Processo qumico-mecnico para reduzir a contaminao produzida pela combusto de combustveis fsseis, petrleo e seus derivados

Ttulo: Processo para tratar um petrleo bruto contendo gs natural Ttulo: Mtodo para tratamento de efluentes custicos usados, e, mtodo para tratamento de materiais custicos

Classificaes de destaque:

B01J: Operaes de Processamento; Transporte. Processos ou aparelhos fsicos ou qumicos em geral. Processos qumicos ou fsicos, por ex., catlise, qumica coloidal; Aparelhos pertinentes aos mesmos.

C10G: Craqueamento de leos de hidrocarboneto;

Produo de misturas

lquidas de hidrocarboneto; Recuperao de leos de hidrocarboneto a partir de xisto betuminoso, arenito olefero, ou gases; Refinao de misturas constitudas principalmente de hidrocarboneto; Reforma de nafta; Ceras minerais
Depositantes de Destaque:

Petrleo Brasileiro S.A - Petrobras (BR/RJ) / Akzo Nobel N.V. (NL)

Concluso da anlise:

Processos de tratamento de cargas de hidrocarboneto, matrias e lquidos derivadas do petrleo com temperatura e presso.

110

Cluster 4 Gs Descrio do cluster:

Gs; sistema; vlvula; produo; injeo; fluido; presso; formao; equipamento; sada.
Ttulos pertencentes ao cluster:

Ttulo: Vlvula de bombeio pneumtico com venturi de corpo central Ttulo: Disposio introduzida em lacre de segurana para botijo de gs e assemelhados

Ttulo: sensor para detectao e alarme de vazamento de gua, petrleo e seus derivados em tanques ou condutos de carcaa dupla

Ttulo: sistema de tubulaes compostas Ttulo: Conferidor manual para gs liquefeito de petrleo

Classificaes de destaque:

E21B: Perfurao do solo, por exemplo, perfurao profunda; Obteno de leo, gs, gua, materiais solveis ou fundveis ou uma lama de minerais de poos.

B01D: Processos ou aparelhos fsicos ou qumicos em geral. Separao. F17C: Armazenamento ou distribuio de gases ou lquidos. Vasos para conter ou armazenar gases comprimidos, liqefeitos ou solidificados; Tanques de gs de capacidade fixa; Enchimento ou descarga de vasos com gases comprimidos, liqefeitos ou solidificados.

Depositantes de Destaque:

Petrleo Brasileiro S.A. - Petrobras (BR/RJ)

Concluso da anlise:

Mecanismos de armazenamento e controle de injeo, bombeio e retenes de GLP e fluidos.

111

Cluster 5 Corante Descrio do cluster:

Lquido; marcao; corante; dieletro; alquila; independente; mximo; absoro; substituio; antraquinona
Ttulos pertencentes ao cluster:

Ttulo: Marcadores moleculares para sistemas de solventes orgnicos Ttulo: Mtodo para marcar um hidrocarboneto de petrleo lquido Ttulo: Composio, composto, e, mtodo para marcar um produto de petrleo lquido

Classificaes de destaque:

C10L: Indstrias do petrleo; do gs ou do coque; gases tcnicos contendo monxido de carbono; combustveis; lubrificantes; turfa. Combustveis no includos em outro local; Gs natural; Gs liquefeito de petrleo; Adio de substncias a combustveis ou ao fogo para reduzir fumaa ou depsitos indesejveis ou para facilitar a remoo de fuligem; Acendedores de fogo

C10L 1/00: Combustveis carbonceos lquidos C09B: Corantes; tintas; polidores; resinas naturais; adesivos; composies diversas; diversas aplicaes de substncias. Corantes orgnicos ou compostos estreitamente relacionados produo de corantes; mordentes; Lacas.

Depositantes de Destaque:

Rohm And Haas Company (US)

Concluso da anlise:

Marcao de produtos de petrleo liquido atravs de corantes.

112

Cluster 6 Plataforma Descrio do cluster:

gua; produo; sistema; mar; camada; flutuante; plataforma; superior; presso; inferior.
Ttulos pertencentes ao cluster:

Ttulo: Mtodo para a recuperao secundria de petrleo a partir de uma localizao abaixo de um corpo de gua salina, e, sistema de tratamento da gua do mar

Ttulo: Aparelho e mtodo para remover matria em suspenso de um lquido Ttulo: Dispositivo de transferncia de fluido entre dois suportes flutuantes e instalao de produo petrolfera no mar

Ttulo: Plataforma martima semi-submersvel de produo

Classificaes de destaque:

E21B: Perfurao do solo, por exemplo, perfurao profunda; Obteno de leo, gs, gua, materiais solveis ou fundveis ou uma lama de minerais de poos

B63B 21/50: Amarrao; Equipamento para deslocar, rebocar ou empurrar; Ancoragem. Disposies para ancoragem de embarcaes especiais, por ex., para plataformas flutuantes de perfurao ou dragas

C02F: Tratamento de gua, de guas residuais , de esgotos, ou de lamas e lodos. Tratamento de gua, guas residuais, esgotos, ou de lamas e lodos

Depositantes de Destaque:

Petrleo Brasileiro S.A. - Petrobras (BR/RJ)

Concluso da anlise:

Sistemas e equipamentos para a manipulao de petrleo em superfcies liquidas.

113

Cluster 7 Energia Descrio do cluster:

Dispositivo; sistema; tubulao; energia; corrente; eletricidade; estrutura; comunicao; gs; fluido
Ttulos pertencentes ao cluster:

Ttulo: Sistema para encaminhar controlavelmente comunicaes e energia eltrica tendo uma corrente varivel com o tempo atravs de uma estrutura de tubulao, poo de petrleo para produzir produtos de petrleo e mtodo de produzir produtos de petrleo a partir de um poo de petrleo

Ttulo: Aquecedor tubular submarino para quebra de hidratos Ttulo: Dispositivo de impedncia de corrente, e, mtodo para operar um poo de petrleo

Ttulo: Poo de petrleo para produo de produtos de petrleo e mtodos de produzir petrleo a partir de um poo de petrleo e de injetar controlavelmente fluido em uma formao com um poo

Classificaes de destaque:

E21B 47/12: Provas ou ensaios; Levantamento de furos de sondagem ou de. Meios para transmitir sinais de medio do poo para a superfcie, por ex., perfilagem durante a perfurao

E21B 17/00: Outros equipamentos ou detalhes para perfurao; Equipamento de poos ou manuteno de poos; Hastes ou tubos de perfurao; Ferramentas flexveis de perfurao; Hastes quadradas (Kellies); Comandos; Hastes de suco; Tubulao de revestimento; Tubos de produo

Depositantes de Destaque:

Shell Internationale Research Maatschappij B.V. (NL)

Concluso da anlise:

Dispositivos e mtodos de operao e comunicao em poos de petrleo, como conduo de energia eltrica e injeo de fluidos.

114

Verificando as principais palavras-chave de cada cluster e analisando superficialmente o significado e contedo de cada um deles, pode-se notar uma diferena nos contedos das bases de documentos agrupados pelo sistema de minerao de patentes. Tal fato pode revelar uma mudana no foco de estudos e desenvolvimentos industriais e tecnolgicos no que diz respeito a componentes derivados de petrleo, tcnicas de utilizao do mesmo, dentre outros. Alm disso, o resultado do estudo comprova a viabilidade de executar busca por tendncias tecnolgicas utilizando os recursos disponveis nas patentes industriais e ferramentas de minerao de texto. No entanto, apenas uma anlise realizada por especialistas nas reas em questo poderiam comprovar tal hiptese.

5.4.2.5 Petrleo (2001 a 2005) Temis

A Tabela 5-9 apresenta o resultado da clusterizao realizada pela ferramenta Temis para os anos de 2001 a 2005, com o respectivo nmero de documentos agrupados em cada cluster. Apresenta ainda o nome dado ao cluster, seguido do termo _Temis.

115

Cluster

Nm. de Patentes

Nome

Palavras-chave

68

Alimentao_ Temis

bruto; produto; alimentao; propriedade; combustvel; produzir; catalisador; bruto; lubrificantes; mudar.

62

Energia_Temis

poo;

sistema;

tubulao;

dispositivo;

fluido; fundo; injeo; produo; energia; bombear. 3 55 Plataforma _Temis 4 39 Tratamento _Hidrocarbonet o _Temis 5 36 Corante_Comp osio_Temis Contaminao _Temis composio; R^; grupo; hidrocarboneto; nm; leo; corante; agente; liquido; marcar. tanque; resinar; massa; derivar; tubo; plataforma; camada; flutuante; mar; rasgo; superfcie; coluna; roscar; linha. nitrognio; processo; ao; peso; carga; hidrocarbonetos; tratamento; frao; sntese; carbono.

30

equipamento; modelo; material; plstico; contaminar; gua.

29

Gs_Temis

combustvel; gs; vlvula; motor; botijo; combusto; diesel. segurana; GLP; circuito;

Tabela 5-9 Resultado da ferramenta Temis para a base Petrleo (2001 a 2005)

Na Figura 5-18 representado o grfico de comparao entre os clusters encontrados na ferramenta implementada e os do mdulo IDC, apresentando a proporo de documentos coincidentes nos clusters.

116

100 80 60 40 20 0 Composio Alimentao Tratamento Alimentao_Temis Plataforma_Temis Corante_Composio_Temis Gs_Temis Gs Corante Energia_Temis Tratamento_Hidrocarboneto_Temis Contaminao_Temis Plataforma Energia

Figura 5-18 Grfico de comparao da ferramenta implementada e Temis para petrleo (2001 a 2005)

De acordo com o grfico de comparao, pode-se observar: O cluster Composio apresenta 43% de documentos coincidentes ao cluster Corante_Composio_Temis; O cluster Alimentao apresenta 93% de documentos coincidentes ao cluster Alimentao_Temis; O cluster Tratamento apresenta 45% de documentos coincidentes ao cluster Tratamento_Hidrocarboneto_Temis; O cluster Gs apresenta 33% de documentos coincidentes ao cluster Energia_Temis e 25% ao cluster Gs_Temis; O cluster Corante apresenta 62% de documentos coincidentes ao cluster Corante_ Temis. O cluster Plataforma apresenta 56% de documentos coincidentes ao cluster Plataforma_Temis. O cluster Energia apresenta 64% de documentos coincidentes ao cluster Energia _Temis. A quantidade de palavras-chave encontradas nos clusters semelhantes, so, em mdia, 5, apesar de possurem contedos bastante similares.

117

5.4.2.6 Petrleo (2001 a 2005) Statistica

O total de termos utilizado para a clusterizao foram 858, utilizando a mesma lista de StopWords utilizada pela ferramenta implementada. A tabela 5.10 apresenta o resultado obtido pela ferramenta Statistica para a base de dados de petrleo, entre os anos de 2001 a 2005.

Cluster

Nm. de Patentes

Nome

Palavras-chave

93

Plataforma _Statistica

Tubulao; bombeamento;

flutuao; poo; mar;

sistema; plataforma;

superfcie; instalao; disposio. 2 146 Composio _Statistica Composio; derivao; processo; gs; partcula; leo; bsico;

hidrocarboneto;

mtodo; fluido. 3 39 Alimentao _Statistica Bruto; alimentao; produto; propriedade; combustvel; produo; catalisador; contato; mpa; mudar. 4 24 Hidrocarbonet o _Statistica 5 12 Energia _Statistica Gs; frao; processo; hidrocarboneto;;

nitrognio; corrente; adsorvente; enxofre; natural. Comunicao; tubulao; dispositivo;

controle; corrente; eltrica; poo; adaptador; energia; sensor.

Sensor _Statistica

Carcaa;

ondas;

sinalizao;

deteco;

eletrnico; identificador; vazamento; sensor; bateria; duplo.

Selante _Statistica

Projeto; seo; sonda; cabea; segurana; fluido; selante; contemplar; integral;

adaptador.
Tabela 5-10 Resultado da ferramenta Statistica para a base Petrleo (2001 a 2005)

118

A figura 5.19 apresenta a proporo de documentos coincidentes agrupados pela ferramenta Statistica e a ferramenta implementada. Pode-se observar que dos 319 documentos, 146 foram inseridos em um mesmo cluster. Dessa forma, apenas alguns clusters foram considerados semelhantes daqueles encontrados pela ferramenta comparada.

100 90 80 70 60 50 40 30 20 10 0 Composio A limentao Tratamento Composio_Statistica Sensor_Statistica Gs Corante A limentao_Statistica Selante_Statistica Plataf orma Energia

Plataf orma_Statistica Energia_Statistica

Hidrocarboneto_Statistica

Figura 5-19 Grfico de comparao da ferramenta implementada e Statistica para petrleo (2001 a 2005)

O cluster Alimentao possui 91% de documentos coincidentes com o cluster Alimentao_Statistica; O cluster Plataforma possui 70% de documentos coincidentes ao cluster Plataforma_Statistica; O cluster Energia possui 27% de documentos coincidentes ao cluster Energia_Statistica. Os demais clusters no apresentam alto grau de semelhana com a ferramenta implementada. Comparando com o resultado de Temis, no entanto, pode-se perceber algumas semelhanas em e alguns clusters, como por exemplo, os pares e

Plataforma_Statistica

Plataforma_Temis,

Composio_Statistica

Corante_Composio_Temis, dentre outros.

119

O Statistica encontrou ainda alguns clusters que no foram detectados pelas outras ferramentas por possurem baixa quantidade de patentes, como o caso dos clusters Selante_Statistica e Sensor_Statistica. Desse resultado, conclui-se que o Statistica determinou os tpicos principais presentes no conjunto total de patentes, e encontrou ainda alguns outliers.

5.5 Consideraes Finais

A aplicao de uma base de dados em diferentes ferramentas capaz de gerar diversos resultados, de acordo com o processamento que cada uma realiza. A anlise, citada anteriormente, destacou alguns pontos comuns e outros extremos entre os resultados gerados por cada uma das ferramentas. As diferenas nos resultados se deve ao fato de cada ferramenta possuir um algoritmo de execuo diferente, tanto de pr-processamento, quanto de clusterizao. A ferramenta implementada utilizou lista de StopWords iterativamente ajustada para melhor destacar os termos relevantes dos documentos. Foi utilizado como algoritmo de stemming o Stemming Portuguese e para clusterizao, o algoritmo kmeans, atravs de escolha aleatria dos centrides inicias de cada cluster. O mdulo IDC do Temis utiliza uma lista interna de StopWords, alm de realizar anlise semntica nos termos, reconhecendo-os como substantivo, adjetivo ou verbo. Algumas vezes, a ferramenta pode no reconhecer adequadamente um termo e determinar que o mesmo verbo e adjetivo ao mesmo tempo, por exemplo. O mdulo possui a propriedade de reconhecer diversos idiomas, entre os quais, o portugus, porm, com menor detalhamento. O programa Statistica da StatSoft possui um algoritmo de stemming e um lista de StopWords para a lngua portuguesa, tendo a propriedade de alterar essa lista e dessa forma, pde ser utilizada a mesma lista da ferramenta implementada. Alm de possuir diversos algoritmos de minerao de dados, possui tambm o k-means, com a propriedade de inserir aleatoriamente os centrides no espao vetorial. A ferramenta tem a propriedade de eliminar as palavras que aparecem em menos de 1% dos

120

documentos. Isso faz com que vrios termos importantes para a discriminao de assuntos sejam retirados da clusterizao. Esse fato faz com que a ferramenta destaque apenas o contedo principal dos documentos, no considerando o detalhamento das patentes. Dessa forma, a clusterizao inseriu vrios documentos em poucos clusters, detectando alguns outros outliers. Essas diferenas entre as ferramentas justifica os resultados encontrados por cada uma delas. Para uma anlise completa, a utilizao da minerao de textos deve ser comparada em condies iguais. O sistema implementado tem a propriedade de manipular documentos de patentes de forma adequada, utilizando diversos atributos dos documentos e buscando uma perda mnima de informao. Dessa forma, se mostra eficiente para tal uso, apresentando resultados relevantes para o conhecimento da informao contida na base de dados.

121

6 Concluso

Utilizar patentes industriais para gerao de Inteligncia Competitiva um estudo que ainda recebe pouca ou nenhuma ateno pelas empresas comparado aos benefcios que pode trazer. As patentes industriais, por possurem grande fonte de informao tcnica e comercial, armazenam informaes preciosas sobre a concorrncia e sobre os atuais focos de pesquisa. O fato de possurem um rgo de gerenciamento dos depsitos, e seguirem as normas do Tratado Internacional de Patentes (PCT), a Classificao Internacional de Patentes (CIP), as patentes so facilmente localizadas, assim como possvel selecionar aquelas pertencentes a uma determinada tecnologia. O presente estudo vem afirmar a utilidade e benefcios da implantao de sistemas computacionais inteligentes para a busca de informaes relevantes que possam trazer vantagem competitiva para qualquer organizao que esteja envolvida com pesquisa e/ou desenvolvimento. Atravs de uma ferramenta especfica para patentes industriais, a manipulao dos documentos se torna mais fcil, no precisando de mecanismos externos para a separao dos campos a serem utilizados. A aplicao da minerao de textos prova ser capaz de destacar as informaes mais relevantes, agrupando documentos similares, de acordo com uma quantidade prdeterminada de clusters e extrair os seus conceitos principais, atravs da exibio das palavras-chave. Alm disso, a ferramenta possui a funcionalidade de contabilizar as CLASSIFICAES presentes em cada grupo, o que complementa e/ou confirma o contedo das patentes agrupadas em cada cluster, agregando valor aos resultados

122

apresentados. A exibio dos DEPOSITANTES das patentes agrupadas capaz de auxiliar na compreenso dos maiores concorrentes em uma determinada rea. Como o sistema foi implementado em java, possui uma classe prpria para a execuo do Stemming. Isso implica na facilidade de converter o sistema para qualquer idioma, atualizando apenas essa classe. Esse fato facilitado ainda pela propriedade de direcionar a lista de StopWords em tempo de execuo. Isso implica na fcil converso da ferramenta para as patentes internacionais, como por exemplo, USPTO, sendo capaz de capturar conhecimento da mesma forma. A aplicao da tcnica em um nmero relativamente grande de documentos de patentes comprovou ser de extrema eficincia, revelando clusters bem definidos. Uma quantidade menor de patentes, no entanto, no foi capaz de apresentar tamanha eficincia, sendo alguns clusters minimamente diferente de outros, ou com documentos com assuntos diversos agrupados num mesmo cluster. Tais hipteses, porm, s poderiam ser comprovadas com o auxilio de especialistas da rea estudada. A fragmentao da base de dados pelos perodos de tempo em que as patentes foram depositadas, revelou algumas mudanas de foco de pesquisas ocorridos ao longo dos ltimos dez anos. Aprofundando o estudo nesse sentido, uma anlise poderia revelar as mudanas exatas ocorridas e provavelmente se tornar fonte de prospeco tecnolgica. Especificamente para as patentes brasileiras, as empresas podem fazer uso para entender quais so os concorrentes multinacionais e os internos, e buscar as principais tecnologias desenvolvidas no pas. Os resultados obtidos podem ser melhor aproveitados se concatenados com outras reas relacionadas inteligncia competitiva como: minerao de outras fontes de conhecimento como relatrios e pginas web, e ferramentas de informaes como: perfil dos competidores, anlise financeira, anlise SWOT, desenvolvimento de cenrios, anlise de ganho e perda, jogos de guerra, anlise conjunta e simulao/modelagem.

123

Essas anlises so utilizadas em suporte tomada de deciso, monitoramento do mercado, identificao de oportunidades de mercado, desenvolvimento de planos de mercado, suporte ao marketing e venda, e diversos outras tarefas. Com o auxilio de especialistas, os resultados das anlises podem ser interpretados e convertidos para conhecimento a ser utilizado pelas empresas de P&D como vantagem competitiva e veiculo de inovao.

6.1 Trabalhos Futuros

O sistema desenvolvido nessa dissertao foi implementado para identificar os campos presentes nos documentos de patentes e aplicar tcnicas de minerao de textos nos campos RESUMOs. Algumas outras funcionalidades que poderiam ser inseridas no sistema, agregando valor aos resultados finais, como por exemplo: Aplicao de minerao de dados nos campos categricos existentes nas patentes; Aplicao da minerao de textos nos campos DESCRIO, existente nas patentes. Essa informao no est disponveis nos documentos de patentes do site do INPI; Utilizao de thesaurus para melhoramento do pr-processamento; Converso dos arquivos de patentes para o formato XML, ou para um banco de dados relacional; Implementao de um algoritmo para a deteco do nmero ideal de clusters; Insero de novas formas de visualizao dos resultados, como grficos, por exemplo; Implementao de funcionalidades capazes de manipular os campos DATA presentes na patentes, como forma de distino de tempos e melhor busca por modificaes nas tendncias ao longo do tempo;

124

Implementao de outros como, por exemplo, sries temporais, outros algoritmos de clustering e utilizao de lgica fuzzy. Esses tpicos poderiam ser capazes de otimizar os resultados encontrados pelo

sistema, aproveitando melhor a meta informao presente nas patentes. A aplicao do presente estudo pode ser utilizada em qualquer rea que esteja envolvida, direta ou indiretamente com informaes presentes em documentos de propriedade intelectual.

125

Referncias Bibliogrficas

AHMAD, K., AL-THUBAITY, AM., 2003, Can Text Analysis Tell us Something about Technology Progress?. Workshop on Patent Corpus Processing. pp.45-65, Saporo, Japo, Julho. ANACUBIS. Disponvel em <http://www.anabubis.com> Acesso em: 10 jan. 2006. ANALYSIS Tools. Disponvel em <http://www.piug.org/vendor.html#bmTools> Acesso em: 02 jan. 2006. ARCHIBUGI, D., PIANTA, M. 1996, Measuring technological change through patents and innovations surveys. Technovation, 16(9), pp. 146-451. APPLEYARD, M.M., KALSON, G.A., 1999, Knowledge diffusion in semiconductor industry. Journal of Knowledge Management, v.3, n.4, pp.288-295. AZEVEDO, M.C., COSTA, H.G., 2001, Mtodos para a avaliao da postura estratgica, Caderno de pesquisa em Administrao, v.08, n.2, abril. BOATRIGHT, J. R., 2000, Ethics and the conduct of business, ed. 3, Upper Saddle River, NJ7 Prentice Hall. BIZINT Smart Charts. Disponvel em <http://www.bizcharts.com/sc4pats/> Acesso em: 10 jan. 2006. BRENNER, M., 2005, Leveraging Analysis and Collection Techniques, Competitive Intelligence, Society of Competitive Intelligence Professionals, v. 8, n. 3 (May/June), pp. 6-19. BRIN, S., PAGE, L., 1998, "The anatomy of a large scale hypertextual web search engine", In Proc. WWW7. CAPUTO, G.M., BASTOS, V.M., EBECKEN, N.F.F., 2006, Using Text Mining to Understand the call center customers claims, Data Mining & Information Enginnering, Prague.

126

CHAVES, M.S., Um estudo e apreciao sobre algoritmos de stemming, In: IX Jornadas Iberoamericanas de Informtica, Cartagena de ndias, Colmbia, Agosto, 2003. CLEARFOREST. Disponvel em <http://www.clearforest.com/> Acesso em: 10 jan. 2006. COTTRILL, K., 1998, Turning Competitive Intelligence into Business Knowledge, The Journal of Business Strategy, v.19, n.4, pp.27-30. COWIE, J., LEHNERT, W., 1996, Information Extraction, Communications of the ACM, v. 39, pp. 81-91. CRAVEN, M., DIPASQUO, D., FREITAG, D., et al., Learning to extract symbolic knowledge from the world wide web, Proceeding of the fifteen National Conference on Artificial Intelligence, pp. 509-516, 1998. DEBOYS, J., 2004, Decision pathways in patent searching and analysis, World Patent Information, 26, 83-90. ECLIPSE. Disponvel em <http://www.eclipse.org> Acesso em: 10 jan. 2006. EVENSON, R., PUTTNAM, J., 1988, The Yale Canada patent flow concordance. New Haven, CT: Economic Growth Center, Yale University. FABER, V., Clustering and the Continuous k-Means Algorithm. Los Alamos Science, 22:138-144, 1994. FATTORI M., PEDRAZZI G., TURRA R., 2003, Text Mining applied to patent mapping: a practical business case. FLETCHER, JM. Quality and risk assessment in patent searching and analysis. Proceeding of the 4th International Chemical Information Meeting & Exhibition, Montreux, pp. 19-21, out, 1992. FRAKES, W.B., BAEZA-YATES, R., Information Retrieval: Data Structures and Algorithms, Prentice-Hall, 1992. GANGULI, P., 2004, Patents and patent information in 1979 and 2004: a perspective from India, World Patent Information, 26, 61-62. GRANDSTRAND, O., 1999. The economics and management of intellectual property: Toward intellectual capitalism. UK: Edward Elgar.

127

GRILLICHES, Z., 1990, Patent statistics as economic indicators: A survey, Journal of Economic Literature, v. 28, pp. 1661-1707. GUPTA, V., PANGANNAYA, N., 2000. Carbon Nanotubes: Bibliometric analysis of patent. World Patent Information, v. 22, 185-189. HARMAN, S.D., How effective is suffixing?, Journal of the American Society forInformation Science, v. 42, n. 1, pp. 7-15, 1991. HIRSCHEY, M., RICHARDSON, V., 2001. Valuation effects of patent quality: A comparison for Japanese and US firms. Pacific-Basin Finance Journal, 9, 65-82. HOLL, B., JAFFE, A., TRAJTENBERG, M., 2000, Market value and patent citation: A first look. NBER Working Paper Series, Cambridge, MA. INMON, W.H., Building the Operational Data Store, ed. 2 United States of America, John William & Sons Inc., 1999. IDC - Insight Discoverer Clusterer Developers Guide, Temis Company, 2002. INPI. Disponvel em: < http://www.inpi.gov.br>. Acesso em: 02 jan. 2006. KAHANER, L.1996. Competitive Intelligence: How to Gather, Analyze, and Use Information to Move your Business to the Top. New York, Simon and Schuster. KARKI, M., 1997. Patent Citation Analysis: A policy analysis tool, World Patent Information, vol. 19, n. 4, pp.269-272. KARKI MMS. Bibliometric analysis of patents: implications for R&D and industry, emerging trends in scientometrics. In: Nagpul PS et al., editor. New Delhi: Allied Publishers, 1999. KNOWLEDGE Management and Competitive Intelligence Made Clear. Disponvel em: <http://www.cipher-sys.com/>. Acesso em: 02 jan. 2006. KOSTER, C.H.A, SEUTTER, M., BENEY, J., 2001, Classifying patent applications with winnow. In Proceedings Benelearn, Anrwerpen. KOSTOFF, R.N., 2004, Text Mining for Global Technology Watch, Office of Naval Research, August. KUDYBA, S, HOPTROFF, 2003, Data Mining and Business Intelligence: A Guide to Productivity, Idea Group Publishing, 2001.

128

LARKEY, L.S., 1998, Some Issues in the Automatic Classification of U.S. Patents, Working Notes for the AAAI-98 Workshop on Learning for Text Categorization. 1998. LARKEY, L.S., 1999, A Patent Search and Classification System, Center for Intelligent Information Retrieval, Massachusetts. LAWRENCE, S., GILES, C.L., Accessibility if Information on the web. Nature, v. 400 pp.107-109, 1999. LOPES, M.C.S, 2004, Minerao de Dados Textuais Utilizando Tcnicas de Clustering para o Idioma Portugus. Tese de D.Sc., COPPE/UFRJ, Rio de Janeiro, RJ. LIU, B., MA, Y., YU, P.S., 2001, Discovering Unexpected Information from Your Competitors Web Sites. In: International Conference on Knowledge Discovery and Data Mining, pp. 26-29, San Francisco, USA, Aug. LOVINS, J.B., Development of a stemming algorithm, Mechanical Translation and Computational Linguistics, vol. 11, pp. 22-31, 1968. MACQUEEN, J. B., Some Methods for classification and Analysis of Multivariate Observations, Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and Probability, Berkeley, University of California Press, vol. 1, pp. 281-297, 1967. MARINHO, L., GIRARDI, R., 2003, Minerao na Web, Revista eletrnica de Iniciao Cientifica da Sociedade Brasileira de Computao, vol.3, n.2. MENDELZON, A., MIHAILA, G., MILO, T., Querying the World Wide Web, Journal of Digital Libraries, 1(1):68-88, Abril, 1997. MICHEL, J., BETTELS, B., 2001, Patent citation analysis: A closer look at the basic input data from patent search report, Scientometrics, vol. 51, no. 1, pp. 185-201. MICROPATENT. Disponvel em <http://www.micropat.com> Acesso em: 10 jan. 2006. MOGEE, M. 1991. Using patent data for technology analysis and planning. ResearchTechnology Management, 34, 43-49. MORAIS, Ednalva F. C.. Inteligncia Competitiva: Estratgias para Pequenas Empresas. Brasilia: UnB/CDT, 1999. 60 p.

129

MOWERY, D., OXLEY, D., SILVERMAN, B., 1998. Technological overlap and interfirm cooperation: Implications for the resource-based view of the firm. Research Policy, 27, 507-523. NARIN, F., 1994. Patent bibliometrics. Scientometics, 30(1), 147-155. NARIN, F., NOMA, E., 1987. Patents as indicators of corporate technological strength. Research Policy, 16, 143-155. ORENGO, M.V., HUYCK, C.R., 2001, A Stemming Algorithm for The Portuguese Language. In: Proceedings of the SPIRE Conference, pp. 13-15, Laguna de San Raphael, Chile, Nov. PACI, R., SASSU, A., USAI, S., 1997. International patenting and national technological specialization. Technovation, 17(1), 25-38. PCT Patent International Treaty. Disponvel em

<http://www.wipo.int/pct/es/treaty/about.htm> Acesso em: 10 jan. 2006. PEREIRA, E. C. Monitoramento de normas e patentes como ferramenta para a inteligncia competitiva. Curitiba., PR: TECPAR - Instituto de Tecnologia do Paran, 2003. PIUG. Disponvel em <http://www.piug.org> Acesso em: 02 jan. 2006. POYNDER, 1998. Patent Information on the Internet, Business Information Review, v.15, n.1, pp.58-67. PORTER, M.F., An algorithm for suffix stripping, Program, vol. 14, pp.130-137, 1980. REZENDE, S. O., OLIVEIRA, R.B.T., IMAMURA, C. Y., GONALVES, L.S.M. Text Mining em Documentos de Patentes usando o Sistema Minador. Proceedings of 21st Iberian Latin-American Congress on Computational Methods in Engineering (Data Mining Workshop), Rio de Janeiro, 2000. ROSS, K., SRIVASTAVA, D., 1997, Fast Computation of sparse datacubes. In: Proceedings of 23th International Conference on Very Large Databases (VLDB97), pp. 116-125, Athens, Greece, Morgan Kaufmann, Ago. SALTON, G., Automatic Text Processing, Addison-Wesley, 1989. SALTON, G., WONG, A., YANG, C., A vector space model for automatic indexing, Communications of the ACM, v. 18, pp. 163-620, 1975.

130

SCIME, A, Web Mining: Applications and Techniques. 2 ed. United States of America, Idea Group Publishing, 2005. SOCIETY of Competitive Intelligence Professionals. Disponvel em:

<http://www.scip.org>. Acesso em: 02 jan. 2006. STATSOFT - Statistica Software. Disponvel em: <http://www.statsoft.com/>. Acesso em: 31 jan. 2006. SULLIVAN, D., Document Warehousing and Text Mining, 1 ed. John Wiley & Sons, New York, 2001. SUN Developer NetWork. Disponvel em: <http://java.sun.com>. Acesso em: 15 jan. 2006. TARAPANOFF, k., Inteligncia Organizacional e Competitiva. Braslia, Editora Universidade Braslia, 2001. TEMIS Text Intelligence. Disponvel em <http://www.temis.com/> Acesso em: 10 jan. 2006. TIJSSEN, R., 2001, Global and domestic utilization of industrial relevance science: Patent citation analysis of science technology interactions and knowledge flows. Research Policy, vol. 30, pp. 35-54. TYSON, Kirk W. M. 1998, The Complete Guide do Competitive Intelligence: gathering, analyzing, and using competitive intelligence. Kirk Tyson Int. Ltd. Lisle, Chicago. UNDERWOOD, G., MAGLIO, P. BARRETT, R., 1998, User-centered push for timely information delivery, In Proc: WWW7. UNITED States Patent and Trademark Office. Disponvel em <http://www.uspto.gov> Acesso em: 25 jan. 2006. VANTAGEPOINT. Disponvel em <http://www.thevantagepoint.com> Acesso em: 10 jan. 2006. WISDOMAIN. Disponvel em <http://www.wisdomain.com> Acesso em: 10 jan. 2006. YANG, Y., PEDERSEN, J.P., A Comparative Study on Feature Selection in Text Categorization, Proceedings of the Fourteenth International Conference on Machine Learning, pp. 412-420, 1997.

131

YOON, B., PARK, Y, 2003 , A text-mining-based patent network: Analytical tool for high-technology trend, The Journal of High Technology Management Research, 15, Seoul, South Korea, 37-50, September. ZANASI, A., 2005, Text Mining and its Applications to Intelligence, CRM and Knowledge Management. 1 ed. Great Britain, WIT Press. ZANASI, A., Text Mining: the new competitive intelligence frontier. In VST2001 Barcelona Conference Proceedings IRIT, Spain, 2001.

132

Вам также может понравиться