You are on page 1of 11

1

FACULDADE ANHANGUERA DE BAURU


WELLINGTON MARTINS ALVES

DESENVOLVIMENTO E ANLISE DE WEB CRAWLING - SELENIUM


E HTMLUNIT EM TAREFAS REPETITIVAS

BAURU

2015

3
WELLINGTON MARTINS ALVES

PROJETO DE ANLISE E DESENVOLVIMENTO


DESENVOLVIMENTO E ANLISE DE WEB CRAWLING - SELENIUM
E HTMLUNIT EM TAREFAS REPETITIVAS

Projeto de Anlise e Desenvolvimento


apresentado ao Curso de Cincia da
Computao da Instituio Anhanguera Bauru.

BAURU
2015

SUMRIO

SUMRIO

1.

INTRODUO

1.1

PROBLEMA 3

2.

OBJETIVOS 4

2.1

OBJETIVO GERAL OU PRIMRIO

2.2

OBJETIVOS ESPECFICOS OU SECUNDRIOS

3.

JUSTIFICATIVA

4.

METODOLOGIA

5.

RESULTADOS ESPERADOS

6.

REFERNCIAS

4
4

1. INTRODUO
Vivemos em um mundo onde cada vez o tempo mais precioso, o conceito
de web crawling consiste em resgatar informaes automaticamente de web sites.
O conceito proposto exemplificar as vantagens e desvantagens das duas
principais tecnologias em web crawling para Java, Selenium e HTMLUNIT, sendo
em teste funcionais.

Como j dito utilizaremos como base a linguagem Java, conforme ranking


disponibilizado pelo site Redmonk Java a segunda linguagem mais utilizada no
mundo, somente atrs do JavaScript, desta forma iremos automatizar tarefas
repetitivas.
Esta automatizao visa substituir um funcionrio por um rob desenvolvido com
as tecnologias propostas.
1.1 PROBLEMA
Como cada vez mais o mundo e o mercado demandam agilidade e eficincia, o
web crawling supri uma grande quantidade dessa necessidade, trazendo resultados
com preciso e assertividade.
Hoje possumos um ambiente de trabalho com vrias pessoas executando
tarefas repetitivas, sejam elas, consultas em web sites, preenchimento de
formulrios, no modelo atual possumos problemas com atraso, falta de um
funcionrio, ociosidade, podemos elencar at m vontade por parte de um
funcionrio descontente, sem contar o fator humano que podemos ter falhas em
alguma parte da execuo da tarefa.
Hoje os custos para manter um funcionrio com impostos, salrio entre outros
gastos altssimo e tambm para demitir este funcionrio descontente existir um
gasto ainda maior com resciso, multa de 40% (quarenta por cento) sobre o FGTS
entre outros encargos decorrentes do desligamento de qualquer funcionrio.

2. OBJETIVOS

2.1 OBJETIVO GERAL OU PRIMRIO


Expor a eficcia do web crawling em substituir funcionrios que executam tarefas
repetitivas, visando assertividade, performance e dificuldade de implementao de
cada tecnologia.

2.2 OBJETIVOS ESPECFICOS OU SECUNDRIOS

Desenvolvimento dos web crawlings para que executem


consultas por nome no site do TJ de So Paulo, usando o
Html Unit e o Selenium.

Testes de execuo dos crawlings, para que todas as


excees que possam interromper a execuo de nosso rob
sejam devidamente tratadas, deixando a execuo totalmente
automtica.

Execuo dos robs, com parmetros conhecidos que


resultem uma massa de resultados significativa.

Verificar o tempo mdio da execuo dos robs em 5


execues em cada tecnologia, sendo tambm 5 execues
manuais feitas por um voluntrio humano.

Gerar dados, grficos e outras ferramentas para exemplificar


os resultados obtidos.

3. JUSTIFICATIVA
O mercado busca hoje fazer mais com menos, um conceito simples que
mostra o quo eficiente e essencial o conceito de automao de atividades
repetitivas, substituir equipes com 30 pessoas por dois ou trs robs que iram
executar a mesma atividade que essas pessoas, porm com extrema assertividade
e produtividade inigualvel, visto que o rob ir trabalhar 24 horas por dia 7 dias por
semana ocasionando uma reduo de custos expressiva substituindo 30
funcionrios.
Sem contar com a possiblidade de investimento em outras reas da empresa,
visto que existir uma reduo de gastos expressiva, visto que sem os 30
funcionrios sero menos 30 estaes de trabalho (mesa, cadeira, monitor,
computador, mouse, teclado, ...) isto exemplifica o tamanho do corte de gastos que
pode ser alcanado com a automatizao das atividades repetitivas.
Abrindo um leque gigantesco de oportunidade para que o dinheiro
economizado nestes setores, sejam investidos em reas cujo o aproveitamento,
necessidade e retorno sero mais rentveis e essenciais.
Com a utilizao de tecnologias predominantes no mercado, teremos mnimos
problemas quanto a parada na execuo dos web crawling, teremos somente que
para a execuo caso algum fator externo ocorra (ex. queda de energia, queda da
conexo com internet, alterao no sistema ou web site no qual feita a automao)
Caso exista um problema quanto alteraes no sistema ou web site, em que
fora feita a automao conforme exemplo citado acima, a manuteno simples e
rpida, sendo aplicada em um cdigo e replicado para os demais.

4. FUNDAMENTAO TERICA
Abaixo segue um exemplo dos benficos quanto a automatizao de
processos segundo Sanjay Mohapatra autor do livro Business Process Automation.
The benefits of business process automation are significant. Consolidating
multiple business processes through automation provides many benefits and
delivers a strong return on the investment that the organization encounters.
Reduced costs associated with additional applications and maintenance
fees. Reduced IT staff time supporting, maintaining and providing training on
numerous applications. Simplify client interactions through various webbased services. Enhance data sharing, collaboration and synergy between
business groups. Generate metrics and reports on productivity, trends, and
performance to manage workflow and resources effectively and optimize
team effectiveness. (SANJAY MOHAPATRA, 2009, 28).

Como exposto na citao acima temos como principal ponto, a reduo de


gastos com treinamento e um aumento na produtividade e visibilidade.
Other benefits of process automation includes repeatability, automatic
remediation, accuracy, flexibility, audit ability, scripting, off shoring, visibility,
breadth of solution, time to market, support availability requirements,
scalability, capacity planning, continuous upgrades, monitoring of free space,
alerting, reporting accuracy and proactive troubleshooting. (SANJAY
MOHAPATRA, 2009, 29).

Temos como outros benefcios, assertividade, flexibilidade, visibilidade de


solues, tempo de mercado, escalabilidade, capacidade de planejamento,
atualizaes continuas, monitoramento do espao livre, alertas, reporta problemas
com pro atividade e assertividade.

5. METODOLOGIA
Ser realizado o desenvolvimento dos cdigos, execuo dos sistemas,
anlise dos resultados e elaborao de um relatrio com expondo os pontos
positivos e negativos de cada tecnologia.

10

6. RESULTADOS ESPERADOS
Esperamos que os resultados quanto as tecnologias de web crawling, se
mostrem infinitamente superiores quanto a interao humana.
Expondo de forma clara e impactante os benefcios na automao de
atividades repetitivas.
7. CRONOGRAMA DE DESENVOLVIMENTO
Quadro 1 Calendrio de execuo das atividades do Projeto e do
Trabalho de Concluso de Curso
2015

2016

Escolha do tema

Entrega do projeto

Elaborao da monografia (TCC)

Realizao dos captulos

Realizao da concluso e introduo


Correo de textos
Elaborao de elementos pr e pstextuais
Entrega da monografia

JUN

MAI

ABR

MAR

FEV

JAN

DEZ

NOV

OUT

X X

Reviso bibliogrfica
Elaborao do projeto

SET

AGO

ATIVIDADE

11

Defesa da monografia

8. REFERNCIAS
SOGRADY. REDMONK. THE REDMONK PROGRAMING
LANGUAGE RANKINGS: JUNE 2015. Disponvel em:
<http://redmonk.com/sogrady/2015/07/01/language-rankings-6-15/>. Acesso
em: 13 out. 2015.
MOHAPATRA. SANJAY. BUSINES PROCESS
AUTOMATION, NOVA DELI, PRIMERA EDIO, 2009.