You are on page 1of 23

NANODEGREE | CHECKLIST DE HABILIDADES DE UM CIENTISTA DE DADOS SUMÁRIO

CHECKLIST DE
HABILIDADES DE UM
CIENTISTA
DE DADOS

1
NANODEGREE | CHECKLIST DE HABILIDADES DE UM CIENTISTA DE DADOS BEM-VINDO À UDACITY

BEM-VINDO À UDACITY

A Udacity é uma plataforma online e global de aprendizado contínuo que


conecta educação e mercado, oferecendo aos estudantes as habilidades
que precisam para se preparar para as profissões do futuro, hoje.

Nossos programas Nanodegree proporcionam credenciais reconhecidas


pela indústria em cursos online sobre diversos assuntos, de veículos
autônomos à inteligência artificial, data science e marketing digital.

Estes cursos são construídos em parceria com as principais empresas


globais de tecnologia e negócios, incluindo Google, Facebook, Amazon,
IBM Watson e Nvidia, na intenção de fechar as lacunas de talentos do
mercado.

Com sede no Vale do Silício, Estados Unidos, também operamos no Brasil,


Europa, China, Índia, Egito e nos Emirados Árabes Unidos. São mais de 40
mil estudantes ativos estudando com a Udacity no mundo todo.

O Brasil já representa hoje o segundo maior mercado para a Udacity, atrás


apenas dos norte-americanos. Além de mais de 40 profissionais na equipe
sediada em São Paulo, temos um time de 250 revisores para cerca de 5,7
mil projetos entregues pelos estudantes brasileiros a cada mês.

ALUNOS EM MAIS DE 160 PAÍSES

CURSOS CRIADOS COM QUEM FAZ O FUTURO

2
NANODEGREE | CHECKLIST DE HABILIDADES DE UM CIENTISTA DE DADOS INTRODUÇÃO

INTRODUÇÃO
À medida que o uso de dispositivos pessoais decolou, uma explosão de
coleta de dados foi imediatamente gerada. É através de uma boa gestão
desses dados que as empresas conseguem aprimorar a experiência do
usuário.
Resultados práticos incluem resultados mais precisos nas buscas feitas
no Google, recomendações mais adequadas de produtos na Amazon e
na Netflix, exibição de conteúdo alinhado aos interesses de cada usuário
do Facebook, otimização do design de uma página e desenvolvimento de
novos produtos, entre outras coisas.
Isso significa que estamos diante de uma oportunidade única, tanto para
empresas quanto para profissionais capacitados. Cientistas de dados já
são os mais procurados nos Estados Unidos e também estão em alta no
Brasil: há diversas oportunidades incríveis para quem embarcar nessa
carreira.
Na Udacity, há uma trilha de cursos em data science feita para que você
aprenda as principais habilidades citadas neste checklist. Construídos em
parceria com grandes especialistas, nossos programas Nanodegree são
constantemente atualizados para refletir o que há de mais moderno na
área.
Os cursos também abrangem diferentes níveis de expertise, de Python
para análise de dados a SQL e tratamento de dados e big data e técnicas
de machine learning.
Estamos felizes por você ter dado o primeiro passo para uma promissora
carreira em data science! Seja bem-vindo(a) ao checklist de habilidades de
um cientista de dados.

3
NANODEGREE | CHECKLIST DE HABILIDADES DE UM CIENTISTA DE DADOS O QUE ABORDAREMOS

CHECKLIST DE HABILIDADES
DE UM CIENTISTA DE DADOS

Estas são as habilidades e competências importantes para ser um cientista


de dados completo. Reserve um tempo para analisar esta lista com calma.
Quantas das opções descritas você domina? Quais você ainda precisa
dominar?

CLI Q UE E M CADA UM DO S TÓPIC OS PAR A E X PL OR AR


MAI S DETALHES .

Programação 06
Python 06
R 07
Planilhas 07
Estatística 08
Estatística inferencial ou descritiva 08
Design experimental 09
Machine Learning 10
Aprendizagem supervisionada 10
Aprendizagem não supervisionada 11
Processamento de dados 12
Python 12
Sistemas de bancos de dados 12
SQL 12
Visualização e comunicação de dados 13
Codificação visual 13
Apresentação dos dados 13
Conhecimento do público 13
Intuição analítica (pensando como um cientista de dados) 14
Gerenciamento de projetos 14
Conhecimento do setor 14
Recursos de aprendizado 16
Comunidades de Python no Brasil 16
Influenciadores de data science e Python 16
Programas Nanodegree 20
Cursos abertos 22

4
NANODEGREE | CHECKLIST DE HABILIDADES DE UM CIENTISTA DE DADOS O QUE ABORDAREMOS

Em cada item das habilidades, você poderá observar cores diferentes


nas caixas de seleção. Essas cores indicam qual o curso da Udacity que
ensinam tais habilidades. Observe o exemplo a seguir:

Nanodegree Fundamentos de Data Science I


Nanodegree Fundamentos de Data Science II
Nanodegree Data Scientist

5
NANODEGREE | CHECKLIST DE HABILIDADES DE UM CIENTISTA DE DADOS PROGRAMAÇÃO

PROGRAMAÇÃO

Programar será grande parte do seu dia a dia. É essa competência


que diferenciará você de um analista de dados ou um estatístico. Em
algum momento, será necessário desenvolver programas que extraem
informações de bancos de dados ou que executem algoritmos de machine
learning.

Portanto, é imprescindível conhecer uma ou mais linguagens de


programação, além de ter familiaridade com as bibliotecas e pacotes mais
utilizados em ciência de dados. Tanto R como Python são boas linguagens
de programação para iniciantes: a popularidade de suas respectivas
comunidades oferece bastante suporte aos programadores.

Python
Python é a linguagem de programação mais utilizada no universo de data
science e machine learning. Por isso, há muitas bibliotecas úteis criadas
especificamente para essa linguagem. Conheça algumas delas:

NumPy: biblioteca otimizada para análises numéricas amplas e


matrizes multidimensionais.
Pandas: biblioteca otimizada para análise de dados.
Matplotlib: biblioteca de plotagem 3D capaz de gerar até mesmo
visualizações interativas.
SciPy: biblioteca voltada para a computação científica e computação
técnica.
scikit-learn: biblioteca de machine learning desenvolvida em
NumPy, SciPy e Matplotlib.
Opcionais:
IPython: shell interativo para Python com ferramenta para
completar o código digitado e edição auxiliada pelo histórico
de comandos.
Jupyter Notebook: interface de programação interativa que
permite a união de código com relatório.
Anaconda: gerenciador de bibliotecas de Python para
ciências, matemática, engenharia e análise de dados, voltado
à simplificação e manutenção da compatibilidade entre as
diferentes bibliotecas.
ggplot: esta se baseia na gramática dos gráficos para a
criação de representações gráficas.

6
NANODEGREE | CHECKLIST DE HABILIDADES DE UM CIENTISTA DE DADOS PROGRAMAÇÃO

R
Linguagem gratuita criada em 1993 com foco em análise de dados e
estatística. Muito utilizada academicamente, a linguagem ainda é bastante
relevante para o mercado de data science. Conheça algumas bibliotecas
de R:
ggplot2: biblioteca para a visualização de dados que pode ser
complementada por ggally e ggpairs.
dplyr (ou plyr): um conjunto de ferramentas para a manipulação
eficiente de conjuntos de dados em R.
reshape2: biblioteca que auxilia no redimensionamento de dados.

Gerenciador de planilhas (como o Excel)


Ferramentas que apresentam dados em linhas e colunas, permitindo fácil
manipulação das informações. Muitas organizações analisam, gerenciam
e comunicam seus dados por meio de planilhas.

Crie painéis e relatórios com tabela dinâmica para compartilhar


com analistas de dados.

7
NANODEGREE | CHECKLIST DE HABILIDADES DE UM CIENTISTA DE DADOS ESTASTÍSTICA

ESTATÍSTICA

É primordial que um cientista de dados conheça, ao menos, o básico de


estatística. Por exemplo: se você for executar um teste A/B, é preciso
ter algum conhecimento em estatística para interpretar os dados que
forem coletados. Você deve estar familiarizado com testes estatísticos,
distribuições, estimadores de máxima verossimilhança, etc. Um dos
aspectos mais importantes de seu conhecimento em estatística será
entender quando técnicas diferentes são (ou não são) uma abordagem
válida.

Estatística inferencial ou descritiva


Um dos conceitos essenciais para entender estatística é a amostragem.
Quando você coleta qualquer dado, muitas vezes só percebe uma
fração ou um subconjunto de todos os possíveis dados naquela análise
específica – a população. As medidas quantitativas que descrevem as
propriedades de uma amostra são chamadas de estatísticas descritivas,
pois representam os dados em questão de forma compacta e clara. Muitas
vezes desejamos inferir as propriedades de uma população maior apenas
examinando nossa amostra. Essas medidas preditivas são conhecidas
como estatísticas inferenciais.
Veja abaixo métodos de estatísticas inferenciais ou descritivas:

Média, mediana e moda.


Distribuições de dados:
Normal.
Exponencial/Poisson.
Binomial.
Chi-quadrado.
Desvio padrão e variância.
Teste de hipóteses:
Valor-p.
Teste de significância:
Teste Z, test t de Student e teste U de Mann-Whitney.
Teste chi-quadrado e teste ANOVA.

8
NANODEGREE | CHECKLIST DE HABILIDADES DE UM CIENTISTA DE DADOS ESTASTÍSTICA

Design experimental
Distribuir corretamente as informações de uma análise ajuda a garantir
a veracidade das conclusões extraídas desses resultados. Design
experimental é o processo que escolhe os diferentes parâmetros que
influenciam uma análise e tornam os resultados válidos e relevantes.
Isso inclui a decisão de quantas amostras precisam ser coletadas,
como diferentes fatores devem ser intercalados, conhecer os efeitos
de cada alteração, etc. Os termos formais utilizados para descrever os
experimentos são úteis para transmitir de forma sucinta e inequívoca os
parâmetros de cada projeto.
Termos de design experimental:

Teste A/B.
Gestão das variáveis e determinação dos melhores grupos de
controle e de teste.
Dimensionamento da amostra e lei de potência.
Teste de hipóteses, hipótese de testes.
Nível de confiança.
Experimentos.

9
NANODEGREE | CHECKLIST DE HABILIDADES DE UM CIENTISTA DE DADOS MACHINE LEARNING

MACHINE LEARNING

Machine learning é uma ferramenta poderosa para cálculo de previsões


e sugestões usando como base a análise de dados. Não será preciso criar
novos algoritmos de machine learning, mas é imprescindível dominar os
algoritmos mais comuns, desde redução de dimensionalidade a técnicas
supervisionadas e não supervisionadas. Alguns exemplos incluem a
análise de componentes principais, redes neurais, máquinas de suporte
vetorial e algoritmo de cluster k-means. Não se preocupe em conhecer
a teoria e os detalhes de implementação por trás desses algoritmos.
Mas é preciso conhecer os prós e contras para definir com exatidão a
aplicabilidade de cada um.

Aprendizagem supervisionada
A aprendizagem supervisionada é útil nos casos em que uma proprieda-
de – geralmente conhecida como rótulo – está disponível para um deter-
minado conjunto de dados (conjunto de treinamento), mas não existe e
precisa ser prevista para outras instâncias (um conjunto de testes dessas
instâncias é utilizado para medir e refinar a eficácia de uma algoritmo de
aprendizagem). Observe que o rótulo pode ser tanto um valor numérico
quanto uma categoria ou classe.
Métodos de aprendizagem supervisionada:

Árvores de decisões.
Algoritmo Naive Bayes.
Método dos mínimos quadrados.
Regressão logística.
Redes neurais.
Máquinas de vetor suporte (SVM).
Métodos ensemble.

10
NANODEGREE | CHECKLIST DE HABILIDADES DE UM CIENTISTA DE DADOS MACHINE LEARNING

Aprendizagem não supervisionada


Nem sempre o objetivo é prever o valor de uma propriedade específica.
Em alguns casos, é preciso descobrir as relações ocultas dentro de um
determinado conjunto de dados. O exemplo mais comum disso é o
agrupamento de itens usando como base suas similaridades e diferenças.
Em situações como essas, o conjunto de dados não define os grupos e,
como resultado, os itens não podem ser pré-designados. Nesses casos,
o conjunto de dados é chamado de não rotulado (quando a atribuição
de cluster pode ser considerada como um rótulo) e o processo de
aprendizagem correspondente é conhecido como não supervisionado.
Métodos de aprendizagem não supervisionada:

Algoritmos de clustering.
Análise do componente principal (PCA, na sigla em inglês).
Decomposição em valores singulares (SVD, na sigla em inglês).
Análise de componentes independentes (ICA, na sigla em inglês).

11
NANODEGREE | CHECKLIST DE HABILIDADES DE UM CIENTISTA DE DADOS PROCESSAMENTO DE DADOS

PROCESSAMENTO
DE DADOS

A parte menos encantadora de data science é a coleta manual e a


depuração desses dados. Mas é esse processo, conhecido como “data
wrangling” ou “data munging” dentro da comunidade científica, que facilita
a consequente exploração analítica. Embora não seja tão elegante quanto
construir modelos sofisticados de machine learning, o processamento de
dados é uma tarefa na qual os cientistas de dados passam entre 50 e 80%
do tempo.
Qual é o motivo para processarmos dados? Muitas vezes, os dados que
você está analisando serão confusos e difíceis de trabalhar. Por isso, é
realmente importante saber como lidar com suas imperfeições. Isso é
mais importante em empresas menores, onde você será o primeiro a
lidar com o banco de dados, ou em empresas orientadas a dados onde o
produto não é relacionado a dados (especialmente por conta do histórico
de pouca atenção a esse tipo de informação).
No entanto, essa habilidade é essencial, independentemente do lugar
onde você trabalhe. Veja os conhecimentos que exige abaixo:

Python: ideal para processamento de dados.xs


Uso da biblioteca String do Python para manipulações dessas
strings.
Análise de formatos de arquivo comuns, como csv e xml.
Expressões regulares.
Transformações matemáticas.
Sistemas de base de dados (baseados em SQL e NoSQL): os
bancos de dados atuam como um ponto central de armazenamento
de informações.
Bancos de dados relacionais, como PostgreSQL, mySQL,
Netezza, Oracle, etc.
Opcional: Hadoop, Spark, MongoDB.
SQL (Structured Query Language): é uma linguagem de pesquisa
declarativa para acessar e manipular bancos de dados relacionais
(RDBMS).

12
VISUALIZAÇÃO E
NANODEGREE | CHECKLIST DE HABILIDADES DE UM CIENTISTA DE DADOS
COMUNICAÇÃO DE DADOS

VISUALIZAÇÃO E
COMUNICAÇÃO DE DADOS

Como cientista de dados, sua função é interpretá-los e comunicar


efetivamente suas conclusões. Dessa forma, os envolvidos no processo
podem tomar decisões embasadas em referências sólidas. Muitos gestores
ignoram os detalhes técnicos por trás de suas análises. Por isso, é muito
importante que você possa comunicar e apresentar suas descobertas de
forma didática, tanto para técnicos como para não técnicos. Além disso, é
importante estar familiarizado com os princípios por trás da codificação
visual desses dados, bem como informações de comunicação.

Visualização e comunicação de dados: saber apresentar os dados


de uma forma compreensível é crucial para o entendimento da
análise.
Compreenda a codificação visual e comunique o que deseja
de forma precisa para o público.
Saiba programar, utilizando bibliotecas como matplotlib e
ggplot.
Faça apresentações convincentes de suas análises.
Contextualize as necessidades do negócio aos dados
analisados.
Esteja sempre cinco passos à frente e tente prever de que
forma o público desafiará suas hipóteses e conclusões.
Antes da apresentação final, faça leituras introdutórias e
reuniões prévias com as partes interessadas.
Criando apresentações: cientista de dados precisam saber como
criar apresentações dinâmicas que envolvam os interessados.
Também precisam entender os diferentes tipos de público-alvo
para cada apresentação e personalizar o trabalho de acordo com
essa distinção.

13
NANODEGREE | CHECKLIST DE HABILIDADES DE UM CIENTISTA DE DADOS INTUIÇÃO ANALÍTICA – PENSANDO
COMO UM CIENTISTA DE DADOS

INTUIÇÃO ANALÍTICA –
PENSANDO COMO UM
CIENTISTA DE DADOS

Seu gerente ou seus colegas de trabalho, como engenheiros ou gerentes


de produtos, podem demandar abordagens conclusivas baseadas nos
dados analisados – mas talvez você não tenha tempo suficiente para
solucionar todas as questões propostas ou analisar todos os dados
coletados. Assim sendo, é primordial ter senso intuitivo para definir o que
é, de fato, relevante e o que não é.
Por exemplo, você entende quais métodos podem ser utilizados ou
quando aproximações fazem sentido? Isso evitará armadilhas e permitirá
que sua concentração permaneça nas questões mais importantes.
A melhor maneira de trabalhar isso é praticar essa intuição analítica com
o maior número de conjuntos de dados que puder. Competições de
análise de dados como Kaggle também podem ajudar a desenvolver esse
tipo de intuição.

Faça as perguntas certas: o cientista de dados precisa ter a


perspicácia de entender qual é o cerne da questão. Ou seja, qual é a
real e exata necessidade de uma empresa que está pautando uma
análise de dados específica.
Reflita sobre o que é importante e o que não é.
Gerencie projetos: o gerenciamento de projetos envolve a
organização de equipes, gestão da comunicação e expectativas
entre os vários departamentos e grupos envolvidos em qualquer
projeto de análise de dados.
Comunique-se adequadamente com todos os envolvidos:
Executivos e patrocinadores do projeto.
Líderes de projetos.
Gerentes de produtos.
Engenheiros, vendas e tecnologia da informação.
Tenha conhecimento específico das áreas de análises: esta
habilidade é desenvolvida por meio da experiência em uma
determinada indústria. Cada conjunto de dados é diferente e vem
com certas hipóteses e conhecimentos específicos de cada setor.
Por exemplo: um cientista de dados especializado em mercado de
ações precisaria de tempo para desenvolver conhecimento técnico
de data science no ramo de restaurantes.

14
NANODEGREE | CHECKLIST DE HABILIDADES DE UM CIENTISTA DE DADOS SUMÁRIO

RECURSOS
DE APRENDIZADO

15
NANODEGREE | CHECKLIST DE HABILIDADES DE UM CIENTISTA DE DADOS RECURSOS DE APRENDIZADO

RECURSOS DE
APRENDIZADO
Parabéns! Você chegou ao fim da lista.
Se você conseguiu identificar habilidades que já possui ou se vai
começar a explorar a lista desde o primeiro item, orgulhe-se: você já está
progredindo. E, como mencionamos no início, estamos aqui para guiá-lo
nessa jornada de aprendizado.

CO M UNI DADE S DE P YTH ON N O B R AS IL

As comunidades de desenvolvedores da linguagem de programação


Python são muito fortes e no Brasil não é diferente: estão espalhadas
por todas as regiões do país e utilizam redes sociais, listas de e-mails e
aplicativos para criar projetos coletivamente, marcar eventos e aprender
com troca livre de informações.
A maior comunidade brasileira é o Python Brasil, que tem 27 núcleos locais.
Dentro de cada comunidade regional, há ainda outra divisão: o Grupo de
Usuário. Os membros são responsáveis por organizar eventos, encontros
para bate-papo e mini-cursos abertos para qualquer integrante.
Há também a PyLadies, voltada para mulheres desenvolvedoras, a Python
Software Foundation, que reúne o maior grupo virtual de desenvolvedores
e ainda tem a vantagem do network internacional.
De maneira geral, ingressar numa comunidade é uma ótima – e gratuita –
oportunidade para progredir em suas habilidades. Qualquer pessoa pode
participar, independente de nível de conhecimento.
Pronto para começar? No site da comunidade Python Brasil, é possível checar
a agenda completa com todos os eventos que ocorrerão em 2018 no País.

IN FLUENCI ADO RES DE D ATA S C IE N C E E PYTH ON

Toda tecnologia aberta possui uma característica: nunca haverá um


ponto final ou uma fase final. Um código aberto pressupõe que sempre
poderá ser incrementado com uma nova lógica, um novo combinado de
comandos.
Em geral, essas novidades são baseadas na experiência de quem atua
com a tecnologia e, a partir disso, torna-se capaz de contribuir para o
aperfeiçoamento das ferramentas.

16
NANODEGREE | CHECKLIST DE HABILIDADES DE UM CIENTISTA DE DADOS RECURSOS DE APRENDIZADO

A riqueza de ecossistemas colaborativos como estes encontra-se no know


how de quem coloca a mão na massa diariamente para identificar pontos
de atenção e propor melhorias contínuas.
Ser profissional de data science hoje exige atualização e conhecimento
do que está em voga, o que não dá mais certo e também das melhores
práticas do mercado.
É por isso que vale a pena seguir os especialistas de Python em data
science e aproveitar o acesso a influenciadores que não medem esforços
para ensinar e aprender, em um ciclo virtuoso onde todos ganham:
experts e iniciantes, teóricos e práticos, amadores e profissionais.

1. Randy Olson
Randy Olson, cientista de dados do Penn Institute for Biomedical
Informatics, é especialista em inteligência artificial na Life Epigenetics e
líder da comunidade DataIsBeautiful — além de coorganizador da Data
Science Philly.
Em seu blog, são abordados assuntos diversos, voltados para ciências
avançadas de dados e tecnologias de aprendizado de máquina. Ele acredita
que o conhecimento precisa ser disseminado e, por isso, publica diversos
estudos em fontes conhecidas pela comunidade de programadores,
como o Github.
Incansável na promoção da ciência aberta e reproduzível, ele estimula
o treinamento das novas gerações de cientistas de dados por meio
de tutoriais em vídeo e workshops presenciais. Sua intenção é que
os próximos analistas de dados sejam eficientes e colaborativos — e
busquem a perpetuação da cultura do conhecimento compartilhado.

2. Hilary Mason
A jovem e experiente cientista de dados Hilary Mason é cofundadora do
Fast Forward Labs — uma empresa de pesquisa de computação cognitiva
— e referência como entusiasta das tecnologias voltadas para a gestão
de dados.
Em seu discurso, ela sempre destaca o potencial tecnológico a ser
utilizado em prol do desenvolvimento de soluções para as empresas e
para a sociedade.
Seu foco está na estratégia de dados como força motriz para organizações,
aceleradoras, comunidades de pesquisa e desenvolvimento de aplicações
digitais.

17
NANODEGREE | CHECKLIST DE HABILIDADES DE UM CIENTISTA DE DADOS RECURSOS DE APRENDIZADO

3. Wes McKinney
O criador de pandas, a biblioteca Python mais utilizada para análise de
dados, também é autor do livro Python Para Análise de Dados, publicado
pela O’Reilly. A obra apresenta ferramentas de modelagem, exemplos de
análise de dados coletados, conceituação e dicas avançadas para quem já
adota pandas.
A desenvoltura de McKinney com o ecossistema Python vem desde 2007,
quando ele criou padrões fáceis e rápidos para exploração de ferramentas
estatísticas.
Depois de passar por diversas empresas inovadoras, startups e
incubadoras, o programador norte-americano agora atua como vice-
presidente sênior e arquiteto de software da Two Sigma, plataforma de
gestão de investimentos.

4. Renee Teate
Com um tom modesto, Renee Teate se apresenta como um eterno
aprendiz da ciência de dados. Mas o Engenheiro de Sistemas é especialista
em estatística avançada, simulações complexas, programação linear e
design de banco de dados.
Atualmente, ele contribui com a James Madson University, nos Estados
Unidos, onde ele coloca seu conhecimento em prática no desenvolvimento
de ferramentas de análise web e aplicações de gerenciamento de dados.
Seu discurso sempre permeia o “Do It Yourself”, incentivando o
autodidatismo — como ele mesmo experimenta o tempo todo apesar de
ser dedicado também aos estudos acadêmicos. Em relação ao Python, suas
publicações no blog Becoming Data Scientist enaltecem a capacidade que o
bom desenvolvedor precisa ter para aprender por conta própria a partir do
conhecimento compartilhado em bibliotecas e comunidades abertas.
Para seguir Renee Teate no Twitter: @becomingdatasci.

5. Jake VanderPlas
Com diversas publicações sobre Ciência da Computação voltada para o
mundo da Astronomia e Astrofísica, Jake VanderPlas também é autor de
Python Data Science Handbook.
Atualmente, ele é diretor do eScience, instituto de pesquisa da
Universidade de Washington. Formado em física e com doutorado em
Astronomia, seus estudos abordam temas específicos, como gravidade e
distribuição da matéria no universo, a partir da exploração de aplicações
astronômicas e banco de dados SciDB.
Apaixonado pela pesquisa científica, seu reconhecimento no meio
acadêmico e no mercado é aproveitado para incentivar práticas
replicáveis da ciência aberta, tendo se firmado como um ativista open
source, principalmente em relação às bibliotecas Python.
18
NANODEGREE | CHECKLIST DE HABILIDADES DE UM CIENTISTA DE DADOS RECURSOS DE APRENDIZADO

6. Sarah Guido
Sarah Guido atua na Mashable com tecnologias disruptivas voltadas
para análise do comportamento do usuário a partir de algoritmos de
machine learning. A cientista de dados é fortemente envolvida com
a comunidade Python, sendo uma das organizadoras do NYC Python
Meetup, considerado o maior evento mundial sobre a linguagem.
Também é autora do Introduction to Machine Learning with Python, um
verdadeiro guia para cientistas de dados interessados em Python para o
desenvolvimento de aplicações de aprendizado de máquina.
Em seu livro, é possível — inclusive, iniciantes — acessar técnicas para
construir soluções de machine learning. Todas as etapas são bem descritas:
desde o levantamento da necessidade, avaliação de modelos e ajuste de
parâmetros até o desenvolvimento de aplicativos com algoritmos de alta
complexidade.

7. Lorena Mesa
A diretora da Fundação Python Software é também coorganizadora da
PyLadies Chicago e da Tech Ladies, comunidades abertas para mulheres
desenvolvedoras — e focadas em Python.
Lorena Mesa também atua como engenheira de software no Sprout Social,
uma poderosa ferramenta de gestão de mídias sociais, que já conta com
mais de 19 mil marcas como clientes.
A plataforma se diferencia pela oferta de recursos que permitem o
envolvimento dos públicos de interesse das empresas e o estabelecimento
de um relacionamento duradouro com eles.

19
NANODEGREE | CHECKLIST DE HABILIDADES DE UM CIENTISTA DE DADOS RECURSOS DE APRENDIZADO

PR O GRAMAS NANO DE GR E E

A Udacity preparou um trilha de cursos online para que você se torne um


cientista de dados completo. Durante os programas Nanodegree, você
realizará projetos que colocam em prática seus novos conhecimentos e
receberá feedback de especialistas para acelerar sua curva de aprendizado.
Ao final, terá um portfólio completo para mostrar suas habilidades ao
mercado.

Nanodegree Fundamentos de Data Science I


Você vai aprender de forma estruturada a programar em Python, a
linguagem de programação mais popular deste mercado – e deixar
de gastar horas no Excel para fazer uma boa análise.
ü Aprenda a resolver problemas utilizando programação;
ü Domine o processo de análise de dados;
ü Construa seu primeiro código para interpretar dados;
ü Manuseie NumPy e Pandas, as principais bibliotecas para
limpar e manipular dados;
ü Aprenda a utilizar o iPython Notebook;
ü Entenda o fluxo de trabalho em data science para aplicá-lo no
seu dia a dia.

Nanodegree Fundamentos de Data Science II


Construído em parceria com Tableau – líder em business intelligence
e analytics do mundo –, este Nanodegree ensina SQL, estatística e
tratamento e visualização de dados, conhecimentos essenciais para
qualquer profissional de data science.
ü Saiba como limpar, manipular e analisar dados com SQL;
ü Aprenda de forma prática conceitos importantes de estatística
como probablidade, distribuição binomial e teorema de
Bayes;
ü Realize testes A/B de maneira correta, aprendendo a validar
estatisticamente suas hipóteses;
ü Entenda como coletar e tratar dados abertos da internet com
Data Wrangling;
ü Construa dashboards e conte histórias através dos dados
com Tableau;
ü Seja introduzido a machine learning e crie seus primeiros
algoritmos preditivos.

20
NANODEGREE | CHECKLIST DE HABILIDADES DE UM CIENTISTA DE DADOS RECURSOS DE APRENDIZADO

Nanodegree Data Scientist


Você vai aprender a manipular e analisar enormes quantidades de
dados, além de criar modelos preditivos para gerar insights e criar
soluções de negócio inovadoras. Entre os principais conceitos:
ü Como o big data se diferencia das demais análises de dados;
ü Os princípios do Hadoop, principal ferramenta para
processamento de big data no mundo;
ü MapReduce, modelo inventado pelo Google que possibilitou
o avanço em big data que vemos hoje;
ü Seus primeiros passos para programar em R, uma das
linguagens de programação mais utilizadas em data science;
ü Habilidades de engenharia de software essenciais para
cientistas de dados: repositório Git, gerenciamento de
versões e contribuições para a comunidade;
ü Aprendizagem supervisionada (machine learning): redes
neurais, árvores de decisão, SVMs;
ü Aprendizagem não-supervisionada (machine learning):
clustering (agrupamento de dados), PCA, seleção e
manipulação de atributos.

21
NANODEGREE | CHECKLIST DE HABILIDADES DE UM CIENTISTA DE DADOS RECURSOS DE APRENDIZADO

CURS O S ABERTO S

Se estiver em busca de um plano de aprendizado com uma demanda


menor de tempo ou algo que preencha uma lacuna específica dentro de
suas habilidades atuais, você pode acessar nossos cursos abertos:

ü Introdução à Ciência de Dados - O que faz um cientista de dados?


Neste curso, vamos pesquisar e estudar a fundo as habilidades
necessárias para se tornar um cientista de dados!
ü Tratamento de Dados com MongoDB - Cientistas de dados passam a
maior parte do tempo depurando dados. Neste curso, você aprenderá
a manipular e converter dados desconexos em material de análise.
ü Análise de Dados com R - Tudo gera dados, mas quase nada
é explorado. Aprenda a investigar, resumir conjuntos de dados
utilizando R e, eventualmente, criar sua própria análise.
ü Introdução a Machine Learning - Esse curso ensina todo o processo
de investigação dos dados sob a lógica do machine learning. Além
disso, você poderá aplicar os conceitos em um conjunto de dados do
mundo real.
ü Visualização de Dados e D3.js - Aprenda os fundamentos da
visualização de dados e aplique conceitos de design e de narrativa.
ü Fundamentos da Programação com Python - Comece a aprender
Python e conceitos de orientação a objeto.
ü Design de Programas - Aprenda algoritmos clássicos extremamente
relevantes atualmente.

22
CHECKLIST DE HABILIDADES DE UM

CIENTISTA DE DADOS

br.udacity.com • Central de Ajuda

23