Raio-X: A anatomia de um Cientista de Dados

02/06/2016

Existem diversas definições válidas para o termo “ciência de dados”. Gosto particularmente de uma que diz que a ciência de dados é a arte de construir modelos a partir das “coisas que sabemos que conhecemos” (“known knowns”, em Inglês) que, quando aplicados, funcionam para as “coisas que não sabemos que não conhecemos” (ou “unkown unknowns”).

É importante recordar que o cientista de dados é, em sua essência, um cientista. Por isso, tem que possuir todos os atributos de um cientista tradicional – como curiosidade natural, resiliência, persistência, habilidade de lidar com fracasso, entre outros – aliados a ferramentas e conhecimentos de dados e estatística: 

É proposital que a altura do pi seja a mesma do t no desenho acima. O cientista de dados não é menos profundo em conhecimento do que um cientista tradicional; tem conhecimentos adicionais (em computação e estatística) em mesmo nível de profundidade que o domínio de um tema, como vendas, marketing ou operações.

As características básicas que compõem um bom cientista de dados podem ser vistas abaixo: 

 

Como o desenho mostra, além de precisar de um conjunto multidisciplinar de habilidades, o cientista de dados pode se desvirtuar ou se confundir com outras atividades não tão apreciadas no mundo corporativo atual.

Mas, então, para alguém se tornar um cientista de dados, basta ser curioso, entender de estatística e algo de computação, certo? Errado!

Só porque você aspira a ser um cientista de dados não significa que você já está qualificado para tal. Listo abaixo alguns sinais que mostrarão se você não está qualificado (ainda?) para esse trabalho:

• Você não possui habilidades avançadas - Um estudo de salários de cientista de dados descobriu que 88% deles têm pelo menos um mestrado e 46% possuem Ph.D. Os campos de formação variam de matemática até estatística, ciência da computação a engenharia, ou até mesmo economia e pesquisa operacional. Mas o fato é que, sem possuir a formação em um grau avançado, é incrivelmente raro alguém ter as habilidades técnicas necessárias para ser um cientista de dados.

• Sua formação é estritamente acadêmica – Pessoas que tenham estudos avançados e que só tenham experiência no mundo acadêmico devem trabalhar no desenvolvimento de sua perspicácia em negócios. Os melhores cientistas de dados são capazes de relacionar dados puros com aplicações de negócios no mundo real.

• Excel é a sua ferramenta de análise primária - Se o Excel é a sua caixa de ferramentas, você pode estar trabalhando com dados, mas não é um cientista de dados. Você provavelmente já sabia disso. Por outro lado, sabendo como usar Hadoop, Python - e não apenas AWS - não garante que você seja a pessoa certa para o trabalho, mas que pode criar com essas ferramentas exemplos de experiências com dados não estruturados.

• Você não acrescenta nada aos dados - Para mim, a qualidade mais importante de um cientista de dados é a capacidade de agregar valor aos dados por meio da análise e interpretação. Qualquer pessoa pode apresentar os fatos que os dados fornecem. Um bom cientista de dados, porém, será capaz de apresentar esses fatos com interpretação e visualização que ajudará os executivos e cientistas (que não são de dados) na organização a captarem o sentido deles e tomarem decisões importantes.

• Você não é criativo - Pode ser apenas o estereótipo do cientista ou estatístico, mas as pessoas não tendem a ver um cientista de dados como criativo. No entanto, a criatividade é uma característica-chave para um bom cientista de dados, porque em suma ele é um contador de histórias. Dados são inúteis sem contexto, e faz parte do trabalho do cientista de dados fornecer contexto e mostrar como os dados podem ajudar a resolver problemas complexos.

Tomando como base os cinco pontos acima, que mostram o que é necessário para atuar como cientista de dados, elenco algumas falhas de candidatos em entrevistas para vagas na área.

Seja por estar estudando disciplinas de estatística, matemática ou computação e já estar atuando em alguma área correlata, ou por ter interesse e ter iniciado um processo de seleção para alguma vaga de Cientista de Dados, preste atenção para não cair em algumas armadilhas que identificam “falsos” cientistas de dados (ou pouco entendimento das empresas sobre o que desejam de um cientista de dados):

• Não entender se querem contratar um cientista ou um desenvolvedor - Em muitos casos, os empregadores querem contratar essencialmente um desenvolvedor ou um codificador, mas que também seja um cientista – em suma, um unicórnio. Você pode ser capaz de convencê-los que é bom em ambas as tarefas, enfatizando sua perspicácia em negócios, com base em histórias de sucesso verificáveis com fatos concretos e fáceis de quantificar com algumas métricas de performance.

• Candidatar-se ao emprego errado – Caso você se candidate a uma posição de codificador, sendo um cientista, seja muito claro antecipadamente sobre quem você é. Isso vai poupar muito tempo para todo mundo, inclusive você mesmo.

• Ignorar questões de negócios durante a entrevista – E, em vez disso, focar exclusivamente em código, tecnologia, ou teoria.

• Oferecer respostas artificiais às perguntas, destinadas a seduzir o entrevistador, dizendo exatamente o que ele espera ouvir.

• Falta de menção a histórias de sucesso, juntamente com métricas que medem o sucesso em questão (como redução de custos em 30%, aumento da retenção de 20%).

• Não saber sobre ferramentas, técnicas, plataformas ou linguagens de programação que seus subordinados (se você for contratado), estarão usando. Pelo menos você deve ter uma idéia geral sobre eles: por exemplo, ser capaz de responder quais são as diferenças entre “Python” e “R” mesmo se você nunca usou essas linguagens. É uma boa idéia pedir ao RH informações sobre quem serão seus entrevistadores, e fazer alguma pesquisa sobre seus antecedentes, utilizando LinkedIn. Até mesmo se conectar com eles na rede.

• Não saber as tendências em sua indústria - Você não responder a perguntas como "como você acha que deep learning irá evoluir ao longo dos próximos 5 anos" ou "é a Internet das coisas ou a AI que veio para ficar?".

• Não diferenciar-se dos outros candidatos ou não mencionar seus pontos fortes(por exemplo: um geek que entende os termos de negócio; um analista que se esforça para completar todos os projetos antes do tempo; um cara que adora automatizar suas tarefas sempre que possível para poupar tempo e para lidar com maiores cargas de trabalho; alguém que trabalha muito bem em equipe e que sabe quem delegar e até mesmo inspirar e gerar energia positiva para os colegas; ou alguém que é um autodidata e aprendeu Python e R tudo por si mesmo; um cara que desenvolve aplicativos populares durante seu tempo livre; um autor respeitado com o seu próprio blog e artigos; experiência com enormes conjuntos de dados, como terabytes; ou um analista que adora otimizar processos e pode fornecer exemplos).

• Chamar um conjunto de dados com 100.000 observações de 'big data'.

• Pensar que as técnicas que você aprendeu na escola podem ser aplicadas a qualquer tipo de problemas ou de dados, com pouco ou nenhum ajuste. Não estar ciente de que técnicas robustas, modernas e escaláveis possam não ter sido ensinadas na escola. Uma solução é catalogar alguns dados (há toneladas de conjuntos de dados gratuitos) e usar uma ferramenta moderna, como um algoritmo catalogador, para processar automaticamente alguns gigabytes de dados. Agora você tem algo interessante para falar durante a sua entrevista de emprego, especialmente se pode descrever os benefícios que ela oferece (automatização, indexação rápida de grandes volumes de dados não estruturados, a criação de motores de busca ou taxonomias como a enorme lista de produtos da Amazon).


• Não conseguir dizer muito sobre a velocidade (complexidade computacional) de vários algoritmos, oferecendo soluções lentas/ineficientes, quando solicitado a resolver um problema, não sabendo onde as complexidades e gargalos estão em plataformas modernas.

• Acreditar que o dado é rei - Não ser capaz de imaginar possíveis fontes de tendências e variâncias. Não ter nenhuma experiência em trabalhar com dados desorganizados. Não saber como os dados são produzidos e como as métricas são identificadas. Só poder falar sobre dados estáticos.

• Não ser capaz de dizer os prós e contras de plataformas de dois produtos populares, arquiteturas, linguagens de programação ou algoritmos. Você precisa ler a literatura para se familiarizar com isso. Por exemplo: R contra Python; as 8 piores técnicas preditivas; 10 tipos de regressões, qual escolher; ou Hadoop contra Spark.

• Não mencionar qualquer trabalho em equipe que fez no passado.

Agora que falamos um pouco do que caracteriza um cientista de dados, vamos falar sobre o que ele faz. Há cinco grandes grupos de atividades relacionadas ao trabalho com dados:

1. Formulação de questões ou definição de problemas;

2. Criação de hipóteses para tratamento dos problemas;

3. Coleta e geração de dados;

4. Análise dos dados, testes das hipóteses e definição das conclusões;

5. E por fim, a comunicação dos resultados e tomada de ação.

Para as etapas 1 e 2, conhecimento de negócios é o fator mais relevante e muitas vezes não é o foco do trabalho do cientista de dados. Já as etapas 3 a 5 envolvem, em maior ou menor grau, conhecimento de tecnologia e programação, além de estatística e matemática.

Um estudo feito em 2015 pela Analytics Week & Business Over Broadway com mais de 490 profissionais de dados, onde foram solicitados a informar sua proficiência em 25 elementos numa escala de 0 (não conheço) a 100 (sou expert), chegou à distribuição de áreas de conhecimento abaixo:

Na distribuição acima, habilidades com “S” são Estatísticas; “T” são Técnicas; “B” são de Negócio; “M” são de Matemática e “P” são de Programação.

Já sabemos o que um cientista de dados faz, quais são seus conhecimentos e habilidades, como evitar ciladas em processos de recrutamento ou composição de equipes de análise e características de profissionais correlatos.

E se eu ainda não sou um cientista de dados, como desenvolver as habilidades necessárias para tornar-me um? Existem muitos recursos na Internet mas não quero dar a impressão de que a jornada para tornar-se um cientista de dados é baseada apenas em disciplina para se inscrever e assistir às aulas de MOOCs (Massive Open Online Courses), modelo de ensino bastante comum e divulgado atualmente.

A menos que você tenha uma formação quantitativa muito forte, a estrada para tornar-se um cientista de dados será extremamente complicada, mas não impossível. Se for algo que você está sinceramente interessado em perseguir, e se tem uma paixão por dados e por aprendizado contínuo, não deixe que suas experiências (ou a falta delas) o desencorajem a perseguir este caminho como carreira.

Abaixo, uma lista de recursos que lhe podem ser úteis:

• Graduação Avançada – Mais programas de ciência de dados estão começando a atender a demanda, mas existem muitos outros programas de matemática, estatística e ciência de computação.

• MOOCs – O courseraUdacity, e codecademy são bons lugares para começar.

• Certificações – O site KDnuggets compilou uma lista extensa.

• Bootcamps – Para mais informações sobre como esta opção se compara a programas de graduação ou MOOCs, visite este blog dos cientistas de dados do Datascope Analytics.

• Kaggle – O kaggle promove competições de ciência de dados onde você pode praticar, reforçar seus conhecimentos com dados reais e atacar problemas reais de negócios. Empregadores estão começando a avaliar o ranking do Kaggle, pois ele reflete experiência prática em casos e problemas reais.

• Grupos do LinkedIn – Inscreva-se em grupos relevantes para interagir com outros membros da comunidade de cientistas de dados.

• Data Science Central e KDnuggets – Data Science Central e KDnuggets são bons recursos para manter-se atualizado nas tendências, métodos, ferramentas e práticas no universo da Ciência de Dados.

Agora, gostaria de retomar uma pergunta importante: o cientista de dados não trabalha sozinho, trabalha? Quais são os outros perfis que compõem uma equipe de análise de alta performance nas organizações? Como interagem entre si? Falemos disso no próximo artigo.

*Daniel Lázaro é diretor executivo para Tecnologias de Analytics da Accenture na América Latina.

 

Site: Computerworld
Data: 02/06/2016
Hora: 06h30
Seção: Carreira
Autor: Daniel Lázaro
Foto: ——-
Link: http://computerworld.com.br/raio-x-anatomia-de-um-cientista-de-dados