Cientistas de dados – O que fazem e como se tornar um

Pessoal desenvolvendo

A transformação digital finalmente chegou ao setor industrial. Portanto, os tempos em que as empresas precisavam apenas de instaladores, engenheiros, gerentes de local e operadores de máquinas já passaram. O serviço de RH descobre aplicativos para procurar funcionários como cientista de dados, designer de produtos e scrum master.

A Rusbase, juntamente com a equipe de digitalização da SIBUR, entende que tipo de novos especialistas estão aparecendo no mercado de trabalho e modernizando o setor. Nesta edição, Alexander Loskutov, analista de dados da SIBUR Holding, falará sobre sua profissão.


Profissão: Cientista de Dados.

A essência do trabalho: análise de dados, revelando neles leis e regras não óbvias que são difíceis para uma pessoa comum encontrar e formular manualmente e corretamente.


Um cientista de dados é o mesmo analista de dados , costumamos nos chamar assim. O Data Scientist, é claro, parece mais legal, mas somos chamados em pessoas comuns. Isso é para garantir que você não fique surpreso se eu raramente mencionar cientistas de dados e frequentemente analistas. Que sejam sinônimos.

Para aqueles com quem eu me comunico constantemente (família, amigos), eu já expliquei o que é. Além disso, a maioria dos meus amigos tem formação matemática e entende minha profissão. Para todos os outros, sou o mesmo “tyzhprogramist” ou “tyzhaitishnik” que ajuda seus amigos a configurar computadores e Wi-Fi em seu tempo livre. 

Quem é um cientista de dados?

A maneira mais fácil de explicar com exemplos. Veja o mercado de polipropileno. Existem preços de produtos formados com base em alguns fatores, por exemplo, o custo de matérias-primas, taxas de câmbio, indicadores macroeconômicos de vários países ou a situação em torno das fábricas de polipropileno. Tudo isso afeta a dinâmica do preço do polipropileno, mas como exatamente é incompreensível. 

Todo mundo conhece apenas uma dependência aproximada, como se o custo do petróleo aumentar, o polipropileno pode subir de preço ou pode não subir de preço se alguns outros fatores forem importantes. Em geral, análises de sofá em borra de café. Até que um cientista de dados chegue.

Ele usa algoritmos estatísticos e de aprendizado de máquina para identificar a dependência do custo do polipropileno. Relativamente falando, ele pode calcular que um aumento no preço de um barril de petróleo em US $ 10 aumentará o preço de uma tonelada de polipropileno em US $ 5. Essas informações são necessárias para prever o desenvolvimento de eventos e tomar uma decisão de negócios. 

Por exemplo, como resultado de cálculos, pode ser recomendado que a fábrica compre mais matérias-primas se o preço for baixo, a fim de economizar quando o custo subir. Ou prever preços em diferentes mercados para escolher onde é mais lucrativo vender um produto, levando em consideração outros fatores que afetam o lucro. Existem muitas opções para usar previsões.

Outro exemplo Suponha que haja uma planta coletando motores. Uma parte importante do motor é o bloco de cilindros, que às vezes se mostra defeituoso, por exemplo, cerca de 5% da massa total. É verdade que ocorre apenas durante os testes do conjunto do motor e, nesse caso, devido à unidade defeituosa, todo o motor é enviado para aterro. 

O analista está tentando prever o uso de um modelo de aprendizado de máquina , seja um bloco de cilindros defeituoso ou não. Mas esse modelo por si só não resolve o problema de negócios. 

Leia mais  6 sinais de que esta vaga de trabalho não é para você

Portanto, o analista que usa esse modelo tenta responder à pergunta: quais blocos serão descartados e quais serão permitidos antes do teste para minimizar os custos (jogando blocos que consideramos defeituosos + quebra do motor durante o teste por causa dos blocos permitidos antes do teste) . Assim, resulta não apenas um modelo no vácuo, mas já uma solução de negócios específica.

Trabalhando com dados, tentamos sistematizar a experiência de outras pessoas. Por exemplo, ao decidir como manter os parâmetros definidos e o modo desejado de operação do equipamento, os tecnólogos contam com a documentação técnica e sua própria experiência. Mas muitas vezes há a oportunidade de oferecer uma solução mais ideal que uma pessoa pode não perceber ou não conhecer. 

Por exemplo, às vezes a produção pode funcionar por um curto período de tempo em modos diferentes do habitual. O efeito a longo prazo de tais mudanças é difícil de identificar, mas com a ajuda da análise de dados é possível entender se elas eram mais ou menos ótimas em termos de custos a longa distância. É praticamente impossível para uma pessoa rastrear esse efeito, pois é necessário ter um modelo de trabalho de produção para prever resultados.

Como ele faz isso?

As tarefas são definidas pelo proprietário do produto ou gerente de projeto. Por exemplo, para desenvolver e introduzir algum tipo de modelo na produção. O proprietário do produto avalia a complexidade da tarefa e coleta a equipe necessária para a solução: cientista de dados, desenvolvedores de front-end e back-end, designer e assim por diante. Pode haver vários especialistas de cada especialidade, ou talvez nenhum, dependendo da tarefa e da solução proposta. 

Vou contar como estamos construindo um modelo no SIBUR. Suponha que desejamos prever o fato de peças defeituosas de acordo com os dados dos sensores na produção.

  1. O primeiro passo é a coleta de dados . O analista prepara os dados para análise: uploads de várias fontes, processa lacunas de dados (valores que deveriam ser, mas estão ausentes). A saída é uma tabela.
  2. A segunda etapa é uma análise preliminar . Pode ser útil desenhar gráficos diferentes e estudá-los cuidadosamente. Como brincadeira, alguns analistas chamam isso de “olhar”. Isso pode fornecer considerações interessantes, ajudar a identificar esquisitices e muito mais que ajudarão a resolver o problema.
  3. O terceiro estágio é a construção de uma descrição de recurso . Vou explicar o que é isso. Já temos uma tabela com dados dos sensores, mas na maioria dos casos isso não é suficiente. É necessário calcular independentemente algumas quantidades que podem ajudar a classificar uma peça como defeituosa. 

Por exemplo, pode não ser suficiente medir a temperatura em diferentes pontos da peça com sensores. Faz sentido calcular a média aritmética de todos esses sensores, bem como a temperatura máxima, mínima, variação de temperatura e muito mais. 

Assim, calculando e adicionando novos valores, expandimos a descrição característica de nossa parte. É essa descrição (um conjunto de números para cada parte) que usamos para construir o modelo. Em nosso exemplo, o modelo será um algoritmo que tenta restaurar o relacionamento entre a descrição do recurso da peça e a resposta (se existe um casamento ou não).

Muitos modelos já foram implementados e precisam apenas ser treinados, ou seja, fornecer sinais e respostas para que o modelo selecione os parâmetros do algoritmo de forma predeterminada.

Como resultado, o modelo geralmente é um código que pode ler dados (por exemplo, de uma planilha do Excel ou de um banco de dados), criar previsões e gravar o resultado (novamente em uma tabela ou banco de dados).

Leia mais  Cientista de dados: o que você precisa saber
Cientista de dados
Cientista de dados

Mas, nesta forma, o modelo ainda não pode ser considerado completo. O modelo deve ser implementado e trabalhar com o cliente.

Se falamos de projetos específicos nos quais participei da SIBUR, a primeira foi a tarefa de desenvolver um modelo para a produção de isobutileno, que deveria prever coqueificação. Depósitos de carbono se formam nas grades do reator, o que pode danificá-las. 

Além do próprio modelo, era necessário fazer uma visualização das previsões, que deveriam ser atualizadas em tempo real após cada recálculo das previsões, bem como carregar regularmente dados relevantes no banco de dados para o cálculo das previsões. Eu estava envolvido nessa tarefa sozinho, enquanto periodicamente utilizava a ajuda de colegas em alguns problemas relacionados ao sistema de armazenamento de dados de produção.

Outra tarefa muito mais extensa, na qual continuo trabalhando até agora, é o desenvolvimento de um programa de consultoria para a produção de desidrogenação de propano. O modelo deve levar em consideração um grande número de parâmetros de um processo de produção muito complexo, e a solução final deve permitir que os tecnólogos planejem a instalação nos próximos anos. 

Neste projeto, eu já falo mais como arquiteto e desenvolvedor de uma estrutura responsável por todos os cálculos. Ao mesmo tempo, meu colega, que também é analista de dados, mas com formação em química especializada, resolve mais problemas de modelagem, incluindo o uso de química e física, embora essa separação de tarefas seja muito arbitrária. Também desenvolvedores de front-end estão participando deste projeto, pois a parte visual da nossa solução é bastante complicada.

Como se tornar um cientista de dados? 

Vou contar a minha história e você levanta as mãos se se reconhecer. Quando criança, eu tinha sonhos clássicos de quem me tornaria quando crescesse. Eu não lembro exatamente, provavelmente, bombeiros. Então ele queria seguir os passos de seu pai, que supervisionava a construção de torres e torres para comunicação. 

Desde a infância, eu gostava de matemática, desde o ensino fundamental que participei das olimpíadas. Após a formatura, ele decidiu ir para o MIPT (Instituto de Física e Tecnologia de Moscou). Existe a Faculdade de Inovação e Alta Tecnologia (FIVT), com uma direção econômica. 

Eu pensei que aprenderia matemática e economia lá e depois me tornaria um empreendedor (então pensei que funcionasse dessa maneira). O que exatamente eu ia fazer é desconhecido. Mas quando, no segundo ano, começamos as aulas de micro e macroeconomia, pareceu-me que isso era algum tipo de absurdo e absolutamente não meu. Mas a programação, que ocorreu desde o primeiro ano, pelo contrário, realmente gostou. C ++, algoritmos de dados – isso é tudo.

Como resultado, no meu terceiro ano, escolhi o departamento de análise de dados, supervisionado pela Yandex. Também fui para a magistratura deste departamento e, no início do quinto ano, entrei na Yandex Data Analysis School, enquanto continuava trabalhando nesta empresa. Lá, eu estava desenvolvendo soluções de aprendizado de máquina para clientes externos. 

O Yandex se tornou para mim uma plataforma de lançamento, onde ganhei experiência. Então, ele se mudou para Sberteh, onde trabalhou por um ano e meio e, de fato, fez o mesmo.

Leia mais  Como é a rotina de um administrador de sistema

Uma vez ouvi dizer que a SIBUR havia iniciado a digitalização: meus amigos vieram trabalhar e me disseram que o processo realmente estava acontecendo na realidade, e não apenas no papel. É claro que nem todas as plantas ficam felizes ao perceber interferência em seus processos usuais. Muitos não entendem por que isso é necessário, se tudo já estiver funcionando bem. Como resultado, as pessoas realizam mudanças realmente positivas e as implementam.

O Data Scientist é uma profissão que está se tornando cada vez mais procurada a cada ano. Mas se você deseja obter resultados sérios e se desenvolver como especialista, precisa aprender muito e trabalhar.

Provavelmente, com o tempo, algumas das funções dos analistas podem ser substituídas por algoritmos, mas ainda serão insuficientes para resolver problemas complexos. E, como não há muitos especialistas experientes e alfabetizados nesse campo, serão necessários dados interessantes sobre os cientistas no futuro.

Além da matemática, a programação também é uma habilidade importante. Apenas aprender o modelo não é suficiente, geralmente é necessário escrever toda a ligação que processa os dados de entrada e fornece o resultado do modelo na forma correta. E se a tarefa em si é complexa, requer a participação de vários membros da equipe e a solução consiste em um grande número de componentes, é difícil fazê-lo sem dominar as habilidades de desenvolvimento. 

Além disso, o conhecimento de algoritmos, o entendimento das estruturas de dados e os princípios de operação dos sistemas permitem escrever códigos mais estáveis, mais rápidos e que exigem menos recursos de computação.

O que mais você precisa ter?

Além da educação, existem várias qualidades que acho úteis para um cientista de dados.

A mentalidade matemática . No processo de tomada de decisão, uma pessoa deve ser guiada principalmente por conclusões lógicas.

Pensando fora da caixa . Muitas vezes acontece que, para que tudo funcione, basta adicionar ou substituir apenas uma linha no código. E o analista precisa descobrir qual.

Perseverança . Cientistas de dados têm muito trabalho de rotina, por exemplo, download e pré-processamento de dados, hipóteses de teste não são as etapas mais interessantes e agradáveis ​​do fluxo de trabalho. Mas sem eles, o restante do trabalho é impossível, portanto o especialista deve ser capaz de se forçar a fazer algo não muito interessante. 

Meticulosidade . Por exemplo, é importante para mim chegar sistematicamente ao fundo da questão, mesmo que, de fato, não seja importante. 

Por exemplo, depois de assistir a um filme da Marvel, posso gastar muito tempo organizando informações sobre esse universo cinematográfico: sobre super-heróis, sua história, habilidades e relacionamentos, sobre eventos significativos e assim por diante. No trabalho, essa qualidade é necessária para entender as nuances da aplicação de vários algoritmos e modelos, até os detalhes da implementação.

Obviamente, atenção aos detalhes e perseverança são muito importantes para os cientistas de dados. Mas isso não significa que perseverança ou talento apenas para a matemática o tornem um profissional.

O Data Scientist é uma profissão de propósito e entusiasmo. Para quem não tem medo de dificuldades e não sai do negócio pela metade. E se todas as opções acima são sobre você, por que você ainda não está conosco na equipe?

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *