Como é a rotina de um cientista de dados

Moço concentrado em analisar curriculos

Os editores escreveram Rusbase Dados cientista Maria Matskevichus da tecnologia St. Petersburg startups F-ScoreLab. A empresa está envolvida na pontuação – avalia a credibilidade dos clientes usando dados e aprendizado de máquina. Maria falou sobre como ela entrou em uma startup, o que exatamente ela faz no trabalho e quanto ganha.

Conte-nos sobre você. Como você entrou em uma startup?

Estou no meu quarto ano na Universidade Estadual de Economia de São Petersburgo, na Faculdade de Economia. Meu perfil são métodos matemáticos em economia e análise estatística. Aprendi sobre o F-ScoreLab quando meu futuro líder chegou à nossa palestra e disse que estava procurando estagiários em sua startup. Ele nos deu uma tarefa de teste bastante complicada. Cerca de dez pessoas escreveram para mim, mas apenas três passaram.

Em que consiste a tarefa de teste?

Foi necessário construir um modelo que previsse a probabilidade de inadimplência do tomador, ou seja, a possibilidade de ele não conseguir pagar o empréstimo. Não estávamos limitados na forma ou método da solução, mas delineamos as principais etapas do trabalho: limpeza de dados, geração de variáveis ​​(engenharia de recursos), construção e treinamento do modelo (seleção e treinamento de modelos), avaliação da qualidade do modelo (avaliação do modelo).

Concluí a tarefa de teste, dois dias depois fui convidado para conversar no Skype para discutir um estágio. Durou um mês e foi pago. Trabalhei, como agora, na posição de cientista de dados, depois fui contratado. Havia três estagiários comigo, mas dois de nós permanecíamos.

Tela de tarefas de desenvolvimento
Tela de tarefas de desenvolvimento

O que exatamente um analista do F-ScoreLab faz?

Desde o início, trabalho com um cliente como ele chega até nós: nos reunimos, discutimos os objetivos do projeto e tentamos entender se podemos resolver o problema dele. Os objetivos são diferentes: redução de atraso, otimização de custos, taxas. Quando fica claro o que precisa ser feito, criamos um modelo com base nos dados existentes do cliente. Recebo dados no formato csv ou excel usual. O ponto principal é que nossa empresa assume o “tormento” de transportá-la e processá-la por nós mesmos: extraímos informações dos bancos de dados e as trazemos de volta ao normal.

Leia mais  O que se deve fazer nos primeiros meses de trabalho

Minha tarefa é limpar os dados e trazê-los para a forma mais interpretada. Esse processo é chamado de limpeza de dados. Eles contêm muitos erros, valores ausentes: por exemplo, na coluna “posição”, pode haver 159 valores “driver” e um valor “driver” com uma letra ausente. Estes são erros de entrada manual. Normalmente, a limpeza de dados leva cerca de 80% do tempo para a construção de um modelo. Não corrijo erros manualmente – escrevo funções para eles ou uso as que foram escritas anteriormente. Os dados são sempre grandes e o conjunto com o qual estou trabalhando agora é de cerca de meio milhão de linhas.

O próximo passo é a geração de variáveis ​​(engenharia de recursos). Para mim, é o mais interessante, pois requer criatividade e compreensão das situações da vida. Você precisa criar variáveis ​​que serão “alimentadas” para os modelos. Podem ser dados disponíveis sobre o mutuário: sexo, idade, histórico de crédito e, por exemplo, alguns dados não tradicionais, como biometria. Destas, já é possível calcular a razão de custos e receita do tomador (nível de estabilidade financeira), a relação de receita em relação à dívida total e outras variáveis ​​derivadas. Você pode usar novas variáveis ​​para construir modelos. Às vezes funciona bem, às vezes não. Você apenas tem que tentar.

Eu também acredito que é importante entender as situações da vida. Eles explicam por que as pessoas fazem ou não pagam a tempo e mostram quais informações solicitar, para que as previsões do modelo sejam mais precisas. Obviamente, você não pode construir hipóteses, mas simplesmente “alimentar” os dados do modelo e examinar as 20 variáveis ​​mais informativas. Mas nossa empresa está constantemente procurando novas fontes de informação. Complementamos os dados recebidos das empresas de crédito, ou seja, adicionamos novas variáveis ​​(colunas). Por exemplo, calculamos a geolocalização, determinamos o número de pessoas que moram neste local, adicionamos dados macroeconômicos: taxa de desemprego, taxa de câmbio. Se o cliente tem fotos do mutuário, nós as analisamos com a ajuda de uma rede neural, ou seja, usamos dados biométricos.

Leia mais  Como sobreviver no escritório: um guia para introvertidos

O próximo estágio é a construção e o treinamento do modelo (seleção de modelo).

O processo é assim: temos dados do passado, por exemplo, o histórico de crédito do cliente, local de trabalho, salário e assim por diante. Eles são chamados de preditores. Com base neles, faremos uma previsão (do inglês para prever). O que queremos prever é chamado de variável de destino. Se houver dados do passado, também conheceremos a variável de destino: este é o número de dias de atraso para cada mutuário. Com base nesses dados, treinamos o modelo para prever o futuro. Usando preditores e metas, ela encontrará padrões que mostram a credibilidade do cliente. Por exemplo, agora eles não dão crédito a pessoas com experiência de trabalho em seu local atual por menos de três meses. Experiências anteriores mostram que esses clientes têm maior probabilidade de receber empréstimos em atraso.

Devido ao fato de termos muitos dados, e os computadores funcionarem melhor do que um agente de empréstimos, encontramos esses padrões mais rapidamente.

Ao ensinar o modelo, também encontramos padrões que uma pessoa não vê, embora essa informação esteja nos dados. Por exemplo, a distância de um assentamento do centro administrativo. Quanto mais a casa do cliente estiver mais próxima, maior a probabilidade de que ele pague o empréstimo no prazo.

Além das minhas principais responsabilidades, escrevo comunicados à imprensa e artigos sobre como armazenar e processar melhor os dados.

Qual é o seu salário? Em que consiste?

Em média, os cientistas de dados [em São Petersburgo] recebem de 60.000 rublos por mês, mas ainda não tenho muita experiência – recebo 40.000 rublos. Na forma de prêmios, temos porcentagens para aumentar os lucros do cliente que usou nosso modelo. Graças a isso, também recebo um salário mais, cerca de 2-5%.

Homem de negócios
Homem de negócios

Conte-nos sobre os benefícios de trabalhar em uma startup.

O mais importante para mim é um horário gratuito. Além disso, eu posso trabalhar de qualquer lugar. Uma vez, meus amigos me ligaram para fora da cidade e, ao mesmo tempo, eu tinha um trabalho inacabado. Levei um laptop comigo, trabalhei e passei um tempo com os amigos ao mesmo tempo.

Leia mais  Como aprender tudo o que você pode aprender no trabalho

Outra vantagem para mim é que ela ensina tudo o que você precisa. Quando eu estava no estágio, liguei para o diretor técnico todos os dias e disse que tinha feito o que tinha que fazer e discutimos meu trabalho. Nossa empresa está interessada em jovens e sua criatividade.

Quais são as dificuldades de trabalhar em uma startup?

Muita responsabilidade me assusta. Isso ficou especialmente evidente durante o estágio. Mas sempre me voltava para alguém mais experiente e coordenava cada passo com a liderança.

Além disso, são necessárias pessoas com aprendizado rápido em uma startup de tecnologia, para que aqueles que estão aprendendo lentamente informações e conhecimentos não possam trabalhar aqui.

Lembre-se do dia mais infernal do seu trabalho

Eu vou falar sobre um caso específico. Quando isso aconteceu comigo pela primeira vez, fiquei em choque. Eu precisava processar informações, o que, como sempre, era muito. Comecei o processo de cálculo. Nas primeiras duas horas se passaram, e o modelo foi todo calculado, depois mais duas – nada. Então eu deixei o laptop para trabalhar a noite. De manhã, esperava ver o resultado, mas os cálculos continuaram! Nada mudou à noite: a tela ainda tremeluzia linhas com a enumeração de parâmetros. Cerca de 35 horas se passaram, durante as quais mantive o laptop sob carga constante, sem fechá-lo. No final, a paciência explodiu e eu parei o processo. O problema é que cometi erros nas configurações do processo. Então, é claro, eles consertaram, mas o caso foi memorável.

O mais importante é parar a tempo, como observou meu diretor técnico.

E os planos de carreira?

Continuarei participando da análise de dados, tentando novas tarefas. Isso não é apenas a pontuação de crédito, mas também a ciência de dados no campo de seguros, clima, depósitos de petróleo e gás, rotatividade e assim por diante. Olhando para o futuro, me vejo como consultor de TI em uma grande empresa como IBM ou Accenture.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *