Pavel Klemenkov, NVIDIA: Estamos tentando diminuir a distância entre o que um cientista de dados pode fazer e o que ele precisa ser capaz de fazer.

O segundo conjunto de alunos do programa de mestrado em ciência de dados e inteligência de negócios Ozon Masters começou - e para decidir deixar um aplicativo e passar nos testes on-line era mais fácil, perguntamos aos professores do programa o que esperar do treinamento e do trabalho com dados.

imagem O cientista chefe de dados da NVIDIA e o professor do curso de Big Data e Engenharia de Dados, Pavel Klemenkov, conversaram sobre por que os matemáticos escrevem código e estudam no Ozon Masters por dois anos.

- Existem muitas empresas que usam algoritmos de ciência de dados?


- Na verdade muito. Muitas empresas grandes com dados realmente grandes começam a trabalhar com elas de forma eficiente ou já trabalham há muito tempo. É claro que metade do mercado usa dados que podem caber em um tablet Excel ou podem ser contados em um servidor grande, mas é impossível dizer que existem poucas empresas que podem trabalhar com dados.

- Conte-me um pouco sobre projetos que usam ciência de dados.


- Por exemplo, enquanto trabalhamos na Rambler, criamos um sistema de publicidade que trabalha com os princípios do RTB (lances em tempo real) - precisávamos criar muitos modelos que otimizassem a compra de publicidade ou, por exemplo, pudessem prever a probabilidade de um clique, conversão e assim por diante. Ao mesmo tempo, um leilão de publicidade gera muitos dados: registros de solicitações do site para potenciais compradores de anúncios, registros de impressões de anúncios, registros de cliques - são dezenas de terabytes de dados por dia.

Além disso, para essas tarefas, observamos um fenômeno interessante: quanto mais dados você fornecer para o treinamento do modelo, maior será sua qualidade. Normalmente, para uma certa quantidade de dados, a qualidade da previsão deixa de melhorar e, para aumentar ainda mais a precisão, você precisa usar um modelo fundamentalmente diferente, uma abordagem diferente para a preparação de dados, recursos e assim por diante. Aqui, colocamos mais dados e a qualidade aumentou.

Este é um caso típico em que os analistas tiveram que, em primeiro lugar, trabalhar com grandes conjuntos de dados para, pelo menos, conduzir um experimento, e onde era impossível conviver com uma pequena amostra que se encaixa em um macbook confortável. Ao mesmo tempo, precisávamos de modelos distribuídos, porque, do contrário, era impossível treiná-los. Com a introdução da visão computacional na produção, esses exemplos estão se tornando mais comuns, pois as imagens são uma grande quantidade de dados e milhões de imagens são necessárias para treinar um modelo grande.

Surge imediatamente a pergunta: como armazenar todas essas informações, como processá-las com eficiência, como usar algoritmos de aprendizado distribuído - o foco da matemática está mudando para a engenharia. Mesmo se você não escrever um código na produção, precisará trabalhar com ferramentas de engenharia para realizar um experimento.

- Como a abordagem das vagas de ciência de dados mudou nos últimos anos?


- O big data deixou de ser exagero e se tornou realidade. Os discos rígidos são baratos o suficiente, o que significa que há uma oportunidade de coletar todos os dados em geral, para que no futuro sejam suficientes para testar quaisquer hipóteses. Como resultado, o conhecimento das ferramentas para trabalhar com big data está se tornando muito popular e, como resultado, mais e mais oportunidades de trabalho para engenheiros de dados estão aparecendo.

No meu entender, o resultado do trabalho de um cientista de dados não é um experimento, mas um produto que atingiu a produção. E apenas desse ponto de vista, antes do advento do hype em torno de big data, o processo era mais simples: os engenheiros estavam envolvidos no aprendizado de máquina para resolver problemas específicos e não havia problemas em trazer os algoritmos para a produção.

- O que é preciso para se manter um especialista procurado?


- Agora, muitas pessoas chegaram a ciência de dados que aprenderam matemática, teoria de aprendizado de máquina, participaram de concursos de análise de dados onde é fornecida uma infraestrutura pronta: dados são limpos, métricas são definidas e não há requisitos para que a solução seja reproduzível e rápida.

Como resultado, pessoas mal preparadas para a realidade dos negócios começam a funcionar, e é formada uma lacuna entre iniciantes e desenvolvedores experientes.

Com o desenvolvimento de ferramentas que permitem montar seu próprio modelo a partir de módulos prontos - e a Microsoft, o Google e muitos outros já possuem essas soluções - e a automação de aprendizado de máquina, essa lacuna se tornará ainda mais acentuada. No futuro, a profissão exigirá pesquisadores sérios que apresentem novos algoritmos e funcionários com habilidades avançadas de engenharia que implementarão modelos e automatizarão processos. Apenas o curso Ozon Masters em engenharia de dados está focado no desenvolvimento de habilidades de engenharia e na capacidade de usar algoritmos distribuídos de aprendizado de máquina em big data. Estamos tentando diminuir a distância entre o que um cientista de dados pode fazer e o que ele deve ser capaz de fazer na prática.

- Por que a matemática com um diploma estuda administração?


- A comunidade russa de ciência de dados entendeu que habilidade e experiência são rapidamente convertidas em dinheiro; portanto, assim que um especialista tem experiência prática, seu custo começa a crescer muito rapidamente, as pessoas mais qualificadas são muito caras - e isso é verdade no momento atual de desenvolvimento. mercado.

A maior parte do trabalho de um cientista de dados é ir até os dados, entender o que está lá, consultar pessoas responsáveis ​​pelos processos de negócios e gerar esses dados - e só então usá-los para construir modelos. Para começar a trabalhar com big data, é extremamente importante ter habilidades de engenharia - é muito mais fácil contornar cantos afiados, que são muitos na ciência de dados.

Uma história típica: você escreveu uma consulta SQL que é executada usando a estrutura Hive, que é executada em big data. A solicitação é processada em dez minutos, na pior das hipóteses - em uma ou duas horas e, geralmente, quando você recebe os uploads desses dados, percebe que esqueceu de levar em consideração algum fator ou informações adicionais. É necessário reenviar a solicitação e aguardar esses minutos e horas. Se você é um gênio da eficiência, assumiremos outra tarefa, mas, como mostra a prática, temos poucos gênios da eficiência e as pessoas estão apenas esperando. Portanto, nos cursos, dedicaremos muito tempo à eficiência do trabalho para escrever inicialmente consultas que funcionem não por duas horas, mas por vários minutos. Essa habilidade multiplica a produtividade e, com ela, o valor de um especialista.

- Como o Ozon Masters é diferente de outros cursos?


- Os funcionários da Ozon ensinam na Ozon Masters e as tarefas são baseadas em casos reais de negócios que são resolvidos nas empresas. De fato, além da falta de habilidades de engenharia, a pessoa que aprendeu ciência de dados na universidade tem outro problema: a tarefa de negócios é formulada na linguagem dos negócios e seu objetivo é bastante simples: ganhar mais dinheiro. E o matemático sabe bem como otimizar métricas matemáticas - mas é difícil encontrar uma métrica que se correlacione com uma métrica de negócios. E você precisa entender que está resolvendo um problema comercial, formular métricas que podem ser matematicamente otimizadas juntamente com os negócios. Essa habilidade é adquirida à custa de casos reais, e Ozon os fornece.
E mesmo se você desistir dos casos, a escola ensina muitos profissionais que resolvem problemas de negócios em empresas reais. Como resultado, a abordagem para o ensino é ainda mais prática. Pelo menos no meu curso, tentarei mudar o foco sobre como usar ferramentas, quais abordagens existem e assim por diante. Juntamente com os alunos, entenderemos que cada tarefa tem sua própria ferramenta e cada ferramenta possui um campo de aplicabilidade.

- O mais famoso programa de treinamento em análise de dados, é claro, o ShAD - qual é a diferença especificamente dele?


- É claro que o ShAD e o Ozon Masters, além da função educacional, resolvem o problema de treinamento local. Os principais graduados do SHAD são recrutados principalmente para o Yandex, mas o problema é que o Yandex, devido à sua especificidade - e era grande quando não eram boas ferramentas suficientes para trabalhar com big data - tem sua própria infraestrutura e ferramentas para trabalhar com dados, o que significa terá que dominá-los. O Ozon Masters tem uma mensagem diferente - se você dominou o programa com sucesso e o Ozon ou uma das 99% de outras empresas o convida a trabalhar, será muito mais fácil começar a beneficiar os negócios; o conjunto de habilidades adquiridas pelo Ozon Masters será suficiente para começar a trabalhar.

- O curso dura dois anos. Por que demora tanto tempo?


- Boa pergunta. Por um longo tempo, porque o conteúdo e o nível dos professores são um programa de mestrado integral, exigindo muito tempo para dominar, incluindo a lição de casa.

Do ponto de vista do meu curso, é de esperar que o aluno gaste 2-3 horas por semana em tarefas. Primeiro, as tarefas são executadas no cluster de treinamento e qualquer cluster comum implica que várias pessoas o usem simultaneamente. Ou seja, você precisa aguardar a execução da tarefa, alguns recursos podem ser selecionados e transferidos para uma fila de prioridade mais alta. Por outro lado, qualquer trabalho com big data consome tempo.

, — , 25 12:00, Ozon Masters . c Zoom YouTube.

All Articles