O AutoML é ótimo e poderoso

No momento, talvez, não haja uma única pessoa interessada em tecnologia da informação e que não tenha ouvido falar que o aprendizado de máquina, mineração de dados e sistemas de suporte a decisões são uma das áreas principais para a implementação de cenários de transformação digital.

Os cenários de negócios que usam o ML (aprendizado de máquina) abrangem todas as áreas da empresa e usam a maioria dos tipos de dados: tabular, texto e áudio, imagens, etc. Há cada vez mais projetos, e o número de especialistas não cresce tão rápido. Há uma idéia de que parte do trabalho desses dados "caros" que os cientistas podem ser automatizados. E aqui o AutoML vem em socorro.

Por AutoML, eles significam coisas diferentes. Na SAP, acreditamos que seja a automação das operações rotineiras da Data Science. Provavelmente, não é necessário descrever a definição em mais detalhes neste artigo, pois Aleksey Natekin já fez tudo muito bem aqui .

Se você assiste ao vídeo, não há desejo, mas aqui estão algumas reflexões sobre o assunto:

imagem

Há um bom exemplo sobre esse assunto. Uma vez, no grupo DS, discutimos um caso a partir da prática - uma pessoa que reivindicou o papel de DS sênior veio para uma entrevista, tudo o
que ele pôde fazer foi executar uma das ferramentas populares do AutoML. Para uma pergunta razoável, como alguém pode se qualificar para um nível Sênior com esse conhecimento, sua resposta foi impecável: "Trago dinheiro para os negócios, e essa é a minha ferramenta". Ou seja, o AutoML em cenários em que os dados já são coletados ordenadamente nas fachadas das lojas, os recursos de domínio são gerados e as métricas de qualidade são definidas, o que permite iniciar rapidamente um novo serviço. Sim, o resultado pode ser pior que o prof. DS, mas provavelmente melhor que junho, e em alguns casos, você pode usá-lo imediatamente.

Aqui estão mais exemplos do que as pessoas populares da comunidade pensam sobre isso (o primeiro comentário refere-se a uma discussão das notícias que o AutoML do Google ocupou o 2º lugar).

imagem

E o uso de um grande número de recursos é obtido, porque agora não há meta-treinamento avançado. Mais precisamente, é importante em algumas decisões ou em um estágio muito inicial de prontidão. Também pode ser encontrado na forma de protótipos. O resto é uma pesquisa aleatória de hiperparâmetros ou abordagens mais promissoras: TPE, otimização bayesiana, NAS, RL.

Para que as soluções e abordagens AutoML possam ser comparadas, apareceu uma referência aberta. As soluções comerciais não gostam dessas comparações por uma razão muito simples - o confronto aberto é quase impossível. Além da precisão, há muito foco nos tipos de dados, incorporação e uso. Para fazer o modelo em si é de 15 a 20% do trabalho (ou talvez menos), além disso, há uma enorme camada de outros trabalhos - desde transferências, até a publicação do serviço.

A SAP assume sua posição no mercado de AutoML. Temos vários motores diferentes com diferentes níveis de maturidade.

A SAP Automated Preditive Library no SAP HANA, que apareceu historicamente após a aquisição do KXEN em 2013, foi desenvolvida exclusivamente como uma ferramenta para a implementação mais rápida possível de modelos. É conveniente quando não há um orçamento pesado (a tempo) para modelos de treinamento, mas um resultado de alta qualidade é importante. De fato, considere isso uma versão rápida do AutoGBDT.Agora existe um wrapper python familiar para a maioria das pessoas, e se parece com isso (Fig. 1).

imagem
Imagem 1.

A segunda filial da solução AutoML no SAP Data Intelligence da SAP apareceu em dezembro de 2019. Essa é uma abordagem criada com base em ferramentas familiares de código aberto e complementada por nossos próprios desenvolvimentos. Aqui, o tempo de cálculo possível é configurado e, dentro do cluster, a combinação ideal de etapas, algoritmos e hiperparâmetros é selecionada, onde o pipeline final se parece com isso (Fig. 2).

imagem
Figura 2.

Esse é o AutoML, que faz parte da plataforma SAP Data Intelligence e pode funcionar na nuvem e no local. Além disso, tudo o que é necessário para gerenciar conjuntos de dados, integração e, talvez o mais importante, os mecanismos de integração padrão no SAP S / 4HANA com a geração de interfaces e serviços aparece aqui.

Se considerarmos as próximas etapas, é bastante óbvio que os dados, do ponto de vista dos negócios, devem estar saturados com anotações que serão relevantes para determinadas tarefas. Esses são sinais de domínio e as melhores formas de agregação com certos relacionamentos de objetos de negócios e redes micro-neurais pré-treinadas - extratores de recursos.

Se você olhar para competições e artigos no campo do AutoML, poderá identificar claramente as seguintes áreas:

  1. Tabela automática - Dados tabulares
  2. AutoCV - Imagens e Vídeos
  3. AutoNLP - textos
  4. AutoTS - Séries temporais
  5. AutoGraph - gráficos
  6. AutoSpeach - som
  7. AutoAD - pesquisa de anomalias

Suponho que também haverá soluções no AutoRL - para treinamento com reforços.

Atualmente, a SAP está focada no trabalho com dados tabulares, séries temporais e anomalias em termos de soluções AutoML. O motivo é simples: só é possível construir uma empresa inteligente com um grande número de modelos em cada uma das áreas de negócios.

Bem, é claro, cada empresa tem suas próprias especificidades; portanto, se os modelos padrão (típicos) não são adequados, sua personalização é necessária. E a maneira mais fácil de fazer isso é usar ferramentas que não exijam a participação de especialistas em DS.

Em geral, muitas coisas novas e interessantes nos aguardam no futuro ...

Postado por Dmitry Buslov, arquiteto sênior de soluções de negócios, SAP CIS.

All Articles