Flexibilidade e automação no aprendizado de máquina

Neste artigo, quero falar sobre as principais dificuldades da automação de aprendizado de máquina, sua natureza e vantagens, e também considerar uma abordagem mais flexível que permita que você se afaste de algumas das deficiências.

imagem

Automação, por definição, Mikell P. Groover é uma tecnologia pela qual um processo ou procedimento é realizado com o mínimo envolvimento humano. A automação tem sido capaz de obter maior produtividade, o que geralmente leva a custos mais baixos por unidade de produto. Os métodos de automação, bem como suas áreas de aplicação, estão melhorando rapidamente e, nos últimos séculos, evoluíram de mecanismos simples para robôs industriais. A automação começa a afetar não apenas o trabalho físico, mas também intelectual, chegando a áreas relativamente novas, incluindo aprendizado de máquina - aprendizado de máquina automatizado (auto ml, aml). Ao mesmo tempo, a automação do aprendizado de máquina já encontrou sua aplicação em vários produtos comerciais (por exemplo, Google AutoML, SAP AutoML e outros).

imagemimagemimagem

aviso Legal
Este artigo não pretende ser dogmático no campo e é a visão do autor.

Aprendizado de máquina automatizado


As tarefas no campo de processamento de dados e aprendizado de máquina estão associadas a muitos fatores que surgem devido à complexidade do sistema e complicam sua solução. Eles incluem (de acordo com Charles Sutton ):

  • A presença de incerteza e incerteza, o que leva à falta de conhecimento a priori dos dados e das dependências desejadas. Assim, o elemento de pesquisa está sempre presente.
  • "Morte por mil cortes." Na prática, ao criar um pipeline para processamento e análise de dados e modelagem subseqüente, você precisa tomar muitas decisões grandes e pequenas. Por exemplo, é necessário normalizar os dados, se sim, qual método e quais parâmetros esse método deve ter? Etc.
  • A presença de loops de feedback resultantes da incerteza. Quanto maior a imersão na tarefa e nos dados, mais você poderá aprender sobre eles. Isso leva à necessidade de dar um passo atrás e fazer alterações nos mecanismos de processamento e análise existentes.
  • Além disso, os resultados dos modelos obtidos pelos algoritmos de aprendizado de máquina são apenas uma aproximação da realidade, ou seja, obviamente não é preciso.

imagem

Assim, o processo de obtenção de um pipeline completo de processamento e análise de dados pode ser considerado como um sistema complexo (isto é, um sistema complexo).

Sistema complexo
Peter Sloot, « » « », . , () , , () , () .. , , .

Por um lado, a presença desses fatores complica a solução de problemas de aprendizado profundo e de máquina e sua automação. Por outro lado, os recursos de computação cada vez maiores e cada vez mais acessíveis nos permitem anexar mais recursos à tarefa.

imagemDe acordo com o padrão CRISP-DM comum, o ciclo de vida de um projeto de análise de dados consiste em seis etapas principais: compreensão de uma tarefa de negócios, compreensão e estudo de dados (compreensão de dados), processamento de dados (preparação de dados), modelagem ( modelagem), avaliação da qualidade (avaliação) e aplicação prática (implantação, aplicação). Na prática, nem todas essas etapas podem ser efetivamente automatizadas hoje.

A maioria das obras ou bibliotecas existentes (h2o, auto-sklearn, autokeras) se concentra na automação de modelagem e, em parte, na avaliação da qualidade. No entanto, a expansão da abordagem para a automação do processamento de dados permite cobrir mais etapas (que, por exemplo, foram aplicadas no serviço Google AutoML).

Formulação do problema


As tarefas de aprendizado de máquina com um professor podem ser resolvidas por vários métodos, a maioria dos quais é reduzida para minimizar a função de perda Jou maximizar a função de probabilidadeL , para obter uma estimativa dos parâmetrosθ^m com base na amostra disponível - conjunto de dados de treinamento yt:

All Articles