Por que o aprendizado de máquina usa dados "sintéticos"

Discutimos as opiniões da comunidade de TI e dos especialistas do setor. Também consideramos alguns projetos nos quais eles desenvolvem ferramentas para gerar dados "artificiais". Um deles foi representado por imigrantes da Agência de Segurança Nacional dos EUA e do Google.


Fotos - Franki Chamaki - Unsplash

Problema MO


Alguns algoritmos MO exigem dados estruturados para funcionar. Por exemplo, para solucionar os problemas de visão de máquina, eles são fornecidos pelo projeto ImageNet - em seu banco de dados, mais de 14 milhões de imagens são divididas em 22 mil categorias. Trabalhar com um conjunto tão amplo está valendo a pena. Os algoritmos que o utilizam estão errados ao determinar o objeto nas fotografias em apenas 3,75% dos casos. Para comparação - em humanos, esse número excede 5%.

Mas criar conjuntos de dados como o ImageNet para cada tarefa é impossível. Pelo menos porque os registros neles são marcados (ou verificados) manualmente. Ao mesmo tempo, dados reais - por exemplo, dados bancários ou médicos - podem estar fechados e inacessíveis a todos os desenvolvedores e cientistas de dados. Mas, mesmo que esses dados existam, eles devem ser anonimizados antes do processamento.

Com a solução dessas dificuldades, os dados sintéticos ajudam. Eles são artificiais e gerados por computador, mas parecem igualmente reais.

Quem trabalha neste campo


Muitas universidades, empresas de TI e startups estão envolvidas em projetos nessa área. Por exemplo, Gretel grava software que gera um conjunto de dados artificial com base em um conjunto de dados real. A empresa foi fundada por um grupo de imigrantes do Google, Amazon e da Agência de Segurança Nacional dos EUA (NSA).

Antes de tudo, sua plataforma analisa as informações disponíveis. Os engenheiros usaram os passeios de scooter elétrico da Uber como exemplo . Gretel os categoriza e os rotula, depois os anonimamente, usando métodos diferenciais de privacidade . A saída é um "conjunto de dados completamente artificial". Código de seus desenvolvedores de decisãopublicado no GitHub .

Um projeto semelhante foi implementado na Universidade de Illinois em Urbana-Champaign. Os engenheiros criaram uma biblioteca Python que pode ser usada para gerar dados sintéticos para os formatos CSV, TSV e JSON, Parquet e Avro estruturados parcialmente. No primeiro caso, os especialistas usaram redes competitivas entre gerações e , no segundo, redes neurais recorrentes .

Qual a eficácia dos dados sintéticos?


Eles fornecem uma oportunidade para cientistas e desenvolvedores de dados de treinar modelos para projetos em áreas onde o big data ainda não está disponível. De acordo com Alex Watson, um dos fundadores da Gretel, em muitos casos existem valores suficientes que se parecem com valores de usuários reais.

O Gartner estima que até 2022, 40% dos modelos MO serão treinados em conjuntos de dados sintéticos.

O chefe da Haze, uma empresa de sistemas de IA, vinculou a difusão da tecnologia à sua "flexibilidade". É mais fácil suplementar e modificar informações artificiais para aumentar a eficácia do modelo treinado.

Há também várias tarefas relacionadas à visão computacional, nas quais é difícil usar algo diferente de um conjunto de dados sintético - por exemplo, em robótica. Ao projetar robôs industriais e veículos não tripulados, use o aprendizado por reforço . Nesse caso, o sistema de inteligência artificial aprende interagindo diretamente com um determinado ambiente. Dependendo da resposta desse ambiente, o robô ajusta suas ações.

Mas o drone não pode sair e determinar por tentativa e erro que os pedestres não podem ser "esmagados". Portanto, os engenheiros recorrem a dados sintéticos - eles simulam o ambiente no espaço virtual. Por exemplo, a Nvidia oferece uma solução para esses experimentos . A pesquisa também foi realizada no treinamento máquina usando o Grand Theft motor de jogo Auto V .


Fotos - Andrea Ang - Unsplash

Apesar de todas as vantagens dos dados artificiais, eles têm suas desvantagens. Eles são consideradosmenos preciso - mesmo se gerado em dados reais - e pode levar a modelos que geram resultados plausíveis, mas irreprodutíveis no mundo real. No entanto, um dos residentes do Hacker News em um tópico temático observa que esse não é um problema tão grande. Dados artificiais podem ser usados ​​para testar os algoritmos de um sistema inteligente.

Outro usuário da Hacker News diz que tecnologias semelhantes complicam o processo de aprendizado de modelos e aumentam o custo de desenvolvimento. Suas palavras foram confirmadas por um especialista da Universidade de Illinois - a diferença pode chegar a 50%.

De qualquer forma, conjuntos de dados sintéticos não podem ser considerados uma "bala de prata". Esta é apenas uma ferramenta que pode ajudar na solução de uma certa variedade de problemas. Mas é possível que, com o tempo, esse espectro se expanda rapidamente.

O que escrever sobre em nosso blog corporativo:

Um computador que se recusa a morrer,
“Take pegadas e deixar para o fim de semana”: como retirar-se da maioria dos serviços populares
que ferramentas vão ajudar a satisfazer as PIBR
“Quase anarquia”: uma história breve da Fidonet, um projeto que “não se importa” "À vitória pela Internet

All Articles