Mitos sobre big data e cultura digital



Continuamos a publicar os relatórios mais interessantes do RAIF , o fórum anual sobre inteligência artificial organizado pela Jet Infosystems. Hoje, queremos compartilhar a história de Boris Asenovich Novikov, doutor em ciências físicas e matemáticas, professor do departamento de ciência da computação da HSE.

Mitos sobre big data e cultura digital


A palavra grande no nosso caso refere-se mais a mitos do que a dados, então vou falar principalmente sobre o primeiro, mas no contexto do último. Desde que pretendo trabalhar na comunidade científica há várias décadas, começarei definindo-a como um conhecimento preciso.


Os mitos são parte integrante da cultura da sociedade, sempre existiram e continuam a aparecer no mundo moderno. Eu dou exemplos:


A parte mais antiga do público deve se lembrar do barulho por volta do ano 2000, que na verdade é uma das 400 maneiras relativamente honestas de extrair dinheiro do cliente, nada mais. Claro, o desastre não aconteceu então.

Muitos mitos surgem em torno da engenharia de software - há muitos pontos de vista diferentes, e não vou me concentrar neste tópico agora.

Uma iniciativa de cima me levou a este relatório: na universidade onde eu trabalhava, havia a necessidade de ensinar alfabetização digital a todos, do jardim de infância à pós-graduação. Ninguém sabia o que era, e eu admiti precipitadamente para a gerência que eu quase compreendia como fazê-lo ... e fui pego. Foi necessário aprender diferentes especialidades em um programa:


Minha principal contribuição para o assunto foi que renomeei este curso de Literacia Digital para Cultura Digital.

Em uma das conferências internacionais, ouvi esta afirmação: para atrair a atenção do público, você precisa adicionar pelo menos um pouco de sexualidade ao relatório, e assim: alguns anos atrás, na imprensa (em particular, na Rússia), o caso foi amplamente discutido uma colegial americana começou a enviar anúncios para mulheres grávidas (o contexto sexual da história termina aqui), então a família entrou com uma ação, mas no final a ação teve que ser retirada ... Porque a garota realmente ficou grávida. A história fez muito barulho, dizem eles, esses analistas sabem mais sobre nós do que nós (isso é improvável)! Tudo isso é muito perigoso, e é necessário fortalecer a defesa. Então nasceram mitos:

  1. Big data é extremamente perigoso
  2. Eles sabem mais sobre nós do que nós mesmos.
  3. Medidas de segurança adicionais necessárias

Não me interpretem mal: a segurança é importante, mas vamos ver como avaliar esse caso profissionalmente.


Que conclusão pode ser feita? A análise SOMETIMES pode produzir os resultados certos e também podemos dizer que às vezes não sabemos nada.

Meus amigos e colegas chamam a atenção para o fato de que a correspondência aleatória às vezes também fornece os resultados corretos, e não podemos dizer nada sobre a qualidade da correspondência, a menos que avaliemos indicadores quantitativos. Antes de tudo, é necessário avaliar a integridade e precisão.

Os seguintes tipos de mitos foram emprestados de um contexto estrangeiro. Por exemplo, em uma das principais conferências de processamento de dados do SIGMOD 2019, houve um painel de discussão (ou, como dizemos, uma mesa redonda) sobre o tópico “Ciência de dados responsável”. Eles discutiram exemplos de como o uso irresponsável de ferramentas de análise de dados, aprendizado de máquina etc. Como um dos exemplos, citamos a história de determinar o sexo de uma pessoa a partir de fotografias dos olhos. As pessoas trabalharam nisso por vários anos, atingiram uma precisão de até 80%, até que um cético descobriu que na verdade eles determinam a presença ou ausência de cosméticos.

Isso é uma curiosidade, mas aqui está um exemplo em que o perigo é absolutamente real: estamos falando sobre o uso de métodos de aprendizado de máquina para identificar criminosos a partir de fotografias. Como se viu, no próprio princípio do trabalho desse sistema de aprendizagem, há problemas com o politicamente correto: em primeiro lugar, eles deram respostas falso-positivas com diferentes frequências, dependendo da raça, e, em segundo lugar, como se descobriu mais tarde, de fato, determinaram a presença ou ausência de um sorriso no rosto. fotos, nada mais. No entanto, houve tentativas de usar esse sistema, e os oficiais que deveriam usar os resultados, em caso de desacordo, deveriam escrever uma explicação por escrito de por que eles não concordavam com os resultados que o sistema produz. Este é um exemplo de como os mitos podem se tornar perigosos para a sociedade.


Por alguma razão, estamos falando de ciência de dados, embora falemos de aplicações industriais. Em todas as outras áreas - Ciência da Computação, mas ... Engenharia de Software. Equações da física matemática e algum tipo de construção de ponte, ou algo mais? Colegas, os cientistas não podem ser confiáveis! Eu gostaria de pensar que a Data Science pertence à seção "Science" e, infelizmente, a redação da Data Engineering já é adotada por outro conceito.

Volto à história com o design do curso para toda a universidade, independentemente da preparação e da especialidade. A figura do lado direito (cisne, câncer e lúcio) mostra como a equipe reunida de representantes de todos os departamentos da universidade trabalhou.


No entanto, tentamos fazer algo razoável. A idéia era mostrar coisas simples que todo pesquisador pode fazer por si mesmo, independentemente da área em que trabalha. Além disso, para que ele possa entender em que momento (este é o mais importante!), É necessário entrar em contato com profissionais de processamento de dados. Tentei evitar essas receitas para iniciantes (mas pouco disso veio), como "Faça da adição um guia popular, mas não prático".

Portanto, os mitos são inevitáveis, e devemos entender que ainda temos que lidar com eles. Os mitos são a fonte de muitos erros, falhas e problemas, e às vezes podem até ser perigosos - o uso impensado do “conhecimento” mítico pode ter consequências negativas.

Além do fato de estarmos desenvolvendo tecnologias, é necessário educar a sociedade, e essa é uma preocupação constante que nunca será completamente resolvida, porque a humanidade em geral não se desenvolve tão rapidamente quanto a tecnologia. É muito mais difícil educar as pessoas do que a inteligência artificial - uma das fontes dos mitos. Precisamos aprender a trabalhar e conviver com ela de maneira a evitar grandes perigos.

All Articles