Mythes du Big Data et culture numérique



Nous continuons de publier les rapports les plus intéressants de RAIF , le forum annuel sur l'intelligence artificielle organisé par Jet Infosystems. Aujourd'hui, nous voulons partager l'histoire de Boris Asenovich Novikov, docteur en sciences physiques et mathématiques, professeur au département d'informatique HSE.

Mythes du Big Data et culture numérique


Le mot gros dans notre cas se réfère plus à des mythes qu'à des données, donc je parlerai principalement des premiers, mais dans le contexte des seconds. Depuis que je fais semblant de travailler dans la communauté scientifique depuis plusieurs décennies, je vais commencer par la définir comme une connaissance précise.


Les mythes font partie intégrante de la culture de la société, ils ont toujours existé et continuent d'apparaître dans le monde moderne. Je donne des exemples:


La partie la plus âgée du public doit se souvenir du bruit autour de l'an 2000, qui est en fait l'un des 400 moyens relativement honnêtes d'extraire de l'argent du client, rien de plus. Bien sûr, la catastrophe ne s'est pas produite alors.

Beaucoup de mythes surgissent autour du génie logiciel - il existe de nombreux points de vue différents, et je ne vais pas me concentrer sur ce sujet maintenant.

Une initiative d'en haut m'a poussé à ce rapport: à l'université où je travaillais, il fallait enseigner la littératie numérique à tout le monde, de la maternelle au lycée. Personne ne savait de quoi il s'agissait, et j'ai admis inconsidérément à la direction que j'avais à peu près compris comment le faire ... et je me suis fait prendre. Il fallait apprendre différentes spécialités dans un seul programme:


Ma principale contribution à la question a été que j'ai renommé ce cours de Littératie numérique à Culture numérique.

Lors d'une des conférences internationales, j'ai entendu cette déclaration: afin d'attirer l'attention du public, vous devez ajouter au moins une touche de sexualité au rapport, et donc: il y a quelques années dans la presse (en particulier en Russie), l'affaire a été largement débattue. une écolière américaine a commencé à envoyer des publicités pour les femmes enceintes (le contexte sexuel de l'histoire se termine ici), puis la famille a déposé une plainte, mais à la fin, la poursuite a dû être retirée ... Parce que la fille s'est avérée vraiment enceinte. L'histoire a fait beaucoup de bruit, disent-ils, ces analystes en savent plus sur nous que nous-mêmes (c'est peu probable)! Tout cela est très dangereux et il faut renforcer la défense. Des mythes sont donc nés:

  1. Le Big Data est extrêmement dangereux
  2. Ils en savent plus sur nous que nous-mêmes.
  3. Mesures de sécurité supplémentaires requises

Ne vous méprenez pas: la sécurité est importante, mais voyons comment évaluer ce cas professionnellement.


Quelle conclusion peut-on tirer? L’analyse PARFOIS peut produire les bons résultats, et nous pouvons également dire que parfois nous ne savons rien.

Mes amis et collègues attirent l'attention sur le fait que le publipostage aléatoire donne parfois également les bons résultats, et nous ne pouvons rien dire sur la qualité du publipostage à moins d'évaluer des indicateurs quantitatifs. Tout d'abord, il est nécessaire d'évaluer l'exhaustivité et la précision.

Les types de mythes suivants, j'ai emprunté à un contexte étranger. Par exemple, lors de l'une des principales conférences sur le traitement des données SIGMOD 2019, il y a eu une table ronde (ou, comme nous le disons, une table ronde) sur le thème «Science des données responsable». Ils ont discuté d'exemples de la façon dont l'utilisation irresponsable des outils d'analyse de données, l'apprentissage automatique, etc. À titre d'exemple, ils ont cité l'histoire de la détermination du sexe d'une personne à partir de photographies des yeux. Les gens y ont travaillé pendant plusieurs années, ont atteint une précision allant jusqu'à 80%, jusqu'à ce qu'un sceptique découvre qu'ils déterminent en fait la présence ou l'absence de cosmétiques.

C'est une curiosité, mais voici un exemple dans lequel le danger est absolument réel: nous parlons d'utiliser des méthodes d'apprentissage automatique pour identifier les criminels à partir de photographies. Il s'est avéré que, dans le principe même du travail de ce système d'apprentissage, il y a des problèmes de rectitude politique: d'une part, ils ont donné des réponses faussement positives avec des fréquences différentes selon la race, et d'autre part, comme il s'est avéré plus tard, en fait, ils ont déterminé la présence ou l'absence d'un sourire sur photos, rien de plus. Cependant, il y a eu des tentatives d'utilisation de ce système, et les agents qui étaient censés utiliser les résultats, en cas de désaccord, étaient censés écrire une explication écrite des raisons pour lesquelles ils n'étaient pas d'accord avec les résultats produits par le système. Ceci est un exemple de la façon dont les mythes peuvent devenir dangereux pour la société.


Pour une raison quelconque, nous parlons de Data Science, bien que nous parlions d'applications industrielles. Dans tous les autres domaines - Informatique, mais ... Génie logiciel. Des équations de physique mathématique et une sorte de construction de pont, ou autre chose? Chers collègues, on ne peut pas faire confiance aux scientifiques! J'aimerais penser que la Data Science appartient à la section "Science", et malheureusement, le libellé de Data Engineering est déjà repris par un autre concept.

Je reviens à l'histoire avec la conception du cours pour toute l'université, indépendamment de la préparation et de la spécialité. La photo de droite (cygne, cancer et brochet) montre le fonctionnement de l'équipe composée de représentants de tous les départements universitaires.


Cependant, nous avons essayé de faire quelque chose de raisonnable. L'idée était de montrer des choses simples que chaque chercheur peut faire pour lui-même, quel que soit le domaine dans lequel il travaille. De plus, pour qu'il puisse comprendre à quel moment (c'est le plus important!), Vous devez contacter des professionnels de l'informatique. J'ai essayé d'éviter de telles recettes pour les débutants (mais peu de choses en sont venues), comme "Faire de l'addition un guide populaire mais pas pratique".

Les mythes sont donc inévitables et nous devons comprendre que nous devons encore les affronter. Les mythes sont à l'origine de nombreuses erreurs, échecs et problèmes, et peuvent même parfois être dangereux - l'utilisation irréfléchie de «connaissances» mythiques peut avoir des conséquences négatives.

Outre le fait que nous développons des technologies, il est nécessaire d'éduquer la société, et c'est une préoccupation constante qui ne sera jamais complètement résolue, car l'humanité en général ne se développe pas aussi vite que la technologie. Il est beaucoup plus difficile d'éduquer les gens que l'intelligence artificielle - l'une des sources des mythes. Nous devons apprendre à travailler et à vivre avec lui de manière à éviter de grands dangers.

All Articles