Big Data Mythen und digitale Kultur



Wir veröffentlichen weiterhin die interessantesten Berichte von RAIF , dem jährlichen Forum für künstliche Intelligenz, das von Jet Infosystems organisiert wird. Heute möchten wir die Geschichte von Boris Asenovich Novikov, Doktor der physikalischen und mathematischen Wissenschaften, Professor am Institut für Informatik der HSE, teilen.

Big Data Mythen und digitale Kultur


Das Wort groß bezieht sich in unserem Fall mehr auf Mythen als auf Daten, daher werde ich hauptsächlich über die ersteren erzählen, aber im Kontext der letzteren. Da ich seit mehreren Jahrzehnten vorgebe, in der wissenschaftlichen Gemeinschaft zu arbeiten, werde ich es zunächst so definieren, dass es wie genaues Wissen aussieht.


Mythen sind ein wesentlicher Bestandteil der Kultur der Gesellschaft, sie haben immer existiert und erscheinen weiterhin in der modernen Welt. Ich gebe Beispiele:


Der ältere Teil des Publikums sollte sich an den Lärm um das Jahr 2000 erinnern, der in der Tat eine von 400 relativ ehrlichen Möglichkeiten ist, dem Kunden Geld zu entziehen, mehr nicht. Natürlich ist die Katastrophe damals nicht passiert.

Es gibt viele Mythen rund um das Software-Engineering - es gibt viele verschiedene Sichtweisen, und ich werde mich jetzt nicht auf dieses Thema konzentrieren.

Eine Initiative von oben veranlasste mich zu diesem Bericht: An der Universität, an der ich arbeitete, musste jedem, vom Kindergarten bis zur Graduiertenschule, digitale Kompetenz vermittelt werden. Niemand wusste, was es war, und ich gab dem Management vorschnell zu, dass ich grob verstand, wie es geht ... und wurde erwischt. Es war notwendig, verschiedene Spezialitäten in einem Programm zu lernen:


Mein Hauptbeitrag dazu war, dass ich diesen Kurs von Digital Literacy in Digital Culture umbenannte.

Auf einer der internationalen Konferenzen hörte ich diese Aussage: Um die Aufmerksamkeit des Publikums auf sich zu ziehen, müssen Sie dem Bericht zumindest einen Hauch von Sexualität hinzufügen, und so wurde der Fall vor einigen Jahren in der Presse (insbesondere in Russland) ausführlich diskutiert Ein amerikanisches Schulmädchen begann Werbung für schwangere Frauen zu senden (der sexuelle Kontext der Geschichte endet hier), dann reichte die Familie eine Klage ein, aber am Ende musste die Klage zurückgezogen werden ... Weil sich herausstellte, dass das Mädchen wirklich schwanger war. Die Geschichte hat viel Lärm gemacht, sagen sie, diese Analysten wissen mehr über uns als über uns selbst (das ist unwahrscheinlich)! All dies ist sehr gefährlich und es ist notwendig, die Verteidigung zu stärken. So wurden Mythen geboren:

  1. Big Data ist äußerst gefährlich
  2. Sie wissen mehr ĂĽber uns als wir.
  3. Zusätzliche Sicherheitsmaßnahmen erforderlich

Verstehen Sie mich nicht falsch: Sicherheit ist wichtig, aber lassen Sie uns sehen, wie Sie diesen Fall professionell bewerten können.


Welche Schlussfolgerung kann gezogen werden? Die Analyse kann manchmal zu den richtigen Ergebnissen führen, und wir können auch sagen, dass wir manchmal nichts wissen.

Meine Freunde und Kollegen machen darauf aufmerksam, dass zufälliges Mailing manchmal auch die richtigen Ergebnisse liefert, und wir können nichts über die Qualität des Mailings sagen, es sei denn, wir bewerten quantitative Indikatoren. Zunächst ist die Vollständigkeit und Richtigkeit zu bewerten.

Die folgenden Arten von Mythen habe ich aus einem fremden Kontext entlehnt. Zum Beispiel gab es auf einer der wichtigsten Datenverarbeitungskonferenzen von SIGMOD 2019 eine Podiumsdiskussion (oder, wie wir sagen, einen runden Tisch) zum Thema „Responsible Data Science“. Sie diskutierten Beispiele dafür, wie der verantwortungslose Einsatz von Datenanalysewerkzeugen, maschinelles Lernen usw. Als ein Beispiel führten sie die Geschichte der Bestimmung des Geschlechts einer Person anhand von Fotos der Augen an. Die Leute arbeiteten mehrere Jahre daran und erreichten eine Genauigkeit von bis zu 80%, bis ein Skeptiker herausfand, dass sie tatsächlich das Vorhandensein oder Fehlen von Kosmetika feststellen.

Dies ist eine Kuriosität, aber hier ist ein Beispiel, in dem die Gefahr absolut real ist: Wir sprechen über die Verwendung von Methoden des maschinellen Lernens, um Kriminelle anhand von Fotos zu identifizieren. Wie sich herausstellte, gibt es im Prinzip der Arbeit dieses Lernsystems Probleme mit der politischen Korrektheit: Erstens gaben sie je nach Rasse falsch positive Antworten mit unterschiedlichen Häufigkeiten, und zweitens stellten sie, wie sich später herausstellte, tatsächlich das Vorhandensein oder Fehlen eines Lächelns fest Fotos, nichts weiter. Es gab jedoch Versuche, dieses System zu verwenden, und die Beamten, die die Ergebnisse im Falle von Meinungsverschiedenheiten verwenden sollten, sollten eine schriftliche Erklärung schreiben, warum sie mit den vom System erzielten Ergebnissen nicht einverstanden waren. Dies ist ein Beispiel dafür, wie Mythen für die Gesellschaft gefährlich werden können.


Aus irgendeinem Grund sprechen wir über Data Science, obwohl wir über industrielle Anwendungen sprechen. In allen anderen Bereichen - Informatik, aber ... Software Engineering. Gleichungen der mathematischen Physik und eine Art Brückenbau oder etwas anderes? Kollegen, Wissenschaftlern kann man nicht trauen! Ich würde gerne glauben, dass Data Science zum Bereich "Wissenschaft" gehört, und leider wird der Wortlaut von Data Engineering bereits von einem anderen Konzept aufgegriffen.

Ich kehre mit der Gestaltung des Kurses für die gesamte Universität zur Geschichte zurück, unabhängig von Bereitschaft und Spezialität. Das Bild auf der rechten Seite (Schwan, Krebs und Hecht) zeigt, wie sich das Team aus Vertretern aller Universitätsabteilungen zusammensetzte.


Wir haben jedoch versucht, etwas Vernünftiges zu tun. Die Idee war, einfache Dinge zu zeigen, die jeder Forscher für sich selbst tun kann, unabhängig davon, in welchem ​​Bereich er arbeitet. Darüber hinaus müssen Sie sich an Fachleute für Datenverarbeitung wenden, damit er verstehen kann, an welchem ​​Punkt (dies ist das Wichtigste!). Ich habe versucht, solche Rezepte für Anfänger zu vermeiden (aber es wurde wenig daraus), wie "Machen Sie das Hinzufügen zu einem beliebten, aber nicht praktischen Leitfaden."

Mythen sind also unvermeidlich, und wir müssen verstehen, dass wir uns noch mit ihnen befassen müssen. Mythen sind die Quelle vieler Fehler, Misserfolge und Probleme und können manchmal sogar gefährlich sein - die gedankenlose Verwendung von mythischem „Wissen“ kann negative Folgen haben.

Neben der Tatsache, dass wir Technologien entwickeln, ist es notwendig, die Gesellschaft zu erziehen, und dies ist ein ständiges Anliegen, das niemals vollständig gelöst werden kann, da sich die Menschheit im Allgemeinen nicht so schnell entwickelt wie die Technologie. Es ist viel schwieriger, Menschen zu erziehen als künstliche Intelligenz - eine der Quellen von Mythen. Wir müssen lernen, damit so zu arbeiten und zu leben, dass große Gefahren vermieden werden.

All Articles