👩🏻‍🤝‍👨🏿 🧘🏾 👩🏾‍🔬 Wie wir Yandex beibringen, Fragen zu beantworten und Benutzern 20.000 Stunden pro Tag zu sparen 🕛 🛏️ 🏳️‍🌈

Wenn wir eine Abfrage in die Suchleiste eingeben, suchen wir nach Informationen, nicht nach Links. Außerdem brauchen wir oft einen kurzen Satz oder eine bekannte Tatsache. Zum Beispiel ist [die Formel für das Volumen der abgeschnittenen Pyramide ] auf allen Websites gleich - Links werden nicht benötigt, geben Sie einfach eine Antwort.

Niemand kann jemanden mit sachlichen (informativen) Antworten überraschen, aber nur wenige Menschen wissen, wie sie gebildet werden, wie sie sich unterscheiden und was in letzter Zeit in diesem Bereich passiert ist. Ich heiße Anton Ivanov. Heute zusammen mit meinem Kollegen Mikhail AgeevdminerWir werden die Geschichte der Antworten in der Suche erzählen und einige der Details teilen, über die wir vorher noch nicht gesprochen haben. Hoffe es wird hilfreich sein.

Die Geschichte des Internets ist die Geschichte der Vereinfachung der Suche nach Informationen. Es war einmal eine Zeit, in der Menschen Online-Kataloge besuchten, um Antworten zu finden, bei denen Links zu Websites nach Themen gruppiert wurden. Im Laufe der Zeit tauchten Suchmaschinen auf und lernten, nach Websites anhand von Schlüsselwörtern zu suchen. Die Forderung nach einer schnellen Suche nach Informationen stimulierte die Entwicklung der Technologie: Eine Wortsuche entwickelte sich allmählich zu einer Suche nach Bedeutung, wenn die Antwort auf einer Seite ohne Schnittpunkt durch Schlüsselwörter gefunden werden konnte. Aber auch in diesem Fall musste ich auf die Links klicken. Die Menschen haben immer von mehr geträumt.

Erste Fakten

Jetzt fällt es schwer, sich daran zu erinnern, wie die sachlichen Antworten von Yandex begannen. Wir können sagen, dass die Lösung ein spezielles Format des Zauberers war, das eine kurze Textantwort ohne Interaktivität voraussetzt (im Gegensatz zur Beantwortung von Anfragen [ meine IP-Adresse ] oder [ Aquafarbe ]). Wie Sie wissen, ist die Implementierung eines solchen Formats nicht schwierig. Die Hauptfrage ist anders: Wo bekommt man die Antworten?

Wir haben mit dem einfachsten technischen Weg begonnen. Spezielle Personen (Prüfer) analysierten die beliebtesten Fragen und wählten diejenigen aus, für die Sie eine kurze Antwort finden. Ein klassisches Beispiel für eine solche Abfrage ist [ wie viele Pfoten eine Fliege hat ].

Auf diese Weise konnten nur die beliebtesten Abfragen abgedeckt werden, und der lange Schwanz anderer Abfragen wurde ignoriert. Teilweise haben wir dieses Problem mit Hilfe von Crowdsourcing gelöst.

Vor einigen Jahren begannen Toloker, uns dabei zu helfen, die Datenbank mit sachlichen Antworten aufzufüllen. Häufige Anfragen wurden auf die Plattform hochgeladen, Toloker sahen die Aufgabe: „Stimmt es, dass Sie eine vollständige Antwort auf diese Anfrage geben können? Und wenn es wahr ist, dann gib es. “ Natürlich überprüft andere tolokers die Angemessenheit der Antworten, und wir die Fehler mit Hilfe eines Such gefangen Wache . Übrigens haben uns Toloker auch dabei geholfen herauszufinden, dass tatsächliche Antworten mit einem Bild den Benutzern normalerweise mehr gefallen als nur Text.

Die Hilfe von Tolokern ist bedeutend, aber selbst sie werden nicht dazu beitragen, den langen Schwanz niederfrequenter Abfragen abzudecken. Es gibt einfach zu viele solcher Anfragen für ein manuelles Markup: Es gibt nicht Zehntausende, sondern Millionen! Um dieses Problem zu lösen, war das Suchranking für uns hilfreich.

Faktenschnipsel

Wenn Sie in der Yandex-Suche nach etwas suchen, sehen Sie nicht nur 10 Links, sondern auch einen Titel, eine Beschreibung, ein Symbol und andere Daten.

Wir konzentrieren uns auf die Beschreibung. Unsere Suche erstellt es automatisch. Um das beste Textfragment hervorzuheben, wird das kompakte CatBoost-Modell verwendet, das die Nähe eines Textfragments und einer Anforderung schätzt. Es stellt sich heraus, dass Linkbeschreibungen manchmal bereits sachliche Antworten enthalten. Es wäre seltsam, dies nicht auszunutzen - aber nicht so einfach.

Es mag den Anschein haben, dass die Aufgabe darin besteht, die „sachlichste“ Beschreibung unter allen Beschreibungen der auf Anfrage gefundenen Seiten auszuwählen, aber dieser Ansatz wird nicht gut funktionieren. Der Grund ist, dass die informative Beschreibung der Seite nicht immer mit einer guten Antwort auf die direkte Frage einer Person übereinstimmt. Daher erstellt unsere Fact Snippet-Technologie Fakten parallel zu Seitenbeschreibungen, basiert jedoch auf anderen Parametern, sodass das Ergebnis der Antwort ähnlich ist. Und jetzt müssen Sie unter ihnen die qualitativ hochwertigste Antwort auswählen.

Das haben wir schon gesagtauf Habré über Suchalgorithmen "Palekh", "Korolev" und über den DSSM-Ansatz. Die Aufgabe bestand dann darin, beim Ranking von Seiten Texte zu finden, deren Bedeutung nahe beieinander lag. Tatsächlich haben wir zwei Vektoren verglichen: den Abfragevektor und den Dokumenttextvektor. Je näher diese Vektoren im mehrdimensionalen Raum liegen, desto näher sind die Bedeutungen der Texte. Um die Fakten von bester Qualität auszuwählen, haben wir dasselbe getan. Unser neuronales Netzwerkmodell, das auf den bereits bekannten Antworten basiert, erstellt Antwortvektoren für die in der Suche gefundenen Seiten und vergleicht sie mit dem Abfragevektor. So bekommen wir die beste Antwort.

Es ist klar, dass es sich nicht lohnt, alle Anfragen auf diese Weise zu beantworten: Die meisten Anfragen erfordern keine sachliche Antwort. Daher verwenden wir ein anderes Modell, um „nicht sachliche“ Anfragen zu löschen.

Fact Snippet 2.0

Alles, worüber wir oben gesprochen haben, betraf „klassische“ sachliche Antworten: kurz, umfassend, wie in der Enzyklopädie. Diese Richtung ist seit langem die einzige. Aber je weiter, desto mehr haben wir gesehen, dass die Aufteilung auf der Grundlage einer erschöpfenden Antwort einerseits sehr wackelig und andererseits für den Benutzer undurchsichtig ist: Er muss sein Problem nur schneller lösen. Ich brauchte, um über die üblichen Fakten hinauszugehen. So erschien das Projekt Fact Snippet 2.0.

Um die Sache zu vereinfachen, ist Fact Snippet 2.0 das gleiche Fact Snippet, jedoch ohne die Notwendigkeit, eine „umfassende Antwort“ zu finden. In der Tat ist alles etwas komplizierter.

Ich möchte Sie daran erinnern, dass Fact Snippet in zwei Schritten funktioniert. In der ersten Phase bewerten wir anhand eines einfachen Modells die „sachliche Natur“ der Anfrage: Bedeutet dies eine sachliche Antwort oder nicht? Wenn ja, suchen wir in der zweiten Phase nach einer Antwort, die in den Suchergebnissen angezeigt wird. Für Fact Snippet 2.0 haben wir beide Schritte angepasst, um Antworten auf ein breiteres Spektrum von Fragen zu finden. Solche Antworten behaupten nicht, in ihrer Gesamtheit enzyklopädisch zu sein, sind aber dennoch nützlich.

Es ist möglich, aber nicht immer erforderlich, für jede Anfrage einen Textabschnitt auszuwählen. Manchmal sind die gefundenen Texte für die Abfrage nicht relevant genug. Manchmal haben wir bereits gute Antworten aus anderen Quellen - und wir müssen uns entscheiden, welche wir wählen sollen. Warum sollten Sie beispielsweise die Adresse der Organisation im Text angeben, wenn Sie eine interaktive Karte, Telefonnummer und Bewertungen anzeigen können? Wir lösen dieses Problem mit Hilfe eines Mischers Sichter, mit denen Andrei Styskin bereits kennen Leser Habr . Und die Antwort sollte nicht unhöflich und beleidigend sein. Fast jede solche vernünftige Einschränkung hat ihren eigenen Klassifikator, und es ist eine weitere Aufgabe, sie in Sekundenbruchteilen zur Laufzeit arbeiten zu lassen.

Umformulierungen abfragen

Sie deckten einen anderen Teil des langen Schwanzes ab, aber viele „einzigartige“ Anfragen blieben zurück. Ein erheblicher Teil davon sind andere Formulierungen von Abfragen, die uns bereits bekannt sind. Zum Beispiel sind [ wenn ein Hecht die Zähne wechselt ] und [zu welcher Zeit der Hecht die Zähne wechselt ] fast dasselbe.

Um dieses Problem zu lösen, haben wir einen Mechanismus entwickelt, der im Handumdrehen versteht, dass die eingehende Anfrage ein Alias (bedeutet dasselbe) einer anderen Anfrage ist, auf die wir bereits eine Antwort haben. Dies ist einfacher und schneller als die unabhängige Generierung von zwei sachlichen Antworten.

Wir nehmen alle Anfragen, für die es Antworten gibt, in Vektoren um und setzen sie in den Index k-NN (genauer gesagt in seiner optimierten Version von HNSW)wodurch Sie viel schneller suchen können). Als nächstes konstruieren wir Abfragevektoren, auf die es keinen direkten Zufall gibt, und suchen nach den Top N ähnlichsten Abfragen in unserem k-NN.

Als nächstes gehen wir dieses Top durch und durchlaufen den Katbust-Klassifikator des Triple:

- Benutzeranforderung;
- Anfrage von k-NN;
- Antwort auf eine Anfrage von k-NN.

Wenn der Verifizierer Verifizierer positiv ist, wird die Anforderung als Alias der Anforderung von k-NN betrachtet. Wir können die bereits bekannte Antwort zurückgeben.

Der kreative Hauptteil dieses Entwurfs besteht darin, Faktoren für den Klassifikator zu schreiben. Hier haben wir viele verschiedene Ideen ausprobiert. Zu den stärksten Faktoren gehören:

- Abfragevektoren;
- Levenshtein Entfernungen;
- Wort für Wort Einbettungen;
- Faktoren, die auf einer Vielzahl von Zauberern für jede der Anfragen beruhen;
- Abstand zwischen Abfragewörtern.

Separat werde ich über einen Trick sprechen, der das neuronale BERT-Netzwerk verwendet. Die Zeit für die Suche nach einem Alias ist stark eingeschränkt: maximal einige Millisekunden. Es ist unmöglich, BERT in einer solchen Zeit mit einer Last von mehreren tausend RPS auf aktuellen Ressourcen durchzuführen. Daher haben wir mit unserem BERT-Modell viele (Hunderte von Millionen) künstliche Schätzungen gesammelt und darauf ein einfacheres neuronales Netzwerk-DSSM trainiert, das zur Laufzeit sehr schnell arbeitet. Als Ergebnis wurde mit einem gewissen Genauigkeitsverlust ein starker Faktor erhalten.

Tatsächlich kann man die semantische Nähe von Anforderungen auf andere Weise bestimmen. Wenn sich beispielsweise zwei Abfragen in einem Wort voneinander unterscheiden, überprüfen Sie, wie sich die Suchergebnisse für diese Abfragen unterscheiden (sehen Sie sich die Anzahl der übereinstimmenden Links oben an). Wenn Sie dies millionenfach wiederholen und die Ergebnisse mitteln, erhalten Sie eine ziemlich gute Schätzung, wie stark sich die Bedeutung der Abfrage ändert, wenn Sie ein Wort gegen ein anderes ändern. Danach können Sie alle Daten zu einer Struktur hinzufügen (z. B. trie) und das Maß für die Nähe von Abfragen über die verallgemeinerte Levenshtein-Entfernung berechnen. Sie können diesen Ansatz erweitern und nicht nur Wörter, sondern auch Wortpaare berücksichtigen (aber der Versuch wird aufgrund des exponentiellen Datenwachstums viel mehr erzielt).

Was weiter

Nach unseren Schätzungen sparen wir den Benutzern dank sachlicher / informativer Antworten täglich 20.000 Stunden, da sie die Links in den Suchergebnissen nicht durchsehen müssen (und dies berücksichtigt nicht die Zeit, die sie für das Finden der Antwort auf den Websites aufgewendet hätten). Das ist gut, aber es gibt immer Raum zum Wachsen. Zum Beispiel verwenden wir jetzt den Text, den wir im Internet finden, um Antworten zu erhalten, aber der fertige Text kann nicht immer an einer Stelle oder in der richtigen Form gefunden werden. Mit Hilfe neuronaler Netze kann dieses Problem gelöst werden: Generieren Sie eine Antwort, die der Anforderung entspricht und keine unnötigen enthält. Dies ist unser Projekt der Suchneurosummarisierung, über das wir hoffentlich das nächste Mal sprechen werden.

Wie wir Yandex beibringen, Fragen zu beantworten und Benutzern 20.000 Stunden pro Tag zu sparen

Erste Fakten

Faktenschnipsel

Fact Snippet 2.0

Umformulierungen abfragen

Was weiter

More articles: