So helfen Sie bei der Suche nach einer Organisation und verbringen keine Woche damit



Wenn Personen in der Yandex-Suche den Namen einer Autowerkstatt, Klinik oder eines Geschäfts eingeben, möchten sie Informationen über sie finden. Zum Beispiel ein Arbeitsplan oder eine Telefonnummer. Es hängt von der Genauigkeit und Relevanz dieser Daten ab, ob eine Person ihr Problem schnell löst oder Zeit und Nerven verliert.

Mein Name ist Alexander und ich vertrete das Geopoisk-Team und Yandex.Directory, dessen Daten monatlich von mehr als 46 Millionen Menschen verwendet werden. Heute werde ich kurz darüber sprechen, wie wir es geschafft haben, die Zeit für die Aktualisierung der Daten in der Yandex-Suche von einigen Tagen auf mehrere Stunden, manchmal auf Minuten zu reduzieren. Sie werden auch herausfinden, wer Ricardo Milos ist und welche Probleme er uns verursacht hat.



Verzeichnis ist eine Datenbank von Organisationen. Jedes Unternehmen oder jede Person kann dort Informationen hinzufügen: Geben Sie die Adresse, die Öffnungszeiten, das Telefon und alles andere an - und Yandex wird dies den Benutzern mitteilen. Die Verzeichnisdaten werden in Search, Alice, Karten, Taxi, Navigator, und auch in unserer Anrufer - ID verwendet, die wir bereits darüber gesprochen , auf Habré.

Und alles wäre in Ordnung, aber die Daten sind veraltet: Organisationen schließen, bewegen sich, ändern Zahlen und all das. Wir selbst können Änderungen verfolgen und Änderungen vornehmen, aber heute werden wir über die Änderungen sprechen, die Benutzer oder Unternehmen uns senden. Dazu haben wir Formulare und andere Feedback-Mechanismen. So erhalten wir mehrere tausend Änderungen pro Tag. Aber wir können sie nicht einfach nehmen und veröffentlichen.

Bei Korrekturen werden Fehler festgestellt - aufgrund von Nachlässigkeit oder böswilliger Absicht. Letztere sind besonders zahlreich. Einige verzerren die Daten von Wettbewerbern und "schließen" die Organisation. Andere, gewöhnliche Vandalen fügen Firmennamen und Beschreibungen Matten und andere Absurditäten hinzu.



Wenn Sie also Änderungen unverändert veröffentlichen, leiden die Benutzer darunter. Deshalb überprüfen wir alles. Call Center-Betreiber rufen die Organisation an und klären die Änderungen. Hafenarbeiter erreichen Unternehmen und überprüfen Daten live. Solche Methoden sind jedoch nicht schnell genug und der Bearbeitungsstrom ist groß. Deshalb haben wir uns auch einen Roboter ausgedacht.

Wir verwenden den automatischen Klassifikator für Änderungen - Auto Moderator. Dies ist die Maschine, die auf unserer CatBoost- Technologie basiert .. Sie wird an Beispielen für gute und schlechte Bearbeitungen geschult. Glücklicherweise haben wir viele solcher Daten.

Wenn eine Bearbeitung eintrifft, berücksichtigt der automatische Moderator mehrere Dutzend Faktoren (z. B. den Verlauf früherer Benutzeränderungen) und entscheidet, ob die Bearbeitung genehmigt, abgelehnt oder zur erneuten Prüfung an eine Person gesendet werden soll. Der Fahrzeugmoderator kann die Verzeichnisdatenbank überprüfen und sicherstellen, dass er nicht versucht, ein Duplikat zu erstellen, oder auf der Website der Organisation nach neuen Informationen suchen oder sogar die Organisation anrufen, sich als Snezhana vorstellen und die Änderungen klären.

Ein Beispiel. Im Jahr 2018 begann eine Welle von „Umbenennungen“ von Schulen, Denkmälern und anderen Organisationen in Kartendiensten und Nachschlagewerken: Auf den Karten wurden sie nach Ricardo Milos benannt (es gibt einen Artikel über TJüber diesen Flashmob). Gegen unseren Willen trafen wir uns mit einem damals beliebten Mem über einen brasilianischen Stripper (nicht, dass wir es wollten, aber wer hat uns gefragt). Und es war die Kombination des automatischen Moderators und anderer Überprüfungsmechanismen, die uns geholfen haben, die wahren Namen zu verteidigen.

Daher hat der automatische Klassifizierer die Zeit zum Aktualisieren der Daten reduziert. Aber wir haben hier nicht aufgehört. Selbst unter Berücksichtigung der Hilfe des automatischen Moderators können Änderungen die Benutzer des Dienstes für mehrere Tage erreichen. Das ist lang. Um diese Zeit zu verkürzen, mussten zwei technologische Probleme gelöst werden.

Zuvor sah der automatische Moderator wie ein Stapelverarbeitungsprozess aus, er lief planmäßig und erforderte große Ressourcen für die lokale Datenverarbeitung (Arbeiten mit Tabellen für zig Millionen Datensätze). Das haben wir geändert.

Dies ist ein Dienst, bei dem die Bearbeitung und Informationen über den Absender in Echtzeit empfangen werden. Dann berechnet der Auto-Moderator die Faktoren und fällt ein Urteil. Vor Urteilen über Anträge konnten wir stundenlang warten. Nun, Minuten.

Dies bedeutet jedoch nicht, dass die Änderungen den Benutzer in wenigen Minuten erreichen. Und hier erwartete uns die zweite Aufgabe.

Die Änderung fällt in die Verzeichnisbasis, aber es braucht Zeit, um in den Dienst zu "sprießen". Beispielsweise muss die Suche den Suchindex aktualisieren, um Änderungen aus dem Verzeichnis widerzuspiegeln. Um dies zu umgehen, haben wir eine Gliederung zum Speichern der Zustände von Objekten entwickelt. Einfach ausgedrückt, jetzt können Sie die Telefonnummer in der Objektantwort der Suche ersetzen, ohne den Suchindex neu zu erstellen. Beim Erstellen von Suchergebnissen weiß Search nun, welche Objekte veraltet sind, und kann neuere Informationen abrufen. Natürlich gibt es immer noch Situationen, in denen sich eine Änderung der Daten auf das Ranking der Organisation auswirkt, aber es gibt keine Möglichkeit, den Index neu zu erstellen.



Nach Verbesserungen und Implementierungen konnten wir die durchschnittliche Zeit für die Aktualisierung von Daten über Organisationen in Yandex-Diensten von einigen Tagen auf Stunden und manchmal auf Minuten reduzieren. Ich möchte glauben, dass Sie das bemerkt haben.

Heute habe ich eine ziemlich lange Arbeitsgeschichte in einen kurzen Übersichtsbeitrag geschrieben. Teilen Sie uns mit, welche Seiten oder Entscheidungen Sie in Zukunft genauer lesen möchten. Wir werden uns über Feedback und Appelle freuen, wir werden weiter am Verzeichnis arbeiten und den Habr-Lesern von seinen Neuigkeiten erzählen.

All Articles