كيفية المساعدة في إيجاد منظمة وعدم قضاء أسبوع فيها



عندما يدخل الأشخاص اسم متجر لإصلاح السيارات أو عيادة أو متجر في بحث Yandex ، فإنهم يريدون العثور على معلومات عنهم. على سبيل المثال ، جدول عمل أو رقم هاتف. يعتمد ذلك على دقة وملاءمة هذه البيانات فيما إذا كان الشخص سيحل مشكلته بسرعة أم سيضيع الوقت والأعصاب.

اسمي ألكسندر ، وأنا أمثل فريق Geopoisk و Yandex.Directory ، والذي يستخدم بياناته أكثر من 46 مليون شخص شهريًا. اليوم سأتحدث بإيجاز عن الكيفية التي تمكنا بها من تقليل الوقت الذي استغرقه تحديث البيانات في بحث Yandex من بضعة أيام إلى عدة ساعات ، وأحيانًا إلى دقائق. سوف تكتشف أيضًا من هو ريكاردو ميلوس والمشاكل التي تسبب بها لنا.



الدليل هو قاعدة بيانات للمنظمات. يمكن لأي شركة أو شخص إضافة معلومات هناك: حدد العنوان وساعات العمل والهاتف وكل شيء آخر - وستنقل Yandex هذا إلى المستخدمين. يتم استخدام بيانات الدليل في Search و Alice و Maps و Taxi و Navigator وحتى في معرف المتصل الخاص بنا ، والذي تحدثنا عنه بالفعل في Habré.

سيكون كل شيء على ما يرام ، لكن البيانات أصبحت قديمة: المنظمات تغلق ، تتحرك ، وتغير الأرقام وكل ذلك. يمكننا أنفسنا تتبع التغييرات وإجراء التعديلات ، ولكننا سنتحدث اليوم عن تلك التعديلات التي يرسلها لنا المستخدمون أو الشركات. للقيام بذلك ، لدينا نماذج وآليات ردود فعل أخرى. لذا نحصل على عدة آلاف من التعديلات يوميًا. لكن لا يمكننا أن نأخذها وننشرها.

تم العثور على أخطاء في التصحيحات - بسبب الإهمال أو النية الخبيثة. هذه الأخيرة عديدة بشكل خاص. البعض يشوه بيانات المنافسين و "يغلق" المنظمة. ويضيف المخربون العاديون الآخرون سجائرًا وسخافات أخرى لأسماء الشركات وأوصافها.



لذا ، إذا قمت بنشر التعديلات كما هي ، فسوف يعاني المستخدمون. لذلك ، نتحقق من كل شيء. يقوم مشغلو مركز الاتصال بالاتصال بالمنظمة وتوضيح التغييرات. يصل عمال الأرصفة إلى الشركات ويتحققون من البيانات مباشرة. لكن هذه الأساليب ليست سريعة بما فيه الكفاية ، ودفق التعديلات كبير. لذلك ، توصلنا أيضًا إلى روبوت.

نستخدم المصنف التلقائي للتحرير - منسق تلقائي. هذه هي الآلة التي تعتمد على تقنية CatBoost.. يتم تدريبها على أمثلة على التعديلات الجيدة والسيئة. لحسن الحظ ، لدينا الكثير من هذه البيانات.

عند وصول التعديل ، يأخذ المشرف التلقائي في الاعتبار عشرات العوامل (على سبيل المثال ، سجل تعديلات المستخدم السابقة) ويقرر ما إذا كان سيوافق على التعديل أو يرفضه أو يرسله إلى شخص لإعادة الفحص. يمكن لمشرف السيارة التحقق من قاعدة بيانات الدليل والتأكد من أنهم لا يحاولون إنشاء نسخة مكررة ، أو إلقاء نظرة على موقع المؤسسة على الويب بحثًا عن معلومات جديدة ، أو حتى الاتصال بالمنظمة ، وتقديم نفسه على أنه Snezhana وتوضيح التغييرات.

مثال واحد. في عام 2018 ، بدأت موجة من "إعادة تسمية" المدارس والمعالم الأثرية والمنظمات الأخرى في خدمات رسم الخرائط والكتب المرجعية: على الخرائط التي سميت باسم ريكاردو ميلوس (هناك مقال عن TJحول هذا الغوغاء فلاش). لذلك ، رغماً عن إرادتنا ، التقينا بمذكرة شائعة في ذلك الوقت حول متجرد برازيلي (ليس هذا ما أردناه ، ولكن من سألنا). وكان الجمع بين Auto Moderator وآليات التحقق الأخرى هو ما ساعدنا في الدفاع عن الأسماء الحقيقية.

لذا ، سمح المصنف التلقائي بتقليل وقت تحديث البيانات. لكننا لم نتوقف عند هذا الحد. حتى مع مراعاة مساعدة Auto Moderator ، يمكن أن تصل التعديلات إلى مستخدمي الخدمة لعدة أيام. هذا وقت طويل لتقليل هذا الوقت ، كان من الضروري حل مشكلتين تكنولوجيتين.

في السابق ، كان Auto Moderator يشبه عملية الدُفعات ، حيث بدأ وفقًا لجدول زمني وتطلب موارد كبيرة للحوسبة المحلية (العمل مع الجداول لعشرات الملايين من السجلات). لقد غيرنا ذلك.

الآن هذه خدمة يتم فيها تلقي التحرير والمعلومات حول مرسلها في الوقت الفعلي. ثم يقوم مشرف السيارة بحساب العوامل ويصدر الحكم. قبل إصدار الأحكام على الطلبات ، كان بإمكاننا الانتظار لساعات. الآن ، دقائق.

ولكن هذا لا يعني أن التغييرات ستصل إلى المستخدم في غضون دقائق. وهنا تنتظرنا المهمة الثانية.

يقع التغيير في قاعدة الدليل ، ولكن يستغرق الأمر بعض الوقت "لتنمو" في الخدمة. على سبيل المثال ، يجب أن يقوم Search بتحديث فهرس البحث ليعكس التغييرات من الدليل. للتغلب على هذا ، قمنا بتطوير مخطط تفصيلي لتخزين حالات الكائنات. ببساطة ، يمكنك الآن استبدال رقم الهاتف في إجابة كائن البحث دون إعادة بناء فهرس البحث. الآن ، عند إنشاء نتائج البحث ، يعرف Search أي الكائنات قديمة ، ويمكنه سحب معلومات أحدث. بالطبع ، لا تزال هناك حالات يؤثر فيها تغيير البيانات على ترتيب المنظمة ، ولكن لا توجد طريقة دون إعادة بناء الفهرس.



لذلك ، بعد التحسينات والتطبيقات ، تمكنا من تقليل متوسط ​​الوقت لتحديث البيانات حول المؤسسات في خدمات Yandex من بضعة أيام إلى ساعات ، وأحيانًا إلى دقائق. أريد أن أصدق أنك لاحظت هذا.

اليوم أضع تاريخًا طويلًا من العمل في منشور مراجعة قصير. أخبرنا عن الجوانب أو القرارات التي ترغب في قراءتها بمزيد من التفصيل في المستقبل. سنكون سعداء لتلقي الملاحظات والمناشدات ، وسنواصل العمل على الدليل ونخبر قراء هبر عن أخباره.

All Articles