किसी संगठन को खोजने में मदद कैसे करें और उस पर एक सप्ताह नहीं बिताएं



जब लोग यांडेक्स खोज में कार की मरम्मत की दुकान, क्लिनिक या स्टोर का नाम दर्ज करते हैं, तो वे उनके बारे में जानकारी प्राप्त करना चाहते हैं। उदाहरण के लिए, एक काम अनुसूची या एक फोन नंबर। यह इन आंकड़ों की सटीकता और प्रासंगिकता पर निर्भर करता है कि क्या कोई व्यक्ति अपनी समस्या को जल्दी से हल करेगा या समय और नसों को खो देगा।

मेरा नाम अलेक्जेंडर है, और मैं जियोफिस्क और यैंडेक्स की टीम का प्रतिनिधित्व करता हूं। इनडायरेक्ट्री, जिसके डेटा का उपयोग 46 मिलियन से अधिक लोग एक महीने में करते हैं। आज मैं संक्षेप में इस बारे में बात करूंगा कि कैसे हमने कुछ दिनों से लेकर यैंडेक्स खोज में डेटा अपडेट करने में लगने वाले समय को कम करके कई घंटों से लेकर कभी-कभी मिनटों तक किया। आपको यह भी पता चलेगा कि रिकार्डो मिलोस कौन हैं और उन्होंने हमें क्या समस्याएं दीं।



निर्देशिका संगठनों का एक डेटाबेस है। कोई भी कंपनी या व्यक्ति वहां जानकारी जोड़ सकता है: पता, संचालन के घंटे, फोन और बाकी सब कुछ इंगित करें - और यैंडेक्स उपयोगकर्ताओं को यह बताएगा। निर्देशिका डेटा का उपयोग खोज, ऐलिस, मैप्स, टैक्सी, नेविगेटर और यहां तक ​​कि हमारी कॉलर आईडी में भी किया जाता है, जिसके बारे में हमने पहले ही हैबर से बात की थी

और सब कुछ ठीक होगा, लेकिन डेटा पुराना हो रहा है: संगठन बंद हो रहे हैं, बढ़ रहे हैं, संख्या बदल रहे हैं और वह सब। हम स्वयं परिवर्तन ट्रैक कर सकते हैं और संपादन कर सकते हैं, लेकिन आज हम उन संपादनों के बारे में बात करेंगे जो उपयोगकर्ता या कंपनियां हमें भेजती हैं। ऐसा करने के लिए, हमारे पास प्रपत्र और अन्य प्रतिक्रिया तंत्र हैं। इसलिए हमें प्रतिदिन कई हजार संपादन मिलते हैं। लेकिन हम उन्हें ले और प्रकाशित नहीं कर सकते।

त्रुटियां सुधार में पाई जाती हैं - लापरवाही या दुर्भावनापूर्ण इरादे के कारण। उत्तरार्द्ध विशेष रूप से कई हैं। कुछ प्रतियोगियों के डेटा को विकृत करते हैं और संगठन को "बंद" करते हैं। अन्य, साधारण वैंडल्स कंपनी के नामों और विवरणों में चटाई और अन्य गैरबराबरी जोड़ते हैं।



इसलिए, यदि आप संपादन को प्रकाशित करते हैं, तो उपयोगकर्ताओं को नुकसान होगा। इसलिए, हम सब कुछ जांचते हैं। कॉल सेंटर संचालक संगठन को कॉल करते हैं और परिवर्तनों को स्पष्ट करते हैं। डॉकर कंपनियों तक पहुंचते हैं और डेटा को लाइव सत्यापित करते हैं। लेकिन ऐसे तरीके पर्याप्त तेज़ नहीं हैं, और संपादन की धारा बड़ी है। इसलिए, हम एक रोबोट के साथ भी आए।

हम स्वत: संपादकों के संपादन का उपयोग करते हैं - ऑटो मॉडरेटर। यह हमारे कैटबॉस्ट तकनीक पर आधारित मशीन है । उसे अच्छे और बुरे संपादन के उदाहरणों पर प्रशिक्षित किया जाता है। सौभाग्य से, हमारे पास इस तरह के बहुत सारे डेटा हैं।

जब कोई संपादन आता है, तो ऑटो मॉडरेटर दर्जनों कारकों को ध्यान में रखता है (उदाहरण के लिए, पिछले उपयोगकर्ता के इतिहास को संपादित करता है) और यह तय करता है कि संपादन को स्वीकार करना है, इसे अस्वीकार करना है या फिर से जांच के लिए किसी व्यक्ति को भेजना है। कार मॉडरेटर निर्देशिका आधार की जांच कर सकते हैं और सुनिश्चित कर सकते हैं कि वे कोई डुप्लिकेट बनाने की कोशिश नहीं कर रहे हैं, या नई जानकारी की तलाश में संगठन की वेबसाइट को देखें, या यहां तक ​​कि संगठन को कॉल करें, खुद को स्नेझना के रूप में पेश करें और परिवर्तनों को स्पष्ट करें।

एक उदाहरण। 2018 में, स्कूलों, स्मारकों और अन्य संगठनों के "नाम बदलने" की एक लहर सेवाओं और संदर्भ पुस्तकों की मैपिंग में शुरू हुई: उन मानचित्रों पर जिनका नाम रिकार्डो मिलोस के नाम पर रखा गया था (टीजे पर एक लेख है)इस फ्लैश मॉब के बारे में)। तो हमारी इच्छा के विरुद्ध, हम उस समय एक लोकप्रिय व्यक्ति के साथ एक ब्राजीलियाई स्ट्रिपर के बारे में मिले (ऐसा नहीं था कि हम इसे चाहते थे, लेकिन जिसने हमसे पूछा)। और यह ऑटो मॉडरेटर और अन्य सत्यापन तंत्रों का संयोजन था जिसने हमें सच्चे नामों की रक्षा करने में मदद की।

इसलिए, स्वचालित क्लासिफायर ने डेटा को अपडेट करने में लगने वाले समय को कम कर दिया है। लेकिन हम वहां नहीं रुके। यहां तक ​​कि ऑटो मोडरेटर की मदद से, एडिट कई दिनों तक सेवा उपयोगकर्ताओं तक पहुंच सकता है। यह एक लंबा समय है। इस समय को कम करने के लिए, दो तकनीकी समस्याओं को हल करना आवश्यक था।

पहले, ऑटो मॉडरेटर एक बैच प्रक्रिया की तरह दिखता था, यह एक अनुसूची पर शुरू हुआ और स्थानीय कंप्यूटिंग के लिए बड़े संसाधनों की आवश्यकता थी (लाखों रिकॉर्ड के लिए तालिकाओं के साथ काम करना)। हमने वह बदल दिया है।

अब यह एक सेवा है जिसमें संपादन और इसके प्रेषक के बारे में जानकारी वास्तविक समय में प्राप्त होती है। फिर कार मॉडरेटर कारकों की गणना करता है और एक फैसले का प्रतिपादन करता है। आवेदनों पर फैसले से पहले, हम घंटों इंतजार कर सकते थे। अब, मिनट।

लेकिन इसका मतलब यह नहीं है कि परिवर्तन मिनटों में उपयोगकर्ता तक पहुंच जाएगा। और यहाँ दूसरे कार्य का हमें इंतजार था।

परिवर्तन निर्देशिका आधार में आता है, लेकिन सेवा में "अंकुरित" होने में समय लगता है। उदाहरण के लिए, खोज को निर्देशिका से परिवर्तनों को प्रतिबिंबित करने के लिए खोज सूचकांक को अपडेट करना चाहिए। इसके आसपास जाने के लिए, हमने वस्तुओं की अवस्थाओं को संचय करने के लिए एक रूपरेखा तैयार की। सीधे शब्दों में कहें, अब आप खोज अनुक्रमणिका का पुनर्निर्माण किए बिना फ़ोन नंबर को खोज के ऑब्जेक्ट उत्तर में बदल सकते हैं। अब, खोज परिणामों का निर्माण करते समय, खोज को पता होता है कि कौन सी वस्तुएं पुरानी हैं, और हाल की जानकारी को खींच सकती हैं। बेशक, अभी भी ऐसी परिस्थितियां हैं जहां डेटा में परिवर्तन संगठन की रैंकिंग को प्रभावित करता है, लेकिन सूचकांक के पुनर्निर्माण के बिना कोई रास्ता नहीं है।



इसलिए, सुधार और कार्यान्वयन के बाद, हम कुछ दिनों से लेकर घंटों और कभी-कभी मिनटों तक यांडेक्स सेवाओं में संगठनों के बारे में डेटा अपडेट करने के लिए औसत समय को कम करने में सक्षम थे। मैं विश्वास करना चाहता हूं कि आपने इस पर ध्यान दिया।

आज मैंने एक छोटी समीक्षा पोस्ट में काम का एक लंबा इतिहास रखा है। हमें बताएं कि आप भविष्य में किन पक्षों या फैसलों को अधिक विस्तार से पढ़ना चाहेंगे। हमें प्रतिक्रिया और अपील प्राप्त करने में खुशी होगी, हम निर्देशिका पर काम करना जारी रखेंगे और हैबर पाठकों को इसकी खबर के बारे में बताएंगे।

All Articles