هانز بيتر لون وولادة خوارزمية التجزئة

أعطت خوارزمية التجزئة لمهندس IBM أجهزة الكمبيوتر القدرة على البحث بسرعة عن المستندات والحمض النووي وقواعد البيانات.


بدءًا من أربعينيات القرن العشرين ، طور لون آلات وأنظمة لتحليل المعلومات ، على وجه الخصوص ، خوارزمية التجزئة المستخدمة حاليًا على نطاق واسع ، والتي اقترحها كوسيلة فرز. أرقام ونص.

في نوفمبر 1958 ، خلال مؤتمر دولي لمدة ستة أيام حول المعلومات العلمية ، عرض المخترع هانز بيتر لون العديد من الآلات الكهروميكانيكية. بدوا عاديين جدا. مثل جميع أجهزة الحوسبة الأخرى في ذلك الوقت ، كانت زوايا وعملية ومصممة لاستقبال وتصنيف أكوام من البطاقات المثقوبة في فتحات وسلال.

ومع ذلك ، على عكس أجهزة الكمبيوتر الأخرى ، لم تعمل أجهزة القمر مع الأرقام والصيغ ، ولكن مع الكلمات والجمل. استخدمت إحدى الآلات التي جذبت اهتمامًا خاصًا خوارزمية القمر المسماة KWIC ، Key for Word in Context . بعد تلقي كمية كبيرة من النص - على سبيل المثال ، مقالة من 500 إلى 5000 كلمة ، يمكن لـ KWIC بناء شيء مثل الفهرس بسرعة وبشكل مستقل.

في ذلك الوقت ، كانت فهرسة وتصنيف وتنظيم المعلومات المكتوبة عملية تستغرق وقتًا طويلاً للغاية ، حتى بالنسبة للمهنيين ذوي الخبرة. وكان حجم المعلومات في بعض المناطق ينمو بسرعة كبيرة لدعمه. هناك حاجة ماسة لأدوات جديدة وأفضل للتلخيص والتعميم. بالنسبة لأمناء المكتبات وعلماء المعلومات الذين تجمعوا في واشنطن ، كانت مظاهرة KWIC شبيهة بالزلزال. كتبت الصحف في جميع أنحاء البلاد على الفور عن اختراع القمر الرائع.

وبحلول أوائل الستينيات من القرن العشرين ، أصبحت KWIC أساسًا لتطوير مئات أنظمة الفهرسة المحوسبة ، بما في ذلك تلك التي تستخدمها خدمة الملخصات الكيميائية ، والملخصات البيولوجية ومعهد المعلومات العلمية. ووصف بعض الخبراء تطوير KWIC بأنه "أعظم حدث في عالم الكيمياء منذ اختراع أنبوب الاختبار". قام Lun ، كبير مهندسي IBM ، ببناء "نظام ذكي" للأعمال التجارية مع شركة KWIC. (ملاحظة: كان هو أول من اقترح مصطلح BI) يمكنها تحديد وتقديم المعلومات ذات الصلة لأفراد معينين من الشركات الكبيرة. في الأساس ، كان KWIC يعادل محرك بحث في ذلك الوقت: فقد سمح للمستخدمين بالعثور بسرعة على المعلومات التي يحتاجونها.

الآن نأخذ في الاعتبار أن أجهزة الكمبيوتر يمكن أن تعمل مع المعلومات وتقدم لنا على الفور تقييمات المطاعم ، والنتائج الرياضية ، وأسعار الأسهم. في أيام القمر ، كانت أجهزة الكمبيوتر بسيطة وبدائية. ساعدت محاولاته للعمل مع النص على تكوين رؤية أوسع لأجهزة الكمبيوتر وقدراتها. ولا تزال أفكاره أساس الخوارزميات التي نستخدمها للتسوق عبر الإنترنت والترجمة الآلية والبحث الجيني. بالطبع ، في الخمسينيات من القرن الماضي ، كان كل هذا غير وارد على الإطلاق. بعد ذلك ، سنتحدث عما أدى القمر إلى دالة تجزئة ، وحل لمشكلة لم تكن موجودة حتى.

السنوات التي تلت الحرب العالمية الثانيةكان له تأثير كبير على أجهزة الحوسبة الإلكترونية. قامت الآلات المختلفة في سنوات الحرب بحسابات حيوية للمقذوفات والأسلحة الذرية والتشفير. زودت الحرب الباردة التي تلت ذلك مطوري الكمبيوتر بالتمويل المستمر ، ونتيجة لذلك ، أصبحت الآلات أسرع وأكثر دقة وأكثر قوة. لكن غرضهم الرئيسي - معالجة وتخزين الأرقام - لم يتغير.

في عالم الكمبيوتر الوليدة ، كانت لون شخصية غير عادية. كان لون يتمتع دائمًا بمذاق جيد للملابس ، ويفهم في صناعة النسيج أكثر بكثير مما يفهمه في علوم الكمبيوتر. جاء للعمل في IBM في عام 1941. يبدو أن اختراعات عديدة للقمر لا تزال تنتمي إلى عصر ما قبل العصر الرقمي للحاسبات الميكانيكية وقواعد الانزلاق. حتى أجهزة الكمبيوتر الرقمية في الخمسينيات كانت أقوى من أجهزتها الكهروميكانيكية. ومع ذلك ، فإن أفكار القمر ، بطريقة أو بأخرى تم إعادة التفكير فيها وتحويلها ، يتم تطبيقها الآن في جميع أنواع البرامج تقريبًا.

ولد هانز بيتر لون عام 1896 في مدينة بارمان الألمانية. كان والده ، يوهان لون ، طابعة ناجحة ، مخلصًا جدًا لهوايات أطفاله. على سبيل المثال ، بمجرد أن قام هانز ، مع إخوانه وأخواته ، ببناء سكة حديد مصغرة في حديقة الأسرة. تم صهر سكك الرصاص 70 مترا على آلة والده.

بعد تخرجه من المدرسة ، ذهب لون لدراسة دراسة الحرف الأسرية في سويسرا. لكن الحرب العالمية الأولى والمسودة في الجيش الألماني قاطعت مهنته المطبوعة. بعد الحرب ، بدأ لون في التجارة في المنسوجات. في الولايات المتحدة ، وجد نفسه في عام 1924 بحثًا عن أماكن محتملة لبناء مصانع النسيج. وحتى في مجال المنسوجات ، وجد الوريد الابتكاري للقمر تطبيقًا. في عام 1927 ، طور خطًا خاصًا يمكن من خلاله حساب عدد الخيوط في النسيج.لا يزال جهاز Lunometer يباع من قبل HP Luhn & Associates ، وهي شركة هندسية واستشارية أسسها Moon.

تعلمت لون بسرعة. لقد امتص حرفياً المعرفة من مختلف المجالات وأصبح تدريجياً متسلقًا ذا خبرة ومتخصصًا في الطهي الذواقة ورسامًا طبيعيًا جيدًا. قبل 1930s، قائمة واسعة من براءات الاختراع له ما يلي: و عباءة للطي ، جهاز لتشكيل جوارب نسائية، وهي لعبة الطاولة، و كوكتيل أوراكل - دليل على أن ساعد المستخدم جعل كوكتيل من ما كان في متناول اليد.


في عام 1933 ، قبل وقت قصير من انتهاء الحظر ، قدم لون براءة اختراع لدليل ساعد في جعل مزيج من المكونات متاحًا.

لكن الأهم من ذلك كله ، كان القمر مهتمًا بتخزين المعلومات ونقلها واسترجاعها ، وخاصة المعلومات النصية. في الواقع ، قادته هذه المصالح إلى شركة IBM ، حيث حصل على "لقب" المخترع. تبين أن لون غزير الإنتاج بشكل غير عادي - خلال حياته المهنية ، أنشأ حوالي 70 براءة اختراع لشركة IBM. على الرغم من حقيقة أنه لم يحده أحد في اختياره للمهام ، فقد تمحور العديد من اختراعاته حول استخدام الآلات ، بما في ذلك الأجهزة الإلكترونية ، لمعالجة المعلومات.

على سبيل المثال ، في عامي 1946 و 1947 ، عمل لون على تعليم الآلات "قراءة" المستندات المكتوبة على آلة كاتبة. يتألف أحد أجهزته من شريط معدني مدسوس بآلة كاتبة يطبق الرموز المغناطيسية على الورق. ثم يمكن لآلة أخرى مسحها ضوئيًا. بعد ذلك بقليل ، بدأ ، مع اثنين من الكيميائيين من معهد ماساتشوستس للتكنولوجيا ، مالكولم دايسون وجيمس بيري ، العمل على آلة يمكنها البحث تلقائيًا عن المركبات الكيميائية باستخدام بطاقات الثقب. تم ترميز كل بطاقة مثقبة بمعلومات حول اتصال معين. كان على المستخدم إدخال "بطاقة طلب" في الجهاز والإشارة إلى مجموعة من المعايير التي يجب من خلالها مقارنة وفرز البطاقات المركبة. تبين أن الماسح الضوئي متخصص بشكل ضيق للغاية ، وواصل لون البحث عن طرق أكثر شمولية للمعالجة التلقائية للمعلومات.

كانت مشكلة المعلومات في تلك السنوات على شفاه الجميع. في فترة ما بعد الحرب ، زاد عدد المنشورات العلمية والتقنية بشكل حاد. خشي العديد من الخبراء من أن الأعمال والعلوم ستنخفض بسبب زيادة المعلومات. اقترح فانيفار بوش ، أثناء الحرب ، رئيس قسم علمي أمريكي كبير وأحد المبادرين لإنشاء مؤسسة العلوم الوطنية ، جهازًا ميكانيكيًا ميكانيكيًا بحجم جدول لتخزين المعلومات وربطها.

اقتراح بوش لم يتحقق أبداً ، على عكس أفكار مون. على سبيل المثال ، في 6 يناير 1954 ، قدم براءة اختراع لجهاز كمبيوتر للتحقق من الأرقام.. كان جهازًا ميكانيكيًا يدويًا مصممًا لحل مشكلة عملية بسيطة. في ذلك الوقت ، بدأت أنواع مختلفة من أرقام التعريف ، مثل أرقام بطاقات الائتمان وأرقام الضمان الاجتماعي ، تلعب دورًا كبيرًا في الحياة العامة والخاصة. ومع ذلك ، كان من الصعب تذكر الأرقام ، ويمكن فك تشفيرها بشكل غير صحيح أو تزييفها عن قصد. كانت هناك حاجة إلى طريقة للتحقق بسرعة من صحة أرقام التعريف.

كانت آلة بحجم الجيب ، القمر ، حول ذلك. عملت على أساس خوارزمية المجموع الاختباري التي طورها. بالنسبة للرقم المكون من 10 أرقام ، قام الكمبيوتر بالإجراءات التالية:
  • مضاعفة كل ثاني رقم ؛
  • إذا كانت أي نتيجة أكبر من أو تساوي 10 ، فأضف أرقام هذه النتيجة للحصول على رقم مكون من رقم واحد (على سبيل المثال ، "16" ستصبح 1 + 6 = 7) ؛
  • إضافة جميع الأرقام العشرة من الرقم الجديد ؛
  • اضرب في 9 ؛
  • خذ الرقم الأخير من هذه النتيجة.

أنتجت هذه الخوارزمية رقم تحقق فريدًا. في الصيغة الأصلية للقمر ، تعني "0" أن الرقم الأصلي كان حقيقيًا. في الإصدارات اللاحقة ، تمت إضافة رقم التحقق ببساطة إلى الرقم الأصلي في شكل الرقم الأخير ، وكان من السهل التحقق مما إذا كان الرقم الأخير يتوافق مع نتيجة الفحص على جهاز القمر. لا يزال التسلسل الأساسي للحسابات ، المعروف الآن باسم خوارزمية القمر ، مستخدمًا على نطاق واسع. هذا يتحقق من عدد معرفات المعدات المتنقلة الدولية (IMEIs) المخصصة للهواتف المحمولة.

لكن الأهم من ذلك أن إحدى أهم الخوارزميات في العصر الرقمي جاءت من تروس وعجلات آلة القمر: التجزئة. توفر هذه الفئة الواسعة من الخوارزميات وسائل فعالة لتنظيم المعلومات حتى يتمكن الكمبيوتر من العثور عليها بسهولة. يشبه هذا وصفة لحوم البقر والبطاطا: خوارزمية التجزئة ، مثل الطهي ، تقسم وتخلط البيانات بطرق مختلفة. يمكن أن يؤدي هذا "الارتباك" مع النشر المناسب إلى تسريع العديد من أنواع عمليات الكمبيوتر.

في أوائل عام 1953 ، أرسل لون ملاحظة داخلية لشركة IBM ، حيث اقترح وضع المعلومات في "دلاء" (دلو - دلو ، سلة) لتسريع البحث. افترض أنك بحاجة إلى العثور على رقم الهاتف في قاعدة البيانات ومعرفة لمن ينتمي. وتتكون من 10 أرقام: "314-159-2652". سيتمكن الكمبيوتر من التحقق من رقم واحد من قاعدة البيانات في كل مرة حتى يجد الإدخال المطلوب. ومع ذلك ، إذا كانت قاعدة البيانات تحتوي على ملايين الأرقام ، فستستغرق الكثير من الوقت.

كانت فكرة القمر هي ترتيب جميع الإدخالات في سلال مرقمة. تم ذلك على النحو التالي: يتم تجميع أرقام رقم الهاتف في أزواج (في هذه الحالة ، 31 ، 41 ، 59 ، 26 ، 52). ثم تتم إضافة أزواج الأرقام (4 ، 5 ، 14 ، 8 ، 7) ، ويتم إنشاء رقم جديد منها. إذا كانت نتيجة الإضافة داخل الزوج تحتوي على رقمين ، يتم أخذ الرقم الأخير فقط (أي أنه يتحول إلى 45487). سيتم وضع رقم الهاتف الأصلي والاسم / العنوان المطابق له في السلة برقم 45487. يتكون

البحث برقم الهاتف من حساب رقم السلة (باستخدام طريقة القمر) ثم استخراج المعلومات من هذه السلة. حتى لو احتوت المجموعة على عدة سجلات ، كان البحث فيما بينها أسرع بكثير من البحث في قاعدة البيانات بأكملها.

لعقود من الزمن ، كان علماء الكمبيوتر والمبرمجون يتقنون طرق القمر ويجدون استخدامات جديدة لهم. لكن الفكرة الأساسية ظلت كما هي: استخدم الرياضيات لتنظيم البيانات في مجموعات يسهل العثور عليها. نظرًا لأن مشكلات التنظيم والبحث عن البيانات شائعة جدًا في تقنية الكمبيوتر ، فقد أصبحت خوارزميات التجزئة ضرورية في التشفير والرسومات والاتصالات والبيولوجيا. في كل مرة ترسل فيها رقم بطاقة ائتمان عبر الإنترنت أو تستخدم قاموس محرر نصوص ، تعمل وظائف التجزئة.


فهرسة سريعة: في المؤتمر الدولي حول المعلومات العلمية لعام 1958 ، يوضح هانز بيتر لون (على اليمين) نظام IBM لإنشاء مؤشرات المستندات تلقائيًا استنادًا إلى خوارزمية KWIC التي طورها.

أفكار القمر في علوم الكمبيوترذهب أبعد بكثير من البحث المعتاد. أدرك أن أجهزة الكمبيوتر قادرة على التلاعب المعقد بالنص: قراءة وفهم اللغة المكتوبة. الفهرسة اللاحقة وتنظيم المعلومات لحل المشاكل العملية في العلوم والأعمال. بحلول عام 1958 ، أصبح فارز البطاقة الكيميائية الماسح الضوئي العالمي للبطاقات ومحلل الفهرس الخاص 9900 ، والذي تم عرضه في مؤتمر واشنطن. يمكن لهذه الأجهزة الكهروميكانيكية البحث وفرز بطاقات المثقاب وفقًا لمعايير المستخدم.

ولكن معظم الضوضاء تم إجراؤها بواسطة KWIC ، نظام القمر لبناء التوافق. Concordance هي قائمة أبجدية للكلمات الرئيسية المستخدمة في كتاب أو مجموعة من الأعمال. يبدو وكأنه مسرد ، ولكنه يسرد فقط الكلمات التي تظهر بالفعل في النص ، وليس المفاهيم. الكلمات التي لا تحمل حمولة دلالية ، مثل حروف الجر والعطف والمقالات ، لا تقع في التوافق. لطالما استخدمت التوافق في اللاهوت وعلم اللغة. على سبيل المثال ، يشير توافق الكتاب المقدس إلى كل استخدام لكلمة "حب" بالإشارة إلى كتاب ، فصل ، وآية. قبل ظهور البحث المحوسب بالنص الكامل ، كان إنشاء التوافق أمرًا مستهلكًا للوقت. في كثير من الأحيان ، تم إنشاء التوافق على الأعمال "المهمة" ، مثل الكتاب المقدس أو أعمال شكسبير التي تم جمعها.

ما فعله نظام القمر في السابق للبحث بالأرقام ، فعل KWIC عن النصوص. جعل كلاهما والآخر من السهل البحث من خلال كميات كبيرة من المعلومات. خذ مثال بسيط جدا. افترض أنك تريد إنشاء توافق من الكلمات الموجودة في عناوين الكتب الأربعة التالية: Gone With the Wind و War and Peace و Shadow of the Wind و Shadow of War. (ملاحظة: في الأصل - ذهب مع الريح والحرب والسلام وظل الريح وظلال الحرب)



ستعيد خوارزمية KWIC ترتيب الكلمات من الأسماء في جميع الطلبات الممكنة ، ومن ثم ترتيب كل تبديل أبجديًا. ستكون النتيجة قائمة كاملة بالكلمات الرئيسية (أي كل شيء باستثناء حروف الجر والعطف والمقالات) في السياق الذي ظهرت فيه.

وجد نظام KWIC Moon تطبيقًا سريعًا في المجتمع العلمي. لكنه كان يعلم أنه سيكون مفيدًا للأعمال أيضًا. في عام 1958 ، كتب مقالًا في IBM Journal of Research and Development بعنوان "A Business Intelligence System". في ذلك ، اقترح نظامًا يمكنه إنشاء ملخصات للمقالات تلقائيًا ، واستخراج الأفكار الرئيسية من الملخصات ، ثم إرسال النتيجة إلى الموظفين المناسبين في الشركة. فهم لون أن حل مشكلة التحميل الزائد للمعلومات يعني تطوير طريقة للفرز السريع للمعلومات التي لن تثقل كاهل الأشخاص بالمواد الزائدة.

نيويورك تايمز في نعي عام 1964 ، وصف لونا نظامه المجرد على النحو التالي:

Scientific American 2326 , IBM . , ...


قام برنامج Luna التجريد أولاً بحساب تواتر جميع الكلمات في المقالة. بعد تجاهل الكلمات الشائعة جدًا ، وجدت "مجردة" جملًا تحدث فيها العديد من الكلمات الأكثر شيوعًا معًا. تعتبر هذه المقترحات تمثيلية ويتم وضعها في ملخص. لقد كانت طريقة إحصائية محضة لم تبذل أي محاولة "لفهم" الكلمات الواردة في المقالة أو العلاقة بينهما. ولكن ، مثل KWIC ، أظهر أنه يمكن استخدام أجهزة الكمبيوتر بشكل فعال لتنظيم النص في تنسيق سهل القراءة.

غادر لون IBM في عام 1961وبعد ثلاث سنوات مات من سرطان الدم. لم يعيش لرؤية اليوم الذي حدثت فيه تغييرات كبيرة على الإنترنت. باستثناء دائرة صغيرة من المتخصصين في المعلومات وعمال النسيج والمؤرخين ، يتذكر عدد قليل من الناس اسمه. لكن أفكار القمر تعيش. اليوم ، يلعب التجزئة العديد من الأدوار في إدارة وحماية حياتنا الرقمية. عند إدخال كلمة المرور الخاصة بك على موقع ويب ، يحتفظ الخادم على الأرجح بنسخة مجزأة من كلمة المرور. عندما تتفاعل مع الموقع باستخدام بروتوكول https الآمن أو تشتري شيئًا باستخدام عملات البيتكوين ، تعمل التجزئة أيضًا. باستخدام الخدمات السحابية مثل Dropbox و Google Drive ، يساعد التجزئة على جعل التخزين ومشاركة الملفات أكثر كفاءة. في علم الوراثة وأبحاث التكنولوجيا الفائقة الأخرى ، يقلل التجزئة بشكل كبير من الوقت اللازم لتحليل كميات هائلة من البيانات.

حوَّل Hash أجهزة الكمبيوتر إلى أدوات "نصية" يمكن نطقها بالحروف والكلمات. إن ترجمة Google و Google N-gram و Google AdWords وبحث Google جميعها بطريقة أو بأخرى مخصصة للعثور على معنى النص. جعلت طفرة المعلومات على الإنترنت القراءة والفهم التلقائي [للأخبار والمعلومات الأخرى] أولوية للأعمال التجارية والعلوم للجميع. ارتبط تطوير التجزئات بالنصوص وهو انعكاس لأفكار لون حول الكلمات والجمل والوفاق والمقتطفات والمؤشرات والهضم.

هذا هو إرث لونا: لقد ساعد في إظهار أن الآلات الحاسبة والحسابات ليست فقط مجال الرياضيات والإحصاءات والمنطق ، ولكن أيضًا اللغة واللغويات والأدب. في ذلك الوقت ، كانت طريقة ثورية لإدراك الآلات.

المؤرخ التكنولوجي مايكل ماهونييسمى الكمبيوتر "آلة الستيرويد": "ليس شيئًا واحدًا فحسب ، بل أشياء كثيرة ، آلة يمكن شحذها لأي غرض. حتى الآن ، نميل إلى عرض أجهزة الكمبيوتر بالمعنى الضيق كمعالجات رقمية عملاقة تقوم بإجراء ملايين العمليات الحسابية والعمليات في الثانية. امتدت نظرة هانز بيتر مون على أجهزة الكمبيوتر إلى أبعد من ذلك. من خلال إدراك أن الكمبيوتر متعدد الأوجه ، فقد ساعد في فتح آفاق جديدة واعدة للبحث. "

All Articles