أهم 10 مفاهيم خاطئة حول نقل Hadoop إلى السحابة


تريد العديد من الشركات والمؤسسات استخدام السحابة لمعالجة البيانات لأسباب واضحة: المرونة وقابلية التوسع ، يمكنك الدفع مقابل ما تستخدمه وما إلى ذلك.

في الواقع ، يعد نقل مشروع باستخدام نظام معالجة بيانات متعدد المكونات ، بمقياس Petabyte ، من البيئة الداخلية إلى السحابة أمرًا صعبًا "لكن". هناك العديد من المنتجات للهجرة: Hadoop و Hive و Yarn و Spark و Kafka و Zookeeper و Jupyter و Zeppelin . نظرًا للاختلاف الأساسي في البيئة ، من السهل أن تضيع وتخطئ في هذا التنوع.

في هذه المقالة سأتحدث عن المفاهيم الخاطئة الشائعة وسأقدم بعض النصائح حول جودة الترحيل إلى السحابة. أنا شخصياً أستخدم AWS ، لكن كل الحيل لها صلة بموفرين آخرين لديهم حلول مماثلة ، على سبيل المثال ، لـ Azure أو GCP .

1. نسخ البيانات إلى السحابة أمر سهل


إن نقل عدة بيتابايت من البيانات إلى السحابة العامة (على سبيل المثال ، S3 ) ، والتي ستعمل في حالتنا كبحيرة بيانات ، ليست مهمة سهلة. يمكن أن يكون هذا مستهلكًا للوقت وكثيرًا من الموارد.

على الرغم من العدد الهائل من الحلول ، التجارية والمفتوحة المصدر ، لم أجد حلًا واحدًا يغطي جميع الاحتياجات:

  • الانتقال
  • تكامل البيانات
  • التحقق من البيانات
  • الإبلاغ

إذا كان جزء معين من البيانات ثابتًا أو ديناميكيًا بشكل معتدل ، فيمكنك استخدام حل مثل AWS Snowball ، والذي يسمح لك بنسخ المصفوفات إلى جهاز مادي. سيتم تنزيل البيانات من شبكتك المحلية ، وبعد ذلك سيتم إعادة محرك الأقراص إلى مركز بيانات AWS وسيتم صب البيانات في وحدة تخزين S3 .

نص مخفي
, , AWS.

من الجيد تقسيم نقل البيانات إلى مرحلتين. بعد إرسال معظم المصفوفة وتحميلها إلى المستودع ، استخدم اتصالًا مباشرًا من موفر السحابة لإلغاء تحميل الباقي. يمكنك استخدام طرق Hadoop DistCP أو Kafka Mirroring لهذا الغرض . كلتا الطريقتين لها فروق دقيقة خاصة بها. يتطلب DistCP تخطيطًا مستمرًا وضبطًا عميقًا ، بالإضافة إلى ذلك ، لا يمكن وضع جميع الكائنات في قوائم بالأبيض والأسود. يحتاج Kafka MirrorMaker ، بالإضافة إلى الضبط العميق ، إلى تصدير المقاييس من خلال ملحق إدارة JMX لقياس الإنتاجية والكمون والاستقرار الشامل.

نص مخفي
. — , .

2. تعمل السحابة تمامًا مثل التخزين المحلي


التخزين المحلي والتخزين السحابي ليسا الشيء نفسه. مثال جيد هو Zookeeper و Kafka . تقوم مكتبة عميل ZK بتخزين العناوين المسموح بها لخوادم ZK طوال مدة الخدمة: هذه مشكلة كبيرة للنشر في السحابة ، والتي تتطلب عكازات - واجهات شبكة ENI الثابتة لخوادم ZK .

لمراقبة الأداء ، من الجيد تشغيل سلسلة من اختبارات NFT غير الوظيفية في البنية التحتية السحابية للتأكد من أن الإعدادات والتهيئة ستتماشى مع أعباء عملك.

نص مخفي
, , .

3. تخزين الكائن 100٪ يستبدل HDFS


يعد فصل طبقات التخزين والحوسبة فكرة رائعة ، ولكن هناك تحذير.

باستثناء Google Cloud the Storage ، التي تستخدم اتساقًا قويًا في البيانات ( اتساق قوي) ، تعمل معظم مرافق التخزين الأخرى على نموذج "الاتساق في نهاية المطاف" (متناسق في النهاية) . هذا يعني أنه يمكن استخدامها لإدخال البيانات الخام والمعالجة ، ولإخراج النتائج ، ولكن ليس كمخزن مؤقت.

نص مخفي
, HDFS.

4. يمكنك نشر البنية التحتية السحابية من واجهة المستخدم


بالنسبة لبيئة اختبار صغيرة ، يمكن أن يكون ذلك سهلاً ، ولكن كلما زادت متطلبات البنية التحتية ، زادت احتمالية كتابة التعليمات البرمجية. قد ترغب في الحصول على عدة بيئات (Dev ، QA ، Prod) . ويمكن تنفيذ هذا باستخدام CloudFormation و Terraform ، ولكن نسخ القطع اللازمة من التعليمات البرمجية ستفشل، سيكون لديك لإعادة الكثير لنفسك.

نص مخفي
— CI/CD . , .

5. للحصول على رؤية صحيحة في السحابة ، ما عليك سوى استخدام $ {SaaS_name}


تعتبر الرؤية الجيدة (التسجيل والمراقبة) للبيئة القديمة والجديدة شرطًا حاسمًا للهجرة الناجحة.

قد يكون هذا صعبًا بسبب استخدام أنظمة مختلفة في البيئات. على سبيل المثال ، Prometheus و ELK للبيئة المحلية ، و NewRelic و Sumologic للسحابة. حتى إذا تم تطبيق حل SaaS واحد في كلتا البيئتين ، فمن الصعب توسيع نطاقه.

نص مخفي
, ( , , JMX, , ).

6. تتحول السحابة إلى ما لا نهاية


غالبًا ما يبتهج المستخدمون كأطفال عندما يتعلمون عن وظيفة التحجيم التلقائي ويعتقدون أنهم سيطبقونها على الفور على منصات معالجة البيانات الخاصة بهم. من السهل حقًا تكوين عقد EMR بدون HDFS ، ولكنها تتطلب معرفة إضافية للتخزين المستمر (على سبيل المثال ، وسيط برامج كافكا ). قبل تبديل كل حركة المرور إلى البنية التحتية السحابية ، تحتاج إلى التحقق من حدود الموارد الحالية: عدد مثيلات الفصل ، الأقراص ، تحتاج أيضًا إلى التسخين المسبق لموازنات الحمل. بدون هذا التدريب ، لا يمكن استخدام إمكانات العمل كما ينبغي.

نص مخفي
, — , — .

7. أقوم فقط بنقل بنيتي التحتية دون تغيير


في الواقع ، بدلاً من التركيز فقط على قدرات مقدم الخدمة المحتمل ، من الأفضل التركيز على المستودعات الخاصة بك ، على سبيل المثال ، DynamoDB . ولكن لا تنسى الخدمات المتوافقة مع API. بدلا من ذلك، يمكنك استخدام الأمازون RDS الخدمات السحابية ل قاعدة بيانات الخلية Metastore .

مثال جيد آخر هو منصة البيانات الضخمة المحسّنة على السحابة EMR . للوهلة الأولى ، بسيط ، يتطلب ضبطًا دقيقًا باستخدام البرامج النصية لما بعد التثبيت. يمكنك تخصيص حجم كومة الذاكرة المؤقتة ، أرشيفات الجهات الخارجية JAR ، UDFالإضافات الأمنية. لاحظ أيضًا أنه لا توجد حتى الآن طريقة لتوفير التوفر العالي (HA) للعقد الرئيسية NameNode أو YARN ResourceManager .

نص مخفي
, , .

8. نقل المهام Hadoop / Spark إلى السحابة - الأمر سهل


ليس صحيحا. لنقل المهام بنجاح ، يجب أن يكون لديك فكرة واضحة عن منطق عملك وخطوط الأنابيب: من الاستلام الأولي للبيانات الأولية إلى المصفوفات عالية الجودة. يصبح كل شيء أكثر تعقيدًا عندما تكون نتائج خطوط الأنابيب X و Y هي بيانات الإدخال لخط الأنابيب Z. يجب عرض جميع مكونات التدفقات والعلاقات بأكبر قدر ممكن من الوضوح. يمكن تنفيذ ذلك باستخدام DAG .

نص مخفي
SLA.

9. ستقلل السحابة من تكاليف التشغيل وميزانية الموظفين


تتطلب المعدات الخاصة التكاليف المادية والرواتب للموظفين. بعد الانتقال إلى السحابة ، لن تختفي جميع التكاليف: لا يزال عليك الاستجابة لاحتياجات الأعمال وتوظيف الأشخاص الذين سيشاركون في التطوير والدعم واستكشاف الأخطاء وإصلاحها وتخطيط الميزانية. ستحتاج أيضًا إلى الاستثمار في البرامج والأدوات الخاصة بالبنية التحتية الجديدة.

يجب أن يكون الموظف شخصًا يفهم كيفية عمل التقنيات الجديدة. هذا يعني موظف مؤهل تأهيلا عاليا. لذلك ، حتى مع مراعاة تخفيض عدد الموظفين ، يمكنك إنفاق الكثير ، إن لم يكن أكثر ، على راتب أخصائي واحد جيد.

نص مخفي
— (, EMR), . , , .

10. إغلاق بدون عمليات ...


No-Ops هو حلم أي عمل تجاري. بيئة مؤتمتة بالكامل دون الحاجة إلى خدمات ومنتجات من أطراف ثالثة. هل هو ممكن؟

فريق متواضع من عدة أشخاص مهم فقط للشركات الصغيرة التي لا ترتبط أنشطتها بشكل مباشر بالبيانات. سيحتاج أي شخص آخر على الأقل إلى متخصص يدمج ويحزم جميع الأنظمة ويقارنها ويعمل تلقائيًا ويوفر الرؤية ويزيل جميع الأخطاء التي تظهر على طول الطريق.

نص مخفي
Data-Ops , .



كي تختصر. يعد نقل خطوط أنابيب معالجة البيانات إلى السحابة أمرًا جيدًا. لكي يعمل الترحيل كما ينبغي ، تحتاج إلى تخطيط العملية بعناية ، مع مراعاة جميع المزالق الموضحة أعلاه. فكر في بضع خطوات إلى الأمام وسيعمل كل شيء.

All Articles