الترحيل من بحيرة البيانات السلسة إلى شبكة البيانات الموزعة

مرحبا يا هابر! أقدم لكم ترجمة المقال "كيف نتجاوز ما وراء بحيرة بيانات متجانسة إلى شبكة بيانات موزعة" بقلم Zhamak Dehghani (Zhamak Degani) (جميع الصور مأخوذة من نفس المقالة).

تحاول جميع الشركات الكبيرة الآن بناء مستودعات بيانات مركزية ضخمة. أو حتى بحيرات البيانات العنقودية الضخمة (كقاعدة عامة ، على hdup). لكني لا أعرف مثالًا واحدًا على النجاح في بناء منصة البيانات هذه. في كل مكان يعاني الألم والمعاناة لكل من يقوم ببناء منصة بيانات وللمستخدمين. في المقالة أدناه ، يقدم المؤلف (Zhamak Degani) نهجًا جديدًا تمامًا لبناء منصة بيانات. هذه هي بنية منصة البيانات من الجيل الرابع تسمى Data Mesh. المقال الأصلي باللغة الإنجليزية ضخم للغاية ويصعب قراءته بصراحة. تحولت الترجمة أيضًا إلى أن تكون كبيرة إلى حد ما والنص ليس بسيطًا جدًا: جمل طويلة ، إلى حد ما مفردات جافة. لم أعد صياغة أفكار المؤلف من أجل الحفاظ على دقة الصياغة.لكني أوصي بشدة أن تستمر في قراءة هذا النص الصعب وتقرأ المقال. بالنسبة لأولئك الذين يتعاملون مع البيانات ، ستكون مفيدة للغاية ومثيرة للاهتمام للغاية.

إيفجيني شيرني

تستثمر العديد من الشركات في الجيل التالي من Data Lake على أمل تبسيط الوصول إلى البيانات على مستوى الشركة وتوفير رؤى الأعمال والقدرة على اتخاذ قرارات عالية الجودة تلقائيًا. لكن الأساليب الحالية لبناء منصات البيانات لديها مشاكل مماثلة لا تسمح لنا بتحقيق أهدافنا. لحل هذه المشاكل ، نحتاج إلى التخلي عن نموذج بحيرة البيانات المركزية (أو سابقتها ، مستودع البيانات). والانتقال إلى نموذج قائم على الهندسة الحديثة الموزعة: ضع في الاعتبار مجالات العمل كأولوية من المستوى الأول ، وتطبيق التفكير الأساسي لإنشاء بنية تحتية مع القدرة على الخدمة الذاتية ، وإدراك البيانات كمنتج.

صورة

المحتوى

  • الهيكل الحالي لمنصة البيانات في شركة كبيرة
    • الأساليب المعمارية الإشكالية
    • domain driven
      • -
      • (data pipelines),
        • (discoverable)
        • (addressable)
        • ,
    • data- -
    • البنية التحتية للبيانات المركزية كمنصة
  • تحول النموذج نحو شبكة البيانات

لا يزال بناء مؤسسة تعتمد على البيانات أحد الأهداف الاستراتيجية الرئيسية للعديد من الشركات التي أعمل معها. يدرك عملائي جيدًا مزايا اتخاذ القرارات استنادًا إلى بيانات عالية الجودة: ضمان أعلى جودة لخدمة العملاء ، والتخصيص المفرط ، وخفض تكاليف التشغيل والوقت بسبب التحسين ، وتزويد الموظفين بأدوات التحليل وتحليلات الأعمال. يستثمرون بكثافة في بناء منصات البيانات الحديثة. ولكن على الرغم من الجهود المتزايدة والاستثمار في بناء مثل هذه المنصات ، فإن العديد من المنظمات تعتبر النتائج متوسطة.

تواجه المؤسسات العديد من الصعوبات في عملية التحول إلى شركة تعتمد على البيانات: الهجرة من الأنظمة القديمة وعقود من أنظمة التطوير ، والمقاومة من الثقافة الحالية ، والمنافسة العالية بين أولويات الأعمال المختلفة. على هذا النحو ، أود أن أشارككم نهجًا معماريًا يأخذ في الاعتبار أسباب فشل العديد من المبادرات في مجال بناء منصات البيانات. سأوضح كيف يمكننا تكييف وتطبيق دروس العقد الماضي في بناء معماريات موزعة في مجال البيانات. لقد دعوت هذا النهج المعماري الجديد Data Mesh .

قبل قراءة المزيد ، أطلب منك محاولة التخلي عن الأحكام المسبقة التي وضعها النموذج الحالي لهيكل منصة البيانات التقليدية أثناء قراءة هذه المقالة. كن منفتحًا على إمكانية الانتقال من بحيرات البيانات المركزية إلى بنية شبكة بيانات موزعة بشكل متعمد. قبول أن يتم توزيع البيانات بطبيعتها وتكون موجودة في كل مكان.

الهيكل الحالي لمنصة البيانات في شركة كبيرة


دعونا نتحدث عن المعنى المركزي والمتجانس والمستقل للأعمال لبيانات بحيرة البيانات.

تقريبا كل عميل أعمل معه إما يخطط أو يبني بالفعل منصة بيانات الجيل الثالث. التعرف على أخطاء الأجيال السابقة.

  • الجيل الأول: مستودعات بيانات المؤسسة الخاصة ومنصات ذكاء الأعمال. هذه قرارات تتعلق بمبالغ كبيرة من المال تركت الشركات ذات مبالغ كبيرة من الديون الفنية. يوجد الدين الفني في آلاف الوظائف والجداول والتقارير غير المدعومة من ETL التي لا تفهمها سوى مجموعة صغيرة من المتخصصين ، مما يقلل من التأثير الإيجابي لهذه الوظيفة على الأعمال.
  • الجيل الثاني: النظم البيئية للبيانات الضخمة مع Data Lake على شكل رصاصة فضية. نظام بيئي معقد للبيانات الضخمة ووظائف الدفعة طويلة الأمد يدعمها فريق مركزي من مهندسي البيانات المتخصصين للغاية. في أحسن الأحوال ، تُستخدم لتحليلات البحث والتطوير.

منصات البيانات من الجيل الثالث تشبه إلى حد ما الأجيال السابقة ، ولكن مع انحياز نحوها

  1. الجري لتوفير توافر البيانات في الوقت الحقيقي مع بنية مثل Kappa ،
  2. الجمع بين معالجة الدفعة والتدفق لتحويل البيانات باستخدام أطر مثل Apache Beam ،
  3. استخدام الخدمات السحابية لتخزين البيانات ومعالجتها ومنصات التعلم الآلي السحابية.

يزيل النظام الأساسي للبيانات من الجيل الثالث بعض مشاكل الأجيال السابقة ، مثل تحليل البيانات في الوقت الفعلي ، كما يقلل من تكلفة إدارة البنية التحتية للبيانات الضخمة. ومع ذلك ، لا يزال يتم الحفاظ على العديد من الميزات الأساسية التي أدت إلى فشل الأجيال السابقة.

صورة
الشكل 1: ثلاثة أجيال من منصات البيانات

الأساليب المعمارية الإشكالية


للكشف عن القيود الأساسية التي تمتلكها جميع أجيال منصات البيانات في حد ذاتها ، دعنا نلقي نظرة على بنيتها وميزاتها. في هذه المقالة ، سأستخدم أعمال بث وسائط الإنترنت (مثل Spotify و SoundCloud و Apple iTunes) كمثال لشرح بعض المفاهيم.

مركزية ومتجانسة


من ارتفاع 10000 متر ، تبدو بنية منصة البيانات مثل الشكل 2 أدناه.
صورة
الشكل 2: منظر من ارتفاع 10000 متر على منصة بيانات متجانسة ،

الجزء المركزي من العمارة مسؤول عن:

  • (to ingest) , , . , , : ; ; ; , ; ( ..).
  • , , , . , , — .
  • (to serve) . machine learning BI . , . , Kafka.

بشكل افتراضي ، فإن الاتفاقية المقبولة بشكل عام هي حقيقة أن منصة البيانات المتجانسة تقوم بتخزين وامتلاك البيانات التي تنتمي إلى مجالات الأعمال المختلفة. على سبيل المثال ، "أحداث اللعب" و "مؤشرات الأداء الرئيسية للمبيعات" و "الفنانين" و "الألبومات" و "التصنيفات" و "الصوت" و "ملفات البودكاست" و "أحداث الموسيقى" وما إلى ذلك. - بيانات من عدد كبير من المجالات المتباينة.

على الرغم من حقيقة أننا على مدى العقد الماضي نجحنا في تطبيق مفهوم التصميم المستند إلى المجال (ونمط سياقه المحدود الأساسي ) على تصميم أنظمة المعلومات الخاصة بنا ، فقد تجاهلنا هذه المفاهيم إلى حد كبير في تصميم منصات البيانات. لقد انتقلنا من ملكية البيانات على مستوى مجال الأعمال إلى ملكية البيانات بغض النظر عن مجالات الأعمال. نحن فخورونالذي خلق أكبر متراصة - منصة البيانات الكبيرة.

صورة
الشكل 3: منصة بيانات مركزية بدون حدود واضحة بين البيانات من مجالات الأعمال المختلفة. وبدون ملكية البيانات ذات الصلة من قبل مجال الأعمال ،

يمكن أن يعمل هذا النموذج المركزي للمؤسسات الصغيرة التي لديها مجالات أعمال بسيطة وخيارات استهلاك بيانات محدودة. ولكنها ليست مناسبة للشركات الكبيرة ذات المجالات التجارية الكبيرة والمعقدة ، وعدد كبير من مصادر البيانات والاحتياجات المتنوعة للعمل مع البيانات من المستهلكين.

هناك ارتباطان ضعيفان في بنية وهيكل منصة بيانات مركزية ، والتي تؤدي غالبًا إلى فشل في عملية بنائه:

  • عدد كبير من المصادر وكميات كبيرة من البيانات. , , . , . . , , , . , data scientists . , ( ) , . , – - .
  • . . , . .

هنا أحتاج إلى توضيح أنني لا أتحدث لصالح استخدام بيانات مجزأة ومتباينة مخبأة في أعماق الأنظمة القديمة. مثل هذه البيانات التي يصعب اكتشافها وفهمها واستخدامها. ولا أدعم أيضًا العديد من مخازن البيانات المتباينة داخل نفس المؤسسة ، والتي هي نتيجة سنوات عديدة من الديون الفنية المتراكمة. لكني أجادل بأن الإجابة على مثل هذه البيانات المجزأة التي لا يمكن الوصول إليها ليست إنشاء منصة بيانات مركزية مع فريق مركزي يقوم بتخزين البيانات وامتلاكها من جميع مجالات الأعمال.

هذا النهج لا يتوسع في المنظمات الكبيرة ، كما هو موضح أعلاه.

تحلل ناقل متصل للغاية


صورة
الشكل 4: التحلل المعماري لمنصة البيانات

المشكلة الثانية في البنية التقليدية لمنصة البيانات هي كيف نحلل البنية. إذا انخفض إلى 3000 متر فوق بنية منصة البيانات ، فسوف نجد تحليلاً معماريًا حول وظائف التحميل والتنظيف والتجميع وتقديم البيانات وما إلى ذلك. كما هو موضح في القسم السابق ، تتطلب الحاجة إلى ربط مصادر جديدة ومستهلكين جدد نمو النظام الأساسي. يجب أن يجد المهندسون المعماريون طريقة لتوسيع نطاق النظام عن طريق تقسيمه إلى كميات معمارية. الكم المعماري ، كما هو موضح في كتاب " بناء معماريات تطورية"، هو مكون قابل للنشر بشكل مستقل مع اتصال وظيفي عالٍ ، والذي يتضمن جميع العناصر الهيكلية اللازمة للتشغيل الصحيح للنظام. يتكون الدافع لتقسيم النظام إلى كميات معمارية في المقام الأول من إنشاء فرق مستقلة ، كل منها يخلق ويحافظ على الكم المعماري الخاص به (النظام الفرعي الوظيفي). هذا يسمح لك بموازاة العمل وزيادة السرعة وقابلية التطوير.

يتأثر المعماريون بالأجيال السابقة من منصات البيانات ، ويقسمون النظام الأساسي إلى سلسلة من خطوات معالجة البيانات. هذا هو خط الأنابيب الذي ينفذ معالجة البيانات: التحميل والتحضير والتجميع وتوفير الوصول / التفريغ ، إلخ.

على الرغم من أن هذا التقسيم يوفر مستوى معينًا من التوسع ، إلا أنه يحتوي أيضًا على قيود داخلية تؤدي إلى إبطاء تطوير الوظائف الجديدة على النظام الأساسي: هناك اتصال عالي بين خطوات خط الأنابيب ، والذي لا يسمح بالاستقلالية اللازمة لعمل الفرق الفردية.

دعونا نعود إلى مثال وسائط البث. تتميز منصات بث الوسائط على الإنترنت بتصميم قوي للنطاق حول نوع الوسائط التي تقدمها. غالبًا ما يبدأون خدماتهم باستخدام "الأغاني" و "الألبومات" ، ثم يطبقون على "الأحداث الموسيقية" و "ملفات البودكاست" و "البرامج الإذاعية" و "الأفلام" وما إلى ذلك. تمكين ميزة جديدة ، على سبيل المثال ، إمكانية رؤية "ملفات البودكاست" معدل التشغيل "، يتطلب تغيير في جميع مكونات خط الأنابيب. تحتاج الفرق إلى تطوير خدمات جديدة لتحميل وتنظيف وإعداد البيانات (بما في ذلك التجميع) من أجل إضافة وضوح "معدل تشغيل ملفات البودكاست". وهذا يتطلب التزامن بين إصدارات الفرق الوظيفية المختلفة. تستخدم العديد من منصات البيانات أدوات تنزيل قائمة على التكوين يمكنها التعامل مع هذه المهام بسهولة.مثل إضافة مصادر جديدة أو توسيع المصادر الحالية. ولكن هذا لا يلغي الحاجة إلى إدارة الإصدار من طرف إلى طرف في جميع مراحل خط معالجة البيانات. لتزويد المستخدمين بالوصول إلى أي بيانات جديدة ، فإن الحد الأدنى للوحدة المعمارية التي تحتاج إلى تغيير هو خط الأنابيب بأكمله. وهذا يحد بشكل كبير من قدرتنا على زيادة سرعة وحجم تطوير منصة البيانات استجابة لظهور مصادر بيانات ومستخدمين جدد.وهذا يحد بشكل كبير من قدرتنا على زيادة سرعة وحجم تطوير منصة البيانات استجابة لظهور مصادر بيانات ومستخدمين جدد.وهذا يحد بشكل كبير من قدرتنا على زيادة سرعة وحجم تطوير منصة البيانات استجابة لظهور مصادر بيانات ومستخدمين جدد.

فرق متباينة ومتخصصة للغاية


المشكلة الثالثة في منصات البيانات الحديثة هي كيفية هيكلة الفرق التي تقوم بإنشاء وصيانة المنصة. عندما ننخفض بما يكفي عبر بنية منصة البيانات التقليدية ، سنرى مجموعة من مهندسي البيانات المتخصصين الضيقين المنفصلين عن تلك الوحدات التنظيمية التي يتم فيها إنشاء البيانات أو استخدامها لصنع القرار. يتم تمييز مهندسي منصة البيانات في فرق منفصلة فقط على أساس كفاءاتهم الفنية وخبرتهم في تقنيات البيانات الضخمة. المعرفة التجارية لمجالات الموضوع المقابلة (مجالات العمل) غير موجودة في هذه الفرق.

صورة
الشكل 5: فرق منصة البيانات المتناثرة الضيقة

أنا شخصياً لا أحسد حياة مهندسي منصات البيانات. يجب أن يتلقوا البيانات من الفرق التي ليس لديها حافز لتوفير جودة البيانات الصحيحة. يفتقرون إلى فهم المعنى التجاري للبيانات التي يجب عليك تنزيلها. يجب عليهم إعداد البيانات لتلبية الاحتياجات التحليلية والتشغيلية ، دون فهم واضح للاستخدام النهائي لهذه البيانات ودون الوصول إلى الخبراء في مجال استهلاك هذه البيانات.

وتجدر الإشارة إلى أننا واجهنا في السابق مشكلة مماثلة لانفصال الفريق. وتمكنوا من إيجاد حل ناجح لهذه المشكلة.

صورة

في مثالنا مع دفق الوسائط المتعددة ، لدينا أمر "مشغل الوسائط" ، الذي يمتلك بيانات حول كيفية تفاعل المستخدمين مع المشغل: الأغاني التي يستمع إليها المستخدمون ، والمشتريات التي يتم إجراؤها ، وجودة الصوت للأغاني التي يستمعون إليها ، وما إلى ذلك. من ناحية أخرى ، هناك فرق من المستهلكين للبيانات ذات الصلة: فريق توصيات الأغاني ؛ فريق مراقبة المبيعات ؛ فريق دفع الفنان ، إلخ. وبينهم ، فريق حزين من مطوري منصة البيانات ، والذي ، على حساب الجهد الكبير ، يتلقى البيانات من فريق واحد ويوفر الوصول إليها (بعد المعالجة الأولية) لجميع المستهلكين.

في الواقع ، لدينا فرق غير متورطة من مصادر البيانات وفرق محبطة من مستهلكي البيانات الذين يتعين عليهم القتال من أجل الحصول على مكان على رأس العمل المتأخر لفريق تطوير منصة البيانات.

لقد أنشأنا بنية وهيكل تنظيمي لا يوفر قابلية التوسع اللازمة وغير قادر على تحقيق أهداف بناء مؤسسة تعتمد على البيانات.

بنية منصة البيانات من الجيل التالي


وما هو حل المشاكل التي ناقشناها أعلاه؟ في رأيي ، هناك حاجة إلى تحول في النموذج. تحول نموذجي في تقاطع الطرق التي لعبت دورًا مهمًا في بناء بنية موزعة حديثة قابلة للتطوير والتي نفذتها صناعة التكنولوجيا ككل بوتيرة متسارعة. الأساليب التي أسفرت عن نتائج ناجحة.

أعتقد أن بنية منصة بيانات المؤسسة التالية هي دمج البنية الموزعة على المجال الموزع ، وتصميم منصات الخدمة الذاتية ، وتفكير المنتج للبيانات.

صورة
الشكل 6: تغيير نموذج الجيل التالي من منصة البيانات.

أفهم أن هذا قد يبدو وكأنه الكثير من الكلمات الطنانة في جملة واحدة ، ولكن كان لكل من هذه المكونات تأثير إيجابي بشكل لا يصدق على تغيير الأسس التقنية لأنظمة المعلومات لدينا. دعونا نرى كيف يمكننا تطبيق كل من هذه التخصصات على عالم البيانات من أجل الابتعاد عن النموذج الحالي الذي تم نقله من سنوات عديدة من بناء مستودعات البيانات للأجيال السابقة.

البيانات والبنية المدفوعة بالمجال الموزع


تحلل وملكية البيانات على أساس توجه مجال العمل


كان لكتاب إريك إيفانز ، التصميم المستند إلى المجال ، تأثير عميق على التفكير المعماري المعاصر ، وبالتالي النمذجة التنظيمية. قامت بنية الخدمات الصغيرة الجديدة بتحليل أنظمة المعلومات إلى خدمات موزعة يتم بناؤها داخل حدود مجالات عمل محددة. أدى هذا إلى تغيير جذري في طريقة تشكيل الفرق: من الآن فصاعدًا ، يمكن للفريق امتلاك خدماته الصغيرة بشكل مستقل ومستقل.

من المثير للاهتمام ، تجاهلنا مفهوم مجالات العمل في مجال البيانات. التطبيق القادم للتصميم القائم على المجال في بنية منصة البيانات: هذا هو ظهور أحداث مجال الأعمالفي نظم المعلومات وتحميلها في منصات بيانات متجانسة. ومع ذلك ، بعد تحميل البيانات إلى وحدة التخزين المركزية ، يتم فقد مفهوم ملكية البيانات من المجالات التجارية المختلفة من قبل فرق مختلفة.

لتحقيق لامركزية منصة بيانات متجانسة ، تحتاج إلى تغيير طريقة تفكيرك في البيانات وموقعها وملكيتها. بدلاً من نقل البيانات إلى Data Lake أو نظام أساسي ، يجب أن تخزن المجالات مجموعات البيانات الخاصة بها وتحافظ عليها بطريقة سهلة الاستخدام.

في مثالنا ، بدلاً من تحميل البيانات من مشغل الوسائط إلى مستودع مركزي للمعالجة الإضافية من قبل فريق دعم المستودعات ، لماذا لا تقوم بتخزين ومعالجة مجموعات البيانات هذه داخل النطاق وعدم منح أي فريق آخر حق الوصول إليها؟ يمكن تنفيذ نفس المكان الذي سيتم فيه تخزين مجموعات البيانات فعليًا تقنيًا داخل النطاق كما يحلو لك. بالطبع ، يمكنك استخدام بنية مركزية ، ولكن البيانات من مشغلات الوسائط نفسها ستظل تحت ملكية ودعم فريق المجال المقابل الذي يتم إنشاء هذه البيانات فيه. وبالمثل ، في مثالنا ، يمكن لمجال تطوير توصيات الأغنية إنشاء مجموعات بيانات بالتنسيق الأنسب للاستخدام (على سبيل المثال ، في شكل هياكل الرسم البياني) بناءً على البيانات من مشغل الوسائط. إذا كانت هناك فرق أخرى ،الذين يعتبرون هذا التنسيق مناسبًا ومفيدًا ، يمكنهم أيضًا الوصول إليه.

وهذا يعني بالطبع أنه يمكننا تكرار البيانات في مجالات مختلفة عندما نغير تنسيقها إلى تنسيق يناسب مستهلكًا معينًا.

كل هذا يتطلب تحولًا في تفكيرنا من تنزيل البيانات (عبر ETL أو البث) إلى توسيع نطاق هذه العملية إلى جميع المجالات. يعد الكم المعماري في منصة البيانات الموجهة للنطاق مجالًا تجاريًا ، وليس مرحلة تحميل البيانات وتحويلها.

صورة
الشكل 7: تحلل بنية تعتمد على مجالات الأعمال وفرق امتلاك البيانات.

مجموعات بيانات المجال المصدر


تتماشى بعض مجالات الأعمال بشكل جيد مع مصادر البيانات (أنظمة المعلومات). في الحالة المثالية ، فإن نظام المعلومات والفريق المرافق له ليسوا مسؤولين فقط عن إضافة وظائف الأعمال ودعمها ، ولكنهم يوفرون أيضًا مجموعات بيانات تصف الحقائق والواقع في مجال العمل المقابل. ومع ذلك ، على نطاق منظمة كبيرة ، كقاعدة عامة ، لا توجد مراسلات لا لبس فيها بين المجال التجاري ونظام المعلومات. كقاعدة عامة ، يوجد لكل نطاق العديد من أنظمة المعلومات التي تعمل على أتمتة العمليات التجارية المختلفة لمجال معين ، وبالتالي ، تخزين البيانات المتعلقة به. بالنسبة لمثل هذه المجالات ، هناك حاجة لدمج وتجميع البيانات المتباينة من أجل الحصول على مجموعات بيانات متناسقة ومتماشية عبر نطاق العمل بأكمله.

أفضل تنسيق لتخزين الحقائق التي تصف مجال العمل هو أحداث المجال . يمكن تخزينها كسجل الأحداث الموزعة مع الطوابع الزمنية. يمكن منح هذا السجل الوصول إلى المستهلكين المصرح لهم.

بالإضافة إلى هذه السجلات ، يجب أن توفر مصادر البيانات أيضًا إمكانية الوصول إلى لقطات دورية لمجموعات البيانات الرئيسية في نطاقها. تجميع هذه الصور هو للفاصل الزمني الذي يعكس بشكل أفضل الفاصل الزمني للتغييرات لنطاقك (عادةً يوم / أسبوع / شهر / ربع ، وما إلى ذلك).

يرجى ملاحظة أنه يجب فصل مجموعات بيانات نطاق الأعمال المعدة للمستهلكين عن مجموعات البيانات الداخلية للمصادر (التي تستخدمها أنظمة المعلومات لعملهم). يجب تخزينها في مكان مختلف ماديًا ومناسب للعمل مع البيانات الضخمة. بعد ذلك ، سيتم وصف كيفية إنشاء مستودع البيانات والبنية التحتية للخدمة له.

تعد مجموعات البيانات الخاصة بالمجال المعدة للمستهلكين هي العناصر الأساسية في الهيكل بأكمله. فهي لا تتحول ولا تتناسب مع مستهلك معين ، ولكنها بيانات أولية وغير معالجة.

مجموعات بيانات مجال المستهلك


ترتبط المجالات الأخرى ارتباطًا وثيقًا بمستخدمي البيانات. يتم إنشاء مجموعات البيانات الخاصة بهذا النطاق بطريقة تجعلها ، عند استخدامها ، تتناسب مع مجموعة البرامج النصية للمستخدم المرتبطة. مجموعات البيانات هذه تختلف عن مجموعات بيانات المجال المصدر. هذه ليست بيانات أولية ، ولكن البيانات تمر عبر عدة مراحل من التحول. تم تصميم هيكل مجموعات البيانات هذه وعرضها وفقًا للحالات المحددة لاستخدامها. أولئك. هذا هو تناظري لمخازن البيانات المتخصصة في مستودع مركزي. يجب توفير إمكانية الاسترداد السريع من البيانات الأولية لمجموعات البيانات الخاصة بمجال المستهلك (مجموعات بيانات مجال المستهلك).

تنفيذ خطوط أنابيب البيانات الموزعة داخل مجالاتها


يتم تفويض ملكية البيانات في بنيتنا الجديدة من المنصة المركزية إلى فرق داخل مجالات الأعمال ، ولكن الحاجة إلى تنظيف البيانات وإعدادها وتجميعها (باستخدام خط البيانات) لا تختفي. لذلك ، يصبح تنفيذ خط أنابيب البيانات الخاص به مهمة داخلية لفريق مجال الأعمال. نتيجة لذلك ، نحصل على خطوط أنابيب بيانات المجال الخاصة بنا موزعة عبر جميع المجالات.

على سبيل المثال ، يجب أن تتضمن نطاقات المصدر تنظيف البيانات ، والإزالة المكررة ، وإثراء البيانات ، وما إلى ذلك ، حتى تتمكن المجالات الأخرى من استخدام هذه البيانات دون معالجة أولية. يجب أن تتوافق كل مجموعة بيانات من هذا النوع مع هدف مستوى الخدمة من حيث جودة البيانات.

وبالمثل ، فإن مراحل بناء واجهات عرض متخصصة لخط أنابيب مركزي لمعالجة البيانات تدخل في خطوط أنابيب البيانات الخاصة بمجالات المستهلكين التي تبني مجموعات بيانات مجال المستهلك.

صورة
الشكل 8: تنفيذ خطوط معالجة البيانات الموزعة داخل مجالاتها

قد يبدو أن مثل هذا النموذج سيؤدي إلى ازدواجية كبيرة في الجهود المبذولة في كل مجال لإنشاء تنفيذه الخاص لخط أنابيب معالجة البيانات. سنتحدث عن هذه المشكلة في قسم "البنية التحتية للبيانات المركزية كمنصة".

البيانات والتفكير في المنتج


قد يؤدي نقل ملكية البيانات والمسؤولية عن تطوير وصيانة خطوط معالجة البيانات إلى جانب مجالات العمل إلى قلق شديد بشأن استمرار توافر مجموعات البيانات الموزعة هذه وسهولة استخدامها. لذلك ، نأتي هنا إلى تفكير منتج مفيد فيما يتعلق بالبيانات.

بيانات المجال كمنتج


على مدى السنوات العشر الماضية ، اخترق التفكير في المنتج بعمق تطوير نظم المعلومات في المنظمات وحوّل بشكل جدي النهج إلى هذا التطور. توفر فرق المجال لتطوير أنظمة المعلومات إمكانات جديدة في شكل واجهات برمجة التطبيقات التي يستخدمها المطورون في المؤسسات ككتل بناء لإنشاء وظائف ترتيب أعلى وقيمة أعلى. تسعى الفرق جاهدة لخلق أفضل تجربة لمستخدمي واجهات برمجة التطبيقات الخاصة بهم من خلال وثائق واضحة ومفصلة يسهل على المستخدمين الوصول إليها ؛ بيئات الاختبار مؤشرات الجودة التي تم تتبعها بعناية.

لكي تنجح منصة البيانات الموزعة ، يجب على فرق البيانات في مجالات الأعمال تطبيق تفكير المنتج فيما يتعلق بتوفير مجموعات البيانات: إدراك البيانات التي يعدونها كمنتج ، والمستهلكين (المحللون ، علماء البيانات ، مهندسو البيانات ، المتخصصون في إدارة البيانات) إلخ) كعملائك.

صورة
الشكل 9: خصائص مجموعات بيانات المجال كمنتجات

تأمل في مثالنا - دفق محتوى الوسائط عبر الإنترنت. أهم مجال الأعمال هو قصة الاستنساخ: من قبل ، أين ومتى وأي الأغاني التي تم الاستماع إليها. يحتوي هذا المجال على العديد من مستهلكي البيانات الرئيسية داخل المنظمة. يحتاج المرء إلى بيانات في الوضع شبه الحقيقي لدراسة تجربة المستخدم والكشف في الوقت المناسب عن أي مشاكل وأخطاء في التشغيل. آخرون مهتمون بلقطات تاريخية تم تجميعها حسب اليوم أو الشهر. لذلك ، يوفر نطاقنا بيانات بتنسيقين: أحداث التشغيل في شكل دفق (دفق ، موضوع في kafka أو شيء من هذا القبيل) وأحداث تشغيل مجمعة بتنسيق دفعي (ملف ، جدول في خلية ، إلخ).

لتوفير أفضل تجربة للمستخدم للمستهلكين ، يجب أن تحتوي منتجات بيانات مجال الأعمال على الميزات الرئيسية التالية.

الراحة وسهولة الكشف (قابلة للاكتشاف)


من الضروري التأكد من الظروف التي يمكن من خلالها العثور على أي منتج بيانات بسهولة. التنفيذ الأكثر شيوعًا لهذا المطلب هو وجود سجل - كتالوج لجميع منتجات البيانات المتاحة مع المعلومات الوصفية اللازمة (مثل المالكين ومصادر المنشأ وعينات مجموعة البيانات وتردد التحديث وهيكل مجموعات البيانات وما إلى ذلك). تسمح هذه الخدمة المركزية لمستهلكي البيانات بالعثور بسهولة على مجموعة البيانات التي يهتمون بها. يجب تسجيل كل منتج بيانات من أي مجال عمل في دليل بيانات مركزي.

يرجى ملاحظة أن هناك تحول من منصة مركزية واحدة تمتلك جميع البيانات إلى منتجات البيانات الموزعة من مجالات الأعمال المختلفة المسجلة في دليل بيانات واحد.

العنوان الفريد (عنونة)


يجب أن يكون لكل منتج بيانات عنوان فريد (وفقًا للاتفاقية العالمية) ، والذي سيسمح لعملائه بالوصول الآلي إليه. يمكن للمؤسسات اعتماد اتفاقيات مختلفة حول اسم منتجات البيانات وموقعها ، اعتمادًا على الطرق المتاحة للتخزين المادي للبيانات وتنسيقات البيانات نفسها. بالنسبة للهندسة اللامركزية الموزعة ، فإن مثل هذه الاتفاقيات العامة ضرورية. ستزيل معايير عنوان مجموعة البيانات الاحتكاك عند البحث عن منتجات البيانات والوصول إليها.

جودة البيانات


لن يستخدم أحد منتجًا غير موثوق به. في منصات البيانات الحالية للجيل الحالي ، ينتشر تنزيل البيانات التي تحتوي على أخطاء ونشرها والتي لا تعكس الحقيقة الكاملة للعمل ، على نطاق واسع ، أي البيانات التي لا يمكن الوثوق بها. في هذا الجزء يتم تركيز عدد كبير من وظائف ETL ، مما يمسح البيانات بعد التحميل.

تتطلب البنية الجديدة من مالكي منتجات البيانات اعتماد SLO (هدف مستوى الخدمة) من حيث دقة وموثوقية وملاءمة البيانات. لضمان الجودة المقبولة ، من الضروري استخدام طرق مثل تنظيف البيانات واختبار تكامل البيانات التلقائي في مرحلة إنشاء منتج البيانات. تمنح المعلومات المتعلقة بنسب البيانات في البيانات الوصفية لكل منتج بيانات المستهلكين ثقة إضافية في المنتج نفسه ومدى ملاءمته لاحتياجات معينة.

تختلف القيمة المستهدفة لمؤشر جودة البيانات (أو النطاق المقبول) اعتمادًا على منتج البيانات لمجال عمل معين. على سبيل المثال ، يمكن أن يوفر مجال "حدث إعادة التشغيل" منتجين مختلفين: أحدهما في الوضع شبه الحقيقي بمستوى أقل من الدقة (بما في ذلك الأحداث الفائتة أو المتكررة) ؛ والثاني بتأخير أطول ومستوى أعلى من جودة البيانات. يحدد كل منتج بيانات ويحافظ على مستوى مستهدف من سلامة وموثوقية بياناته في شكل مجموعة SLO (هدف مستوى الخدمة).

وصف واضح للمعنى اللغوي وصيغة البيانات


يجب أن تكون المنتجات عالية الجودة سهلة الاستخدام. يتطلب إنشاء منتجات بيانات بسيطة قدر الإمكان لاستخدامها من قبل المحللين والمهندسين وعلماء البيانات وجود دلالات وصيغة بيانات موصوفة جيدًا. من الناحية المثالية ، يتم توفير مجموعات بيانات العينة كأمثلة.

قابلية البيانات والمعايير على مستوى المنظمة


إحدى المشاكل الرئيسية في بنية البيانات المدفوعة بالمجال الموزع هي الحاجة إلى دمج البيانات من المجالات المختلفة. المفتاح لتكامل البيانات بسهولة وكفاءة بين المجالات هو تحديد واتباع القواعد والمعايير. يجب تحديد هذه المعايير على مستوى المنظمة. التوحيد مطلوب في مجال تحديد أنواع البيانات المقبولة وقواعد تطبيقها ، والاتفاقيات المتعلقة بأسماء وعناوين منتجات البيانات ، وتنسيقات البيانات الوصفية ، وما إلى ذلك.

بالنسبة لتلك الكيانات التي يمكن تخزينها في شكل مختلف ومع مجموعة مختلفة من السمات في مجالات مختلفة ، من الضروري تنفيذ ممارسة إدارة البيانات الرئيسية. قم بتعيينهم معرفات عامة وقم بمحاذاة المجموعة ، والأهم من ذلك ، قيم السمات بين جميع المجالات.

يعد ضمان قابلية التشغيل البيني للبيانات من أجل تكاملها الفعال ، فضلاً عن تحديد معايير تخزين وتقديم منتجات البيانات على مستوى المؤسسة ، أحد المبادئ الأساسية لبناء مثل هذه الأنظمة الموزعة.

أمن البيانات والتحكم في الوصول


من الضروري ضمان الوصول الآمن إلى البيانات ، بغض النظر عما إذا كانت البنية مركزية أم لا. في عالم منتجات البيانات اللامركزية الموجهة إلى مجال الأعمال ، يكون التحكم في الوصول ممكنًا (ويجب تطبيقه) بدرجة عالية من الدقة لكل مجموعة بيانات. يمكن تحديد سياسات التحكم في الوصول إلى البيانات بشكل مركزي ، ولكن يتم تنفيذها بشكل منفصل لكل منتج بيانات. باعتبارها وسيلة مريحة لتنفيذ التحكم في الوصول إلى مجموعات البيانات، يمكنك استخدام نظام إدارة المشاريع الهوية و التحكم في الوصول القائم على الدور .

بعد ذلك ، سيتم وصف بنية تحتية واحدة ، والتي تتيح لك تنفيذ الميزات المذكورة أعلاه بسهولة وتلقائية لكل منتج بيانات.

أمر بيانات نطاق العمل التبادلي


يجب تمثيل الأدوار التالية في فرق تقدم البيانات في شكل منتجات بيانات: مالك منتج البيانات ومهندس البيانات.

مالك منتج البيانات مسؤول عن المفهوم وخريطة الطريق ودورة حياة منتجاته. يقيس رضاء عملائها ويقيس ويحسن باستمرار جودة بيانات مجال العمل. يملأ ويوازن تراكم منتجات البيانات الخاصة به مع متطلبات مستهلكي البيانات.

أيضًا ، يجب على مالكي منتجات البيانات تحديد المقاييس الرئيسية ومؤشرات الأداء (KPIs) لمنتجاتهم. على سبيل المثال ، قد يكون الوقت المطلوب للتعرف على نفسك وبدء استخدام منتج البيانات من قبل المستخدم أحد هذه المقاييس.

من أجل إنشاء خطوط أنابيب البيانات الخاصة بهم والحفاظ عليها داخل مجال الأعمال ، يجب أن يضم الفريق مهندسي البيانات. من الآثار الجانبية الجيدة لذلك نشر المهارات ذات الصلة في مجال الأعمال. وفقًا لملاحظاتي ، يفتقر بعض مهندسي البيانات في الوقت الحالي ، على الرغم من كفاءاتهم في استخدام أدواتهم وتقنياتهم ، إلى المعرفة بممارسات تطوير البرامج القياسية عندما يتعلق الأمر بإنشاء منتجات البيانات. بادئ ذي بدء ، ممارسات DevOps مثل التسليم المستمر والاختبار التلقائي. من ناحية أخرى ، غالبًا ما لا يمتلك مطورو البرامج الذين يطورون أنظمة المعلومات ما يكفي من الخبرة والمعرفة في مجال التقنيات والأدوات للعمل مع البيانات كمنتج.سيؤدي دمجها في فرق متعددة الوظائف داخل مجال الأعمال إلى ظهور متخصصين في ملف تعريف أوسع. لقد لاحظنا شيئًا مشابهًا أثناء تطوير DevOps عندما ظهرت أنواع جديدة من المهندسين ، مثلSRE .

صورة
الشكل 10: أمر بيانات المجال الوظيفي

البنية التحتية للبيانات المركزية كمنصة


تتمثل إحدى الجوانب الحساسة للبنية الموزعة المدفوعة بالمجال لمنصة البيانات في الحاجة إلى الازدواجية في كل مجال من الجهود والمهارات اللازمة لتشغيل البنية التحتية ومجموعة التكنولوجيا المستخدمة في خطوط البيانات. لحسن الحظ ، يعد إنشاء بنية أساسية مشتركة كمنصة مهمة مهمة تم تعلمها جيدًا لحلها في مجال تكنولوجيا المعلومات (ولكن ليس في مجال العمل مع البيانات).

يجب على فريق البنية التحتية للبيانات امتلاك وتوفير الأدوات اللازمة لنطاقات الأعمال لجمع منتجات البيانات الخاصة بهم ومعالجتها وتخزينها.

صورة
الشكل 11: البنية التحتية للبيانات كنظام أساسي

يجب أن تكون البنية التحتية للبيانات كنظام أساسي خالية من أي مفاهيم خاصة بالمجال أو منطق الأعمال. أيضا ، يجب أن تخفي المنصة عن المستخدمين مدى تعقيد تنفيذها وتوفر أقصى قدر من وظائفها للاستخدام في وضع الخدمة الذاتية. فيما يلي قائمة ببعض الميزات التي يجب أن توفرها البنية التحتية للبيانات المركزية مثل النظام الأساسي:

  • تخزين بيانات قابلة للتطوير بتنسيقات مختلفة
  • تشفير البيانات (هنا التجزئة ، ونزع الطابع الشخصي ، وما إلى ذلك)
  • إصدار بيانات المنتجات
  • تخزين مخطط بيانات منتج البيانات
  • التحكم في الوصول إلى البيانات
  • تسجيل
  • تنسيق عمليات معالجة الخيوط / البيانات
  • التخزين المؤقت في الذاكرة
  • تخزين البيانات الوصفية ونسب البيانات
  • المراقبة والتنبيهات وتسجيل الدخول
  • حساب مقاييس الجودة لمنتجات البيانات
  • صيانة كتالوج البيانات
  • التقييس والسياسات والقدرة على ضبط الامتثال
  • معالجة منتجات البيانات
  • خطوط أنابيب CI / CD لمنتجات البيانات

عند إنشاء بنية تحتية مركزية للبيانات ، من الضروري التأكد من أن إنشاء منتج بيانات على مثل هذه البنية التحتية يستغرق أقل وقت ممكن. لذلك ، يعد الحد الأقصى لأتمتة الوظائف الرئيسية مهمًا جدًا ، مثل: القدرة على تنزيل البيانات باستخدام تكوينات بسيطة ، والتسجيل التلقائي لمنتج بيانات في دليل البيانات ، وما إلى ذلك. يمكن أن يقلل استخدام البنية التحتية السحابية من تكاليف التشغيل ويزيد من سرعة توفير الوصول إلى البنية التحتية للبيانات عند الطلب.

تحول النموذج نحو شبكة البيانات


كانت قراءة طويلة! دعونا نلخص كل شيء مكتوب أعلاه بإيجاز. لقد درسنا بعض الخصائص الرئيسية لمنصات البيانات الحديثة: خطوط أنابيب بيانات مركزية ومتجانسة ومعقدة (مع مئات وآلاف الوظائف المرتبطة ببعضها البعض بشكل وثيق) ، فرق متفرقة عالية التخصص. بعد أن تحدثنا عن نهج جديد لشبكة البيانات ، والذي يتضمن منتجات البيانات الموزعة التي تركز على مجالات الأعمال التي تديرها فرق متعددة الوظائف (مع مالكي منتجات البيانات ومهندسي البيانات) ، باستخدام البنية التحتية للبيانات المشتركة كمنصة للاستضافة.

شبكة البيانات هي بنية موزعة ، مع إدارة مركزية ومعايير مطورة تضمن قابلية البيانات للبيانات ، وبنية أساسية مركزية تسمح باستخدام الخدمة الذاتية. آمل أن يكون القارئ واضحًا تمامًا أن مثل هذه البنية بعيدة جدًا عن مجموعة من التخزين المترابط للبيانات التي يتعذر الوصول إليها ، والتي تم تطويرها بشكل مستقل في أقسام مختلفة.

صورة
الشكل 12: بنية شبكة البيانات من 10000 متر

قد تسأل: كيف تتوافق Data Lake أو Data Warehouse مع هذه البنية؟ إنها ببساطة عقد منفصلة (مجالات) في هذه البنية الموزعة. هناك احتمال كبير بأننا في مثل هذه الهندسة المعمارية لن نحتاج بعد الآن إلى Data Lake. بعد كل شيء ، سيكون لدينا الوصول إلى البحث عن البيانات الأصلية لمجالات الأعمال المختلفة ، المصممة في شكل منتجات البيانات.

وفقًا لذلك ، لم تعد Data Lake العنصر المركزي في العمارة بأكملها. لكننا سنستمر في استخدام التقنيات والأدوات المستخدمة لبناء Data Lake ، إما لإنشاء بنية تحتية مشتركة للبيانات ، أو للتنفيذ الداخلي لمنتجات البيانات الخاصة بنا.

هذا يعيدنا بالفعل إلى حيث بدأ كل شيء. جيمس ديكسونفي عام 2010 ، كان ينوي استخدام Data Lake لمجال عمل واحد ، وستشكل العديد من مجالات البيانات Water Garden.

التحول الرئيسي في النموذج هو اعتبار منتج بيانات مجال الأعمال كمهمة ذات أولوية أولى ، والأدوات والتقنيات كمهمة ذات أولوية ثانية (كتفاصيل تنفيذ). وذلك لتحويل النموذج العقلي من بحيرة بيانات مركزية إلى نظام بيئي لمنتجات البيانات التي تتكامل بسلاسة وكفاءة مع بعضها البعض.

بضع كلمات حول التقارير والتصور (باستخدام أدوات BI ، وما إلى ذلك). ينطبق عليهم نفس المبدأ: في هذه العمارة هم عقد منفصلة. أولئك. إنها منتجات بيانات مستقلة داخل مجال الأعمال ، وتركز بشكل أساسي على المستهلك ، وليس على مصدر البيانات.

أعترف أنه على الرغم من أنني أرى التطبيق الناجح لمبادئ شبكة البيانات من قبل عملائي ، إلا أن توسيع هذه المبادئ في المؤسسات الكبيرة أمامها طريق طويل. ولكن من الواضح أن التكنولوجيا ليست قيودًا هنا. يمكن استخدام جميع الأدوات التي نستخدمها اليوم بشكل جيد في توزيع وملكية منتجات البيانات من قبل فرق مختلفة. على وجه الخصوص ، فإن الانتقال إلى توحيد مهام معالجة الحزم وتدفق البيانات ، بالإضافة إلى استخدام أدوات مثل Apache Beam أو Google Cloud DataFlow ، يجعل من السهل معالجة مجموعة متنوعة من مجموعات البيانات بعناوين فريدة.

منصات كتالوج البيانات مثل Google Cloud Data Catalogتوفر سهولة الاكتشاف والتحكم في الوصول والإدارة المركزية لمجموعات البيانات الخاصة بمجالات العمل الموزعة. يسمح عدد كبير من المنصات السحابية لمجالات الأعمال باختيار مناسبة للتخزين المستهدف لمنتجات البيانات الخاصة بهم.

إن الحاجة إلى تحول في النموذج واضحة. هناك جميع التقنيات والأدوات اللازمة لذلك. يجب على المديرين التنفيذيين في الأعمال ومحترفي معالجة البيانات أن يعترفوا بأن نموذج البيانات الكبيرة الحالي ونهجه مع منصة واحدة كبيرة Data Lake سيعيدان فقط إخفاقات الماضي ، باستخدام تقنيات وأدوات سحابية جديدة.

دعنا ننتقل من منصة بيانات متجانسة مركزية إلى نظام بيئي لمنتجات البيانات.

صورة

روابط إلى المصادر الأولية والمواد الإضافية حول الموضوع



All Articles