تطوير DATA VAULT والانتقال إلى BATAINESS DATA VAULT

في مقال سابق ، تحدثت عن أساسيات DATA VAULT ، ووصفت العناصر الأساسية لـ DATA VAULT والغرض منها. لا يمكن اعتبار هذا موضوع DATA VAULT المستنفد ، فمن الضروري التحدث عن المراحل التالية من تطور DATA VAULT.

وسأركز في هذه المقالة على تطوير DATA VAULT والانتقال إلى BATAINESS DATA VAULT أو ببساطة BUSINESS VAULT.

أسباب ظهور بيانات الأعمال VAULT


وتجدر الإشارة إلى أن DATA VAULT ذات نقاط قوة معينة لا تخلو من عيوب. إحدى هذه العوائق هي صعوبة كتابة الاستفسارات التحليلية. تحتوي الطلبات على عدد كبير من JOINs ، الرمز طويل ومرهق. أيضًا ، البيانات التي تقع في DATA VAULT لا تخضع لأي تحويل ، وبالتالي ، من وجهة نظر الأعمال ، لا تحتوي DATA VAULT في شكلها الخالص على قيمة غير مشروطة.

للقضاء على هذه العيوب ، تم توسيع منهجية DATA VAULT بعناصر مثل:

  • جداول PIT (نقطة في الوقت) ؛
  • جداول بريدج ؛
  • مشتقات محددة سلفا.

دعونا نلقي نظرة فاحصة على الغرض من هذه العناصر.

طاولات الحفرة


كقاعدة ، يمكن أن يشتمل عنصر عمل واحد (HUB) على بيانات بمعدلات تحديث مختلفة ، على سبيل المثال ، إذا كنا نتحدث عن البيانات التي تميز شخصًا ، فيمكننا القول أن المعلومات حول رقم الهاتف أو العنوان أو البريد الإلكتروني لديها معدل تحديث أعلى من على سبيل المثال ، الاسم ، تفاصيل جواز السفر ، الحالة الاجتماعية أو الجنس.

لذلك ، عند تحديد الأقمار الصناعية ، يجب أن يوضع في الاعتبار تكرار تحديثاتها. لماذا هو مهم؟

إذا قمت بتخزين السمات بمعدلات تحديث مختلفة في جدول واحد ، فسيتعين عليك إضافة صف إلى الجدول في كل مرة تقوم فيها بتحديث السمة الأكثر تغييرًا. ونتيجة لذلك ، زيادة في مساحة القرص ، وزيادة في وقت تنفيذ الاستعلام.

الآن بعد أن قمنا بتقسيم الأقمار الصناعية وفقًا لتردد التحديث ، ويمكننا تحميل البيانات عليها بشكل مستقل ، يجب أن يكون من الممكن الحصول على البيانات ذات الصلة. أفضل بدون استخدام عمليات الانضمام غير الضرورية.

سأشرح ، على سبيل المثال ، أنه مطلوب للحصول على معلومات محدثة (بحلول تاريخ آخر تحديث) من الأقمار الصناعية التي لها ترددات تحديث مختلفة. للقيام بذلك ، لا تحتاج فقط إلى إنشاء JOIN ، ولكن أيضًا إنشاء العديد من الاستعلامات الفرعية (لكل معلومات تحتوي على قمر صناعي) مع اختيار الحد الأقصى لتاريخ التحديث MAX (تاريخ التحديث). مع كل عملية انضمام جديدة ، ينمو هذا الرمز ، ويصبح من الصعب جدًا فهمه.

تم تصميم جدول PIT لتبسيط مثل هذه الاستعلامات ؛ يتم ملء جداول PIT في نفس الوقت الذي تتم فيه كتابة البيانات الجديدة إلى DATA VAULT. جدول PIT:

صورة

وبالتالي ، لدينا معلومات عن مدى صلة البيانات على جميع السواتل في كل لحظة من الزمن. باستخدام JOINs لجدول PIT ، يمكننا استبعاد الاستعلامات المتداخلة تمامًا ، وبطبيعة الحال بشرط ملء PIT كل يوم وبدون فجوات. حتى في حالة وجود ثغرات في PIT ، يمكن الحصول على البيانات الفعلية فقط باستخدام طلب فرعي واحد إلى PIT نفسه. يعمل استعلام فرعي واحد بشكل أسرع من الاستعلامات الفرعية لكل قمر صناعي.

جسر


تُستخدم جداول BRIDGE أيضًا لتبسيط الاستعلامات التحليلية. ومع ذلك ، فإن الفرق من PIT هو وسيلة لتبسيط وتسريع الطلبات بين المحاور والروابط والأقمار الصناعية المختلفة.

يحتوي الجدول على جميع المفاتيح اللازمة لجميع الأقمار الصناعية التي يتم استخدامها غالبًا في الاستعلامات. بالإضافة إلى ذلك ، إذا لزم الأمر ، يمكن استكمال مفاتيح الأعمال المجزأة بمفاتيح في شكل نصي إذا كانت هناك حاجة لأسماء المفاتيح للتحليل.

والحقيقة هي أنه بدون استخدام BRIDGE ، في عملية الحصول على البيانات الموجودة في الأقمار الصناعية التي تنتمي إلى محاور مختلفة ، سيكون من الضروري إنتاج JOINs ليس فقط من الأقمار الصناعية نفسها ، ولكن أيضًا روابط ربط محاور.

يتم تحديد وجود أو عدم وجود BRIDGE من خلال تكوين التخزين ، والحاجة إلى تحسين سرعة تنفيذ الاستعلام. من الصعب التوصل إلى مثال عالمي على BRIGE.

مشتقات محددة سلفا


هناك نوع آخر من الأشياء التي تقربنا من BUSINESS DATA VAULT هي الجداول التي تحتوي على مؤشرات محسوبة مسبقًا. هذه الجداول مهمة حقًا للأعمال ؛ فهي تحتوي على معلومات مجمعة وفقًا للقواعد المعينة وتسهل الوصول إليها نسبيًا.

من الناحية المعمارية ، لا تعد الانحرافات المحددة سلفًا أكثر من مجرد قمر صناعي آخر لمحور معين. يحتوي ، مثل القمر الصناعي العادي ، على مفتاح عمل وتاريخ تكوين السجل في القمر الصناعي. على هذا ، ومع ذلك ، تنتهي أوجه التشابه. يتم تحديد التكوين الإضافي لسمات هذا القمر الصناعي "المتخصص" من قبل مستخدمي الأعمال على أساس المؤشرات الأكثر شيوعًا والمحسوبة مسبقًا.

على سبيل المثال ، قد يحتوي المركز الذي يحتوي على معلومات حول الموظف على قمر صناعي بمؤشرات مثل:

  • اقل اجر؛
  • الحد الأقصى للراتب
  • متوسط ​​الدخل؛
  • المجموع التراكمي للرواتب المستحقة ، إلخ.

من المنطقي إدراج مشتقات محددة مسبقًا في جدول PIT لنفس المركز ، ثم يمكنك بسهولة الحصول على شرائح من بيانات الموظفين لتاريخ محدد.

الموجودات


كما تظهر الممارسة ، فإن استخدام DATA VAULT من قبل مستخدمي الأعمال أمر صعب إلى حد ما لعدة أسباب:

  • رمز الطلب معقد ومرهق.
  • تؤثر وفرة JOINs على أداء الاستعلام ؛
  • تتطلب كتابة الاستفسارات التحليلية معرفة بارزة ببنية المستودع.

لتبسيط الوصول إلى البيانات ، يمتد DATA VAULT مع كائنات إضافية:

  • جداول PIT (نقطة في الوقت) ؛
  • جداول بريدج ؛
  • مشتقات محددة سلفا.

في المقالة التالية ، أخطط أن أقول ، في رأيي ، الشيء الأكثر إثارة للاهتمام بالنسبة لأولئك الذين يعملون مع BI. سأقدم طرقًا لإنشاء الجداول - الحقائق والجداول - القياسات بناءً على DATA VAULT.

وتستند مواد المقال:

  • حول نشر كينت جرازيانو ، الذي يحتوي بالإضافة إلى وصف مفصل على مخططات للنموذج ؛
  • كتاب: "بناء مستودع بيانات قابلة للتطوير باستخدام DATA VAULT 2.0" ؛
  • مقالة أساسيات Data Vault .

All Articles