نظرة على الاتجاهات الواعدة لتطوير نظم إدارة البيانات الجيولوجية والجيوفيزيائية والميدانية

بناء على طلب شركة Gazpromneft ، في عام 2019 ، كتب مراجعة مقالة قصيرة لما يجب على الجيولوجيين والجيوفيزيائيين التعامل معه في إدارة البيانات بشكل عام. ربما سيكون من المثير للاهتمام لدائرة أوسع من القراء - أنشر هنا وفقًا لذلك.

في سلسلة "The Big Bang Theory" ، طلبت النادلة أحلى بيني فيزيائي نظري ليونارد (لدعم المحادثة) حول الجديد في عالم فيزياء الجسيمات؟ وأجاب أنه منذ اكتشاف بوزون هيجز ، أي منذ حوالي عام 1964 ، لا شيء في الأساس. لا يتم لصق المحادثة :)



وفي مجال قواعد البيانات وبنوك البيانات الجيوفيزيائية والجيولوجية والإنتاجية (GGiP) ، كل شيء تقريبًا ممل. كما ترى من أبحاث شركة Deloitte Digital ، فإن عمال النفط وعمال المناجم وسائقي الشاحنات الكبار بعيدون عن الانفجارات الكبيرة. يتم إنشاء قواعد بيانات ومخازن جديدة ، ولكن في الغالب لضمان وظيفة العمل مع البيانات لتطبيق معين. أنظمة تنظيم وتخزين البيانات التي تم إنشاؤها بطريقة هادفة لتنظيم وتخزين تنتظر الواقع القاسي. إنهم يتسربون من عملية الأعمال التي تدور حول معالجة التطبيقات ، والتفسير ، وأنظمة النمذجة. في هذا الصدد ، تستمر البيانات في التراكم في قواعد بيانات التطبيق ، وتتدفق حول الأنظمة المتخصصة ويتم ترتيبها بشكل ملائم في جداول Excel ومجلدات الملفات ، في أفضل الأحوال المؤسسية والمركزية (إذا تم توفير هذا المورد للمستخدمين).

إن التوجيه الرئيسي لأنظمة تخزين وتنظيم البيانات الجديدة ، في رأينا ، يختلف عن الهيكل العلائقي. تاريخيا ، تم حل جميع مهام تنظيم البيانات باستخدام النمذجة العلائقية بسبب المكانة المهيمنة للأدوات العلائقية في السوق. لقد تغير الوضع ، وأصبح عدم فاعلية استخدام التقنيات العلائقية في العديد من أنظمة الأرشيف (الكتابة بمجرد قراءة الكثير) واضحًا.

إذا قمنا أخيرًا بتجاهل أوهام "حلقة كلية واحدة" ، والتي ستوحدهم إلى الأبد ، يبقى أن نقبل أن هذه المجموعة من قواعد بيانات التطبيقات الموزعة جغرافيًا بمختلف أنواعها وأنظمة الملفات والجداول هي قاعدة بياناتنا. قاعدة بيانات موزعة بشكل معتدل ، غير متجانسة للغاية ، مقترنة بشكل فضفاض يجب أن نتعلم العمل معها لأنه من غير المحتمل أن تتغير الخصائص المذكورة أعلاه في العقد المقبل بسبب طبيعة العمل. قال نيل ماكنوتان ، أحد الباحثين المنهجيين القلائل في مجال إدارة بيانات GiP: "إن العمل في المشاريع محدود. نحن مضطرون لقص البيانات في المشروع فقط لأنه لا يمكننا بعد العمل مع جميع البيانات في وقت واحد "(عرض أسعار مجاني).

لذا ، التخلي عن محاولات تنظيم عملية تراكم البيانات على مستوى العالم (تحميل كل شيء!) والتخلي عن رعاية إعادة تشكيلها ، وضمان النزاهة والنسخ الاحتياطي والحماية من الكوارث الطبيعية لمتخصصي DIT - لدينا شاغل واحد فقط: الوصول! لكن هذا مصدر قلق كبير ، لأن الوصول ليس فقط النقل المادي والسرعة ، ولكن أيضًا تعيين الحدود والحقوق والموثوقية ومستوى معين من الجودة ، وتنظيم المعلومات ، سواء بشكل أولي أو وفقًا للطلب ، وما إلى ذلك.

نحن منخرطون في الوصول إلى البيانات استنادًا إلى تقنيات البحث ، لكن البحث تجاوز لفترة طويلة ما كنا نطلق عليه اسمها. كل تفاعلنا مع المعلومات خارج مكان العمل يحدث بالفعل من خلال تقنيات البحث المدمجة. دعونا نتحدث باختصار عن صعوبات تنظيم الوصول الشفاف إلى البيانات وطرق التغلب عليها:

واجهات مع عدد كبير من الأنظمة.حتى إذا كانت الواجهة للقراءة فقط ، فإن المهمة ليست تافهة. تتغير الأنظمة من حيث البنية التحتية لتكنولوجيا المعلومات ومن حيث نماذج البيانات (على سبيل المثال ، مع الإصدارات الجديدة). التحكم في الوصول في العديد من الأنظمة هو فرد بحت. وفقًا لذلك ، يحتاج النظام الذي يدعم واجهات ثابتة ، حتى أبسط واجهاتها مع عدد كبير من الأنظمة الأخرى ، إلى دعم مستمر لهذه الواجهات. التكاليف ودورة التطوير المستمر.

دفع أو سحب واجهات؟من وجهة نظر طبيعة الواجهات ، من الصعب الاعتماد على حقيقة أن أنظمة الطرف الثالث ستقوم بإعداد البيانات ونقلها إلى الخارج (حتى إذا أعلن المطورون ذلك) - وهذا ليس جزءًا من مسؤولياتهم الوظيفية. وفقًا لذلك ، ستكون واجهات / وكلاء منصة أداة الوصول بشكل رئيسي مسؤولة عن استرداد البيانات من أنظمة الجهات الخارجية.

نموذج متعدد.كل نظام له نموذج بيانات خاص به ، يختلف عن الآخر. سيكون عليك دعم بيانات النماذج المختلفة ، بالإضافة إلى التعميمات الدلالية أو النماذج الفوقية لمتطلبات العمل المختلفة من أجل العمل مع جميع البيانات ككل. تجري GPN بنشاط أبحاثًا في مجال النمذجة الدلالية. من المناسب هنا أيضًا التحدث عن إثراء البيانات واستخراج الكيانات المسماة والتطبيق النشط للمناهج الصناعية الفعلية لتعلم الآلة. أود أيضًا أن أذكر مشكلة العرض المنظم للبيانات "متعددة النماذج" للمستخدم. فقط قائمة من الوثائق لا يعمل بها الناس ولا حتى الخوارزميات. من الصعب المبالغة في أهمية التبسيط المدروس والنماذج الفوقية والاستفسارات الشاملة.

التخزين المؤقت والفهرس العكسي.تُظهر الممارسة أنه في نظام أصبح معتمدًا بشكل كامل على أنظمة أخرى للطلبات (وغالبًا ما يتم تنظيم أنظمة الوصول إلى البوابة الكلاسيكية) ، هناك مشكلتان مهمتان:

أ. الأداء - تقوم أنظمة الجهات الخارجية بمعالجة الطلبات بأداء غير متوقع ، وأحيانًا ببطء شديد.

ب. الموثوقية - مع وجود عدد كبير من الأنظمة المتصلة في أي وقت ، سيفشل واحد أو أكثر منها ولا يمكنه الرد على الطلب.

الطريقة الوحيدة لهزيمة هذه الأمراض هي الفهرسة العميقة للمعلومات والعمل الفعال مع الفهرس.

صلاحية التحكم صلاحية الدخول.يجب تمييز الوصول إلى البيانات. لا تنظم جميع أنظمة تكنولوجيا المعلومات التحكم في الوصول بنفس الطريقة. في هذا الصدد ، بالنسبة لبعض الأنظمة ، من الضروري تخزين أو استعادة وتحديث الاتصال المستمر بين المستخدمين الداخليين والمستخدمين ومجموعات مجال الشركة.

التواصل مع NSI. جودة.عند توصيل كمية كبيرة من البيانات من عدد كبير من الأنظمة ، نواجه حتمًا مشاكل في التحديد الموثوق به لمدى صلة البيانات ونوعيتها. إن أي معالجة مسبقة ومعالجة للبيانات ، بما في ذلك الأدوات المعرفية التي ستساعدنا على تحديد موثوقية وجودة البيانات التي يتم تلقيها استجابة لطلب ما ، أمر مطلوب! من المثير للاهتمام أن الجودة هي وظيفة الاستخدام ، وليس العكس. بيانات عالية الجودة حيث يستخدمها شخص باستمرار. أفضل قاعدة بيانات بأعلى جودة من البيانات التي لم يتم المطالبة بها لمدة 10 سنوات محفوفة بالعديد من المفاجآت.

في عملية حل جميع المشاكل المذكورة أعلاه ، نجد أنه على الرغم من أن لدينا القليل من البيانات نسبيًا ، إلا أن حجم الفهرسة والمعالجة والتحليل مهم للغاية لدرجة أننا نقع في مجال الأنظمة المحملة بشكل كبير وفي التطبيقات الصناعية مجبرون على الاعتماد على الحلول الصناعية الجادة.

أريد إكمال هذا المقال الصغير بفقرة مليئة بالكلمات الرئيسية. تخصص DevOps - يتطلب تطويره في الشركة اهتمامًا خاصًا. هؤلاء الأشخاص ، إلى جانب الأشخاص في تخصص DataScience ، مسؤولون عن مستقبل العمل مع البيانات في الشركة. لا يزال JSON نصًا عربيًا لمحبي بناء جملة SQL ، ولكن يبدو أنه من الضروري إتقانه. بيثون- لا تكمن المشكلة الرئيسية في امتلاك النحو بقدر توفر الوقت والتحفيز للمتخصصين في التخصصات الجيولوجية والجيوفيزيائية لاستخدامه. من أفضل البرامج COSS (البرمجيات التجارية مفتوحة المصدر) هي بالطبع Elasticsearch . وكما هو الحال مع أي OSS - اترك جميع أنواع الأوهام المتعلقة بالحل الجاهز من الشركة المصنعة لـ OSS نفسها.

قم بإنهاء نكتة من نفس السلسلة:
- مرحبًا! أرى أنك مشغول؟
- آه أجل! المادة المظلمة! توازن الجاذبية وميكانيكا الكم. تناظر فيرمي بوز. لقد فهمت أعظم تحديات فيزياء اليوم!
- وهكذا ، قررت جميعهم في ضربة واحدة؟
- لا ، لقد أدركت فقط أنها أعظم المهام.

All Articles