Tampak arah yang menjanjikan dari pengembangan sistem manajemen data geologi, geofisika dan lapangan

Atas permintaan Gazpromneft, pada tahun 2019, menulis tinjauan esai singkat tentang apa yang harus dihadapi ahli geologi dan geofisika dalam manajemen data secara umum. Mungkin akan menarik bagi kalangan pembaca yang lebih luas - saya mempublikasikan di sini sesuai.

Dalam seri "The Big Bang Theory," pelayan paling manis, Penny, bertanya kepada fisikawan teoretis Leonard (untuk mendukung pembicaraan) tentang apa yang baru di dunia fisika partikel? Dan dia menjawab bahwa sejak ditemukannya bos Higgs yaitu sejak sekitar 1964, pada dasarnya tidak ada. Percakapan tidak terpaku :)



Dan di bidang database dan bank data geologi-geofisika dan produksi (GGiP), semuanya hampir sama membosankan. Seperti yang Anda lihat dari penelitian Deloitte Digital, pekerja minyak, penambang, dan pengemudi truk besar jauh dari ledakan besar. Database dan penyimpanan baru dibuat, tetapi hampir selalu untuk memastikan fungsionalitas bekerja dengan data untuk aplikasi tertentu. Sistem untuk mengatur dan menyimpan data yang dibuat dengan cara yang ditargetkan untuk mengatur dan menyimpan menunggu kenyataan pahit. Mereka keluar dari proses bisnis yang berputar di sekitar pemrosesan aplikasi, interpretasi, dan sistem pemodelan. Dalam hal ini, data terus menumpuk di basis data aplikasi, mengalir di sekitar sistem khusus dan mudah diatur dalam tabel dan folder file Excel, di perusahaan terbaik dan terpusat (jika sumber daya seperti itu diberikan kepada pengguna).

Pedoman utama penyimpanan data baru dan sistem organisasi, menurut pendapat kami, berbeda dari struktur relasional. Secara historis, semua tugas organisasi data diselesaikan menggunakan pemodelan relasional karena posisi dominan alat relasional di pasar. Situasi telah berubah, dan inefisiensi penggunaan teknologi relasional dalam banyak sistem arsip (tulis sekali baca banyak) menjadi jelas.

Jika kita akhirnya membuang ilusi dari satu "cincin mahakuasa", yang akan menyatukan mereka selamanya, tetap menerima bahwa kumpulan database aplikasi yang didistribusikan secara geografis ini dari berbagai jenis, sistem file dan tabel adalah basis data kami.. Basis data yang terdistribusi secara moderat, sangat heterogen, dan longgar yang harus kita pelajari untuk bekerja karena karakteristik di atas tidak mungkin berubah dalam dekade berikutnya karena sifat bisnis. Seperti yang dikatakan Neil McNotan, salah satu dari sedikit peneliti sistematis di bidang manajemen data, β€œBekerja dalam proyek terbatas. Kami dipaksa untuk memangkas data ke dalam proyek hanya karena alasan kami belum dapat bekerja dengan semua data sekaligus ”(kutipan gratis).

Jadi, meninggalkan upaya untuk mensistematisasikan proses akumulasi data secara global (unggah semuanya!) Dan mengabaikan kepedulian terhadap penghancuran mereka, memastikan integritas, cadangan, dan perlindungan dari bencana alam hingga spesialis DIT - kami hanya memiliki satu masalah: akses! Tetapi ini adalah keprihatinan yang signifikan, karena akses tidak hanya transfer fisik dan kecepatan, tetapi juga batasan dan hak, keandalan dan tingkat kualitas tertentu, penataan informasi, baik pendahuluan dan sesuai dengan permintaan, dll.

Kami terlibat dalam akses ke data berdasarkan teknologi pencarian, tetapi pencarian telah lama melampaui apa yang kami sebut sebelumnya. Semua interaksi kami dengan informasi di luar tempat kerja sebenarnya terjadi melalui teknologi pencarian bawaan. Mari kita membahas secara singkat kesulitan mengatur akses transparan ke data dan cara mengatasinya:

Antarmuka dengan sejumlah besar sistem.Sekalipun antarmuka hanya-baca, tugasnya tidak sepele. Sistem berubah baik dalam hal infrastruktur TI maupun dalam hal model data (misalnya, dengan versi baru). Kontrol akses di banyak sistem adalah murni individual. Oleh karena itu, sistem yang mendukung persisten, bahkan antarmuka paling sederhana dengan sejumlah besar sistem lain, memerlukan dukungan terus menerus untuk antarmuka ini. Biaya dan siklus pengembangan berkelanjutan.

Dorong atau tarik antarmuka?Dari sudut pandang sifat antarmuka, sulit untuk mengandalkan fakta bahwa sistem pihak ketiga akan menyiapkan dan mengirimkan data ke luar (bahkan jika pengembang menyatakannya) - ini bukan bagian dari tanggung jawab fungsional mereka. Karenanya, sebagian besar antarmuka / agen platform alat akses akan bertanggung jawab untuk mengambil data dari sistem pihak ketiga.

Multi-model.Masing-masing sistem memiliki model data sendiri, berbeda dari yang lain. Anda harus mendukung data model yang berbeda, serta generalisasi semantik atau meta-model mereka untuk persyaratan bisnis yang berbeda agar dapat bekerja dengan semua data secara keseluruhan. GPN secara aktif melakukan penelitian di bidang pemodelan semantik. Di sini juga tepat untuk berbicara tentang pengayaan data, ekstraksi entitas yang disebutkan, dan aplikasi aktif dari pendekatan industri yang sebenarnya dari pembelajaran mesin. Saya juga ingin menyebutkan masalah penyajian terstruktur data "multi-model" kepada pengguna. Hanya daftar dokumen, baik orang maupun algoritma tidak akan berfungsi. Pentingnya facetization bijaksana, meta-model, dan permintaan end-to-end sulit untuk melebih-lebihkan.

Caching dan indeks balik.Praktek menunjukkan bahwa dalam suatu sistem yang telah menjadi sepenuhnya bergantung pada sistem lain untuk permintaan (dan sistem akses portal klasik sering diselenggarakan), ada dua masalah signifikan:

a. Kinerja - sistem pihak ketiga memproses permintaan dengan kinerja yang tidak dapat diprediksi, terkadang sangat lambat.

b. Keandalan - dengan sejumlah besar sistem yang terhubung kapan saja, satu atau lebih dari mereka akan gagal dan tidak dapat menjawab permintaan.

Satu-satunya cara untuk mengalahkan penyakit ini adalah pengindeksan informasi yang mendalam dan kerja efektif dengan indeks.

Kontrol akses.Akses ke data harus dibedakan. Tidak semua sistem TI mengatur kontrol akses dengan cara yang sama. Dalam hal ini, untuk beberapa sistem, perlu untuk menyimpan atau memulihkan dan terus memperbarui komunikasi pengguna internal dengan pengguna dan grup domain perusahaan.

Komunikasi dengan NSI. Kualitas.Ketika menghubungkan sejumlah besar data dari sejumlah besar sistem, kami pasti akan menghadapi masalah penentuan yang dapat diandalkan tentang relevansi dan kualitas data. Setiap pra dan pasca pemrosesan data, termasuk alat kognitif yang akan membantu kita menentukan secara relevan relevansi dan kualitas data yang diterima dalam menanggapi permintaan, sangat dibutuhkan! Menariknya, kualitas adalah fungsi dari penggunaan, bukan sebaliknya. Data berkualitas tinggi di mana seseorang terus-menerus menggunakannya. Basis data terbaik dengan data kualitas tertinggi yang tidak diklaim selama 10 tahun penuh dengan banyak kejutan.

Dalam proses menyelesaikan semua masalah di atas, kami menemukan bahwa meskipun kami memiliki data yang relatif sedikit, volume pengindeksan, pemrosesan dan analisis sangat signifikan sehingga kami dengan percaya diri jatuh ke dalam bidang sistem yang sangat dimuat dan dalam implementasi industri terpaksa mengandalkan solusi industri yang serius.

Saya ingin menyelesaikan esai kecil ini dengan paragraf yang diisi dengan kata kunci. Spesialisasi DevOps - pengembangannya di perusahaan memerlukan perhatian khusus. Orang-orang ini, bersama dengan orang-orang di spesialisasi DataScience , bertanggung jawab atas masa depan bekerja dengan data di perusahaan. JSON masih merupakan skrip Arab untuk pecinta sintaks SQL, tetapi tampaknya perlu dikuasai. Python- Masalah utama adalah tidak memiliki banyak dalam memiliki sintaksis seperti dalam ketersediaan waktu dan motivasi untuk spesialis dalam spesialisasi geologi dan geofisika untuk menggunakannya. Yang terbaik, COSS (perangkat lunak komersial open source) tentu saja Elasticsearch . Dan seperti halnya OSS - tinggalkan segala macam ilusi tentang solusi out of the box dari pabrikan OSS itu sendiri.

Akhiri lelucon dari seri yang sama:
- Halo! Saya melihat Anda sedang sibuk?
- Oh ya! Materi gelap! Keseimbangan gravitasi dan mekanika kuantum. Simetri Fermi-Bose. Saya memahami tantangan terbesar fisika saat ini!
"Jadi, kamu memutuskan semuanya dalam satu gerakan?"
- Tidak, saya hanya menyadari bahwa itu adalah tugas terbesar.

All Articles