DataGelola di rumah

Halo, Habr!

Data adalah aset perusahaan yang paling berharga. Ini dinyatakan oleh hampir setiap perusahaan dengan bias digital. Sulit untuk diperdebatkan: tanpa membahas pendekatan untuk mengelola, menyimpan dan memproses data, tidak ada satu pun konferensi TI besar yang sedang berlangsung saat ini.

Data datang kepada kita dari luar, mereka juga terbentuk di dalam perusahaan, dan jika kita berbicara tentang data perusahaan telekomunikasi, maka bagi karyawan internal itu adalah gudang informasi tentang klien, minat, kebiasaan, lokasi. Dengan profil dan segmentasi yang kompeten, iklan menawarkan pemotretan paling efisien. Namun, dalam praktiknya, tidak semuanya begitu cerah. Data yang disimpan oleh perusahaan mungkin sudah ketinggalan zaman, redundan, duplikat, atau tidak ada yang tahu tentang keberadaannya, kecuali untuk lingkaran pengguna yang sempit. ¯ \ _ (ツ) _ / ¯


Singkatnya, data perlu dikelola secara efektif - hanya dalam hal ini mereka akan menjadi aset yang membawa manfaat dan keuntungan nyata bagi bisnis. Sayangnya, untuk mengatasi masalah manajemen data, beberapa kesulitan harus diatasi. Mereka terutama disebabkan oleh warisan sejarah dalam bentuk "kebun binatang" sistem, dan kurangnya proses dan pendekatan umum untuk mengelolanya. Tapi apa artinya "mengelola data"?

Itulah yang akan kita bicarakan di bawah cut, serta bagaimana stack open source membantu kita.

Konsep manajemen data strategis Tata Kelola Data (DG) sudah terkenal di pasar Rusia, dan tujuan yang dicapai oleh bisnis sebagai hasil dari implementasinya jelas dan dinyatakan dengan jelas. Perusahaan kami tidak terkecuali dan mengatur sendiri tugas menerapkan konsep manajemen data.

Jadi dari mana kita mulai? Untuk memulainya, kami telah membentuk tujuan utama untuk diri kami sendiri:

  1. Pastikan ketersediaan data kami.
  2. Pastikan transparansi siklus hidup data.
  3. Berikan pengguna perusahaan data yang konsisten dan konsisten.
  4. Berikan data diverifikasi pengguna perusahaan.

Hingga saat ini, pasar perangkat lunak memiliki selusin alat dari kelas DataGovernance.



Tetapi setelah analisis terperinci dan studi solusi, kami memperbaiki sejumlah komentar kritis untuk kami:

  • Sebagian besar pabrikan menawarkan serangkaian solusi komprehensif, yang bagi kami berlebihan dan menggandakan fungsi yang ada. Plus, integrasi sumber daya yang mahal ke dalam lanskap IT saat ini.
  • Fungsi dan antarmuka ditujukan untuk teknologi, bukan pengguna akhir.
  • Tingkat kelangsungan hidup yang rendah dari produk dan kurangnya implementasi yang sukses di pasar Rusia.
  • Biaya perangkat lunak yang tinggi dan pemeliharaan lebih lanjut.

Kriteria dan rekomendasi yang dinyatakan di atas mengenai substitusi impor perangkat lunak untuk perusahaan-perusahaan Rusia meyakinkan kami untuk menuju pengembangan sendiri pada tumpukan opensource. Sebagai platform, mereka memilih Django, kerangka bebas dan gratis yang ditulis dengan Python. Dan dengan demikian, kami mengidentifikasi sendiri modul-modul utama yang akan berkontribusi pada tujuan-tujuan yang disebutkan di atas:

  1. Daftar laporan.
  2. -.
  3. .
  4. BI-.
  5. .




Menurut hasil penelitian internal di perusahaan besar, memecahkan masalah yang terkait dengan data, karyawan menghabiskan 40-80% dari waktu mencari mereka. Oleh karena itu, kami menetapkan sendiri tugas untuk membuat informasi terbuka tentang laporan yang ada yang sebelumnya hanya tersedia untuk pelanggan. Dengan demikian, kami mengurangi waktu untuk pembentukan pelaporan baru dan memastikan demokratisasi data.



Daftar laporan telah menjadi jendela pelaporan tunggal untuk pengguna internal dari berbagai daerah, departemen, divisi. Ini mengkonsolidasikan informasi tentang layanan informasi yang dibuat di beberapa fasilitas penyimpanan perusahaan perusahaan, dan ada banyak dari mereka di Rostelecom.

Tetapi registri bukan hanya daftar kering dari laporan yang dikembangkan. Untuk setiap laporan, kami memberikan informasi yang diperlukan agar pengguna dapat mengenalnya secara independen:

  • ;
  • ;
  • ;
  • ;
  • ;
  • - ;
  • ;
  • ;
  • .

Menurut laporan, analitik tingkat kegunaan tersedia, dan laporan berada di bagian atas daftar berdasarkan analisis log dengan jumlah pengguna unik. Dan bukan itu. Selain karakteristik umum, kami juga memberikan uraian terperinci tentang komposisi atribut laporan dengan contoh nilai dan metode perhitungan. Perincian semacam itu sudah langsung memberi pengguna jawaban apakah laporan itu berguna baginya atau tidak.

Pengembangan modul ini merupakan langkah penting dalam hal demokratisasi data dan secara signifikan mengurangi waktu yang diperlukan untuk menemukan informasi yang diperlukan. Selain mengurangi waktu pencarian, jumlah panggilan ke tim dukungan untuk saran juga berkurang. Mustahil untuk tidak mencatat satu hasil lagi yang bermanfaat yang kami raih dengan mengembangkan satu daftar laporan - mencegah pengembangan laporan rangkap untuk unit struktural yang berbeda.

Glosarium Bisnis


Anda semua tahu bahwa bahkan di dalam perusahaan yang sama, sebuah bisnis berbicara bahasa yang berbeda. Ya, mereka menggunakan istilah yang sama, tetapi mereka sangat berbeda artinya. Glosarium bisnis dirancang untuk mengatasi masalah ini.

Bagi kami, glosarium bisnis bukan hanya panduan dengan deskripsi istilah dan metodologi perhitungan. Ini adalah lingkungan penuh untuk pengembangan, koordinasi dan persetujuan terminologi, pembangunan hubungan persyaratan dengan aset informasi lain dari perusahaan. Sebelum memasuki glosarium bisnis, istilah tersebut harus melalui semua tahap koordinasi dengan pelanggan bisnis dan pusat kualitas data. Hanya setelah itu tersedia untuk digunakan.

Seperti yang saya tulis di atas, keunikan alat ini adalah alat ini memungkinkan Anda untuk membuat koneksi dari level istilah bisnis ke laporan pengguna tertentu di mana ia digunakan, serta ke tingkat objek database fisik.



Ini dimungkinkan melalui penggunaan pengidentifikasi istilah glosarium dalam deskripsi rinci laporan registri dan deskripsi objek database fisik.

Sekarang dalam Glosarium lebih dari 4000 persyaratan didefinisikan dan disepakati. Penggunaannya menyederhanakan dan mempercepat pemrosesan permintaan perubahan yang masuk dalam sistem informasi perusahaan. Jika indikator yang diperlukan telah diterapkan dalam laporan apa pun, maka pengguna akan segera melihat serangkaian laporan siap pakai di mana indikator ini telah digunakan, dan akan dapat memutuskan penggunaan kembali yang efektif dari fungsi yang ada atau peningkatan minimal tanpa memulai permintaan baru untuk pengembangan laporan baru.

Modul Deskripsi Transformasi Teknis dan DataLineage


Anda bertanya, apa saja modul-modul ini? Tidak cukup hanya menerapkan Laporan Registri dan Daftar Istilah, Anda masih perlu memasukkan semua istilah bisnis pada model basis data fisik. Dengan demikian, kami dapat menyelesaikan proses pembentukan siklus hidup data dari sistem sumber ke visualisasi BI melalui semua lapisan gudang data. Dengan kata lain, bangun DataLineage.

Kami mengembangkan antarmuka berdasarkan format yang digunakan oleh perusahaan untuk deskripsi aturan dan logika transformasi data. Melalui antarmuka, informasi yang sama diperoleh seperti sebelumnya, tetapi penentuan istilah pengenal dari glosarium bisnis menjadi prasyarat. Jadi kami membangun hubungan antara lapisan bisnis dan fisik.

Siapa yang butuh ini? Apa yang tidak sesuai dengan format lama yang mereka gunakan selama beberapa tahun? Berapa banyak peningkatan kebutuhan tenaga kerja untuk pembentukan persyaratan? Kami harus berurusan dengan masalah seperti itu dalam proses penerapan alat. Di sini jawabannya cukup sederhana - kita semua membutuhkannya, kantor data perusahaan kita dan pengguna kita.

Memang, karyawan harus direstrukturisasi, pada awalnya ini menyebabkan kenaikan tidak signifikan dalam biaya tenaga kerja untuk menyiapkan dokumentasi, tetapi kami menemukan masalah ini. Praktik, identifikasi, dan optimalisasi bidang masalah telah melakukan tugasnya. Kami mencapai hal utama - kami meningkatkan kualitas persyaratan yang dikembangkan. Bidang wajib, direktori terpadu, masker input, pemeriksaan bawaan - semua ini memungkinkan untuk secara signifikan meningkatkan kualitas deskripsi transformasi. Kami meninggalkan praktik mentransfer skrip dalam bentuk persyaratan pengembangan, berbagi pengetahuan yang hanya tersedia untuk tim pengembangan. Basis data metadata yang dihasilkan mengurangi waktu yang diperlukan untuk melakukan analisis regresi beberapa kali, dan menyediakan kemampuan untuk dengan cepat menilai dampak perubahan pada salah satu lapisan lanskap TI (laporan etalase, agregat, sumber).

Dan di mana pengguna laporan biasa, apa kelebihannya bagi mereka? Karena kemampuan untuk membangun DataLineage, pengguna kami, bahkan mereka yang jauh dari SQL dan bahasa pemrograman lainnya, dengan cepat menerima informasi tentang sumber dan objek berdasarkan laporan ini atau itu dihasilkan.

Modul Kontrol Kualitas Data


Segala sesuatu yang kami bicarakan di atas mengenai transparansi data tidak penting tanpa memahami bahwa data yang kami berikan kepada pengguna adalah benar. Salah satu modul penting dari konsep Tata Kelola Data kami adalah modul kontrol kualitas data.

Pada tahap saat ini, ini adalah katalog pemeriksaan pada entitas selektif. Tujuan langsung pengembangan produk adalah untuk memperluas daftar inspeksi dan berintegrasi dengan daftar laporan.
Apa yang akan diberikan dan kepada siapa? Untuk pengguna akhir registri, informasi akan tersedia pada tanggal yang direncanakan dan aktual ketersediaan laporan, hasil inspeksi lengkap dengan dinamika, dan informasi tentang sumber yang diunggah ke laporan.

Bagi kami, modul kualitas data yang diintegrasikan ke dalam proses kerja adalah:

  • Pembentukan harapan pelanggan yang cepat.
  • Membuat keputusan tentang penggunaan data di masa depan.
  • Memperoleh satu set awal poin masalah pada tahap awal pekerjaan untuk pengembangan kontrol kualitas reguler.

Tentu saja, ini adalah langkah pertama dalam membangun proses manajemen data yang lengkap. Tetapi kami yakin bahwa hanya dengan sengaja melakukan pekerjaan ini, secara aktif memperkenalkan alat DataGovernance dalam alur kerja, kami akan memberikan informasi kepada pelanggan kami, tingkat kepercayaan yang tinggi pada data, transparansi dalam penerimaan mereka dan meningkatkan kecepatan output fungsionalitas baru.

Tim DataOffice

All Articles