Menyusun risiko dan keputusan saat menggunakan BigData untuk statistik resmi

Kata pengantar Penerjemahnya

materi menarik saya, terutama karena tabel di bawah ini:



Mengingat bahwa statistik (dan Rusia, pada tingkat genetik), dengan kata lain, tidak suka segala sesuatu yang berbeda dari ketergantungan linear, orang-orang ini berhasil menyeret melalui penggunaan fungsi aktivasi dalam bentuk parabola untuk menentukan tingkat risiko menggunakan BigData dalam statistik resmi. Sudah selesai dilakukan dengan baik. Secara alami, ahli statistik menambahkan catatan mereka pada karya ini - “1 Setiap kesalahan dan kelalaian adalah tanggung jawab penulis. Pendapat yang diungkapkan dalam dokumen ini bersifat pribadi dan tidak mencerminkan posisi resmi Komisi Eropa. " Tetapi karya itu diterbitkan. Saya pikir untuk hari ini, ini sudah cukup, dan mereka (penulis) tidak melarang siapa pun untuk menemukan skala mereka dalam aspek ini.

Pekerjaan ini dapat disusun secara terstruktur untuk memisahkan di mana dan bagaimana metode statistik berbeda dari metode penelitian untuk BigData. Menurut pendapat saya, manfaat terbesar dari pekerjaan ini adalah ketika berbicara dengan pelanggan dan menyangkal pernyataannya seperti:

- Dan kami mengumpulkan statistik sendiri, apa yang masih ingin Anda teliti?
- Dan Anda mempresentasikan hasil Anda kepada kami sehingga kami mengoordinasikannya dengan statistik kami. Dalam pertanyaan ini, penulis mengatakan bahwa akan menyenangkan untuk membaca karya ini (3 Seberapa besar Big Data? Menjelajahi peran Big Data dalam Statistik Resmi )

Dalam tulisan ini, penulis meletakkan visi mereka tentang tingkat risiko. Parameter ini dalam tanda kurung, tidak harus bingung dengan referensi ke sumber.

Pengamatan kedua. Para penulis menggunakan istilah BDS - ini adalah analog dari konsep BigData. (rupanya curtsy ke statistik resmi).

Kata pengantar oleh

Semakin banyak kantor statistik sedang menjajaki kemungkinan menggunakan sumber data besar untuk menghasilkan statistik resmi. Saat ini, hanya ada beberapa contoh di mana sumber-sumber ini sepenuhnya terintegrasi ke dalam produksi statistik aktual. Akibatnya, konsekuensi penuh yang disebabkan oleh integrasi mereka belum diketahui. Sementara itu, upaya pertama dilakukan untuk menganalisis kondisi dan dampak big data pada berbagai aspek produksi statistik, seperti kualitas atau metodologi. Baru-baru ini, satuan tugas telah mengembangkan kerangka kerja kualitas untuk menghasilkan statistik data besar dalam konteks proyek data besar Komisi Ekonomi PBB untuk Eropa (UNECE).Menurut Kode Praktik Statistik Eropa, penyediaan informasi statistik berkualitas tinggi adalah tugas utama kantor statistik. Karena risiko didefinisikan sebagai efek dari ketidakpastian pada tujuan (misalnya, organisasi standardisasi internasional ISO 31000), kami merasa tepat untuk mengelompokkan risiko berdasarkan pengukuran kualitas yang mereka pengaruhi.
Struktur kualitas data statistik yang diusulkan diperoleh dari sumber data besar memberikan gagasan terstruktur dari kualitas yang terkait dengan semua tahapan proses bisnis statistik, dan dengan demikian dapat berfungsi sebagai dasar untuk penilaian komprehensif dan manajemen risiko yang terkait dengan sumber data baru ini. Ini memperkenalkan dimensi kualitatif baru yang spesifik untuk K atau (yang sangat penting ketika) penggunaan data besar untuk statistik resmi, seperti kelembagaan / lingkungan bisnis atau kompleksitas. Dengan menggunakan pengukuran kualitatif baru ini, dimungkinkan untuk mengidentifikasi secara sistematis risiko yang terkait dengan penggunaan sumber data besar dalam statistik resmi.

Dalam tulisan ini, kami berusaha mengidentifikasi risiko yang disebabkan oleh penggunaan data besar dalam konteks statistik resmi. Kami mengambil pendekatan sistematis untuk mengidentifikasi risiko dalam konteks struktur kualitas yang diusulkan. Dengan berfokus pada pengukuran kualitas yang baru diusulkan, kita dapat menggambarkan risiko yang saat ini tidak ada atau tidak mempengaruhi produksi statistik resmi. Pada saat yang sama, kita dapat menentukan risiko saat ini, yang akan dinilai dengan cara yang sangat berbeda saat menggunakan data besar untuk mendapatkan statistik. Kemudian kami beralih ke siklus manajemen risiko dan memberikan penilaian terhadap kemungkinan dan dampak risiko ini. Karena penilaian risiko melibatkan subjektivitas dalam atribusi mereka, probabilitas dan dampak pada berbagai risiko, kami mengukur perjanjian antara lusinan pemangku kepentingan yang berbeda,disediakan secara independen. Kami kemudian menawarkan opsi untuk mengurangi risiko ini dalam empat kategori utama: penghindaran, pengurangan, pembagian, dan retensi. Menurut ISO, salah satu prinsip manajemen risiko harus menjadi penciptaan nilai, yaitu, sumber daya untuk mengurangi risiko harus lebih rendah daripada untuk tidak bertindak. Sesuai dengan prinsip ini, kami akhirnya akan mengevaluasi dampak yang mungkin dari beberapa langkah mitigasi risiko pada kualitas hasil akhir untuk sampai pada penilaian yang lebih komprehensif tentang penggunaan Big Data untuk statistik resmi.salah satu prinsip manajemen risiko adalah penciptaan nilai, yaitu, sumber daya untuk mengurangi risiko harus lebih rendah daripada tidak bertindak. Sesuai dengan prinsip ini, kami akhirnya akan mengevaluasi dampak yang mungkin dari beberapa langkah mitigasi risiko pada kualitas hasil akhir untuk sampai pada penilaian yang lebih komprehensif tentang penggunaan Big Data untuk statistik resmi.salah satu prinsip manajemen risiko adalah penciptaan nilai, yaitu, sumber daya untuk mengurangi risiko harus lebih rendah daripada tidak bertindak. Sesuai dengan prinsip ini, kami akhirnya akan mengevaluasi dampak yang mungkin dari beberapa langkah mitigasi risiko pada kualitas hasil akhir untuk sampai pada penilaian yang lebih komprehensif tentang penggunaan Big Data untuk statistik resmi.

1. Perkenalan


1.1. Latar Belakang


Pengembangan "big data" ditandai oleh Kenneth Neil Kukier dan Victor Mayer-Schoenberger dalam artikel mereka "Growing Big Data" (2. www.foreignaffairs.com/articles/139104/kenneth-neil-cukier-and-viktor-mayer-schoenberger/ therise-of-big-data ) dengan istilah transfer data. Datafication digambarkan sebagai proses "mengambil semua aspek kehidupan dan mengubahnya menjadi data." Contohnya. Facebook menyediakan jaringan pribadi, sensor untuk semua jenis kondisi lingkungan, smartphone untuk komunikasi dan pergerakan pribadi, data yang dapat dipakai untuk kondisi pribadi. Ini mengarah pada pengumpulan dan ketersediaan data yang hampir universal.

Seperti di banyak sektor lain, statistik resmi baru-baru ini mulai membahas masalah big data pada tingkat strategis. Masih belum ada pemahaman umum dan luas tentang jalan ke depan, apakah itu tantangan atau peluang, apakah itu kecil atau besar, dll. Sebagai bagian dari Kelompok Tingkat Tinggi tentang Modernisasi Produksi dan Layanan Statistik (3 Seberapa besar Data Besar? Menggali peran Data Besar dalam Statistik Resmi: www1.unece.org/stat/platform/download/attachments/99484307/Virtual%20Sprint%20Big%20Data%20paper.docx?version=1&modificationDate=1395217470975&api=v2), analisis SWOT Pertama diikuti dengan analisis risiko / manfaat kasar dilakukan. Tercatat bahwa "analisis risiko yang komprehensif juga akan mencakup aspek-aspek seperti kemungkinan dan dampak, dan juga dapat diperluas untuk mengidentifikasi strategi untuk mengurangi dan mengelola risiko."

Meskipun dokumen ini masih jauh dari analisis risiko yang lengkap, dokumen ini bertujuan untuk memperbaiki situasi secara tepat dengan membuat tinjauan terstruktur pertama. Kami ingin menekankan bahwa tinjauan ini harus dilihat sebagai titik awal untuk merangsang diskusi umum dalam Komunitas Statistik Resmi (OSC).

1.2. Bola


Artikel ini dikhususkan untuk risiko, tidak hanya mengecualikan keuntungan, tetapi juga kekuatan dan kelemahan, peluang dan ancaman. Ini berarti bahwa "risiko tidak bertindak" (misalnya, risiko OSC akan keluar dari persaingan dengan peserta lain jika tidak dimodernisasi) tidak dicakup oleh ruang lingkup; ini lebih merupakan ancaman. Sebaliknya, kami mencoba untuk menyoroti risiko yang mungkin timbul (a) jika OSC mengambil keuntungan dari peluang yang diberikan oleh big data dan mulai mengembangkan atau meningkatkan "produk statistik resmi berbasis data besar" (BOSP); (B) risiko untuk "bisnis biasa" baru, yaitu risiko untuk statistik resmi berdasarkan pada produksi "data besar". (Karena semua produksi statistik resmi dikaitkan dengan risiko, kami membatasi diri untuk (b) risiko spesifik untuk Big Data, yaitu.risiko yang tidak ada atau tidak signifikan untuk proses “tradisional” pengumpulan statistik resmi.)

1.3. Struktur


Pada bagian 2, kami menyajikan prinsip-prinsip dasar yang terkait dengan tugas ini, dimulai dengan kerangka kerja yang jelas diperlukan untuk manajemen risiko dan manajemen risiko (bagian 2.1). Kami juga menyajikan struktur kualitas awal untuk data statistik yang diperoleh berdasarkan big data (Bagian 2.2), karena menghubungkan struktur kualitas dengan risiko memenuhi dua tujuan:

  • Ini menetapkan konteks untuk mengidentifikasi risiko. Indikator kualitas tertentu, bersama dengan karakteristik yang dipertimbangkan, menyatakan nilai-nilai objek, yang dianggap penting dan penting untuk penyediaan layanan kepada pelanggan dan pengguna.
  • Ini memungkinkan Anda untuk menetapkan risiko spesifik pada pengukuran kualitatif yang tertanam dalam hyperspaces umum dan terikat pada tahapan tertentu dalam produksi produk statistik.

Dalam bagian 3, 4, 5, dan 6, kami menyajikan risiko yang diidentifikasi sejauh ini dalam berbagai konteks (4 Dokumen kasus bisnis ESS (https://www.europeansocialsurvey.org/about/structure_and_governance.html) proyek Big Data sebagai serta pada Big Data ESSets berisi daftar risiko yang sebagian terkait dengan proyek dan sebagian untuk menggunakan sumber data besar untuk keperluan statistik. Dokumen "Kerangka yang disarankan untuk Kualitas Big Data" menyebutkan beberapa risiko yang berkaitan dengan dimensi kualitas. Dokumen kasus bisnis proyek Data Besar ESS, serta jaringan Data Besar ESS, berisi daftar risiko yang sebagian terkait dengan proyek dan sebagian menggunakan sumber data besar untuk keperluan statistik. Beberapa risiko yang diusulkan disebutkan dalam dokumen "Struktur yang diusulkan untuk kualitas data besar" dengan indikator kualitas.).Di sini kami menggunakan klasifikasi akses data, lingkungan hukum, privasi dan keamanan data, serta keterampilan; reorganisasi sesuai dengan struktur kualitas statistik yang diperoleh dari data besar (Bagian 2.2) harus segera dipertimbangkan segera setelah struktur ini mencapai status yang lebih lengkap. Untuk setiap risiko yang diidentifikasi, kami (i) memberikan penilaian terhadap kemungkinan dan dampak (sesuai dengan Bagian 2.1.3) dan (ii) mengusulkan strategi untuk mengurangi dan mengelola risiko (lihat Bagian 2.1.4).Untuk setiap risiko yang diidentifikasi, kami (i) memberikan penilaian terhadap kemungkinan dan dampak (sesuai dengan Bagian 2.1.3) dan (ii) mengusulkan strategi untuk mengurangi dan mengelola risiko (lihat Bagian 2.1.4).Untuk setiap risiko yang diidentifikasi, kami (i) memberikan penilaian terhadap kemungkinan dan dampak (sesuai dengan Bagian 2.1.3) dan (ii) mengusulkan strategi untuk mengurangi dan mengelola risiko (lihat Bagian 2.1.4).

Pada akhirnya, kami membahas temuan kami dan menguraikan beberapa langkah selanjutnya dalam Bagian 7.

2. Dasar-dasarnya


2.1. Risiko dan Manajemen Risiko


Menurut ISO 31000: 20095, risiko didefinisikan sebagai "efek ketidakpastian pada tujuan". Ini berarti bahwa tujuan harus didefinisikan atau diketahui sebelum risiko dapat diidentifikasi. Tujuan-tujuan ini biasanya ditentukan oleh konteks kelembagaan organisasi. Pertimbangan penting lainnya adalah bahwa risiko membawa karakterisasi ketidakpastian, yaitu, tidak jelas apakah peristiwa yang dijelaskan akan terjadi. Dengan demikian, risiko diukur dalam hal kemungkinan terjadinya peristiwa dan konsekuensinya, yaitu dampak yang dimiliki peristiwa tersebut pada pencapaian tujuannya. Penilaian risiko harus memberikan informasi yang lebih objektif, yang pada akhirnya akan memungkinkan Anda untuk menemukan keseimbangan yang tepat antara realisasi peluang laba dan meminimalkan efek buruk.Manajemen risiko merupakan bagian integral dari praktik manajemen dan merupakan elemen penting dari praktik korporasi yang baik (6 Statistik Kanada: laporan 2014-2015 tentang Rencana dan Prioritas,www.statcan.gc.ca/aboutapercu/rpp/2014-2015/s01p06-eng.htm ). Ini adalah proses berulang yang idealnya memungkinkan peningkatan berkelanjutan dari proses pengambilan keputusan dan berkontribusi terhadap peningkatan produktivitas yang berkelanjutan.

Risiko juga dikaitkan dengan kualitas. Penggunaan sistem mutu harus memungkinkan untuk menggunakan peluang yang disediakan oleh berbagai sumber dan metodologi untuk mencapai hasil tingkat kualitas tertentu dalam arti hasil ini memuaskan kebutuhan pengguna. Seperti halnya risiko, tingkat kualitas dapat diturunkan dari lingkungan kelembagaan dan tujuan lembaga tertentu. Dalam konteks ini, lingkungan institusional menentukan keseluruhan tingkat risiko yang siap ditanggung organisasi untuk mencapai tujuannya.

Penilaian risiko dan proses manajemen dapat dibagi menjadi beberapa tahap, yang meliputi pengaturan konteks, mengidentifikasi risiko, menganalisis risiko dalam hal probabilitas dan dampak, menilai risiko dan, akhirnya, memproses risiko.

2.1.1. Konteks kelembagaan


Sebagai langkah pertama, perlu untuk menetapkan konteks strategis, organisasi dan manajemen risiko di mana sisa proses akan berlangsung. Ini termasuk menetapkan kriteria dengan mana risiko akan dinilai, dan menentukan struktur analisis.

2.1.2. Identifikasi resiko


Pada tahap kedua, peristiwa yang dapat mempengaruhi pencapaian tujuan harus diidentifikasi. Identifikasi harus mencakup pertanyaan yang berkaitan dengan jenis risiko, waktu acara, tempat, atau bagaimana peristiwa dapat mencegah, memperburuk, menunda atau meningkatkan pencapaian tujuan.

2.1.3. Tugas beresiko


Langkah selanjutnya adalah mengidentifikasi kontrol yang ada dan analisis risiko dalam hal probabilitas, serta dalam hal konsekuensi potensial. Dalam konteks artikel ini, probabilitas atau probabilitas terjadinya risiko menggunakan skala 1 (tidak mungkin) hingga 5 (sering). Dampak peristiwa diukur pada skala 1 (dapat diabaikan) hingga 5 (ekstrem). Seperti yang ditunjukkan pada Tabel 1, produk probabilitas dan dampak memiliki "tingkat risiko" mulai dari 1 hingga 25. Tingkat



risiko yang diperkirakan dapat dibandingkan dengan kriteria yang telah ditentukan untuk mencapai keseimbangan antara manfaat potensial dan hasil yang merugikan. Ini memungkinkan Anda untuk membuat penilaian tentang prioritas manajemen.



Prioritas tindakan harus ditempatkan pada risiko kritis (lihat Tabel 2), yaitu risiko yang dapat terjadi dan memiliki konsekuensi serius atau ekstrem untuk tujuan organisasi.

2.1.4. Respon risiko


Langkah terakhir terdiri dari keputusan tentang cara merespons risiko. Beberapa risiko yang berada di bawah tingkat risiko yang telah ditentukan dapat diabaikan atau ditoleransi. Bagi yang lain, biaya mitigasi risiko bisa sangat tinggi sehingga lebih besar daripada manfaat potensial. Dalam hal ini, organisasi dapat memutuskan untuk meninggalkan kegiatan yang relevan. Risiko juga dapat ditransfer ke pihak ketiga, seperti asuransi, yang mengkompensasi biaya yang dikeluarkan. Opsi terakhir adalah memperhitungkan risiko ketika mendefinisikan strategi dan tindakan yang menyeimbangkan biaya dengan manfaat potensial. Dengan demikian, organisasi akan memutuskan penerapan strategi untuk memaksimalkan manfaat dan meminimalkan biaya potensial.



2.2. Sistem kualitas


Gugus tugas, yang terdiri dari perwakilan organisasi statistik nasional dan internasional, mengembangkan kerangka kerja pendahuluan untuk statistik yang berasal dari data besar yang dikembangkan pada 2014. Gugus tugas bekerja di bawah naungan proyek UNECE / HLG "Peran Big Data dalam Modernisasi Produksi Statistik". Dia memperluas sistem kualitas yang ada yang dirancang untuk mengevaluasi statistik dari sumber data administratif, dengan indikator kualitas yang dianggap relevan untuk sumber data besar.

Dalam sistem ini, perbedaan dibuat antara tiga fase proses bisnis: input, produktivitas, dan output. Fase input sesuai dengan fase "desain" dan "pengumpulan" GSBP, kinerja untuk fase "proses" dan "analisis", dan output setara dengan fase "propagasi".

Struktur menggunakan struktur hirarkis, yang diambil dari struktur data administrasi yang dikembangkan oleh Statistik Belanda (7 Daas, P., S. Ossen, R. Vis-Visschers, dan J. Arends-Toth, (2009), Daftar Periksa untuk Kualitas evaluasi Sumber Data Administrasi. Statistik Belanda, Den Haag / Heerlen). Dimensi kualitas tertanam dalam struktur hierarki yang disebut hyperspaces. Tiga dimensi hiper yang didefinisikan adalah "sumber", "metadata" dan "data". Pengukuran kualitas tertanam dalam dimensi hiper ini dan ditugaskan untuk masing-masing tahap produksi. Untuk tahap input, aspek tambahan diusulkan "kerahasiaan dan kerahasiaan", "kompleksitas" (sesuai dengan struktur data), "kelengkapan" metadata dan "konektivitas" (kemampuan untuk menghubungkan data dengan data lain),untuk menambah model kualitas standar. Untuk masing-masing indikator kualitas, faktor-faktor yang berkaitan dengan uraiannya diusulkan, serta kemungkinan indikator.

Dalam konteks artikel ini, risiko dapat dikecualikan dari faktor-faktor ini. Sebagai contoh, faktor-faktor yang perlu dipertimbangkan untuk mengukur kualitas lingkungan kelembagaan / bisnis adalah keberlanjutan penyedia data. Risiko terkait mungkin bahwa data tidak akan tersedia dari penyedia data di masa mendatang. Contoh lain terkait dengan aspek kualitas, privasi, dan keamanan yang baru-baru ini diusulkan. Salah satu faktor penting adalah "persepsi," yang berarti kemungkinan persepsi negatif tentang maksud penggunaan sumber data tertentu oleh berbagai pemangku kepentingan.

3. Risiko yang terkait dengan akses data


3.1. Kurangnya akses ke data
3.1.1. Deskripsi


Risiko ini terdiri dari proyek yang terkait dengan pengembangan BOSP yang tidak mendapatkan akses ke Sumber Data Besar (BDS) yang diperlukan.

Sampai saat ini, OSC telah belajar cara yang sulit bahwa bahkan keluar dari blok awal dan mendapatkan akses ini kadang-kadang merupakan kendala yang tidak dapat diatasi. Terkadang mudah untuk mengakses sumber tertentu, seperti catatan data panggilan (CDR), untuk tujuan pengujian / penelitian, tetapi jauh lebih sulit (karena alasan hukum atau komersial) untuk mengaksesnya untuk tujuan produksi.

3.1.2. Kemungkinan


Kemungkinannya sangat tergantung pada karakteristik BDS. Ketika datang ke data administrasi besar, bisa jadi hanya 1, khususnya jika (seperti halnya dengan data loop lalu lintas dipelajari oleh Daas et al. 8 Daas, P., M. Puts, B. Buelens dan P. van den Hurk. 2015. "Big Data sebagai Sumber untuk Statistik Resmi." Jurnal Statistik Resmi 31 (2). (Akan datang; publikasi diramalkan untuk Juni 2015.)) tidak ada masalah dalam melindungi data pribadi. Jika kasus BDS milik individu pribadi, khususnya jika sensitif (misalnya, dari sudut pandang perlindungan data) atau berharga (dari sudut pandang komersial), probabilitasnya bisa sangat tinggi (5).

3.1.3. Mempengaruhi


Dampaknya tergantung pada BOSP dan cara Anda menggunakan BDS. Jika BDS berada di pusat, dampaknya bisa sangat tinggi (4 = tidak mungkin menghasilkan BOSP sama sekali), sementara itu bisa lebih rendah jika masih memungkinkan untuk menghasilkan BOSP (walaupun dengan kualitas lebih rendah), bergantung pada DRM lain, yang mengarah pada DRM lain, yang mengarah ke untuk paparan dalam kisaran 2-3.

3.1.4. Pencegahan


Untuk mengurangi risiko kurangnya akses, Anda harus menjalin kontak awal dengan penyedia data dan masuk ke dalam perjanjian akses data jangka panjang. Selain itu, tinjauan hukum yang komprehensif harus dilakukan mengenai kombinasi spesifik BDS dan BOSP. Kemungkinan mengakses data juga harus dinilai menggunakan undang-undang saat ini atau masa depan.

3.1.5. Pelunakan


Jika ada alternatif BDS yang dapat digunakan untuk BOSP, mereka dapat dieksplorasi sebagai gantinya. Jika tidak ada cara untuk menghasilkan BOSP tanpa BDS, dan jika tidak mungkin untuk mengatasi kurangnya akses, upaya harus dihentikan dan BOSP baru tidak akan dirilis.

3.2. Hilangnya akses ke data
3.2.1. Deskripsi


Risiko ini adalah bahwa kantor statistik kehilangan BDS yang mendasari BOSP.

3.2.2. Kemungkinan


Jika BOSP sudah diproduksi, biasanya ada beberapa stabilitas, dan dalam beberapa kasus risikonya bisa sangat rendah (1). Namun, khususnya, dalam kasus entitas swasta dengan perjanjian perusahaan yang tidak cukup disimpulkan, tidak ada yang mengganggu, misalnya. panduan baru dari perubahan kebijakan pelaporan data, yang mengarah ke risiko moderat kesenjangan (3). Selain itu, jika BDS dikaitkan dengan kegiatan yang tidak stabil, selalu ada risiko bahwa penyedia layanan akan bangkrut, dan risikonya mungkin bahkan lebih tinggi (4).

3.2.3. Mempengaruhi


Karena BOSP yang ada mungkin tidak dapat diproduksi, dampak yang sangat kuat sering terjadi (5). Dalam kasus lain, ketika BDS adalah bantu, dampaknya mungkin agak kehilangan kualitas dengan dampak dalam kisaran 2-3.

3.2.4. Pencegahan


Strategi pencegahan mirip dengan strategi kurangnya akses ke data, tetapi dengan peningkatan penekanan pada kewaspadaan yang konstan juga di lingkungan produksi.

Tidak menempatkan semua telur Anda dalam satu keranjang (mis. Memiliki beberapa BDS yang mendasari setiap BSOP) juga bisa menjadi strategi, tetapi bisa jadi tidak praktis atau terlalu mahal.

3.2.5. Pelunakan


Jika BDS adalah hasil dari kegiatan yang tidak berkelanjutan, ada kemungkinan bahwa BDS baru yang mencerminkan fenomena sosial yang sama secara bertahap dapat tersedia. Namun, akan terlambat untuk memulai "pemindaian pasar" segera setelah BSOP mogok; kewaspadaan konstan akan diperlukan - dan ini bisa sulit untuk dicapai.

4. Risiko hukum


4.1. Gagal mematuhi undang-undang yang relevan
4.1.1. Deskripsi


Risiko ini terdiri dari proyek yang terkait dengan pengembangan BOSP, yang tidak memperhitungkan undang-undang yang relevan, yang membuat BOSP tidak konsisten dengan undang-undang yang ditentukan. Ini mungkin berlaku untuk undang-undang perlindungan data, beban peraturan tanggapan, dll.

4.1.2. Kemungkinan


Mengingat ketidaktahuan data besar OSC, ada kemungkinan bahwa ketidaktaatan (3) yang tidak disengaja dapat terjadi. Probabilitas biasanya dikaitkan dengan BDS, karena semakin sedikit "sensitif" sumbernya, semakin kecil kemungkinan menciptakan ketidakcocokan.

4.1.3. Mempengaruhi


Dampaknya biasanya kritis (4) dalam arti bahwa untuk produksi yang tidak tepat perlu menghentikan BOSP (atau, jika belum mencapai tahap implementasi, pengembangannya harus dihentikan). Bahkan dapat menjadi ekstrem (5), karena risiko reputasi yang timbul dari statistik resmi yang tidak sesuai (“ilegal”) dapat memiliki konsekuensi

4.1.4. Pencegahan


Untuk BOSP manapun, analisis hukum menyeluruh diperlukan - dan ini terjadi pada beberapa tahap (apa yang dapat diterima pada tahap pengembangan / eksplorasi mungkin tidak tepat pada tahap implementasi / produksi). Ini, pada gilirannya, dapat menyebabkan rekayasa ulang BOSP agar kompatibel.

4.1.5. Pelunakan


Tergantung pada tingkat keparahan perbedaan, langkah pertama mungkin untuk mengambil BOSP offline.

Rekayasa ulang BOSP agar kompatibel mungkin menjadi pilihan, tetapi apakah BOSP "disimpan" dengan cara ini sangat bergantung pada sifat ketidakcocokan.

4.2. Perubahan yang merugikan dalam lingkungan hukum
4.2.1. Deskripsi


Undang-undang baru dapat diperkenalkan terkait dengan pengembangan BOSP, yang secara efektif membuat BOSP tidak kompatibel.

4.2.2. Kemungkinan


Ada kemungkinan bahwa para pendukung peningkatan perlindungan data akan dapat memperkenalkan persyaratan baru yang secara langsung atau tidak langsung memengaruhi kemampuan untuk membuat BOSP tertentu. Probabilitas dalam kisaran 2-3 tampaknya merupakan perkiraan yang realistis.

4.2.3. Mempengaruhi


Eksposur biasanya kritis (4), dalam arti bahwa produksi yang tidak tepat akan membutuhkan penutupan BOSP.

4.2.4. Pencegahan


Informasi bisnis tertentu harus dilakukan secara teratur untuk memantau perkembangan undang-undang - mungkin juga untuk mempengaruhinya, membuat argumen yang mendukung statistik resmi di forum yang relevan (misalnya, penasihat).

4.2.5. Pelunakan


Asalkan pemantauan proaktif telah dilakukan, mungkin ada waktu untuk rekayasa ulang BOSP untuk sejalan dengan undang-undang baru sejak hari pertama berlakunya.

Jika, di sisi lain, pemantauan tidak dilakukan, sehingga undang-undang baru “mengejutkan,” atau jika undang-undang tersebut sangat radikal sehingga tidak ada cara untuk membuat BOSP tidak kompatibel, satu-satunya pilihan adalah dengan menonaktifkan BOSP.

5. Risiko yang terkait dengan privasi dan keamanan data


5.1. Pelanggaran keamanan data
5.1.1. Deskripsi


Risiko ini terkait dengan akses tidak sah ke data yang disimpan di kantor statistik. Pihak ketiga dapat menerima data yang berada di bawah embargo, misalnya, karena dikeluarkannya jadwal (9 Untuk BOSP yang seluruhnya didasarkan pada BDS tunggal, tidak dapat dihindari bahwa data akan secara implisit diketahui oleh pemilik data asli, dan jika metodologi ini transparan, statistik yang diturunkan juga Situasi ini tidak dibahas di sini, tetapi lebih pada risiko penyalahgunaan posisi resmi oleh pemilik.) (10 Selain itu, data ini dapat membawa risiko pelanggaran kerahasiaan. Risiko ini akan dipertimbangkan secara terpisah.). Ini mungkin, misalnya, data yang diharapkan investor di pasar saham.

5.1.2. Kemungkinan


Mengenai aspek teknis melindungi lingkungan TI di kantor statistik, risikonya sama besar kemungkinannya dengan BDS dengan sumber tradisional. Namun, ada dua aspek tambahan yang harus diperhatikan.

Pertama, dengan beberapa BDS, risiko keseluruhan sedikit meningkat karena fakta bahwa keamanan data pemilik asli dapat dikompromikan. Ini mungkin disebabkan, misalnya, karena spionase industri atau peretasan.

Kedua, segera setelah data yang berpotensi berharga disimpan di kantor, risiko menarik niat jahat akan meningkat. Jika data yang disimpan bernilai sangat tinggi untuk bisnis, Anda harus bersiap untuk kemungkinan serangan yang sangat tinggi yang ditujukan pada infrastruktur TI, sehingga kemungkinan peretasan mungkin berpotensi lebih tinggi (4).

Jika data yang disimpan tidak dianggap memiliki nilai, probabilitas keseluruhan tampaknya tidak terlalu tinggi - dari (1) hingga (3) tergantung pada sumber data.

5.1.3. Mempengaruhi


Potensi kerusakan reputasi Anda dapat menjadi besar (5). Yang penting dalam kasus BDS adalah bahwa jika pelanggaran keamanan terjadi pada pemilik aslinya, dampaknya terhadap reputasi kantor statistik diharapkan lebih rendah daripada jika pelanggaran tersebut terjadi dengan data yang disimpan di dalamnya.

Di sisi lain, ada kemungkinan bahwa pelanggaran di kantor statistik dapat memiliki konsekuensi negatif bagi pemilik aslinya. Dalam hal ini, dampak negatif yang kuat dimungkinkan lagi karena kerusakan dalam hal kepercayaan antara pemasok dan kantor statistik (5).

5.1.4. Pencegahan


Apa karakteristik dari kasus BDS adalah bahwa prosedur keamanan pemilik aslinya mungkin sesuai. Tidak mungkin bahwa kantor statistik akan memiliki kredensial audit untuk mengendalikan ini. Pemilik yang datanya digunakan untuk membuat catatan dengan jadwal publikasi rahasia harus diberitahu tentang implikasi untuk statistik resmi potensi pelanggaran keamanan di tempat mereka dan harus menerima jaminan resmi bahwa prosedur keamanan yang tepat sedang diterapkan.

Cara langsung untuk mencegah dampak serius dari pelanggaran keamanan di tempat pemilik di kantor statistik adalah dengan menggunakan beberapa sumber untuk produk yang sama sehingga satu sumber yang dikompromikan tidak cukup untuk mendapatkan angka akhir. Keuntungan dari pendekatan ini adalah bahwa lebih banyak kontrol ada di tangan kantor statistik.

Cara untuk mencegah konsekuensi negatif dari pelanggaran keamanan di kantor statistik untuk pemilik data asli adalah dengan menemukan cara kerja yang tidak melibatkan transfer data yang berpotensi sensitif dari sudut pandang pemilik ke kantor statistik. Dalam bentuk mentah. Kemungkinan pendekatan pencegahan adalah dengan menggunakan data agregat. Namun harus diingat bahwa beberapa bentuk agregasi, misalnya, yang dirancang untuk mencegah identifikasi individu anggota populasi, mungkin tidak sesuai dalam kasus ini. Salah satu alasannya adalah fakta bahwa risiko terhadap pemilik dikaitkan dengan nilai komersial data, yang dapat menjadi signifikan bahkan setelah anonimitas dicapai.

5.1.5. Pelunakan


Dalam kasus pelanggaran data yang dikelola oleh kantor statistik, langkah-langkah mitigasi akan sama seperti dalam kasus sumber tradisional, jika tidak ada dampak negatif pada pemilik asli.

Dalam hal konsekuensi negatif bagi pemilik asli, kantor statistik harus meninjau dan memperkuat prosedur keamanannya dan dengan jelas berkomunikasi dan menunjukkan komitmennya terhadap hal ini.

Jika pelanggaran terjadi di tempat pemilik asli, maka kantor statistik yang relevan harus dengan jelas melaporkan situasi dan bersikeras memperbaiki prosedur keselamatan pemilik. Jika perlu, Anda dapat mencari pemasok alternatif.

5.2. Pelanggaran privasi data


5.2.1. Deskripsi


Ini adalah risiko bahwa kerahasiaan satu atau lebih orang dari populasi statistik akan dilanggar. Ini mungkin karena serangan pada infrastruktur TI karena tekanan dari lembaga pemerintah lain atau karena kontrol yang tidak memadai atas pengungkapan statistik.

5.2.2. Kemungkinan


Seperti halnya risiko pelanggaran keamanan data, spesifikasi penyimpanan mikrodata tidak banyak berubah dengan penambahan BDS. Namun, ada peringatan di sini.

Microdata dari sumber data tertentu bisa bernilai bisnis tinggi, jadi menyimpannya akan meningkatkan kemungkinan serangan.

Selain itu, beberapa mikrodata dapat berpotensi sangat berguna bagi lembaga pemerintah lainnya, seperti penegakan hukum, perpajakan, atau perawatan kesehatan. Dalam keadaan tertentu, kepatuhan terhadap prinsip kerahasiaan statistik mungkin mendapat tekanan besar.

Adapun kegagalan dalam kontrol pengungkapan informasi statistik, sudah ada praktik yang mapan. BDS memungkinkan statistik dihasilkan untuk subkelompok kecil populasi atau menyediakan kemampuan untuk menghubungkan data agregat dari berbagai BDS, yang dapat meningkatkan kemungkinan risiko. Selain itu, sumber-sumber baru, bagaimanapun, akan membutuhkan perkembangan metodologis baru, sehingga bahaya sebenarnya adalah bahwa metodologi untuk mengendalikan pengungkapan tidak diperbarui dengan benar.

Secara umum, dengan langkah-langkah pencegahan yang masuk akal, probabilitas dapat dipertahankan pada tingkat yang wajar, tetapi karena ada banyak faktor yang berbeda dan beragam, penilaian yang sesuai di sini tampaknya probabilitasnya tinggi (4).

5.2.3. Mempengaruhi


Potensi kerusakan reputasi Anda dapat menjadi besar (5). Seperti halnya risiko pelanggaran data, pelanggaran di kantor statistik dapat memiliki konsekuensi negatif bagi pemilik aslinya. Di sini pengaruh peristiwa semacam itu bisa berpotensi lebih besar, terutama asalkan tren saat ini dalam opini publik terus berlanjut. Kerusakan antara penyedia data dan kantor statistik juga diperkirakan akan sangat besar.

5.2.4. Pencegahan


Cara yang pasti untuk mencegah risiko ini adalah tidak memiliki mikrodata dari BDS sama sekali (walaupun menyimpan mikrodata lainnya masih membawa risiko yang sesuai, meskipun dengan probabilitas dan dampak yang berbeda). Cara ini, seperti dalam kasus risiko pelanggaran keamanan data, akan mensyaratkan perlunya mengembangkan cara lain untuk menggunakan data untuk keperluan statistik. Selain itu, sifat berbeda dari sumber di sini akan berarti bahwa perlu untuk mengembangkan metodologi baru dengan tujuan yang bersaing untuk mengekstrak sebanyak mungkin informasi bermanfaat dan melindungi privasi dari bahaya.

Dalam hal penyimpanan mikrodata, keamanan TI dan mekanisme kontrol akses harus pada tingkat yang disyaratkan dan terus dipantau. Perhatian khusus harus diberikan untuk memastikan keamanan metode baru dalam memperoleh data. Ironisnya, cara baru ini bisa menjadi transportasi fisik perangkat penyimpanan (seperti hard drive). Jika metode ini digunakan, maka pengiriman harus aman secara fisik dan enkripsi harus digunakan.

5.2.5. Pelunakan


Langkah-langkah mitigasi di sini pada dasarnya sama dengan dalam kasus pelanggaran keamanan data. Jika penyebab pelanggaran adalah tekanan dari lembaga pemerintah lain, maka Anda harus mengambil kesempatan untuk memperkuat independensi pemerintahan sehingga pelanggaran seperti itu menjadi lebih sulit di masa depan.

5.3. Manipulasi dengan sumber data
5.3.1. Deskripsi


Penyedia data pihak ketiga, seperti data media sosial atau data yang disediakan secara sukarela, berisiko mengalami manipulasi. Ini bisa dilakukan oleh penyedia data itu sendiri atau oleh pihak ketiga. Sebagai contoh, banyak pesan palsu di jejaring sosial dapat dibuat untuk mendorong indeks statistik yang diperoleh berdasarkan data ini dengan satu atau lain cara, jika diketahui bahwa indeks dihitung berdasarkan data tersebut.

Untuk data yang disediakan secara sukarela, mungkin ada saatnya sukarelawan mewakili kelompok minat tertentu dengan agenda tertentu.

5.3.2. Kemungkinan


Untuk data manipulasi yang dapat bermanfaat besar, kemungkinannya lebih tinggi. Ini bisa menjadi data yang statistiknya menarik, misalnya, pasar saham. Mengingat skandal terbaru terkait LIBOR dan Forex, dapat diasumsikan bahwa selama ada insentif, upaya untuk memanipulasi data kemungkinan besar akan terjadi.

Untuk statistik berdasarkan data yang disediakan secara sukarela, Anda hanya perlu melihat praktik PR baru-baru ini yaitu merekrut orang yang berpura-pura memiliki pendapat tertentu dan yang dibayar untuk ekspresi publik (misalnya, di forum Internet) untuk menyimpulkan bahwa kemungkinannya tidak kecil. . Secara umum, angka 3 hingga 4 tampak memadai.

5.3.3. Mempengaruhi


Masalah besar dengan manipulasi adalah mereka bisa bertahan lama tanpa deteksi. Jika manipulasi berlanjut untuk waktu yang lama, dampak pada kualitas bisa menjadi signifikan. Selain itu, kerusakan kepercayaan publik pada statistik resmi juga bisa besar, terutama jika peran kantor statistik sebagai penyedia data berkualitas ditekankan secara publik. Di sisi lain, jika manipulasi terdeteksi tepat waktu dan kemudian diterbitkan, ini sebenarnya dapat meningkatkan persepsi publik. Kecuali dalam kasus yang sangat buruk, orang dapat membayangkan efek maksimum (3).

5.3.4. Pencegahan


Melakukan latihan kontrol rutin dengan sumber alternatif adalah salah satu pendekatan pencegahan yang mungkin. Sumber-sumber alternatif ini mungkin tradisional atau berbeda. Menggunakan statistik berdasarkan kombinasi sumber dapat mengganggu efek signifikan dari manipulasi. Dalam kasus di mana mereka takut akan manipulasi yang diprakarsai oleh penyedia layanan, perjanjian hukum juga bisa menjadi salah satu cara untuk mencegah praktik semacam itu.

5.3.5. Pelunakan


Dalam hal kerusakan hubungan masyarakat, langkah-langkah mitigasi yang harus diambil di sini tidak jauh berbeda dengan langkah-langkah untuk memerangi krisis apa pun.

Dalam hal kualitas data, akan sangat membantu jika data masa lalu dapat diperbaiki sehingga bahkan dengan penundaan besar, seri yang benar dapat
diproduksi. Pembandingan reguler mungkin bermanfaat untuk ini. Harap perhatikan bahwa tujuan pembandingan dalam kasus ini sedikit berbeda dari tujuan pencegahan. Untuk mencegah hal ini, penting untuk segera menemukan dan menyelidiki ketidakcocokan yang mencurigakan antara data benchmark dan BDS. Untuk mengurangi efek dari data lama yang bermanfaat selalu berguna.

Selain itu, kehati-hatian harus diambil untuk mencegah manipulasi serupa di masa mendatang - dalam kasus-kasus yang sulit, ini dapat berarti menerima data yang berpotensi berlebihan dari beberapa pemasok untuk analisis komparatif.

5.4. Merugikan persepsi publik tentang penggunaan data besar dengan statistik resmi
5.4.1. Deskripsi


Media dan masyarakat umum sangat sensitif terhadap masalah kerahasiaan dan penggunaan data pribadi dari sumber data yang besar, terutama dalam konteks penggunaan data sekunder oleh lembaga pemerintah yang mengambil tindakan administratif atau hukum terhadap warga negara. Penggunaan yang dirasakan secara negatif dapat berupa penentuan posisi kontrol kecepatan berdasarkan analisis data navigasi (11 Lihat www.theguardian.com/technology/2011/apr/28/tomtom-satnav-data-police-speed-traps ).
Kasus spesifik TomTom Belanda menyebabkan penurunan signifikan dalam permintaan untuk perangkat TomTom dan menyebabkan keputusan perusahaan untuk membatasi akses ke data. Dalam kasus khusus ini, data terkait dengan individu, tetapi dengan tingkat kecepatan di sepanjang bagian jalan.

Namun, mungkin ada aplikasi dengan data besar yang diterima dengan baik oleh publik. Salah satu contohnya adalah aplikasi yang mencegah kejahatan seperti pencurian berdasarkan metode big data.

Opini publik positif maupun negatif dapat memiliki dampak yang kuat pada penggunaan BDS dalam konteks produksi statistik resmi.

Konsekuensi dari persepsi publik yang negatif adalah:

  • BDS tidak lagi tersedia untuk kantor statistik, baik karena keputusan penyedia data atau keputusan pemerintah untuk tidak menggunakan data, atau
  • penggunaan data akan terbatas, yang dapat mengganggu produksi jika BOSP tertentu.

5.4.2. Kemungkinan


Faktor-faktor yang dapat memengaruhi kemungkinan peristiwa semacam itu atau dampaknya terhadap produksi statistik:

  • kerahasiaan data, yaitu betapa mudahnya orang dapat diidentifikasi;
  • jumlah informasi yang diungkapkan data tentang individu, misalnya, ditingkatkan dengan menghubungkan data dari berbagai sumber;
  • tipe data, misalnya, transaksi keuangan dianggap lebih rahasia daripada data lainnya;
  • jenis tindakan potensial yang dapat diambil pada warga, misalnya, orang baik untuk ngebut;
  • lingkungan hukum fuzzy tempat penyedia dan pengguna data beroperasi atau ketika kondisi hukum bertentangan dengan opini / standar etika publik;
  • ; . , , . , , .

Perkiraan waktu kejadian buruk tidak dimungkinkan, karena mobilisasi publik sering dipicu oleh liputan peristiwa yang berdampak negatif pada warga negara. Namun, dengan meningkatnya penggunaan data besar oleh pemerintah dan perusahaan swasta, dan terutama dengan pemasaran data aktif untuk tujuan lain daripada yang mengarah pada pengumpulan awal mereka, lebih mungkin bahwa peristiwa seperti itu akan terjadi.

Peristiwa yang sangat mempengaruhi persepsi publik tidak sering, melainkan acak (3) dan jauh (2). Dengan meningkatnya penggunaan sumber data yang besar, kemungkinan juga akan meningkat.

5.4.3. Mempengaruhi


Dampak dari peristiwa tersebut sangat tergantung pada faktor-faktor yang dibahas di atas. Secara umum, dampaknya lebih serius bagi produksi data statistik yang sudah mapan, karena, mungkin tindakan itu harus dihentikan. Dampaknya juga tergantung pada ketersediaan sumber data alternatif, meskipun mungkin terjadi bahwa persepsi publik tidak membedakan antara sumber data yang berbeda dalam hal materialisasi acara. Dalam kondisi penggunaan data besar saat ini, tampaknya sumber-sumber ini tidak dapat sepenuhnya menggantikan sumber data tradisional, melainkan melengkapi statistik yang ada. Ini akan mengurangi dampak peristiwa. Oleh karena itu, dampak acara dipertimbangkan dalam kisaran dari 2 (tidak signifikan) hingga 3 (utama). Pada tahap produksi, pengaruhnya dapat meningkat menjadi 4 (nilai kritis).

5.4.4. Pencegahan


Langkah-langkah pencegahan dapat menjadi definisi prinsip etika untuk data besar dalam statistik resmi. Pedoman etika harus didasarkan pada prinsip-prinsip seperti kode praktik untuk statistik Eropa atau prinsip dasar statistik resmi (12 unstats.un.org/unsd/dnss/gp/fundprinciples.aspx ). Langkah selanjutnya adalah menentukan strategi komunikasi yang akan mempublikasikan hasil pedoman etika untuk publik dan dapat digunakan untuk menginformasikan pemangku kepentingan tentang penggunaan etika BDS untuk BOSP.

Penilaian risiko terpisah untuk BDS tertentu dapat dilakukan untuk mengidentifikasi risiko dan menyarankan tindakan pencegahan atau mitigasi berdasarkan prinsip etika. Penilaian risiko yang terpisah juga dapat mencakup pemangku kepentingan, seperti lembaga perlindungan data, untuk memastikan bahwa semua risiko diidentifikasi dan tindakan dapat dibenarkan.

5.4.5. Pelunakan


Strategi komunikasi juga harus mencakup langkah-langkah dalam hal menumbuhkan sikap negatif masyarakat. Penilaian risiko terpisah harus mengumpulkan contoh-contoh positif dari penggunaan data dan langkah-langkah untuk mencegah penyalahgunaan data, yang mungkin harus diambil pada tingkat politik, dan komunitas statistik mungkin tidak dapat secara efektif memengaruhi mereka.

5.5. Kehilangan kepercayaan - tidak diperoleh sebagai hasil pengamatan
5.5.1. Deskripsi


Pengguna statistik resmi biasanya memiliki kepercayaan diri yang tinggi akan keakuratan dan keandalan statistik. Ini didasarkan pada fakta bahwa produksi data statistik tertanam dalam basis metodologi yang andal dan dapat diakses, serta dokumentasi tentang kualitas produk statistik. Selain itu, sebagian besar statistik didasarkan pada pengamatan, yaitu diperoleh dari survei atau sensus yang membangun hubungan yang mudah dipahami antara pengamatan dan statistik. Penggunaan BDS, yang tidak dikumpulkan untuk tujuan utama statistik, membawa risiko bahwa hubungan ini akan hilang dan pengguna akan kehilangan kepercayaan pada statistik resmi. Contoh terkait dengan babak terakhir (2010) sensus terkait denganbahwa di beberapa negara, statistik diperoleh dengan menggunakan beberapa sumber dan model statistik. Dalam sejumlah kasus, para pemangku kepentingan telah mempermasalahkan statistik.

5.5.2. Kemungkinan


Kemungkinan risiko tergantung pada faktor-faktor seperti kompleksitas model statistik / metodologis, keandalan hubungan antara BSD dan BOSP, atau apakah statistik lain konsisten. Probabilitas harus dalam kisaran 3 (acak) hingga 4 (kemungkinan), yang berarti bahwa ini dapat terjadi beberapa kali atau sering.

5.5.3. Mempengaruhi


Dampak dari terjadinya risiko akan sangat tergantung pada apakah NSO dapat berhasil membuktikan keakuratan dan keandalan statistik. Jika ini tidak dapat dicapai, dampak dari sudut pandang kehilangan kepercayaan dan kepercayaan diri juga dapat mempengaruhi area statistik lainnya, yaitu, keandalan tidak hanya beberapa data statistik, tetapi juga menimbulkan keraguan pada organisasi itu sendiri. NSO akan kehilangan keunggulan kompetitif dibandingkan organisasi swasta lain yang aktif di bidang ini.

5.5.4. Pencegahan


Tindakan pencegahan akan terdiri dalam pengembangan dan publikasi metodologi berbasis ilmiah yang diakui oleh komunitas ilmiah, memperkaya data dengan metadata dalam kualitas, memastikan konsistensi BOSP dengan non-BOSP, dan melakukan kontrol kualitas yang ketat.

Sebelum memulai produksi statistik, BOSP dapat dipublikasikan sebagai percobaan, dan pihak yang berkepentingan akan didorong untuk menantang BOSP untuk memvalidasi atau meningkatkan BOSP.

5.5.5. Pelunakan


Ada dua kasus untuk dibedakan. Jika statistik diperdebatkan tetapi berkualitas tinggi / cukup (benar / akurat), cukup untuk menjelaskan dan menyampaikan statistik kepada publik, memberikan contoh sederhana untuk dipahami.

6. Risiko Keterampilan


6.1.
6.1.1.


Analisis jejak digital yang ditinggalkan oleh orang-orang selama kegiatan mereka membutuhkan alat analisis data tertentu, yang saat ini bukan yang paling umum dalam statistik resmi. Pertama, penggunaan data tidak langsung pada aktivitas orang dan bukan survei langsung dalam survei membutuhkan penggunaan model statistik dan, oleh karena itu, keterampilan inferensi dan pembelajaran mesin. Kedua, catatan digital ini terdiri dari data yang sering tidak memiliki format tabel biasa untuk hasil survei, dengan baris yang sesuai dengan unit statistik dan kolom dengan karakteristik spesifik dari unit statistik ini. Trek digital juga disajikan dalam bentuk teks, suara, gambar dan video.Mengekstraksi informasi statistik yang relevan dari tipe data ini memerlukan keterampilan dalam pemrosesan bahasa alami, pemrosesan audio, dan pemrosesan gambar. Ketiga, sumber data ini cenderung menyediakan kumpulan data besar, yang pengolahannya membutuhkan pemahaman yang baik tentang metodologi komputasi terdistribusi.

Risiko kekurangan tenaga ahli terletak pada perolehan data dari salah satu sumber data besar yang baru ini, karena kantor statistik tidak dapat memproses dan menganalisanya dengan baik karena fakta bahwa stafnya tidak memiliki keterampilan yang diperlukan.

6.1.2. Kemungkinan


Probabilitas risiko ini akan tergantung pada tiga faktor: 1) jenis keterampilan khusus yang diperlukan untuk setiap jenis sumber data besar, dan kemungkinan bahwa kantor statistik akan menemukan kesempatan untuk mempelajari sumber tersebut; 2) ketersediaan keterampilan yang diperlukan saat ini dalam manajemen statistik; dan 3) budaya organisasi kantor statistik.

Mengenai jenis keterampilan yang mungkin dibutuhkan, perlu dicatat bahwa tidak semua sumber memerlukan semua keterampilan yang tercantum di atas. Beberapa (misalnya, data seperti Google Trends) tidak memerlukan komputasi terdistribusi, karena mereka sudah diproses sebelumnya dari pemegang data atau memiliki keterampilan pemrosesan sinyal, dan mereka terutama akan memerlukan keterampilan pemodelan statistik. Namun, ada berbagai macam sumber data besar, yang sebagian besar membutuhkan keterampilan dalam komputasi terdistribusi, pemrosesan sinyal, dan pembelajaran mesin. Pada saat yang sama, penyelidikan yang tepat dari jalur digital ini akan membutuhkan pemrosesan beberapa sumber. Dengan demikian, ada kemungkinan besar bahwa sumber data besar tersedia untuk kantor statistik akan memerlukan keterampilan yang tidak biasa ini,dan kemungkinan risiko ini sangat tinggi (5).

Mengenai ketersediaan keterampilan yang diperlukan saat ini, ini akan tergantung pada kantor statistik tertentu. Sekalipun metodologi survei kurang umum daripada metodologi survei, metodologi survei juga digunakan dalam statistik resmi di masing-masing bidang. Oleh karena itu, bahkan jika ini mungkin memerlukan redistribusi sumber daya manusia, kantor statistik dapat menemukan solusi sendiri. Adapun keterampilan komputasi terdistribusi, terutama yang terkait dengan TI, mereka akan tergantung pada bagaimana infrastruktur TI dikelola dalam organisasi. Bergantung pada bagaimana di luar departemen TI, solusi dapat ditemukan dalam konteks pengaturan yang ada. Namun, keterampilan pemrosesan sinyal dan pembelajaran mesin umumnya tidak ada di sebagian besar kantor statistik resmi,dan penerapan keterampilan ini tidak dapat outsourcing, karena mereka harus diterapkan oleh para ahli di bidang statistik. Oleh karena itu, dari sudut pandang ini, kemungkinan risiko ini juga tampak sangat tinggi (5).

Budaya organisasi juga akan mempengaruhi kemungkinan risiko ini. Memiliki staf yang siap untuk memperoleh keterampilan yang diperlukan melalui belajar mandiri dapat memungkinkan suatu organisasi untuk merespons suatu situasi dengan sumber data baru yang membutuhkan keterampilan selain dari biasanya. Ini akan tergantung pada budaya organisasi dari kantor statistik, yaitu apakah itu akan mendorong karyawan untuk mempelajari keterampilan baru dan apakah ini memberikan waktu kepada karyawan untuk pelatihan independen.

Dengan demikian, kemungkinan bahwa kantor statistik tidak akan dapat memproses dan menganalisis sumber data baru karena kurangnya keterampilan di antara karyawannya akan antara kemungkinan (4) dan sering (5) tergantung pada budaya belajar mandiri organisasi.

6.1.3. Mempengaruhi


Kantor statistik yang tidak dapat memproses dan menganalisis sumber data besar karena kurangnya keterampilan di antara karyawannya dapat memiliki dua konsekuensi negatif yang mungkin: 1) sumber data tidak akan dipelajari, setidaknya tidak sepenuhnya; 2) sumber akan disalahgunakan.

Kurangnya kemampuan untuk mengeksplorasi sepenuhnya potensi sumber data besar yang berharga akan berdampak kecil (2) dalam jangka pendek, karena kantor statistik benar-benar memiliki alat statistik untuk memenuhi kebutuhan saat ini. Namun, dalam jangka panjang (dan mungkin bahkan dalam jangka menengah), konsekuensi dari kehilangan kesempatan ini akan menjadi sangat penting (4), karena kantor statistik semakin dihadapkan dengan persaingan dari penyedia swasta, yang tidak memiliki struktur kelembagaan yang sama yang akan memungkinkan mereka untuk menjamin masyarakat kemandirian statistik.

Namun, penggunaan sumber yang tidak tepat akan memiliki konsekuensi yang sangat negatif untuk kantor statistik, karena statistik resmi sangat bergantung pada reputasi mereka dalam menjalankan misi mereka. Namun, kita dapat berargumen bahwa keterampilan paling penting yang, jika terlewatkan, dapat menyebabkan hasil yang salah adalah kesimpulan statistik, khususnya kesimpulan berdasarkan model, yang juga lebih kecil kemungkinannya untuk tidak hadir. Oleh karena itu, dampak yang diharapkan akan lebih kritis (4) daripada ekstrem.

6.1.4. Pencegahan


Layanan statistik dapat secara aktif mencegah risiko ini dengan dua cara: 1) pelatihan; dan 2) satu set.

Kantor statistik dapat memberi staf keterampilan yang diperlukan dengan mengidentifikasi secara rinci keterampilan yang diperlukan untuk menggunakan sumber data besar dalam produksi statistik, menyusun daftar keterampilan staf yang ada, mengidentifikasi kebutuhan pelatihan, dan kemudian menyelenggarakan kursus pelatihan.

Kantor statistik juga dapat merekrut karyawan baru dengan keterampilan yang diperlukan. Ini tampaknya memiliki keterbatasan serius, karena kantor statistik tidak akan dapat merekrut banyak staf untuk situasi di mana penggunaan sumber data besar akan tersebar luas di kantor dan karyawan baru masih perlu beberapa tahun untuk mencapai tingkat pengalaman karyawan yang ada. Namun, setidaknya beberapa staf baru yang direkrut sebagai bagian dari peningkatan staf reguler mungkin memiliki keterampilan data yang besar.

6.1.5. Pelunakan


Menghadapi situasi di mana sumber data besar baru tersedia tanpa karyawan dengan keterampilan yang diperlukan, kantor statistik dapat mengurangi dampak negatif dengan dua cara: 1) subkontrak; dan 2) kerja sama.

Kantor statistik dapat mengadakan perjanjian untuk pemrosesan data dan analisis sumber baru big data dengan organisasi lain yang menyediakan jenis layanan ini. Ini tampaknya menjadi solusi yang layak, karena sektor baru perusahaan yang mengkhususkan diri dalam memproses data jenis ini muncul. Namun, ini adalah keputusan yang dengan sendirinya membawa risiko tertentu, karena kantor statistik akan kurang memiliki kendali atas produksi produk statistik yang berpotensi sensitif. Solusi ini juga memiliki kelemahan yaitu tidak memungkinkan karyawan kantor statistik untuk belajar dan memperoleh keterampilan yang diperlukan.

Kolaborasi dengan organisasi lain yang memiliki karyawan dengan keterampilan yang diperlukan dan yang juga tertarik mengeksplorasi sumber data besar tampaknya menjadi solusi yang lebih menjanjikan. Kerjasama ini dapat mengambil bentuk proyek bersama dengan karyawan kantor statistik dan karyawan organisasi lain dengan pijakan yang sama, yang berbagi pengetahuan mereka. Ini tidak hanya akan mengurangi risiko kurangnya keterampilan, tetapi juga memungkinkan kantor statistik untuk memperoleh keterampilan ini.

6.2. Kebocoran para ahli ke organisasi lain
6.2.1. Deskripsi


Risiko ini adalah bahwa lembaga statistik kehilangan staf mereka ke organisasi lain setelah mereka memperoleh keterampilan yang terkait dengan data besar.

6.2.2. Kemungkinan


Probabilitas risiko ini akan tergantung pada dua faktor: 1) peluang menarik yang ada di organisasi di luar statistik resmi; 2) kondisi kerja di kantor statistik.

Adapun peluang dalam organisasi di luar statistik resmi, kemungkinan risiko ini tampaknya memungkinkan (4). Ada permintaan tinggi untuk orang-orang dengan keterampilan data besar di sektor swasta, serta di organisasi sektor publik lainnya. Setelah memperoleh keterampilan dalam bekerja dengan data besar, ahli statistik resmi akan mendapatkan keunggulan komparatif, menjadi ahli yang berpengalaman di bidang statistik. Selain keterampilan khusus bekerja dengan data besar, organisasi lain memerlukan spesialis data dengan keterampilan yang lebih tradisional, seperti menilai kebutuhan pengguna dan mengembangkan indikator kinerja utama (KPI) yang umum bagi ahli statistik resmi. Selain itu, karyawan yang lebih cenderung mempelajari keterampilan baru juga diharapkan menjadi karyawan tersebutyang juga akan lebih terbuka terhadap perubahan karier dan meninggalkan kantor statistik.

Adapun kondisi kerja di kantor statistik, ini jelas akan tergantung terutama pada kantor tertentu. Namun, kantor statistik pada umumnya masih menawarkan peluang profesional yang menarik bagi orang-orang dari sudut pandang kuantitatif. Kantor statistik menawarkan berbagai kemungkinan domain untuk pekerjaan dan pilihan data terbesar untuk pekerjaan. Ini entah bagaimana akan mengurangi kemungkinan bahwa kantor statistik akan kehilangan staf mereka karena keadaan yang tidak terduga (3).

6.2.3. Mempengaruhi


Dampak dari risiko ini akan sama dengan risiko kurangnya personil dengan keterampilan yang relevan. Oleh karena itu, dampaknya akan sangat penting (4), seperti ditunjukkan di atas.

6.2.4. Pencegahan


Tampaknya, satu-satunya cara bagi kantor statistik untuk mencegah risiko ini adalah dengan menyediakan kondisi kerja yang menarik bagi karyawan mereka. Ini umumnya berlaku untuk semua staf. Namun, dalam kasus tertentu, ketika karyawan terbuka untuk menguasai keterampilan baru, yaitu keterampilan bekerja dengan data besar, kondisi kerja dapat ditingkatkan dengan memberikan mereka peluang pelatihan di mana mereka dapat mengembangkan minat profesional mereka. Kantor statistik juga dapat memberikan perhatian khusus untuk bersikap terbuka terhadap proyek-proyek inovatif baru dan ide-ide yang berkaitan dengan sumber data besar baru yang berasal dari ahli statistik yang bekerja di beberapa bidang statistik. Akhirnya,pencegahan kehilangan personel untuk organisasi lain dalam urutan keterampilan mereka dalam bekerja dengan data besar akan tergantung pada identifikasi personel yang mampu dan mau bekerja dengan data tersebut, dan pada penyediaan peluang bagus untuk pengembangan profesional mereka.

6.2.5. Pelunakan


Pengurangan risiko ini akan dilakukan sehubungan dengan risiko anggota staf yang memiliki keterampilan yang sesuai: 1) subkontrak; dan 2) kerja sama.

7. Diskusi


Dari tinjauan pertama ini, jelas bahwa tidak mungkin untuk menetapkan probabilitas atau dampak tunggal untuk "risiko data besar" yang diberikan - sebagai suatu peraturan, kedua indikator tersebut sebagian besar bergantung pada sumber data besar, serta pada "statistik resmi berdasarkan pada data besar".
produk. "

Dengan demikian, kami menyimpulkan bahwa langkah logis berikutnya ke arah ini adalah adopsi sejumlah proyek percontohan yang mungkin (masing-masing mencakup kombinasi dari satu atau lebih BDS dan satu atau lebih BDOS) sebagai titik awal dan - untuk setiap pilot tersebut - Keinginan untuk menilai kemungkinan dan dampak dari setiap risiko.

Untuk tujuan ini, kami berada di ambang meluncurkan survei pemangku kepentingan, mencoba menilai penilaian OSC dari kemungkinan, dampak (dan kemungkinan tindakan mitigasi / mitigasi) dari sejumlah proyek percontohan yang mungkin - dan mencari proposal OSC untuk risiko yang belum kami sertakan dalam dokumen ini. .

8. REFERENSI
UNECE (2014), «A suggested Framework for the Quality of Big Data», Deliverables of the UNECE Big Data Quality Task Team, www1.unece.org/stat/platform/download/attachments/108102944/Big%20Dat
a%20Quality%20Framework%20-%20final-%20Jan08-2015.pdf?version=1&modificationDate=1420725063663&api=v2

UNECE (2014), «How big is Big Data? Exploring the role of Big Data in Official Statistics», www1.unece.org/stat/platform/download/attachments/99484307/Virtual%20Sprint%20Big%20Data%20paper.docx?version=1&modificationDate=1395217470975&api=v2

Daas, P., S. Ossen, R. Vis-Visschers, and J. Arends-Toth, (2009), Checklist for the Quality evaluation of Administrative Data Sources, Statistics Netherlands, The Hague/Heerlen

Dorfman, Mark S. (2007), Introduction to Risk Management (e ed.), Cambridge, UK, Woodhead-Faulkner, p. 18, ISBN 0-85941-332-22)

Eurostat (2014), «Accreditation procedure for statistical data from non-official sources» in Analysis of Methodologies for using the Internet for the collection of information society and other statistics, www.cros-portal.eu/content/analysismethodologies-using-internet-collection-information-society-and-other-statistics-1

Reimsbach-Kounatze, C. (2015), “The Proliferation of “Big Data” and Implications for Official Statistics and Statistical Agencies: A Preliminary Analysis”, OECD Digital Economy Papers, No. 245, OECD Publishing. dx.doi.org/10.1787/5js7t9wqzvg8-en

Reis, F., Ferreira, P., Perduca, V. (2014) «The use of web activity evidence to increase the timeliness of official statistics indicators», paper presented at IAOS 2014 conference, iaos2014.gso.gov.vn/document/reis1.p1.v1.docx

Even if not explicitly mentioning risks, this paper in fact approaches the many risks associated to the use of web activity data for official statistics. Eurostat (2007), Handbook on Data Quality Assessment Methods and Tools, ec.europa.eu/eurostat/documents/64157/4373903/05-Handbook-ondata-quality-assessment-methods-and-tools.pdf/c8bbb146-4d59-4a69-b7c4-218c43952214


All Articles