Menghapus data, seperti game "Stone, Scissors, Paper". Apakah ini permainan dengan atau tanpa akhir? Bagian 1. Teoritis

1. Sumber data


Pembersihan data adalah salah satu tantangan yang dihadapi tugas analisis data. Materi ini mencerminkan perkembangan, keputusan yang muncul sebagai hasil dari penyelesaian masalah praktis dalam menganalisis basis data selama pembentukan nilai kadaster. Sumber di sini adalah "LAPORAN No. 01 / -2019 tentang hasil penilaian kadaster negara semua jenis real estat (kecuali untuk tanah) di Otonomi Khanty-Mansiysk Okrug - Ugra" .

File "Comparative model total.ods" dipertimbangkan dalam "Lampiran B. Hasil menentukan COP 5. Informasi tentang metode untuk menentukan nilai kadaster 5.1 Pendekatan komparatif".

Tabel 1. Stat indikator dari dataset dalam file "Comparative model total.ods"
Jumlah total bidang, pcs. - 44
Total jumlah catatan - 365.490
Jumlah total karakter, pcs. - 101.714.693 Jumlah
rata - rata karakter dalam catatan, pcs. - 278.297
Standar deviasi karakter dalam catatan, pcs. - 15.510
Jumlah minimum karakter dalam catatan, pcs. - 198 Jumlah
maksimum karakter dalam catatan, pcs. - 363

2. Bagian pengantar. Standar dasar


Mengejar analisis dari database yang ditunjukkan, tugas telah dibentuk untuk menentukan persyaratan untuk tingkat pemurnian, karena, sebagaimana semua orang mengerti, database ini membentuk konsekuensi hukum dan ekonomi bagi pengguna. Dalam prosesnya, ternyata tidak ada persyaratan khusus untuk tingkat pemurnian data besar yang terbentuk. Menganalisis norma hukum dalam hal ini, saya sampai pada kesimpulan bahwa mereka semua terbentuk dari peluang. Artinya, tugas tertentu telah muncul, sumber-sumber informasi diselesaikan untuk tugas tersebut, kemudian sebuah dataset dibentuk dan, berdasarkan pada dataset yang dibuat, alat untuk menyelesaikan masalah. Solusi yang diperoleh adalah titik referensi dalam pemilihan alternatif. Disajikan ini pada Gambar 1.



Karena lebih suka mengandalkan teknologi yang telah terbukti dalam menentukan standar, saya memilih kriteria analisis sebagai dasar untuk persyaratan yang ditetapkan dalam MHRA GxP Definisi Integritas Data dan Bimbingan untuk Industri , karena saya menganggap dokumen ini sebagai yang paling holistik untuk masalah ini. Secara khusus, bagian dalam dokumen ini berbunyi "Perlu dicatat bahwa persyaratan integritas data berlaku sama untuk data manual (kertas) dan elektronik." (trans. "... persyaratan integritas data berlaku sama untuk data manual (kertas) dan elektronik"). Kata-kata ini secara khusus dikaitkan dengan konsep "bukti tertulis", dalam norma-norma Pasal 71 Kode Acara Perdata, Pasal 70 CAS, Art. 75 AIC, "writing" Art. 84 GIC.

Gambar 2 menyajikan diagram pembentukan pendekatan untuk jenis informasi dalam yurisprudensi.


Ara. 2. Sumber di sini .

Gambar 3 menunjukkan mekanisme Gambar 1, untuk tugas-tugas "Bimbingan" di atas. Ketika membandingkan, mudah untuk melihat bahwa pendekatan yang digunakan, ketika memenuhi persyaratan untuk integritas informasi, dalam standar modern untuk sistem informasi, sangat terbatas dibandingkan dengan konsep hukum informasi.


Gbr.3

Dalam dokumen yang ditunjukkan (Bimbingan), tautan ke bagian teknis, kemampuan pemrosesan dan penyimpanan data, dikonfirmasi dengan baik oleh kutipan dari bab 18.2. Basis data relasional: "Struktur file ini secara inheren lebih aman, karena data disimpan dalam format file besar yang menjaga hubungan antara data dan metadata."

Bahkan, dalam pendekatan ini - dari kemampuan teknis yang ada, tidak ada yang normal dan, dalam dirinya sendiri, itu adalah proses alami, karena perluasan konsep berasal dari aktivitas yang paling banyak dipelajari - desain database. Tetapi, di sisi lain, muncul norma hukum yang tidak memberikan diskon pada kemampuan teknis sistem yang ada, misalnya: GDPR - Regulasi Perlindungan Data Umum .


Ara. 4. Saluran kemampuan teknis ( Sumber ).

Dalam aspek-aspek ini, menjadi jelas bahwa dataset awal (Gambar 1) harus dipertahankan, pertama-tama, dan, kedua, menjadi dasar untuk mengekstraksi informasi tambahan darinya. Nah, sebagai contoh: kamera fiksasi peraturan lalu lintas tersebar luas, sistem pemrosesan informasi menyaring pelanggar, tetapi informasi lain juga dapat ditawarkan kepada konsumen lain, misalnya, sebagai pemantauan pemasaran terhadap struktur arus pelanggan ke pusat perbelanjaan. Dan ini adalah sumber nilai tambah tambahan saat menggunakan Bigdat. Dapat dibayangkan bahwa set data yang sedang dikumpulkan sekarang, di suatu tempat di masa depan, akan memiliki nilai dengan mekanisme yang mirip dengan nilai buku langka tahun 1700-an saat ini. Memang, pada kenyataannya, dataset sementara adalah unik dan tidak mungkin diulang di masa depan.

3. Bagian pengantar. Kriteria evaluasi


Selama pemrosesan, klasifikasi kesalahan berikut dikembangkan.

1. Kelas kesalahan (berdasarkan GOST R 8.736-2011): a) kesalahan sistematis; b) kesalahan acak; c) kesalahan kotor.

2. Dengan multiplisitas: a) mono-distorsi; b) multi-distorsi.

3. Menurut kritikalitas konsekuensinya: a) kritis; b) tidak kritis.

4. Menurut sumber kejadian:

A) Teknis - kesalahan yang timbul selama pengoperasian peralatan. Kesalahan saat ini cukup untuk sistem IoT, sistem dengan tingkat signifikan pengaruh kualitas komunikasi, peralatan (perangkat keras).

B) Operator - kesalahan dalam rentang yang luas dari kesalahan tipografi operator selama masuk ke kesalahan dalam spesifikasi teknis untuk desain basis data.

C) Kustom - di sini kesalahan pengguna di seluruh rentang dari "lupa untuk mengubah tata letak" ke apa yang dilakukan meter.

5. Dipilih dalam kelas yang terpisah:

a) "tugas pemisah", yaitu ruang dan ":" (dalam kasus kami) saat digandakan;
b) kata-kata semuanya utuh;
c) tidak adanya spasi setelah karakter layanan
; d) karakter simetris-jamak: (), "", "...".

Secara agregat, dengan sistematisasi kesalahan basis data yang disajikan pada Gambar 5, sistem koordinat yang cukup efektif dibentuk untuk mencari kesalahan dan mengembangkan algoritma untuk membersihkan data, untuk contoh ini.


Ara. 5. Kesalahan umum yang terkait dengan unit struktural dari basis data (Sumber: Oreshkov VI, Paklin NB "Konsep utama konsolidasi data" ).

Akurasi, Integritas Domain, Tipe Data, Konsistensi, Redundansi, Kelengkapan, Duplikasi, Kesesuaian dengan Aturan Bisnis, Struktural Definiteness, Anomali Data, Kejelasan, Tepat Waktu, Ketaatan terhadap Aturan Integritas Data. (Halaman 334. Dasar-dasar pergudangan data untuk profesional TI / Paulraj Ponniah. - 2nd ed.)

Menyajikan formulasi bahasa Inggris dan terjemahan mesin Rusia dalam tanda kurung.

Ketepatan Nilai yang disimpan dalam sistem untuk elemen data adalah nilai yang tepat untuk kemunculan elemen data tersebut. Jika Anda memiliki nama pelanggan dan alamat yang disimpan dalam catatan, maka alamat tersebut adalah alamat yang benar untuk pelanggan dengan nama itu. Jika Anda menemukan jumlah yang dipesan sebagai 1000 unit dalam catatan untuk nomor pesanan 12345678, maka jumlah itu adalah jumlah yang akurat untuk pesanan itu.
[Ketepatan. Nilai yang disimpan dalam sistem untuk item data adalah nilai yang benar untuk kemunculan item data ini. Jika Anda memiliki nama pelanggan dan alamat yang disimpan dalam catatan, maka alamat tersebut adalah alamat yang benar untuk klien dengan nama ini. Jika Anda menemukan jumlah yang dipesan sebagai 1000 unit dalam entri untuk nomor pesanan 12345678, maka jumlah ini adalah jumlah yang tepat untuk pesanan ini.]

Integritas Domain Nilai data atribut jatuh dalam kisaran nilai yang diizinkan dan ditentukan. Contoh umum adalah nilai yang diijinkan adalah "laki-laki" dan "perempuan" untuk elemen data gender.
[Integritas Domain. Nilai data atribut termasuk dalam rentang nilai yang valid dan didefinisikan. Contoh umum adalah nilai pria dan wanita yang valid untuk item data gender.]

Tipe Data. Nilai untuk atribut data sebenarnya disimpan sebagai tipe data yang ditentukan untuk atribut itu. Ketika tipe data dari bidang nama toko didefinisikan sebagai "teks," semua contoh dari bidang itu berisi nama toko yang ditunjukkan dalam format tekstual dan bukan kode numerik.
[Tipe data. Nilai dari atribut data sebenarnya disimpan sebagai tipe data yang ditentukan untuk atribut ini. Jika tipe data dari bidang nama toko didefinisikan sebagai "teks", semua instance dari bidang ini berisi nama toko yang ditampilkan dalam format teks dan bukan dalam kode numerik.]

Konsistensi. Bentuk dan konten bidang data sama di berbagai sistem sumber. Jika kode produk untuk produk ABC dalam satu sistem adalah 1234, maka kode untuk produk ini adalah 1234 di setiap sistem sumber.
[Konsistensi. Bentuk dan isi bidang data sama dalam sistem sumber yang berbeda. Jika kode produk untuk produk ABC dalam satu sistem adalah 1234, maka kode untuk produk ini adalah 1234 di setiap sistem sumber.]

Redundansi. Data yang sama tidak boleh disimpan di lebih dari satu tempat dalam suatu sistem. Jika, karena alasan efisiensi, elemen data sengaja disimpan di lebih dari satu tempat dalam suatu sistem, maka redundansi harus diidentifikasi dan diverifikasi dengan jelas.
[Redundansi. Data yang sama tidak boleh disimpan di lebih dari satu tempat dalam sistem. Jika, karena alasan efisiensi, elemen data sengaja disimpan di beberapa tempat dalam sistem, maka redundansi harus didefinisikan dengan jelas dan diverifikasi.]

Kelengkapan. Tidak ada nilai yang hilang untuk atribut yang diberikan dalam sistem. Misalnya, dalam file pelanggan, harus ada nilai yang valid untuk bidang "status" untuk setiap pelanggan. Dalam file untuk detail pesanan, setiap catatan detail untuk pesanan harus diisi sepenuhnya.
[Kelengkapan. Tidak ada nilai yang hilang untuk atribut ini dalam sistem. Misalnya, file klien harus memiliki nilai yang valid untuk bidang "status" untuk setiap klien. Dalam file detail pesanan, setiap catatan detail pesanan harus diisi penuh.]

Duplikasi. Duplikasi catatan dalam suatu sistem sepenuhnya diselesaikan. Jika file produk diketahui memiliki catatan duplikat, maka semua catatan duplikat untuk setiap produk diidentifikasi dan referensi silang dibuat.
[Duplikasi. Duplikasi entri dalam sistem sepenuhnya dihilangkan. Jika diketahui bahwa file produk berisi entri duplikat, maka semua entri duplikat untuk setiap produk diidentifikasi dan direferensikan silang.]

Kesesuaian dengan Aturan Bisnis. Nilai setiap item data mematuhi aturan bisnis yang ditentukan. Dalam sistem lelang, harga palu atau penjualan tidak boleh kurang dari harga cadangan. Dalam sistem pinjaman bank, saldo pinjaman harus selalu positif atau nol.
[Kepatuhan dengan aturan bisnis. Nilai dari setiap item data sesuai dengan aturan bisnis yang ditetapkan. Dalam sistem lelang, harga palu atau penjualan tidak boleh kurang dari harga cadangan. Dalam sistem kredit perbankan, saldo kredit harus selalu positif atau nol.]

Kepastian Struktural. Di mana pun item data secara alami dapat disusun menjadi komponen-komponen individual, item tersebut harus mengandung struktur yang terdefinisi dengan baik ini. Misalnya, nama individu secara alami dibagi menjadi nama depan, nama tengah, dan nama belakang. Nilai untuk nama individu harus disimpan sebagai nama depan, nama tengah, dan nama belakang. Karakteristik kualitas data ini menyederhanakan penegakan standar dan mengurangi nilai yang hilang.
[Kepastian Struktural. Di mana elemen data dapat secara alami terstruktur menjadi komponen yang terpisah, elemen harus mengandung struktur yang terdefinisi dengan baik ini. Misalnya, nama seseorang secara alami dibagi menjadi nama depan, nama tengah dan nama belakang. Nilai untuk nama individu harus disimpan sebagai nama depan, nama tengah dan nama belakang. Fitur kualitas data ini menyederhanakan penerapan standar dan mengurangi nilai yang hilang.]

Anomali Data. Bidang harus digunakan hanya untuk tujuan yang didefinisikan. Jika bidang Alamat-3 ditentukan untuk setiap kemungkinan alamat baris ketiga untuk alamat yang panjang, maka bidang ini harus digunakan hanya untuk merekam baris alamat ketiga. Ini tidak boleh digunakan untuk memasukkan nomor telepon atau faks untuk pelanggan.
[Anomali Data. Field harus digunakan hanya untuk tujuan yang didefinisikan. Jika bidang Alamat-3 ditentukan untuk setiap baris alamat ketiga yang mungkin untuk alamat panjang, maka bidang ini hanya boleh digunakan untuk merekam garis alamat ketiga. Seharusnya tidak digunakan untuk memasukkan nomor telepon atau faks untuk pelanggan.]

Kejelasan. Elemen data mungkin memiliki semua karakteristik lain dari data berkualitas tetapi jika pengguna tidak memahami maknanya dengan jelas, maka elemen data tidak memiliki nilai bagi pengguna. Konvensi penamaan yang tepat membantu membuat elemen data dipahami dengan baik oleh pengguna.
[Kejelasan. Elemen data mungkin memiliki semua karakteristik lain dari data berkualitas, tetapi jika pengguna tidak memahami maknanya dengan jelas, maka elemen data tidak bernilai bagi pengguna. Konvensi penamaan yang tepat membantu membuat elemen data dipahami dengan baik oleh pengguna.]

Tepat waktu. Pengguna menentukan ketepatan waktu data. Jika pengguna mengharapkan data dimensi pelanggan tidak lebih dari satu hari, perubahan data pelanggan dalam sistem sumber harus diterapkan ke data warehouse harian.
[Pada waktu yang tepat. Pengguna menentukan ketepatan waktu data. jika pengguna berharap bahwa data pengukuran pelanggan tidak akan lebih dari satu hari, perubahan pada data pelanggan dalam sistem sumber harus diterapkan ke data warehouse harian.]

Kegunaan Setiap elemen data dalam gudang data harus memenuhi beberapa persyaratan pengumpulan pengguna. Elemen data mungkin akurat dan berkualitas tinggi, tetapi jika tidak ada nilainya bagi pengguna, maka elemen data sama sekali tidak perlu berada di gudang data.
[Utilitas. Setiap item data dalam gudang data harus memenuhi beberapa persyaratan koleksi pengguna. Item data bisa akurat dan berkualitas tinggi, tetapi jika itu tidak bernilai bagi pengguna, maka item data tidak perlu ada di gudang data.]

Ketaatan pada Aturan Integritas Data. Data yang disimpan dalam database relasional dari sistem sumber harus mematuhi integritas entitas dan aturan integritas referensial. Tabel apa pun yang mengizinkan null sebagai kunci utama tidak memiliki integritas entitas. Integritas referensial memaksa pembentukan hubungan orangtua - anak dengan benar. Dalam hubungan pelanggan-ke-pesanan, integritas referensial memastikan keberadaan pelanggan untuk setiap pesanan dalam database.
[Kepatuhan dengan aturan integritas data. Data yang disimpan dalam basis data relasional dari sistem sumber harus mematuhi aturan integritas entitas dan integritas referensial. Setiap tabel yang memungkinkan null sebagai kunci utama tidak memiliki integritas entitas. Integritas referensial memaksa hubungan yang benar antara orang tua dan anak-anak untuk dibangun. Dalam hubungan pesanan-pelanggan, integritas referensial memastikan bahwa ada pelanggan untuk setiap pesanan dalam database.]

4. Kualitas pembersihan data


Kualitas pembersihan data adalah pertanyaan yang agak bermasalah di bigdata. Untuk menjawab pertanyaan, tingkat pembersihan data apa yang diperlukan saat melakukan tugas, merupakan dasar untuk setiap analis data. Dalam kebanyakan tugas saat ini, setiap analis menetapkan ini sendiri dan tidak mungkin seseorang dari luar dapat mengevaluasi aspek ini dalam keputusannya. Tetapi untuk tugas ini dalam kasus ini, pertanyaan ini sangat penting, karena keandalan data hukum harus cenderung bersatu.

Mempertimbangkan teknologi pengujian perangkat lunak untuk menentukan keandalan dalam pekerjaan. Saat ini, ada lebih dari 200 model ini . Banyak model menggunakan model layanan aplikasi:


Gbr. 6

Berpikir sebagai berikut: "Jika kesalahan yang ditemukan adalah peristiwa yang mirip dengan peristiwa kegagalan dalam model ini, lalu bagaimana menemukan analog dari parameter t?" Dan dia menyusun model berikut: Bayangkan bahwa waktu yang dibutuhkan seorang tester untuk memeriksa satu catatan adalah 1 menit (untuk database yang dimaksud), maka akan dibutuhkan 365.494 menit untuk menemukan semua kesalahan, yaitu sekitar 3 tahun dan 3 bulan waktu kerja. Seperti yang kita pahami, ini bukan jumlah pekerjaan yang sangat kecil dan biaya untuk mengecek basis data akan tidak tertahankan bagi penyusun basis data ini. Dalam refleksi ini, konsep ekonomi biaya muncul dan setelah analisis sampai pada kesimpulan bahwa ini adalah alat yang cukup efektif. Berdasarkan hukum ekonomi: β€œVolume produksi (dalam satuan) di mana laba maksimum perusahaan tercapai,"terletak pada titik di mana biaya marjinal menghasilkan unit produksi baru dibandingkan dengan harga yang dapat diterima perusahaan ini untuk unit baru." Mengandalkan postulat bahwa menemukan setiap kesalahan berikutnya membutuhkan verifikasi catatan yang semakin banyak, ini adalah faktor biaya. Yaitu, dalil yang diadopsi dalam model pengujian secara fisik masuk akal, dalam keteraturan berikut: jika untuk menemukan kesalahan h maka perlu memeriksa n catatan, maka untuk menemukan kesalahan berikutnya (i + 1) maka perlu memeriksa m catatan dan n <m. Postulat ini, dalam model pengujian, dirumuskan terutama oleh persyaratan bahwa kesalahan yang ditemukan harus diperbaiki, tetapi tidak diperbaiki, sehingga perangkat lunak diuji dalam keadaan alami, yaitu, aliran kegagalan seragam. Dengan demikian, untuk kasus kami,Validasi catatan dapat menunjukkan dua varian keseragaman:

  1. ;
  2. .

Untuk menentukan nilai kritis, saya beralih ke konsep kelayakan ekonomi, yang dalam hal ini, ketika menggunakan konsep biaya sosial, dapat dirumuskan sebagai berikut: "Biaya untuk memperbaiki kesalahan harus ditanggung oleh agen ekonomi yang dapat melakukan ini dengan biaya terendah." Kami memiliki satu agen - ini adalah tester yang menghabiskan 1 menit untuk memeriksa satu catatan. Dalam istilah moneter, dengan penghasilan 6000 rubel / hari, ini akan berjumlah 12,2 rubel. (sekitar hari ini). Masih menentukan sisi kedua keseimbangan dalam hukum ekonomi. Dia beralasan seperti itu. Kesalahan yang ada akan mengharuskan seseorang untuk berupaya memperbaikinya, yaitu pemilik properti. Misalkan untuk ini Anda perlu 1 hari tindakan (termasuk aplikasi, dapatkan dokumen yang diperbaiki).Kemudian, dari sudut pandang publik, biayanya akan sama dengan gaji rata-rata per hari. Gaji rata-rata yang masih harus dibayar di Khanty-Mansi Autonomous Okrug"Hasil pengembangan sosial-ekonomi dari Oknug otonom Khanty-Mansiysk - Ugra untuk Januari-September 2019" 73285 rubel. atau 3053.542 rubel / hari. Dengan demikian, kami memperoleh nilai kritis sama dengan:
3053.542: 12.2 = 250,4 unit.

Ini berarti, dari sudut pandang publik, jika tester memeriksa 251 entri dan menemukan satu kesalahan, ini setara dengan pengguna yang memperbaiki kesalahan ini sendiri. Dengan demikian, jika tester menghabiskan waktu yang sama dengan memeriksa 252 catatan untuk menemukan kesalahan berikutnya, maka dalam hal ini lebih baik untuk menggeser biaya koreksi kepada pengguna.

Pendekatan yang disederhanakan disajikan di sini, karena dari sudut pandang publik, perlu untuk memperhitungkan semua biaya tambahan yang dihasilkan oleh masing-masing spesialis, yaitu, biaya termasuk pajak dan pembayaran sosial, tetapi modelnya jelas. Konsekuensi dari hubungan ini adalah persyaratan berikut untuk spesialis: spesialis IT harus memiliki gaji lebih besar daripada rata-rata nasional. Jika gajinya kurang dari gaji rata-rata pengguna basis data potensial, maka ia sendiri harus memeriksa seluruh basis data dalam pertarungan tangan kosong.

Saat menggunakan kriteria yang diuraikan, persyaratan pertama untuk kualitas database terbentuk:
I (tr). Pangsa kesalahan kritis tidak boleh melebihi 1 / 250,4 = 0,39938%. Sedikit kurang dari pemurnian emas di industri. Dan sejenisnya, tidak lebih dari 1.459 entri dengan kesalahan.

Retret ekonomi.

Bahkan, dengan membiarkan sejumlah kesalahan dalam entri, perusahaan setuju untuk kerugian ekonomi dalam jumlah:

1.459 * 3.053.542 = 4.455.118 rubel.

Jumlah ini ditentukan oleh fakta bahwa perusahaan tidak memiliki alat untuk mengurangi biaya-biaya ini. Oleh karena itu, jika seseorang mengembangkan teknologi yang memungkinkan untuk mengurangi jumlah catatan dengan kesalahan, misalnya, 259, maka ini memungkinkan masyarakat untuk menghemat:
1200 * 3053.542 = 3.664.250 rubel.

Tetapi pada saat yang sama, ia dapat meminta bakat dan pekerjaannya, katakanlah - 1 juta rubel.
Artinya, biaya sosial dikurangi dengan:

3 664 250 - 1 000 000 = 2 664 250 rubel.

Bahkan, efek ini merupakan nilai tambah dari penggunaan teknologi Bigdat.

Tapi di sini harus diingat bahwa ini adalah efek sosial, dan pemilik database adalah pemerintah kota, pendapatan mereka dari penggunaan properti yang dicatat dalam database ini pada tingkat 0,3% adalah: 2,778 miliar rubel / tahun. Dan biaya ini (4 455 118 rubel) tidak terlalu mengganggunya, karena mereka ditransfer ke pemilik properti. Dan, dalam aspek ini, pengembang lebih banyak teknologi pemurnian di Bigdata harus menunjukkan kemampuan untuk meyakinkan pemilik database ini, dan hal-hal seperti itu membutuhkan bakat yang besar.

Dalam contoh ini, algoritma estimasi kesalahan dipilih berdasarkan verifikasi perangkat lunak model Schumann [2] saat menguji reliabilitas. Karena prevalensinya dalam jaringan dan kemampuan untuk memperoleh indikator statistik yang diperlukan. Metodologi ini diambil dari Biksu Yu.M. "Stabilitas fungsional sistem informasi", lihat di bawah spoiler pada Gambar. 7-9.

Ara. 7 - 9 Metodologi Model Schumann






Bagian kedua dari bahan ini menyajikan contoh pembersihan data, di mana hasil menggunakan model Schuman diperoleh.
Saya akan menyajikan hasilnya:
Perkiraan jumlah kesalahan N = 3167 shN.
Parameter C, lambda dan fungsi reliabilitas:


Gbr.17

Faktanya, lambda adalah indikator aktual dari intensitas kesalahan yang terdeteksi pada setiap tahap. Jika Anda perhatikan, pada bagian kedua, maka perkiraan indikator ini adalah 42,4 kesalahan per jam, yang cukup sebanding dengan angka Schumann. Di atas, ditentukan bahwa tingkat deteksi kesalahan oleh pengembang tidak boleh lebih rendah dari 1 kesalahan per 250,4 catatan, sambil memeriksa 1 catatan per menit. Oleh karena itu nilai kritis lambda untuk model Schumann:

60 / 250,4 = 0,239617.

Artinya, kebutuhan untuk menemukan kesalahan prosedur harus dilakukan sampai lambda, dari 38.964 yang tersedia, turun menjadi 0,239617.

Atau sampai indikator N (jumlah potensi kesalahan) minus n (jumlah kesalahan yang diperbaiki) tidak berkurang kurang dari ambang yang kami adopsi - 1459 buah.

literatur


  1. Monakhov, Yu. M. Stabilitas fungsional sistem informasi. Pada 3 jam Bagian 1. Keandalan perangkat lunak: buku teks. uang saku / Yu M. Monakhov; Vladim. negara un-t - Vladimir: Izdvo Vladim. negara University, 2011 .-- 60 hal. - ISBN 978-5-9984-0189-3.
  2. Martin L. Shooman, "Model probabilitas untuk prediksi keandalan perangkat lunak."
  3. Dasar-dasar pergudangan data untuk profesional TI / Paulraj Ponniah - edisi ke-2.

Bagian kedua. Teoretis

All Articles