Tentang sistem pengujian statistik yang ingin Anda miliki

Dalam rangka memecahkan masalah untuk memprediksi tingkat bitcoin BTC / USD dari data historis, pemahaman muncul tentang apa yang seharusnya menjadi sistem komputasi yang dengannya Anda dapat membangun model yang diinginkan. Saya ingin menggambarkan visi ini untuk dunia Habr yang disegani dan dengan cara ini untuk memahami betapa menariknya bagi realitas saat ini.


Jadi, kami mempertimbangkan beberapa masalah dalam pengaturan statistik. Ini berarti bahwa kami memiliki beberapa kumpulan data, untuk kesederhanaan, harga BTC / USD dari waktu ke waktu. Misalkan kita menetapkan tujuan berikut: untuk membangun estimasi pada nilai rata-rata harga BTC / USD pada hari berikutnya, sehingga fungsional kualitas yang ditentukan minimal. Dalam kasus yang paling sederhana, sebagai kualitas fungsional, kita dapat mengambil penjumlahan dari penyimpangan nilai rata-rata aktual dari nilai yang diprediksi, mengambil modulo dan dinormalisasi ke nilai aktual.


Ternyata, dan tidak mengherankan, relatif mudah untuk membangun model untuk prediksi. Bahkan lebih tepatnya, sebagai suatu peraturan, sejumlah besar model muncul untuk masalah seperti itu, yang dapat berbeda baik dalam nilai parameter penyetelan, dan dalam jumlah derajat kebebasan internal dan struktur internal lainnya. Oleh karena itu, solusi dari masalah dikurangi menjadi masalah berikut: secara statistik benar untuk memilih model terbaik dari set model yang tersedia.


Untuk mengatasi masalah ini, kami membutuhkan sistem untuk inferensi statistik, yang ingin Anda miliki:


  • Anda perlu menentukan model dalam sistem, menjelaskan parameter tuning dan menentukan data yang akan dievaluasi model (dilatih). Data yang digunakan tidak akan digunakan dalam pengujian model ini;
  • untuk banyak model, Anda perlu menentukan kriteria kualitas melalui perhitungan yang modelnya akan dibandingkan secara statistik;
  • ketika membandingkan model, perlu untuk mengetahui kriteria untuk kesimpulan positif palsu / negatif palsu (ketika data untuk kesimpulan tidak cukup atau perbandingan tidak mungkin karena kesalahan statistik).

Fitur utama dari sistem: kesimpulannya akan dibuktikan secara statistik (dalam informasi yang tersedia) dan, sesuai dengan statistik matematika, secara asimptotik akan menyatu ke nilai yang benar-benar benar dengan peningkatan jumlah data independen.


Begitu saja, sistem ini akan berguna untuk kelas tugas yang besar, termasuk untuk pengujian model yang dibangun menggunakan teknologi Machine Learning.


Dan jika...


  • jika sistem seperti itu sudah tersedia dan dapat diakses (dengan kurva belajar realistis ), maka Anda perlu menjalankannya untuk menggunakannya;
  • belum ada sistem seperti itu, maka Anda perlu duduk untuk melakukannya.

Kata penutup


  1. Seperti yang sering terjadi dalam hidup, ukuran sebenarnya dari kompleksitas tugas menjadi jelas ketika Anda terjun ke dalam masalah ...
  2. Contoh model untuk memprediksi tingkat Bitcoin BTC / USD pada hari berikutnya dapat ditemukan di sini .

PS:
You-dy-sch: yeah, you-dy-sch ...


All Articles