3 jebakan yang termasuk dalam data pemula Ilmuwan

Inilah yang bisa terjadi jika Anda tidak pandai matematika.





Halo! Ini adalah Petr Lukyanchenko, penulis dan pemimpin kursus online "Matematika untuk Ilmu Data" di OTUS. Di ruang kelas, kami senang mengilustrasikan semuanya dengan case, jadi di sini, juga, setiap masalah yang dihadapi pemula, saya akan mulai dengan sebuah contoh.

Sejarah No. 1 ., , , . , -, , . , 0,95. , ยซยป, , . , , , , .

โ€” , , - ?



Dalam cerita kami, peserta pelatihan mempersiapkan data secara tidak benar karena dia tidak mengerti ketergantungan seperti apa yang harus diasumsikan. Ini adalah kesalahan paling umum dan berbahaya yang dilakukan pendatang baru dalam analisis data.

Di semua kelas kami menyiarkan dua hal:

  1. Analisis apa pun harus dimulai dengan hipotesis
  2. Hipotesisnya mungkin salah. Tidak menakutkan membuat kesalahan, penting untuk memahami, memperbaiki, dan melanjutkan analisis tepat waktu.

Kemampuan untuk merumuskan hipotesis, yang kemudian diuji pada data, menyebabkan kesulitan terbesar bagi pemula, magang dan spesialis muda dalam Ilmu Data. Mereka, sebagai suatu peraturan, mengenal statistik dengan cukup baik, tetapi tidak memiliki pengalaman, oleh karena itu mereka sering secara membabi buta percaya bahwa nilai yang baik dari sinyal metrik bahwa hasil mereka valid. Karena itu, pendatang baru sering didorong oleh keinginan untuk mendapatkan nilai korelasi yang tinggi. Tetapi korelasi yang tinggi itu sendiri bukanlah jaminan dari ketergantungan yang benar!

Korelasi imajiner (regresi) biasanya sangat lucu. Anda dapat mengambil dua parameter, dan jika masing-masing memiliki komponen tren, maka korelasi yang diperkirakan akan menjadi mendekati kesatuan, sedangkan parameter itu sendiri mungkin tidak memiliki hubungan apa pun.

Sebagai contoh, seseorang mempelajari gletser di Greenland dan memutuskan untuk melihat bagaimana jumlah curah hujan di Thailand selama musim hujan mempengaruhi tingkat pencairan es. Dalam periode tertentu, kedua variabel ini meningkat, yaitu, mereka memiliki beberapa komponen yang sedang tren: di Thailand, jumlah presipitasi tumbuh ketika periode panas dimulai dan gletser mencair lebih cepat. Jika kita menganggap korelasi "langsung", itu akan dekat dengan persatuan, yang berarti ada hubungan langsung antara nilai-nilai tersebut. Oleh karena itu, sebelum analitik, Anda harus terlebih dahulu bekerja dengan data - menghapusnya dari komponen tren, mis. Detrend dan dapatkan nilai kenaikan harian. Dan sekarang variabel ฮ”x ini digunakan untuk mendapatkan korelasi. Ini adalah hal yang sangat sederhana, yang secara signifikan meningkatkan kualitas analisis.

Sejarah No. 2. . - , โ€” . , : , . ?

, , . , , , , .

Ini adalah pilihan yang salah dari periode waktu untuk kalibrasi, ketika faktor-faktor eksternal tidak diperhitungkan, itu adalah kesalahan paling umum ketika model yang bekerja pada awalnya menjadi tidak berguna.


Muat data ke dalam model seperti dalam kotak hitam


Selama beberapa tahun perkembangan pesat bidang Ilmu Data, umat manusia telah mengumpulkan perpustakaan model dan metode pengolahan data yang mengesankan. Dan ini luar biasa - mereka dapat digunakan untuk memecahkan masalah biasa, yang digunakan banyak ahli, tidak hanya pemula, tetapi juga yang berpengalaman. Bahayanya adalah mengambil model yang sudah jadi, cukup masukkan data ke dalamnya dan dapatkan nilai prediktif pada hasilnya. Seorang spesialis berpengalaman selalu menggunakan alat matematika untuk menguji dan menyesuaikan metode dengan tugasnya.

Untuk pemula, pada awalnya sulit untuk mengidentifikasi pemulihan distribusi empiris dalam data yang ada. Dan bahkan jika seorang spesialis pemula berhasil memilih metode yang sesuai di perpustakaan atau kolega senior membantunya menyiapkan model, bahaya lain ada pada dirinya: kapan saja, sifat perilaku data dapat berubah atau proses internal rangkaian waktu dapat berubah. Ini berarti Anda harus segera mengkalibrasi ulang model, karena akurasinya telah menurun, dan akibatnya efektivitas seluruh prediksi telah turun. Untuk mengetahui hal ini dan menyesuaikan modelnya, Anda perlu memiliki metode statistik dan memahami prinsip kerjanya.

Bahkan jika metode ini diprogram dalam Python dan berada di suatu tempat di dalam kotak, setidaknya sekali harus ditampilkan secara manual untuk memahami cara kerjanya. Jika Anda menemukan metode ini dalam proyek dan Anda perlu mengadaptasinya, Anda sudah tahu di rantai mana langkah-langkah yang perlu dilakukan.

Sejarah No. 3. Bayangkan Anda memiliki matriks data 10.000 baris per 10.000 kolom. ~ 30 milidetik dihabiskan untuk mengalikan setiap pasangan elemen, yaitu, algoritma Anda akan memproses data selama lebih dari satu jam! Dan apakah itu akan menjadi satu miliar ke satu miliar matriks? Atau apakah Anda perlu menjalankan banyak algoritma seperti itu?

Matriks mentah


Sering terjadi bahwa pendatang baru tidak memproses atau menyiapkan matriks sebelum analisis. Akibatnya, proses ini menghilangkan waktu dan upaya ekstra mereka. Untuk mempermudah dan mempercepat pekerjaan dengan matriks, spesialis menggunakan alat dari aljabar linier. Ia bekerja seperti ini: matriks data yang ada diproyeksikan ke subruang peringkat rendah dan dengan demikian sementara mengurangi dimensinya.

Anda dapat belajar bagaimana melakukan semua ini dalam kursus online kami "Matematika untuk Ilmu Data". Tingkat dasar dirancang untuk pelatihan dari kurikulum sekolah dan berfokus pada komponen matematika. Anda harus pergi ke tingkat Mahir jika Anda pernah, bahkan untuk waktu yang sangat lama, belajar matematika yang lebih tinggi atau sudah memiliki pengalaman dalam Ilmu Data. Pada tingkat Mahir, kami menganalisis metode analisis data untuk berbagai tugas. Pada akhir kursus, siswa melakukan pekerjaan desain: mereka mencoba mengimplementasikan salah satu metode secara manual untuk memahami bagaimana itu diatur dan memodifikasi salah satu bagiannya. Tes masuk akan membantu Anda menentukan level.

Teori dan keterampilan praktis yang akan Anda kuasai di kelas terutama diperlukan untuk spesialis Menengah, tetapi mereka juga akan berguna pada awal profesi. Kami melakukan survei di antara perusahaan mitra kami di bidang Ilmu Data dan menemukan bahwa lebih dari setengah dari mereka siap untuk mempekerjakan magang dengan pengetahuan matematika, bahkan jika dia tidak tahu cara bekerja dengan perpustakaan Python.

Juga, jika Anda bekerja atau hanya melihat Data Science, saya mengundang Anda untuk berlangganan saluran telegram Data Street , tempat saya berbagi pengalaman dan mengumpulkan bahan-bahan yang berguna dari dunia matematika, analisis data, dan pembelajaran mesin. Saya akan senang melihat Anda di sini di kursus OTUS!

Anda dapat mempelajari lebih lanjut tentang kursus, serta lulus ujian masuk untuk menguji pengetahuan Anda, dengan mengklik tautan di bawah:


All Articles