Sertifikat Profesional Data Sains IBM

Artikel ini adalah tinjauan umum sertifikasi Sertifikat Profesional Data IBM .


Sebagai pemula di Python, saya harus berurusan dengan implementasi tugas:


  • Memuat dan mem-parsing tabel HTML
  • Membersihkan data yang diunggah
  • Cari koordinat geografis di alamat objek
  • Unduh dan proses GEOJSON
  • Membangun peta panas interaktif (peta panas)
  • Membangun kartogram latar belakang interaktif (peta choropleth)
  • Transformasi koordinat geografis antara WGS84 bola dan sistem koordinat Cartesian UTM
  • Representasi objek geografis spasial dalam bentuk lingkaran kotak heksagonal
  • Cari fitur geografis yang terletak pada jarak tertentu dari suatu titik
  • Georeferensi fitur geografis ke poligon permukaan yang kompleks
  • Analisis Statistik Deskriptif
  • Analisis variabel kategori dan visualisasi hasil
  • Analisis korelasi dan visualisasi hasil
  • Segmentasi menggunakan k-Mean clustering dan metode siku
  • Analisis dan visualisasi cluster

Selama sertifikasi, diperlukan 9 kursus:



3 .
«Python for Data Science and AI» «Databases and SQL for Data Science» , .


«Data Analysis with Python», «Data Visualization with Python», «Machine Learning with Python» . Python.


Applied Data Science Capstone – , Python, .


Applied Data Science Capstone.


Github.
— 700 .


.


Python




1. Introduction


1.1 Background


— 12 . 2561.5 ², 4924.96 /² 1.


12 (125 , 2 , 19 ) 30429 /² "", 560 /² "" 2.


68,768 /² "" 438,568 /² "" 3.


1.2 Business Problem


, , , . () .


, , , .


, , , .


:


  • ()

2. Data acquisition and cleaning


2.2. Data requirements


, :


  1. , :


    • ,
    • ²,


  2. GEOJSON


  3. ( , , ...),



2.3. Describe data sources


HTML .


  • ²,

Nominatim. , , , .


GEOJSON


( , ..) Foursquare API. , . 100 1000 . :


  • , 100 .
  • , Foursquare API .
  • , Foursquare API ( )
  • .

2.4. Describe data cleansing


HTML , . :


  • ' \n\t', ' ', ''
  • "" ""
  • float int

146 :


  • Borough_Name — —
  • District_Name — ,
  • Borough_Type
  • OKATO_Borough_Code — OKATO
  • OKTMO_District_Code — OKTMO
  • Borough_Area
  • Borough_Population
  • Borough_Population_Density
  • Borough_Housing_Area — .
  • Borough_Housing_Area_Per_Person
  • Borough_Housing_Price


.


Dataset Borough Moskow


Nominatim, , ( 10 ) .


. , Foursquare API.


Populasi Borough di Kota Moskow


, ( , , ...), , . 28 000 .


. Foursquare API.


Contoh kisi heksagonal kandidat daerah


Forsquare API, 34460 ( , , ...) 7899 .


(350 ) , (300 ), .


27622 28 000 .


, , . GEOJSON .
, , .


, .


20864 ( , , ...), 120 . .
.


Kumpulan data venue Moskow


" " " ".


Contoh dari beberapa Borough Moskow dan tempat-tempat theis


3. Methodology


:


  • /

:


  • , ,
  • K-Mean

, . .


3.1. Exploratory Data Analysis


:


  • District_Name — ,
  • Borough_Area
  • Borough_Population
  • Borough_Population_Density
  • Borough_Housing_Area — .
  • Borough_Housing_Price

.


Analisis statistik deskriptif


, 12 194 253 943 .
109 421 /² 438 568 /².


District_Name Borough_Population. , District_Name , , «», «», «» «».


'Distrik' dan 'Populasi'


District_Name Borough_Housing_Price. , , District_Name .


'Distrik' dan 'Harga Perumahan'


.
.


. (p-value):


  • p-value < 0.001: ,
  • p-value is < 0.05: ,
  • p-value is < 0.1: ,
  • p-value is > 0.1: ,

Matriks korelasi


Nilai matriks korelasi


  • Borough_Area, Borough_Population_Density Borough_Population ,
  • Borough_Housing_Area Borough_Population ,
  • Borough_Area, Borough_Population_Density, Borough_Housing_Area Borough_Housing_Price ,
  • Borough_Area Borough_Population_Density ,

3.2. Clustering


, , .


, K-Means Elbow , , .


Elbow , ( 1 10). (distortion) (inertia).


Distortion Inertia .
(elbows) 3 5 .


3- .


'Elbow_Method_Distortion'


'Elbow_Method_Inertia'


, K-Means , :


  • % ( )
  • % ( )


'Moscow_Clustering'


:


  • "0" — (78538 ), (173695 /²) (10328 /²)
  • "1" — (153187 ), (160741 /²) (13312 /²)
  • "2" — (79805 ), (333794 /²) (10533 /²)

"1" :


  • 34 43% , 37% ,

boxplot .


'Cluster_Borough_Population_boxplot'


'Cluster_Borough_Housing_Price_boxplot'


(choropleth map)
, "1" .
, .


'Moscow_Clustering_map'


4. Result


:


  • :
    • ()
  • ,
  • (heat map) (choropleth map)

.
.


Moscow_Recomended_Borough_df


20864 ( , , ...), 928 "Gym / Fitness Center", 259 .

.


Moscow_gym_venue_df


(heat map) (choropleth map) (HTML zip ) Interactive map
.


gym_heatmap_big


gym_heatmap_smal


gym_250


5. Discussion


:


  1. , :


    • ,
    • ²,

  2. GEOJSON
  3. ( , , ...),

, GitHub .csv .


K-Means Elbow . Distortion Inertia , 3- . 5 , .
.


Untuk menentukan kedekatan fasilitas kebugaran yang bersaing, pendekatan yang digunakan terdiri dari menampilkan pusat kebugaran pada peta geografis termal interaktif. Pendekatan ini memungkinkan kami untuk menganalisis secara visual kedekatan pusat kebugaran yang ada di setiap daerah dan mengidentifikasi daerah dengan kepadatan rendah.


Berdasarkan data yang diperoleh, analisis tambahan dapat dilakukan dengan menggunakan segmentasi kategorik dari objek kebugaran dan perhitungan otomatis dari lokasi yang direkomendasikan untuk pusat kebugaran baru, dengan mempertimbangkan kepadatan objek kebugaran yang bersaing.

Source: https://habr.com/ru/post/undefined/


All Articles