Artikel ini adalah tinjauan umum sertifikasi Sertifikat Profesional Data IBM .
Sebagai pemula di Python, saya harus berurusan dengan implementasi tugas:
- Memuat dan mem-parsing tabel HTML
- Membersihkan data yang diunggah
- Cari koordinat geografis di alamat objek
- Unduh dan proses GEOJSON
- Membangun peta panas interaktif (peta panas)
- Membangun kartogram latar belakang interaktif (peta choropleth)
- Transformasi koordinat geografis antara WGS84 bola dan sistem koordinat Cartesian UTM
- Representasi objek geografis spasial dalam bentuk lingkaran kotak heksagonal
- Cari fitur geografis yang terletak pada jarak tertentu dari suatu titik
- Georeferensi fitur geografis ke poligon permukaan yang kompleks
- Analisis Statistik Deskriptif
- Analisis variabel kategori dan visualisasi hasil
- Analisis korelasi dan visualisasi hasil
- Segmentasi menggunakan k-Mean clustering dan metode siku
- Analisis dan visualisasi cluster
Selama sertifikasi, diperlukan 9 kursus:
3 .
«Python for Data Science and AI» «Databases and SQL for Data Science» , .
«Data Analysis with Python», «Data Visualization with Python», «Machine Learning with Python» . Python.
Applied Data Science Capstone – , Python, .
Applied Data Science Capstone.
— Github.
— 700 .
.
Python
1. Introduction
1.1 Background
— 12 . 2561.5 ², 4924.96 /² 1.
12 (125 , 2 , 19 ) 30429 /² "", 560 /² "" 2.
68,768 /² "" 438,568 /² "" 3.
1.2 Business Problem
, , , . () .
, , , .
, , , .
:
2. Data acquisition and cleaning
2.2. Data requirements
, :
, :
GEOJSON
( , , ...),
2.3. Describe data sources
HTML .
Nominatim. , , , .
GEOJSON
( , ..) Foursquare API. , . 100 1000 . :
- , 100 .
- , Foursquare API .
- , Foursquare API ( )
- .
2.4. Describe data cleansing
HTML , . :
- ' \n\t', ' ', ''
- "" ""
- float int
146 :
- Borough_Name — —
- District_Name — ,
- Borough_Type —
- OKATO_Borough_Code — OKATO
- OKTMO_District_Code — OKTMO
- Borough_Area —
- Borough_Population —
- Borough_Population_Density —
- Borough_Housing_Area — .
- Borough_Housing_Area_Per_Person —
- Borough_Housing_Price —
.

Nominatim, , ( 10 ) .
. , Foursquare API.

, ( , , ...), , . 28 000 .
. Foursquare API.

Forsquare API, 34460 ( , , ...) 7899 .
(350 ) , (300 ), .
27622 28 000 .
, , . GEOJSON .
, , .
, .
20864 ( , , ...), 120 . .
.

" " " ".

3. Methodology
:
:
, . .
3.1. Exploratory Data Analysis
:
- District_Name — ,
- Borough_Area —
- Borough_Population —
- Borough_Population_Density —
- Borough_Housing_Area — .
- Borough_Housing_Price —
.

, 12 194 253 943 .
109 421 /² 438 568 /².
District_Name Borough_Population. , District_Name , , «», «», «» «».

District_Name Borough_Housing_Price. , , District_Name .

.
.
. (p-value):
- p-value < 0.001: ,
- p-value is < 0.05: ,
- p-value is < 0.1: ,
- p-value is > 0.1: ,


- Borough_Area, Borough_Population_Density Borough_Population ,
- Borough_Housing_Area Borough_Population ,
- Borough_Area, Borough_Population_Density, Borough_Housing_Area Borough_Housing_Price ,
- Borough_Area Borough_Population_Density ,
3.2. Clustering
, , .
, K-Means Elbow , , .
Elbow , ( 1 10). (distortion) (inertia).
Distortion Inertia .
(elbows) 3 5 .
3- .


, K-Means , :

:
- "0" — (78538 ), (173695 /²) (10328 /²)
- "1" — (153187 ), (160741 /²) (13312 /²)
- "2" — (79805 ), (333794 /²) (10533 /²)
"1" :
boxplot .


(choropleth map)
, "1" .
, .

4. Result
:
- :
- ,
- (heat map) (choropleth map)
.
.

20864 ( , , ...), 928 "Gym / Fitness Center", 259 .
.

(heat map) (choropleth map) (HTML zip ) Interactive map
.



5. Discussion
:
, :
- GEOJSON
- ( , , ...),
, GitHub .csv .
K-Means Elbow . Distortion Inertia , 3- . 5 , .
.
Untuk menentukan kedekatan fasilitas kebugaran yang bersaing, pendekatan yang digunakan terdiri dari menampilkan pusat kebugaran pada peta geografis termal interaktif. Pendekatan ini memungkinkan kami untuk menganalisis secara visual kedekatan pusat kebugaran yang ada di setiap daerah dan mengidentifikasi daerah dengan kepadatan rendah.
Berdasarkan data yang diperoleh, analisis tambahan dapat dilakukan dengan menggunakan segmentasi kategorik dari objek kebugaran dan perhitungan otomatis dari lokasi yang direkomendasikan untuk pusat kebugaran baru, dengan mempertimbangkan kepadatan objek kebugaran yang bersaing.