هذه المقالة هي نظرة عامة على شهادة IBM Data Science Professional Certificate .
بصفتي مبتدئًا في Python ، كان علي التعامل مع تنفيذ المهام:
- تحميل جداول HTML وتحليلها
- تنظيف البيانات التي تم تحميلها
- ابحث عن الإحداثيات الجغرافية في عنوان الكائن
- تنزيل ومعالجة GEOJSON
- بناء خرائط حرارية تفاعلية (خريطة حرارية)
- بناء خرائط خلفية تفاعلية (خريطة choropleth)
- تحويل الإحداثيات الجغرافية بين WGS84 الكروية ونظام الإحداثيات الديكارتية UTM
- تمثيل الأجسام الجغرافية المكانية في شكل شبكة سداسية من الدوائر
- البحث عن المعالم الجغرافية الموجودة على مسافة معينة من نقطة
- تحديد السمات الجغرافية للمضلعات السطحية المعقدة
- التحليل الإحصائي الوصفي
- تحليل المتغيرات الفئوية وتصور النتائج
- تحليل الارتباط وتصور النتائج
- تجزئة باستخدام k- يعني التجميع وطريقة الكوع
- تحليل وتصور المجموعات
خلال الشهادة ، كانت هناك حاجة إلى 9 دورات:
3 .
«Python for Data Science and AI» «Databases and SQL for Data Science» , .
«Data Analysis with Python», «Data Visualization with Python», «Machine Learning with Python» . Python.
Applied Data Science Capstone – , Python, .
Applied Data Science Capstone.
— Github.
— 700 .
.
Python
1. Introduction
1.1 Background
— 12 . 2561.5 ², 4924.96 /² 1.
12 (125 , 2 , 19 ) 30429 /² "", 560 /² "" 2.
68,768 /² "" 438,568 /² "" 3.
1.2 Business Problem
, , , . () .
, , , .
, , , .
:
2. Data acquisition and cleaning
2.2. Data requirements
, :
, :
GEOJSON
( , , ...),
2.3. Describe data sources
HTML .
Nominatim. , , , .
GEOJSON
( , ..) Foursquare API. , . 100 1000 . :
- , 100 .
- , Foursquare API .
- , Foursquare API ( )
- .
2.4. Describe data cleansing
HTML , . :
- ' \n\t', ' ', ''
- "" ""
- float int
146 :
- Borough_Name — —
- District_Name — ,
- Borough_Type —
- OKATO_Borough_Code — OKATO
- OKTMO_District_Code — OKTMO
- Borough_Area —
- Borough_Population —
- Borough_Population_Density —
- Borough_Housing_Area — .
- Borough_Housing_Area_Per_Person —
- Borough_Housing_Price —
.

Nominatim, , ( 10 ) .
. , Foursquare API.

, ( , , ...), , . 28 000 .
. Foursquare API.

Forsquare API, 34460 ( , , ...) 7899 .
(350 ) , (300 ), .
27622 28 000 .
, , . GEOJSON .
, , .
, .
20864 ( , , ...), 120 . .
.

" " " ".

3. Methodology
:
:
, . .
3.1. Exploratory Data Analysis
:
- District_Name — ,
- Borough_Area —
- Borough_Population —
- Borough_Population_Density —
- Borough_Housing_Area — .
- Borough_Housing_Price —
.

, 12 194 253 943 .
109 421 /² 438 568 /².
District_Name Borough_Population. , District_Name , , «», «», «» «».

District_Name Borough_Housing_Price. , , District_Name .

.
.
. (p-value):
- p-value < 0.001: ,
- p-value is < 0.05: ,
- p-value is < 0.1: ,
- p-value is > 0.1: ,


- Borough_Area, Borough_Population_Density Borough_Population ,
- Borough_Housing_Area Borough_Population ,
- Borough_Area, Borough_Population_Density, Borough_Housing_Area Borough_Housing_Price ,
- Borough_Area Borough_Population_Density ,
3.2. Clustering
, , .
, K-Means Elbow , , .
Elbow , ( 1 10). (distortion) (inertia).
Distortion Inertia .
(elbows) 3 5 .
3- .


, K-Means , :

:
- "0" — (78538 ), (173695 /²) (10328 /²)
- "1" — (153187 ), (160741 /²) (13312 /²)
- "2" — (79805 ), (333794 /²) (10533 /²)
"1" :
boxplot .


(choropleth map)
, "1" .
, .

4. Result
:
- :
- ,
- (heat map) (choropleth map)
.
.

20864 ( , , ...), 928 "Gym / Fitness Center", 259 .
.

(heat map) (choropleth map) (HTML zip ) Interactive map
.



5. Discussion
:
, :
- GEOJSON
- ( , , ...),
, GitHub .csv .
K-Means Elbow . Distortion Inertia , 3- . 5 , .
.
لتحديد قرب مرافق اللياقة المتنافسة ، تم استخدام نهج يتمثل في عرض مراكز اللياقة البدنية على خريطة جغرافية حرارية تفاعلية. سمح لنا هذا النهج بإجراء تحليل بصري لقرب مراكز اللياقة البدنية الموجودة في كل منطقة وتحديد المناطق ذات الكثافة المنخفضة.
استنادًا إلى البيانات التي تم الحصول عليها ، يمكن إجراء تحليل إضافي باستخدام التقسيم القاطع لأشياء اللياقة البدنية والحساب التلقائي للمواقع الموصى بها لمراكز اللياقة البدنية الجديدة ، مع مراعاة كثافة عناصر اللياقة المتنافسة.