حاصل على شهادة IBM Data Science Professional

هذه المقالة هي نظرة عامة على شهادة IBM Data Science Professional Certificate .


بصفتي مبتدئًا في Python ، كان علي التعامل مع تنفيذ المهام:


  • تحميل جداول HTML وتحليلها
  • تنظيف البيانات التي تم تحميلها
  • ابحث عن الإحداثيات الجغرافية في عنوان الكائن
  • تنزيل ومعالجة GEOJSON
  • بناء خرائط حرارية تفاعلية (خريطة حرارية)
  • بناء خرائط خلفية تفاعلية (خريطة choropleth)
  • تحويل الإحداثيات الجغرافية بين WGS84 الكروية ونظام الإحداثيات الديكارتية UTM
  • تمثيل الأجسام الجغرافية المكانية في شكل شبكة سداسية من الدوائر
  • البحث عن المعالم الجغرافية الموجودة على مسافة معينة من نقطة
  • تحديد السمات الجغرافية للمضلعات السطحية المعقدة
  • التحليل الإحصائي الوصفي
  • تحليل المتغيرات الفئوية وتصور النتائج
  • تحليل الارتباط وتصور النتائج
  • تجزئة باستخدام k- يعني التجميع وطريقة الكوع
  • تحليل وتصور المجموعات

خلال الشهادة ، كانت هناك حاجة إلى 9 دورات:



3 .
«Python for Data Science and AI» «Databases and SQL for Data Science» , .


«Data Analysis with Python», «Data Visualization with Python», «Machine Learning with Python» . Python.


Applied Data Science Capstone – , Python, .


Applied Data Science Capstone.


Github.
— 700 .


.


Python




1. Introduction


1.1 Background


— 12 . 2561.5 ², 4924.96 /² 1.


12 (125 , 2 , 19 ) 30429 /² "", 560 /² "" 2.


68,768 /² "" 438,568 /² "" 3.


1.2 Business Problem


, , , . () .


, , , .


, , , .


:


  • ()

2. Data acquisition and cleaning


2.2. Data requirements


, :


  1. , :


    • ,
    • ²,


  2. GEOJSON


  3. ( , , ...),



2.3. Describe data sources


HTML .


  • ²,

Nominatim. , , , .


GEOJSON


( , ..) Foursquare API. , . 100 1000 . :


  • , 100 .
  • , Foursquare API .
  • , Foursquare API ( )
  • .

2.4. Describe data cleansing


HTML , . :


  • ' \n\t', ' ', ''
  • "" ""
  • float int

146 :


  • Borough_Name — —
  • District_Name — ,
  • Borough_Type
  • OKATO_Borough_Code — OKATO
  • OKTMO_District_Code — OKTMO
  • Borough_Area
  • Borough_Population
  • Borough_Population_Density
  • Borough_Housing_Area — .
  • Borough_Housing_Area_Per_Person
  • Borough_Housing_Price


.


مجموعة بيانات بورو موسكو


Nominatim, , ( 10 ) .


. , Foursquare API.


سكان بورو في مدينة موسكو


, ( , , ...), , . 28 000 .


. Foursquare API.


مثال على الشبكة السداسية لمرشحي المنطقة


Forsquare API, 34460 ( , , ...) 7899 .


(350 ) , (300 ), .


27622 28 000 .


, , . GEOJSON .
, , .


, .


20864 ( , , ...), 120 . .
.


مجموعة بيانات أماكن موسكو


" " " ".


مثال على بعض أحياء موسكو وأماكنها


3. Methodology


:


  • /

:


  • , ,
  • K-Mean

, . .


3.1. Exploratory Data Analysis


:


  • District_Name — ,
  • Borough_Area
  • Borough_Population
  • Borough_Population_Density
  • Borough_Housing_Area — .
  • Borough_Housing_Price

.


التحليل الإحصائي الوصفي


, 12 194 253 943 .
109 421 /² 438 568 /².


District_Name Borough_Population. , District_Name , , «», «», «» «».


"المنطقة" و "السكان"


District_Name Borough_Housing_Price. , , District_Name .


"المنطقة" و "سعر السكن"


.
.


. (p-value):


  • p-value < 0.001: ,
  • p-value is < 0.05: ,
  • p-value is < 0.1: ,
  • p-value is > 0.1: ,

مصفوفة الارتباط


قيم مصفوفة الارتباط


  • Borough_Area, Borough_Population_Density Borough_Population ,
  • Borough_Housing_Area Borough_Population ,
  • Borough_Area, Borough_Population_Density, Borough_Housing_Area Borough_Housing_Price ,
  • Borough_Area Borough_Population_Density ,

3.2. Clustering


, , .


, K-Means Elbow , , .


Elbow , ( 1 10). (distortion) (inertia).


Distortion Inertia .
(elbows) 3 5 .


3- .


"طريقة الكوع_التضليل"


"Elbow_Method_Inertia"


, K-Means , :


  • % ( )
  • % ( )


"موسكو_دفء"


:


  • "0" — (78538 ), (173695 /²) (10328 /²)
  • "1" — (153187 ), (160741 /²) (13312 /²)
  • "2" — (79805 ), (333794 /²) (10533 /²)

"1" :


  • 34 43% , 37% ,

boxplot .


"Cluster_Borough_Population_boxplot"


"Cluster_Borough_Housing_Price_boxplot"


(choropleth map)
, "1" .
, .


"خريطة موسكو"


4. Result


:


  • :
    • ()
  • ,
  • (heat map) (choropleth map)

.
.


Moscow_Recomended_Borough_df


20864 ( , , ...), 928 "Gym / Fitness Center", 259 .

.


Moscow_gym_venues_df


(heat map) (choropleth map) (HTML zip ) Interactive map
.


gym_heatmap_big


gym_heatmap_smal


gym_250


5. Discussion


:


  1. , :


    • ,
    • ²,

  2. GEOJSON
  3. ( , , ...),

, GitHub .csv .


K-Means Elbow . Distortion Inertia , 3- . 5 , .
.


لتحديد قرب مرافق اللياقة المتنافسة ، تم استخدام نهج يتمثل في عرض مراكز اللياقة البدنية على خريطة جغرافية حرارية تفاعلية. سمح لنا هذا النهج بإجراء تحليل بصري لقرب مراكز اللياقة البدنية الموجودة في كل منطقة وتحديد المناطق ذات الكثافة المنخفضة.


استنادًا إلى البيانات التي تم الحصول عليها ، يمكن إجراء تحليل إضافي باستخدام التقسيم القاطع لأشياء اللياقة البدنية والحساب التلقائي للمواقع الموصى بها لمراكز اللياقة البدنية الجديدة ، مع مراعاة كثافة عناصر اللياقة المتنافسة.

Source: https://habr.com/ru/post/undefined/


All Articles