IBM数据科学专业证书认证

本文是IBM Data Science Professional证书认证的概述


作为Python的新手,我不得不处理任务的实现:


  • 加载和解析HTML表
  • 清理上传的数据
  • 在对象地址处搜索地理坐标
  • 下载并处理GEOJSON
  • 建立交互式热图(热图)
  • 建立交互式背景制图(整体图)
  • 球形WGS84和笛卡尔坐标系UTM之间的地理坐标转换
  • 以六边形圆形网格形式表示空间地理对象
  • 搜索距点特定距离的地理特征
  • 将地理要素地理配准到复杂的表面多边形
  • 描述性统计分析
  • 类别变量分析和结果可视化
  • 相关分析和结果可视化
  • 使用k均值聚类和肘方法进行分割
  • 集群的分析和可视化

在认证期间,需要9门课程:



3 .
«Python for Data Science and AI» «Databases and SQL for Data Science» , .


«Data Analysis with Python», «Data Visualization with Python», «Machine Learning with Python» . Python.


Applied Data Science Capstone – , Python, .


Applied Data Science Capstone.


Github.
— 700 .


.


Python




1. Introduction


1.1 Background


— 12 . 2561.5 ², 4924.96 /² 1.


12 (125 , 2 , 19 ) 30429 /² "", 560 /² "" 2.


68,768 /² "" 438,568 /² "" 3.


1.2 Business Problem


, , , . () .


, , , .


, , , .


:


  • ()

2. Data acquisition and cleaning


2.2. Data requirements


, :


  1. , :


    • ,
    • ²,


  2. GEOJSON


  3. ( , , ...),



2.3. Describe data sources


HTML .


  • ²,

Nominatim. , , , .


GEOJSON


( , ..) Foursquare API. , . 100 1000 . :


  • , 100 .
  • , Foursquare API .
  • , Foursquare API ( )
  • .

2.4. Describe data cleansing


HTML , . :


  • ' \n\t', ' ', ''
  • "" ""
  • float int

146 :


  • Borough_Name — —
  • District_Name — ,
  • Borough_Type
  • OKATO_Borough_Code — OKATO
  • OKTMO_District_Code — OKTMO
  • Borough_Area
  • Borough_Population
  • Borough_Population_Density
  • Borough_Housing_Area — .
  • Borough_Housing_Area_Per_Person
  • Borough_Housing_Price


.


莫斯科自治市镇数据集


Nominatim, , ( 10 ) .


. , Foursquare API.


莫斯科市的自治市镇人口


, ( , , ...), , . 28 000 .


. Foursquare API.


候选区域的六边形网格示例


Forsquare API, 34460 ( , , ...) 7899 .


(350 ) , (300 ), .


27622 28 000 .


, , . GEOJSON .
, , .


, .


20864 ( , , ...), 120 . .
.


莫斯科场馆数据集


" " " ".


莫斯科自治市镇和theis场馆的示例


3. Methodology


:


  • /

:


  • , ,
  • K-Mean

, . .


3.1. Exploratory Data Analysis


:


  • District_Name — ,
  • Borough_Area
  • Borough_Population
  • Borough_Population_Density
  • Borough_Housing_Area — .
  • Borough_Housing_Price

.


描述性统计分析


, 12 194 253 943 .
109 421 /² 438 568 /².


District_Name Borough_Population. , District_Name , , «», «», «» «».


“区”和“人口”


District_Name Borough_Housing_Price. , , District_Name .


“地区”和“住房价格”


.
.


. (p-value):


  • p-value < 0.001: ,
  • p-value is < 0.05: ,
  • p-value is < 0.1: ,
  • p-value is > 0.1: ,

相关矩阵


相关矩阵值


  • Borough_Area, Borough_Population_Density Borough_Population ,
  • Borough_Housing_Area Borough_Population ,
  • Borough_Area, Borough_Population_Density, Borough_Housing_Area Borough_Housing_Price ,
  • Borough_Area Borough_Population_Density ,

3.2. Clustering


, , .


, K-Means Elbow , , .


Elbow , ( 1 10). (distortion) (inertia).


Distortion Inertia .
(elbows) 3 5 .


3- .


'弯头方法变形'


'弯头方法惯性'


, K-Means , :


  • % ( )
  • % ( )


莫斯科集群


:


  • "0" — (78538 ), (173695 /²) (10328 /²)
  • "1" — (153187 ), (160741 /²) (13312 /²)
  • "2" — (79805 ), (333794 /²) (10533 /²)

"1" :


  • 34 43% , 37% ,

boxplot .


'Cluster_Borough_Population_boxplot'


'Cluster_Borough_Housing_Price_boxplot'


(choropleth map)
, "1" .
, .


'Moscow_Clustering_map'


4. Result


:


  • :
    • ()
  • ,
  • (heat map) (choropleth map)

.
.


Moscow_Recomended_Borough_df


20864 ( , , ...), 928 "Gym / Fitness Center", 259 .

.


Moscow_gym_venues_df


(heat map) (choropleth map) (HTML zip ) Interactive map
.


gym_heatmap_big


gym_heatmap_smal


Gym_250


5. Discussion


:


  1. , :


    • ,
    • ²,

  2. GEOJSON
  3. ( , , ...),

, GitHub .csv .


K-Means Elbow . Distortion Inertia , 3- . 5 , .
.


为了确定竞争性健身设施的邻近性,使用了一种方法,其中包括在交互式热地理地图上显示健身中心。这种方法使我们能够直观地分析每个区域中现有健身中心的邻近度,并确定低密度区域。


基于获得的数据,可以使用健身对象的分类细分并自动计算新健身中心的推荐位置,并考虑竞争健身对象的密度,从而进行其他分析。

Source: https://habr.com/ru/post/undefined/


All Articles