Cet article est une présentation de la certification IBM Data Science Professional Certificate .
En tant que débutant en Python, je devais m'occuper de la mise en œuvre des tâches:
- Chargement et analyse de tableaux HTML
- Nettoyage des données téléchargées
- Recherche de coordonnées géographiques à l'adresse de l'objet
- Télécharger et traiter GEOJSON
- Création de cartes thermiques interactives (carte thermique)
- Création de cartogrammes d'arrière-plan interactifs (carte choroplèthe)
- Transformation de coordonnées géographiques entre un WGS84 sphérique et un système de coordonnées cartésiennes UTM
- Représentation d'objets géographiques géographiques sous la forme d'une grille hexagonale de cercles
- Recherche d'entités géographiques situées à une distance spécifique d'un point
- Géoréférencement d'entités géographiques sur des polygones de surface complexes
- Analyse statistique descriptive
- Analyse des variables catégorielles et visualisation des résultats
- Analyse de corrélation et visualisation des résultats
- Segmentation en utilisant le clustering k-Mean et la méthode du coude
- Analyse et visualisation des clusters
Lors de la certification, 9 cours ont été requis:
3 .
«Python for Data Science and AI» «Databases and SQL for Data Science» , .
«Data Analysis with Python», «Data Visualization with Python», «Machine Learning with Python» . Python.
Applied Data Science Capstone – , Python, .
Applied Data Science Capstone.
— Github.
— 700 .
.
Python
1. Introduction
1.1 Background
— 12 . 2561.5 ², 4924.96 /² 1.
12 (125 , 2 , 19 ) 30429 /² "", 560 /² "" 2.
68,768 /² "" 438,568 /² "" 3.
1.2 Business Problem
, , , . () .
, , , .
, , , .
:
2. Data acquisition and cleaning
2.2. Data requirements
, :
, :
GEOJSON
( , , ...),
2.3. Describe data sources
HTML .
Nominatim. , , , .
GEOJSON
( , ..) Foursquare API. , . 100 1000 . :
- , 100 .
- , Foursquare API .
- , Foursquare API ( )
- .
2.4. Describe data cleansing
HTML , . :
- ' \n\t', ' ', ''
- "" ""
- float int
146 :
- Borough_Name — —
- District_Name — ,
- Borough_Type —
- OKATO_Borough_Code — OKATO
- OKTMO_District_Code — OKTMO
- Borough_Area —
- Borough_Population —
- Borough_Population_Density —
- Borough_Housing_Area — .
- Borough_Housing_Area_Per_Person —
- Borough_Housing_Price —
.

Nominatim, , ( 10 ) .
. , Foursquare API.

, ( , , ...), , . 28 000 .
. Foursquare API.

Forsquare API, 34460 ( , , ...) 7899 .
(350 ) , (300 ), .
27622 28 000 .
, , . GEOJSON .
, , .
, .
20864 ( , , ...), 120 . .
.

" " " ".

3. Methodology
:
:
, . .
3.1. Exploratory Data Analysis
:
- District_Name — ,
- Borough_Area —
- Borough_Population —
- Borough_Population_Density —
- Borough_Housing_Area — .
- Borough_Housing_Price —
.

, 12 194 253 943 .
109 421 /² 438 568 /².
District_Name Borough_Population. , District_Name , , «», «», «» «».

District_Name Borough_Housing_Price. , , District_Name .

.
.
. (p-value):
- p-value < 0.001: ,
- p-value is < 0.05: ,
- p-value is < 0.1: ,
- p-value is > 0.1: ,


- Borough_Area, Borough_Population_Density Borough_Population ,
- Borough_Housing_Area Borough_Population ,
- Borough_Area, Borough_Population_Density, Borough_Housing_Area Borough_Housing_Price ,
- Borough_Area Borough_Population_Density ,
3.2. Clustering
, , .
, K-Means Elbow , , .
Elbow , ( 1 10). (distortion) (inertia).
Distortion Inertia .
(elbows) 3 5 .
3- .


, K-Means , :

:
- "0" — (78538 ), (173695 /²) (10328 /²)
- "1" — (153187 ), (160741 /²) (13312 /²)
- "2" — (79805 ), (333794 /²) (10533 /²)
"1" :
boxplot .


(choropleth map)
, "1" .
, .

4. Result
:
- :
- ,
- (heat map) (choropleth map)
.
.

20864 ( , , ...), 928 "Gym / Fitness Center", 259 .
.

(heat map) (choropleth map) (HTML zip ) Interactive map
.



5. Discussion
:
, :
- GEOJSON
- ( , , ...),
, GitHub .csv .
K-Means Elbow . Distortion Inertia , 3- . 5 , .
.
Pour déterminer la proximité des installations de fitness concurrentes, une approche a été utilisée consistant à afficher les centres de fitness sur une carte géographique thermique interactive. Cette approche nous a permis d'analyser visuellement la proximité des centres de fitness existants dans chaque zone et d'identifier les zones à faible densité.
Sur la base des données obtenues, une analyse supplémentaire peut être effectuée en utilisant la segmentation catégorielle des objets de fitness et le calcul automatique des emplacements recommandés pour les nouveaux centres de fitness, en tenant compte de la densité des objets de fitness concurrents.