Certifié IBM Data Science Professional Certificate

Cet article est une présentation de la certification IBM Data Science Professional Certificate .


En tant que débutant en Python, je devais m'occuper de la mise en œuvre des tâches:


  • Chargement et analyse de tableaux HTML
  • Nettoyage des donnĂ©es tĂ©lĂ©chargĂ©es
  • Recherche de coordonnĂ©es gĂ©ographiques Ă  l'adresse de l'objet
  • TĂ©lĂ©charger et traiter GEOJSON
  • CrĂ©ation de cartes thermiques interactives (carte thermique)
  • CrĂ©ation de cartogrammes d'arrière-plan interactifs (carte choroplèthe)
  • Transformation de coordonnĂ©es gĂ©ographiques entre un WGS84 sphĂ©rique et un système de coordonnĂ©es cartĂ©siennes UTM
  • ReprĂ©sentation d'objets gĂ©ographiques gĂ©ographiques sous la forme d'une grille hexagonale de cercles
  • Recherche d'entitĂ©s gĂ©ographiques situĂ©es Ă  une distance spĂ©cifique d'un point
  • GĂ©orĂ©fĂ©rencement d'entitĂ©s gĂ©ographiques sur des polygones de surface complexes
  • Analyse statistique descriptive
  • Analyse des variables catĂ©gorielles et visualisation des rĂ©sultats
  • Analyse de corrĂ©lation et visualisation des rĂ©sultats
  • Segmentation en utilisant le clustering k-Mean et la mĂ©thode du coude
  • Analyse et visualisation des clusters

Lors de la certification, 9 cours ont été requis:



3 .
«Python for Data Science and AI» «Databases and SQL for Data Science» , .


«Data Analysis with Python», «Data Visualization with Python», «Machine Learning with Python» . Python.


Applied Data Science Capstone – , Python, .


Applied Data Science Capstone.


— Github.
— 700 .


.


Python




1. Introduction


1.1 Background


— 12 . 2561.5 ², 4924.96 /² 1.


12 (125 , 2 , 19 ) 30429 /² "", 560 /² "" 2.


68,768 /² "" 438,568 /² "" 3.


1.2 Business Problem


, , , . () .


, , , .


, , , .


:


  • ()

2. Data acquisition and cleaning


2.2. Data requirements


, :


  1. , :


    • ,
    • ²,


  2. GEOJSON


  3. ( , , ...),



2.3. Describe data sources


HTML .


  • ²,

Nominatim. , , , .


GEOJSON


( , ..) Foursquare API. , . 100 1000 . :


  • , 100 .
  • , Foursquare API .
  • , Foursquare API ( )
  • .

2.4. Describe data cleansing


HTML , . :


  • ' \n\t', ' ', ''
  • "" ""
  • float int

146 :


  • Borough_Name — —
  • District_Name — ,
  • Borough_Type —
  • OKATO_Borough_Code — OKATO
  • OKTMO_District_Code — OKTMO
  • Borough_Area —
  • Borough_Population —
  • Borough_Population_Density —
  • Borough_Housing_Area — .
  • Borough_Housing_Area_Per_Person —
  • Borough_Housing_Price —


.


Ensemble de données des arrondissements de Moscou


Nominatim, , ( 10 ) .


. , Foursquare API.


Population des arrondissements de la ville de Moscou


, ( , , ...), , . 28 000 .


. Foursquare API.


Exemple de grille hexagonale de zones candidates


Forsquare API, 34460 ( , , ...) 7899 .


(350 ) , (300 ), .


27622 28 000 .


, , . GEOJSON .
, , .


, .


20864 ( , , ...), 120 . .
.


Ensemble de données sur les sites de Moscou


" " " ".


Exemple de certains arrondissements de Moscou et de ces lieux


3. Methodology


:


  • /

:


  • , ,
  • K-Mean

, . .


3.1. Exploratory Data Analysis


:


  • District_Name — ,
  • Borough_Area —
  • Borough_Population —
  • Borough_Population_Density —
  • Borough_Housing_Area — .
  • Borough_Housing_Price —

.


Analyse statistique descriptive


, 12 194 253 943 .
109 421 /² 438 568 /².


District_Name Borough_Population. , District_Name , , «», «», «» «».


«District» et «Population»


District_Name Borough_Housing_Price. , , District_Name .


«District» et «Prix du logement»


.
.


. (p-value):


  • p-value < 0.001: ,
  • p-value is < 0.05: ,
  • p-value is < 0.1: ,
  • p-value is > 0.1: ,

Matrice de corrélation


Valeurs de la matrice de corrélation


  • Borough_Area, Borough_Population_Density Borough_Population ,
  • Borough_Housing_Area Borough_Population ,
  • Borough_Area, Borough_Population_Density, Borough_Housing_Area Borough_Housing_Price ,
  • Borough_Area Borough_Population_Density ,

3.2. Clustering


, , .


, K-Means Elbow , , .


Elbow , ( 1 10). (distortion) (inertia).


Distortion Inertia .
(elbows) 3 5 .


3- .


«Elbow_Method_Distortion»


«Elbow_Method_Inertia»


, K-Means , :


  • % ( )
  • % ( )


«Moscow_Clustering»


:


  • "0" — (78538 ), (173695 /²) (10328 /²)
  • "1" — (153187 ), (160741 /²) (13312 /²)
  • "2" — (79805 ), (333794 /²) (10533 /²)

"1" :


  • 34 43% , 37% ,

boxplot .


«Cluster_Borough_Population_boxplot»


«Cluster_Borough_Housing_Price_boxplot»


(choropleth map)
, "1" .
, .


«Moscow_Clustering_map»


4. Result


:


  • :
    • ()
  • ,
  • (heat map) (choropleth map)

.
.


Moscow_Recomended_Borough_df


20864 ( , , ...), 928 "Gym / Fitness Center", 259 .

.


Moscow_gym_venues_df


(heat map) (choropleth map) (HTML zip ) Interactive map
.


gym_heatmap_big


gym_heatmap_smal


gym_250


5. Discussion


:


  1. , :


    • ,
    • ²,

  2. GEOJSON
  3. ( , , ...),

, GitHub .csv .


K-Means Elbow . Distortion Inertia , 3- . 5 , .
.


Pour déterminer la proximité des installations de fitness concurrentes, une approche a été utilisée consistant à afficher les centres de fitness sur une carte géographique thermique interactive. Cette approche nous a permis d'analyser visuellement la proximité des centres de fitness existants dans chaque zone et d'identifier les zones à faible densité.


Sur la base des données obtenues, une analyse supplémentaire peut être effectuée en utilisant la segmentation catégorielle des objets de fitness et le calcul automatique des emplacements recommandés pour les nouveaux centres de fitness, en tenant compte de la densité des objets de fitness concurrents.

Source: https://habr.com/ru/post/undefined/


All Articles