IBM Data Science Professional-Zertifikat zertifiziert

Dieser Artikel gibt einen Überblick über die Zertifizierung von IBM Data Science Professional- Zertifikaten .


Als Neuling in Python musste ich mich mit der Implementierung von Aufgaben befassen:


  • Laden und Parsen von HTML-Tabellen
  • Hochgeladene Daten bereinigen
  • Suchen Sie nach geografischen Koordinaten an der Adresse des Objekts
  • Laden Sie GEOJSON herunter und verarbeiten Sie es
  • Erstellen interaktiver Wärmekarten (Wärmekarte)
  • Erstellen interaktiver Hintergrundkartogramme (Choroplethenkarte)
  • Transformation geografischer Koordinaten zwischen einem sphärischen WGS84 und einem kartesischen Koordinatensystem UTM
  • Darstellung räumlicher geografischer Objekte in Form eines sechseckigen Kreisgitters
  • Suchen Sie nach geografischen Merkmalen, die sich in einer bestimmten Entfernung von einem Punkt befinden
  • Georeferenzierung geografischer Merkmale zu komplexen Oberflächenpolygonen
  • Beschreibende statistische Analyse
  • Analyse kategorialer Variablen und Visualisierung der Ergebnisse
  • Korrelationsanalyse und Visualisierung der Ergebnisse
  • Segmentierung mit k-Mean-Clustering und der Ellbogenmethode
  • Analyse und Visualisierung von Clustern

Während der Zertifizierung waren 9 Kurse erforderlich:



3 .
«Python for Data Science and AI» «Databases and SQL for Data Science» , .


«Data Analysis with Python», «Data Visualization with Python», «Machine Learning with Python» . Python.


Applied Data Science Capstone – , Python, .


Applied Data Science Capstone.


Github.
— 700 .


.


Python




1. Introduction


1.1 Background


— 12 . 2561.5 ², 4924.96 /² 1.


12 (125 , 2 , 19 ) 30429 /² "", 560 /² "" 2.


68,768 /² "" 438,568 /² "" 3.


1.2 Business Problem


, , , . () .


, , , .


, , , .


:


  • ()

2. Data acquisition and cleaning


2.2. Data requirements


, :


  1. , :


    • ,
    • ²,


  2. GEOJSON


  3. ( , , ...),



2.3. Describe data sources


HTML .


  • ²,

Nominatim. , , , .


GEOJSON


( , ..) Foursquare API. , . 100 1000 . :


  • , 100 .
  • , Foursquare API .
  • , Foursquare API ( )
  • .

2.4. Describe data cleansing


HTML , . :


  • ' \n\t', ' ', ''
  • "" ""
  • float int

146 :


  • Borough_Name — —
  • District_Name — ,
  • Borough_Type
  • OKATO_Borough_Code — OKATO
  • OKTMO_District_Code — OKTMO
  • Borough_Area
  • Borough_Population
  • Borough_Population_Density
  • Borough_Housing_Area — .
  • Borough_Housing_Area_Per_Person
  • Borough_Housing_Price


.


Datensatz der Moskauer Bezirke


Nominatim, , ( 10 ) .


. , Foursquare API.


Stadtteilbevölkerung in Moskau


, ( , , ...), , . 28 000 .


. Foursquare API.


Beispiel für das hexagonale Raster von Flächenkandidaten


Forsquare API, 34460 ( , , ...) 7899 .


(350 ) , (300 ), .


27622 28 000 .


, , . GEOJSON .
, , .


, .


20864 ( , , ...), 120 . .
.


Datensatz der Moskauer Veranstaltungsorte


" " " ".


Beispiel einiger Moskauer Bezirke und dieser Veranstaltungsorte


3. Methodology


:


  • /

:


  • , ,
  • K-Mean

, . .


3.1. Exploratory Data Analysis


:


  • District_Name — ,
  • Borough_Area
  • Borough_Population
  • Borough_Population_Density
  • Borough_Housing_Area — .
  • Borough_Housing_Price

.


Beschreibende statistische Analyse


, 12 194 253 943 .
109 421 /² 438 568 /².


District_Name Borough_Population. , District_Name , , «», «», «» «».


"Bezirk" und "Bevölkerung"


District_Name Borough_Housing_Price. , , District_Name .


"Bezirk" und "Wohnungspreis"


.
.


. (p-value):


  • p-value < 0.001: ,
  • p-value is < 0.05: ,
  • p-value is < 0.1: ,
  • p-value is > 0.1: ,

Korrelationsmatrix


Korrelationsmatrixwerte


  • Borough_Area, Borough_Population_Density Borough_Population ,
  • Borough_Housing_Area Borough_Population ,
  • Borough_Area, Borough_Population_Density, Borough_Housing_Area Borough_Housing_Price ,
  • Borough_Area Borough_Population_Density ,

3.2. Clustering


, , .


, K-Means Elbow , , .


Elbow , ( 1 10). (distortion) (inertia).


Distortion Inertia .
(elbows) 3 5 .


3- .


'Elbow_Method_Distortion'


'Elbow_Method_Inertia'


, K-Means , :


  • % ( )
  • % ( )


'Moscow_Clustering'


:


  • "0" — (78538 ), (173695 /²) (10328 /²)
  • "1" — (153187 ), (160741 /²) (13312 /²)
  • "2" — (79805 ), (333794 /²) (10533 /²)

"1" :


  • 34 43% , 37% ,

boxplot .


'Cluster_Borough_Population_boxplot'


'Cluster_Borough_Housing_Price_boxplot'


(choropleth map)
, "1" .
, .


'Moscow_Clustering_map'


4. Result


:


  • :
    • ()
  • ,
  • (heat map) (choropleth map)

.
.


Moscow_Recomended_Borough_df


20864 ( , , ...), 928 "Gym / Fitness Center", 259 .

.


Moscow_gym_venues_df


(heat map) (choropleth map) (HTML zip ) Interactive map
.


gym_heatmap_big


gym_heatmap_smal


gym_250


5. Discussion


:


  1. , :


    • ,
    • ²,

  2. GEOJSON
  3. ( , , ...),

, GitHub .csv .


K-Means Elbow . Distortion Inertia , 3- . 5 , .
.


Um die Nähe konkurrierender Fitnesseinrichtungen zu bestimmen, wurde ein Ansatz verwendet, der darin bestand, Fitnesscenter auf einer interaktiven thermischen geografischen Karte anzuzeigen. Dieser Ansatz ermöglichte es uns, die Nähe bestehender Fitnesscenter in jedem Bereich visuell zu analysieren und Bereiche mit geringer Dichte zu identifizieren.


Basierend auf den erhaltenen Daten kann eine zusätzliche Analyse unter Verwendung einer kategorialen Segmentierung von Fitnessobjekten und einer automatischen Berechnung der empfohlenen Standorte für neue Fitnesscenter unter Berücksichtigung der Dichte konkurrierender Fitnessobjekte durchgeführt werden.

Source: https://habr.com/ru/post/undefined/


All Articles