Certificado IBM Data Science Professional certificado

Este artigo é uma visão geral da certificação IBM Data Science Professional Certificate .


Como iniciante em Python, tive que lidar com a implementação de tarefas:


  • Carregando e analisando tabelas HTML
  • Limpando Dados Carregados
  • Pesquise coordenadas geográficas pelo endereço do objeto
  • Faça o download e processe GEOJSON
  • Construindo mapas de calor interativos (mapa de calor)
  • Construção de cartogramas interativos em segundo plano (mapa de coroas)
  • Transformação de coordenadas geográficas entre um WGS84 esférico e um sistema de coordenadas cartesianas UTM
  • Representação de objetos geográficos espaciais na forma de uma grade hexagonal de círculos
  • Pesquise recursos geográficos localizados a uma distância específica de um ponto
  • Georreferenciamento de recursos geográficos para polígonos de superfície complexos
  • Análise Estatística Descritiva
  • Análise de variáveis ​​categóricas e visualização de resultados
  • Análise de correlação e visualização de resultados
  • Segmentação usando o agrupamento k-Mean e o método do cotovelo
  • Análise e visualização de clusters

Durante a certificação, foram necessários 9 cursos:



3 .
«Python for Data Science and AI» «Databases and SQL for Data Science» , .


«Data Analysis with Python», «Data Visualization with Python», «Machine Learning with Python» . Python.


Applied Data Science Capstone – , Python, .


Applied Data Science Capstone.


Github.
— 700 .


.


Python




1. Introduction


1.1 Background


— 12 . 2561.5 ², 4924.96 /² 1.


12 (125 , 2 , 19 ) 30429 /² "", 560 /² "" 2.


68,768 /² "" 438,568 /² "" 3.


1.2 Business Problem


, , , . () .


, , , .


, , , .


:


  • ()

2. Data acquisition and cleaning


2.2. Data requirements


, :


  1. , :


    • ,
    • ²,


  2. GEOJSON


  3. ( , , ...),



2.3. Describe data sources


HTML .


  • ²,

Nominatim. , , , .


GEOJSON


( , ..) Foursquare API. , . 100 1000 . :


  • , 100 .
  • , Foursquare API .
  • , Foursquare API ( )
  • .

2.4. Describe data cleansing


HTML , . :


  • ' \n\t', ' ', ''
  • "" ""
  • float int

146 :


  • Borough_Name — —
  • District_Name — ,
  • Borough_Type
  • OKATO_Borough_Code — OKATO
  • OKTMO_District_Code — OKTMO
  • Borough_Area
  • Borough_Population
  • Borough_Population_Density
  • Borough_Housing_Area — .
  • Borough_Housing_Area_Per_Person
  • Borough_Housing_Price


.


Conjunto de dados dos distritos de Moscou


Nominatim, , ( 10 ) .


. , Foursquare API.


População das cidades na cidade de Moscou


, ( , , ...), , . 28 000 .


. Foursquare API.


Exemplo da grade hexagonal de candidatos à área


Forsquare API, 34460 ( , , ...) 7899 .


(350 ) , (300 ), .


27622 28 000 .


, , . GEOJSON .
, , .


, .


20864 ( , , ...), 120 . .
.


Conjunto de dados de locais de Moscou


" " " ".


Exemplo de alguns distritos de Moscou e seus locais


3. Methodology


:


  • /

:


  • , ,
  • K-Mean

, . .


3.1. Exploratory Data Analysis


:


  • District_Name — ,
  • Borough_Area
  • Borough_Population
  • Borough_Population_Density
  • Borough_Housing_Area — .
  • Borough_Housing_Price

.


Análise estatística descritiva


, 12 194 253 943 .
109 421 /² 438 568 /².


District_Name Borough_Population. , District_Name , , «», «», «» «».


'Distrito' e 'População'


District_Name Borough_Housing_Price. , , District_Name .


'Distrito' e 'Preço da habitação'


.
.


. (p-value):


  • p-value < 0.001: ,
  • p-value is < 0.05: ,
  • p-value is < 0.1: ,
  • p-value is > 0.1: ,

Matriz de correlação


Valores da matriz de correlação


  • Borough_Area, Borough_Population_Density Borough_Population ,
  • Borough_Housing_Area Borough_Population ,
  • Borough_Area, Borough_Population_Density, Borough_Housing_Area Borough_Housing_Price ,
  • Borough_Area Borough_Population_Density ,

3.2. Clustering


, , .


, K-Means Elbow , , .


Elbow , ( 1 10). (distortion) (inertia).


Distortion Inertia .
(elbows) 3 5 .


3- .


'Elbow_Method_Distortion'


'Elbow_Method_Inertia'


, K-Means , :


  • % ( )
  • % ( )


'Moscow_Clustering'


:


  • "0" — (78538 ), (173695 /²) (10328 /²)
  • "1" — (153187 ), (160741 /²) (13312 /²)
  • "2" — (79805 ), (333794 /²) (10533 /²)

"1" :


  • 34 43% , 37% ,

boxplot .


'Cluster_Borough_Population_boxplot'


'Cluster_Borough_Housing_Price_boxplot'


(choropleth map)
, "1" .
, .


'Moscow_Clustering_map'


4. Result


:


  • :
    • ()
  • ,
  • (heat map) (choropleth map)

.
.


Moscow_Recomended_Borough_df


20864 ( , , ...), 928 "Gym / Fitness Center", 259 .

.


Moscow_gym_venues_df


(heat map) (choropleth map) (HTML zip ) Interactive map
.


gym_heatmap_big


gym_heatmap_smal


gym_250


5. Discussion


:


  1. , :


    • ,
    • ²,

  2. GEOJSON
  3. ( , , ...),

, GitHub .csv .


K-Means Elbow . Distortion Inertia , 3- . 5 , .
.


Para determinar a proximidade das instalações de fitness concorrentes, foi utilizada uma abordagem que consistia na exibição de academias de ginástica em um mapa geográfico térmico interativo. Essa abordagem nos permitiu analisar visualmente a proximidade dos fitness centers existentes em cada área e identificar áreas com baixa densidade.


Com base nos dados obtidos, uma análise adicional pode ser realizada usando a segmentação categórica de objetos de condicionamento físico e o cálculo automático dos locais recomendados para novos centros de condicionamento físico, levando em consideração a densidade dos objetos de condicionamento concorrentes.

Source: https://habr.com/ru/post/undefined/


All Articles