Este artigo é uma visão geral da certificação IBM Data Science Professional Certificate .
Como iniciante em Python, tive que lidar com a implementação de tarefas:
- Carregando e analisando tabelas HTML
- Limpando Dados Carregados
- Pesquise coordenadas geográficas pelo endereço do objeto
- Faça o download e processe GEOJSON
- Construindo mapas de calor interativos (mapa de calor)
- Construção de cartogramas interativos em segundo plano (mapa de coroas)
- Transformação de coordenadas geográficas entre um WGS84 esférico e um sistema de coordenadas cartesianas UTM
- Representação de objetos geográficos espaciais na forma de uma grade hexagonal de círculos
- Pesquise recursos geográficos localizados a uma distância específica de um ponto
- Georreferenciamento de recursos geográficos para polígonos de superfície complexos
- Análise Estatística Descritiva
- Análise de variáveis categóricas e visualização de resultados
- Análise de correlação e visualização de resultados
- Segmentação usando o agrupamento k-Mean e o método do cotovelo
- Análise e visualização de clusters
Durante a certificação, foram necessários 9 cursos:
3 .
«Python for Data Science and AI» «Databases and SQL for Data Science» , .
«Data Analysis with Python», «Data Visualization with Python», «Machine Learning with Python» . Python.
Applied Data Science Capstone – , Python, .
Applied Data Science Capstone.
— Github.
— 700 .
.
Python
1. Introduction
1.1 Background
— 12 . 2561.5 ², 4924.96 /² 1.
12 (125 , 2 , 19 ) 30429 /² "", 560 /² "" 2.
68,768 /² "" 438,568 /² "" 3.
1.2 Business Problem
, , , . () .
, , , .
, , , .
:
2. Data acquisition and cleaning
2.2. Data requirements
, :
, :
GEOJSON
( , , ...),
2.3. Describe data sources
HTML .
Nominatim. , , , .
GEOJSON
( , ..) Foursquare API. , . 100 1000 . :
- , 100 .
- , Foursquare API .
- , Foursquare API ( )
- .
2.4. Describe data cleansing
HTML , . :
- ' \n\t', ' ', ''
- "" ""
- float int
146 :
- Borough_Name — —
- District_Name — ,
- Borough_Type —
- OKATO_Borough_Code — OKATO
- OKTMO_District_Code — OKTMO
- Borough_Area —
- Borough_Population —
- Borough_Population_Density —
- Borough_Housing_Area — .
- Borough_Housing_Area_Per_Person —
- Borough_Housing_Price —
.

Nominatim, , ( 10 ) .
. , Foursquare API.

, ( , , ...), , . 28 000 .
. Foursquare API.

Forsquare API, 34460 ( , , ...) 7899 .
(350 ) , (300 ), .
27622 28 000 .
, , . GEOJSON .
, , .
, .
20864 ( , , ...), 120 . .
.

" " " ".

3. Methodology
:
:
, . .
3.1. Exploratory Data Analysis
:
- District_Name — ,
- Borough_Area —
- Borough_Population —
- Borough_Population_Density —
- Borough_Housing_Area — .
- Borough_Housing_Price —
.

, 12 194 253 943 .
109 421 /² 438 568 /².
District_Name Borough_Population. , District_Name , , «», «», «» «».

District_Name Borough_Housing_Price. , , District_Name .

.
.
. (p-value):
- p-value < 0.001: ,
- p-value is < 0.05: ,
- p-value is < 0.1: ,
- p-value is > 0.1: ,


- Borough_Area, Borough_Population_Density Borough_Population ,
- Borough_Housing_Area Borough_Population ,
- Borough_Area, Borough_Population_Density, Borough_Housing_Area Borough_Housing_Price ,
- Borough_Area Borough_Population_Density ,
3.2. Clustering
, , .
, K-Means Elbow , , .
Elbow , ( 1 10). (distortion) (inertia).
Distortion Inertia .
(elbows) 3 5 .
3- .


, K-Means , :

:
- "0" — (78538 ), (173695 /²) (10328 /²)
- "1" — (153187 ), (160741 /²) (13312 /²)
- "2" — (79805 ), (333794 /²) (10533 /²)
"1" :
boxplot .


(choropleth map)
, "1" .
, .

4. Result
:
- :
- ,
- (heat map) (choropleth map)
.
.

20864 ( , , ...), 928 "Gym / Fitness Center", 259 .
.

(heat map) (choropleth map) (HTML zip ) Interactive map
.



5. Discussion
:
, :
- GEOJSON
- ( , , ...),
, GitHub .csv .
K-Means Elbow . Distortion Inertia , 3- . 5 , .
.
Para determinar a proximidade das instalações de fitness concorrentes, foi utilizada uma abordagem que consistia na exibição de academias de ginástica em um mapa geográfico térmico interativo. Essa abordagem nos permitiu analisar visualmente a proximidade dos fitness centers existentes em cada área e identificar áreas com baixa densidade.
Com base nos dados obtidos, uma análise adicional pode ser realizada usando a segmentação categórica de objetos de condicionamento físico e o cálculo automático dos locais recomendados para novos centros de condicionamento físico, levando em consideração a densidade dos objetos de condicionamento concorrentes.