Certificado profesional de IBM Data Science Certified

Este artículo es una descripción general de la certificación de certificado de IBM Data Science Professional .


Como novato en Python, tuve que lidiar con la implementación de tareas:


  • Cargando y analizando tablas HTML
  • Limpieza de datos cargados
  • Buscar coordenadas geográficas en la dirección del objeto
  • Descargar y procesar GEOJSON
  • Construcción de mapas de calor interactivos (mapa de calor)
  • Construcción de cartogramas de fondo interactivos (mapa coroplético)
  • Transformación de coordenadas geográficas entre un WGS84 esférico y un sistema de coordenadas cartesianas UTM
  • Representación de objetos geográficos espaciales en forma de una cuadrícula hexagonal de círculos.
  • Busque características geográficas ubicadas a una distancia específica de un punto
  • Georreferenciación de características geográficas a polígonos de superficie complejos
  • Análisis estadístico descriptivo
  • Análisis de variables categóricas y visualización de resultados.
  • Análisis de correlación y visualización de resultados.
  • Segmentación usando el agrupamiento k-Mean y el método del codo
  • Análisis y visualización de clusters.

Durante la certificación, se requirieron 9 cursos:



3 .
«Python for Data Science and AI» «Databases and SQL for Data Science» , .


«Data Analysis with Python», «Data Visualization with Python», «Machine Learning with Python» . Python.


Applied Data Science Capstone – , Python, .


Applied Data Science Capstone.


Github.
— 700 .


.


Python




1. Introduction


1.1 Background


— 12 . 2561.5 ², 4924.96 /² 1.


12 (125 , 2 , 19 ) 30429 /² "", 560 /² "" 2.


68,768 /² "" 438,568 /² "" 3.


1.2 Business Problem


, , , . () .


, , , .


, , , .


:


  • ()

2. Data acquisition and cleaning


2.2. Data requirements


, :


  1. , :


    • ,
    • ²,


  2. GEOJSON


  3. ( , , ...),



2.3. Describe data sources


HTML .


  • ²,

Nominatim. , , , .


GEOJSON


( , ..) Foursquare API. , . 100 1000 . :


  • , 100 .
  • , Foursquare API .
  • , Foursquare API ( )
  • .

2.4. Describe data cleansing


HTML , . :


  • ' \n\t', ' ', ''
  • "" ""
  • float int

146 :


  • Borough_Name — —
  • District_Name — ,
  • Borough_Type
  • OKATO_Borough_Code — OKATO
  • OKTMO_District_Code — OKTMO
  • Borough_Area
  • Borough_Population
  • Borough_Population_Density
  • Borough_Housing_Area — .
  • Borough_Housing_Area_Per_Person
  • Borough_Housing_Price


.


Conjunto de datos de los distritos de Moscú


Nominatim, , ( 10 ) .


. , Foursquare API.


Ciudades de la ciudad de Moscú


, ( , , ...), , . 28 000 .


. Foursquare API.


Ejemplo de la cuadrícula hexagonal de candidatos de área


Forsquare API, 34460 ( , , ...) 7899 .


(350 ) , (300 ), .


27622 28 000 .


, , . GEOJSON .
, , .


, .


20864 ( , , ...), 120 . .
.


Conjunto de datos de lugares de Moscú


" " " ".


Ejemplo de algunos distritos de Moscú y sus lugares


3. Methodology


:


  • /

:


  • , ,
  • K-Mean

, . .


3.1. Exploratory Data Analysis


:


  • District_Name — ,
  • Borough_Area
  • Borough_Population
  • Borough_Population_Density
  • Borough_Housing_Area — .
  • Borough_Housing_Price

.


Análisis estadístico descriptivo.


, 12 194 253 943 .
109 421 /² 438 568 /².


District_Name Borough_Population. , District_Name , , «», «», «» «».


'Distrito' y 'Población'


District_Name Borough_Housing_Price. , , District_Name .


'Distrito' y 'Precio de la vivienda'


.
.


. (p-value):


  • p-value < 0.001: ,
  • p-value is < 0.05: ,
  • p-value is < 0.1: ,
  • p-value is > 0.1: ,

Matriz de correlación


Valores de la matriz de correlación


  • Borough_Area, Borough_Population_Density Borough_Population ,
  • Borough_Housing_Area Borough_Population ,
  • Borough_Area, Borough_Population_Density, Borough_Housing_Area Borough_Housing_Price ,
  • Borough_Area Borough_Population_Density ,

3.2. Clustering


, , .


, K-Means Elbow , , .


Elbow , ( 1 10). (distortion) (inertia).


Distortion Inertia .
(elbows) 3 5 .


3- .


'Elbow_Method_Distortion'


'Codo_Método_Inercia'


, K-Means , :


  • % ( )
  • % ( )


'Moscow_Clustering'


:


  • "0" — (78538 ), (173695 /²) (10328 /²)
  • "1" — (153187 ), (160741 /²) (13312 /²)
  • "2" — (79805 ), (333794 /²) (10533 /²)

"1" :


  • 34 43% , 37% ,

boxplot .


'Cluster_Borough_Population_boxplot'


'Cluster_Borough_Housing_Price_boxplot'


(choropleth map)
, "1" .
, .


'Moscow_Clustering_map'


4. Result


:


  • :
    • ()
  • ,
  • (heat map) (choropleth map)

.
.


Moscú_Recomendado_Borough_df


20864 ( , , ...), 928 "Gym / Fitness Center", 259 .

.


Moscow_gym_venues_df


(heat map) (choropleth map) (HTML zip ) Interactive map
.


gym_heatmap_big


gym_heatmap_smal


gym_250


5. Discussion


:


  1. , :


    • ,
    • ²,

  2. GEOJSON
  3. ( , , ...),

, GitHub .csv .


K-Means Elbow . Distortion Inertia , 3- . 5 , .
.


Para determinar la proximidad de las instalaciones de fitness en competencia, se utilizó un enfoque que consistía en mostrar los centros de fitness en un mapa geográfico termal interactivo. Este enfoque nos permitió analizar visualmente la proximidad de los gimnasios existentes en cada área e identificar áreas con baja densidad.


Según los datos obtenidos, se puede realizar un análisis adicional utilizando la segmentación categórica de los objetos de fitness y el cálculo automático de las ubicaciones recomendadas para los nuevos centros de fitness, teniendo en cuenta la densidad de los objetos de fitness que compiten.

Source: https://habr.com/ru/post/undefined/


All Articles