🗳️ 😜 🐃 Ingeniero de datos y científico de datos: ¿cuál es la diferencia? 👨‍👧‍👦 🏧 ☕️

Las profesiones de Data Scientist e Data Engineer a menudo se confunden. Cada empresa tiene sus propios detalles para trabajar con datos, diferentes objetivos de su análisis y una idea diferente de cuáles de los especialistas deben participar en qué parte del trabajo, por lo tanto, cada uno tiene sus propios requisitos.

Entendemos cuál es la diferencia entre estos especialistas, qué problemas empresariales resuelven, qué habilidades tienen y cuánto ganan. El material resultó ser grande, por lo que lo dividimos en dos publicaciones.

En el primer artículo, Elena Gerasimova, jefa del Departamento de Ciencia y Análisis de Datos en Netología, cuenta cuál es la diferencia entre el Científico de Datos y el Ingeniero de Datos y con qué herramientas trabajan.

Cómo difieren los roles de ingenieros y científicos

Un ingeniero de datos es un especialista que, por un lado, desarrolla, prueba y mantiene la infraestructura para trabajar con datos: bases de datos, almacenamiento y sistemas de procesamiento masivo. Por otro lado, es quien limpia y "peina" los datos para su uso por analistas y científicos de datos, es decir, crea tuberías de procesamiento de datos.

Data Scientist crea y entrena modelos predictivos (y no solo) utilizando algoritmos de aprendizaje automático y redes neuronales, ayudando a las empresas a encontrar patrones ocultos, predecir eventos y optimizar procesos clave del negocio.

La principal diferencia entre un científico de datos y un ingeniero de datos es que generalmente tienen objetivos diferentes. Ambos trabajan para garantizar que los datos sean accesibles y de alta calidad. Pero el Científico de datos encuentra respuestas a sus preguntas y prueba hipótesis en el ecosistema de datos (por ejemplo, basado en Hadoop), y el Ingeniero de datos crea una tubería para el mantenimiento de un algoritmo de aprendizaje automático escrito por un científico de datos en un grupo Spark dentro del mismo ecosistema.

Un ingeniero de datos aporta valor a un negocio al trabajar en equipo. Su tarea es actuar como un vínculo importante entre diferentes participantes: desde desarrolladores hasta consumidores de informes comerciales, y aumentar la productividad de los analistas, desde marketing y productos hasta BI.

Data Scientist, por el contrario, participa activamente en la estrategia de la compañía y extrae información, toma decisiones, implementa algoritmos de automatización, modela y genera valor a partir de datos.

El trabajo con datos obedece al principio de GIGO (basura en la basura): si los analistas y los científicos de datos manejan datos no preparados y potencialmente incorrectos, los resultados, incluso con los algoritmos de análisis más sofisticados, serán incorrectos.

Los ingenieros de datos resuelven este problema construyendo tuberías para procesar, limpiar y transformar datos y permitiendo que los científicos de datos trabajen con datos de alta calidad.

Existen muchas herramientas en el mercado para trabajar con datos que cubren cada una de las etapas: desde la aparición de los datos hasta la salida del panel de la junta directiva. Y es importante que la decisión sobre su uso sea tomada por el ingeniero, no porque esté de moda, sino porque realmente ayudará al resto de los participantes en el trabajo.

Condicionalmente: si la empresa necesita hacerse amigo de BI y ETL, descargando datos y actualizando informes, aquí hay una base heredada típica con la que el Ingeniero de datos tendrá que ocuparse (bueno, si el equipo tiene un arquitecto además de él).

Responsabilidades del ingeniero de datos

Desarrollo, construcción y mantenimiento de infraestructura de datos.
Manejo de errores y la creación de tuberías confiables de procesamiento de datos.
Trayendo datos no estructurados de varias fuentes dinámicas a la forma necesaria para el trabajo de los analistas.
.
, - .
.
, , .
( ).

Hay otra especialización dentro de la trayectoria del ingeniero de datos: el ingeniero de ML. En resumen, dichos ingenieros se especializan en llevar los modelos de aprendizaje automático a la implementación y el uso industrial. A menudo, un modelo recibido de un científico de datos es parte del estudio y puede no funcionar en combate.

Responsabilidades del científico de datos

Extraer características de los datos para aplicar algoritmos de aprendizaje automático.
Uso de varias herramientas de aprendizaje automático para predecir y clasificar patrones en datos.
Mejora del rendimiento y la precisión de los algoritmos de aprendizaje automático mediante el ajuste y la optimización de algoritmos.
Formación de hipótesis "fuertes" de acuerdo con la estrategia de la empresa, que deben verificarse.

Data Engineer, Data Scientist , .

Hoy, las expectativas de los profesionales de procesamiento de datos han cambiado. Anteriormente, los ingenieros recopilaban grandes consultas SQL, escribían manualmente MapReduce y procesaban los datos utilizando herramientas como Informatica ETL, Pentaho ETL, Talend.

En 2020, un especialista no puede prescindir del conocimiento de Python y de las herramientas modernas para la informática (por ejemplo, Airflow), comprender los principios de trabajar con plataformas en la nube (usarlas para ahorrar en hardware y observar los principios de seguridad).

SAP, Oracle, MySQL, Redis son herramientas tradicionales para un ingeniero de datos en grandes empresas. Son buenos, pero el costo de las licencias es tan alto que aprender a trabajar con ellas solo tiene sentido en proyectos industriales. Al mismo tiempo, existe una alternativa gratuita en forma de Postgres: es gratuita y es adecuada no solo para el entrenamiento.

Históricamente, Java y Scala se solicitan con frecuencia, aunque a medida que las tecnologías y los enfoques evolucionan, estos lenguajes se desvanecen en el fondo.

Sin embargo, el BigData hardcore: Hadoop, Spark y el resto del zoológico ya no es un requisito previo para un ingeniero de datos, sino un tipo de herramienta para resolver tareas que el ETL tradicional no puede resolver.

En la tendencia están los servicios para usar herramientas sin conocer el idioma en el que están escritos (por ejemplo, Hadoop sin conocimiento de Java), así como proporcionar servicios listos para procesar datos de transmisión (reconocimiento de voz o imagen en video).

Las soluciones industriales de SAS y SPSS son populares, con Tableau, Rapidminer, Stata y Julia también ampliamente utilizadas por los científicos de datos para tareas locales.

Los analistas y los científicos de datos solo tuvieron la oportunidad de construir tuberías hace un par de años: por ejemplo, ya es posible enviar datos al almacenamiento basado en PostgreSQL con scripts relativamente simples.

Por lo general, el uso de tuberías y estructuras de datos integradas sigue siendo responsabilidad de los ingenieros de datos. Pero hoy, más que nunca, la tendencia es fuerte para los especialistas en forma de T, con amplias competencias en campos relacionados, porque las herramientas se simplifican constantemente.

Por qué el ingeniero de datos y el científico de datos trabajan juntos

Trabajando en estrecha colaboración con los ingenieros, Data Scientist puede centrarse en la parte de investigación, creando algoritmos de aprendizaje automático listos para usar.
Y los ingenieros se centran en la escalabilidad, la reutilización de datos y aseguran que los canales de entrada y salida de datos en cada proyecto individual sean consistentes con la arquitectura global.

Esta separación de funciones garantiza la coherencia entre los equipos de especialistas que trabajan en diferentes proyectos de aprendizaje automático.

La colaboración ayuda a crear efectivamente nuevos productos. La velocidad y la calidad se logran gracias a un equilibrio entre la creación de un servicio para todos (almacenamiento global o integración de paneles) y la implementación de cada necesidad o proyecto específico (tubería altamente especializada, conexión de fuentes externas).

Trabajar en estrecha colaboración con los científicos y analistas de datos ayuda a los ingenieros a desarrollar habilidades analíticas y de investigación para escribir un mejor código. El intercambio de conocimientos entre los usuarios de los almacenes de datos y los lagos de datos mejora, lo que hace que los proyectos sean más flexibles y proporciona resultados más sostenibles a largo plazo.

En las empresas que tienen como objetivo desarrollar una cultura de trabajo con datos y construir procesos comerciales basados en ellos, el Científico de Datos y el Ingeniero de Datos se complementan entre sí y crean un sistema completo de análisis de datos.

En el próximo artículo, hablaremos sobre qué tipo de educación deberían tener los ingenieros de datos y los científicos de datos, qué habilidades necesitan desarrollar y cómo funciona el mercado.

De los editores de Netology.

Si observa de cerca la profesión de ingeniero de datos o científico de datos, lo invitamos a estudiar los programas de nuestros cursos:

Profesión " Ingeniero de datos ".
Profesión Data Scientist .

Ingeniero de datos y científico de datos: ¿cuál es la diferencia?

Cómo difieren los roles de ingenieros y científicos

Por qué el ingeniero de datos y el científico de datos trabajan juntos

De los editores de Netology.

More articles: