Data Engineer und Data Scientist: Was ist der Unterschied?

Die Berufe von Data Scientist und Data Engineer werden oft verwechselt. Jedes Unternehmen hat seine eigenen Besonderheiten bei der Arbeit mit Daten, unterschiedliche Analysezwecke und eine unterschiedliche Vorstellung davon, welcher der Spezialisten in welchen Teil der Arbeit einbezogen werden soll. Daher hat jedes Unternehmen seine eigenen Anforderungen. 

Wir verstehen, was der Unterschied zwischen diesen Spezialisten ist, welche geschäftlichen Probleme sie lösen, welche Fähigkeiten sie haben und wie viel sie verdienen. Das Material stellte sich als groß heraus, daher haben wir es in zwei Veröffentlichungen unterteilt.

Im ersten Artikel erklärt Elena Gerasimova, Leiterin der Abteilung für Datenwissenschaft und Analytik in der Netologie, was der Unterschied zwischen Data Scientist und Data Engineer ist und mit welchen Tools sie arbeiten.

Wie sich die Rollen von Ingenieuren und Wissenschaftlern unterscheiden


Ein Dateningenieur ist ein Spezialist, der einerseits die Infrastruktur für die Arbeit mit Daten entwickelt, testet und wartet: Datenbanken, Speicher- und Massenverarbeitungssysteme. Auf der anderen Seite ist es derjenige, der die Daten für Analysten und Datenwissenschaftler bereinigt und "kämmt", dh Datenverarbeitungs-Pipelines erstellt.

Data Scientist erstellt und trainiert Vorhersagemodelle (und nicht nur) mithilfe von Algorithmen für maschinelles Lernen und neuronalen Netzen. So können Unternehmen versteckte Muster finden, Ereignisse vorhersagen und wichtige Geschäftsprozesse optimieren.

Der Hauptunterschied zwischen einem Data Scientist und einem Data Engineer besteht darin, dass sie normalerweise unterschiedliche Ziele verfolgen. Beide arbeiten daran, dass Daten zugänglich und von hoher Qualität sind. Der Data Scientist findet jedoch Antworten auf seine Fragen und testet Hypothesen im Datenökosystem (z. B. basierend auf Hadoop). Der Data Engineer erstellt eine Pipeline für die Wartung eines Algorithmus für maschinelles Lernen, der von einem Datenwissenschaftler in einem Spark-Cluster innerhalb desselben Ökosystems geschrieben wurde. 

Ein Dateningenieur bringt Wert in ein Unternehmen, indem er als Team arbeitet. Seine Aufgabe ist es, als wichtiges Bindeglied zwischen verschiedenen Teilnehmern zu fungieren: von Entwicklern bis zu Verbrauchern, die Geschäftsberichte erstellen, und die Produktivität von Analysten zu steigern - von Marketing und Produkt bis hin zu BI. 

Im Gegensatz dazu ist Data Scientist aktiv an der Strategie des Unternehmens beteiligt und extrahiert Erkenntnisse, trifft Entscheidungen, implementiert Automatisierungsalgorithmen, modelliert und generiert Wert aus Daten.


Die Arbeit mit Daten folgt dem GIGO-Prinzip (Garbage In - Garbage Out): Wenn Analysten und Datenwissenschaftler mit unvorbereiteten und möglicherweise falschen Daten umgehen, sind die Ergebnisse selbst mit den ausgefeiltesten Analysealgorithmen falsch. 

Dateningenieure lösen dieses Problem, indem sie Pipelines für die Verarbeitung, Bereinigung und Transformation von Daten erstellen und es Datenwissenschaftlern ermöglichen, mit qualitativ hochwertigen Daten zu arbeiten. 

Auf dem Markt gibt es viele Tools für die Arbeit mit Daten, die die einzelnen Phasen abdecken: vom Erscheinungsbild der Daten über die Ausgabe bis zum Dashboard für den Verwaltungsrat. Und es ist wichtig, dass die Entscheidung über ihre Verwendung vom Ingenieur getroffen wird, nicht weil es in Mode ist, sondern weil es dem Rest der Teilnehmer an der Arbeit wirklich hilft. 

Bedingt: Wenn sich das Unternehmen mit BI und ETL anfreunden muss - Daten herunterladen und Berichte aktualisieren -, ist hier eine typische Legacy-Grundlage, mit der sich der Dateningenieur befassen muss (na ja, wenn das Team einen Architekten neben sich hat).

Verantwortlichkeiten des Dateningenieurs

  • Entwicklung, Bau und Wartung der Dateninfrastruktur.
  • Fehlerbehandlung und Erstellung zuverlässiger Datenverarbeitungs-Pipelines.
  • Bringen Sie unstrukturierte Daten aus verschiedenen dynamischen Quellen in die Form, die für die Arbeit von Analysten erforderlich ist.
  • .
  • , - .
  • .
  • , , .
  • ( ).

Es gibt eine weitere Spezialisierung innerhalb der Flugbahn des Data Engineer - ML Engineer. Kurz gesagt, solche Ingenieure sind darauf spezialisiert, Modelle für maschinelles Lernen für den industriellen Einsatz und die industrielle Verwendung bereitzustellen. Oft ist ein Modell, das von einem Datenwissenschaftler erhalten wurde, Teil der Studie und funktioniert möglicherweise nicht im Kampf.

Verantwortlichkeiten des Data Scientist

  • Extrahieren Sie Funktionen aus Daten, um Algorithmen für maschinelles Lernen anzuwenden.
  • Verwendung verschiedener maschineller Lernwerkzeuge zur Vorhersage und Klassifizierung von Mustern in Daten.
  • Verbesserung der Leistung und Genauigkeit von Algorithmen für maschinelles Lernen durch Feinabstimmung und Optimierung von Algorithmen.
  • Bildung von „starken“ Hypothesen gemäß der Unternehmensstrategie, die überprüft werden müssen.

Data Engineer, Data Scientist , .


Heute haben sich die Erwartungen von Datenverarbeitungsfachleuten geändert. Zuvor sammelten Ingenieure große SQL-Abfragen, schrieben MapReduce manuell und verarbeiteten die Daten mit Tools wie Informatica ETL, Pentaho ETL und Talend. 

Im Jahr 2020 kann ein Spezialist nicht ohne Kenntnisse von Python und modernen Tools für die Datenverarbeitung (z. B. Airflow) auskommen, um die Prinzipien der Arbeit mit Cloud-Plattformen zu verstehen (um Hardware zu sparen und gleichzeitig die Sicherheitsprinzipien zu beachten).

SAP, Oracle, MySQL, Redis - dies sind traditionelle Tools für einen Dateningenieur in großen Unternehmen. Sie sind gut, aber die Kosten für Lizenzen sind so hoch, dass das Erlernen der Arbeit mit ihnen nur in Industrieprojekten sinnvoll ist. Gleichzeitig gibt es eine kostenlose Alternative in Form von Postgres - sie ist kostenlos und nicht nur für das Training geeignet. 


In der Vergangenheit wurden häufig Java und Scala angefordert, obwohl diese Sprachen im Zuge der Entwicklung von Sprachen und Technologien in den Hintergrund treten.

Trotzdem ist der Hardcore BigData: Hadoop, Spark und der Rest des Zoos keine Voraussetzung mehr für einen Dateningenieur, sondern eine Art Werkzeug zur Lösung von Aufgaben, die herkömmliche ETL nicht lösen können. 

Im Trend sind Dienste zur Verwendung von Tools ohne Kenntnis der Sprache, in der sie geschrieben sind (z. B. Hadoop ohne Java-Kenntnisse) sowie vorgefertigte Dienste zur Verarbeitung von Streaming-Daten (Sprach- oder Bilderkennung auf Video).

Industrielle Lösungen von SAS und SPSS sind beliebt, wobei Tableau, Rapidminer, Stata und Julia auch von Datenwissenschaftlern häufig für lokale Aufgaben verwendet werden.


Analysten und Datenwissenschaftler hatten erst vor einigen Jahren die Möglichkeit, Pipelines zu erstellen: So ist es beispielsweise bereits möglich, Daten mit relativ einfachen Skripten an PostgreSQL-basierten Speicher zu senden. 

In der Regel liegt die Verwendung von Pipelines und integrierten Datenstrukturen in der Verantwortung der Dateningenieure. Heute ist der Trend für T-förmige Spezialisten mehr denn je stark - mit breiten Kompetenzen in verwandten Bereichen, da die Werkzeuge ständig vereinfacht werden.

Warum Data Engineer und Data Scientist zusammenarbeiten


In enger Zusammenarbeit mit Ingenieuren kann sich Data Scientist auf den Forschungsteil konzentrieren und einsatzbereite Algorithmen für maschinelles Lernen erstellen.
Die Ingenieure konzentrieren sich auf Skalierbarkeit und Wiederverwendung von Daten und stellen sicher, dass die Dateneingabe- und -ausgabepipelines in jedem einzelnen Projekt mit der globalen Architektur übereinstimmen.

Diese Aufgabentrennung gewährleistet die Kohärenz zwischen Spezialistenteams, die an verschiedenen Projekten für maschinelles Lernen arbeiten. 

Durch die Zusammenarbeit können neue Produkte effektiv erstellt werden. Geschwindigkeit und Qualität werden durch ein ausgewogenes Verhältnis zwischen der Erstellung eines Dienstes für alle (globale Speicherung oder Integration von Dashboards) und der Implementierung jedes spezifischen Bedarfs oder Projekts (hochspezialisierte Pipeline, Anschluss externer Quellen) erreicht. 

Die enge Zusammenarbeit mit Datenwissenschaftlern und Analysten hilft Ingenieuren, Analyse- und Forschungsfähigkeiten zu entwickeln, um besseren Code zu schreiben. Der Wissensaustausch zwischen Benutzern von Data Warehouses und Data Lakes wird verbessert, wodurch Projekte flexibler werden und langfristig nachhaltigere Ergebnisse erzielt werden.

In Unternehmen, die eine Kultur der Arbeit mit Daten entwickeln und darauf basierende Geschäftsprozesse aufbauen möchten, ergänzen sich Data Scientist und Data Engineer und erstellen ein vollständiges Datenanalysesystem. 

Im nächsten Artikel werden wir darüber sprechen, welche Art von Ausbildung Data Engineer und Data Scientists haben sollten, welche Fähigkeiten sie entwickeln müssen und wie der Markt funktioniert.

Von den Herausgebern von Netology


Wenn Sie sich den Beruf des Dateningenieurs oder Datenwissenschaftlers genau ansehen, laden wir Sie ein, die Programme unserer Kurse zu studieren:


All Articles