مهندس بيانات وعالم بيانات: ما الفرق؟

غالبًا ما يتم الخلط بين مهن عالم البيانات ومهندس البيانات. لكل شركة خصائصها الخاصة في العمل مع البيانات ، والأهداف المختلفة لتحليلها وفكرة مختلفة عن أي من المتخصصين يجب أن يشارك في أي جزء من العمل ، وبالتالي فإن لكل منها متطلباتها الخاصة. 

نحن نفهم ما هو الفرق بين هؤلاء المتخصصين ، وما هي المشاكل التجارية التي يقومون بحلها ، وما المهارات التي يمتلكونها وكم يكسبون. تبين أن المواد كبيرة ، لذلك قمنا بتقسيمها إلى منشورين.

في المقالة الأولى ، تخبر Elena Gerasimova ، رئيسة قسم علوم البيانات والتحليلات في Netology ، الفرق بين عالم البيانات ومهندس البيانات والأدوات التي يعملون بها.

كيف تختلف أدوار المهندسين والعلماء


مهندس البيانات هو متخصص يقوم ، من جهة ، بتطوير واختبار وصيانة البنية التحتية للعمل مع البيانات: قواعد البيانات والتخزين وأنظمة معالجة الكتلة. من ناحية أخرى ، هو الشخص الذي ينظف و "يمشط" البيانات لاستخدامها من قبل المحللين وعلماء البيانات ، أي أنه ينشئ خطوط معالجة البيانات.

يعمل عالم البيانات على إنشاء نماذج تنبؤية (وليس فقط) وتدريبها باستخدام خوارزميات التعلم الآلي والشبكات العصبية ، ومساعدة الشركات في العثور على الأنماط المخفية ، والتنبؤ بالأحداث وتحسين العمليات التجارية الرئيسية.

الفرق الرئيسي بين عالم البيانات ومهندس البيانات هو أنهما عادة ما يكون لهما أهداف مختلفة. كلاهما يعمل لضمان وصول البيانات وجودة عالية. لكن عالم البيانات يجد إجابات لأسئلته واختبارات الفرضيات في النظام البيئي للبيانات (على سبيل المثال ، استنادًا إلى Hadoop) ، ويقوم مهندس البيانات بإنشاء خط أنابيب لخدمة خوارزمية التعلم الآلي التي كتبها عالم البيانات في مجموعة Spark داخل نفس النظام البيئي. 

مهندس البيانات يجلب قيمة للأعمال من خلال العمل كفريق. وتتمثل مهمتها في العمل كحلقة وصل مهمة بين مختلف المشاركين: من المطورين إلى المستهلكين الذين يقومون بالإبلاغ عن الأعمال ، وزيادة إنتاجية المحللين - من التسويق والمنتج إلى BI. 

على العكس من ذلك ، يشارك عالم البيانات بنشاط في استراتيجية الشركة واستخراج الرؤى واتخاذ القرارات وتنفيذ خوارزميات الأتمتة والنمذجة وتوليد القيمة من البيانات.


يعمل العمل مع البيانات وفقًا لمبدأ GIGO (القمامة في الداخل - القمامة خارجًا): إذا تعامل المحللون وعلماء البيانات مع البيانات غير المستعدة والتي يحتمل أن تكون غير صحيحة ، فإن النتائج ، حتى مع خوارزميات التحليل الأكثر تعقيدًا ، ستكون غير صحيحة. 

يقوم مهندسو البيانات بحل هذه المشكلة عن طريق بناء خطوط الأنابيب لمعالجة البيانات وتنظيفها وتحويلها والسماح لعالم البيانات بالعمل مع بيانات عالية الجودة. 

هناك العديد من الأدوات في السوق للعمل مع البيانات التي تغطي كل مرحلة من المراحل: من ظهور البيانات إلى الإخراج إلى لوحة المعلومات الخاصة بمجلس الإدارة. ومن المهم أن يتم اتخاذ القرار بشأن استخدامها من قبل المهندس ، ليس لأنه من المألوف ، ولكن لأنه سيساعد حقًا بقية المشاركين في العمل. 

بشكل مشروط: إذا كانت الشركة بحاجة إلى تكوين صداقات مع BI و ETL - تنزيل البيانات وتحديث التقارير ، فإليك أساس إرث نموذجي سيتعين على مهندس البيانات التعامل معه (حسنًا ، إذا كان لدى الفريق مهندس معماري بجانبه).

مسؤوليات مهندس البيانات

  • تطوير وبناء وصيانة البنية التحتية للبيانات.
  • معالجة الأخطاء وإنشاء خطوط معالجة بيانات موثوقة.
  • إحضار البيانات غير المنظمة من مصادر ديناميكية مختلفة إلى النموذج الضروري لعمل المحللين.
  • .
  • , - .
  • .
  • , , .
  • ( ).

هناك تخصص آخر ضمن مسار مهندس البيانات - مهندس ML. باختصار ، يتخصص هؤلاء المهندسون في جلب نماذج التعلم الآلي إلى النشر والاستخدام الصناعي. غالبًا ما يكون النموذج الذي يتم تلقيه من عالم البيانات جزءًا من الدراسة وقد لا يعمل في القتال.

مسؤوليات عالم البيانات

  • استخلاص الميزات من البيانات لتطبيق خوارزميات التعلم الآلي.
  • استخدام أدوات تعلُّم الآلة المتنوعة للتنبؤ بالأنماط وتصنيفها في البيانات.
  • تحسين أداء ودقة خوارزميات التعلم الآلي من خلال الضبط الدقيق وتحسين الخوارزميات.
  • تشكيل فرضيات "قوية" وفقاً لاستراتيجية الشركة التي يجب التحقق منها.

Data Engineer, Data Scientist , .


اليوم ، تغيرت توقعات المتخصصين في معالجة البيانات. في السابق ، كان المهندسون يجمعون استعلامات SQL كبيرة ، وكتبوا MapReduce يدويًا ومعالجة البيانات باستخدام أدوات مثل Informatica ETL و Pentaho ETL و Talend. 

في عام 2020 ، لا يمكن للمتخصص الاستغناء عن معرفة Python والأدوات الحديثة للحوسبة (على سبيل المثال ، تدفق الهواء) ، وفهم مبادئ العمل مع المنصات السحابية (استخدامها لتوفير على الأجهزة ، مع مراعاة مبادئ الأمان).

SAP و Oracle و MySQL و Redis هي أدوات تقليدية لمهندس البيانات في الشركات الكبيرة. إنها جيدة ، لكن تكلفة التراخيص عالية جدًا لدرجة أن تعلم العمل معها لا معنى له إلا في المشاريع الصناعية. في الوقت نفسه ، هناك بديل مجاني في شكل Postgres - إنه مجاني ومناسب ليس فقط للتدريب. 


تاريخياً ، يتم طلب Java و Scala بشكل متكرر ، على الرغم من تطور التقنيات والأساليب ، تتلاشى هذه اللغات في الخلفية.

ومع ذلك ، فإن BigData المتشدد: Hadoop و Spark وبقية حديقة الحيوانات لم يعد شرطًا أساسيًا لمهندس البيانات ، ولكنه نوع من الأدوات لحل المهام التي لا يمكن لـ ETL التقليدية حلها. 

في الاتجاه ، هناك خدمات لاستخدام الأدوات بدون معرفة اللغة التي كُتبت بها (على سبيل المثال ، Hadoop بدون معرفة Java) ، بالإضافة إلى تقديم خدمات جاهزة لمعالجة دفق البيانات (التعرف على الصوت أو الصورة على الفيديو).

تحظى الحلول الصناعية من SAS و SPSS بشعبية كبيرة ، حيث يستخدم Tableau و Rapidminer و Stata و Julia أيضًا على نطاق واسع من قبل علماء البيانات للمهام المحلية.


كان لدى المحللين وعلماء البيانات الفرصة فقط لبناء خطوط الأنابيب قبل بضع سنوات: على سبيل المثال ، من الممكن بالفعل إرسال البيانات إلى التخزين القائم على PostgreSQL باستخدام نصوص بسيطة نسبيًا. 

عادة ، يبقى استخدام خطوط الأنابيب وهياكل البيانات المتكاملة مسؤولية مهندسي البيانات. ولكن اليوم ، أكثر من أي وقت مضى ، أصبح الاتجاه قويًا للمتخصصين على شكل حرف T - مع كفاءات واسعة في المجالات ذات الصلة ، لأنه يتم تبسيط الأدوات باستمرار.

لماذا يعمل مهندس البيانات وعلم البيانات معًا


من خلال العمل عن كثب مع المهندسين ، يمكن لعالم البيانات التركيز على الجزء البحثي ، وإنشاء خوارزميات تعلم الآلة الجاهزة للاستخدام.
ويركز المهندسون على قابلية التوسع ، وإعادة استخدام البيانات والتأكد من أن خطوط أنابيب الإدخال والإخراج في كل مشروع فردي تتوافق مع البنية العالمية.

يضمن هذا الفصل بين المهام الاتساق بين فرق المتخصصين العاملين في مشاريع التعلم الآلي المختلفة. 

يساعد التعاون على إنشاء منتجات جديدة بشكل فعال. يتم تحقيق السرعة والجودة بفضل التوازن بين إنشاء خدمة للجميع (تخزين عالمي أو دمج لوحات المعلومات) وتنفيذ كل حاجة أو مشروع محدد (خط أنابيب عالي التخصص ، وربط مصادر خارجية). 

يساعد العمل عن كثب مع علماء البيانات والمحللين المهندسين على تطوير المهارات التحليلية والبحثية لكتابة كود أفضل. يتحسن تبادل المعرفة بين مستخدمي مستودعات البيانات وبحيرات البيانات ، مما يجعل المشاريع أكثر مرونة ويوفر نتائج أكثر استدامة على المدى الطويل.

في الشركات التي تهدف إلى تطوير ثقافة العمل مع البيانات وبناء العمليات التجارية على أساسها ، يكمل عالم البيانات ومهندس البيانات بعضهما البعض وإنشاء نظام تحليل بيانات كامل. 

في المقالة التالية ، سنتحدث عن نوع التعليم الذي يجب أن يتمتع به مهندس البيانات وعلماء البيانات ، والمهارات التي يحتاجونها لتطويرها ، وكيف يعمل السوق.

من محرري Netology


إذا نظرت عن كثب إلى مهنة مهندس البيانات أو عالم البيانات ، فإننا ندعوك لدراسة برامج دوراتنا:


All Articles