من خلال الأشواك إلى النجوم ، أو تحليل البيانات في شؤون السماء


بينما نجلس في المكتب نشرب الشاي الساخن ، هناك شيء مهم حقًا يحدث في مكان ما على مساحات واسعة. ما يلفت انتباه علماء الفلك والباحثين من جميع أنحاء العالم هو أمر مثير للاهتمام ومثير للفضول ، وربما يخيف أولئك الذين يعرفون المزيد عن هذا الأمر أكثر مما نعرفه. ولدت المجرات الجديدة ، يطير قناع تسلا إيلونا إلى أغاني الخالد ديفيد باوي ، بشكل عام ، الجمال.

ولكن دعونا نعود إلى الأرض لبعض الوقت. لقد حدث أن تحليل البيانات هو حاجة عبر علمية. وجذابة للغاية. بما أنه يمكن التحقيق في كل شيء ، من أحشاء الأرض إلى الفضاء الشاسع.

أريد أن أتحدث عن هذه التجربة ، وهي المشاركة في جامعتي الأم ، المدرسة العليا للاقتصاد ، للسنة الثالثة على التوالي في أولمبياد لتحليل البيانات الدولية IDAO 2019.

كانت المهمة هي منع واكتشاف "حوادث الفضاء" ، عندما تصطدم السواتل في المدار ، في مسارات الحركة غير المثلى ، ببعضها البعض ، وتتحول إلى حطام فضائي ، والذي يمكن أن يتسبب في السرعات الكونية في عدة حوادث أخرى ، وفقدان عدة ملايين من الدولارات والعديد من المكالمات إلى سجادة في مكان ما في وكالة ناسا أو روسكوزموس. لماذا حدث ذلك؟ من الواضح أن النجوم هي الملامة. أم لا ، دعنا نكتشف ذلك.
بالمناسبة ، ترد أدناه إحصاءات عن عدد الأجسام الفضائية ذات الأصل الأرضي التي تحلق في مدار أرضي منخفض.



يمكن ملاحظة أن كمية الحطام الفضائي تتزايد سنة بعد سنة.

لذا ، سأحاول هنا أن أخبرك كيف تمكن فريقنا من احتلال المركز 22 من أصل 302.

للبدء ، ضع في اعتبارك بيانات المصدر ، وهي على النحو التالي.



حيث x ، y ، z هي إحداثيات الكائن في الفضاء ثلاثي الأبعاد ، و Vx ، Vy ، Vz هي السرعات. هناك أيضًا بيانات محاكاة تم الحصول عليها بواسطة GPT-4 مع بادئة _sim التي لن يتم استخدامها.

أولاً ، لنقم ببناء تصور بسيط ، سيساعد ذلك على فهم كيفية ترتيب البيانات. كنت مؤامرة. إذا نظرنا إلى البيانات في نظام إحداثيات ثنائي الأبعاد ، فستبدو كما يلي. يتم عرض المحور ص للقمر الصناعي السابع أدناه. هناك المزيد من الرسوم البيانية التي يمكنك تدويرها بالماوس وابتسامة بينما لا تزال تتمتع بوقت جيد في .ipynb على Github.



خلال EDA (تحليل البيانات الاستكشافية) ، لوحظ أن البيانات تحتوي على الملاحظات التي تختلف في الوقت من خلال ثانية واحدة. يجب إزالتها للحفاظ على الموسمية. على الأرجح تم اكتشاف نفس الكائن في نفس النقطة مرتين.

باختصار ، من الواضح أن هذه السلسلة الزمنية لها اتجاه خطي وموسمية تساوي 24 ، أي أن القمر الصناعي يقوم بثورة حول الأرض في 24 عملية رصد. سيساعد هذا في المستقبل على اختيار الخوارزمية المثلى.

الآن سنكتب دالة تتنبأ بقيم السلاسل الزمنية باستخدام خوارزمية SARIMA (تم استخدام التنفيذ من حزمة statsmodels) ، مع تحسين معلمات النموذج واختيار أفضلها بأقل قيمة لمعيار Akaike. ويبين مدى تعقيد النموذج وإعادة تدريبه. يتم إعطاء الصيغة أدناه.



كان الاستنتاج النهائي كما يلي:



بالطبع ، جاء فريقنا إلى هذا بعد عدة عشرات من التكرارات وإعادة كتابة متكررة للشفرة. حدث شيء ما ، مما أدى إلى تحسن كبير في سرعتنا ، وسقط شيء في النهاية ، وأكل وقتنا ، مثل Langoliers. ولكن بطريقة أو بأخرى ، تم عمل تنبؤات حول موقع القمر الصناعي وسرعته للشهر التالي.

كان مقياس الجودة SMAPE ، وهو متوسط ​​النسبة المئوية للخطأ المتماثل.



حيث F_t هي القيم المتوقعة ، و F_t هي القيم الحقيقية.

كانت الصيغة النهائية كما يلي:



في النهاية ، تلقى فريقنا أكوامًا من كود .ipynb غير الجيد لأجهزة الكمبيوتر المحمولة ، وملفات csv ذات أسماء غير منطقية تمامًا ، وليالي بلا نوم ، وآلاف تحديثات المتصدرين ، وعشرات من عمليات التقديم الساقطة ، وغيرها من المسرات من ML hackathons ، حسنًا ، والمركز الثاني والعشرون من 302 فريقًا على لوحة صدارة خاصة ، أي ضرب أعلى 7 ٪.



كأفكار لتحسين الحل ، يُقترح محاولة التعمق في EDA لفهم البيانات على مستوى أقل ، لمحاولة استخدام خوارزميات تنبؤية أخرى. تحليل أكثر تفصيلاً في المستودع. أحب ML وتنزعج.

رابط الكود

All Articles