Durch Dornen zu den Sternen oder Datenanalyse in den Angelegenheiten des Himmels


Während wir im Büro sitzen und heißen Tee trinken, passiert irgendwo in den Weiten des Weltraums etwas wirklich Wichtiges. Was Astronomen und Forscher aus aller Welt auffällt, ist faszinierend, faszinierend und erschreckt vielleicht diejenigen, die etwas mehr darüber wissen als wir. Neue Galaxien werden geboren, Tesla Ilona Mask fliegt zu den Liedern des unsterblichen David Bowie, im Allgemeinen Schönheit.

Aber kehren wir für eine Weile zur Erde zurück. Zufällig ist die Datenanalyse ein wissenschaftsübergreifender Bedarf. Und so attraktiv. Da kann alles untersucht werden, vom Darm der Erde bis zum weiten Weltraum.

Ich möchte über eine solche Erfahrung sprechen, nämlich die Teilnahme an der internationalen Datenanalyse-Olympiade IDAO 2019, die zum dritten Mal in Folge von meiner Heimatuniversität - der Higher School of Economics - durchgeführt wurde.

Die Aufgabe beschränkte sich auf die Verhütung und Erkennung von „Weltraumunfällen“, bei denen Satelliten im Orbit mit nicht optimalen Bewegungspfaden ineinander stoßen und sich in Weltraummüll verwandeln, der bei kosmischer Geschwindigkeit mehrere Unfälle, Verluste von mehreren Millionen Dollar und mehrere Anrufe verursachen könnte irgendwo in der NASA oder im Roscosmos ein Teppich. Warum ist es so passiert? Offensichtlich sind die Sterne schuld. Oder nicht, lass es uns herausfinden.
Übrigens sind unten Statistiken über die Anzahl der Weltraumobjekte terrestrischen Ursprungs aufgeführt, die in der Erdumlaufbahn fliegen.



Es ist zu sehen, dass die Menge an Weltraummüll von Jahr zu Jahr zunimmt.

Also, hier werde ich versuchen zu erzählen, wie unser Team den 22. Platz von 302 belegen konnte.

Betrachten Sie zunächst die folgenden Quelldaten.



Wobei x, y, z die Koordinaten des Objekts im dreidimensionalen Raum sind und Vx, Vy, Vz die Geschwindigkeiten sind. Es gibt auch Simulationsdaten, die vom GPT-4-Algorithmus mit dem Präfix _sim erhalten wurden und nicht verwendet werden.

Lassen Sie uns zunächst eine einfache Visualisierung erstellen, um zu verstehen, wie die Daten angeordnet sind. Ich habe viel verwendet. Wenn wir die Daten in einem zweidimensionalen Koordinatensystem betrachten, sehen sie wie folgt aus. Die y-Achse des siebten Satelliten wird unten angezeigt. Es gibt weitere Grafiken, die Sie mit der Maus drehen und grinsen können, während Sie in .ipynb auf Github noch eine gute Zeit haben.



Während der EDA (Explorative Data Analyze) wurde festgestellt, dass die Daten Beobachtungen enthalten, die sich zeitlich um eine Sekunde unterscheiden. Sie müssen entfernt werden, um die Saisonalität aufrechtzuerhalten. Höchstwahrscheinlich wurde dasselbe Objekt zweimal am selben Punkt erkannt.

Kurz gesagt, diese Zeitreihe hat eindeutig einen linearen Trend und eine Saisonalität von 24, d. H. Der Satellit macht in 24 Beobachtungen eine Revolution um die Erde. Dies wird in Zukunft helfen, den optimalen Algorithmus auszuwählen.

Jetzt schreiben wir eine Funktion, die die Werte der Zeitreihen mithilfe des SARIMA-Algorithmus vorhersagt (die Implementierung aus dem Paket statsmodels wurde verwendet), während wir die Modellparameter optimieren und die beste mit dem Mindestwert des Akaike-Kriteriums auswählen. Es zeigt, wie kompliziert das Modell ist und wie es umgeschult wird. Die Formel ist unten angegeben.



Die endgültige Schlussfolgerung lautete wie folgt:



Natürlich kam unser Team nach mehreren Dutzend Iterationen und wiederholten Umschreibungen des Codes zu diesem Ergebnis . Etwas kam herein, was unsere Geschwindigkeit stark verbesserte, etwas fiel letztendlich und verschlang unsere Zeit, wie Langoliers. Auf die eine oder andere Weise wurden Vorhersagen über die Position des Satelliten und seine Geschwindigkeit für den nächsten Monat getroffen.

Die Qualitätsmetrik war SMAPE, der symmetrische mittlere prozentuale Fehler.



wobei F_t die vorhergesagten Werte sind, sind F_t die wahren Werte.

Die endgültige Formel sah folgendermaßen aus:



Am Ende erhielt unser Team eine Menge nicht so guten .ipynb-Codes für Notebooks, CSV-Dateien mit absolut unlogischen Namen, schlaflose Nächte, Tausende von Bestenlisten-Updates, Dutzende von gefallenen Einsendungen und andere Freuden von ML-Hackathons 302 Teams auf einer privaten Rangliste, d.h. traf die TOP 7%.



Als Ideen zur Optimierung der Lösung wird vorgeschlagen, tiefer in die EDA einzutauchen, um die Daten auf einer niedrigeren Ebene zu verstehen und andere Vorhersagealgorithmen zu verwenden. Detailliertere Analyse im Repository. Liebe ML und bleib dran.

Code Link

All Articles