Über das statistische Testsystem, das Sie haben möchten

Während der Lösung des Problems zur Vorhersage der BTC / USD-Bitcoin-Rate aus historischen Daten wurde verstanden, wie ein Computersystem aussehen sollte, mit dem Sie das gewünschte Modell erstellen können. Ich wollte diese Vision für die angesehene Habr-Welt beschreiben und auf diese Weise verstehen, wie wirklich interessant sie für die aktuelle Realität ist.


Wir betrachten also ein Problem in der statistischen Einstellung. Dies bedeutet, dass wir der Einfachheit halber von Zeit zu Zeit einen Datensatz für den Preis von BTC / USD haben. Angenommen, wir setzen uns das folgende Ziel: Am nächsten Tag eine Schätzung des Durchschnittswerts des BTC / USD-Preises zu erstellen, sodass die angegebene Qualitätsfunktion minimal ist. Im einfachsten Fall können wir als Qualitätsfunktion die Summe der Abweichungen des tatsächlichen Durchschnittswerts vom vorhergesagten Wert nehmen, modulo genommen und auf den tatsächlichen Wert normiert.


Wie sich herausstellte, ist es nicht überraschend, ein Modell für die Vorhersage zu erstellen. Noch genauer erscheint für ein solches Problem in der Regel eine große Masse von Modellen, die sich sowohl im Wert der Abstimmparameter als auch in der Anzahl der internen Freiheitsgrade und anderer interner Strukturen unterscheiden können. Daher wird die Lösung des Problems auf das folgende Problem reduziert: Es ist statistisch korrekt , das beste Modell aus dem verfügbaren Satz von Modellen auszuwählen.


Um dieses Problem zu lösen, benötigen wir ein System zur statistischen Inferenz, das Sie haben möchten:


  • Sie müssen ein Modell im System angeben, die Optimierungsparameter beschreiben und die Daten angeben, anhand derer das Modell bewertet (trainiert) wird. Die verwendeten Daten werden beim Testen dieses Modells nicht verwendet.
  • Für viele Modelle müssen Sie ein Qualitätskriterium angeben, anhand dessen die Berechnungen statistisch verglichen werden.
  • Beim Vergleich von Modellen müssen die Kriterien für falsch-positive / falsch-negative Schlussfolgerungen erarbeitet werden (wenn entweder nur wenige Daten für die Schlussfolgerungen vorliegen oder der Vergleich aufgrund eines statistischen Fehlers nicht möglich ist).

Das Hauptmerkmal des Systems: Seine Schlussfolgerungen werden statistisch begründet (innerhalb der verfügbaren Informationen) und konvergieren gemäß der mathematischen Statistik asymptotisch zu einem wahren Wert, wobei die Anzahl unabhängiger Daten zunimmt.


Auf Anhieb ist dieses System für eine große Klasse von Aufgaben nützlich, einschließlich zum Testen von Modellen, die mit Technologien für maschinelles Lernen erstellt wurden.


Und wenn...


  • Wenn ein solches System bereits verfügbar und zugänglich ist (mit realistischer Lernkurve ), müssen Sie es ausführen, um es verwenden zu können.
  • Es gibt noch kein solches System, dann müssen Sie sich hinsetzen, um es zu tun.

Nachwort


  1. Wie so oft im Leben wird die wahre Größe der Komplexität der Aufgabe deutlich, wenn Sie tief in das Problem eintauchen ...
  2. Ein Beispiel für ein Modell zur Vorhersage der Bitcoin BTC / USD-Rate am nächsten Tag finden Sie hier .

PS:
You-dy-sch: Ja, du-dy-sch ...


All Articles