À propos du système de test statistique que vous souhaitez avoir

Au cours de la résolution du problème de prédiction du taux de bitcoins BTC / USD à partir de données historiques, une compréhension est venue de ce que devrait être un système informatique avec lequel vous pouvez construire le modèle souhaité. Je voulais décrire cette vision pour le monde Habr respecté et ainsi comprendre à quel point elle est vraiment intéressante pour la réalité actuelle.


Donc, nous considérons un problème dans le cadre statistique. Cela signifie que nous avons un ensemble de données, pour simplifier, le prix du BTC / USD de temps en temps. Supposons que nous fixions l'objectif suivant: construire une estimation sur la valeur moyenne du prix BTC / USD le lendemain, de sorte que la fonctionnalité de qualité spécifiée soit minimale. Dans le cas le plus simple, en tant que fonction qualité, on peut prendre la somme des écarts de la valeur moyenne réelle par rapport à la valeur prédite, prise modulo et normalisée à la valeur réelle.


Il s'est avéré, et ce qui n'est pas surprenant, qu'il est relativement facile de construire un modèle de prédiction. Encore plus précisément, en règle générale, une énorme masse de modèles apparaît pour un tel problème, qui peut différer à la fois dans la valeur des paramètres de réglage, et dans le nombre de degrés de liberté internes et d'autres structures internes. Par conséquent, la solution du problème se réduit au problème suivant: il est statistiquement correct de choisir le meilleur modèle parmi l'ensemble de modèles disponible.


Pour résoudre ce problème, nous avons besoin d'un système d'inférence statistique, que vous souhaitez avoir:


  • vous devez spécifier un modèle dans le système, décrire les paramètres de réglage et spécifier les données sur lesquelles le modèle sera évalué (formé). Les données utilisées ne seront pas utilisées pour tester ce modèle;
  • pour de nombreux modèles, vous devez spécifier un critère de qualité à travers les calculs dont les modèles seront comparés statistiquement;
  • lors de la comparaison des modèles, il est nécessaire de déterminer les critères de conclusion faux positif / faux négatif (lorsque les données pour les conclusions ne sont pas suffisantes ou que la comparaison est impossible en raison d'une erreur statistique).

La principale caractéristique du système: ses conclusions seront statistiquement étayées (dans la limite des informations disponibles) et, conformément aux statistiques mathématiques, convergeront asymptotiquement vers une valeur vraiment vraie avec une augmentation du nombre de données indépendantes.


De manière non officielle, ce système sera utile pour une grande classe de tâches, y compris pour tester des modèles construits à l'aide des technologies d'apprentissage automatique.


Et si...


  • si un tel système est déjà disponible et accessible (avec une courbe d'apprentissage réaliste ), alors vous devez exécuter pour l'utiliser;
  • il n'y a pas encore un tel système, vous devez vous asseoir pour le faire.

Épilogue


  1. Comme cela arrive souvent dans la vie, l'ampleur réelle de la complexité de la tâche devient claire lorsque vous plongez profondément dans le problème ...
  2. Un exemple d'un modèle pour prédire le taux de Bitcoin BTC / USD le lendemain peut être trouvé ici .

PS:
You-dy-sch: ouais, you-dy-sch ...


All Articles