Sobre o sistema de teste estatístico que você deseja ter

No decorrer da solução do problema de previsão da taxa de bitcoin BTC / USD a partir de dados históricos, chegou-se a entender o que deveria ser um sistema de computação com o qual você pode construir o modelo desejado. Eu queria descrever essa visão para o respeitado mundo Habr e, dessa maneira, entender como é realmente interessante para a realidade atual.


Portanto, consideramos algum problema no cenário estatístico. Isso significa que temos alguns conjuntos de dados, para simplificar, o preço do BTC / USD de tempos em tempos. Suponha que definimos o seguinte objetivo: construir uma estimativa sobre o valor médio do preço do BTC / USD no dia seguinte, de modo que a qualidade funcional especificada seja mínima. No caso mais simples, como a qualidade funcional, podemos tomar a soma dos desvios do valor médio real do valor predito, assumida no módulo e normalizada com o valor real.


Como se viu, e não surpreendentemente, é relativamente fácil construir um modelo para previsão. Ainda mais precisamente, via de regra, uma enorme massa de modelos aparece para essa tarefa, que pode diferir tanto no valor dos parâmetros de ajuste quanto no número de graus internos de liberdade e outras estruturas internas. Portanto, a solução do problema é reduzida ao seguinte problema: é estatisticamente correto escolher o melhor modelo no conjunto de modelos disponível.


Para resolver esse problema, precisamos de um sistema de inferência estatística, que você deseja ter:


  • você precisa especificar um modelo no sistema, descrever os parâmetros de ajuste e especificar os dados nos quais o modelo será avaliado (treinado). Os dados utilizados não serão utilizados no teste deste modelo;
  • para muitos modelos, é necessário especificar um critério de qualidade através dos cálculos dos quais os modelos serão comparados estatisticamente;
  • ao comparar modelos, é necessário elaborar os critérios para conclusão falso-positiva / falso-negativa (quando os dados para as conclusões não são suficientes ou a comparação é impossível devido a erro estatístico).

A principal característica do sistema: suas conclusões serão estatisticamente substanciadas (dentro das informações disponíveis) e, de acordo com as estatísticas matemáticas, convergirão assintoticamente para um valor verdadeiro com um aumento no número de dados independentes.


Imediatamente, esse sistema será útil para uma grande classe de tarefas, inclusive para testar modelos criados usando as tecnologias de Machine Learning.


E se...


  • se esse sistema já estiver disponível e acessível (com curva de aprendizado realista ), você precisará executar para usá-lo;
  • ainda não existe esse sistema, então você precisa se sentar para fazê-lo.

Posfácio


  1. Como costuma acontecer na vida, o tamanho real da complexidade da tarefa fica claro quando você mergulha profundamente no problema ...
  2. Um exemplo de modelo para prever a taxa de Bitcoin BTC / USD no dia seguinte pode ser encontrado aqui .

PS:
Você-dy-sch: sim, você-dy-sch ...


All Articles