Sobre el sistema de pruebas estadísticas que desea tener

En el curso de la resolución del problema para predecir la tasa de bitcoin BTC / USD a partir de datos históricos, se llegó a un entendimiento de lo que debería ser un sistema informático con el que pueda construir el modelo deseado. Quería describir esta visión para el respetado mundo Habr y de esta manera entender lo realmente interesante que es para la realidad actual.


Entonces, consideramos algún problema en la configuración estadística. Esto significa que tenemos un conjunto de datos, por simplicidad, el precio de BTC / USD de vez en cuando. Supongamos que establecemos el siguiente objetivo: construir una estimación sobre el valor promedio del precio BTC / USD al día siguiente, de modo que la calidad funcional especificada sea mínima. En el caso más simple, como la calidad funcional, podemos tomar la suma de las desviaciones del valor promedio real del valor predicho, tomado el módulo y normalizado al valor real.


Al final resultó que, y no es sorprendente, es relativamente fácil construir un modelo para la predicción. Aún más precisamente, como regla, una gran masa de modelos aparece para tal problema, que puede diferir tanto en el valor de los parámetros de ajuste como en el número de grados internos de libertad y otras estructuras internas. Por lo tanto, la solución del problema se reduce al siguiente problema: es estadísticamente correcto elegir el mejor modelo del conjunto de modelos disponible.


Para resolver este problema, necesitamos un sistema de inferencia estadística, que desea tener:


  • debe especificar un modelo en el sistema, describir los parámetros de ajuste y especificar los datos en los que se evaluará (entrenará) el modelo. Los datos utilizados no se utilizarán para probar este modelo;
  • para muchos modelos, debe especificar un criterio de calidad a través de los cálculos de los cuales los modelos se compararán estadísticamente;
  • Al comparar modelos, es necesario determinar los criterios para la conclusión de falso positivo / falso negativo (cuando los datos para las conclusiones no son suficientes o la comparación es imposible debido a un error estadístico).

La característica principal del sistema: sus conclusiones estarán estadísticamente fundamentadas (dentro de la información disponible) y, de acuerdo con las estadísticas matemáticas, convergerán asintóticamente a un valor verdadero con un aumento en el número de datos independientes.


Por sí solo, este sistema será útil para una gran clase de tareas, incluso para probar modelos creados con tecnologías de Machine Learning.


Y si...


  • si dicho sistema ya está disponible y accesible (con una curva de aprendizaje realista ), entonces debe ejecutarlo para usarlo;
  • aún no existe tal sistema, entonces necesita sentarse para hacerlo.

Epílogo


  1. Como sucede a menudo en la vida, el verdadero tamaño de la complejidad de la tarea se vuelve claro cuando te sumerges profundamente en el problema ...
  2. Aquí puede encontrar un ejemplo de un modelo para predecir la tasa de Bitcoin BTC / USD al día siguiente .

PD:
You-dy-sch: sí, you-dy-sch ...


All Articles