🤦 🕯️ ™️ ¿Las redes neuronales sueñan con el dinero eléctrico? 🏷️ 👓 🔥

TL; DR: No

En la inmensidad de la Web, está llena de materiales, manuales, soluciones preparadas, ensamblajes y otras cosas dedicadas a pronosticar los precios de la criptomoneda y los activos de intercambio tradicionales, oliendo a ingresos rápidos y fáciles con un mínimo de esfuerzo. Y aunque diferentes personas los escriben, con diferentes enfoques, en diferentes plataformas y con diferentes paradigmas, todos tienen un atributo común inmutable: no funcionan .

¿Por qué? Vamos a hacerlo bien.

Introducción

Conozcamos, mi nombre es Denis y, en mi tiempo libre, investigo en el campo de la inteligencia artificial y, en particular, de las redes neuronales artificiales.

En este artículo trataré de describir los problemas ~~encontrados~~ que crean investigadores novatos de redes neuronales artificiales en la búsqueda de la independencia financiera, gastando un tiempo precioso con una eficiencia casi nula.

Espero que, dentro del marco de este artículo, sea posible mantener un equilibrio suficiente entre la complejidad del material y la facilidad de percepción, de modo que el texto sea moderadamente simple, comprensible e interesante tanto para las personas que no están relacionadas con este campo, como para aquellos que se han dedicado a investigar problemas en esta industria Debo decir de inmediato que no habrá fórmulas aquí, la terminología específica también se minimiza.

No trabajo para Google. No tengo veinte grados. No hice prácticas en la NASA. No estudié en Stanford, y lo lamento amargamente. Sin embargo, todavía espero entender de lo que estoy hablando cuando se trata de sistemas de pronóstico y, al mismo tiempo, estoy bastante conectado con el mundo de las criptomonedas en general y el proyecto Cardano en particular.

Por supuesto, yo, como entusiasta de la criptografía involucrado en redes neuronales, simplemente no pude evitar entrar en el campo de aplicación de la IA con respecto a las criptomonedas.

La esencia del problema

Como se mencionó anteriormente, hay tantos materiales que parecen haber sido elaborados y aparentemente profundos, con ejemplos, sobre este tema, tanto que sus ojos se abren de par en par. Y los autores están tan seguros de que su experimento, a diferencia de los pocos cientos anteriores, es exitoso, que uno se pregunta por qué el siguiente artículo no termina con fotos con un "cordero" en una isla personal, y una lista de autores de "núcleos de kaggle" relacionados con la previsión de precios a bitcoins, no duplica las listas de Forbes.

Se espera que haya artículos sobre Habré dedicados a estos temas. Y, curiosamente, independientemente del lugar y el idioma de publicación, todos estos artículos terminan con aproximadamente el mismo texto: "Bueno, el resultado es bastante bueno, casi todo funciona , solo necesita ajustar algunos hiperparámetros y todo estará bien".

Y, por supuesto, los gráficos en los que la red neuronal indica idealmente el precio, como:

Y, para no ser infundado, aquí hay ejemplos de tales artículos: uno , dos , tres .

Cómo empezó todo

La idea de predecir nuevos precios a la antigua está lejos de ser nueva. De hecho, esto se aplica no solo a las criptomonedas. Dio la casualidad de que están más cerca de mí personalmente, pero la patria de lo que se llama "análisis técnico" es, después de todo, los intercambios tradicionales. Esos son los que, según las películas, todos están vestidos con trajes caros, pero al mismo tiempo gritan como chicas en un concierto de su banda favorita.

Tratando de ver el futuro de acuerdo con el pasado, las personas inventaron una gran cantidad de todo tipo de osciladores, indicadores, dispositivos de señalización basados en estadísticas matemáticas, teoría de la probabilidad y, en ocasiones, pareidolia franca .

Quizás el más popular es la búsqueda de figuras. ¡Quince minutos de lectura en Internet, e incluso ahora en Wall Street! Es tan simple: solo necesita encontrar "la cabeza de Bart Simpson", "mariposa", "bandera (¡no debe confundirse con la cuña! 11)", "azul cayendo en una torreta de vacío", construir muchas, muchas líneas y, abiertamente ¡Inténtalo a tu favor!

Casi todas estas soluciones tienen un inconveniente pequeño, pero muy denso y severo: capturan perfectamente las tendencias ... después del hecho . Y si se declara que algo no es fijo, sino predictivo, entonces se interpreta tan libremente que diez personas, mirando el mismo gráfico con el mismo indicador, darán diez pronósticos independientes. Y, lo cual es característico, ¡al menos uno de ellos probablemente tenga razón!

Pero también se establecerá después del hecho. Y el resto simplemente dirá "ah, bueno, no leímos las señales incorrectamente".

No me malentiendas. Es muy posible que un verdadero comerciante de Wall Street, que tiene 20 gritos y 200 intentos de suicidio a lo largo de los años, se superponga una pila de indicadores y osciladores entre sí y, como el operador de la película "The Matrix", lea útil allí datos con una matización suficientemente alta esperando una transacción exitosa. Incluso admito que específicamente tú, el lector, también sabes cómo. Sin una gota de sarcasmo, lo admito. Al final, por alguna razón, se están inventando, mejorando, estos indicadores ...

¡Los problemas modernos requieren soluciones modernas!

Para el año 2015, todos ya habían escuchado redes neuronales. Rosenblatt ni siquiera se imaginaba cuánto serían escuchados. Gracias a personas responsables, profesionales y conocedoras de los medios, la humanidad ha aprendido que las redes neuronales son la versión más electrónica del cerebro humano que puede resolver cualquier tarea más rápido y mejor, con un potencial ilimitado y, en general, aquí saltaremos directamente a la luz a través de una singularidad. futuro oscuro Aquí es lo afortunado.

Pero había un "pero". Por el momento, las redes neuronales vivían solo en paquetes matemáticos reservados, en una forma de muy muy bajo nivel, apoyando a matemáticos y científicos con gráficos en MatLabs.

Pero la popularización hizo su trabajo y atrajo mucha atención de los desarrolladores de diversos grados de independencia de la industria. Estos mismos desarrolladores, al ser, a diferencia de los matemáticos comunes, personas dotadas de noble pereza, comenzaron a buscar formas de arrojar varios niveles de abstracción sobre este asunto, haciendo la vida más fácil para ellos y para todos, mostrando al mundo herramientas muy prácticas y de alta calidad como Keras o FANN. En este celo, tuvieron tanto éxito que llevaron el trabajo con redes neuronales al nivel de "solo una vez y funciona", abriendo el camino a todos los que llegan al mundo de los milagros y la magia.

Son milagros y magia, no matemáticas y hechos.

El nacimiento de una leyenda

Las redes neuronales se han vuelto disponibles, cercanas y fáciles de usar para todos. En serio, la implementación de FANN es incluso para PHP. Además, está incluido en la lista de extensiones básicas .

¿Qué hay de Keras? En 10 líneas, puede recopilar una red recurrente-convolucional, sin comprender cómo funcionan las convoluciones, o cómo LSTM difiere de GRU. ¡Inteligencia artificial para todos y para todos! ¡Y que nadie se ofenda!

Creo que, en parte, la terminología jugó la broma más cruel. ¿Cómo se llaman las salidas de la red neuronal? Si. Predicciones Predicciones Una red neuronal predice un dato sobre otro. Suena exactamente como lo que necesitas .

Los manuales para bibliotecas de alto nivel protegen al usuario de términos complejos, matrices, vectores, transformaciones, cálculo diferencial, significados matemáticos de estos gradientes, regresiones y pérdidas de regularización.

Y, lo que es más importante, protegen la imagen romántica del "modelo electrónico del cerebro humano capaz de todo" de la dura realidad, en la que las redes neuronales son solo un aproximador, que, en términos generales, no es más que un paso evolutivo de un clasificador lineal ordinario.

Pero no importa cuando reúnes tu primer solucionador para CIFAR-10 a partir de los listados de la documentación, sin hacer ningún esfuerzo, sin siquiera comprender realmente lo que está sucediendo. Solo hay un pensamiento en mente:

¿Qué puedo decir, qué puedo decir? La gente está tan dispuesta ...

¡Aquí está, un milagro tecnológico! Simplemente le da algunos datos en la entrada, otros en la salida, pero en sí encuentra una conexión y aprende a predecir salidas por entradas. ¡Cuántos problemas se pueden resolver! ¡Cuántas tareas se pueden nivelar!

¡Hay tanto que predecir ! Curiosamente, ¿otras personas en general lo saben? ¡Con este kit de herramientas, mis posibilidades son infinitas! ¡ILIMITADO!

Pero, ¿qué sucede si alimenta la red neuronal con velas de la bolsa de cifrado / bolsa / forex, dándole una vela del próximo período de tiempo para salir? ¡Entonces aprenderá a predecir nuevos valores de los anteriores! Después de todo, ¡esto es para lo que fue hecho! ¡Una red neuronal puede predecir cualquier cosa, habría datos, y los datos sobre el historial de cotizaciones son de diez centavos por docena! ¡Oh, inspiración, solo un momento, pero tan hermosa!

Por qué no?

Porque en un mundo real que es diferente del mundo creado por los medios de comunicación, no funciona así. Las redes neuronales no son una máquina para las predicciones. Las redes neuronales son aproximadores. Muy buenos aproximadores. Se cree que las redes neuronales pueden aproximarse a casi cualquier cosa. Con una sola condición, si es "algo", se presta a la aproximación .

Y luego un investigador novato cae en el gancho de la distorsión cognitiva. El primer y principal error es que los datos de citas históricas parecen ser más que solo estadísticas. En ellos, puedes dibujar tantos triángulos y flechas después del hecho de que solo una persona ciega al mirarlo no será obvio que todo esto tiene una cierta lógica que simplemente no podría contarse a tiempo. Pero lo que la máquina puede saber.

Mirando las estadísticas , una persona ve una función . La trampa se cierra.
¿Cuál es el segundo error / sesgo cognitivo? Pero aquí está la cosa.

¡Y funciona con el clima!

Este es un argumento muy frecuente que escucho en comunidades criptográficas, en diálogos sobre las posibilidades de predecir algo a partir de datos históricos utilizando métodos de análisis estadístico. Funciona con el clima. La esencia de la distorsión es que "si A funciona para B, pero me parece que B es igual a C, entonces A también debería funcionar para C". Una especie de pseudo-transitividad, que se basa en una comprensión insuficiente de los procesos que subyacen a las diferencias entre B y

C.Con el mismo éxito, podemos suponer, por ejemplo, que los pedales en la cabina del avión son frenos y gas durante una transmisión automática, y no un volante horizontal en absoluto. La percepción intuitiva de algunas cosas, desafortunadamente, no siempre es correcta, porque no siempre se basa en un conjunto bastante completo de datos sobre la situación / sistema / objeto. Hola bayes ¿Cómo estás?

Vamos a profundizar un poco más en la teoría.

Caos y la ley

Sucedió que todos los procesos y eventos en nuestra realidad pueden clasificarse en dos grupos: estocásticos y deterministas. Mientras trato de evitar la terminología triste, reemplacémoslos con términos más simples: impredecibles y predecibles.

Como Obi-Wan nos dice con razón, no es tan simple. El hecho es que, en el mundo real, no en el teórico, todo es un poco más complicado y los procesos completamente predecibles y completamente impredecibles simplemente no existen. Como máximo, hay cuasi-predecibles y cuasi-impredecibles. Bueno, es decir, aquí son casi impredecibles y casi predecibles. Casi casi, pero no.

Por ejemplo, la nieve cae casi predecible de arriba a abajo. En casi el 100% de los casos observados. ¡Pero no en la ventana de mi cocina! Allí nieva de abajo hacia arriba debido a las características del flujo de aire y la forma de la casa. ¡Pero no siempre! También en casi el 100% de los casos, pero no siempre. A veces en la ventana de mi cocina también se cae. Parece que una cosa tan simple, pero para el mismo observador en dos casos diferentes, se comporta de manera completamente diferente, y ambos comportamientos son normales y casi predecibles con casi un 100% de probabilidad, aunque se contradicen por completo . ¿No está mal? El evento cuasi-predecible resultó ser ... ¿cuasi-impredecible? Además.

En este momento, nuestro amigo Bayes comienza a reír. ¿Qué pasa con los eventos impredecibles? No usaré el prefijo "cuasi", ¿de acuerdo? Todos ya entienden que lo digo en serio. Entonces aquí. Toma algo completamente impredecible. ¿Movimiento browniano? Un gran ejemplo de un sistema completamente impredecible. ¿Es tan? Preguntemos a los físicos cuánticos:

El hecho es que, teóricamente, incluso un sistema tan complejo como el movimiento browniano en una escala real, en teoría, puede modelar y predecir el estado de este sistema en cualquier momento en el futuro o en el pasado. En teoria. Acerca de cuánto cálculos, capacidades, tiempo y sacrificios para los Dioses Oscuros son necesarios para esto, nos mantenemos en silencio con tacto.

Y un sistema predecible, en el caso general, que se vuelve impredecible si baja la escala al nivel de casos particulares, en realidad es bastante predecible si expande el alcance de observación de un caso particular para incluir factores externos, obteniendo una descripción más completa del sistema en este caso muy particular.

Bueno, la verdad es que, conociendo los detalles de los flujos de aire en un lugar en particular, puede predecir fácilmente la dirección del vuelo de la nieve. Conociendo los detalles del "alivio" de un lugar en particular, se puede predecir la dirección del flujo de aire. Conociendo los detalles del terreno, uno puede predecir los detalles del terreno. Y así sucesivamente y así sucesivamente. Al mismo tiempo, nuevamente comenzamos a acercarnos, pero ahora para un evento específico. Separándolo de la definición "general" del comportamiento de este evento. Alguien, pare Bayes, ¡tiene un ataque!

Entonces, ¿qué obtenemos? Cualquier sistema es simultáneamente predecible e impredecible en un grado u otro, la diferencia está solo en la escala de observaciones y en la integridad de los datos iniciales que lo describen.

¿Qué tiene que ver el pronóstico del tiempo y el intercambio comercial?

Como descubrimos anteriormente, la línea entre un sistema predecible e impredecible es extremadamente delgada. Pero lo suficientemente fuerte como para trazar una línea que divida el pronóstico del tiempo y el comercio.

Como ya sabemos, incluso el sistema más impredecible de hecho consiste en fragmentos completamente predecibles. Para modelarlo, es suficiente bajar a la escala de estos fragmentos, ampliar el alcance de la observación, comprender los patrones y aproximarlos, por ejemplo, utilizando una red neuronal. O obtenga una fórmula bastante específica que le permita calcular los parámetros deseados.

Y aquí radica la principal diferencia entre el pronóstico del tiempo y el pronóstico del precio: la escala del componente simulado predecible más grande. Para el pronóstico del tiempo, la escala de estos componentes es tal que están bien ... se pueden ver desde la órbita de la Tierra a simple vista. Y lo que no es visible, por ejemplo, la temperatura y la humedad, puede, gracias a las estaciones meteorológicas, medirse en tiempo real también en todo el planeta. Para el comercio, esta escala ... más sobre eso más adelante.

El ciclón no dirá "Estoy cansado, me voy", desapareciendo de la nada en un momento impredecible. La cantidad de calor recibida del Sol por un hemisferio particular del planeta varía con el mismo patrón. El movimiento de las masas de aire a escala planetaria no requiere simulación atómica y es bastante simulado a nivel macro. Un sistema llamado "clima", que es un evento aleatorio en la escala de un punto específico en la Tierra, es bastante predecible en escalas más globales. Y aún así, la precisión de estas predicciones deja mucho que desear a distancias de más de un par de días. El sistema, aunque predecible, es muy complejo, por lo que puede modelarse con una precisión razonable en cualquier momento.

Y aquí llegamos a otra propiedad importante de los modelos predictivos.

Autosuficiencia o autonomía de predicciones

Esta propiedad, en general, es bastante simple: un sistema de pronóstico autosuficiente, o un sistema de pronóstico ideal , puede prescindir de datos externos, sin contar el estado inicial.

Ella es perfectamente precisa. Para predecir las propiedades del sistema en el estado N, es suficiente para ella obtener los datos calculados en el estado N-1. Y conociendo el estado de N, puede obtener N + 1, +2, + m.

Tales sistemas incluyen, por ejemplo, cualquier progresión matemática. Conociendo el estado en el punto de referencia y el número de este punto en una serie de eventos, uno puede calcular fácilmente el estado en cualquier otro punto. ¡Frio!

Y esta es también la respuesta a la pregunta de por qué la precisión del pronóstico del tiempo cae dramáticamente en una larga distancia en el tiempo. Mirando hacia el futuro, construimos un pronóstico basado no en el estado real del sistema, sino en el pronosticado. Además, desafortunadamente no con una precisión del 100%. Como resultado, obtenemos el efecto de acumular errores de pronóstico . Pero esto es a pesar del hecho de que conocemos casi todas las "variables" significativas y la descripción del sistema se puede llamar casi "completa".

¿Qué hay de las citas?

Y con citas, las cosas son mucho peores. El hecho es que en el pronóstico del tiempo, casi todos los datos recibidos y pronosticados son tanto la causa como el efecto de los eventos. La consecuencia de los eventos del paso anterior, la causa de los eventos del siguiente paso. Por otra parte, los datos y eventos importantes que no son tanto la causa y el efecto es más probable simplemente hacen y llevan una poderosa carga útil. Por ejemplo, la cantidad de calor recibida del sol en un punto en el tiempo. Y es invariable. Es esto lo que aumenta el indicador de autosuficiencia de tales pronósticos. La consecuencia fluye en la razón de los eventos en el siguiente paso. Este es un proceso completamente distinto de Markov que puede describirse mediante ecuaciones diferenciales.

Mientras que las estadísticas de citas son principalmente solo consecuencias, o 50 \ 50 . El crecimiento de las cotizaciones puede desencadenar un aumento adicional en las cotizaciones y convertirse en una causa. Y puede no provocar y causar. Y puede provocar la toma de ganancias y, como resultado, una caída de los precios. Los datos históricos sobre los intercambios parecen sólidos. Volúmenes, precios, "vasos", ¡tantos números! La gran mayoría de los cuales no sirven para nada, ya que son solo el resultado, el eco de eventos y causas, que se encuentran mucho más allá del plano de estas estadísticas . En una escala completamente diferente. En un ámbito completamente diferente.

Cuando modelamos presupuestos futuros, confiamos solo en las consecuencias de eventos que son mucho más complejos que solo la desviación porcentual del volumen de compra.El precio no se forma a sí mismo . No se puede diferenciar por sí mismo. Si el mercado se expresa como un lago metafórico, el gráfico de acciones es solo ondas en el agua. Tal vez este viento sopló, tal vez arrojaron una piedra al agua, tal vez el pez salpicó, tal vez Godzilla salta 200 kilómetros en un trampolín. Solo vemos ondas. Pero en esta onda, estamos tratando de predecir la fuerza del viento en 4 días, la cantidad de piedras que se arrojarán al agua en un mes, el estado de ánimo del pez pasado mañana o tal vez la dirección que tomará Godzilla cuando se canse de saltar. Se acercará y desplegará el trampolín nuevamente, ¡las ondas se harán más fuertes! ¡Atrapa la tendencia, hop hop hop!

Este es un punto muy importante:

, , , .

En otras palabras, no puede modelar el sistema lo suficientemente bien sin tener una descripción suficientemente completa del mismo.

Desafortunadamente, la escala del componente simulado máximo posible del sistema, en el caso del mercado, se reduce al hombre. Ni siquiera a una persona, sino a su estado psicofísico, del cual depende la reacción al comportamiento del mercado y que, por esta misma reacción, influirá en el mercado. ¡La razón misma que fluye hacia la consecuencia! Solo miles, si no millones de personas únicas e individuales, tendrán que ser modeladas. Con problemas personales, sentimientos, antecedentes hormonales, interacciones, actividad cotidiana.

Y no se trata solo de comerciantes en el mercado a escala global. También se trata de las personas detrás de proyectos específicos. Se trata de los problemas y éxitos de los proyectos en el futuro. Se trata de eventos importantes en el mismo futuro. Eventos, a veces extremadamente impredecibles. Resulta que para predecir el futuro, necesitamos saber el futuro.

En total, necesitamos una esfera de condiciones observadas, que es completamente inaccesible para nosotros. La escala de la simulación, que para nosotros es completamente inalcanzable.

Bueno, eso es, en teoría, por supuesto, alcanzable. El movimiento browniano, en teoría, también es un sistema muy simulado y predecible, ¿recuerdas? Entonces recuerde el precio de la implementación práctica de tal simulación. Este precio es prohibitivamente más alto que el proceso de alimentar una red neuronal con velas de intercambio. Al menos al momento de escribir esto.

¿Pero qué hay de los gráficos?

De Verdad. Al comienzo de este artículo, presentamos gráficos con una precisión de pronóstico extremadamente alta, bordeando lugares con el 100%.

Miremos de nuevo:

¿Que ves? Mira más de cerca. Gran coincidencia, ¿no? Perfecto, simplemente perfecto. Y en el primer y segundo gráfico, la red neuronal, naturalmente, por delante de las cotizaciones, ¡un paso por delante!

Recuerde, mencioné bibliotecas de alto nivel para trabajar con redes neuronales, ¿y esto no obtuvo ningún desarrollo en el texto del artículo? Ahora consíguelo. La disponibilidad generalizada de cualquier cosa, ciertamente reduce la barra para entrenar al usuario promedio. Lo mismo sucede con las redes neuronales. "Kaggle kernels" es un registro. Cualquier sección de sección no estrecha simplemente está enterrada en toneladas de soluciones, cuyos autores, en la gran mayoría, no tienen idea de lo que están haciendo en absoluto. Y desde abajo, cada decisión está respaldada por pilares de comentarios elogiosos de personas que entienden el tema aún menos. "¡Buen trabajo, lo que necesitas!", "He estado buscando un núcleo adecuado para mis tareas durante tanto tiempo, ¡aquí está! ¿Y cómo usarlo? " etc.

Encontrar entre esto algo realmente interesante y hermoso es muy, muy difícil.

<esnobismo rabioso>
Como resultado, tenemos un fenómeno como las personas que operan fácilmente con un aparato matemático bastante complicado, pero que no pueden leer gráficos .
</ esnobismo rabioso>

Después de todo, el tiempo en la escala X se mueve hacia la derecha, y se debe obtener una predicción, idealmente, antes del evento.

Simplemente los hiperparámetros aún no están torcidos

Todos estamos felices cuando nuestra red neuronal muestra signos de convergencia. Pero hay matices. En la programación como tal, hay una regla que dice "iniciado no significa ganado". Cuando recién comenzamos a aprender programación, estamos inmensamente satisfechos con el hecho de que el compilador / intérprete pudo entender lo que nos metimos en él y no nos arrojó errores. En este nivel de formación, creemos que los errores en un programa son solo sintácticos.

En el diseño de redes neuronales, todo es igual. Solo en lugar de compilación es la convergencia. Funcionó, no significa aprender exactamente lo que necesitamos. Entonces, ¿qué aprendió?

Es probable que salga un investigador inexperto, mirando gráficos tan hermosos. Pero más o menos experimentado, alerta, porque no hay tantas opciones:

La red está reentrenada explícitamente (en el sentido de "redundante" en lugar de "reutilizar")
La red explota una falla en los métodos de enseñanza.
La red se ha aproximado al Intercambio del Grial y puede predecir el estado del mercado en cualquier momento, "extendiendo" un gráfico interminable desde una sola vela.

¿Qué opinas, qué opción está más cerca de la realidad? Lamentablemente, no el tercero . Sí, la red realmente aprendió. Ella realmente sorprendentemente da resultados, pero ¿por qué?

Aunque las redes neuronales artificiales no son un "modelo electrónico del cerebro humano", todavía exhiben algunas propiedades de la "mente". Básicamente, esto es "pereza" y "truco". Y al mismo tiempo. Y estas no son las consecuencias del surgimiento en un par de cientos de "neuronas" de autoconciencia. Estas son las consecuencias del hecho de que el término "optimización" está realmente oculto detrás del término populista "educación".

Una red neuronal no es un estudiante que está estudiando, tratando de entender lo que le estamos explicando, al menos en el momento de escribir este artículo. Una red neuronal es un conjunto de pesos cuyos valores deben ajustarse u optimizarse de manera que se minimice el error del resultado de la red neuronal en relación con el resultado de referencia.

Le asignamos una tarea a la red neuronal y luego le pedimos que "apruebe el examen". De acuerdo con los resultados del "examen", decidimos qué tan exitoso es, creyendo con razón que en el proceso de preparación para el "examen", nuestra red ha adquirido suficientes conocimientos, habilidades y experiencia.

¿Ves la captura? ¿No? ¡Sí, aquí está, en la superficie! Si bien su objetivo es enseñar a su red habilidades útiles, en su opinión, su objetivo es aprobar el examen .

A cualquier costo. Por cualquier medio. Quizás, sin embargo, con algunos estudiantes ella tiene más en común de lo que se dijo en los dos párrafos anteriores ...

Entonces, ¿cómo aprobar el notorio examen?

Memorizar

La primera opción en la lista de posibles razones para una precisión tan increíble. Casi cualquier investigador novato de redes neuronales artificiales ciertamente sabe que cuantas más neuronas contenga, mejor. Y, aún mejor, cuando hay muchas capas en él.

Pero no tiene en cuenta el hecho de que el número de neuronas y capas aumenta no solo el potencial de la red en el campo del "pensamiento abstracto", sino también la cantidad de su memoria. Esto es especialmente cierto para las redes recurrentes, porque su capacidad de memoria es realmente monstruosa.

Como resultado, durante el proceso de optimización, resulta que lo más óptimola opción de aprobar el examen es ... hacinamiento regular o "sobreajuste", "sobreajuste". La red simplemente aprenderá todas las "respuestas correctas" de memoria. Absolutamente no entiendo los principios por los cuales se forman. Como resultado, al probar la red en una muestra de datos que nunca antes había visto, la red comienza a transmitir tonterías.

Por esta razón, para entrenar redes profundas / anchas, necesita mucha más información, necesita regularización, necesita control sobre el umbral de error mínimo, que debe ser pequeño, pero no demasiado. Y, aún mejor, encuentre el equilibrio adecuado entre el tamaño de la red y la calidad de la solución.

Bueno. Nosotros lo consideraremos. Tiraremos las capas extra. La arquitectura está simplificada. Implementaremos todo tipo de trucos diferentes. ¿Funcionará ahora? No es un hecho Después de todo, el número dos en la lista de opciones de examen fáciles:

Superar al maestro

Dado que la clasificación de una red neuronal no se obtiene para el proceso, sino para el resultado, el proceso por el cual logra este resultado puede diferir ligeramente de lo que pretendía el desarrollador. Este es uno de los momentos más viles de trabajar con estos hermosos animales, cuando la red ha aprendido, pero no eso.

Cuando vea gráficos con predicciones de curso que repiten perfectamente el curso real, piense en lo que le enseñó a la red neuronal. ¿Súper preciso para predecir precios? ¿O tal vez solo repetirlos como un loro?

Asegúrese de que la red, que tiene una precisión de casi el 100% en el conjunto de entrenamiento y lo mismo en el conjunto de prueba, simplemente repite todo lo que ve. Las redes en las que el gráfico de predicción se desplaza un paso en el tiempo hacia la derecha (ejemplos de los gráficos 1 y 2) simplemente repiten el valor del precio del paso anterior, que se les pasa en uno nuevo. Los gráficos, por supuesto, parecen muy alentadores y coinciden casi perfectamente, pero no tienen poder predictivo. Puede anunciar el precio de ayer hoy mismo, para esto no necesita estudiar en Hogwarts o pulir Palantir, ¿verdad?

Pero esto es si les das los valores del paso anterior, comparándolos con el valor del paso actual. A veces las personas simplemente dan un valor del paso actual, comparándolo con el siguiente paso. En este caso, obtenemos gráficos hermosos que coinciden con los originales casi a la perfección (ejemplos de gráficos 3 y 4).

A veces puede ver gráficos que no coinciden perfectamente, más suaves, como suavizados, interpolados . Esto suele ser un signo claro de una red recursiva que está tratando de vincular un nuevo resultado con uno anterior (ejemplo gráfico 3).

Todos estos resultados tienen solo una cosa en común: la red neuronal ha aprendido a aprobar el examen de más de 5. Pero ella no aprendió a resolver la tarea que se le asignó de la manera requerida y no tiene ningún beneficio práctico para el investigador. Al igual que un estudiante, pero con una hoja de trucos, ¿verdad?

¿Por qué la red repite los valores anteriores y no intenta generar nuevos? Sí, simplemente durante el entrenamiento, llega a la conclusión razonable de que, por lo general, el punto más cercano al siguiente punto en el gráfico es el anterior. Sí, la magnitud del error en este caso flota, pero, en una muestra grande, es establemente menor que la magnitud del error cuando se trata de predecir el siguiente estado en un proceso cuasialeatorio .

Las redes neuronales pueden generalizarse perfectamente. Una generalización de este tipo es una excelente solución al problema.

Por desgracia, no importa cómo tuerzas los hiperparámetros, el futuro no se abrirá para ella. El gráfico no retrocederá un paso en el tiempo. Sí, el Grial está tan cerca, pero tan lejos.

Detener. No no no. ¿Pero qué pasa con el comercio algorítmico? Ella existe!

Exactamente. Por supuesto que existe. Pero el punto clave es que este comercio algorítmico no es lo mismo que la adivinación algorítmica . El comercio algorítmico se basa en el hecho de que el sistema comercial analiza el mercado en el momento actual, tomando la decisión de abrir y cerrar una transacción en función de una gran cantidad de parámetros objetivos y signos indirectos.

Sí, esto, técnicamente, también es un intento de predecir el comportamiento del mercado, pero, a diferencia de las predicciones con días y meses de anticipación, el sistema comercial trata de funcionar en los intervalos de tiempo pequeños más permisibles.

¿Recuerdas el pronóstico del tiempo? ¿Recuerdas que su precisión cae dramáticamente a largas distancias? Funciona en ambos sentidos. Cuanto más corta es la distancia, mayor es la precisión. Usted, mirando por la ventana, incluso sin ser meteorólogo, puede predecir qué temperatura del aire estará en un segundo, ¿verdad?

pero como funciona? ¿No es esto contrario a todo lo que se ha dicho? Pero, ¿qué pasa con las ondas en el agua, y la falta de datos? ¿Qué pasa con Godzilla, después de todo?

Pero no, no hay contradicciones. Siempre que el robot comercial funcione a intervalos muy pequeños, realmente pequeños, desde un minuto hasta fracciones de segundo, dependiendo del tipo, no necesita saber el futuro y no necesita tener una imagen completa del mercado. Es suficiente para que comprenda cómo funciona el sistema que lo rodea. En qué circunstancias es mejor abrir un acuerdo en él, en el que cerrar. Un robot comercial opera a una escala tan pequeña que su campo de visión es capaz de cubrir suficientes factores para tomar una decisión exitosa en una distancia corta aceptable. Y para hacer esto, absolutamente no necesita saber el estado global del sistema.

Conclusión

El artículo resultó ser grande. Más de lo que esperaba Espero que sea útil para alguien y ayude a ahorrar tiempo a alguien que decidió probar suerte en busca del Santo Grial del Comercio.

Destaquemos los puntos principales:

Godzilla tiene un trampolín
Necesita comprender cómo las herramientas con las que resuelve el problema
Es necesario comprender los límites de aplicabilidad y evaluar adecuadamente la capacidad de solución del problema como tal.
Es importante poder interpretar correctamente los resultados del kit de herramientas
Las redes neuronales son aproximadores de funciones, no predictores del futuro.
$f(x)=x$ y $f(x_n)=x_{n-1}$ - estas también son funciones
Para simular el estado de un sistema, debe tener una descripción completa o cercana de este sistema
Estadísticas: solo una descripción parcial y selectiva de las consecuencias del sistema
Un buen sistema de pronóstico debe ser moderadamente autosuficiente
Las redes neuronales no se pueden tomar por una palabra, son insidiosas, astutas y perezosas.
¿Quieres que AI te ayude a comerciar? Enséñale a comerciar

¡Gracias a todos los que leyeron hasta el final!

PD No, este no es un artículo sobre el "análisis fundamental de VS técnico". Este artículo trata sobre "no hay milagros".

¿Las redes neuronales sueñan con el dinero eléctrico?