🦉 🏴󠁧󠁢󠁷󠁬󠁳󠁿 📵 ¿Big Data cumplirá sus promesas? 〽️ 🛷 👻

Del traductor

Esta es una traducción del informe del principal economista del Banco de Inglaterra sobre las posibilidades de utilizar big data en las actividades de esta organización. Título original "¿Big Data cumplirá su promesa?" 30 de abril de 2018.

Hablan mucho sobre Big Data, pero, personalmente, a menudo tengo la impresión de que nosotros, como aborígenes en taparrabos, nos imponen baratijas sin valor. Este informe, en mi opinión, confirma que, de hecho, trabajar con Big Data es un proceso bastante complicado, pero productivo.

Por supuesto, este informe es muy diferente de lo que nos dicen, porque usted mismo comprende que este informe está diseñado para un público diferente. La calidad, en mi opinión, es ejemplar. En conjunto, el estado de la organización del Banco de Inglaterra y el especialista que presentó estos resultados, queda claro cómo, en muchos casos, se puede utilizar el análisis de Big Data. Sus algunas conclusiones, en formulaciones pequeñas, se pueden formular de la siguiente manera:

es muy necesario determinar la dirección y el nivel de descomposición de datos mediante el ejemplo de las acciones del Banco Suizo;
En un número significativo de casos, el valor puede aparecer en nuevos resultados, por ejemplo, la formación de la redacción de los documentos rectores del Banco de Inglaterra.

Solo insinúa algunos resultados cuando la industria del juego puede reemplazar el método de Monte Carlo.

Traducción automática, con correcciones menores, para no cortar la oreja después del kata.

Me alegra estar aquí para lanzar el centro de investigación Data Analytics for Finance and Macro (DAFM) en King's College Business School. Me gustaría felicitar a los profesores Georgios Kapetanios y Georgios Cortareas, como codirectores (así como a ex colegas), por organizar una plataforma de lanzamiento para el centro y prepararla para el despegue.

Creo que la aplicación de métodos de análisis de datos para resolver muchos problemas apremiantes en el campo de las finanzas y la macroeconomía tiene grandes perspectivas. Por esta razón, el Banco de Inglaterra hace unos cuatro años creó su propia unidad de análisis de datos. Y es por eso que agradezco mucho la creación de este nuevo centro como un medio para cumplir esta promesa.

¿Pero los grandes datos cumplirán su promesa? Quiero tratar de ilustrar algunas de estas promesas de big data, así como posibles dificultades, utilizando ejemplos de estudios recientes del Banco de Inglaterra sobre el sistema económico y financiero. En conclusión, daré algunas reflexiones más especulativas sobre futuras investigaciones sobre big data. 1 (1- Cœuré (2017) ofrece un excelente resumen del potencial de Big Data para mejorar la formulación de políticas, en particular en los bancos centrales).

El camino menos seguido

Lo primero que hay que decir es que los métodos de análisis de datos y big data no son nuevos. Sin embargo, en los últimos años se han convertido en una de las áreas de crecimiento de más rápido crecimiento en los círculos académicos y comerciales. Durante este período, los datos se convirtieron en petróleo nuevo; los métodos de análisis de datos se han convertido en refinerías de petróleo y refinerías de su tiempo; y las compañías de información se han convertido en nuevos gigantes petroleros.2 (2- Por ejemplo, The Economist (2017), Henke et al (2016)).

Sin embargo, la economía y las finanzas hasta ahora han sido bastante restringidas con respecto a la aprobación universal de esta "fiebre del petróleo". Para la economía y las finanzas, el uso de métodos de análisis de datos fue menos común, al menos en comparación con otras disciplinas. Uno de los diagnósticos simples a este respecto proviene de la consideración de interpretaciones muy diferentes de la expresión "minería de datos" por aquellos que están dentro y fuera de la economía y las finanzas.

Para los economistas, pocos pecados son más desagradables que la minería de datos. El remedio de este último villano es "buscar la regresión", informando solo los resultados de la regresión que mejor se ajustan a la hipótesis que el investigador pretendía probar originalmente. Esto es lo que pone en contra la econometría.3 (3- Leamer 1983) para la mayoría de los economistas, este análisis de datos tiene un triste parecido con la extracción de petróleo, un negocio minero sucio que se acompaña de un gran efecto perjudicial para la salud.

Para los científicos de datos, la situación puede ser más diferente. Para ellos, la minería de datos es un medio para extraer nuevos recursos valiosos y usarlos. Esto le permite obtener nuevas ideas, crear nuevos productos, establecer nuevas relaciones, promover nuevas tecnologías. Esta es la materia prima para una nueva ola de productividad e innovación, la naciente Cuarta Revolución Industrial.4 (4 - Ver, por ejemplo, Schwab 2017)

¿Qué explica la precaución de algunos economistas con respecto al big data? Parte de la respuesta radica en la metodología.5 (5 - Haldane 2016) Una buena parte de la economía siguió los pasos metodológicos de Karl Popper en la década de 1930. Popper abogó por un enfoque deductivo del progreso científico.6 (6 - Popper (1934) y Popper (1959)) Esto comenzó con axiomas, pasó de axiomas a teoría, y solo entonces aceptó hipótesis para los datos. En otras palabras, la teoría precedió a la medición.

Hay un enfoque alternativo, inductivo. Esto tiene raíces aún más profundas en el trabajo de Francis Bacon desde el comienzo de la década de 1600. 7 (7 - Bacon 1620) Comienza con datos no limitados por axiomas e hipótesis, y luego los usa para informar la selección de comportamientos. En otras palabras, los datos preceden a la teoría. De hecho, algunos investigadores de datos han sugerido que este enfoque podría señalar el "fin de la teoría". 8 (8 - Anderson 2008)

Por lo tanto, donde algunos economistas tienden a ver dificultades en los grandes datos, los expertos en datos ven perspectivas prometedoras. Donde algunos economistas tienden a ver la amenaza ambiental que representa, los analistas de datos ven el potencial económico. Estoy un poco caricaturizado, pero solo un poco. Entonces, ¿quién tiene razón? ¿Y la era de los grandes datos señala un flujo o derrame de petróleo?

Es cierto, como sucede a menudo, probablemente se encuentra en algún lugar en el medio. Los enfoques deductivos e inductivos pueden ofrecer ideas sobre el mundo. Se consideran mejor como adiciones metodológicas que como sustitutos. En otras palabras, el uso de un enfoque aislado aumenta el riesgo de conclusiones erróneas y errores potencialmente graves en la comprensión y la política. Déjame darte algunos ejemplos para ilustrar.

Durante la crisis financiera mundial, ahora está bastante bien aceptado que el modelo dinámico de equilibrio general estocástico (DSGE) del caballo de batalla principal macroeconómico cayó en la primera valla.9 (9 - Por ejemplo, Stiglitz 2018) No pudo explicar la dinámica del ciclo económico durante o después de la crisis. Aunque teóricamente puro, resultó ser empíricamente frágil. Creo que esta fragilidad empírica ha surgido debido a la excesiva dependencia metodológica de los métodos deductivos. O, en otras palabras, debido al hecho de que se presta muy poca atención a los datos reales del pasado, incluidas las crisis.

Como contraejemplo, en 2008 Google lanzó un modelo de pronóstico para brotes de influenza basado en frases como "signos de la gripe". 10 (10 - Ginsberg et al 2009) Esto ha hecho un trabajo tremendo en el seguimiento de los brotes de influenza en los Estados Unidos en 2009-10. Pero en los años siguientes, las predicciones de este modelo sufrieron una derrota aplastante.11 (11 - Lazer et al 2014) Sugeriría que esta fragilidad empírica surgió debido a una dependencia excesiva de las leyes empíricas y un compromiso excesivo con los métodos inductivos. O, en otras palabras, se presta muy poca atención a las causas médicas profundas de los brotes pasados de gripe.

En el primer caso, la fragilidad empírica surgió debido a un conjunto demasiado limitado de axiomas y limitaciones, debido a un énfasis excesivo en la teoría y no en las correlaciones reales y la experiencia histórica. En el segundo caso, la fragilidad empírica surgió debido a un conjunto demasiado débil de axiomas y restricciones debido a las correlaciones empíricas observadas, que juegan un papel demasiado grande con respecto a la teoría y la causalidad.

En ambos casos, estos errores podrían reducirse si los enfoques inductivo y deductivo se usaran de forma complementaria o iterativa. Este enfoque iterativo tiene un fuerte pedigrí en otras disciplinas. La historia del progreso en muchas disciplinas científicas incluyó un proceso de aprendizaje bidireccional entre la teoría y el empirismo, cuando en algunos casos la teoría estimulaba las mediciones, y en otros, la teoría de la motivación de la medición en un ciclo de retroalimentación continua. quienes han manejado las ciencias han sido hombres de experimentación u hombres de dogmas. Los hombres de experimento son como la hormiga, solo recolectan y usan; los razonadores se parecen a las arañas, que hacen telarañas con su propia sustancia. Pero la abeja toma un medio curso: recoge su material de las flores del jardín y del campo,pero lo transforma y digiere por su propio poder ")

Un ejemplo de este enfoque, discutido por el gobernador Carney durante el lanzamiento de su propio programa de análisis de datos del Banco, se refiere a la dinámica del movimiento planetario. (13 - Carney 2015) Fue Sir Isaac Newton (el antiguo propietario de Royal Mint quien también imprimió dinero) quien desarrolló la teoría física del movimiento celestial. Pero esta teoría fue construida sobre los hombros empíricos de otro gigante científico, Johannes Kepler. Cuando se trata de movimiento planetario, el empirismo lideró primero la teoría, la inductancia lideró el deductivo.

Ocurría lo mismo de vez en cuando cuando entendíamos el movimiento de la economía y los mercados financieros. Las teorías keynesianas y monetaristas se construyeron sobre la experiencia empírica de la época de la Gran Depresión. La curva de Phillips se originó como una ley empírica de Kepler, que solo más tarde recibió una base teórica newtoniana. Muchos acertijos financieros que han sido perseguidos por teóricos durante décadas han comenzado como anomalías empíricas en los mercados de activos.14 (14 - Obstfeld y Rogoff (2001) discuten seis acertijos importantes en macroeconomía internacional, como la volatilidad excesiva de los tipos de cambio en relación con los fundamentales). En cada caso, el empirismo lideró la teoría, el inductivo dirigió el deductivo.

Mi conclusión de todo esto es clara. Si este proceso de aprendizaje iterativo entre el empirismo y la teoría continuará dando frutos en la economía, entonces los enfoques deductivos e inductivos pueden requerir una facturación generalmente igual. Si esto es así, creo que la economía y las finanzas obtendrán un alto rendimiento al realizar más inversiones intelectuales en big data y acompañarlas con métodos analíticos en el futuro.

Definición de Big Data

Si el big data es prometedor, entonces probablemente sea útil comenzar definiendo lo que es. Esto no es del todo fácil. Al igual que la belleza, lo que se considera big data está en los ojos del espectador. También es un concepto fluido. Por ejemplo, está claro que los datos ya no significan solo números y palabras. De hecho, en los últimos años ha habido un aumento en la investigación sobre semántica, incluso en el campo de la economía y las finanzas.

Lo que es menos controvertido es que durante la última década la revolución más extraordinaria ha tenido lugar en la creación, extracción y recopilación de datos, en el sentido amplio de la palabra. En parte, esto fue el resultado de la ley de Moore y los avances relacionados en la tecnología de la información. 15 (15 - Moore (1965) señaló la duplicación anual en el número de componentes por circuito integrado) A diferencia del petróleo, cuyos recursos son limitados, se crean nuevos datos con velocidad sin precedentes y tiene reservas prácticamente ilimitadas.

Se estima que el 90% de todos los datos generados fueron en los últimos dos años. 16 (16 - SINTEF 2013) una buena parte provino de las redes sociales. Alrededor de 1.5 billones de personas usan Facebook diariamente y 2.2 billones mensualmente. En 2017, había 4.400 millones de suscripciones de teléfonos inteligentes, más de una por cada segunda persona en el planeta. Según las previsiones, para 2023 el número de suscriptores de teléfonos inteligentes ascenderá a 7.300 millones, es decir, casi uno por cada persona.17 (17 - Ericsson Mobility Report 2017) Según las estimaciones, en 2017, se tomaron 1,2 billones de fotos, que son 25 % de todas las fotos tomadas alguna vez. 18 (18 - Ver www.statista.com/chart/10913/number-of-photos-taken-worldwide )

Otra visión de esta revolución de la información se abre cuando miramos el número de científicos que estudian datos. Utilizando datos de trabajo del sitio de búsqueda de empleo de Reed, recientemente se han publicado más de 300 ofertas de trabajo en el Reino Unido para profesionales de procesamiento de datos.19 (19 - Uso del conjunto de datos en Turrell et al (de próxima publicación)) Casi no hubo en 2012. Las estimaciones basadas en la autoidentificación en el sitio de red social Linked-In sugieren que puede haber más de 20,000 especialistas en procesamiento de datos en el mundo.20 (20 - Dwoskin (2015). El verdadero número de científicos de datos en todo el mundo es altamente incierto. Muchas personas trabajar en ciencia de datos sin usar necesariamente ese título de trabajo, pero lo contrario también es cierto).

Al mismo tiempo, ha habido un rápido crecimiento en nuevos métodos de procesamiento, filtrado y extracción de información de estos datos. Las técnicas de aprendizaje automático se están desarrollando rápidamente. Los llamados métodos de "aprendizaje profundo" complementan los enfoques existentes, tales como modelos basados en árboles, máquinas de vectores de soporte y máquinas de vectores de soporte y técnicas de agrupación.21 (21 - Chakraborty y Joseph 2017) Métodos de vocabulario, los modelos de vectores están ganando impulso rápidamente en el campo del análisis de texto espacios y análisis semántico.22 (22 - Bholat et al 2015)

Todos estos métodos ofrecen varias formas de extraer información y obtener conclusiones confiables en situaciones donde las relaciones empíricas pueden ser complejas, no lineales y en evolución, y cuando los datos pueden llegar a diferentes frecuencias y en diferentes formatos. Estos enfoques difieren significativamente de los métodos econométricos clásicos de inferencia y prueba, a menudo utilizados en economía y finanzas.

Esta revolución en la presentación de datos y en los métodos para comprenderlos ofrece riqueza analítica. La extracción de estas riquezas requiere, sin embargo, una considerable precaución. Por ejemplo, los problemas de privacidad de datos son mucho más amplios con datos granulares, en algunos casos personalizados. Recientemente, estos problemas han ocupado legítimamente un lugar destacado. Al mismo tiempo, la protección de big data es una de las tareas clave del Banco en su investigación.

Promesa de Big Data

En la medida en que los grandes datos se puedan caracterizar, esto generalmente se hace usando "tres V": volumen, velocidad y variedad. Utilizando las tres V como estructura organizativa, permítanme analizar algunos ejemplos de cómo se han utilizado estos datos y métodos en investigaciones bancarias recientes para mejorar nuestra comprensión del funcionamiento de la economía y el sistema financiero.

Volumen

La base estadística del análisis macroeconómico, al menos desde mediados del siglo XX, son las cuentas nacionales. Las cuentas nacionales siempre se han basado en un conjunto de datos ecléctico.23 (23 - Coyle 2014) En el pasado, las cuentas de las tierras agrícolas para el uso de la tierra, el rendimiento de los cultivos y el ganado se usaban para estimar la producción agrícola. La producción industrial se midió por fuentes tan diversas como el número de altos hornos de hierro y libros enumerados por la Biblioteca Británica. Y la producción de servicios se estimó en función del tonelaje de la flota mercante. 24 (24 - Fouquet y Broadberry 2015)

Con la llegada de más datos que nunca, el uso de fuentes y métodos de datos nuevos y eclécticos se está volviendo cada vez más común en las oficinas de estadística. En el campo de la medición de precios al consumidor, el Proyecto MIT Billion Prices utiliza datos de más de 1,000 tiendas en línea en aproximadamente 60 países para recolectar diariamente 15 millones de precios. Se ha encontrado que este enfoque proporciona información de precios al consumidor más oportuna (y más barata) que las encuestas tradicionales.25 (25 - Cavallo y Rigobon 2016) También se ha encontrado que los datos de precios en línea mejoran los pronósticos de inflación a corto plazo en algunos mercados. (26 - Cœuré 2017)

En la misma línea, la Oficina de Estadísticas Nacionales del Reino Unido (ONS) está explorando la posibilidad de usar "raspado web" además de los métodos de fijación de precios existentes. Hoy, se centran en artículos como comida y ropa. A pesar de los primeros años, los beneficios potenciales en términos de aumentar el tamaño de las muestras y la granularidad parecen significativos. Por ejemplo, el ONS hasta ahora ha recolectado 7,000 ofertas de precios por día para un grupo de productos de abarrotes, que es más que la tarifa mensual actual para estos productos en el IPC. 27 (27 - Ver www.ons.gov.uk/economy/inflationandpriceindices/articles/researchindicesusingwebscrapedpricedata / agosto2017actualización )

En cuanto a la medición del PIB, aquí también aparecen nuevas fuentes y métodos. Un estudio reciente utilizó imágenes satelitales para medir la cantidad de luz no natural emitida desde varias regiones del mundo. Se ha encontrado que esto tiene una relación estadísticamente significativa con la actividad económica. 28 (28 - Henderson, Storeygard y Weil (2011), este enfoque podría ayudar a rastrear actividades en regiones que se eliminan geográficamente, donde los métodos de encuesta estadística son pobres o donde los problemas son incorrectos Las medidas son agudas.

Un ejemplo más mundano utilizado por la ONS de Gran Bretaña y otras agencias estadísticas son los llamados datos administrativos. Esto incluye datos recopilados por agencias gubernamentales como parte de sus actividades, por ejemplo, sobre ingresos y beneficios fiscales. En el Reino Unido, algunos de estos datos han estado disponibles recientemente para un uso más amplio como parte de una iniciativa de datos abiertos del gobierno, aunque se han sometido a una verificación seria.

Un ejemplo son los datos de IVA recibidos de las PYME en una serie de industrias que el ONS ha utilizado recientemente para compilar estimaciones del PIB basadas en la producción. Al igual que con los precios, la ganancia en el tamaño de la muestra y la granularidad del uso de dichos datos administrativos es potencialmente grande. La revisión mensual de la actividad comercial de ONS, por regla general, se basa en una muestra de aproximadamente 8,000 empresas que representan a este subgrupo de PYME. Actualmente, esto se complementa con declaraciones de IVA de aproximadamente 630,000 unidades de informes.29 (29 - www.ons.gov.uk/economy/grossdomesticproductgdp/articles/vatturnoverinitialresearchanalysisuk/december )

Estos nuevos datos complementan, no reemplazan, los métodos de encuesta existentes. Tienen el potencial de mejorar la oportunidad y la precisión de los datos de las cuentas nacionales sobre las tendencias económicas agregadas. ONS tiene su propio centro de ciencia de datos para liderar este esfuerzo. Y nuevas organizaciones de investigación, como el Instituto Alan Turing, están haciendo un excelente trabajo aplicando nuevos datos y métodos a las dimensiones económicas.

Otra área de investigación potencialmente fructífera en el seguimiento de los flujos de actividad en la economía son los datos financieros. Casi toda la actividad económica deja una marca financiera en el balance de una institución financiera. El seguimiento de los flujos de efectivo entre las instituciones financieras puede ayudar a determinar el tamaño de esta huella y, por lo tanto, indirectamente, realizar un seguimiento de la actividad económica.

En los últimos años, confiamos en el banco en la base de datos de ventas de productos de la Autoridad de Supervisión y Regulación Financiera (PSD). Esta es una fuente muy detallada de datos administrativos sobre productos hipotecarios del inquilino, publicados en el Reino Unido. Contiene datos sobre casi 16 millones de hipotecas desde mediados de 2005. PSPS proporcionó al banco una nueva herramienta de mayor resolución para analizar el comportamiento de los hogares y las viviendas.

Por ejemplo, en 2014, el PSD fue utilizado por el Comité de Política Financiera (FPC) del Banco para informar y calibrar sus decisiones sobre restricciones macroprudenciales sobre hipotecas de altos ingresos para hogares del Reino Unido. 30 (30 - junio de 2014 Informe de Estabilidad Financiera) Desde entonces, hemos utilizó estos datos para rastrear las características de las hipotecas existentes con altos ingresos en préstamos y préstamos altos al costo en el tiempo.31 (31 - Chakraborty, Gimpelewicz y Uluc 2017) Los datos de PSD se utilizaron para comprender las decisiones de fijación de precios en el mercado inmobiliario del Reino Unido. Bracke y Tenreyro (2016) y Benetton, Bracke y Garbarino (2018)) Y también se utilizaron para calibrar el modelo de agente de múltiples industrias del mercado inmobiliario del Reino Unido 33 (33- Baptista et al 2016).

En los últimos años, el banco y la ONS han estado desarrollando un conjunto más completo de datos sobre flujos de fondos entre instituciones. Se espera que estos datos ayuden a rastrear no solo los cambios de cartera, sino también cómo pueden afectar los mercados financieros y la economía en general. Por ejemplo, ¿las redistribuciones de la cartera por parte de los inversores institucionales afectan los mercados de activos y tienen un efecto estimulante sobre el gasto? 34 (34 - Banco de Inglaterra y Grupo de Trabajo de Prociclicidad 2014) Las respuestas a estas preguntas ayudan, por ejemplo, a evaluar la efectividad de la flexibilización cuantitativa. - Por ejemplo, Albertazzi, Becker y Boucinha (2018) muestran evidencia del canal de reequilibrio de cartera del programa de compra de activos del BCE)

También se alimentan datos nuevos y muy detallados a los flujos de pago, crédito y bancario. Algunos de ellos fueron utilizados para predecir o rastrear cambios en la actividad económica. Han logrado algo de éxito. Por ejemplo, en los Estados Unidos, recientemente se utilizó un conjunto de datos de más de 12 mil millones de transacciones con tarjeta de crédito y débito durante un período de 34 meses para analizar los patrones de consumo por edad, tamaño de la empresa, área metropolitana y sector.36 (36 - Farrell y Wheat 2015 )

Con el tiempo, quizás estos tipos de datos pueden ayudar a crear un mapa de los flujos de actividad financiera y en tiempo real en toda la economía, de la misma manera que ya se hace para el tráfico, la información o los flujos climáticos. Una vez que se hayan asignado, será posible modelar y modificar estos flujos utilizando una política. La primera vez que hablé sobre esta idea fue hace seis años. Hoy se ve más cerca que nunca de estar a nuestro alcance. 37 (37 - Ali, Haldane y Nahai-Williamson 2012)

Estas son todas las áreas donde DAFM puede hacer una contribución importante a los esfuerzos para mejorar la calidad y la oportunidad de los datos del sistema macroeconómico y financiero. Es bien sabido que las oportunidades para mejorar la calidad de los datos de las cuentas nacionales son muy grandes.38 (38 - Por ejemplo, Bean 2016) Y estos problemas de medición solo aumentarán a medida que avanzamos hacia una economía cada vez más digital y orientada a los servicios.

Velocidad

El segundo aspecto de la revolución de los grandes datos es su gran frecuencia y oportunidad. Los datos más frecuentes pueden proporcionar una imagen nueva o más precisa de las tendencias en los mercados financieros y la economía. En ocasiones, también puede ayudar a resolver problemas de identificación complejos que de otro modo interfieren con los grandes datos (como se muestra en el ejemplo de la gripe de Google) y con los métodos econométricos clásicos (como se muestra en el ejemplo de DSGE).

La crisis ha demostrado que en situaciones estresantes, algunos de los mercados financieros más grandes y profundos del mundo pueden carecer de liquidez. Esto ha llevado a capturar algunos de estos mercados. En respuesta a esto, como uno de sus primeros actos, el G20 en 2009 acordó recopilar muchos más datos sobre transacciones en estos mercados para ayudar a comprender mejor su dinámica en situaciones estresantes. 39 (39 - Ver, por ejemplo, FSB 2010 ) Estos datos se almacenan en repositorios comerciales.

En los últimos años, estos repositorios comerciales han comenzado a recopilar datos sobre una base comercial muy detallada. Esto significa que rápidamente acumularon una gran cantidad de datos. Por ejemplo, se recopilan alrededor de 11 millones de informes cada día hábil en el mercado de divisas. Proporcionan una rica fuente de datos cuando se trata de dinámicas y ubicaciones del mercado financiero de alta frecuencia.

Un ejemplo de ese sesgo se produjo cuando el franco suizo se eliminó en enero de 2015. Este movimiento inesperado causó grandes cambios en los precios de los activos. Frank mostró un fuerte movimiento en forma de V durante varias horas inmediatamente después de desvincularlo. Al analizar los datos del repositorio comercial sobre los contratos a plazo en el tipo de cambio franco suizo a euro, se pueden identificar algunas de las fuerzas impulsoras detrás de estos cambios. 40 (40 - Cielinska et al (2017). Otros trabajos de investigación recientes que utilizan datos del repositorio comercial incluyen Abad et al (2016 ) y Bonollo et al (2016))

Por ejemplo, las fluctuaciones de alta frecuencia en la moneda suiza se pueden comparar con el volumen de negociación en contratos a plazo. Estas transacciones pueden descomponerse aún más por contrapartes, por ejemplo, grandes bancos-comerciantes e inversores finales. Este tipo de método de descomposición muestra que fue la retirada de liquidez por parte de los grandes bancos, los comerciantes, lo que causó el desbordamiento de Frank, un signo clásico en tiempos de agitación en el mercado. )) Este movimiento se revirtió parcialmente tan pronto como los distribuidores reanudaron la producción del mercado.

Los datos del repositorio comercial también se pueden utilizar para evaluar si un parche franco debilitado ha tenido algún efecto duradero en el rendimiento del mercado. Un estudio realizado por el banco mostró que esto es así, con una fragmentación constante en el mercado de francos a plazo. La liquidez y la actividad entre distribuidores fueron estructuralmente más bajas, y la volatilidad del mercado fue consistentemente más alta después de este episodio.

El refinamiento adicional de estos datos nos permite contar una historia cuasi causal sobre las fuerzas impulsoras del movimiento en forma de V en los mercados de activos después de desvincular. El uso de datos paralelos tick-by-tick y trade-by-trade le permite identificar disparadores y amplificadores de una manera que de otro modo sería imposible.

Un segundo ejemplo de un estudio que utiliza datos más rápidos para mejorar nuestra comprensión de la dinámica económica es el mercado laboral. Comprender el comportamiento combinado del empleo y los salarios sigue siendo uno de los temas centrales de la macroeconomía moderna. Recientemente, esta dinámica se ha complicado por los cambios en el mundo del trabajo, cuando la automatización cambia tanto la naturaleza como la estructura del trabajo.

Investigaciones bancarias recientes han utilizado ofertas de trabajo detalladas para arrojar luz sobre esta dinámica. 42 (42 - Turrell et al (de próxima publicación)) El estudio analiza alrededor de 15 millones de vacantes en un período de diez años. En lugar de clasificar las vacantes por sector, ocupación o región, utiliza métodos de aprendizaje automático en el texto de descripción del trabajo para clasificar y agrupar las vacantes. El resultado es un esquema de clasificación más "descripción del trabajo" para la demanda laboral.

Este enfoque proporciona una forma diferente de clasificar y describir cómo se está desarrollando el mundo del trabajo, por ejemplo, los tipos de habilidades necesarias en un entorno de automatización. El esquema de clasificación también fue útil para determinar la relación entre la demanda laboral y los salarios. El uso de clasificaciones basadas en descripciones de trabajo ayuda a identificar una relación más clara entre la demanda laboral y los salarios ofrecidos y acordados.
Diversidad

Una de las áreas potencialmente más productivas de la investigación de big data en los sectores macro y financiero es el uso de palabras, no números, como datos. Los datos semánticos y los métodos de búsqueda semántica tienen un rico pedigrí en otras ciencias sociales, como la sociología y la psicología. Pero hasta ahora, su uso en economía y finanzas ha sido relativamente limitado. 43 (43 - Ejemplos notables incluyen Schonhardt-Bailey (2013) y Goldsmith-Pinkham, Hirtle y Lucca (2016))

Al igual que otras ciencias sociales, la economía y las finanzas están asociadas con Elección humana. Y sabemos que las personas a menudo confían en la heurística o las historias, en lugar de las estadísticas, cuando tienen sentido del mundo y toman decisiones. Por lo tanto, la percepción semántica de estas historias es importante para comprender el comportamiento humano y tomar decisiones.

Por ejemplo, el Banco recientemente comenzó a aprender el lenguaje que utiliza en la comunicación externa, ya sea con empresas financieras o con el público en general. Por ejemplo, Michael McMahon de la Universidad de Oxford y yo apreciamos recientemente cómo la simplificación de la redacción del Comité de Política Monetaria (MPC) en el informe de inflación a fines del año pasado aumentó la comprensión pública de los mensajes de política monetaria. 44 (44 - Haldane y McMahon (de próxima publicación)).

El segundo ejemplo examina un aspecto mucho menos estudiado de la toma de decisiones bancarias: su supervisión de las empresas financieras 45 (45 - Bholat et al 2017) Esto se basa en un análisis textual de las reuniones resumidas periódicas (PSM) confidenciales del Banco enviadas a las empresas financieras. Estas son quizás las cartas más importantes que la autoridad reguladora prudencial (PRA) envía regularmente a las empresas, estableciendo una evaluación del riesgo de las empresas por parte de los supervisores y que requieren medidas para mitigar esos riesgos. Utilizando un método de aprendizaje automático llamado bosques aleatorios, los investigadores analizan estas letras y extraen datos sobre su tono y contenido.

Este tipo de análisis tiene una serie de aplicaciones de políticas. Se puede utilizar para evaluar si las cartas envían un mensaje de supervisión claro y consistente a las empresas. Por ejemplo, puede comparar la fortaleza y el contenido de estas cartas con la evaluación interna del banco sobre las fortalezas y debilidades de las empresas. ¿Son estos dos enfoques consistentes con el sistema de supervisión del Banco? En general, los estudios han demostrado que sí.

Este enfoque también se puede utilizar para evaluar cómo ha evolucionado un estilo de vigilancia con el tiempo. Por ejemplo, ¿cómo ha cambiado desde la transición en los modelos de supervisión de la gestión de servicios financieros (FSA) a PRA? El estudio mostró que, en comparación con estos dos modos, el intercambio de mensajes de supervisión se ha vuelto más prometedor, formal y significativo, lo que es consistente con el nuevo modelo de actividades de supervisión de la PRA.

Creo que este ejercicio es un buen ejemplo de aplicación de la nueva metodología (bosques aleatorios) a una base de datos completamente nueva (evaluaciones de supervisión bancaria) en el campo de la política, que no ha sido estudiada previamente por investigadores (supervisión de empresas financieras). Llega a conclusiones que están directamente relacionadas con cuestiones de política. Por lo tanto, creo que enfatiza maravillosamente las perspectivas de big data.

En mi último ejemplo, no se usan datos nuevos, sino antiguos. Sin embargo, creo que esta es una buena ilustración de cómo los nuevos métodos también se pueden utilizar para comprender el pasado. Mucho antes de que el Banco se hiciera responsable de la política monetaria y la estabilidad financiera, una de las funciones clave del banco era proporcionar préstamos, como último recurso, a los bancos comerciales que experimentaban presión de liquidez.

Es difícil fechar con precisión, pero el banco comenzó a realizar tales operaciones seriamente, probablemente en la época en que Gran Bretaña enfrentó una serie constante de pánico bancario en 1847, 1857 y 1866. El banco respondió a este pánico proporcionando liquidez para apoyar a los bancos. La última línea de crédito surgió, ya que Badgehot comenzó a llamarla posteriormente. 46 (46 - Bagehot 1873) De hecho, más tarde Beydzhhot definió los principios de tales préstamos: debería ocurrir libremente, con una penalidad por una buena garantía.

Una pregunta histórica interesante relacionada con la actualidad es si el banco realmente se adhirió a estos principios cuando prestó al último recurso durante el pánico de 1847, 1857 y 1866. Para evaluar esto, tomamos datos de gigantescos libros en papel que registran los cambios en el balance del banco, donde estas intervenciones se registraron en un préstamo para un préstamo, contraparte para una contraparte, tasa de interés para una tasa de interés. 47 (47 - Anson et al 2017)

Descifrar estos datos fue beneficioso porque las notas escritas a mano en los libros fueron hechas por un pequeño número de empleados durante tres crisis, una de las ventajas indirectas de la continuidad del trabajo. Si bien los datos se registraron principalmente manualmente, el proyecto desarrolló un sistema de reconocimiento de imágenes utilizando el algoritmo de red neuronal, que utilizaremos en el futuro para convertir las operaciones de libros históricos en datos legibles por máquina del siglo XXI.

Los datos sobre préstamos históricos al último recurso del banco son nuevos y muy detallados, grandes datos de una época pasada. Esto muestra que el enfoque del Banco para los préstamos en casos extremos ha cambiado significativamente durante las crisis de mediados del siglo XIX. Esto significaba que, en el momento de la crisis de 1866, el Banco seguía más o menos los principios de los préstamos como último recurso, más tarde establecido por Badgehot. Este es otro ejemplo de teoría empírica líder.

Los métodos de aprendizaje automático se aplican a las estadísticas recopiladas e informadas regularmente por el banco. En particular, estos métodos se utilizan para identificar errores o anomalías en los datos de origen proporcionados al banco. Esto hace que la limpieza de datos sea mucho más sistemática y eficiente de lo posible con procesos manuales. Los métodos de análisis de datos también se pueden utilizar para comparar nuevas fuentes de datos granulares. Esto no solo proporciona otra forma de validar los datos, sino que también puede dar una idea de que las fuentes de datos individuales no pueden divulgarlas por sí mismas. 48 (48 - Bahaj, Foulis y Pinter (2017), por ejemplo, coinciden con el nivel de la empresa los datos contablesdatos de precios de vivienda a nivel de transacción y datos de hipotecas residenciales a nivel de préstamo para mostrar cómo el precio de vivienda del director de una PYME puede afectar la inversión de su empresa y la factura salarial.) En el Banco de Inglaterra, como en otros lugares, los robots están en aumento.

Una mirada al futuro

Mirando hacia el futuro, se puede observar que hay muchas áreas potenciales en las que estas nuevas fuentes y nuevos métodos se pueden ampliar para mejorar la comprensión del sistema económico y financiero por parte del banco. De una larga lista, permítanme discutir una que me parece de particular importancia.

La economía del comportamiento, por derecho, ha causado un gran revuelo en los últimos años al cambiar la forma en que los economistas piensan sobre cómo se toman las decisiones humanas. Las decisiones y acciones humanas se desvían, a menudo de manera significativa y consistente, de las expectativas racionales, que a menudo se aceptan como normales. 49 (49 - Rotemberg (1984), por ejemplo, analiza el rechazo estadístico de los modelos de expectativas racionales para el consumo y la demanda laboral). y la heurística dominan la toma de decisiones humanas. Y las expectativas formadas por las personas a menudo están determinadas en gran medida por la historia, las emociones y las acciones de otras personas, así como por el cálculo racional.

Este comportamiento parece ser importante tanto para los individuos (microeconomía) como para las sociedades (macroeconomía). Por ejemplo, las narrativas populares que se desarrollan en los mercados financieros y en el discurso público cotidiano han demostrado ser factores empíricos importantes para las fluctuaciones en los precios de los activos y la actividad económica. 50 (50 - Tuckett y Nyman (2017), Shiller (2017) y Nyman et al (2018) ) Estas narraciones pueden ser especialmente importantes durante los períodos de estrés económico y financiero, cuando las emociones se calientan y las historias sociales adquieren un significado adicional.

Y, sin embargo, cuando se trata de medir ese comportamiento, ya sea a nivel micro o macroeconómico, nuestros métodos existentes a menudo están mal equipados. Atrapar los verdaderos sentimientos y preferencias de las personas es muy difícil. Las encuestas tradicionales de los participantes del mercado o del público en general, por regla general, están sesgadas en su muestra y se formulan en las respuestas. Como en la física cuántica, el acto de observación en sí mismo puede cambiar el comportamiento.

Estas realidades pueden requerir el estudio de formas no convencionales para identificar las preferencias y estados de ánimo de las personas. Como un ejemplo reciente, se pueden citar datos sobre descargas de música de Spotify, que se utilizaron en conjunto con métodos de búsqueda semántica aplicados a las letras de las canciones para proporcionar un indicador del estado de ánimo de las personas. Curiosamente, el índice de sentimiento resultante, al menos, rastrea el gasto del consumidor tan bien como la Encuesta de Confianza del Consumidor de Michigan.51 (51 - Sabouni 2018).

¿Y por qué detenerse en la música? Los gustos de las personas en los libros, la televisión y la radio también pueden abrir una ventana a sus almas. Al igual que su gusto en los juegos. De hecho, estoy interesado en el potencial de usar técnicas de juego no solo para extraer datos sobre las preferencias de las personas, sino también como un medio para generar datos sobre preferencias y acciones.

Los modelos existentes, empíricos y teóricos, a menudo hacen suposiciones fuertes sobre el comportamiento del agente. Los modelos teóricos se basan en supuestos axiomáticos. Los modelos empíricos se basan en patrones históricos de comportamiento. Estas restricciones pueden o no confirmarse en el comportamiento futuro. Si este no es el caso, el modelo se descompondrá en una muestra, como lo hicieron el modelo DSGE (deductivo) y el modelo de gripe Google (inductivo).

El entorno de juego se puede utilizar para comprender el comportamiento de modo que haya menos restricciones. El comportamiento de las personas se observará directamente en el acto del juego, lo que, siempre que este comportamiento sea un reflejo razonable del verdadero comportamiento, nos dará nuevos datos. Dado que este es un mundo virtual, no real, donde los Choques están controlados y regulados, esto puede facilitar la resolución de problemas de causalidad e identificación en respuesta a los choques, incluidos los Choques políticos.

Ya hay juegos que involucran a varias personas y economías primitivas que permiten que los bienes y el dinero cambien de manos entre los participantes. Estos incluyen EVE Online y World of Warcraft. Algunos economistas han comenzado a utilizar la tecnología de juegos para comprender el comportamiento.52 (52 - Por ejemplo, Lehdonvirta y Castronova (2014) Por ejemplo, Stephen Levitt (de la fama de Freakonomics) utilizó plataformas de juego para comprender la curva de demanda de bienes virtuales.53 (53 - Levitt et al. (2016)

La idea aquí sería utilizar un juego dinámico con varias personas para estudiar el comportamiento en una economía virtual. Esto incluirá la interacción de los jugadores, por ejemplo, la aparición de narrativas populares que forman gastos o ahorros. Y esto puede incluir la reacción de los jugadores a la interferencia en la política, por ejemplo, su reacción a las políticas monetarias y regulatorias. De hecho, en el último rol, el juego podría servir como banco de pruebas para la acción política: un grupo focal dinámico y dinámico a gran escala. 54 (54 - Yanis Varoufakis ha estado involucrado anteriormente con una idea similar: uk.businessinsider.com/yanis-varoufakis-valve -gameeconomy-greek-finance-2015-2 )

Los especialistas en inteligencia artificial crean entornos virtuales para acelerar el proceso de estudio de la dinámica de los sistemas. "Aprender con refuerzo" permite que los algoritmos aprendan y se actualicen en función de las interacciones entre jugadores virtuales, en lugar de una experiencia histórica limitada. 55 (55 - Ver deepmind.com/blog/deep-reinforcement-learning para una discusión) Al menos en En principio, una economía virtual permitiría a los políticos participar en su propio entrenamiento de refuerzo, acelerando su proceso de descubrimiento sobre el comportamiento de un complejo sistema económico y financiero.

Conclusión

Entonces, ¿los grandes datos cumplirán su promesa? Estoy seguro de que será así. La economía y las finanzas necesitan invertir constantemente en big data y análisis de datos para equilibrar las escalas metodológicas. Y los primeros estudios, incluso en el banco, muestran que los rendimientos de tales actividades pueden ser altos, lo que profundiza nuestra comprensión de la economía y el sistema financiero.

Estos resultados se obtendrán mejor si se establece una estrecha colaboración entre las autoridades estadísticas, los encargados de formular políticas, el sector comercial, los centros de investigación y el mundo académico. El Banco de Inglaterra puede desempeñar un papel catalítico en la combinación de esta experiencia. DAFM puede hacer lo mismo. Le deseo todo el éxito a DAFM y espero trabajar con usted.

Referencias

Abad, J, Aldasoro, I, Aymanns, C, D»Errico, M, Rousová, L F, Hoffmann, P, Langfield, S, Neychev, M and Roukny, T (2011), «Shedding light on dark markets: First insights from the new EU-wide OTC derivatives dataset», ESRB Occasional Paper Series, No. 11.

Albertazzi, U, Becker, B and Boucinha, M (2018), «Portfolio rebalancing and the transmission of largescale asset programmes: evidence from the euro area», ECB Working Paper Series, No. 2125.

Ali, R, Haldane, A and Nahai-Williamson, P (2012), «Towards a common financial language», paper available at www.bankofengland.co.uk/paper/2012/towards-a-common-financial-language
Anderson, C (2008), «The End of Theory: The Data Deluge Makes The Scientific Method Obsolete», Wired Magazine, 23 June.

Anson, M, Bholat, D, Kang, M and Thomas, R (2017), «The Bank of England as lender of last resort: new historical evidence from daily transactional data», Bank of England Staff Working Paper, No. 691.

Bacon, F (1620), Novum Organum.

Bagehot, W (1873), Lombard Street: A Description of the Money Market, Henry S. King & Co.

Bahaj, S, Foulis, A and Pinter, G (2017), «Home values and firm behaviour», Bank of England Staff Working Paper, No. 679.

Bank of England and Procyclicality Working Group (2014), «Procyclicality and structural trends in investment allocation by insurance companies and pension funds», Discussion Paper, July.

Baptista, R, Farmer, JD, Hinterschweiger, M, Low, K, Tang, D and Uluc, A (2016), «Macroprudential policy in an agent-based model of the UK housing market», Bank of England Staff Working Paper, No. 619.

Bean, C (2016), «Independent Review of UK Economic Statistics», available at www.gov.uk/government/publications/independent-review-of-uk-economic-statistics-final-report
Benetton, M, Bracke, P and Garbarino, N (2018), «Down payment and mortgage rates: evidence from equity loans», Bank of England Staff Working Paper, No. 713.

Bholat, D, Brookes, J, Cai, C, Grundy, K and Lund, J (2017), «Sending firm messages: text mining letters from PRA supervisors to banks and building societies they regulate, Bank of England Staff Working Paper, No. 688.

Bholat, D, Hansen, S, Santos, P and Schonhardt-Bailey, C (2015), «Text mining for central banks», Bank of England Centre for Central Bank Studies Handbook.

Bonollo, M, Crimaldi, I, Flori, A, Gianfanga, L and Pammolli, F (2016), «Assessing financial distress dependencies in OTC markets: a new approach using trade repositories data», Financial Markets and Portfolio Management, Vol. 30, No. 4, pp. 397-426.

Bracke, P and Tenreyro, S (2016), «History dependence in the housing market», Bank of England Staff Working Paper, No. 630.

Carney, M (2015), speech at Launch Conference for One Bank Research Agenda, available at www.bankofengland.co.uk/speech/2015/one-bank-research-agenda-launch-conference

Cavallo, A and Rigobon, R (2016), «The Billion Prices Project: Using Online Prices for Measurement and Research», Journal of Economic Perspectives, Vol. 30, No. 2, pp. 151-78.

Chakraborty, C, Gimpelewicz, M and Uluc, A (2017), «A tiger by the tail: estimating the UK mortgage market vulnerabilities from loan-level data, Bank of England Staff Working Paper, No. 703.

Chakraborty, C and Joseph, A (2017), «Machine learning at central banks», Bank of England Staff Working Paper, No. 674.

Cielenska, O, Joseph, A, Shreyas, U, Tanner, J and Vasios, M (2017), «Gauging market dynamics using trade repository data: the case of the Swiss franc de-pegging», Bank of England Financial Stability Paper, No. 41.

Cœuré, B (2017), «Policy analysis with big data», speech at the conference on «Economic and Financial Regulation in the Era of Big Data».

Coyle, D (2014), GDP: A Brief but Affectionate History, Princeton University Press.

Duffie, D, Gârleanu, N and Pedersen, L (2005), «Over-the-Counter Markets», Econometrica, Vol. 73, No.6, pp. 1815-1847.

Dwoskin, E (2015), «New Report Puts Numbers on Data Scientist Trend», Wall Street Journal, 7 October.

Economist (2017), «The world»s most valuable resource is no longer oil, but data», article on 6 May 2017.

Ericsson (2017), Ericsson Mobility Report, November 2017.

Farrell, D and Wheat, C (2015), «Profiles of Local Consumer Commerce», JPMorgan Chase & Co. Institute.

Financial Stability Board (2010), «Implementing OTC Derivatives Market Reforms», Financial Stability Board.

Fouquet, R and Broadberry, S (2015), «Seven Centuries of European Economic Growth and Decline», Journal of Economic Perspectives, Vol. 29, No. 4, pp. 227-244.

Ginsberg, J, Hohebbi, M, Patel, R, Brammer, L, Smolinski, M and Brilliant, L (2009), «Detecting influenza epidemics using search engine data», Nature, Vol. 457, pp. 1012-1014.

Goldsmith-Pinkham, P, Hirtle, B and Lucca, D (2016), «Parsing the Content of Bank Supervision», Federal Reserve Bank of New York Staff Reports, No. 770.

Haldane, A (2016), «The Dappled World», speech available at www.bankofengland.co.uk/speech/2016/the-dappled-world

Haldane, A and McMahon, M (forthcoming), «Central Bank Communication and the General Public», American Economic Review: Papers & Proceedings.

Henderson, V, Storeygard, A and Weil, D (2011), «A Bright Idea for Measuring Economic Growth», American Economic Review: Papers & Proceedings, Vol. 101, No. 3, pp. 194-99.

Henke, N, Bughin, J, Chui, M, Manyika, J, Saleh, T, Wiseman, B and Sethupathy, G (2016), «The Age of Analytics: Competing in a Data-Driven World», McKinsey Global Institute.

IMF (2018), «Cyclical Upswing, Structural Change», World Economic Outlook, April 2018.

Lagos, R, Rocheteau, G and Weill, P-O (2011), «Crises and liquidity in over-the-counter markets», Journal of Economic Theory, Vol. 146, No. 6, pp. 2169-2205.

Lazer, D, Kennedy, R, King, G and Vespignani, A (2014), «The Parable of Google Flu: Traps in Big Data Analysis», Science, Vol. 343, pp. 1203-1205.

Leamer, E (1983), «Let»s Take the Con Out of Econometrics», American Economic Review, Vol. 73, No. 1, pp. 31-43.

Lehdonvirta, V and Castronova, E (2014), Virtual Economies: Design and Analysis, MIT Press.

Levitt, S, List, J, Neckermann, S and Nelson, D (2016), «Quantity discounts on a virtual good: The results of a massive pricing experiment at Kind Digital Entertainment», Proceedings of the National Academy of Sciences of the United States of America, Vol. 113, No. 27, pp. 7323-7328.

Moore, G (1965), «Cramming more components onto integrated circuits», Electronics, Vol. 38, No. 8.

Nyman, R, Kapadia, S, Tuckett, D, Gregory, D, Ormerod, P and Smith, R (2018), «News and narratives in financial systems: exploiting big data for systemic risk assessment», Bank of England Staff Working Paper, No. 704.

Obstfeld, M and Rogoff, K (2001), «The Six Major Puzzles in International Macroeconomics: Is There a Common Cause?», NBER Macroeconomics Annual, Vol. 15, MIT Press.

Popper, K (1934), Logik der Forschung, Akademie Verlag.

Popper, K (1959), The Logic of Scientific Discovery, Routledge.

Rotemberg, J (1984), «Interpreting the Statistical Failures of Some Rational Expectations Models», American Economic Review, Vol. 74, No. 2, pp. 188-193.

Sabouni, H (2018), «The Rhythm of Markets», mimeo.

Schonhardt-Bailey, C (2013), Deliberating American Monetary Policy: A Textual Analysis, MIT Press.

Schwab, K (2017), The Fourth Industrial Revolution, Portfolio Penguin.

Shiller, R (2017), «Narrative Economics», American Economic Review, Vol. 104, No. 4, pp. 967-1004.

SINTEF (2013), «Big Data, for better or worse: 90% of world»s data generated over last two years», ScienceDaily, 22 May.

Stiglitz, J (2018), «Where modern macroeconomics went wrong», Oxford Review of Economy Policy, Vol. 34, No. 1-2, pp. 70-106.

Tuckett, D and Nyman, R (2017), «The relative sentiment shift series for tracking the economy», mimeo.

Turrell, A, Speigner, B, Thurgood, J, Djumalieva, J and Copple, D (forthcoming), «Using Online Vacancies to Understand the UK Labour Market from the Bottom-Up», Bank of England Staff Working Paper.

¿Big Data cumplirá sus promesas?