O Big Data manterá suas promessas?

Do tradutor


Esta é uma tradução do relatório do principal economista do Banco da Inglaterra sobre as possibilidades de uso de big data nas atividades desta organização. Título original "O Big Data manterá sua promessa?" 30 de abril de 2018.

Eles falam muito sobre Big Data, mas, pessoalmente, tenho a impressão de que nós, como aborígines de tanga, estamos nos impondo bugigangas sem valor. Este relatório, na minha opinião, confirma que, de fato, trabalhar com Big Data é um processo bastante complicado, mas produtivo.

Obviamente, este relatório é muito diferente do que eles nos dizem, porque você mesmo entende que este relatório foi desenvolvido para um público diferente. A qualidade, na minha opinião, é exemplar. Em conjunto, o status da organização do Banco da Inglaterra e o especialista que apresentou esses resultados, fica claro como, em muitos casos, a análise de Big Data pode ser usada. Suas conclusões, em pequenas formulações, podem ser formuladas da seguinte maneira:

  • é muito cuidadosamente necessário determinar a direção e o nível de decomposição dos dados pelo exemplo das ações do banco suíço;
  • em um número significativo de casos, o valor pode aparecer em novos resultados, por exemplo, na formação da redação dos documentos de gestão do Banco da Inglaterra.

Ele apenas sugere alguns resultados quando a indústria de jogos pode substituir o método de Monte Carlo.

Tradução automática, com pequenas correções, para não cortar a orelha após o kata.

É um prazer estar aqui para lançar o centro de pesquisa Data Analytics for Finance and Macro (DAFM) na King's College Business School. Gostaria de felicitar os professores Georgios Kapetanios e Georgios Cortareas como co-diretores (e também ex-colegas) pelo fato de terem organizado uma plataforma de lançamento para o centro e a preparado para a decolagem.

Acredito que a aplicação de métodos de análise de dados para resolver muitas questões prementes no campo das finanças e macroeconomia tem grandes perspectivas. Por esse motivo, o Banco da Inglaterra, cerca de quatro anos atrás, criou sua própria unidade de análise de dados. E é por isso que congratulo-me com a criação deste novo centro como um meio de cumprir esta promessa.

Mas o big data manterá sua promessa? Quero tentar ilustrar algumas dessas promessas de big data, além de possíveis armadilhas, usando exemplos de estudos recentes do Banco da Inglaterra sobre o sistema econômico e financeiro. Concluindo, darei algumas reflexões mais especulativas sobre pesquisas futuras sobre big data.1 (1- Cœuré (2017) oferece um excelente resumo do potencial do Big Data para melhorar a formulação de políticas, em particular nos bancos centrais).

O caminho menos seguido


A primeira coisa a dizer é que os métodos de big data e análise de dados não são novos. No entanto, nos últimos anos, eles se tornaram uma das áreas de crescimento mais rápido nos círculos acadêmico e comercial. Durante esse período, os dados se tornaram um novo petróleo; métodos de análise de dados tornaram-se refinarias de petróleo e refinarias de seu tempo; e as empresas de informação tornaram-se novos gigantes do petróleo.2 (2- Por exemplo, The Economist (2017), Henke et al (2016).)

No entanto, a economia e as finanças têm sido até agora bastante restritas com relação à aprovação universal dessa "febre do petróleo". Para economia e finanças, o uso de métodos de análise de dados era menos comum, pelo menos em comparação com outras disciplinas. Um dos diagnósticos simples a esse respeito vem da consideração de interpretações muito diferentes da expressão "mineração de dados" por aqueles que estão dentro e fora da economia e das finanças.

Para os economistas, poucos pecados são mais repugnantes que a mineração de dados. O último remédio do vilão é se envolver em uma "busca de regressão", relatando apenas os resultados da regressão que melhor se ajustam à hipótese que o pesquisador pretendia testar primeiro. É isso que coloca a economia em desacordo.3 (3- Leamer 1983) Para a maioria dos economistas, essa análise de dados tem uma triste semelhança com a perfuração de petróleo - um negócio sujo de mineração que é acompanhado por um grande efeito prejudicial à saúde.

Para os cientistas de dados, a situação pode ser mais diferente. Para eles, a mineração de dados é um meio de extrair novos recursos valiosos e usá-los. Isso permite que você obtenha novas idéias, crie novos produtos, estabeleça novos relacionamentos, promova novas tecnologias. Esta é a matéria-prima para uma nova onda de produtividade e inovação, a nascente Quarta Revolução Industrial.4 (4 - Veja, por exemplo, Schwab 2017)

O que explica a cautela de alguns economistas em relação ao big data? Parte da resposta está na metodologia.5 (5 - Haldane 2016) Um pedaço decente da economia seguiu os passos metodológicos de Karl Popper na década de 1930. Popper defendeu uma abordagem dedutiva ao progresso científico.6 (6 - Popper (1934) e Popper (1959)) Isso começou com axiomas, passou de axiomas para teoria e só então aceitou hipóteses de dados. Em outras palavras, a teoria precedeu a medição.

Existe uma abordagem alternativa e indutiva. Isso tem raízes ainda mais profundas no trabalho de Francis Bacon desde o início dos anos 1600. 7 (7 - Bacon 1620) Ele começa com dados não limitados por axiomas e hipóteses e depois os usa para informar a seleção de comportamentos. Em outras palavras, os dados precedem a teoria. De fato, alguns pesquisadores de dados sugeriram que essa abordagem poderia sinalizar o "fim da teoria". 8 (8 - Anderson 2008)

Portanto, onde alguns economistas tendem a ver armadilhas no big data, especialistas em dados veem perspectivas promissoras. Onde alguns economistas tendem a ver a ameaça ambiental que isso representa, os analistas de dados veem o potencial econômico. Estou um pouco caricaturado, mas só um pouquinho. Então quem está certo? E a era do big data indica um fluxo ou derramamento de óleo?

É verdade que, como costuma acontecer, provavelmente está em algum lugar no meio. As abordagens dedutiva e indutiva podem oferecer insights sobre o mundo. Eles são mais vistos como adições metodológicas do que como substitutos. Em outras palavras, usar uma abordagem isoladamente aumenta o risco de conclusões errôneas e de erros potencialmente graves no entendimento e na política. Deixe-me dar alguns exemplos para ilustrar.

Durante a crise financeira global, agora é bem aceito que o modelo de equilíbrio geral estocástico dinâmico (DSGE) da principal força de trabalho macroeconômica caiu em primeiro plano.9 (9 - Por exemplo, Stiglitz 2018) Ela não conseguiu explicar a dinâmica do ciclo de negócios durante ou depois da crise. Embora teoricamente puro, acabou sendo empiricamente frágil. Acredito que essa fragilidade empírica tenha surgido devido à excessiva dependência metodológica dos métodos dedutivos. Ou, em outras palavras, devido ao fato de pouca atenção ser dada a dados reais do passado, incluindo crises.

Como um contra-exemplo, em 2008, o Google lançou um modelo prognóstico de surtos de influenza com base em frases como “sinais da gripe”. 10 (10 - Ginsberg et al 2009) Isso fez uma tremenda quantidade de trabalho para rastrear surtos de influenza nos EUA em 2009-10. Mas nos anos que se seguiram, as previsões desse modelo sofreram uma derrota esmagadora.11 (11 - Lazer et al 2014) Eu sugeriria que essa fragilidade empírica surgiu devido a uma dependência excessiva das leis empíricas e um compromisso excessivo com métodos indutivos. Ou, em outras palavras, pouca atenção é dada às profundas causas médicas dos surtos anteriores de gripe.

No primeiro caso, a fragilidade empírica surgiu por causa de um conjunto muito estreito de axiomas e limitações, por causa de muita ênfase na teoria, e não em correlações reais e experiência histórica. No segundo caso, a fragilidade empírica surgiu devido a um conjunto muito fraco de axiomas e restrições devido às correlações empíricas observadas, que desempenham um papel muito grande no que diz respeito à teoria e causalidade.

Nos dois casos, esses erros podem ser reduzidos se as abordagens indutiva e dedutiva forem usadas de maneira complementar ou iterativa. Essa abordagem iterativa tem um forte pedigree em outras disciplinas. A história do progresso em muitas disciplinas científicas incluía um processo de aprendizado bidirecional entre teoria e empirismo, quando, em alguns casos, a teoria estimulava medições e, em outros, a teoria da motivação da medição em um ciclo de feedback contínuo. 12 (12 - Bacon (1620) resume bem isso: que lidaram com ciências foram homens de experimento ou homens de dogmas.Os homens de experimento são como a formiga, eles só colecionam e usam; os raciocinadores se parecem com aranhas, que fazem teias de aranha com sua própria substância. é claro: reúne seu material das flores do jardim e do campo,mas a transforma e digere por um poder próprio. ")

Um exemplo dessa abordagem, discutido pelo governador Carney durante o lançamento de seu próprio programa de análise de dados do Banco, diz respeito à dinâmica do movimento planetário. (13 - Carney 2015) Foi Sir Isaac Newton (o ex-proprietário da Casa da Moeda Real que também imprimiu dinheiro) quem desenvolveu a teoria física do movimento celestial. Mas essa teoria foi construída sobre os ombros empíricos de outro gigante científico, Johannes Kepler. Quando se trata de movimento planetário, o empirismo primeiro liderou a teoria, a indutância liderou a dedutiva.

De tempos em tempos era o mesmo quando entendíamos o movimento da economia e dos mercados financeiros. As teorias keynesianas e monetaristas foram construídas com base na experiência empírica da época da Grande Depressão. A curva de Phillips se originou como uma lei empírica de Kepler, que só mais tarde recebeu uma base teórica newtoniana. Muitos quebra-cabeças financeiros que foram assombrados por teóricos por décadas começaram como anomalias empíricas nos mercados de ativos.14 (14 - Obstfeld e Rogoff (2001) discutem seis quebra-cabeças importantes na macroeconomia internacional, como o excesso de volatilidade das taxas de câmbio em relação aos fundamentos). Em cada caso, o empirismo liderou a teoria, o indutivo levou o dedutivo.

Minha conclusão de tudo isso é clara. Se esse processo iterativo de aprendizado entre empirismo e teoria continuar a dar frutos na economia, abordagens dedutivas e indutivas podem exigir uma cobrança geralmente igual. Se é assim, acho que a economia e as finanças obterão um alto retorno fazendo investimentos intelectuais adicionais em big data e acompanhando-os com métodos analíticos no futuro.

Definição de Big Data


Se o big data é promissor, provavelmente é útil começar definindo o que é. Isto não é bem fácil. Como a beleza, o que é considerado big data está nos olhos de quem vê. É também um conceito fluido. Por exemplo, é claro que os dados não significam mais apenas números e palavras. De fato, nos últimos anos, houve um aumento nas pesquisas sobre semântica, inclusive no campo da economia e das finanças.

O que é menos controverso é que, na última década, a revolução mais extraordinária ocorreu na criação, extração e coleta de dados, no sentido amplo da palavra. Em parte, esse foi o resultado da lei de Moore e dos avanços relacionados à tecnologia da informação.15 (15 - Moore (1965) observou a duplicação anual no número de componentes por circuito integrado) Ao contrário do petróleo, cujos recursos são limitados, novos dados são criados com velocidade sem precedentes e possui reservas praticamente ilimitadas.

Estima-se que 90% de todos os dados já gerados foram nos últimos dois anos.16 (16 - SINTEF 2013) um bom pedaço veio das redes sociais. Cerca de 1,5 bilhão de pessoas usam o Facebook diariamente e 2,2 bilhões por mês. Em 2017, havia 4,4 bilhões de assinaturas de smartphones, mais de uma para cada segunda pessoa no planeta. Segundo as previsões, até 2023, o número de assinantes de smartphones será de 7,3 bilhões, ou seja, quase um para cada pessoa.17 (17 - Ericsson Mobility Report 2017) Segundo as estimativas, em 2017, foram tiradas 1,2 trilhão de fotos, o que corresponde a 25 % de todas as fotos já tiradas.18 (18 - Consulte www.statista.com/chart/10913/number-of-photos-taken-worldwide )

Outra visão dessa revolução da informação se abre quando analisamos o número de cientistas que estudam dados. Usando dados do trabalho do site de pesquisa de emprego da Reed, mais de 300 anúncios de emprego no Reino Unido foram recentemente publicados para profissionais de processamento de dados.19 (19 - Usando o conjunto de dados em Turrell et al (no prelo)) Não havia quase nenhum em 2012. Estimativas baseadas na auto-identificação no site de rede social Linked-In sugerem que pode haver mais de 20.000 especialistas em processamento de dados no mundo.20 (20 - Dwoskin (2015). O verdadeiro número de cientistas de dados em todo o mundo é altamente incerto. trabalhar na ciência de dados sem necessariamente usar esse cargo, mas o oposto também é verdadeiro.)

Ao mesmo tempo, houve um rápido crescimento de novos métodos de processamento, filtragem e extração de informações desses dados. As técnicas de aprendizado de máquina estão se desenvolvendo rapidamente. Os chamados métodos de "aprendizado profundo" complementam as abordagens existentes, como modelos baseados em árvore, suportam máquinas vetoriais e suportam máquinas vetoriais e técnicas de agrupamento.21 (21 - Chakraborty e Joseph 2017) Métodos de vocabulário, os modelos vetoriais estão ganhando força rapidamente no campo da análise de texto. espaços e análise semântica 22 (22 - Bholat et al 2015)

Todos esses métodos oferecem várias maneiras de extrair informações e obter conclusões confiáveis ​​em situações em que as relações empíricas podem ser complexas, não lineares e em evolução e quando os dados podem chegar a diferentes frequências e formatos diferentes. Essas abordagens diferem significativamente dos métodos econométricos clássicos de inferência e teste, frequentemente usados ​​em economia e finanças.

Essa revolução na apresentação de dados e nos métodos para entendê-los oferece riqueza analítica. A extração dessas riquezas requer, no entanto, considerável cuidado. Por exemplo, os problemas de privacidade de dados se destacam muito mais com dados granulares, em alguns casos personalizados. Recentemente, essas questões ocuparam legitimamente um lugar de destaque. Ao mesmo tempo, a proteção de big data é uma das principais tarefas do Banco em suas pesquisas.

Promessa de Big Data


Na medida em que o big data pode ser caracterizado, isso geralmente é feito usando "três Vs": volume, velocidade e variedade. Usando os três Vs como estrutura organizacional, deixe-me discutir alguns exemplos de como esses dados e métodos foram usados ​​em pesquisas bancárias recentes para melhorar nossa compreensão do funcionamento da economia e do sistema financeiro.

Volume


O fundamento estatístico da análise macroeconômica, pelo menos desde meados do século XX, são as contas nacionais. As contas nacionais sempre se basearam em um conjunto de dados eclético.23 (23 - Coyle 2014) No passado, as contas de terras agrícolas para uso da terra, produção agrícola e gado eram usadas para estimar a produção agrícola. A produção industrial foi medida por várias fontes, como o número de altos-fornos de ferro e os livros listados pela Biblioteca Britânica. E a produção de serviços foi estimada com base na tonelagem da frota comercial.24 (24 - Fouquet e Broadberry 2015)

Com mais dados chegando do que nunca, o uso de fontes e métodos novos e ecléticos de dados, nesse caso, está se tornando mais comum em escritórios de estatística. No campo da medição de preços ao consumidor, o MIT Billion Prices Project usa dados de mais de 1.000 lojas on-line em aproximadamente 60 países para coletar 15 milhões de preços diariamente. Verificou-se que essa abordagem fornece informações de preços ao consumidor mais oportunas (e mais baratas) do que as pesquisas tradicionais.25 (25 - Cavallo e Rigobon 2016) Também foi constatado que os dados de preços on-line melhoram as previsões de inflação de curto prazo em alguns mercados.26 (26 - Cœuré 2017)

Na mesma linha, o Escritório Nacional de Estatísticas do Reino Unido (ONS) está explorando a possibilidade de usar a “raspagem na web”, além dos métodos de preços existentes. Hoje, eles se concentram em itens como alimentos e roupas. Apesar dos primeiros anos, os benefícios potenciais em termos de aumento no tamanho e granularidade da amostra parecem significativos. Por exemplo, até agora, o ONS coletou 7.000 ofertas de preço por dia para um grupo de produtos de mercearia, mais do que a taxa mensal atual para esses produtos no CPI.27 (27 - Consulte www.ons.gov.uk/economy/inflationandpriceindices/articles/researchindicesusingwebscrapedpricedata). / august2017update )

Quanto à medição do PIB, novas fontes e métodos também estão aparecendo aqui. Um estudo recente utilizou imagens de satélite para medir a quantidade de luz não natural emitida de várias regiões do mundo. Verificou-se que isso tem uma relação estatisticamente significativa com a atividade econômica.28 (28 - Henderson, Storeygard e Weil (2011), essa abordagem pode potencialmente ajudar a rastrear atividades em regiões geograficamente removidas, onde os métodos de pesquisa estatística são fracos ou onde os problemas estão incorretos. as medições são nítidas.

Um exemplo mais mundano usado pelo ONS da Grã-Bretanha e outras agências de estatística são os chamados dados administrativos. Isso inclui dados coletados por agências governamentais como parte de suas atividades - por exemplo, sobre receitas e benefícios fiscais. No Reino Unido, alguns desses dados foram disponibilizados recentemente para uso mais amplo como parte de uma iniciativa de dados abertos do governo, embora tenham sido submetidos a verificações sérias.

Um exemplo são os dados de IVA recebidos das PME em vários setores que foram recentemente utilizados pelo ONS para compilar estimativas de PIB com base na produção. Assim como nos preços, o ganho no tamanho da amostra e na granularidade do uso desses dados administrativos é potencialmente grande. A revisão mensal da atividade de negócios do ONS, como regra, é baseada em uma amostra de aproximadamente 8.000 empresas representando este subgrupo de PME. Atualmente, isso é complementado por declarações de IVA de aproximadamente 630.000 unidades de relatório 29. (29 - www.ons.gov.uk/economy/grossdomesticproductgdp/articles/vatturnoverinitialresearchanalysisuk/december )

Esses novos dados complementam, e não substituem, os métodos de pesquisa existentes. Eles têm o potencial de melhorar a pontualidade e a precisão dos dados das contas nacionais sobre tendências econômicas agregadas. O ONS possui seu próprio centro de ciência de dados para liderar esse esforço. E novas organizações de pesquisa, como o Instituto Alan Turing, estão fazendo um excelente trabalho aplicando novos dados e métodos às dimensões econômicas.

Outra área de pesquisa potencialmente frutífera no rastreamento de fluxos de atividades na economia são os dados financeiros. Quase toda atividade econômica deixa uma marca financeira no balanço patrimonial de uma instituição financeira. O rastreamento dos fluxos de caixa entre instituições financeiras pode ajudar a determinar o tamanho dessa pegada e, assim, indiretamente, a rastrear a atividade econômica.

Nos últimos anos, contamos com o banco no banco de dados de vendas de produtos da Autoridade de Regulamentação e Supervisão Financeira (PSD). Essa é uma fonte muito detalhada de dados administrativos sobre produtos hipotecários do inquilino, divulgados no Reino Unido. Ele contém dados sobre quase 16 milhões de hipotecas desde meados de 2005. O PSPS forneceu ao banco uma nova ferramenta de alta resolução para analisar o comportamento da casa e da habitação.

Por exemplo, em 2014, o PSD foi usado pelo Comitê de Política Financeira (FPC) do Banco para informar e calibrar suas decisões sobre restrições macroprudenciais sobre hipotecas de alta renda para famílias do Reino Unido. 30 (30 - junho de 2014 - Relatório de Estabilidade Financeira) Desde então, nós Utilizaram esses dados para rastrear as características de hipotecas existentes com altas rendas em empréstimos e altos empréstimos a custo ao longo do tempo.31 (31 - Chakraborty, Gimpelewicz e Uluc 2017) Os dados do PSD foram utilizados para entender as decisões de precificação no mercado imobiliário do Reino Unido.32 (32 - Bracke e Tenreyro (2016) e Benetton, Bracke e Garbarino (2018)) E também foram usados ​​para calibrar o modelo de agente imobiliário do setor imobiliário no Reino Unido.33 (33- Baptista et al 2016).

Nos últimos anos, o banco e o ONS vêm desenvolvendo um conjunto mais completo de dados sobre fluxos de fundos entre instituições. Espera-se que esses dados ajudem a rastrear não apenas as alterações do portfólio, mas também como elas podem afetar os mercados financeiros e a economia como um todo. Por exemplo, as redistribuições de portfólio por investidores institucionais afetam os mercados de ativos e exercem um efeito estimulante sobre os gastos? - Por exemplo, Albertazzi, Becker e Boucinha (2018) mostram evidências do canal de reequilíbrio da carteira do programa de compra de ativos do BCE)

Novos dados altamente detalhados também são fornecidos aos fluxos de pagamento, crédito e banco. Alguns deles foram usados ​​para prever ou rastrear mudanças na atividade econômica. Eles alcançaram algum sucesso. Por exemplo, nos Estados Unidos, um conjunto de dados de mais de 12 bilhões de transações com cartão de crédito e débito em um período de 34 meses foi usado recentemente para analisar padrões de consumo por idade, tamanho da empresa, área metropolitana e setor.36 (36 - Farrell and Wheat 2015 )

Com o tempo, talvez esses tipos de dados possam ajudar a criar um mapa dos fluxos de atividades financeiras e em tempo real em toda a economia, da mesma maneira que já foi feito para fluxos de tráfego, informações ou meteorológicas. Após o mapeamento, será possível modelar e modificar esses fluxos usando uma política. Eu falei sobre essa idéia pela primeira vez há seis anos. Hoje, ele parece mais do que nunca estar ao nosso alcance.37 (37 - Ali, Haldane e Nahai-Williamson 2012)

Essas são as áreas em que o DAFM pode dar uma contribuição importante aos esforços para melhorar a qualidade e a pontualidade dos dados do sistema macroeconômico e financeiro. É sabido que as oportunidades para melhorar a qualidade dos dados das contas nacionais são muito grandes.38 (38 - Por exemplo, Bean 2016) E esses problemas de medição só aumentam à medida que avançamos em direção a uma economia cada vez mais digital e orientada a serviços.

Rapidez


O segundo aspecto da revolução do big data é sua grande frequência e pontualidade. Dados mais frequentes podem fornecer uma imagem nova ou mais precisa das tendências nos mercados financeiros e na economia. Às vezes, também pode ajudar a resolver problemas complexos de identificação que, de outra forma, interferem nos big data (como o exemplo da gripe do Google mostrou) e nos métodos econométricos clássicos (como o exemplo da DSGE).

A crise mostrou que, em situações estressantes, alguns dos maiores e mais profundos mercados financeiros do mundo podem não ter liquidez. Isso levou alguns desses mercados a serem capturados. Em resposta a isso, como um de seus primeiros atos, o G20 em 2009 concordou em coletar muito mais dados sobre transações nesses mercados para ajudar a entender melhor sua dinâmica em situações estressantes 39 (39 - ver, por exemplo, FSB 2010). ) Esses dados são armazenados em repositórios de negociação.

Nos últimos anos, esses repositórios de negociação começaram a coletar dados com uma base de negociação altamente detalhada. Isso significa que eles rapidamente acumularam um grande suprimento de dados. Por exemplo, cerca de 11 milhões de relatórios são coletados todos os dias úteis no mercado de câmbio. Eles fornecem uma fonte rica de dados quando se trata de dinâmicas e locais de mercado financeiro de alta frequência.

Um exemplo desse viés ocorreu quando o franco suíço foi descodificado em janeiro de 2015. Esse movimento inesperado causou grandes mudanças nos preços dos ativos. Frank mostrou um movimento acentuado em forma de V por várias horas imediatamente após desvincular. Ao analisar os dados do repositório de transações sobre contratos a termo do franco suíço para as taxas do euro, algumas das forças motrizes por trás dessas mudanças podem ser identificadas 40 (40 - Cielinska et al (2017). Outros trabalhos de pesquisa recentes que usam dados de repositórios de transações incluem Abad et al (2016). ) e Bonollo et al (2016))

Por exemplo, flutuações de alta frequência na moeda suíça podem ser comparadas com o volume de negociação de contratos a termo. Essas transações podem ser ainda mais decompostas por contrapartes, por exemplo, grandes bancos - negociantes e investidores finais. Esse tipo de método de decomposição mostra que foi a retirada de liquidez por grandes bancos - os negociantes que causaram a superação de Frank - um sinal clássico em tempos de turbulência no mercado.41 (41 - Veja, por exemplo, Duffie, Gârleanu e Pedersen (2005) e Lagos, Rocheteau e Weill (2011) )) Esse movimento reverteu parcialmente assim que os revendedores retomaram a produção no mercado.

Os dados do repositório de transações também podem ser usados ​​para avaliar se uma pegada de franco enfraquecido teve algum efeito duradouro no desempenho do mercado. Um estudo do banco mostrou que é assim, com constante fragmentação no mercado de francos a prazo. A liquidez e a atividade entre revendedores foram estruturalmente mais baixas e a volatilidade do mercado foi constantemente maior após esse episódio.

O refinamento adicional desses dados nos permite contar uma história quase causal sobre as forças motrizes do movimento em forma de V nos mercados de ativos após a desassociação. O uso de dados paralelos tick-a-tick e trade-by-trade permite identificar gatilhos e amplificadores de uma maneira que, de outra forma, seria impossível.

Um segundo exemplo de estudo que utiliza dados mais rápidos para melhorar nossa compreensão da dinâmica econômica é o mercado de trabalho. A compreensão do comportamento combinado de emprego e salário continua sendo uma das questões centrais da macroeconomia moderna. Recentemente, essa dinâmica foi complicada por mudanças no mundo do trabalho, quando a automação muda a natureza e a estrutura do trabalho.

Pesquisas bancárias recentes usaram dados detalhados sobre vagas anunciadas para esclarecer essa dinâmica.42 (42 - Turrell et al (a ser publicado)) O estudo analisa cerca de 15 milhões de vagas em um período de dez anos. Em vez de classificar as vagas por setor, ocupação ou região, ele usa métodos de aprendizado de máquina no texto da descrição do trabalho para classificar e agrupar vagas. O resultado é um esquema de classificação mais "descrição do trabalho" para a demanda de trabalho.

Essa abordagem fornece uma maneira diferente de classificar e descrever como o mundo do trabalho está se desenvolvendo - por exemplo, os tipos de habilidades necessárias em um ambiente de automação. O esquema de classificação também foi útil para determinar a relação entre demanda de trabalho e salários. O uso de classificações baseadas nas descrições de cargos ajuda a identificar uma relação mais clara entre demanda de trabalho e salários oferecidos e acordados.
Diversidade

Uma das áreas potencialmente mais produtivas da pesquisa em big data nos setores macro e financeiro é o uso de palavras, não de números, como dados. Os dados semânticos e os métodos de busca semântica têm um rico pedigree em outras ciências sociais, como a sociologia e a psicologia. Mas até agora, seu uso em economia e finanças tem sido relativamente limitado.43 (43 - Exemplos notáveis ​​incluem Schonhardt-Bailey (2013) e Goldsmith-Pinkham, Hirtle e Lucca (2016))

Como outras ciências sociais, economia e finanças estão associadas a escolha humana. E sabemos que as pessoas geralmente confiam em heurísticas ou histórias, e não em estatísticas, quando entendem o mundo e tomam decisões. Assim, a percepção semântica dessas histórias é importante para entender o comportamento humano e tomar decisões.

Por exemplo, o Banco recentemente começou a aprender o idioma que usa na comunicação externa, seja com empresas financeiras ou com o público em geral. Por exemplo, Michael McMahon, da Universidade de Oxford e eu recentemente apreciamos como a simplificação da redação do Comitê de Política Monetária (MPC) no relatório de inflação no final do ano passado aumentou o entendimento público das mensagens de política monetária. (44 - Haldane e McMahon (no prelo)).

O segundo exemplo examina um aspecto muito menos estudado da tomada de decisão bancária - sua supervisão das empresas financeiras 45 (45 - Bholat et al 2017) Isso é baseado em uma análise textual das reuniões periódicas confidenciais (PSMs) confidenciais do Banco enviadas às empresas financeiras. Essas são talvez as cartas mais importantes que a autoridade reguladora prudencial (PRA) envia regularmente às empresas, estabelecendo uma avaliação dos riscos das empresas pelos supervisores e exigindo ações para mitigar esses riscos. Usando um método de aprendizado de máquina chamado florestas aleatórias, os pesquisadores analisam essas cartas e extraem dados sobre seu tom e conteúdo.

Esse tipo de análise possui vários aplicativos de política. Pode ser usado para avaliar se as cartas enviam uma mensagem clara e consistente de supervisão às empresas. Por exemplo, você pode comparar a força e o conteúdo dessas cartas com a avaliação interna do banco sobre os pontos fortes e fracos das empresas. Essas duas abordagens são consistentes com o sistema de supervisão do Banco? Em geral, estudos demonstraram que são.

Essa abordagem também pode ser usada para avaliar como um estilo de vigilância evoluiu ao longo do tempo. Por exemplo, como isso mudou desde a transição dos modelos de supervisão do gerenciamento de serviços financeiros (FSA) para o PRA? O estudo mostrou que, em comparação com esses dois modos, a troca de mensagens de supervisão se tornou mais promissora, formal e significativa, o que é consistente com o novo modelo de atividades de supervisão da PRA.

Este exercício, eu acho, é um bom exemplo de aplicação da nova metodologia (florestas aleatórias) a um banco de dados completamente novo (avaliações de supervisão bancária) no campo da política que não foi estudado anteriormente por pesquisadores (supervisão de empresas financeiras). Ele chega a conclusões diretamente relacionadas a questões de política. Então, acho que enfatiza muito bem as perspectivas de big data.

No meu último exemplo, não são usados ​​dados novos, mas antigos. No entanto, acho que essa é uma boa ilustração de como novos métodos também podem ser usados ​​para entender o passado. Muito antes de o Banco se tornar responsável pela política monetária e estabilidade financeira, um dos papéis principais do banco era conceder empréstimos, como último recurso, a bancos comerciais que sofriam pressão de liquidez.

É difícil datar com precisão, mas o banco começou a conduzir essas operações a sério, provavelmente na época em que a Grã-Bretanha enfrentou uma série constante de pânico bancário em 1847, 1857 e 1866. O banco respondeu a esse pânico, fornecendo liquidez para apoiar os bancos. A última linha de crédito surgiu, como Badgehot posteriormente começou a chamá-la. 46 (46 - Bagehot 1873) De fato, mais tarde, Beydzhhot definiu os princípios de tais empréstimos: deveria ocorrer livremente, com uma penalidade por boas garantias.

Uma questão histórica interessante relacionada a hoje é se o banco realmente aderiu a esses princípios ao emprestar até o último recurso durante o pânico de 1847, 1857 e 1866. Para avaliar isso, pegamos dados de gigantescos livros em papel que registram alterações no balanço do banco, onde essas intervenções foram registradas em um empréstimo para um empréstimo, contraparte para uma contraparte, taxa de juros para uma taxa de juros.47 (47 - Anson et al 2017)

A decifração desses dados foi benéfica, pois as anotações manuscritas nos livros foram feitas por um pequeno número de funcionários durante três crises - uma das vantagens indiretas da continuidade do trabalho. Embora os dados tenham sido gravados principalmente manualmente, o projeto desenvolveu um sistema de reconhecimento de imagens usando o algoritmo de rede neural, que usaremos no futuro para transformar operações de livros históricos em dados legíveis por máquina do século XXI.

Os dados sobre empréstimos históricos para o último recurso do banco são novos e muito detalhados, big data de uma época passada. Isso mostra que a abordagem do Banco aos empréstimos em casos extremos mudou significativamente durante as crises de meados do século XIX. Isso significava que, na época da crise de 1866, o Banco seguia mais ou menos os princípios dos empréstimos como último recurso, posteriormente estabelecidos por Badgehot. Este é outro exemplo de liderança da teoria empírica.

Os métodos de aprendizado de máquina são aplicados a estatísticas regularmente coletadas e relatadas pelo banco. Em particular, esses métodos são usados ​​para identificar erros ou anomalias nos dados de origem fornecidos ao banco. Isso torna a limpeza de dados muito mais sistemática e eficiente do que é possível com processos manuais. Os métodos de análise de dados também podem ser usados ​​para comparar novas fontes de dados granulares. Isso não apenas fornece outra maneira de verificar a confiabilidade dos dados, mas também pode dar uma ideia de que as fontes de dados individuais não podem divulgar por conta própria.48 (48 - Bahaj, Foulis e Pinter (2017), por exemplo, correspondem ao nível da empresa Dados contábeisdados de preços da habitação no nível da transação e dados de hipotecas residenciais no nível do empréstimo para mostrar como o preço da habitação do diretor de uma PME pode afetar o investimento e a remuneração de sua empresa.) No Banco da Inglaterra, como em outros lugares, os robôs estão em ascensão.

Um olhar para o futuro


Olhando para o futuro, note-se que existem muitas áreas em potencial em que essas novas fontes e novos métodos podem ser expandidos para melhorar o entendimento do banco sobre o sistema econômico e financeiro. A partir de uma longa lista, deixe-me discutir um que me parece ser de particular importância.

A economia comportamental, por certo, causou um grande estrago nos últimos anos ao mudar a maneira como os economistas pensam sobre como as decisões humanas são tomadas. As decisões e ações humanas muitas vezes divergem de maneira significativa e consistente das expectativas racionais, que muitas vezes são adotadas como norma.49 (49 - Rotemberg (1984), por exemplo, discute a rejeição estatística dos modelos de expectativas racionais para consumo e demanda de trabalho). e heurísticas dominam a tomada de decisão humana. E as expectativas formadas pelas pessoas geralmente são moldadas em grande parte pela história, emoções e ações de outras pessoas, bem como pelo cálculo racional.

Esse comportamento parece ser importante tanto para os indivíduos (microeconomia) quanto para as sociedades (macroeconomia). Por exemplo, narrativas populares que se desenvolvem nos mercados financeiros e no discurso público cotidiano provaram ser fatores empíricos importantes para flutuações nos preços dos ativos e na atividade econômica 50 (50 - Tuckett e Nyman (2017), Shiller (2017) e Nyman et al (2018). ) Essas narrativas podem ser especialmente importantes durante períodos de estresse econômico e financeiro, quando as emoções estão esquentando e as histórias sociais adquirem significado adicional.

E, no entanto, quando se trata de medir esse comportamento, seja no nível micro ou macroeconômico, nossos métodos existentes geralmente são mal equipados. Capturar os verdadeiros sentimentos e preferências das pessoas é muito difícil. Pesquisas tradicionais de participantes do mercado ou do público em geral, como regra, são tendenciosas em sua amostra e são formuladas nas respostas. Como na física quântica, o próprio ato de observação pode mudar o comportamento.

Essas realidades podem exigir o estudo de maneiras não convencionais de identificar as preferências e o humor das pessoas. Como exemplo recente, pode-se citar dados sobre downloads de músicas do Spotify, que foram usados ​​em conjunto com métodos de pesquisa semântica aplicados às letras das músicas para fornecer um indicador do humor das pessoas. Curiosamente, o índice de sentimentos resultante, pelo menos, acompanha os gastos dos consumidores tão bem quanto a Pesquisa de Confiança do Consumidor do Michigan.51 (51 - Sabouni 2018).

E por que insistir na música? O gosto das pessoas em livros, televisão e rádio também pode abrir uma janela para suas almas. Assim como o gosto deles em jogos. Na verdade, estou interessado no potencial de usar técnicas de jogo não apenas para extrair dados sobre as preferências das pessoas, mas também como um meio de gerar dados sobre preferências e ações.

Os modelos existentes, empíricos e teóricos, costumam fazer fortes suposições sobre o comportamento do agente. Modelos teóricos são baseados em premissas axiomáticas. Modelos empíricos são baseados em padrões históricos de comportamento. Essas restrições podem ou não ser confirmadas em comportamento futuro. Se não for esse o caso, o modelo será amostrado, como fizeram o modelo DSGE (dedutivo) e o modelo de gripe do Google (indutivo).

O ambiente de jogo pode ser usado para entender o comportamento, para que haja menos restrições. O comportamento das pessoas será observado diretamente no ato do jogo, que, desde que esse comportamento seja um reflexo razoável do comportamento verdadeiro, nos fornecerá novos dados. Como este é um mundo virtual, e não real, onde os choques são controlados e regulados, isso pode facilitar a resolução de problemas de causalidade e identificação em resposta a choques, incluindo choques políticos.

Já existem jogos envolvendo várias pessoas e economias primitivas que permitem que bens e dinheiro mudem de mãos entre os participantes. Isso inclui o EVE Online e o World of Warcraft. Alguns economistas começaram a usar a tecnologia de jogos para entender o comportamento.52 (52 - Por exemplo, Lehdonvirta e Castronova (2014) Por exemplo, Stephen Levitt (da fama Freakonomics) usou plataformas de jogos para entender a curva de demanda por bens virtuais.53 (53 - Levitt et al. (2016)

A idéia aqui seria usar um jogo dinâmico com várias pessoas para estudar o comportamento em uma economia virtual. Isso incluirá a interação dos atores - por exemplo, o surgimento de narrativas populares que formam despesas ou economias. E isso pode incluir a reação dos atores à interferência na política - por exemplo, a reação deles às políticas monetárias e regulatórias. De fato, neste último papel, o jogo poderia servir como um banco de ensaio para a ação política - um grupo de foco digital dinâmico e em larga escala.54 (54 - Yanis Varoufakis já havia se envolvido anteriormente com uma idéia semelhante: uk.businessinsider.com/yanis-varoufakis-valve -gameeconomy-Greek-finance-2015-2 )

Os especialistas em inteligência artificial criam ambientes virtuais para acelerar o processo de estudo da dinâmica dos sistemas. “Aprender com reforço” permite que os algoritmos aprendam e atualizem com base nas interações entre os jogadores virtuais, em vez de na experiência histórica limitada 55 (55 - Veja deepmind.com/blog/deep-reinforcement-learning para uma discussão) Pelo menos em Em princípio, uma economia virtual permitiria aos políticos participar de seu próprio treinamento de reforço, acelerando seu processo de descoberta sobre o comportamento de um complexo sistema econômico e financeiro.

Conclusão


Então, o big data manterá sua promessa? Estou certo de que será assim. Economia e finanças precisam investir constantemente em big data e análise de dados para equilibrar escalas metodológicas. E estudos iniciais, inclusive no banco, mostram que o retorno dessas atividades pode ser alto, aprofundando nossa compreensão da economia e do sistema financeiro.

Esses resultados serão melhor obtidos se for estabelecida uma colaboração estreita entre autoridades estatísticas, formuladores de políticas, o setor comercial, centros de pesquisa e a academia. O Banco da Inglaterra pode desempenhar um papel catalisador no agrupamento dessa experiência. O DAFM pode fazer o mesmo. Desejo todo o sucesso à DAFM e espero trabalhar com você.

Referências
Abad, J, Aldasoro, I, Aymanns, C, D»Errico, M, Rousová, L F, Hoffmann, P, Langfield, S, Neychev, M and Roukny, T (2011), «Shedding light on dark markets: First insights from the new EU-wide OTC derivatives dataset», ESRB Occasional Paper Series, No. 11.

Albertazzi, U, Becker, B and Boucinha, M (2018), «Portfolio rebalancing and the transmission of largescale asset programmes: evidence from the euro area», ECB Working Paper Series, No. 2125.

Ali, R, Haldane, A and Nahai-Williamson, P (2012), «Towards a common financial language», paper available at www.bankofengland.co.uk/paper/2012/towards-a-common-financial-language
Anderson, C (2008), «The End of Theory: The Data Deluge Makes The Scientific Method Obsolete», Wired Magazine, 23 June.

Anson, M, Bholat, D, Kang, M and Thomas, R (2017), «The Bank of England as lender of last resort: new historical evidence from daily transactional data», Bank of England Staff Working Paper, No. 691.

Bacon, F (1620), Novum Organum.

Bagehot, W (1873), Lombard Street: A Description of the Money Market, Henry S. King & Co.

Bahaj, S, Foulis, A and Pinter, G (2017), «Home values and firm behaviour», Bank of England Staff Working Paper, No. 679.

Bank of England and Procyclicality Working Group (2014), «Procyclicality and structural trends in investment allocation by insurance companies and pension funds», Discussion Paper, July.

Baptista, R, Farmer, JD, Hinterschweiger, M, Low, K, Tang, D and Uluc, A (2016), «Macroprudential policy in an agent-based model of the UK housing market», Bank of England Staff Working Paper, No. 619.

Bean, C (2016), «Independent Review of UK Economic Statistics», available at www.gov.uk/government/publications/independent-review-of-uk-economic-statistics-final-report
Benetton, M, Bracke, P and Garbarino, N (2018), «Down payment and mortgage rates: evidence from equity loans», Bank of England Staff Working Paper, No. 713.

Bholat, D, Brookes, J, Cai, C, Grundy, K and Lund, J (2017), «Sending firm messages: text mining letters from PRA supervisors to banks and building societies they regulate, Bank of England Staff Working Paper, No. 688.

Bholat, D, Hansen, S, Santos, P and Schonhardt-Bailey, C (2015), «Text mining for central banks», Bank of England Centre for Central Bank Studies Handbook.

Bonollo, M, Crimaldi, I, Flori, A, Gianfanga, L and Pammolli, F (2016), «Assessing financial distress dependencies in OTC markets: a new approach using trade repositories data», Financial Markets and Portfolio Management, Vol. 30, No. 4, pp. 397-426.

Bracke, P and Tenreyro, S (2016), «History dependence in the housing market», Bank of England Staff Working Paper, No. 630.

Carney, M (2015), speech at Launch Conference for One Bank Research Agenda, available at www.bankofengland.co.uk/speech/2015/one-bank-research-agenda-launch-conference

Cavallo, A and Rigobon, R (2016), «The Billion Prices Project: Using Online Prices for Measurement and Research», Journal of Economic Perspectives, Vol. 30, No. 2, pp. 151-78.

Chakraborty, C, Gimpelewicz, M and Uluc, A (2017), «A tiger by the tail: estimating the UK mortgage market vulnerabilities from loan-level data, Bank of England Staff Working Paper, No. 703.

Chakraborty, C and Joseph, A (2017), «Machine learning at central banks», Bank of England Staff Working Paper, No. 674.

Cielenska, O, Joseph, A, Shreyas, U, Tanner, J and Vasios, M (2017), «Gauging market dynamics using trade repository data: the case of the Swiss franc de-pegging», Bank of England Financial Stability Paper, No. 41.

Cœuré, B (2017), «Policy analysis with big data», speech at the conference on «Economic and Financial Regulation in the Era of Big Data».

Coyle, D (2014), GDP: A Brief but Affectionate History, Princeton University Press.

Duffie, D, Gârleanu, N and Pedersen, L (2005), «Over-the-Counter Markets», Econometrica, Vol. 73, No.6, pp. 1815-1847.

Dwoskin, E (2015), «New Report Puts Numbers on Data Scientist Trend», Wall Street Journal, 7 October.

Economist (2017), «The world»s most valuable resource is no longer oil, but data», article on 6 May 2017.

Ericsson (2017), Ericsson Mobility Report, November 2017.

Farrell, D and Wheat, C (2015), «Profiles of Local Consumer Commerce», JPMorgan Chase & Co. Institute.

Financial Stability Board (2010), «Implementing OTC Derivatives Market Reforms», Financial Stability Board.

Fouquet, R and Broadberry, S (2015), «Seven Centuries of European Economic Growth and Decline», Journal of Economic Perspectives, Vol. 29, No. 4, pp. 227-244.

Ginsberg, J, Hohebbi, M, Patel, R, Brammer, L, Smolinski, M and Brilliant, L (2009), «Detecting influenza epidemics using search engine data», Nature, Vol. 457, pp. 1012-1014.

Goldsmith-Pinkham, P, Hirtle, B and Lucca, D (2016), «Parsing the Content of Bank Supervision», Federal Reserve Bank of New York Staff Reports, No. 770.

Haldane, A (2016), «The Dappled World», speech available at www.bankofengland.co.uk/speech/2016/the-dappled-world

Haldane, A and McMahon, M (forthcoming), «Central Bank Communication and the General Public», American Economic Review: Papers & Proceedings.

Henderson, V, Storeygard, A and Weil, D (2011), «A Bright Idea for Measuring Economic Growth», American Economic Review: Papers & Proceedings, Vol. 101, No. 3, pp. 194-99.

Henke, N, Bughin, J, Chui, M, Manyika, J, Saleh, T, Wiseman, B and Sethupathy, G (2016), «The Age of Analytics: Competing in a Data-Driven World», McKinsey Global Institute.

IMF (2018), «Cyclical Upswing, Structural Change», World Economic Outlook, April 2018.

Lagos, R, Rocheteau, G and Weill, P-O (2011), «Crises and liquidity in over-the-counter markets», Journal of Economic Theory, Vol. 146, No. 6, pp. 2169-2205.

Lazer, D, Kennedy, R, King, G and Vespignani, A (2014), «The Parable of Google Flu: Traps in Big Data Analysis», Science, Vol. 343, pp. 1203-1205.

Leamer, E (1983), «Let»s Take the Con Out of Econometrics», American Economic Review, Vol. 73, No. 1, pp. 31-43.

Lehdonvirta, V and Castronova, E (2014), Virtual Economies: Design and Analysis, MIT Press.

Levitt, S, List, J, Neckermann, S and Nelson, D (2016), «Quantity discounts on a virtual good: The results of a massive pricing experiment at Kind Digital Entertainment», Proceedings of the National Academy of Sciences of the United States of America, Vol. 113, No. 27, pp. 7323-7328.

Moore, G (1965), «Cramming more components onto integrated circuits», Electronics, Vol. 38, No. 8.

Nyman, R, Kapadia, S, Tuckett, D, Gregory, D, Ormerod, P and Smith, R (2018), «News and narratives in financial systems: exploiting big data for systemic risk assessment», Bank of England Staff Working Paper, No. 704.

Obstfeld, M and Rogoff, K (2001), «The Six Major Puzzles in International Macroeconomics: Is There a Common Cause?», NBER Macroeconomics Annual, Vol. 15, MIT Press.

Popper, K (1934), Logik der Forschung, Akademie Verlag.

Popper, K (1959), The Logic of Scientific Discovery, Routledge.

Rotemberg, J (1984), «Interpreting the Statistical Failures of Some Rational Expectations Models», American Economic Review, Vol. 74, No. 2, pp. 188-193.

Sabouni, H (2018), «The Rhythm of Markets», mimeo.

Schonhardt-Bailey, C (2013), Deliberating American Monetary Policy: A Textual Analysis, MIT Press.

Schwab, K (2017), The Fourth Industrial Revolution, Portfolio Penguin.

Shiller, R (2017), «Narrative Economics», American Economic Review, Vol. 104, No. 4, pp. 967-1004.

SINTEF (2013), «Big Data, for better or worse: 90% of world»s data generated over last two years», ScienceDaily, 22 May.

Stiglitz, J (2018), «Where modern macroeconomics went wrong», Oxford Review of Economy Policy, Vol. 34, No. 1-2, pp. 70-106.

Tuckett, D and Nyman, R (2017), «The relative sentiment shift series for tracking the economy», mimeo.

Turrell, A, Speigner, B, Thurgood, J, Djumalieva, J and Copple, D (forthcoming), «Using Online Vacancies to Understand the UK Labour Market from the Bottom-Up», Bank of England Staff Working Paper.

All Articles