大数据会信守承诺吗?

来自翻译


这是英格兰银行首席经济学家关于在该组织的活动中使用大数据的可能性的报告的翻译。原标题“大数据会兑现承诺吗?” 2018年4月30日。

他们谈论大数据很多,但是就个人而言,我经常给人一种印象,我们作为缠腰布的原住民正在对我们施加毫无价值的装饰品。我认为这份报告证实了,实际上,使用大数据是一个相当复杂的过程,但是富有成效。

当然,此报告与他们告诉我们的内容有很大不同,因为您自己了解该报告是针对其他受众而设计的。我认为这种质量堪称典范。总体而言,英格兰银行组织和提供这些结果的专家的状态非常清楚,在许多情况下,如何使用大数据分析。它的一些结论可以用小公式表述如下:

  • 以瑞士银行的行动为例,非常谨慎地确定数据分解的方向和水平;
  • 在很多情况下,该值可能会出现在新结果中,例如,英格兰银行管理文件的措词形成。

他只是暗示了游戏产业可以取代蒙特卡洛方法时的一些结果。

机器翻译,稍作修正,以免割伤后割伤耳朵。

我很高兴来到这里,在国王学院商学院启动了金融和宏观数据分析(DAFM)研究中心。我要祝贺作为联合主任(以及前同事)的Georgios Kapetanios和Georgios Cortareas教授为该中心组织了发射台并为起飞做好了准备。

我相信,将数据分析方法应用于解决金融和宏观经济学领域的许多紧迫问题具有广阔的前景。因此,大约四年前,英格兰银行创建了自己的数据分析部门。这就是为什么我非常欢迎创建这个新中心作为实现这一承诺的一种方式。

但是大数据会兑现诺言吗?我想用英格兰银行对经济和金融体系的最新研究中的例子,来说明大数据的这些许诺以及潜在的陷阱。总而言之,我将对未来的大数据研究给出更多的思考性思考。(1(1-Cœuré(2017)总结了大数据改善政策制定的潜力,特别是在中央银行中的潜力)。

少走的路


首先要说的是,大数据和数据分析方法并不是新事物。但是,近年来,它们已成为学术界和商业界增长最快的领域之一。在此期间,数据成为新的石油。数据分析方法已经成为炼油厂和当时的炼油厂; 2(例如,《经济学人》(2017年),亨克等人(2016年)。

尽管如此,到目前为止,在经济上和金融上对这种“石油热”的普遍认可都受到了限制。对于经济学和金融学来说,至少与其他学科相比,数据分析方法的使用较少。在这方面,简单的诊断方法之一是经济和金融内部和外部的人对“数据挖掘”一词的解释有很大不同。

对于经济学家来说,没有什么比数据挖掘更令人恶心了。最后一个恶棍的补救措施是进行“回归搜寻”,只报告最符合研究人员最初打算测试的假设的那些回归结果。对于大多数经济学家来说,这就是计量经济学的问题3(3- Leamer 1983),这种对数据的分析与石油钻探有着悲惨的相似之处,石油钻探是肮脏的采矿业,同时对健康产生巨大的不利影响。

对于数据科学家而言,情况可能会有所不同。对于他们来说,数据挖掘是一种提取新的有价值的资源并加以利用的手段。这使您能够获得新的想法,创建新的产品,建立新的关系,推广新技术。这是新生的生产力和创新浪潮的原材料,是新生的第四次工业革命4(4-例如,参见施瓦布2017)

是什么解释了一些经济学家对大数据的谨慎态度?答案部分在于方法论5(5-Haldane 2016)卡尔·波普尔(Karl Popper)在1930年代的方法论足迹追随了相当一部分经济体。波普(Popper)提倡演绎科学进步的方法6(6-Popper(1934)和Popper(1959))这始于公理,从公理传到理论,然后才接受数据假设。换句话说,理论先于测量。

有另一种归纳方法。这甚至可以追溯到1600年代初期弗朗西斯·培根的工作7(7-培根1620)。他首先从不受公理和假设约束的数据开始,然后使用它们来指导行为的选择。换句话说,数据先于理论。确实,一些数据研究人员建议这种方法可能预示着“理论的终结”。8(8-Anderson 2008)

因此,在一些经济学家倾向于看到大数据存在缺陷的地方,数据专家看到了有希望的前景。在一些经济学家倾向于看到其构成的环境威胁的地方,数据分析师则看到了经济潜力。我有点讽刺,但只是一点点。那么谁是对的?大数据时代是否预示着石油流动或漏油?

没错,就像经常发生的那样,它可能位于中间的某个地方。演绎法和归纳法都可以提供对世界的见识。最好将它们视为方法的补充,而不是替代的方法。换句话说,孤立地使用一种方法会增加错误结论的风险,并可能增加理解和政治上的严重错误。让我给你一些例子来说明。

在全球金融危机期间,宏观经济主要力量的动态随机一般均衡模型(DSGE)落在第一道栅栏上,这已为人们所接受9(9-例如,Stiglitz 2018)她无法解释在此期间商业周期的动态或危机过后。尽管从理论上讲是纯粹的,但事实证明它是脆弱的。我认为,这种经验上的脆弱性是由于方法论对演绎方法的过度依赖所引起的。或者换句话说,由于对包括危机在内的过去真实数据的关注太少这一事实。

作为反例,2008年Google基于“流感迹象”等短语启动了流感暴发的预后模型。10(10-Ginsberg等2009)这在追踪2009-10年度美国流感暴发方面做了大量工作。但是在随后的几年中,该模型的预测遭到了惨败。11(11-Lazer等,2014)我认为这种经验上的脆弱性是由于对经验定律的过度依赖和对归纳方法的过度承诺而产生的。或者,换句话说,对过去流感爆发的深层医学原因的关注很少。

在第一种情况下,由于一组公理和局限性太狭窄,由于对理论的过分重视而不是对实际关联和历史经验的过分重视,因此出现了经验脆弱性。在第二种情况下,由于观察到的经验相关性导致公理和约束集太弱而导致了经验脆弱性,这在理论和因果关系中起着太大的作用。

在两种情况下,如果以互补或迭代的方式使用归纳法和演绎法,则可以减少这些误差。这种迭代方法在其他学科中具有很强的血统。许多科学学科的发展历史包括在理论和经验主义之间进行双向学习的过程,在某些情况下,该理论刺激了测量,而在另一些情况下,该理论激励了连续反馈回路中的测量动机。12(12-Bacon(1620)总结得很好:从事科学工作的人要么是实验者,要么是教条主义者;实验者就像蚂蚁,只收集和使用;推理者就像蜘蛛,它们是用自己的物质制造蜘蛛网的,但是蜜蜂需要中间的东西。路线:它从花园和田野的花朵中收集材料,但会通过自身的力量对其进行转化和消化。”)

卡尼州长在启动世行自己的数据分析程序时讨论了这种方法的一个例子,它涉及行星运动的动力学。 (13-Carney,2015年)正是艾萨克·牛顿爵士(Royal Mint的前任老板,也曾印钞)发明了天体运动的物理理论。但是这个理论是建立在另一位科学巨人约翰尼斯·开普勒的经验肩膀上的。当涉及行星运动时,经验主义首先引领了这一理论,电感引领了演绎。

当我们了解经济和金融市场的变化时,有时是一样的。凯恩斯主义和货币主义理论是建立在大萧条时期的经验基础上的。菲利普斯曲线起源于经验开普勒定律,后来才获得牛顿理论基础。由于资产市场的经验异常,许多已经被理论家困扰了数十年的金融难题开始了(14(14-Obstfeld and Rogoff(2001)讨论了国际宏观经济学的六个主要难题,例如汇率相对于基本面的过度波动)。在每种情况下,经验主义主导理论,归纳主义主导演绎。

我从所有这些中得出的结论是明确的。如果经验主义和理论之间的这种迭代学习过程将继续在经济中取得成果,那么演绎法和归纳法可能需要大体上相等的费用。如果是这样的话,那么我认为通过对大数据进行进一步的智力投资并在未来将其与分析方法相结合,经济和金融将获得高回报。

大数据定义


如果大数据很有前途,那么从定义数据本身开始可能会有所帮助。这不是很容易。就像美丽一样,旁观者认为大数据。这也是一个流动的概念。例如,很明显,数据不再仅仅意味着数字和单词。实际上,近年来,包括经济和金融领域在内的语义学研究有所增加。

毫无争议的是,在过去的十年中,从广义上讲,在创建,提取和收集数据方面发生了最不寻常的革命。这部分是摩尔定律和信息技术相关进步的结果15(15-摩尔(1965)指出,每个集成电路的组件数量每年增加一倍)与石油资源有限的情况不同,它可以创建新数据。空前的速度和几乎无限的储备。

据估计,所有生成的数据中有90%是在过去的两年中16(16-SINTEF 2013)来自社交网络。每天约有15亿人使用Facebook,每月有22亿人。 2017年,智能手机订阅量达到44亿,全球每秒钟的订阅者数量超过一个。根据预测,到2023年,智能手机用户数将达到73亿,即每个人几乎是17。(17-爱立信移动性报告2017)据估计,2017年拍摄了1.2万亿张照片,即25曾经拍摄的所有照片的百分比18(18-参见www.statista.com/chart/10913/number-of-photos-taken-worldwide

当我们查看研究数据的科学家人数时,就会掀起这种信息革命的另一种观点。使用来自Reed求职网站的职位数据,最近在英国为数据处理专业人员发布了300多个职位发布19(19-使用Turrell等人的数据集(即将发布))2012年几乎没有。根据Linked-In社交网站上的自我身份进行的估算表明,世界上可能有20,000多名数据处理专家。20(20-Dwoskin(2015)。全球数据科学家的真实数量是高度不确定的。许多人从事数据科学工作,而不必使用该职称,但事实恰恰相反。)

同时,处理,过滤和从该数据中提取信息的新方法也在迅速发展。机器学习技术正在迅速发展。所谓的“深度学习”方法是对现有方法的补充,例如基于树的模型,支持向量机以及支持向量机和聚类技术。21(21-Chakraborty and Joseph 2017)词汇方法,向量模型正在文本分析领域迅速发展空间和语义分析.22(22-Bholat et al 2015)

在经验关系可能是复杂,非线性和不断发展的情况下,以及当数据可以以不同的频率和不同的格式到达时,所有这些方法都提供了各种信息提取方法和可靠的结论。这些方法与通常在经济学和金融学中使用的经典计量经济学推论和检验方法大不相同。

数据表示和理解方法的这场革命提供了分析财富。但是,这些财富的提取需要相当谨慎。例如,数据隐私问题在某些情况下随着个性化数据的细化而越来越广泛。最近,这些问题理所当然地占据了突出的位置。同时,大数据保护是世行研究的重点任务之一。

大数据承诺


在可以描述大数据的程度上,通常使用“三个V”来完成:体积,速度和多样性。使用三个V作为组织结构,让我讨论一些示例,说明如何在最近的银行研究中使用这些数据和方法来增进我们对经济和金融系统功能的理解。

体积


至少从20世纪中叶开始,宏观经济分析的统计基础就是国民账户。国民账户一直以来都是折衷的数据23(23-Coyle 2014)过去,土地,农作物和牲畜账户被用来估算农业生产。工业生产是通过各种数据来衡量的,例如高炉的数量和大英图书馆列出的书籍。服务的输出是根据商船队的吨位估算的(24-Fouquet and Broadberry 2015)

随着越来越多的数据输入,为此,在统计局中使用新的折衷数据源和方法变得越来越普遍。在消费者价格衡量领域,麻省理工学院的“十亿美元价格计划”使用来自大约60个国家/地区的1000多家在线商店的数据,每天收集1500万个价格。与传统调查相比,该方法可提供更及时(且更便宜)的消费者价格信息25(25-Cavallo和Rigobon 2016)还发现在线价格数据可改善某些市场的短期通胀预测26。 (26-Cœuré2017)

同样,英国国家统计局(ONS)正在探索除现有定价方法外还使用“网页抓取”的可能性。今天,他们专注于食物和衣服等物品。尽管有早期的发展,但在增加样本数量和粒度方面的潜在好处似乎很明显。例如,迄今为止,ONS已为一组杂货产品每天收集了7,000个价格报价,这比CPI中这些产品的当前月租费还高。27(27-参见www.ons.gov.uk/economy/inflationandpriceindices/articles/researchindicesusingusingwebscrapedpriceata / august2017update

至于衡量GDP,这里也出现了新的来源和方法。最近的一项研究使用卫星图像来测量从世界各个地区发出的不自然光的数量。已经发现,这与经济活动具有统计上的显着关系。28(28-Henderson,Storeygard and Weil(2011),这种方法可能有助于跟踪那些地理上被删除,统计调查方法差或问题不正确的地区的活动。测量结果很清晰。

英国国家统计局和其他统计机构使用的一个更平凡的例子是所谓的行政数据。这包括政府机构作为其活动的一部分收集的数据,例如税收和收益。在英国,尽管经过了认真的验证,但作为政府开放数据计划的一部分,其中一些数据最近已可以广泛使用。

一个例子是从许多行业的中小型企业那里获得的增值税数据,这些数据最近被国家统计局用来基于产出汇编国内生产总值的估计值。与价格一样,使用此类管理数据可能会增加样本量和粒度。通常,对ONS商业活动的每月审查是基于代表该中小企业子组的大约8,000家公司的样本。目前,这是由大约630,000个报告单位的增值税申报表所补充的(29-29-www.ons.gov.uk/economy/grossdomesticproductgdp/articles/vatturnoverinitialresearchanalysisuk/december

这些新数据补充而不是替代了现有的调查方法。它们有可能改善关于总体经济趋势的国民账户数据的及时性和准确性。 ONS拥有自己的数据科学中心来领导这项工作。新的研究组织,例如艾伦·图灵研究所(Alan Turing Institute),在将新数据和新方法应用于经济规模方面做得非常出色。

跟踪经济活动流量的另一个潜在富有成果的领域是金融数据。几乎所有经济活动都会在金融机构的资产负债表上留下金融标记。跟踪金融机构之间的现金流可以帮助确定此足迹的规模,从而间接地跟踪经济活动。

在过去的几年中,我们在银行依靠金融监管局(PSD)的产品销售数据库。这是在英国发布的有关租户抵押产品的管理数据的非常详细的来源。自2005年中以来,该数据包含了近1600万抵押的数据。 PSPS为银行提供了一种新的更高分辨率的工具,用于分析家庭和住房行为。

例如,2014年,世行金融政策委员会(FPC)使用PSD来通知和校准其对英国家庭对高收入抵押贷款进行宏观审慎限制的决定30(2014年6月30日-金融稳定报告) 31(31-Chakraborty,Gimpelewicz and Uluc 2017)31 PSD数据用于了解英国住房市场的定价决策.32(32- Bracke和Tenreyro(2016)以及Benetton,Bracke和Garbarino(2018)),它们也用于校准英国房地产市场的多行业代理模型33(33- Baptista等,2016)。

近年来,银行和国家统计局一直在开发有关机构之间资金流动的更完整的数据集。希望这些数据不仅有助于跟踪投资组合的变化,而且还可以跟踪其如何影响金融市场和整个经济。例如,机构投资者的投资组合重新分配是否会影响资产市场,并且对支出有刺激作用吗?34(34-英格兰银行和Procyclicality工作组,2014年)对此类问题的回答有助于例如评估量化宽松的有效性。35(35 -例如,Albertazzi,Becker和Boucinha(2018)显示了来自欧洲央行资产购买计划的投资组合再平衡渠道的证据)

新的,高度详细的数据也被馈送到付款,信贷和银行流量中。其中一些被用来预测或跟踪经济活动的变化。他们取得了一些成功。例如,在美国,最近使用了一个数据集,该数据集在34个月内超过120亿张信用卡和借记卡交易数据,用于分析按年龄,公司规模,大都市区和行业划分的消费模式.36(36-Farrell and Wheat 2015 )

随着时间的流逝,也许这些类型的数据可以帮助创建整个经济范围内的金融和实时活动流图,其方式与交通,信息或天气流的方式大致相同。映射后,可以使用策略对这些流进行建模和修改。我六年前第一次谈到这个想法。今天,他比以往任何时候都更加接近我们(37-Ali,Haldane和Nahai-Williamson 2012)

在所有这些领域,DAFM均可为改善宏观经济和金融系统数据的质量和及时性做出重要贡献。众所周知,改善国民账户数据质量的机会非常大38(38-例如,Bean 2016)随着我们朝着日益数字化和面向服务的经济发展,这些衡量问题只会增加。

速度


大数据革命的第二个方面是其巨大的频率和及时性。更为频繁的数据可能提供有关金融市场和经济趋势的新的或更准确的描述。它有时还可以帮助解决复杂的识别问题,这些问题否则会干扰大数据(如Google流感示例所示)和经典计量经济方法(如DSGE示例所示)。

这场危机表明,在压力大的情况下,世界上一些最大和最深的金融市场可能缺乏流动性。这导致其中一些市场被占领。为此,2009年20国集团(G20)作为其首批行动之一,同意收集更多有关这些市场交易的数据,以帮助他们更好地了解在压力环境下的交易动态。39(39-例如,见FSB 2010 )此数据存储在交易资料库中。

近年来,这些交易存储库已开始在高度详细的交易基础上收集数据。这意味着他们迅速积累了大量的数据。例如,外汇市场每个工作日收集大约1100万份报告。当涉及高频金融市场动态和位置时,它们提供了丰富的数据源。

当瑞士法郎于2015年1月取消固定汇率时,便出现了这种偏差的例子。这一出乎意料的举动导致资产价格发生了巨大变化。断开连接后,弗兰克立即表现出剧烈的V形运动,持续了几个小时。通过以瑞士法郎兑欧元汇率分析远期合约的贸易库数据,可以确定这些变化背后的一些驱动力.40(40-Cielinska等人(2017)。其他最近使用贸易库数据的研究论文包括Abad等人(2016 )和Bonollo等人(2016))

例如,可以将瑞士货币的高频波动与远期合约的交易量进行比较。交易对手可以进一步分解这些交易,例如大型银行经销商和最终投资者。这种分解方法表明,是大型银行撤回流动性-导致弗兰克超支的交易商-市场动荡时期的典型标志。41(41-参见,例如Duffie,Gârleanu和Pedersen(2005)和Lagos,Rocheteau和Weill(2011) ))经销商恢复市场生产后,这种运动就部分逆转了。

贸易储存库数据还可用于评估法郎贬值对市场表现是否有任何持久影响。该银行的一项研究表明,事实如此,远期法郎市场一直处于分散状态。在此事件之后,流动性和交易商之间的活动在结构上较低,而市场波动则在稳步上升。

对该数据进行进一步细化,可以使我们讲解脱钩后资产市场中V形运动的驱动力的近似因果关系。使用并行的逐笔交易和逐笔交易数据可以使您以其他方式无法识别的触发器和放大器。

劳动力市场是使用更快的数据来增进我们对经济动态的理解的研究的第二个例子。了解就业和工资的综合行为仍然是现代宏观经济学的核心问题之一。最近,随着自动化改变劳动的性质和结构,工作环境的变化使这种动态变得复杂。

最近的银行业研究使用了已公布职位空缺的详细数据来阐明这种动态42(42-Turrell等人(即将出版))该研究分析了十年内大约1500万个职位空缺。他没有按职位,职业或地区对职位空缺进行分类,而是使用职位描述文本中的机器学习方法对职位空缺进行分类和聚类。结果是针对劳动力需求的更“职位描述”分类方案。

这种方法提供了一种不同的方式来分类和描述工作世界的发展方式,例如自动化环境中所需的技能类型。分类方案对于确定劳动力需求和工资之间的关系也很有用。使用基于职务说明的分类有助于确定劳动力需求与提供的工资和议定的工资之间的更清晰关系。
多元化

在宏观和金融领域,大数据研究的潜在最高产领域​​之一是将单词而不是数字用作数据。语义数据和语义搜索方法在其他社会科学(例如社会学和心理学)中具有丰富的血统书。但是直到现在,它们在经济学和金融学中的应用还相对有限(43-43-著名的例子包括Schonhardt-Bailey(2013)和Goldsmith-Pinkham,Hirtle和Lucca(2016))

与其他社会科学一样,经济学和金融学与人为选择。我们知道,人们在了解世界并做出决策时,通常会依靠启发式或故事而非统计数据。因此,这些故事的语义理解对于理解人类行为和做出决定很重要。

例如,世行最近开始学习它在与金融公司或广大公众进行外部交流中使用的语言。例如,牛津大学(Oxford University)的迈克尔·麦克马洪(Michael McMahon)和我最近赞赏如何简化去年末通胀报告中货币政策委员会(MPC)的措辞,从而提高了公众对货币政策信息的理解。44(44-哈丹(Haldane)和麦克马洪(即将发布))。

第二个示例考察了银行决策过程中研究较少的方面—对金融公司的监督45(45-Bholat等,2017)这是基于对发送给金融公司的世行保密定期总结会议(PSM)的文本分析。这些也许是审慎监管机构(PRA)定期寄给公司的最重要的一封信,对公司的风险进行监管审查,并要求采取措施减轻这些风险。研究人员使用一种称为随机森林的机器学习方法来分析这些字母,并提取有关其音调和内容的数据。

此类分析具有许多策略应用程序。它可用于评估信函是否向公司发送了清晰一致的监管信息。例如,您可以将这些信函的优势和内容与银行对公司优势和劣势的内部评估进行比较。这两种方法是否与世行的监督体系相一致?总的来说,研究表明确实如此。

这种方法还可以用于评估监视方式如何随时间演变。例如,自从监管模式从金融服务管理(FSA)转换为PRA以来,它有什么变化?研究表明,与这两种模式相比,监管信息的交流变得更有希望,形式化和有意义,这与有害生物风险分析监管活动的新模式是一致的。

我认为,此练习是将新方法(随机森林)应用于政治领域中全新的数据库(银行监管评估)的一个很好的例子,研究人员(金融公司的监管)此前尚未对其进行研究。他得出与政策问题直接相关的结论。因此,我认为它很好地强调了大数据的前景。

在我的最后一个示例中,使用的不是新数据,而是旧数据。但是,我认为这很好地说明了如何使用新方法来理解过去。在世行对货币政策和金融稳定负责之前很久,世行的主要作用之一就是作为最后手段向遭受流动性压力的商业银行提供贷款。

很难准确算出日期,但是银行开始认真地进行这种操作,大概是在1847年,1857年和1866年英国面对一系列持续的银行恐慌之时。银行通过提供支持银行的流动性来应对这一恐慌。最后的信贷便利应运而生,随后Badgehot开始对其进行称呼。 46(46-Bagehot 1873)实际上,后来在Beydzhhot定义了这种放贷的原则:放贷应自由进行,并应有良好抵押品的惩罚。

与今天有关的一个有趣的历史问题是,在1847年,1857年和1866年的恐慌期间,该银行在向万不得已的贷款时是否真的遵守这些原则。为了对此进行评估,我们从记录银行资产负债表变化的巨额账簿中获取数据,这些干预措施记录在贷款的贷款,交易对手的交易对手,利率的贷款中47(47-Anson et al 2017)

解密这些数据是有益的,因为在这三个危机期间,书中的手写笔记是由少数文员制作的,这是业务连续性的间接优势之一。尽管数据主要是手动记录的,但该项目开发了使用神经网络算法的图像识别系统,我们将在未来将其用于将历史图书操作转化为21世纪的机器可读数据。

有关该银行最后手段的历史贷款数据是过去时代的新数据,而且非常详尽。这表明,在19世纪中叶的危机期间,世行在极端情况下的放贷方式已经发生了巨大变化。这意味着到1866年危机爆发之时,世行或多或少地遵循了作为最后手段的放贷原则,后来由Badgehot提出。这是领先的经验理论的另一个例子。

机器学习方法应用于银行定期收集和报告的统计数据。特别地,这些方法用于识别提供给银行的源数据中的错误或异常。与手工处理相比,这使数据清除更加系统和高效。数据分析方法也可以用于比较粒度数据的新来源。这不仅提供了另一种验证数据可靠性的方法,而且还提出了单个数据源无法自行披露的想法.48(48-Bahaj,Foulis and Pinter(2017),例如,与企业级匹配会计数据交易级别的房价数据和贷款级别的住房抵押贷款数据,以显示SME主管的房价如何影响其公司的投资和工资账单。)在英格兰银行和其他地方一样,机器人的数量正在增加。

展望未来


展望未来,可以注意到,在许多潜在领域中,可以扩展这些新来源和新方法,以提高银行对经济和金融系统的了解。从长长的清单中,让我讨论一个在我看来特别重要的清单。

过去几年,行为经济学在改变经济学家对人类决策方式的思考方式方面引起了巨大轰动。人为的决策和行动往往与通常被认为是正常现象的理性期望大体上和始终如一的偏离(49(例如49-Rotemberg(1984),讨论了对消费和劳动力需求的理性期望模型的统计拒绝)。启发式控制着人类的决策。人们形成的期望通常很大程度上取决于他人的历史,情感和行为以及理性的计算。

对于个人(微观经济学)和社会(宏观经济学)而言,这种行为似乎都很重要。例如,事实证明,在金融市场和日常公共讨论中发展的流行叙事是资产价格和经济活动波动的重要经验因素.50(50-Tuckett and Nyman(2017),Shiller(2017)和Nyman等(2018) )这些叙述在经济和金融压力时期尤其重要,因为当时情绪高涨,而社会故事也具有重要意义。

但是,在微观或宏观经济层面衡量这种行为时,我们现有的方法往往装备不足。抓住人们的真实感情和喜好是非常困难的。通常,对市场参与者或公众的传统调查在他们的样本中带有偏见,并在回应中形成。就像在量子物理学中一样,观察行为本身可以改变行为。

这些现实可能需要研究以非常规方式来识别人们的喜好和情绪。作为最近的例子,人们可以引用来自Spotify的音乐下载数据,这些数据与应用于歌词的语义搜索方法结合使用,以提供人们情绪的指示。有趣的是,由此产生的情绪指数至少与密歇根州消费者信心调查一样追踪消费者支出51.(51-Sabouni 2018)。

为什么要沉迷于音乐?人们在书本,电视和广播中的品味也可以打开心灵的窗口。就像他们在游戏中的品味一样。的确,我对使用游戏技术的潜力不仅感兴趣,它不仅可以提取有关人们偏好的数据,而且还可以作为生成有关偏好和行为的数据的手段。

现有的模型,无论是经验模型还是理论模型,都经常对代理行为做出强有力的假设。理论模型基于公理假设。经验模型基于行为的历史模式。这些限制可能会或可能不会在以后的行为中得到确认。如果不是这种情况,则该模型将分解为样本,就像(演绎)DSGE模型和(演绎)Google流感模型一样。

游戏环境可用于了解行为,从而减少了限制。人们的行为将直接在游戏行为中观察到,前提是这种行为是对真实行为的合理反映,这将为我们提供新的数据。由于这是在虚拟世界中而不是在现实世界中对冲击进行控制和管制,因此这可以有助于解决因冲击(包括政治冲击)而引起的因果关系和标识问题。

已经有涉及多个人和原始经济体的游戏,允许商品和金钱在参与者之间易手。其中包括《 EVE Online》和《魔兽世界》。一些经济学家已开始使用游戏技术来理解行为。52(52-例如,Lehdonvirta和Castronova(2014),例如,斯蒂芬·莱维特(Stephen Levitt)(来自Freakonomics名望)使用游戏平台来了解虚拟商品的需求曲线。53(53-Levitt等(2016年)

这里的想法是使用一个有几个人的动态游戏来研究虚拟经济中的行为。这将包括参与者的互动-例如,形成费用或储蓄的流行叙事的出现。这可能包括参与者对政治干预的反应-例如,他们对货币和监管政策的反应。确实,在后者的角色中,该游戏可以充当政治行动的测试平台-一个大型的,动态的,数字焦点小组。54(54-Yanis Varoufakis以前曾有过类似的想法:uk.businessinsider.com/yanis-varoufakis-valve -gameeconomy-greek-finance-2015-2

人工智能专家创建虚拟环境,以加速研究系统动力学的过程。“强化学习”允许算法基于虚拟玩家之间的互动而不是有限的历史经验来学习和更新55(55-参见deepmind.com/blog/deep-reinforcement-learning以获取讨论)原则上,虚拟经济将允许政客参加他们自己的强化培训,从而加快他们对复杂经济和金融系统行为的发现过程。

结论


那么大数据会信守诺言吗?我敢肯定会这样。经济和金融需要不断投资于大数据和数据分析,以平衡方法论的规模。包括银行在内的早期研究表明,此类活动的收益很高,加深了我们对经济和金融体系的理解。

如果统计机构,政策制定者,商业部门,研究中心和学术界之间建立密切的合作关系,那么最好地获得这些结果。英格兰银行可以在汇集这些专业知识方面发挥催化作用。DAFM可以做同样的事情。祝DAFM一切顺利,并期待与您的合作。

参考文献
Abad, J, Aldasoro, I, Aymanns, C, D»Errico, M, Rousová, L F, Hoffmann, P, Langfield, S, Neychev, M and Roukny, T (2011), «Shedding light on dark markets: First insights from the new EU-wide OTC derivatives dataset», ESRB Occasional Paper Series, No. 11.

Albertazzi, U, Becker, B and Boucinha, M (2018), «Portfolio rebalancing and the transmission of largescale asset programmes: evidence from the euro area», ECB Working Paper Series, No. 2125.

Ali, R, Haldane, A and Nahai-Williamson, P (2012), «Towards a common financial language», paper available at www.bankofengland.co.uk/paper/2012/towards-a-common-financial-language
Anderson, C (2008), «The End of Theory: The Data Deluge Makes The Scientific Method Obsolete», Wired Magazine, 23 June.

Anson, M, Bholat, D, Kang, M and Thomas, R (2017), «The Bank of England as lender of last resort: new historical evidence from daily transactional data», Bank of England Staff Working Paper, No. 691.

Bacon, F (1620), Novum Organum.

Bagehot, W (1873), Lombard Street: A Description of the Money Market, Henry S. King & Co.

Bahaj, S, Foulis, A and Pinter, G (2017), «Home values and firm behaviour», Bank of England Staff Working Paper, No. 679.

Bank of England and Procyclicality Working Group (2014), «Procyclicality and structural trends in investment allocation by insurance companies and pension funds», Discussion Paper, July.

Baptista, R, Farmer, JD, Hinterschweiger, M, Low, K, Tang, D and Uluc, A (2016), «Macroprudential policy in an agent-based model of the UK housing market», Bank of England Staff Working Paper, No. 619.

Bean, C (2016), «Independent Review of UK Economic Statistics», available at www.gov.uk/government/publications/independent-review-of-uk-economic-statistics-final-report
Benetton, M, Bracke, P and Garbarino, N (2018), «Down payment and mortgage rates: evidence from equity loans», Bank of England Staff Working Paper, No. 713.

Bholat, D, Brookes, J, Cai, C, Grundy, K and Lund, J (2017), «Sending firm messages: text mining letters from PRA supervisors to banks and building societies they regulate, Bank of England Staff Working Paper, No. 688.

Bholat, D, Hansen, S, Santos, P and Schonhardt-Bailey, C (2015), «Text mining for central banks», Bank of England Centre for Central Bank Studies Handbook.

Bonollo, M, Crimaldi, I, Flori, A, Gianfanga, L and Pammolli, F (2016), «Assessing financial distress dependencies in OTC markets: a new approach using trade repositories data», Financial Markets and Portfolio Management, Vol. 30, No. 4, pp. 397-426.

Bracke, P and Tenreyro, S (2016), «History dependence in the housing market», Bank of England Staff Working Paper, No. 630.

Carney, M (2015), speech at Launch Conference for One Bank Research Agenda, available at www.bankofengland.co.uk/speech/2015/one-bank-research-agenda-launch-conference

Cavallo, A and Rigobon, R (2016), «The Billion Prices Project: Using Online Prices for Measurement and Research», Journal of Economic Perspectives, Vol. 30, No. 2, pp. 151-78.

Chakraborty, C, Gimpelewicz, M and Uluc, A (2017), «A tiger by the tail: estimating the UK mortgage market vulnerabilities from loan-level data, Bank of England Staff Working Paper, No. 703.

Chakraborty, C and Joseph, A (2017), «Machine learning at central banks», Bank of England Staff Working Paper, No. 674.

Cielenska, O, Joseph, A, Shreyas, U, Tanner, J and Vasios, M (2017), «Gauging market dynamics using trade repository data: the case of the Swiss franc de-pegging», Bank of England Financial Stability Paper, No. 41.

Cœuré, B (2017), «Policy analysis with big data», speech at the conference on «Economic and Financial Regulation in the Era of Big Data».

Coyle, D (2014), GDP: A Brief but Affectionate History, Princeton University Press.

Duffie, D, Gârleanu, N and Pedersen, L (2005), «Over-the-Counter Markets», Econometrica, Vol. 73, No.6, pp. 1815-1847.

Dwoskin, E (2015), «New Report Puts Numbers on Data Scientist Trend», Wall Street Journal, 7 October.

Economist (2017), «The world»s most valuable resource is no longer oil, but data», article on 6 May 2017.

Ericsson (2017), Ericsson Mobility Report, November 2017.

Farrell, D and Wheat, C (2015), «Profiles of Local Consumer Commerce», JPMorgan Chase & Co. Institute.

Financial Stability Board (2010), «Implementing OTC Derivatives Market Reforms», Financial Stability Board.

Fouquet, R and Broadberry, S (2015), «Seven Centuries of European Economic Growth and Decline», Journal of Economic Perspectives, Vol. 29, No. 4, pp. 227-244.

Ginsberg, J, Hohebbi, M, Patel, R, Brammer, L, Smolinski, M and Brilliant, L (2009), «Detecting influenza epidemics using search engine data», Nature, Vol. 457, pp. 1012-1014.

Goldsmith-Pinkham, P, Hirtle, B and Lucca, D (2016), «Parsing the Content of Bank Supervision», Federal Reserve Bank of New York Staff Reports, No. 770.

Haldane, A (2016), «The Dappled World», speech available at www.bankofengland.co.uk/speech/2016/the-dappled-world

Haldane, A and McMahon, M (forthcoming), «Central Bank Communication and the General Public», American Economic Review: Papers & Proceedings.

Henderson, V, Storeygard, A and Weil, D (2011), «A Bright Idea for Measuring Economic Growth», American Economic Review: Papers & Proceedings, Vol. 101, No. 3, pp. 194-99.

Henke, N, Bughin, J, Chui, M, Manyika, J, Saleh, T, Wiseman, B and Sethupathy, G (2016), «The Age of Analytics: Competing in a Data-Driven World», McKinsey Global Institute.

IMF (2018), «Cyclical Upswing, Structural Change», World Economic Outlook, April 2018.

Lagos, R, Rocheteau, G and Weill, P-O (2011), «Crises and liquidity in over-the-counter markets», Journal of Economic Theory, Vol. 146, No. 6, pp. 2169-2205.

Lazer, D, Kennedy, R, King, G and Vespignani, A (2014), «The Parable of Google Flu: Traps in Big Data Analysis», Science, Vol. 343, pp. 1203-1205.

Leamer, E (1983), «Let»s Take the Con Out of Econometrics», American Economic Review, Vol. 73, No. 1, pp. 31-43.

Lehdonvirta, V and Castronova, E (2014), Virtual Economies: Design and Analysis, MIT Press.

Levitt, S, List, J, Neckermann, S and Nelson, D (2016), «Quantity discounts on a virtual good: The results of a massive pricing experiment at Kind Digital Entertainment», Proceedings of the National Academy of Sciences of the United States of America, Vol. 113, No. 27, pp. 7323-7328.

Moore, G (1965), «Cramming more components onto integrated circuits», Electronics, Vol. 38, No. 8.

Nyman, R, Kapadia, S, Tuckett, D, Gregory, D, Ormerod, P and Smith, R (2018), «News and narratives in financial systems: exploiting big data for systemic risk assessment», Bank of England Staff Working Paper, No. 704.

Obstfeld, M and Rogoff, K (2001), «The Six Major Puzzles in International Macroeconomics: Is There a Common Cause?», NBER Macroeconomics Annual, Vol. 15, MIT Press.

Popper, K (1934), Logik der Forschung, Akademie Verlag.

Popper, K (1959), The Logic of Scientific Discovery, Routledge.

Rotemberg, J (1984), «Interpreting the Statistical Failures of Some Rational Expectations Models», American Economic Review, Vol. 74, No. 2, pp. 188-193.

Sabouni, H (2018), «The Rhythm of Markets», mimeo.

Schonhardt-Bailey, C (2013), Deliberating American Monetary Policy: A Textual Analysis, MIT Press.

Schwab, K (2017), The Fourth Industrial Revolution, Portfolio Penguin.

Shiller, R (2017), «Narrative Economics», American Economic Review, Vol. 104, No. 4, pp. 967-1004.

SINTEF (2013), «Big Data, for better or worse: 90% of world»s data generated over last two years», ScienceDaily, 22 May.

Stiglitz, J (2018), «Where modern macroeconomics went wrong», Oxford Review of Economy Policy, Vol. 34, No. 1-2, pp. 70-106.

Tuckett, D and Nyman, R (2017), «The relative sentiment shift series for tracking the economy», mimeo.

Turrell, A, Speigner, B, Thurgood, J, Djumalieva, J and Copple, D (forthcoming), «Using Online Vacancies to Understand the UK Labour Market from the Bottom-Up», Bank of England Staff Working Paper.

All Articles