|
|
导语9 X* [8 y+ P4 a- Z# X+ z; V A8 e
在人工智能与大数据浪潮席卷全球的今天,“机器学习”已成为金融投资领域炙手可热的词汇之一。很多投资者甚至从业者不禁都要问:依靠强大算法的机器,是否已经能够彻底超越人类分析师,轻松捕捉市场中的超额收益?7 n- Q M: t) ?. p# W; n
日前,北京大学光华管理学院金融学系副教授张英广与合作者在金融学顶级期刊
& b& X5 ^# E4 L& N/ [1 O7 D3 Q! l5 I+ X3 c* V
The Review of Financial Studies 上发表了一项研究。这篇名为《人与机器学习再审视》(Man versus Machine Learning Revisited)的论文, 聚焦机器学习与传统方法在公司盈利、股票回报预测中的表现之争,通过对经典研究的系统性复现与再评估,得出了一系列具有现实意义的结论。 通过严谨的实证检验,修正了学界对机器学习在金融预测中作用的认知,也为业界理性看待机器学习的应用提供了关键参考。
% T3 ?! ?* [9 Q3 C; q0 M- f f9 V0 j! G4 ^6 d
2 n p. \1 w5 H- o8 `01- s! S3 v/ r5 L0 n+ V* W" N
故事的起源,一项引发巨大反响的研究
7 R2 I6 Y9 c) G% o% H5 ?; M故事的起点源于2023年的一项研究。当时,有学者利用随机森林(一种流行的机器学习模型)预测分析师的盈利预测误差,并据此构建投资策略。结果显示,该策略每月能获得高达1.54%的超额收益,且统计显著性极高。
?3 D# w! e2 B- l这一发现在学术界和业界引起了巨大反响:它似乎证明了机器学习拥有某种天然优势,能够发现人类分析师无法察觉的市场规律。这一突破性发现迅速影响了后续相关文献的研究方向,同时也引发了关于机器学习在金融预测中是否更具有优势的广泛讨论。
0 T' \% m1 ^4 Y/ s026 _: R9 N. z* @4 d; U' Z7 P& L
被忽视的漏洞
' P7 e7 g# g. {0 p0 A$ j/ B然而,科学的精神在于怀疑与验证。张英广老师与合作者的研究在对上述研究进行复现时,完整重建了原研究的预测框架、模型设定与数据处理流程,并逐步检视了其中的变量定义、模型训练方式以及预测期限设置。研究发现,模型中的一个关键变量——“上一期真实盈利”,在跨期预测场景中被错误地定义为未来期尚未可观测的盈利信息。
7 o' R/ t- H: E4 S; H2 |8 N通俗来说,这就好比在考试开始前,学生已经偷偷看到了试卷的答案,自然能考出高分。这一虽细微但关键的定义错误导致了严重的前视偏误,导致机器学习模型虚假地拥有了预知未来的能力,从而极大地高估了其预测准确率和策略收益。: [0 E1 ~$ C/ D
03
3 ~4 H, {8 K b" R1 X修正偏误后,机器学习优势大幅缩水7 A5 E, y$ \2 y: i9 O' x$ X
为了还原模型的真实表现,研究团队剔除了这一前视偏误,对模型进行了重新检验,结果出现了根本性变化:原本接近1的夏普比率(衡量投资策略风险调整后收益的核心指标,数值越高代表策略性价比越高)降至0.15,意味着模型的风险收益比大幅降低,其构建的投资策略所产生的超额收益,在统计和经济意义上都不再显著。2 R3 x, z. m: s
更关键的是,修正偏误后,这款机器学习模型相较于分析师预测的优势大幅缩小,面对传统线性模型,也不再有显著优势。甚至传统线性模型在交易收益表现上反而更胜一筹。研究团队还尝试了其他机器学习模型及模型组合,均无法恢复原研究中高预测能力。+ C! q" p8 |4 D+ _1 y2 [# d2 n
此外,研究还对原研究中关于市场现象的解释进行了重估,发现公司股权增发、股票收益异象等市场表现,并非主要由分析师预测偏误驱动,而是更多与企业实际盈利水平、基本面属性相关,这也让原研究的部分经济学解释的可靠性显著减弱。
) y7 F( i V6 i+ A% S04
" j) N& S m) ?2 r6 j6 Z) X为机器学习在金融中的应用提供方法论基准" l; c4 s7 v, H, ^, ^
这项研究并非要否定机器学习的价值,而是通过严谨的复现与分析强调:任何模型的表现都必须在严格遵守数据时序逻辑、确保特征变量在预测时点可观测的前提下进行评价。5 R7 Z$ M- u& b2 N; s# U8 f- H$ a
这一研究的价值也不止于修正一项经典研究的结论,更从方法论、实证研究和经济机制分析三个层面,为机器学习在金融领域的应用划定了清晰的边界,提供了重要的实践启示:+ g) B0 [/ k0 L; N, f2 r) U
首先,该研究对一项具有广泛影响的研究进行了系统性复现,再次强调了时间一致性和数据处理细节在预测建模中的关键作用。机器学习模型对数据高度敏感,变量的定义、数据的可观测性设定,直接决定了模型的有效性,这也为后续金融领域的机器学习研究,建立了更严谨的方法规范。8 U2 }/ }0 ]8 [1 U/ h' `" v
第二,研究通过严谨的实证分析表明机器学习模型的表现高度依赖于变量构建与变量可观测性的设定,其相对于传统方法的信息优势并非必然存在。这一结论对机器学习在违约预测、信用评估、市场微观结构分析等其他金融场景的应用,也具有重要的参考意义。& ?$ F, m) o: H0 \' L
第三,研究对分析师预测偏误、上市公司行为与机器学习预测之间的因果关系提出了更为审慎的解释框架,避免了因模型设定偏误所导致的错误机制推论被进一步放大。 z) @* W( x. v1 @4 G, [
归根结底,学界与业界也应对机器学习在金融应用中的表现持有更合理的预期。在金融市场日益复杂、技术迭代不断加快的今天,这项研究不仅为机器学习的金融应用校准了方向,也为金融研究的创新发展提供了重要启示:无论技术如何进步,尊重市场规律、坚守研究严谨性,始终是金融研究和实践的核心底色。
& U; {/ m# G' D8 u/ l* c) N; x3 k注:本篇论文的其他作者还包括中央财经大学金融学院助理教授朱彦頔、达特茅斯塔斯克商学院教授Juhani T. Linnainmaa。+ D- ?3 A9 X0 Z7 i& z% M6 u; ]
* H( q$ v4 @$ A ~1 i& O+ S# M% |5 e1 Y' Q- ?4 d
张英广,北京大学光华管理学院金融学系副教授、博士生导师。他于2019年在南加州大学马歇尔商学院获金融学博士学位,2011年在加州大学伯克利分校获经济学和统计学荣誉双学士学位。 张英广的研究兴趣主要为资产定价、行为金融、金融科技以及中国金融问题。他关注市场参与者的预期动态、企业的预期管理、以及人工智能和机器学习的在金融应用中的价值与局限。张英广的研究成果发表于* [) d2 G6 Y0 i; L: @
; B; A l* l- T# CReview of Financial Studies, Review of Finance, Pacific-Basin Finance Journal , 《金融研究》,《经济学》(季刊),《中国会计评论》等学术期刊。他参与的合作论文曾获Alpha Letters/CQA 最佳论文奖、中国金融前沿学术论坛最佳论文奖,并多次应邀在美国金融协会年会(AFA)、美国经济学年会(AEA)、中国金融国际年会(CICF)宣讲论文。& [: M: X- k3 K6 ]
) C7 P# q% ^* G/ `+ R! r% T( E
7 ~7 z5 H6 v* w9 [4 v
来源| 北大光华对外关系部, \2 S& |8 t, U$ v) E" {% d
% n0 I g9 P2 }8 t; r' u1 Z
排版| 李珅3 d3 v+ ]5 ]9 v. x3 n8 O8 K
编辑 |王小雅5 {6 G& W5 }- ?/ b+ V
审阅| 塔娜1 B% U8 W% ]7 Q+ }; s
往期发布:: u/ |3 {/ Q$ G9 Q8 p
什么员工更敢“说真话”?丨学术光华
) q$ x5 n& e" \9 F. |% M文化产品出海的“度”如何拿捏,从好莱坞在华海报谈起 丨学术光华 |
|