开源证券 | 通联数据助力挖掘新闻舆情中的α,超中证500收益4.86%
在传统的量化投资领域,模型处理的信息通常来自财务数据和量价数据。然而伴随着量化投资规模的蓬勃壮大,传统策略的同质化日趋严重,因子拥挤(Factors Crowding)的困境逐渐浮现,最终导致Alpha空间日渐缩窄。
开源金工团队采用的数据库为通联数据新闻舆情数据,基于中文自然语言处理技术,对每日3万多条中文新闻报道进行筛选、分类和打分。
针对单只股票,将每天与其关联的各条新闻报道所对应的情感得分进行加总,得出相应的新闻舆情因子。这一因子不仅融合了新闻关注度(即每天与每只股票相关的新闻报道总数量),还能够体现新闻舆情的正负情感方向。
数据库中有新闻数据的个股共3848只,A股覆盖率达到99.86%,月频覆盖率在98.8%以上,日均出现新闻舆情数据的个股在1600只左右。
开源金工团队使用通联数据中“getNewsRelatedScoreV2”( 获取新闻情感信息) 和“新闻关联标签行业表”(getNewsTagInd)这两张表, 进行新闻舆情原始数据集的构建 。
通过对新闻情绪因子刻画改进与回测,开源金工分析师构建过去N天舆情分数平均值的变化量因子,回测结果显示,该因子的多空收益比在全样本区间内表现良好,尤其在中证500选股域上表现优异。
取回看天数为20,并按月调仓,该因子在多空以及多头组上的表现优异:多空收益波动比为2.2,多头相对中证500的年化收益率为4.6%。
在三种不同换仓频率下的表现中,双周频>月频>周频。在双周频上该因子的多空对冲年化收益率为12.00%,因子的年化ICIR为-2.3;月频下,该因子的多空对冲年化收益率11.92%,因子年化ICIR为-2.00。
对该因子剔除常见10个因子后,剥离得到后的因子在中证500选股域上的表现依然优异:多空收益波动比达2.64,年化ICIR-2.27,多头相对中证500年化收益率4.86%。