首页
知识图谱在金融资管领域的应用、实践与展望
发布来源: 熵简学院 发布时间:2020-09-30
导读



知识图谱是人工智能的一个重要分支,对可解释人工智能具有重要作用。金融知识图谱作为专业领域知识图谱,在智能投研、智能风控、智能客服、智能合规等领域有着重要的应用价值。

本文综合熵简科技三年以来的产业实践,结合知识图谱领域的技术前沿,以及资管场景的落地应用,浅谈知识图谱在金融资管领域的发展现状与应用展望。


作者信息



费斌杰,熵简科技创始人兼CEO,长期深耕金融资管数据科技一线,对数据中台、知识图谱的技术实践和产业应用有深入理解,曾就职于嘉实基金,毕业于清华大学五道口金融学院、清华大学工业工程系。

1

金融资管知识图谱的独特之处

根据知识图谱项目的应用场景,可以分为通用知识图谱、专业领域知识图谱
通用知识图谱指的是百度、谷歌、Yandex这类搜索引擎背后的知识图谱,例如德国马普研究所推出的Yago(现在是IBM Watson的知识库之一)、2010年被Google收购的Freebase、2011年由Google、微软、雅虎、Yandex共同推出的Schema.org、2012年由Wikipedia推出的Wikidata都属于通用知识图谱的范畴。
专业领域知识图谱则是聚焦于金融、医疗、能源、农业等行业的深度知识沉淀,二者在众多环节存在巨大差异。
  • 第一,专业领域知识图谱的知识结构更复杂并具有层次感。
  • 第二,专业领域知识图谱对知识抽取的质量要求更高。
  • 第三,专业领域知识图谱的数据来源更聚焦,因此对知识融合的需求更高。
  • 第四,从应用的形态上来看,专业领域知识图谱的应用往往涉及决策分析支持,需要用知识图谱支持逻辑推理,并提供较强的可解释性。
根据熵简科技的产业实践经验,相比其他专业领域而言,金融领域的知识图谱有两个显著特点。
首先,金融知识具有较高的复杂性和层次性不同标的的投资机会或者风险暴露之间有较大的差异,比如分析轮胎公司,不能只看上游化工原材料的价格变化,还要看下游配套主胎车型的销量变化,其中化工原材料价格的变化进一步需要分析供需端的一系列因素,比如矿井勘探、气候变化、地缘政治、替代品价格等。这只是一个轮胎公司的分析框架,不同行业的公司分析框架有较大差异。
其次,金融知识具有高度动态性,需要关注知识的时效性金融投资的本质,是利用信息不对称以及认知不对称从而产生超额收益的过程,因此需要对金融知识进行时间维度的建模。以航空行业的知识图谱为例,10-12年主要看油价的变化,12-14年主要看汇率的变化,后来因为国内二三线城市的财富效应导致出境游热潮,而跨境航班比国内航班毛利率更高,因此出境游成为航空行业增长的核心驱动力,再到后来因为地缘政治的变化,出境游热潮回退,再到后来17年民航局出文做航空供给侧改革,导致机票价格稳步上涨,再到2020年的新冠疫情,不难看出金融投资领域的知识结构对时效性的要求很高,需要能够进行时间维度的建模比较。
2

构建金融资管知识图谱的核心技术难点

构建金融资管领域知识图谱的过程中,有两个核心技术难题,分别是知识抽取知识融合
资管领域的知识来源包括研究报告、公司公告、新闻舆情、数据指标等,从形态上主要分为结构化数据和文本数据。不同类型数据源对应的知识抽取技术有较大的差异。从结构化数据中获取知识需要使用D2R工具,例如SparqlMap、Triplify、D2RServer等。
从文本数据中抽取知识则需要用到实体识别技术和关系抽取技术,在这两个领域中,深度学习能够发挥非常巨大的价值。以招投标文本数据为例,通过word embedding和position embedding,以及 4 层级联Transformer网络,我们能够获取每个词的实体类别标注信息,然后再接入 CRF 预测层进行全局组合,可以得到准确率较高的实体标注。
图:知识抽取NLP模型
当知识图谱的搭建进行到一定阶段时,我们就需要考虑知识融合了。知识融合指的是对多来源知识图谱进行合并。知识融合的过程中有两大难题,分别是实体对齐本体对齐
首先先快速过一遍本体和实体的区别。熟悉编程的朋友可以这么理解,本体是类,实体是一个实例。比如我们定义了“人”这个本体,人都有性别、身高、体重这几个属性。具体而言,小王是一个人,性别男,身高1米8,小李是一个人,性别女,身高1米7,小王和小李是2个实体。
介绍完定义后,我们来分别看实体对齐和本体对齐这两个知识融合的难点。
实体对齐的核心任务是实体消歧和指代消解。用大白话来说,就是判断知识库中的同名实体是否代表相同的含义,以及知识库中是否存在相同含义的实体有着不同的命名。具体的做法就是通过聚类算法计算相似度,常用的如空间向量词袋模型等。
本体对齐的含义是指寻找多知识源中本体之间的映射关系。本体之间的映射桥有很多种,比如is_a的上义映射(熵简科技 is_a 数据科技公司),include的下义映射,overlap的重叠映射,part_of的部分映射等。
本体的对齐往往涉及到共识的修改,而这种共识的修改往往是一个持续的过程,因此本体对齐的核心问题在于如何对这种共识的演化进行有效的管理。本体演化框架通常包括本体注册模型、变化模型、约束模型、演化信息模型和变化传播模型。目前常用的本体演化管理框架有COnto-diff、KAON等。
图:COnto-diff架构图
除了知识抽取和知识融合之外,包括知识存储方案的选型、知识推理和检索技术也有众多可展开之处,这部分放到日后详谈。
3

应用实践案例

这里以上市公司“玲珑轮胎”为例,介绍熵简科技知识图谱系统的实际应用。当前投研知识的主要载体是研究报告和上市公司公告,通过对其中知识进行抽取、修剪,能够得到企业的深度研究知识图谱。
以玲珑轮胎为例,公司的基本面框架中,上游的原油价格以及下游的配套主胎车型销量是核心影响因素之一。
对于原油而言,进一步与全球钻井数、石油企业CAPEX、各国汇率、地缘政治、替代品价格等核心因素相关。
图:熵简科技知识图谱系统截图
对于下游配套主胎车型来说,系统支持通过与结构化数据关联进行逻辑推断,诸如中汽协的分车型销量数据、易车网的汽车折扣率数据、询单量数据等。
图:熵简科技知识图谱系统截图
从案例中不难发现,金融资管领域的知识图谱需要对专业研究资料文本内容进行深度解构,并且将海量结构化指标数据进行深度融合,方能实现逻辑推断和演绎推理。
同时,系统支持对知识图谱的时序建模,当研究框架发生改变时,通过对新增研究资料的文本分析,可以在时间维度上对知识图谱的演化进行管理,一方面保持知识图谱的时效性,另一方面也为系统性回溯研究提供知识依据。
4

小节

知识图谱本质上是一种数字基础设施,其主要起到数据蒸馏的作用,即将无关联的粗糙数据,逐步凝练为结构化、高关联性的知识,提升数据的价值密度。AI的浪潮愈演愈烈,而作为其底层基础设施的知识图谱,也正在各行各业获得成功的应用和实施。



注:本文系本站转载,转载目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请与本站联系,我们将在第一时间删除内容!本文版权归原作者所有 内容为作者个人观点 本站只提供参考并不构成任何投资及应用建议。

服务商推荐

关注我们

关注我们

相关资讯

随机资讯

相关推送

知识图谱构建与金融领域中的应用案例

本文是基于2020年7月5日公开课直播的知识图谱构建与金融领域中的案例应用整理而来,文章内容及观点均属于白木其尔所有,其目前从事于金融领域数据挖掘与分析师。下方为录播视频:——————————————————————下面是文字版内容:1.知识图谱构建简介1.1平台架构知识图谱平台架构主要部分如下:数据采集存储管理层:采集和存储结构化、非结构化数据。数据处理层:包含知识抽取、知识融合、知识建模(本体

区块链技术在金融领域的实践与展望

文/清华大学五道口金融学院助理教授、清华大学恒隆房地产研究中心货币与财政政策研究室主任金涛、清华大学五道口金融学院2014级博士研究生金超本文刊于《清华金融评论》2016年9月刊自比特币面世以来,比特币对区块链及其相关技术的实践已经进行了7年多。但比特币并非区块链技术唯一的实践领域。本文详细介绍了区块链技术在金融领域的实践。展望未来,本文认为,可将区块链及相关技术应用于票据业务和同业业务,并将带有

CAS干货区块链技术在金融领域的实践与展望

CAS干货是结构金融研究推出的特色专栏,普及资产证券化相关知识,开阔眼界。自比特币面世以来,比特币对区块链及其相关技术的实践已经进行了7年多。但比特币并非区块链技术唯一的实践领域。本文详细介绍了区块链技术在金融领域的实践。展望未来,本文认为,可将区块链及相关技术应用于票据业务和同业业务,并将带有数字货币激励的区块链技术跟云计算技术结合。自比特币2009年面世以来,比特币对区块链及其相关技术的实

 

大规模、高质量的金融知识图谱,如何自动化构建

本文转载自公众号:恒生技术之眼。◆本文根据2019恒生技术开放日肖仰华教授演讲整理◆肖仰华:复旦大学教授、博士生导师,复旦大学知识工场实验室创始人。知识图谱(KnowledgeGraph,KG)本质上是一种大规模语义网络,包含实体、概念及其之间的各类语义关系,目前已经成为认知智能的基石,是发展人工智能的核心技术,它让机器语言认知、可解释人工智能成为可能,能够显著增强机器学习的能力,将成为与数据驱动

汪伟知识图谱的原理、特性与金融业应用实践

4月16日,由清华大学金融科技研究院金融大数据研究中心主办、未央网联合主办、百融云创承办的金融科技在线大讲堂第六期成功举行。平安科技知识图谱技术团队副总工程师汪伟以知识图谱原理、特性与金融业应用实践为主题,从当前AI技术认知逻辑框架与局限、知识图谱的意义和实战应用分析三个方面带来精彩分享。以下整理来自嘉宾分享实录:当前AI技术关于认知的逻辑框架与局限在AI技术关于认知这个模块,从业者经常碰到诸如此

区块链在金融领域的应用和展望

区块链在金融领域的应用和展望12月7日下午,临沂市财金大数据有限公司全体职工参加了由高新区龙湖软件园组织的区块链在金融领域的应用与展望交流会。园区负责人张军主任主持了本次交流会,张主任表示这次会议邀请到了融都科技副总裁兼CTO、浙江省之江区块链科技研究院副院长吴中旺先生,吴先生有着18年的相关领域从业经验,尤其对于区块链技术的发展和应用颇有研究,希望与会人员认真学习,做好笔记。交流会上,吴先生就区