案例展示

【数字化转型案例】区块链助力行业风险数据安全共享

海通证券股份有限公司(以下简称公司)成立于1988年,注册资本130.642亿元。公司始终坚持“务实、开拓、稳健、卓越”的经营理念和“稳健乃至保守”的风险控制理念,在三十多年的经营中,经历了多个市场和业务周期、监管改革和行业转型发展阶段。基本建成涵盖证券期货经纪、投行、自营、资产管理、私募股权投资、另类投资、融资租赁、境外投行等多个业务领域的金融服务集团,营业网点覆盖“纽、伦、港、新、沪、东”六大国际金融中心;境外方面,在全球5大洲15个国家和地区设有分行、代表处或子公司;在中国境内拥有338家证券及期货营业部,境内外拥有超2000万名客户。

投行是文档密集型行业,存在大量文档撰写、复核、校对等工作,内容丰富且篇幅较大。海通证券研发的金融文档智能处理平台,结合投行文档处理生态现状,利用深度学习、自然语言理解等前沿的人工智能技术,打造了国内证券期货业首个基于语义分析的金融文本智能处理平台,涵盖写、读、查、审等文档处理全生命周期和生态全链,全面支撑各类金融文档智能处理。该平台大幅度提升了投行信息披露相关繁琐事务的工作效率,并有效防范金融合规风险。该平台突破了文档结构识别、复杂嵌套关系抽取等关键技术,在富格式文档解析和智能复核等方面实现创新。智能文档处理在公司内部广泛应用,形成良好的行业示范效应,助推了整个行业智能文档处理技术的进步。

海通证券软件开发中心负责项目的规划、设计、开发、实施以及持续优化工作,项目建设主要经历了以下几个阶段。

此阶段时间段为2017年6月至2017年8月,其间主要完成了业务需求分析、平台技术构架和语义解析模块的高层设计。提交了现状需求分析报告、各功能模块的高层设计、技术构架和接口的高层设计等文档。

此阶段起始时间为2017年8月至2017年12月,其间主要完成了系统详细设计工作,提交了系统详细设计说明书等文档。

此阶段起始时间为 2017年12月至2018年6月,其间完成了基础平台开发、模型开发、实施、优化、测试以及试点行上线准备工作,提交了测试报告、上线方案、系统设置等文档。

此阶段起始时间为2017年7月至2017年10月,其间完成了平台上线、债券募集说明书智能审核应用上线,并根据试点行上线运行的情况,为推广实施提出了优化需求

此阶段起始时间为2018年10月至2021年3月,期间完成了文档智能搜索、招股说明书智能审核、文档通用服务上线 (文档智能对比、PDF 表格抽取、PDF 格式转换)、跨文档与底稿关联审核(支持审计报告、发行保荐书、上市保荐书、法律意见书、发行公告、年报、半年报等底稿)、IPO 问询函审核、公文核查等功能的上线推广以及持续优化工作,具体如下:

海通证券金融文档智能处理平台项目实施严格按照软件开发中心项目管理制度,从计划、质量、财务、流程等多方面进行规范化管理,项目最终如期完成。至2021年4月底完成项目的建设、优化和推广工作。

基于认知推理的智能文档处理包括语义复核、意图理解语言生成等方面,平台以智能复核为起点,逐渐延伸至金融文档检索、阅读、审核的生态全链,主要业务特点包括:

招股说明书、债券募集说明书等披露文档智能复核,利用 AI深度学习技术进行招股说明书的语义错误识别、一致性校验、勾稽关系校验、指标公式校验等智能复核。

基于主文档与相关底稿进行数据、文段、表格等的关联检查,通过自动解析发现文档间的内容不一致性和数据勾稽关系错误,将有冲突的计算关系、数值、表格、文字进行输出,方便项目人员进行审核及修改。

根据现有合同类型,进行合同要素抽取,并根据抽取结果进行规则审核,将相关审核结果批注在合同原文书中,方便相关部门人员进行审核或修改。

基于文档解析和语义分析构建智能检索,实现文档内容要素、关键字提取,以及对用户检索意图理解、查询建议和消歧、检索指令转换等处理,实现用户通过简单自然语言输入就能方便快速地检索海量文档中的要素。

构建表格抽取、文档对比等普适性的通用文档服务,有效扩大了用户和运用范围。

平台主要技术框架如图1所示,主要包括基于深度学习的语义分析平台、富格式文档认知和理解、以及基于认知推理的语义分析三个层次。

基于深度学习的语义分析平台是项目实施的基础,提供数据、算法以及模型开发、训练、上线等全流程开发支持,全面支撑智能语义分析的各类应用。平台的底层框架基于深度学习,在此之上训练部署各类通用智能语义分析应用模块以支撑多种个性化服务。通过标注数据、人工训练模型、模型自我学习、重复标注学习达到模型的智能深度学习,实现对金融文档的智能语义理解。

富格式文档认知和理解层则负责结构解析和认知理解将计算机视觉、自然语言处理、领域知识相结合,将文档分解为表格、文本段落、图片等元素,再对每一部分结合上下文进行信息抽取,最终转换为结构化知识,以支持下游各项任务。

基于认知推理的语义分析层则关注于业务问题凝练和解决,将细粒度语义分析技术应用到具体的业务痛点中,包括语义复核、意图理解、语言生成等。

金融文档智能处理平台现已在海通各业务部门推广使用智能复核投入应用以来已完成8000余篇各类文档的审核工作,检测冲突30余万处,帮助确认正确数据计算及一致性关系700余万处,节省人工近60%复核时间。智能检索实现了基于自然语言理解的检索,NL2SOL查询成功率达80%以上改变用户查询交互方式,提升企业数据能力。

该项目利用深度学习、自然语言理解等前沿的人工智能技术,让科技为券商赋能。一方面将公司的宝贵人力从常规的文档撰写与分析中释放出来,为公司业务提速增效的同时,帮助降低合规风险、提高质量控制审核能力。另一方面拓业务人员对人工智能的认知,推动公司数字化的转型和行业人工智能化的进程。

作为行业信息化转型的探索者和先行者,海通证券将金融文档智能处理领域的相关研究成果通过课题申报、系统展示、成果分享、专利申请、论文公开发表等方式在行业内积极进行展示、分享和推广,智能复核为业内首款应用,对同类业务形成较好的示范效应,同类型应用已被同业机构广泛采用,全面推高全行业材料质量,有力推动了行业技术进步有助于投资者更加准确的掌握信息,从而促进市场的健康发展。

对于现有模型进行进一步优化,计划选用预训练模型BERT作为神经网络表示层,更新的模型和表示方法,结合命名实体识别结果,对财务指标限定词的提取更加准确、细致,结合更多训练数据,提升模型抽取效果及处理速度。

平台现在可以支持发行保荐书、信用评级报告、法律意见书、上市保荐书、审计报告、招股书摘要等底稿的关联审核,后续会增加其他类型的底稿文档,继续进行标注,实现文档类型的扩充,进一步增强系统功能。

智能化处理技术现已应用在富格式文档理解(读)、文档检索 (查)、单文档及跨文档审核(审)、文档生成(写) 等文档处理活动。