DS TALK圆桌回顾 | 权威大咖论道AI前沿科技,共同对话商业AI的价值与前景

发布时间:2021-08-03作者: DataStory 数说故事

7月30日,数说故事大湾区总部落成仪式在珠海横琴圆满举办,落成仪式上,“DS AI TALK”圆桌会汇集AI领域顶尖大咖,同步在数说故事视频号进行线上直播。


▲  数说故事AI TALK 圆桌论坛

(从左到右依次为:数说故事创始人兼CEO徐亚波博士,IDEA数字经济研究院CTO Labs总负责人幺宝刚,创新工场首席科学家、澜舟科技创始人兼CEO周明博士,IDEA数字经济研究院DataStory AI Lab机器学习专家杨海钦博士,数说故事CTO李旭日


各位权威大咖论道AI前沿科技,共同对话商业AI的价值与前景。从AI技术在国内的发展现状和趋势技术实际落地赋能商业,各位大咖从自己所在细分领域做了精彩的分享。同时,数说故事也与嘉宾们交流了我们在NLP、知识图谱等工程建设方面遇到的挑战及应对挑战的经验。




以下为精选实录内容:

原先,不同自然语言的差异化使得专家在处理时存在种种难点,大概是在两年前,预训练模型开始流行,使得自然语言处理的技术大大提升。包括近几年企业数字化转型如火如荼,在大量数据的基础上挖掘认知智能,而这些都离不开自然语言处理。近几年,我国的AI基础理论能力大幅提高,主要有以下三个方面原因:

  • 国内数据量大且相对容易获取,为数据的分析处理提供了丰富的原材料;
  • AI科技人才涌现,每年都有成千上万计算机专业的毕业生投身行业;
  • 企业应用场景丰富,实践出真知。


基于轻量级、高效训练的研究路线,致力于以十亿级别的小模型,充分发挥已有参数下的模型潜力,有利于快速、低成本地落地现实业务场景。这正是建立轻量化模型的原因。


相对已有的中文语言模型,目前孟子模型实现了多项突破性进展:

  1. 坚持“小而精”的轻量化训练策略。实现在同等模型规模下,远超公开模型的性能。作为精巧的小模型,对标“巨无霸”,小模型性能超越千亿规模模型。
  2. 使用知识图谱增强模型,让 AI 真正获得知识。孟子模型具备顶尖的语言理解能力,在权威CLUE中文理解评测的总排行榜,以及分类排行榜和阅读理解排行榜均位列第一,刷新三项榜单世界纪录。总排行榜分数突破84分,逼近人类基准分数(85.61)。
  3. 灵活的领域和场景适应能力。方便快速定制和应用,基于T5-style的端到端生成的训练范式,同步适配BERT-style的判定式架构,既能理解也能生成。便于适配行业应用,覆盖广泛业务场景。


在商业领域,基于领域适应技术,孟子模型已深度垂直化赋能相应行业,典型的例子是金融和营销领域的适应,领域适应策略主要包含两大方面:

  1. 通过大规模的泛金融领域语料,将通用孟子模型迁移到金融领域。金融版孟子模型已经应用于多个金融行业的合作企业,在金融知识图谱搭建、脱水研报、公告抽取等多个任务上获得了出色的表现。
  2. 通过大规模的营销领域语料,将孟子模型迁移到数字营销领域,完成了营销文案生成、新闻摘要等多项任务,将用于行业头部的数字营销公司和多个世界五百强企业的合作之中。


未来,轻量化模型将成为发展趋势,也将成为行业领域的决胜因素,澜舟科技将在与数说故事的合作中,将预训练技术赋能更多企业!

IDEA数字经济研究院,由前微软公司全球执行副总裁,美国和英国工程院外籍院士沈向洋博士创建,他的归国吸引了一批同样优秀的AI领域科学家归国,投身共同推动国内AI行业发展。而他创建IDEA数字经济研究院的初衷,正是培育一批国际领先的科技企业和人才,带动深圳乃至大湾区万亿级数字经济产业的发展。他希望能够在世界一流的科技研究领域做一些有实质意义的工作,并定下了“三横九纵”的战略布局。


“三横”指技术平台,由下至上有算法技术平台、数据平台开源技术平台。这是支撑所有研究项目的基础,包括IDEA对外合作的基础。

“九纵”分为三大领域:

企业AI

包括办公自动化,教育、医疗领域的一些研究工作,具体如自然语言处理(NLP)、医疗知识图谱。幺宝刚先生提到 Google将 Alpha Fort 2开源,也就是AI横向的垂直领域拓展。深度学习技术正用于蛋白质结构预测,相较于从前使用生物学方法解决,统计和大数据方法大大提高了精度。

工业AI

目前国内劳动密集型产业转移,人口红利上升,怎样在智能制造、机器人领域、芯片设计技术上做出突破,也是IDEA重要的研究领域。

金融AI

在商业智能决策领域,IDEA致力于智能金融窗、经济行为的知识图谱,并设立了研究中心。由于公众对数据安全和隐私保护意识越来越强,怎样在保护客户隐私前提下,应用数据价值,隐私计算和区块链技术怎样能更好地应用,也是金融AI领域的重要研究方向。


另外,以DataStory AI Lab为代表,把前沿技术跟产业紧密结合在一起。IDEA 与数说故事一起建立AI Lab,希望与像数说故事这样的企业一起结合技术和实际场景,真正做到技术落地。

从学术界到工业界,最深的感受有两个,其一,学术界更多的是前沿技术的探索,通常仅能聚焦于某个可验证的科学问题,我们无需考虑性能,只要效果提升即可,但在工业应用落地时,性能很重要;其二, 模型在实验室场景有效,工业应用不一定可用。因为实际场景中会出现许多我们没有考虑到的情况,模型大多是假设数据在一种很干净的环境下,到真正的应用时会复杂很多。


从学术界进入到工业界,恰好那时BERT出现,我开始尝试用BERT做中文分词,这段经历对我真正从象牙塔走出进入工业界还是蛮重要的。后来加入平安寿险,我负责的是机器人中台算法模块和整个部门偏研究的探索,创办了启航实验(SAIL Lab),在保险、金融等场景提供自然语言处理,推荐了前沿技术研究和落地服务。


此次,加入DataStory AI Lab,最深的感触就是数说故事多年来已经积累了大量数据,我要做的就是在海量数据中挖掘价值,并应用到具体的商业场景。DataStory AI Lab作为第一批加入IDEA数字经济研究院的CTO工作室,主要研究方向为知识图谱赋能商业分析与决策方向。


DataStory AI Lab致力于与IDEA数字经济研究院共同推动商业分析与决策领域数字化转型应用,围绕AI知识图谱、下一代动态海量事理图谱技术等领域展开国际一流的研究和产业化落地。

NLP面向的业务场景多,项目对象多,如何做到众多的NLP模型快速的在不同的项目中进行调优上线成为了一个难题。为此数说故事构建了完整的NLP平台,平台支持基于active-learning的数据标注,可以有效降低标注数据,再加上领先的预训练模型应用,使得场景优化的模型可以快速的通过中台体系应用到具体项目中。


数说故事构建的开放性商业知识图谱,有两个特点,开放性以及商业属性。区别于传统的open information extraction,我们对于商业相关的实体有着很高的准确性要求,常规的OpenIE方法,在全流程的准确率上无法达到要求,所以我们研发了一个两阶段叠加的“半”开放抽取机制,第一层的商业实体抽取节点,会继续作为后续开放性“主谓宾”抽取的其中一个节点信息。以此保证了商业实体的高要求,和各种关系实体的开放性抽取要求。


AI和商业问题的结合一般来说有两种具体场景:

第一种是AI的结果能够直接输出到应用上,比如推荐系统、对话机器人、智能翻译、图像OCR识别等,这些场景下AI在商业侧的应用毋庸置疑是可以天然的结合的。

第二种场景,是间接应用在商业场景上,这也是数说故事最常见的情况。比如,需要利用AI技术对原始的各种文本图像语音进行结构化,再在时间维度上计算各种特征,最后还需要通过统计模型或者业务领域的建模,才能最终将结果输出到应用端。


数说故事在整个大数据采集、AI模型处理、业务场景统计模型构建,都有专业的跨领域人才进行全流程的掌控,也只有这样才能最终实现AI技术与商业价值的结合。




正如徐亚波博士在圆桌论坛上所讲,与这几位AI大咖同台对话,是整个数说故事大湾区落成仪式中他最期待的环节。为了在认知AI领域持续深入研究,我们集合了国内几乎所有最牛的AI团队展开深入合作,包括IDEA数字经济研究院、创新工场、澜舟科技、香港城市大学等展开紧密合作,不断加强底层AI技术能力。


今年,我们首次将底层基础平台全部开放出来,并公开招募平台合作伙伴,在平台上开发新的应用;我们还成立了数字化基金,一起投资更多有潜力的初创型品牌商数字化服务公司。


至此,DS AI TALK的四场大咖对话暂告一段落,在众多AI大咖的加持下,数说故事将更好地把前沿技术与产业紧密结合,将技术落地到实际业务场景,聚焦AI前沿技术,赋能商业增长!

微信扫描二维码

微博扫描二维码