“小满抄袭门”如何避免?看AI高效识别内容风险

发布时间:2022-05-23作者:DataStory

下载完整版报告

沸沸扬扬的奥迪广告抄袭事件,为“小满”带来了大大的“满屏”效应。官方的回应、媒体的解读,还有天王的发声,已经给出了许多交代。但从技术的角度来看,或许我们还可以提供一个别样的视角。

 

作为基于人工智能技术提供内容领域的产品解决方案的公司,contentnote更希望从如何利用AI技术防范诸如“抄袭”之类的公关事件,帮助品牌或者广告公司更高效地识别内容风险。

 

首先从价值判断上来说,大品牌应该是非常注重原创的,也非常在意防范自身陷入抄袭的风险中。毕竟大品牌之所以能够“大”,就是因为在某一点上与众不同,无论是在品牌塑造,还是在产品创新上——抄袭本身也违背很多大品牌的价值观;并且一旦不小心置身于抄袭的风险中,品牌声誉将会受到极大影响。

 

然而,随着互联网的发展,内容以每天十亿量级的速度在累积,并且内容的供应链也涉及到很多环节:内容部门、外部供应商以及外部供应商的员工及外包商,这就导致品牌主即使具有很强的动力去避免“抄袭”,但面对庞大的存量内容时也往往有心无力。

 

对应的解决方案可以包含多方面的,比如说通过政策宣贯和培训建立诚信的文化、甄选具有声誉的供应商等。在这里我们介绍contentnote基于人工智能和大数据技术而开发的产品解决方案,这也秉承了我们的一贯理念:通过技术和商业需求的结合,让我们的客户能够享受技术带来的红利。

 

具体的解决方案步骤很直接,用图表示如下:



从技术角度,重复度查询主要是在第2步,可以分为对文本的查重,以及对图片/视频的查重:

 

对文本的查重:从技术上,这个可以表述为:通过基于BERT的动态词向量计算方法,计算两个句子向量距离,作为两者的相似度(具体技术细节不单独展开,后续计划再出单独关于技术原理的文章)。请看如下案例:



​如文本1A和1B,基本一致,只是做了少量的词语修改,相似度判别为97.3%;2A和2B尽管文本很短且是一个意思,但是相似度下降到了84.5%;对于文本3A和3B以及4A和4B,尽管是相同的话题,但是在表述和内容上都有明显的差异,相似度降低到了60%以下。

 

对图片的查重:通过基于大规模数据集的ResNet模型,提取图片中具有代表性的特征,并编码成特征向量,然后计算图片之间的余弦距离,作为图片的相似度指标。下面是相应的例子:



​比如对于图1和图A就基本是一张图,相似度判别99%以上;图1和图B尽管也比较类似,但是洗手液产品摆放角度和同框的瓶子不同,相似度也降到了85.7%。

 

作为一款产品,不仅要考虑技术可行,还要考虑业务上能够用得起来。contentnote做了以下设计,以提升产品的价值:

 

01 对视频的覆盖

 

考虑到现在很多新增内容都是视频形式,单纯只比对视频的标题部分,就会缺失很多信息。所以contentnote对抖音视频进行了语音转文本(ASR),将视频中的语音转成文字用于查重比对。进一步,因为很多视频中包含的口音都不是标准的普通话,导致语音转文本的准确度降低,这对于业界顶级的中文ASR技术公司都是一个很大的挑战,所以contentnote在ASR的基础之上又通过光学字符识别(OCR)技术对于视频中的字幕进行提取,以解决非普通话语音转文字准确度不高的问题。

 

02标杆值的设定

 

按照文本或者图片相似度判断的结果,应该将风险门槛设在哪一个区间,即相似度是多少的时候系统进行预警并触发进一步的审核环节?从法律角度,所谓抄袭有两重定义:一个是被抄袭的作品受《著作权法》的保护,还有一个就是使用他人作品时超出了“适当引用”的范畴。然而品牌在制作商业视频时,考虑到声誉风险的因素,对“抄袭”的容忍往往要大幅高于法律规定的底线。我们的经验是,根据查重之后返回的相似度,进行分层管理:



​比如如果我们将本次涉嫌抄袭的奥迪文案放入到contentnote查重系统中,其文案和2021年5月21日北大满哥发布视频的文案相似度是91.06%。这至少触发了第二等级的风险预警。



​在实际运行中,品牌也可以根据自身行业内容特点和企业对风险的要求,对于相似度阈值进行自定义。

 

03其他评估功能

 

在查重功能之上,加入其他内容事前评估功能。重复度只是品牌在内容方面面临的风险之一;除此之外,品牌还要考虑代表品牌的内容在符合监管要求、内容质量,以及价值观方面的适合性。比如说近期有多个品牌在涉及两性话题上内容营销的频繁翻车,品牌营销变成了负面舆情。通过设置跟两性话题相关的关键词(如频繁出现“女生”、“女性”)或者对出现负面词汇(如臭、脏、丑)的内容进行预警,就可以对风险“嫌疑”内容进行识别,针对性的投入人工审核去降低风险。

 

写在最后

基于技术和人工智能对内容风险的事前控制,其核心思想是在于对海量的内容进行分级,从而在审核成本(如人工投入)和风险控制之间达到平衡。技术不能替代人工审核,但是技术能够一定程度上提升人工审核的效率——例如每天有100篇内容要审核,人工很难对这100篇都深入检查,但是利用技术可以识别其中的10%(10篇)风险嫌疑最高的,这样就大幅提高了审核效率、同时做到对风险的有效控制。另外,要做到有效的识别10%风险嫌疑最高的,也需要基于对业务的洞察从而设置技术规则,这也离不开人机的配合。

 



关于contentnote

 

contentnote(横琴容徽),是数说故事旗下专注于内容智能的子公司。我们的愿景是“让好的内容触手可及”。

contentnote利用大数据以及领先的人工智能和深度学习技术,为广告主、营销服务公司和创作者提供覆盖内容策略、创作和发布环节的产品解决方案——这意味着我们的用户可以行走在最新技术的能力边界上,即普通人也能成为内容高手,小预算也可以出爆款内容。

 


微信扫描二维码

微博扫描二维码