机器之心报导
参加:蛋酱
要是保藏夹里没几个独家沙雕表情包,今世网民都无法在朋友圈安身。但有一些「妙趣横生」的图片,也许是 AI 生成的成果。
一般人很难读出「meme」这个词,它一般译为「模因」,起源于 1976 年,原意为「仿照传递行为」。
但读音和来历或许没那么重要,重要的是每个网上冲浪的人都见过它,乃至沉迷于它。在中文里,它大约被称为「网络梗图」、「沙雕图片」、「表情包」等等……
比方这个:
还有这个:
这个金发蓝衣的高兴男孩,你莫非不眼熟吗?
作为机器学习研讨者,你或许还悄悄在保藏夹里保存了这些:
这是一张在深度学习社区撒播很广的图,表达的是新的预练习办法怎么比之前的 SOTA 办法更优越。当然,新 SOTA 办法是层出不穷的,这样的图片搜集起来乃至能构成一个完好的系列。
图的创立一般只要两步:选一张时兴的 meme 模版(即图画),然后配上「精妙绝伦」的阐明文字,制造出一种别有神韵的幽默感。
.
这种图画、文字和幽默感的美妙组合,在信息传递方面极具穿透力和感染力,比方当你看到这张图时:
尽管这仅仅一张静态图片,句子也不成句子,但你的眼前现已显现出了七人共舞的场景。
今世网友人人都用表情包,乃至还会克己。比方:
但是,表情包除了克己,还可以由 AI 生成。你或许想不到,某个平平无奇的表情包背面居然隐藏着「奥秘力气」。
今日,咱们就来了解一下 meme 主动生成。
meme 主动生成一直是深度学习范畴的课题之一。以往的生成办法要么是从一堆 meme 字幕中挑选最适宜的一个,要么是依据给定图片和模版来生成 meme 字幕,好像有点不行「快捷」。
近来,来自美国亚利桑那州立大学的研讨者对 meme 图生成办法来进行了改善提高。在这篇论文中,研讨者提出了一种依据给定的输入句子来生成匹配图片的办法。这是一项很有挑战性但风趣的 NLP 使命。
论文地址:https://arxiv.org/abs/2004.14571v1
经过对 meme 图生成机制的深化了解,研讨者决定将 meme 图生成与自然言语翻译结合起来。
在自然言语翻译工作中,为了将输入的句子转换为方针言语,有必要对句子的完好意义进行解码,剖析其意义,然后将源句子的意义编码为方针句子。
类似地,此处也可以将源句子的意义编码为图画和字幕对,使之传达与源句子相同的意义或情感,然后将句子翻译成「梗」。
受该办法的启示,研讨者提出了一种端到端的编码-解码模型「memeBot」,可面向恣意给定的句子生成 meme 图。一起在练习的进程中,研讨者创立了首个大型 meme 图字幕数据集。
给出句子「I am curiously waiting for my father to cook supper tonight」,memeBot 运用 meme 模板挑选正真适宜的图,然后用字幕生成器生成恰当的字幕,然后生成 meme 表情包。
怎么用 memeBot 制造表情包?
「memeBot」是一种端到端的神经与概率架构。该模型共有两个组成部分,如下图所示,首要是运用 meme 模版挑选模块,依据输入句子确认用哪张图;然后是 meme 字幕生成器,生成适宜的字幕。
meme 模版挑选模块
依据 BERT、XLNet、Roberta 等 trans-former 架构的预练习言语表征被大范围的运用在自然言语了解使命。这些模型在针对相应使命微调之后,均达到了新的 SOTA 水平。
该研讨在 meme 模版挑选使命上,运用线性神经网络对预练习言语表征模型进行了微调。在练习进程中,经过运用公
将依据给定句子挑选正确模版的概率最大化。其间θ_1 表明 meme 模版挑选参数,T 表明模版,S 是输入句。
meme 字幕生成
研讨者学习了降噪编码器的办法,经过损坏输入字幕来练习 meme 字幕生成器,并运用词性标示器(POS Tagger)来提取输入字幕的词性。研讨者运用 POS 向量来对输入字幕进行遮罩,仅把名词短语和动词短语作为输入传递给 meme 字幕生成器。
损坏数据的意图是让模型从现有的字幕中学习 meme 生成,并在揣度进程中将依据给定输入句子生成 meme 的进程进行泛化。
meme 字幕生成器模型运用了 transformer 架构,经过对选定的 meme 模版和输入句子履行多头缩放点积注意力,来创立给定输入句子的 meme 嵌入。
transformer 解码器首要对预期的字幕履行 masked multi-head attention,然后在编码的 meme 嵌入和 masked multi-head attention 的输出之间履行多头缩放点积注意力(如图 3 所示)。这使得 meme 字幕生成器可以学习输入句子、所选 meme 模版和预期 meme 字幕之间的依靠联系。
此外,该研讨还运用公式
来优化 transformer。
其间θ_2 表明 meme 字幕生成器的参数,C 表明 meme 字幕,M 是依据 transformer 编码器取得的 meme 嵌入。
数据集
模型练习所用数据有两个来历,一个是全球最大的 meme 图片生成网站「imgflip」,另一个便是众所周知的 meme 图片调集地「推特」。为了爬取更多的数据,研讨者开发了一款网络爬虫东西,尽或许多地搜集 meme 图。
该研讨终究创立的数据集包含源自 24 个「经典沙雕梗」的 177942 个 meme 字幕。表 1 展现了数据样本的组成部分,附录 A 展现了练习所用的「经典源图」,图 4 为 meme 字幕主题的散布状况。
表 1:meme 字幕数据会集的样本示例,包含模版称号(Template name)、字幕(Caption)、meme 图(Meme Image)三部分。
附录 A:试验所用 meme 字幕数据会集的的模版和图画。
图 4。
此外,研讨者搜集了推特渠道的推文,用以点评 memeBot 在线上交际互动中经过句子生成 meme 的效能。
研讨者在关键词「Coronavirus」查询成果中随机抽取 6000 条推文,从中挑选了 1000 条非负面心情的推文。意图是经过输入推文让模型生成 meme 图,并点评生成成果是否与推文内容相关。
memeBot 作用怎么
该研讨在练习、验证和测验阶段的数据集别离包含 142341、17802 和 17799 个样本,点评内容包含模版挑选模块在挑选兼容模版时的功能、字幕生成器的生成效能等。
首要,研讨者对 BERT、XLNet 和 Roberta 几种预练习言语表征模型进行了微调,并在 meme 字幕测验数据集上测验了模型的 meme 模版挑选功能,成果如表 2 所示。
表 2:加粗部分为最佳分数,精确度和 F1 两项目标是越高越好,丢失则越低越好。研讨者运用了功能体现最佳的 Roberta_base 模型作为 meme 生成 pipeline 中的模版挑选模块。
然后,在字幕生成使命中,研讨者运用了两个变体「MT2MC」和「SMT2MC」(SMT2MC 也有两个变体),别离代表「依据模版生成字幕」和「依据输入句子及模版生成字幕」。下图是字幕生成器的变体所生成的 meme 示例。
可以精确的看出,MT2MC 依据给定的 meme 模版随机生成字幕,与输入句子无相关,SMT2MC 变体生成的 meme 字幕则与输入句子有语境相关。在 SMT2MC 的变体中,以名词短语和动词短语作为输入生成的字幕可以更好地复原输入句子的原意。
在点评时,研讨者运用了 BLEU 分数来点评生成字幕的质量。鉴于 meme 生成没有固定的目标,研讨者还引进了一组点评人员进行「片面点评」,点评的维度包含图片与字幕的连贯性和相关性等等,分数在 1-4 分不等。
BLEU 值以及人类点评得分状况。
相关性与连贯性分数的定性比较。
研讨者还规划了一个试验,来点评 meme 生成成果在线上交际环境中的效能:
表 5:推特数据中的人类点评分数。相关性和一致性目标满分为 4 分,「User Likes」一项代表喜爱该生成成果的人数占整体的百分比。
图 9:SMT2MC-NP+V 变体生成的 meme 成果。
最终,研讨者也说到,meme 的生成作用点评因人而异,很难经过预界说的目标进行点评。接下来他们会将持续拓宽这一方面的研讨,比方将 meme 引进社会化媒体流,并依据 meme 在人群中的传达对其进行点评。meme 传达率和传达人群可用于强化练习,生成更高质量和更具构思的 meme。
为模型减肥,飞桨PaddleSlim供给了从剪枝、量化到轻量级神经网络架构查找与主动模型紧缩等一系列高效东西。5月17日19:00,百度资深研制工程师将在线解析飞桨模型紧缩库核心技术及使用场景,欢迎扫码报名。