华为推出AI诗人“乐府”：唐诗宋词都不在话下，竟一时分不出真假

　　原标题：华为推出AI诗人“乐府”：唐诗宋词都不在话下，竟一时分不出真假

　　理科生文艺起来，可能真没文科生什么事了。

　　不信？你看下这首七言绝句：

　　有网友读完之后表示：

　　真啊，押韵，意境，内涵都很赞。

　　不仅能够写诗，还能作词，比如这首满江红：

　　而且，还能写藏头诗：

　　你能想象，这是完全不懂写诗的理工生的杰作吗？

　　但它就是。

　　这些诗来自华为诺亚方舟实验室新推出的写诗AI“乐府”。

　　问世之处便引发了不少关注。

　　对于它的作品，有人称赞：

　　蕴意丰富的诗，工整不乏意趣，程序做的实在牛逼，给开发人员点赞

　　还有人“搞事情”，表示：

　　一声塞雁江南去，几处家书海北连。莫道征鸿无泪落，年年辛苦到燕然。要说这个 AI 写的没有北大中文系平均水平好我是不信的。

　　华为推出AI诗人“乐府”：唐诗宋词都不在话下，竟一时分不出真假

　　甚至有人说“李白看了会沉默，杜甫看了会流泪”。

　　华为推出AI诗人“乐府”：唐诗宋词都不在话下，竟一时分不出真假

　　当然，也有人指出问题：

　　很工整，不过感觉目前大多还是syntax层面的，没有到semantics层面。稍微欠缺些灵魂。

　　也有“真相帝”出来发声：

　　辛弃疾的流水散文式用典，老杜的沉郁顿挫拗救法，都是AI比较难学会的。问题不是AI太厉害，而是读者已经看不出格律诗里面比较精密的手法了…

　　华为推出AI诗人“乐府”：唐诗宋词都不在话下，竟一时分不出真假

　　对于这些问题，华为诺亚方舟实验室语音语义首席科学家刘群也在微博进行了答疑，披露了不少这只AI背后的故事：

　　其实我们也不懂诗，我们也没有用诗的规矩去训练这个系统，完全是系统自己学到的。

　　那么，这一AI到底是如何学的？论文已经公布。

　　理工男の文艺源自GPT

　　与自由生成文本不同，生成中国的古诗词是一个挑战，通常需要满足形式和内容两个方面的要求。

　　中国的古诗词有各种各样的形式，比如五绝、七绝、五律、七律、满江红、西江月、水调歌头等各种词牌以及对联，每一种都有相应的字数、押韵、平仄、对仗等规定；

　　内容方面虽然简单，但要求更加难以琢磨：一首诗要围绕着一个主题展开，内容上还要具有连贯性。

　　华为提出的“乐府”系统，与当前大多数解决方案不同，不需要任何人工设定规则或者特性，也没有设计任何额外的神经元组件。

　　整个研究中，需要做的就是把训练用的诗词序列化为格式化的文本序列，作为训练数据。

　　然后通过对语言模型token的抽样，生成满足形式和内容要求的诗词，比如绝句、律诗、词，以及对联等等。

　　而且，他们还提出并实现了一种对模型进行微调以生成藏头诗的方法。

　　这背后的能量来自GPT，一个由OpenAI提出的预训练自然语言模型，核心理念是先用无标签的文本去训练生成语言模型，然后再根据具体的任务通过有标签的数据对模型进行微调。

　　乐府AI是首个基于GPT打造的作诗系统，而且与谷歌提出的BERT息息相关。

　　整体的GPT模型是在BERT的源代码基础上实现的，Transformer大小的配置与BERT-Base相同，也采用了BERT中发布的tokenization 脚本和中文 vocab。

　　具体来说，训练诗歌生成模型的过程如下：

　　华为推出AI诗人“乐府”：唐诗宋词都不在话下，竟一时分不出真假

　　整个模型训练过程一共有两个阶段: 预训练和微调。

　　华为的这个GPT模型，是用一个中文新闻语料库进行预训练的，然后通过收集了公开可得的中国古诗词进行微调。

　　如上图所示，首先将示例诗歌转换为格式化序列。序列包括三个主要部分：格式、主题和诗体，中间用标识符分开。

　　在对联中，因为没有主题，就上句为主题，第二行为正文。所以，在生成对联的时候，就成了给出上联，生成下联的模式，也符合了“对对子”的习惯。

　　华为推出AI诗人“乐府”：唐诗宋词都不在话下，竟一时分不出真假

　　整体的数据集规模并不小，预训练用的中文新闻语料库，有2.35亿句子。微调用的数据集有25万绝句和律师，2万首词以及70万对对联。

　　预训练是在华为云上完成的，使用8块英伟达V100(16G) GPU训练了4个echo，一共耗费了90个小时。

　　微调的过程是将所有诗歌序列输入Transformer，并训练一个自回归语言模型。目标是观测任何序列的概率最大化：

　　微调的过程，不需要特别长的时间，如果训练过长，这个模型就在生成过程中，就会倾向于从语料库中直接用原始句子了。

　　训练完成后，先将要生成的诗歌的格式和主题转化为一个初始序列，然后将初始序列输入到模型中，然后对诗体部分的剩余字段按token进行解码。

　　在解码过程中，并不使用硬约束来保证格式的正确性，而是让模型自动为特定位置分配逗号和句号，在识别到token为“EOS”的时候，解码过程结束。

　　而且，采用截断 top-k 抽样策略来获得不同的诗歌，而不是束搜索。具体是每次采样一个Token时，首先选择具有 top-k 最大概率的Token，然后从 top-k Token中采样一个特定的token。

　　他们说，即使采用截短的 top-k 抽样策略，生成的诗歌仍然是正确的形式。

　　论文中介绍称，训练藏头诗的方法也是这样，只是在格式化序列的时候方法有所不同：用每一行中第一个字符的组合来代替一首诗的原始主题：“五言绝句(格式)床疑举低(藏头诗)床前明月光，疑…月，低头思故乡。”

　　效果如何，华为也在论文中进行了充分的展示，比如下面这四首“江上田家”，只有一首是唐朝诗人写的，其他三首都是来自乐府AI。

你遇到过鬼打墙吗，科学家给出了合理解释！

哪怕是科学家们也无法解释的9个神秘事物！

人类在月球睡一天，相当于地球多长时间呢？