啃书文学网

手机浏览器扫描二维码访问

第六章 暗知识神迹机器能否超越人类(第2页)

(2)设计实验:验证可控变量和可测变量之间的关系。

(3)如果实验不能验证,就重新回到步骤(1)。如果能够验证,就把验证过的关系制造成仪器,使原来的可测变量变为可控变量。然后回到步骤(1)。

机器学习在每个步骤中都能加快速度。在步骤(1),机器学习可以通过阅读历史文献提出大量可能的组合。虽然在大量的备选假设中最终还要科学家定夺为哪个做实验,但机器可以帮助科学家想得更全面。在步骤(2)最花时间的是改变可控变量的值来测量可测变量,这正是机器的拿手好戏。在收集、整理、分析数据方面机器比人要快,也更准确。在步骤(3)制造仪器方面又分为设计、实验和制造三个步骤,机器学习在实验和制造上都能加快速度。可以想象在不久的将来会出现“机器人研究生”,人类科学家给机器一个大致的研究方向,当机器遇到困难时请教一下导师,剩下的大部分研究工作就是机器自己做了。它们不知疲倦,7×24小时做研究,阅读速度是人类研究生的一亿倍,测量分析数据速度是人类研究生的一万倍。只要有电力和算力,世界上可以有几十亿个这样的“研究生”在研究人类关心的各种课题。

唐诗高手

机器学习不仅在科学技术的进步上大显神威,而且也开始进入人文领域。下面的四首律诗中有两首是人写的,两首是机器写的。

云峰

白云生处起高峰,

鬼斧神工造化成。

古往今来谁可上,

九重宫阙握权衡。

画松

孤耐凌节护,

根枝木落无。

寒花影里月,

独照一灯枯。

悲秋

幽径重寻黯碧苔,

倚扉犹似待君来。

此生永失天台路,

老凤秋梧各自哀。

春雪

飞花轻洒雪欺红,

雨后春风细柳工。

一夜东君无限恨,

不知何处觅青松。

在告诉读者答案之前,先看看机器写诗的原理。把机器写诗的原理讲得最清楚的莫过于《红楼梦》里的林黛玉。在《红楼梦》第四十八回中,被薛宝钗带进大观园的姑娘香菱让黛玉教她写诗:

黛玉道:“什么难事,也值得去学!不过是起承转合,当中承转是两副对子,平声对仄声,虚的对实的,实的对虚的,若是果有了奇句,连平仄虚实不对都使得的。”香菱笑道:“怪道我常弄一本旧诗偷空儿看一两首,又有对的极工的,又有不对的,又听见说‘一三五不论,二四六分明’。看古人的诗上亦有顺的,亦有二四六上错了的,所以天天疑惑。如今听你一说,原来这些格调规矩竟是末事,只要词句新奇为上。”黛玉道:“正是这个道理,词句究竟还是末事,第一立意要紧。若意趣真了,连词句不用修饰,自是好的,这叫作‘不以词害意’。”香菱笑道:“我只爱陆放翁的诗‘重帘不卷留香久,古砚微凹聚墨多’,说的真有趣!”黛玉道:“断不可学这样的诗。你们因不知诗,所以见了这浅近的就爱,一入了这个格局,再学不出来的。你只听我说,你若真心要学,我这里有《王摩诘全集》你且把他的五言律读一百首,细心揣摩透熟了,然后再读一二百首老杜的七言律,次再李青莲的七言绝句读一二百首。肚子里先有了这三个人作了底子,然后再把陶渊明、应玚,谢、阮、庾、鲍等人的一看。你又是一个极聪敏伶俐的人,不用一年的工夫,不愁不是诗翁了!”

黛玉说的第一件事是格律,押韵合辙,平仄对仗。这是律诗的基本规则,属于作诗的明知识。而词语之间的相关性,也即一个词出现在另一个词后面的概率,对诗人来说则是默知识。学习这些默知识是机器最擅长的,机器通过大量的阅读,对每个词后面出现什么词都有了“感觉”。黛玉说的第二件事是训练集要大,要多样化。陆游一生写了万余首诗,但一个诗人毕竟有局限性,例如陆游的诗题材单调,意境空疏。如果香菱只学陆游的诗就会像黛玉说的那样“一入了这个格局,再学不出来的”,这就是机器学习里面当训练数据集太小时出现的“过度拟合”问题。所以黛玉让香菱学王维、杜甫、李白等不同风格的诗人,王维的空灵幽远,杜甫的悲天悯人,李白的潇洒豪放,都会避免“过度拟合”,多种风格的混合才能出新意。

机器作诗的原理和人学作诗类似,本质上也是模式识别,通过大量学习识别然后记忆平仄、对仗、押韵、词句的常见组合,即一个词出现在另一个词后面的概率。诗歌是文字的一部分,是一个前后有相关性的序列数据流,第三章里提到过,RNN最适合序列数据处理。产生诗歌的思路有两种。第一种思路是将诗歌的整体内容作为训练语料送给RNN语言模型进行训练。训练完成后,先给定一些初始内容,然后就可以按照语言模型输出的概率分布进行采样得到下一个词,不断地重复这个过程就产生完整的诗歌。具体步骤如下:首先由用户给定的关键词生成第一句,然后由第一句话生成第二句话,由第一句话和第二句话生成第三句话,重复这个过程,直到诗歌全部生成。该模型由三部分组成。

(1)卷积语句模型(ConvolutionalSentenceModel,CSM):这个卷积模型用于获取一句话的向量表示。

(2)复发上下文模型(RecurrentContextModel,RCM):句子级别的RNN,根据历史生成句子的向量,输出下一个要生成句子的上下文向量。

(3)复发生成模型(RecurrentGenerationModel,RGM):字符级别的RNN,根据RCM输出的上下文向量和该句之前已经生成的字符,输出下一个字符的概率分布。解码的时候根据RGM模型输出的概率和语言模型概率加权以后,生成下一句诗歌,由人工规则保证押韵。

第二种思路是把写诗看成一个翻译过程。将上一句看成源语言,把下一句看成目标语言,用机器翻译模型进行翻译,并加上平仄押韵等约束,得到下一句。通过不断地重复这个过程,得到一首完整的诗歌。

现在到了揭开谜底的时候:第二首和第四首诗是机器写的,仔细看还是能看出来。一首好诗首先是要语句自然流畅,意境浑然天成。第二首的第一句“孤耐凌节护”根本不知所云。除了句子不通顺,两首机器写的诗还很难让读者有画面感。一首好诗重要的是意境,正如黛玉所说:“词句究竟还是末事,第一立意要紧。若意趣真了,连词句不用修饰,自是好的,这叫作‘不以词害意’。”目前机器写诗像一个缺乏天资的但极为刻苦的诗歌爱好者,怎么做都无法有“意境”。能够打动人的好诗需要“触景生情”,并且能引起读者的共鸣。这更是目前机器学习还无法企及的境界。最绝妙的诗歌除了以上几点,还要能出奇出新,打破常规,使用从来未使用过的词句组合但又合情合理。正如黛玉在进一步提点香菱时所说:

“可领略了些滋味没有?”香菱笑道:“领略了些滋味,不知可是不是,说与你听听。”黛玉笑道:“正要讲究讨论,方能长进。你且说来我听。”香菱笑道:“据我看来,诗的好处,有口里说不出来的意思,想去却是逼真的。有似乎无理的,想去竟是有理有情的。”黛玉笑道:“这话有了些意思,但不知你从何处见得?”香菱笑道:“我看他《塞上》一首,那一联云:‘大漠孤烟直,长河落日圆。’想来烟如何直?日自然是圆的:这‘直’字似无理,‘圆’字似太俗。合上书一想,倒像是见了这景的。若说再找两个字换这两个,竟再找不出两个字来。还有‘渡头余落日,墟里上孤烟’:这‘余’字和‘上’字,难为他怎么想来!我们那年上京来,那日下晚便湾住船,岸上又没有人,只有几棵树,远远的几家人家做晚饭,那个烟竟是碧青,连云直上。谁知我昨日晚上读了这两句,倒像我又到了那个地方去了。”

蜜宠霸爱:厉少,你失宠了  守城使  重生九零之神医商女  婚心动魄:我的神秘大boss  重生:影后夫妇疯狂撒狗粮  世家三代录  穿越梦境  夫人,总裁他罪不至死  面对秋阳  人在航海,开局艾尔沃特海战  盗墓笔记之尘封的记忆  凰谋天下  前妻别跑:偏执慕总放肆宠  小农女种田忙  重生年代:胖厨娘的红火小日子  神王殿  她切回满级大号了  沈再云夏顾雪重生鉴宝  市场·情场·官场  天才萌宝:爹地超宠妻  

热门小说推荐
隐龙废婿

隐龙废婿

别人眼中的废物,其实是蛰伏的隐龙。看男主如何一点点找回自我,征服爱人。不管你如何对我,我对你的心始终不变!...

凰女天下

凰女天下

她,父母皆为人间帝皇,本是天之骄女,奈何十余年前的一场阴谋,一朝颠覆,零落成泥,在冷宫中艰难向阳生长。寒冬腊月,滴水成冰,作为她唯一庇佑的母亲含恨逝去,原本尊贵至极的母亲却只能拥着一床草席长眠乱葬岗,与秃鹰为伴。就在此时,她发誓,一定要离开这个地方,要让那些欺辱她的,看轻她的,统统付出代价。随着谜底一步步被揭开,十余年前的阴谋暴露于烈阳之下,她面对杀母仇人,恨不能生啖其肉,饮其血。直到一个男人的出现,让她理解了母亲的付出,母亲的愿想。何为天下?天下,有亦无,无亦有,一切在人之心而已。展开收起本站为书迷更新凰女天下最新章节,查看九圆所撰科幻小说凰女天下的最新章节免费在线阅读。...

按摩笔记周炎

按摩笔记周炎

我只不过是会点按摩,通点医术,懂点古武,练点内功而已,这真的只是基本操作,可傲娇的总裁,靓丽的校花,邻家的萝莉她们非要缠着我...

天才宝宝:这个总裁,我要了!(完结正文)

天才宝宝:这个总裁,我要了!(完结正文)

本文是vip完结正文,番外另外做一个文档!!谁说兔子不吃窝边草,她夏郁薰偏偏吃定了他这棵草!十几年的青梅竹马,三岁定终身,十岁献初吻,二十岁做他大总裁的贴身保镖,这样竹马还能被别人骑跑,那她这么多年武学...

每日热搜小说推荐