手机浏览器扫描二维码访问
类推学派——机器学习默知识
我们生活中很多经验来自类比。医生一看病人的面部表情和走路姿势就基本能判断出是普通感冒还是流感,因为流感症状比感冒厉害得多。科学上的许多重要发现也是通过类比。当达尔文读到马尔萨斯(Malthus,1766—1834)的《人口论》(PrincipleofPopulation)时,被人类社会和自然界的激烈竞争的相似性所触动;玻尔的电子轨道模型直接借鉴了太阳系的模型。机器学习中用类比方法的这一派叫类推学派,他们的逻辑很简单:第一,两个东西的某些属性相同,它俩就是类似的;第二,如果它们的已知属性相同,那么它们的未知属性也会相同。开好车上班的人可能也会用苹果手机,喜欢看《星球大战》(StarWars)的人可能也会喜欢看《三体》等。类比的逻辑可以明确表达,但具体的类比常常是默知识。例如老警察一眼就能看出谁是小偷,但不一定说得清楚原因。
在类推学派中最基础的算法叫最近邻法。最近邻法的第一次应用是1894年伦敦暴发霍乱,在伦敦的某些城区每8个人就会死1个,当时的理论是这种疾病是由一种“不良气体”造成的。但这个理论对控制疾病没有用。内科医生约翰·斯诺把伦敦每个霍乱病例都标在地图上,他发现所有的病例都靠近一个公共水泵。最后推断病因是这个水泵的水源污染,当他说服大家不要再用这个水泵的水后,疾病就得到了控制。在这里这些数据的相似点就是和这个水泵的距离。最近邻法还有一个应用就是在网上搜照片,你对高铁上霸座的人很愤慨,你把他的照片上传,网站给你显示出几张和他长得最像的照片,并且有文字,你一看,天哪,还是个在读博士生!同样的道理,很多智能手机都可以自动进行照片分类,把你手机里的人像都自动归类。
在类推学派中,第一件事是要定义“相似度”。相似度可以是身高、收入等连续变量,也可以是买了某一类书的次数的统计变量,也可以是性别这样的离散变量。总之,只有定义了相似度,才能度量一个分类方法是否最优。人可以感受相似度,但无论是人的感官还是大脑都无法量化相似度。人类在做相似度比较时,甚至都不知道自己在比较哪些特征和属性,但机器可以很容易量化这些相似度。所以只要机器抓准了特征和属性,比人的判断还准。
类推算法可以用于跨领域的学习。一个消费品公司的高管到互联网媒体公司不需要从头学起,华尔街雇用很多物理学家来研究交易模型,是因为这些不同领域问题的内在数学结构是类似的。类推算法最重要的是能用类比推导出新知识,就像我们前面提到的达尔文受《人口论》的启发。
虽然机器可以学习明知识和默知识,但它最大的本事是学习暗知识。
机器发现暗知识
暗知识就是那些既无法被人类感受又不能表达出来的知识。也就是说人类本身无法理解和掌握这些知识,但机器却可以。机器有两种方法可以掌握这些知识:模仿人脑和模仿演化。
联结学派
联结学派的基本思路就是模仿人脑神经元的工作原理:人类对所有模式的识别和记忆建立在神经元不同的连接组合方式上。或者说一个模式对应着一种神经元的连接组合。联结学派就是目前最火爆的神经网络和深度学习,它在五大学派中占绝对统治地位。目前人工智能的高科技公司中绝大部分是以神经网络为主。第三章我们专门讨论神经网络。
进化学派
机器学习中一共有五大学派,最后一个学派是进化学派。他们是激进主义经验派,是彻底的不可知论者。进化学派不仅觉得因果关系是先验模型,甚至觉得类比,神经元连接也都是先入为主的模型。他们认为不管选择什么样的先验模型,都是在上帝面前耍人类的小聪明,世界太复杂,没法找到模型。进化学派的基本思路是模仿自然界的演化:随机的基因变异被环境选择,适者生存。他们的做法就是把一种算法表达成像基因一样的字符串,让不同的算法基因交配,让生出来的儿女算法去处理问题,比爸妈好的留下来配种继续生孙子,比爸妈差的就淘汰。
比如我们要通过进化算法找到最优的垃圾邮件过滤算法。我们先假设凡是垃圾邮件都包含1000个诸如“免费”“中奖”“不转不是中国人”这样的单词或句子。对于每个单词我们可以对邮件施加一些规则,如删除或者怀疑(“怀疑”是进一步看有没有其他垃圾词汇)等。如果规则就这两种,我们可以用一个比特表示:1删除,0怀疑。这样要对付有1000个垃圾词的算法就可以表示成1000比特的一个字符串。这个字符串就相当于一个算法的基因。如果我们从一堆随机的1000比特长的字符串开始,测量每个字符串代表的算法的适应度,也即它们过滤垃圾邮件的有效性。把那些表现最好的字符串留下来互相“交配”,产生第二代字符串,继续测试,如此循环,直到一代和下一代的适应度没有进步为止。注意,这里和生物的进化有个本质区别,就是所有的算法都是“长生不老”的。所以老一代里的优秀算法不仅可以和同代的算法竞争,而且可以和儿子、孙子、子子孙孙互相竞争,最后的胜利者不一定都是同一代的算法。
进化算法的问题是“进化”毫无方向感,完全是瞎蒙。在前面的垃圾邮件过滤器例子里,1000比特的字符串的所有可能性是2,也即10,即使用目前世界最快的超级计算机,“进化”到地球爆炸都不可能穷尽所有可能,在有限时间内能探索的空间只是所有可能空间的极少一部分。地球可是用了40亿年时间才进化出了现在所有的生物。
图2.1是美国华盛顿大学佩德罗·多明戈斯(PedroDomingos)教授总结的一张五大流派“八卦图”。
机器学习中的符号学派、贝叶斯学派、类推学派和联结学派的共同点是根据一些已经发生的事件或结果,建立一个预测模型,反复调整参数使该模型可以拟合已有数据,然后用此模型预测新的事件。不同的是它们各自背后的先验世界模型。符号学派相信事物间都有严密的因果关系,可以用逻辑推导出来;贝叶斯学派认为,因发生,果不一定发生,而是以某个概率发生;类推学派认为,这个世界也许根本没有原因,我们只能观测到结果的相似,如果一只鸟走路像鸭子,叫起来像鸭子,那么它就是只鸭子;联结学派认为,相似只是相关性能被人理解的那层表皮,隐藏的相关性深邃得无法用语言和逻辑表达;最后进化学派认为,什么因果?什么相关?我的世界模型就是没有模型!从零开始,不断试错,问题总能解决!
图2.1机器学习的五大流派
图片来源:佩德罗·多明戈斯,《终极算法》,中信出版社,2017年。
现在我们终于可以清理一下满天飞的名词了。我们在媒体上最常听到的是这四个名词:人工智能、机器学习、神经网络、深度学习。这四个词的关系如图2.2所示,人工智能是最大的一个圆,圆里面分为两部分:一部分叫人工学习,也就是前面我们讲的专家系统;另一部分叫机器学习,就是机器自己学习。机器学习里面包含神经网络,在神经网络里面还要再分,一个是浅度学习,一个是深度学习。在过去芯片集成度低时,我们只能模仿很少的神经元。现在由于集成度在提高,我们可以模仿很多的神经元,当很多神经元被组成多层的网络时,我们就叫它深度学习。所以人工智能、机器学习、神经网络和深度学习的关系,其实就像一个洋葱一样,一层包裹一层,最外面的是人工智能,往里一点是机器学习,再往里是神经网络,最深层就是深度学习。
所以这四个词有下面的包含关系:人工智能>机器学习>神经网络>深度学习。
图2.2AI中四个概念的包含关系
今天我们说到的人工智能,其实就是机器学习里面的神经网络和深度学习。但是在一般的商业讨论中,这四个概念经常是混着用的。
夫人,总裁他罪不至死 天才萌宝:爹地超宠妻 小农女种田忙 蜜宠霸爱:厉少,你失宠了 凰谋天下 穿越梦境 盗墓笔记之尘封的记忆 市场·情场·官场 重生年代:胖厨娘的红火小日子 重生九零之神医商女 她切回满级大号了 沈再云夏顾雪重生鉴宝 前妻别跑:偏执慕总放肆宠 世家三代录 面对秋阳 重生:影后夫妇疯狂撒狗粮 神王殿 人在航海,开局艾尔沃特海战 婚心动魄:我的神秘大boss 守城使
一代仙尊韩当受小人暗算,被林家长女所救,为报答救命之恩入赘林家,本想韬光养晦,却受尽白眼跟欺辱,三年后,重新修回功力的韩当必将让所有人为之颤抖!...
不要叫我后妈,我没你那么大的儿子!艾天晴一直以为自己要嫁的人是一个快六十的老头,直到某天晚上那个邪魅冷血的男人将她抵在了门上,从此她的日子就...
欲成仙者得天命,得天命者命苍天。这是一句自古便流传在修炼界的古言。东荒星第一强者独孤傲天偶得天命珠,却在闭关之时遭自己侍妾联合外敌偷袭至死。再次醒来,独孤傲天发现自己带着天命珠,灵魂重生到了海蓝星一个叫李傲天的平庸少爷身上。怀抱绝色天香,脚踩各路天骄,为报前世之仇,李傲天逆袭崛起,踏上了一条重攀巅峰之路真正的强者,就应该站在苍穹之巅,指点江山!李傲天语...
作者君风雪的经典小说万界神帝最新章节全文阅读服务本站更新及时无弹窗广告小说万界神帝三千大道,天道逆天道王道修罗道吞天道三月前,少年遭到道侣迫害,跌落无尽深渊!三月后,少年从神魔洞天归来,一手持轩辕剑,一手持鸣鸿刀,骑着逆天神龙,领着吃货饕餮,征战天地间。大道三千,殊途同归,逆天一道,谁与争锋?跨越诸天七界,超脱六道轮回,纵横八大遗迹,唯我逆天帝独尊!...
续集异域之迁徙恢复更新,书号135304作为冶金硕士的李明,在现代社会中混得很不如意。就在他独自来到北京后的一年之后,倒霉的事情便接踵而至。先是莫名其妙的被陷害入狱,以至于被判死刑。接着又莫名其妙的被救出,莫名其妙的参加了魔鬼一般的训练,最后莫名其妙的被一个科学狂人传送到了一个莫名其妙的空间。然而从那里开始,他的命运被彻底的改变了。在这里,他得到了以前想也不敢想的美女的青睐在这里,他那两手半吊子医术拯救了千千万万的百姓。在这里,他又遇到了以前在武侠小说中才能看到的武林高手。在这个异域空间中,他的人生注定不会平凡在这里,他的才能注定要得到最大程度的发挥同样的,在这里,他也将遇到以前从来没有遇到过的困难和危险。也许这是一个荒诞不经的故事,也许很多人对此嗤之以鼻,但我希望将我的故事和你们一起分享,也希望我的小说能给你带来轻松和欢乐。...
林江今天要结婚了。但是新娘长什么样子他都不知道他站在酒店门口,犹豫着要不要进去赴婚约,最后心一横,决定遵照爷爷遗命,以报顾家老头救命之恩。...