啃书文学网

手机浏览器扫描二维码访问

第五章 飓风袭来将被颠覆的行业(第9页)

图像和视频识别可以分为下列几大类应用。

(1)人脸识别及统计(包括唇语识别)。

(2)虹膜/指纹识别。

(3)表情识别-测谎仪。

(4)物体识别及动作顺序。

(5)网络特定类图片监控。

(6)第四类步态识别。

第一类图像识别是人脸识别。全世界人脸识别最大的市场是中国,人脸识别在中国已经被广泛应用于手机支付、ATM机、门禁、打卡、海关、车(机)票、交通违规监测、安全监控等。人脸识别甚至开始应用于快餐店,利用老客户的点餐习惯加快点餐速度。人脸识别还可以用于寻找早年被拐卖的儿童。中国各地目前有大约1.8亿个摄像头,到2020年将增加到4.5亿个,平均每三个人一个摄像头。中国已经建成了世界上最大的视频监控网“中国天网”,利用人工智能和大数据进行警务预测。2017年4月,深圳已经开始利用人脸识别技术来识别乱穿马路的行人。2016年,中国安防行业市场规模已经达到5400亿元,同比增长9%。预计未来几年,中国安防行业市场规模将从2015年的近5000亿元增长到2020年的8759亿元,年增长率在11%以上。

人脸识别的主要任务有两类:一类是在一组未知的图像中找出是否有某个人;另一类是判断一张图像是否为某个特定的人。传统的自动图像识别分为以下几步。

(1)先用一组事先定义的人脸特征把将要识别的人脸进行分类,每个人脸都表现为特征集中的一组参数。

(2)在图像中首先识别有没有人脸,如果有,再识别在图像中的什么位置。

(3)提取图像中每个人脸的特征,将这些特征和已经存在于数据库的各个人脸特征参数进行比较,找到相似度最高的人脸。

而深度学习放弃了使用事先定义好的人脸特征集,而是用已知人脸图像去训练模型。目前,在图像识别中主要使用CNN,不论是什么样的应用,都是先有一组已经标注的训练图像,用这组训练图像将CNN训练好以后,用CNN来识别未知的图像。比较简单的应用是个人图像认证,例如手机刷脸密码。这种应用的图像清晰(基本都是对着镜头的大头照),而且只需要识别是否为某一个人,训练集只是一个人的不同照片。第二类是门禁、打卡、车票等系统类,需要识别出摄像头前是存在数据库里的一群人中的哪一位。这两类应用都是被识别人“希望被认出来”,所以问题相对简单。比较困难的是“不希望被认出来”的情形,例如,在公共场合的摄像头里监控是否有某一群人中的一个或几个出现。挑战在于摄像头的分辨率有限,被摄影人离镜头的距离太远,光线和朝向、姿势都有许多变化,更别提如果化妆或者整形的情况了。假设摄像头的分辨率为1920×1080(高清电视),可靠地识别一个人脸需要分辨率不低于100×100。根据不同的景深和画幅,当人脸和摄像头距离10~20米时,人脸识别的可靠性就会大幅下降。另外摄像头的安装位置都远远高于人脸,当人离摄像头太近时,头顶会遮挡人脸。总体来说在一个公共场合,例如商场或广场角落的摄像头想要准确识别人流中是否有记录在案的人是一件非常有挑战性的事。指纹识别和虹膜识别的原理都和人脸识别类似,但细节不同。

目前公共场合图像和视频监控的一个技术发展方向是把识别能力和摄像头放在一起。设想一个大城市有上百万个摄像头,如果每个摄像头按照每秒64k比特速率向云端传送,每天就会产生上千TB的数据,无论是处理还是储存成本都非常高。更重要的是从监控特定人群的角度来看,这些数据绝大部分都是无用数据。如果识别能力放在摄像头端,那么只有当发现疑似目标时才会上传数据。这种摄像头端的识别可以用高速CPU和GPU来做,但价格太高。假设一个监控点的整个成本为1万元人民币(包括摄像头、拉电源、拉网线、安装费用),识别芯片的成本不应该超过2000元人民币。而且耗电不能太高,因为户外环境不容易安装散热设备。目前的解决方案主要是FPGA(现场可编程门阵列),但当算法稳定和标准形成后,长远解决方案一定是低功耗、低成本的专用芯片。设计生产这种芯片的可以是芯片设计厂商,但更有优势的是那些已经大量生产和部署摄像头的公司。

人脸识别中还包括表情识别和唇语识别。用表情识别来测谎可能比心电图更准确。由于表情的定义本身比较模糊,分类也很有挑战,所以很难另外取得被测者的标注数据。唇语识别是一项集机器视觉与自然语言处理于一体的技术,即通过人的口型变化推测说了什么话。早在2003年,英特尔便开发了“视听说识别系统”软件,供开发者研制能读懂“唇语”的计算机。2016年,谷歌DeepMind英文唇语识别系统便已经可以支持17500个词了,新闻测试集识别准确率达50%以上。目前口型识别的准确率能够达到约60%。2017年12月,搜狗推出了中文版的唇语识别,可以直接从有人讲话的视频中,通过识别说话人的唇部动作,来解读说话者所说的内容。通过端到端深度神经网络技术进行中文唇语序列建模,经过数千小时的真实唇语数据训练,打造了一个“唇语模型”,在非特定人开放口语测试集上,该系统达到60%以上的准确率,在垂直场景命令集例如车载、智能家居等场景下甚至已经达到90%的准确率。(见图5.23)

第二类图像识别是物体识别和统计。例如在卫星照片中识别地面有多少架飞机、分别是什么型号,地铁站每天有多少乘客,商场有多少特定类型的顾客(例如年轻女性)等。有挑战的是在视频中识别一个物体的某个部位的连续动作,例如识别一个挖掘机铲斗在一个时间段里挖掘了多少斗矿石。

图5.23唇语识别技术原理

图片来源:搜狗。

第三类图像识别是识别出网络中上传的图像或视频是否违规,例如黄色图片。这种应用也相当有挑战性,原因之一是被识别类别不容易清晰界定(比如到底什么算黄色),原因之二是训练集可能会非常大,使训练和识别的成本都非常高。

第四类图像识别是步态识别,中国科学院研究出了一种新兴的生物特征识别技术——步态识别。该技术只看走路的姿态,在50米内,眨两下眼睛的时间,摄像头就能准确辨识出特定对象,即使遮挡了面部也有效。虹膜识别通常需要目标在30厘米以内,人脸识别需在5米以内,而步态识别在超高清摄像头下,识别距离可达50米,识别速度在200毫秒以内。此外,步态识别无须识别对象主动配合,即便一个人在几十米外戴着面具背对普通监控摄像头随意走动,步态识别算法也可以对其进行身份判断。步态识别还能完成超大范围人群密度测算,能够对100米外或者1000平方米内的上千人进行实时计数。这些技术能广泛应用于安防、公共交通、商业等场景。

预测管理

2014年12月31日晚间发生在上海外滩的踩踏事件,造成36人死亡,49人受伤。其原因就是跨年夜活动引发了相当多的游客光临,而城市管理者不清楚人流密度,从而没有及时疏散,该类问题随着AI的到来将逐步得到解决。AI结合大数据技术,已经能够在城市的人流预测、天气预测、灾害预测等方面发挥作用。微软亚洲研究院借助CNN、RNN技术与城市的数据,已经能够成功预测未来十几个小时的城市人流情况、雾霾发生概率等,这将在一定程度上改写城市的管理方式。

微软亚洲研究院以贵阳出租车的实时数据为样本,基于人工智能、云计算、大数据做了实时的人流量预测系统。系统把城市划成1000米×1000米的格子,预测每个格子里面未来会有多少出租车进出。每个格子颜色不同,代表了不同的信息,每点一个格子就会跳出一个图形和表格,能清楚知道整个城市某个区域人群流动接下来十几个小时会呈现什么状态。比如已经发生过的出租车进出情况,未来的人流情况,昨天同一时间的情况等。同样地,任何人流预测数据来源,比如手机信号、地铁刷卡记录等,都可以通过该系统模型进行运算从而得到某地将有多少人进出的结果,并预测未来十几个小时的城市人流情况。微软亚洲研究院的郑宇博士领导了这个研究,该研究成果《城市人群流动的深度时空预测网络》(DeepSpatio-TemporalResidualNetworksforCitywideCrowdFlowsPrediction)已经发表在第31届人工智能大会AAAI-17上。(见图5.24)

图5.24贵阳实时人流量预测系统

图片来源:微软亚洲研究院。

未来这个方向的研究还会有更深远的发展,该研究已经可以用来预测城市雾霾等空气质量情况。未来应该还可以预测几天内有无大暴雨,基于城市基础设施,预测哪些地方会被淹,哪些地方排水不够等。

重复体力劳动者将被机器人全面替代

机器人中最大的一支就是自动驾驶汽车,因为这个产业太大,通常大家把它专门拿出来研究。不算自动驾驶汽车和无人机的机器人市场到底有多大?IDC研究报告预计,到2019年全球机器人市场规模将达到1350亿美元,2015年全球机器人支出为710亿美元,并将以17%的年复合增长率增长。

这个市场主要包括三个类型:装配线机器人、(与人)合作型机器人、自主型机器人。装配线机器人的特点是动作程式化,并且不需要判断。根据工业装配线的事先设计要求给机器人输入指令后,机器人一直做重复性的动作。合作型机器人主要是和人一起完成生产线上的任务,由人来做复杂和需要判断的事情,由机器做辛苦但重复性强的工作。合作型机器人和装配线机器人类似,但是因为和人近距离在一起操作,所以需要有紧急保护装置,以防伤人。人工智能影响最大的是自主型机器人,这类机器人目前主要是做服务型工作,例如商场导购、酒店门厅接待、医院送器械和药、小区巡逻、家庭卫生、食品制作等。目前最成熟的是扫地机器人,每年能卖出上千万台,其他的都还不成熟。原因之一在于每一个服务项目的感知、判断和行动决策都很复杂,与自动驾驶类似,如果成本太高,就没有经济价值。服务型机器人的第二个问题是如何和现有流程配合。例如小区巡逻,如果机器人无法一次取代保安的所有复杂工作,那么机器人如何和小区保安分工协调?故障和维修如何解决?自主型机器人未来的主要市场仍然是工业生产线。目前高产值重型装配,例如汽车,已经越来越多地使用机器人,但许多低产值的轻型装配还需要使用大量人工。随着机器人成本的降低,这类生产线也将逐渐配备机器人。另一类是非装配型的生产线,例如食品加工、禽畜屠宰、货物分拣等。这些工作在理论上都能逐渐被机器人取代,前提是一台机器人的成本低于一个生产工人的1~2年的工资福利。在技术上要求这类机器人有一定的视觉感知,较快的处理速度。最重要的是机器人大脑软件必须适应性极强,能够在现场设置匹配各种不同的生产过程或者能够学习新技能,而不必为每个生产流程专门制作软件。这要求开发出一款通用机器人大脑软件,包括通用的感知、判断和控制,并且能够方便地设置成不同的应用场景。可以预见,能开发出这种软件的公司将有巨大的商业前景。与此同时,一个能够装在大批中低端自主型机器人上的将感知、控制、通信都集成到一起的低成本芯片也会很有商业前景。

打通巴别塔——黑天鹅杀手级应用

当所有人对AI的注意力都集中在诸如自动驾驶、人脸识别等“低垂果实”上时,一场最深刻的革命很可能发生在自然语言翻译和理解领域。这场革命可能改变自几十万年前智人发出第一声有意义的“哼哼”以来的人类文明史。人类有可能第一次无障碍地协同盖起一座“巴别塔”。一旦语言的隔离被打破,文化的隔阂也将在几代人之间被冲破。

图5.25巴别塔

图片来源:http:nolabelsnolies.different-tower-of-babel。

笔者2015年在巴西自驾旅行时须臾不可离的就是手机里的谷歌翻译应用。巴西能讲英语的人不多,不论是租车还是住店,笔者都要掏出手机给谷歌翻译说一通英语让手机翻译成葡萄牙语,然后拿着手机给对方播放,再让对方对着手机说一通葡萄牙语,翻译后对着自己播放。由于翻译得不准确,加上现场的噪声,来回让双方对着手机麦克风等,使用体验非常差,但比没有要强很多。这里面有很多技术问题需要解决,能够使翻译体验流畅的最低要求有以下几点。

(1)不需要拿着手机来回对着双方。理想化的器件是一个挂在脖子上的小项链,或者是一个远小于手机的可以放在对话双方之间的小盒子,里面有像亚马逊智能音箱Echo那样的扬声器和多声道麦克风可以聚焦讲话者的声音,滤除现场噪音。

(2)不需要每说一句话都要按一次“翻译”或“播放”。翻译机和活人翻译一样,只要检测到说话者的停顿或一段完整意思的结束,马上就开始播放翻译。

(3)必须能够离线。当手机没有联网信号时,手机里的存储内容和计算能力足够一些常用的翻译。

小农女种田忙  神王殿  盗墓笔记之尘封的记忆  天才萌宝:爹地超宠妻  重生九零之神医商女  蜜宠霸爱:厉少,你失宠了  人在航海,开局艾尔沃特海战  婚心动魄:我的神秘大boss  市场·情场·官场  穿越梦境  她切回满级大号了  夫人,总裁他罪不至死  沈再云夏顾雪重生鉴宝  面对秋阳  重生:影后夫妇疯狂撒狗粮  世家三代录  凰谋天下  重生年代:胖厨娘的红火小日子  前妻别跑:偏执慕总放肆宠  守城使  

热门小说推荐
黑道邪途

黑道邪途

腥风起,血雨落,遍染红尘刀锋泪,男儿血,生死相随恩怨,江湖叫我怎能退出杀该杀的人,泡想泡的妞不能名垂千古,也要遗臭万年黑道之中,恩怨情仇征途之上,十步九杀刀锋所向,谁与争锋嗜血魔医之后,黑道邪途血腥来袭!VIP群196538304需截图求订阅,求鲜花,求打赏...

大时代1950

大时代1950

作者嵩山坳的经典小说大时代1950最新章节全文阅读服务本站更新及时无弹窗广告小说重生在日本,还是1950年?上帝啊,你是哪根线搭错了?神啊,救救我吧!...

帝女令:本宫是厨神

帝女令:本宫是厨神

人发霉的时候,穿成公主绝对是冷门落魄到哭人发霉的时候,给个随身空间里面只有堆成山的方便面人发霉的时候,遇到的男人显然毒舌冷艳到爆炸。厨艺绝佳扮猪吃虎女×独宠一人心狠手辣男日常一卿因宫里的人都说我风情万种,美若天仙~秦渊从何得出,本世子没发现。厌世脸卿因你看你看反复转身,秀身材秦渊...

荒野直播我站在食物链顶端

荒野直播我站在食物链顶端

荒岛直播系统穿越到平行时空,林染参加了一档荒野求生节目,成为一名求生员。潘多拉群岛凶险重重,食人蚁吸血蝙蝠剑齿虎泰坦蟒,还有喜欢给河神献祭的森林土著七大洲40个求生小组,面对全球进行直播,每一步都凶险万分,面临生死考验。叮!检测到宿主逼格满满,奖励一把黑金古刀!叮!恭喜宿主逼格提升,奖励一套潘多拉百科全解!叮!恭喜宿主斩杀铠王鳄x4,天赋麒麟臂升级!林染觉醒了一个系统,只要观众认为他在装逼,他就能变强!...

凡神之间

凡神之间

一个凄苦可怜少年,因为无奈暴怒杀人,被迫只身流浪世间。奈何却被邪魔威胁,他以这样处境如何摆脱,祛掉身体中的剧毒,完成自己长生不死之想。神魔仙凡,道鬼妖佛,只存心中一念之间。...

土豪人生

土豪人生

读大学的张策有个老婆,但是因为穷,被老婆嫌弃,直到有一天老妈的电话打过来,儿子,我给你打了五百万...

每日热搜小说推荐