智能机器如何思考 深度神经网络的秘密

good

肖恩是我们小组里最顶尖的工程师之一,当时他正在研究机器学习前沿领域的一系列具有挑战性的问题。 P34

微软、亚马逊、谷歌、苹果、百度等许多公司都提供应用程序接口、工具包和云计算基础设施,将机器学习的开发工作交给全世界数以千万计的开发人员。 P35

我找到的最好的解释是卡内基–梅隆大学和斯坦福大学的一些研究人员撰写的学术论文。 P37

最终,我意识到应该把自己在研究中学到的东西与他人分享,这样他们就无须为了理解相同的东西而跨越同样的障碍。 P38

通过移动嘴唇,调整吹气的力度,控制手指精确地在长笛孔上移动,塑像可以吹出一系列音符,组成一首完整的乐曲,“其吹奏过程就像人类乐手的演奏一样完美”[1]。 P39

长笛演奏者是如何工作的?它是黑魔法吗?在那10年以前,一位教会官员曾下令捣毁了沃康松的一个工作坊,因为他认为这是亵渎神灵,所以沃康松肯定不会再做任何看起来太像魔法的事情。 P40

虽然有些复杂,但它不过是一个巨大的音乐盒。 P41

我们用提供奖励的方法训练计算机程序玩雅达利游戏,最终使程序的游戏水平远远超过人类玩家,就像训练一只狗坐下或打滚儿一样。 P43

幸运的是,与沃康松向法国科学院提交论文的方式如出一辙,这些最新进展的创造者详细记录了构建智能计算机程序的方法。 P44

唯一的区别是,技术专家已经把工具升级为计算机和运行在计算机上的软件,它们是21世纪的杠杆、齿轮和发动机。 P45

自动机的创造者通常是钟表匠,其技术则源自钟表,因为钟表每到一个小时就尽职尽责地执行有趣的机械序列。 P46

电子从任意一个极端奔向目的地的中途,在移动到电路另一部分的过程中,保持动量不变。 P47

但我们将会看到组成自动机的中间构件,它们本质上是更高一级的“统计学的齿轮和风箱”。 P48

即使你熟悉人工智能或机器人技术,这本书的某些部分对你而言也仍然是新知识。 P49

我们将看到是什么让自动驾驶汽车能够在道路上行驶,并在拥挤的城市环境中穿行。 P50

[2]1英里≈1.6093千米。 P51

正确的做法是选择你喜欢的东西,用你所拥有的一切去追求它,这就是生活的意义所在。 P52

今天它发现自己被困在了洞穴附近,无论往哪个方向都寸步难行。 P53

[5]透过薄雾,车头灯光依稀可见,只见悍马突然偏离了路线,撞上了铁丝网围栏。 P54

由于看不见路,汽车成了盲眼行驶。 P55

当时是2004年,距离我们研究出如何训练神经网络可靠地“看到”物体还有将近10年的时间。 P57

对于开发自动驾驶汽车,我们也可以如法炮制。 P58

接下来的一系列杠杆让发动机的阀门关闭。 P59

一种常用的调节发动机功率的方法叫作比例控制,之所以叫比例控制,是因为我们对功率的调节等于目标速度和当前速度的差值乘以一个固定的系数。 P60

有时控制器会跟踪误差的变化速度,并主动调整发送给发动机的信号,预测未来的变化(这被称为微分控制)。 P61

这个规划组件是自动驾驶汽车最重要的部分,它决定了系统其余部分的优先级。 P62

接下来,在比赛开始前仅两个小时的时候,他们获得了路线的GPS坐标,14个人连忙在几十台计算机的帮助下手工标注沿途的地形。 P63

悍马从当前位置到达地图上的下一个目标点也需要做同样的事情,只是它需要避开的是沙漠中的危险地区,而不是熔岩。 P64

这很重要,因为这样我们就可以用计算机擅长的事情来描述这个问题了。 P65

随着边界不断扩张,程序把任意一点围进边界内所要付出的成本会慢慢增加。 P66

在任意时刻,GPS传感器都可以连接到其中几颗卫星,但并不总是相同的几颗。 P68

网格中的每个单元格代表1平方米,4种颜色代表4种地形。 P69

悍马利用1960年发现的一种数学模型——卡尔曼滤波器,将这些加速度计和GPS传感器的测量结果结合起来。 P70

(后文提到这项技术时,我会使用术语“激光扫描仪”。 P71

它向前滑行,底盘陷入沙土中,最终撞上了岩石。 P72

[3]悍马行驶了7.4英里,最终在路边抛了锚。 P73

DARPA曾向参赛者宣布,比赛可以用普通四驱皮卡完成,[6]但红色车队选择了一辆悍马,因为他们不希望硬件成为瓶颈。 P74

《大众科学》(Popular Science)称之为“DARPA的沙漠溃败”。 P76

“对我们而言,是否有车辆跑完整个赛程并不重要,”时任DARPA主任的安东尼·特瑟(Anthony Tether)解释道,“我们希望激起人们对这个领域的科学兴趣和工程兴趣。 P77

[1]红色车队的策略再次聚焦于地图和导航。 P80

比赛的获胜者是斯坦利,它是斯坦福车队制造的赛车,这一年首次参赛。 P81

[17]斯坦福车队知道,即使大型悍马也可能被岩石困住,而且DARPA提醒他们,小型皮卡可以穿越这条路线,这就形成了一种不同的设计理念:将自主导航视为软件问题。 P82

在自动驾驶汽车成为主流媒体热门词汇之前的近10年里,他们就欣然接受了机器学习在自动驾驶汽车领域的角色,塞巴斯蒂安的车队在赛后这样描述其赛车。 P85

硬件层不会做任何智能的事情,它仅仅是从传感器(摄像机、激光扫描仪和GPS系统等)获取数据,并使用来自规划层的命令(如发动机转速和车轮角度)控制汽车的硬件。 P87

其中一些模型简单地总结了斯坦利需要遵循的高级路线,这是斯坦利在比赛开始时规划的路线。 P88

虽然运行在中间层的模块设计巧妙并使用复杂的机器学习算法,但它们并不是真正的智能。 P89

斯坦利使用激光扫描仪的数据估计网格中哪些单元格被物体占据(图3.2中,被占据的单元格用深灰色表示)。 P90

如果斯坦利的激光扫描仪倾斜了几分之一度,斯坦利就会认为前面有障碍物,这就会导致最右边那一层的规划算法命令斯坦利转向。 P91

[2]《连线》杂志的记者乔舒亚·戴维斯(Joshua Davis)注意到,塞巴斯蒂安非常清楚这些局限。 P92

这个数学函数可能有许多可调整的“旋钮”,这便是我们引入机器学习的地方,因为这些“旋钮”可以通过数据进行调整,所以预测可以变得非常精确。 P93

使用上面的分类器,只要越野路也算是可以行驶的,斯坦利就会心甘情愿地离开正常道路。 P94

图3.3然后,这个道路边缘探测模块会试探性地检测被激光扫描到的直线上是否有障碍物。 P95

(机器人比赛时,其路线会禁止外部交通,所以没有迎面而来的车辆。 P96

对斯坦利而言,这还不足以让它安全地以每小时25英里以上的速度行驶,因为沙漠道路常有急转弯,就像第一次比赛中让悍马抛锚的那个急转弯一样。 P97

为了理解斯坦利是如何做到这一点的,请想象你是一个刚洗了一大堆袜子的吸血鬼。 P98

斯坦利能确定它选择了正确的像素来建立对道路颜色的估算吗?难道斯坦利不可能无意中选择了路边的像素来建立聚类,而没有选择道路上的像素?在确定哪些像素是道路时,算法当然可能会出错,就像任何算法都可能出错一样,但这个问题在一定程度上被缓解了。 P99

右边的规划层不需要看传感器的原始数据,它只是利用感知层的信息来做决定。 P100

只要斯坦利能够继续规划并执行这些路径,汽车就会成功地沿着路线继续前进,而不会撞上任何物体。 P101

然后,路径规划算法会考虑其中的许多路径,并选择它找到的最佳路径。 P102

是否应该有一个集中的“主进程”来指挥一切?它应该被组织成某种层次结构吗?车队选择了完全相反的做法:他们将这些不同的软件模块组合在一起,让它们并行运行。 P103

过多的对话可能导致参与者被锁定在对话中,这样的问题被称为死锁(deadlock)。 P104

它们无法面对迎面而来的车流,无法寻找停车位、换车道以及处理交通堵塞的问题。 P105

他也是卡内基–梅隆大学车队的全权负责人,车队现在改名为格子车队(Tartan Racing)。 P107

这一轮预选赛需要自动驾驶汽车绕圈行驶,在迎面而来的车流前左转弯,如图4.1所示。 P108

他们将这个中间层称为“感知和环境建模层”(如图4.2所示)。 P110

其最高层次的规划和推理层由三个模块组成:审议器(路线规划器模块)、定序器(大富翁棋盘模块)和控制器(运动规划器模块)。 P111

Boss会为这种关联计算一个质量测评。 P112

粒子过滤器实现了类似的目标,但所做的假设略有不同。 P113

DARPA在比赛前几天向参赛选手提供了场地路线图,并在比赛开始前仅仅5分钟的时候向参赛队伍提供了任务说明。 P114

另外两辆自动驾驶汽车之间发生了低速碰撞。 P115

)这个问题的真正答案在于这些汽车软件架构的进步,但这也是Boss在比赛中产生“幻觉”的原因。 P116

它是用一种叫“有限状态机”的东西来实现这些的。 P117

这些有限状态机中的每一个都概述了模块为实现其目标应该遵循的一组简单规则。 P118

它更像是《大富翁》游戏的规则手册。 P119

有限状态机等待优先权,然后Boss尝试进入十字路口。 P120

路线规划器以分钟和英里为单位规划运动,而运动规划器以秒和英尺为单位规划运动:运动规划器最大不过在约1/3英里的范围内规划运动。 P121

在停车场,运动规划器寻找从当前位置到目标位置的最佳路径的方法,是将非常小的路径片段连接成一条路线,每个路径片段确保Boss的速度和位置遵循物理定律。 P122

[7]Joseph Hooper,“DARPA’s Debacle in the Desert,”Popular Science,June3,2004,accessed June16,2017,http://www.popsci.com/scitech/article/2004-06/darpa-grand-challenge-2004darpas-debacle-desert.[8]它使用一种叫“格点搜索”的方法来实现这一点。 P124

在预选赛中,Boss已经证明了它是准备最充分的选手之一。 P125

Boss遇到的问题与悍马在第一次无人车挑战赛遇到的问题类似,当时悍马被困在了一块岩石后面。 P126

[4]当Boss在城市挑战赛中面对想象中被挡住的车道时,它就会开始五级错误恢复。 P127

正如我们所见,感知和环境建模层使图4.2右侧的规划和推理层能够专注于更高级别的任务。 P129

但是我们的车辆能够处理这种情况,减速并安全行驶。 P130

路线规划器在城市环境中寻找路径,或许这就是它最“智能”的行为。 P131

这样的机器人管家是不可接受的,更不用说这样的自动驾驶汽车了。 P132

[4]三层架构现在看起来似乎很明显,但起初它并不那么显而易见。 P133

在规划的最高层,一些模块可能会搜索最优的交通流量,在控制器中告诉每辆自动驾驶汽车它不能走的路线,以减少高峰时段的拥堵。 P134

虽然智能的机器学习算法可以存在于自动驾驶汽车的规划层顶层,但是大部分高级推理层都源于已经在人工智能领域存在了数十年的思想,例如搜索算法和有限状态机,它们通常不被认为是机器学习(记住,机器学习主要是使用数据教导机器,而人工智能不一定需要数据)。 P136

在接下来的几年里,这些算法迅速发展,最终,英伟达等公司开发出了用于自动驾驶汽车视觉系统的定制硬件。 P137

在众多事项中,开发团队必须为自动驾驶汽车编写大量的软件。 P138

[1]在城市挑战赛举办10年之后,处理意外情况的能力仍然是这些汽车面临的最大问题之一。 P140

[电子书分 享微 信getvip365] 当网飞发布公告时,他们的流媒体视频业务还不存在,公司的业务是提供DVD(数字通用光盘)租赁服务。 P143

[5]在第一年内,有20000支队伍报名参赛,其中有约2000支队伍提交了参赛作品。 P144

[1]另一个团队“ML@UToronto”由来自多伦多大学的一群著名的神经网络研究人员组成。 P146

这个法裔加拿大二人组一直用业余时间做这个项目。 P147

实际上,推荐引擎是一种算法,旨在捕捉人们的偏好,正是偏好让我们成为人类。 P149

正如我们所见,塞巴斯蒂安·特龙和他的团队驾驶着斯坦利四处转悠,同时它的传感器从周围环境收集数据。 P150

此时,你可以发挥创造力和判断力,但有些特点可能特别有助于做这种区分。 P151

“假日焗雪糕布丁”的详细信息来自贝蒂妙厨网站为什么要用加权平均值来组合这些特征?这可能看起来很武断,你或许已经正确地猜到,机器学习研究人员已经找到了上百万种将这些特征组合成分数的方法。 P152

如果你使用机器学习来构建分类器,就需要使用数据计算每个特征的权重,并且要选择阈值。 P153

网飞与众不同,其70%的租赁都来自不相关的或古老的“压箱底”电影。 P155

正如网飞首席执行官里德·黑斯廷斯(Reed Hastings)所指出的,对他们而言,支付巨额奖金并不算真正的风险,获得更好的电影推荐所带来的经济利益可能远远超过奖金的成本。 P156

它是一个易于理解的度量标准,具有很好的统计特性。 P157

这个矩阵非常庞大:它提供了17770部电影和480189个不同用户的评分。 P158

“贝尔科”队的基准模型主要有两部分。 P160

“贝尔科”队的基准模型的另一部分,我们可以称之为“吝啬鬼效应”,它旨在捕捉网飞用户在给电影评分时是乐观心态还是悲观心态。 P161

事实上,大多数人都无法对这种“一刀切”式系统的服务感到满意。 P162

短时间内,空军要求所有的驾驶舱都要适合不同体型的飞行员,只要他们每个尺寸的测量值都在平均水平的5%~95%范围内。 P163

承认这个矩阵中存在冗余信息,这并不是一个疯狂的想法,毕竟,我们能够提供个性化推荐的前提就是假定人们的评分中存在可预测的模式。 P165

让我们试着预测一下导演史蒂芬·斯皮尔伯格是否喜欢《侏罗纪公园》(JurassicPark)。 P166

史蒂芬·斯皮尔伯格倾向于喜欢科幻片、喜剧片和冒险片等,而不喜欢恐怖片等,正如他对各类电影的喜爱程度所表明的那样。 P167

这就是所谓的矩阵分解,因为根据数学原理,它相当于将图5.2中原始的庞大评分矩阵近似为两个或更多小矩阵(即它的因子)的乘积,这些小矩阵恰好编码了我们用来描述电影和用户的数字。 P168

固定的类型对描述电影而言太粗糙了。 P169

如果我们在这两个步骤之间反复交替,也就是说,在保持用户对固定类型喜爱程度的同时学习电影类型,然后在保持类型固定的同时预判用户对这些类型的喜爱程度,那么我们的推荐会越来越好,直到类型最终停止变化。 P170

在新的空间中,每一部电影都可以用6~100个数字来描述,这些数字正是我们用上面的交替方法找到的数字。 P171

这并不足以让他们赢得大奖,但足以保证一些团队有资格获得5万美元的进步奖。 P173

“贝尔科”队只有一天的时间来重新夺回进步奖。 P174

其中一些讨论是在专门讨论数据挖掘的学术会议和研讨会上进行的;另一个讨论场所是网飞奖论坛,这是网飞为参赛者建立的在线社区。 P176

在比赛中,他以“车库里的家伙”的名字出现,尽管严格来讲他只是在卧室外工作。 P177

就在第一年结束的前一天,排名第二和第三的两支队伍合并了。 P178

他们的进展几近停滞。 P179

[6]这并不意味着《大人物拿破仑》没有冗余,但是人们尝试了很多方法都找不到这种冗余隐藏在哪里。 P180

解决“大人物拿破仑问题”的另一个诀窍是,你不仅要看用户对不同电影的评分,还要看他们给哪些电影评过分。 P181

如果你让观众给一部电影评分,然后一个月后再评价一次,观众的评分会平均变化0.4星。 P183

有时候,用户会一次给多部电影打分,如果用户打分时的心情特别好或特别坏,那些“爆发”就可能会发生。 P184

这并不是说他们的平均评分会变得更高或更低(尽管这种情况也发生过)。 P185

随着比赛的进行,各支队伍一点一点地挖掘出这些宝石。 P186

[1]如果团队预感用户可能会在他们的评分上有所偏颇(的确如此),那么他们也只需要在模型中为每个用户添加一个新的参数来“吸收”这些信息。 P187

例如,“贝尔科”队可以在其模型中为其数据集中的每个“用户—电影”匹配添加一个参数,让模型可以精确地解释电影数据集中的评分。 P188

他们还了解了“贝尔科”队把各种不同版本的模型混合在一起的方法。 P189

“贝尔科”队需要把百余个不同的模型结合起来吗?或许不需要。 P190

这种模型平均的思想也得到了丰富的理论结果的支持,而且这种直觉很容易理解。 P191

[5]为了将“提升”算法应用到类似网飞奖这样的问题上,我们首先要训练一个非常简单的模型来预测电影的评分。 P192

[1]随着第二年的比赛临近结束,另一支名叫“大混沌”的团队开始逼近“贝尔科”队。 P194

这已经微微越过了他们获得第二个进步奖的门槛,虽然距离10%的目标还相距甚远,但这足以让新团队赢得5万美元的奖金。 P195

尽管最初对这个领域并不熟悉,但他们发现网飞社区非常适合学习,他们仔细研究了其他参赛者的方法。 P197

[2]换言之,“实用主义理论”队之所以开发了一种实施起来不切实际的解决方案,正是因为他们务实。 P198

大约在这个时候,“当引力和恐龙联合时”队成立了一个名为“大奖队”的新团队。 P199

包括“大奖队”在内的其他主要团队促成了一项交易,成立了一个名为“集成”队的大型联盟,由30多支队伍组成。 P200

尽管网飞试图匿名化他们的数据集,但一组研究人员指出,从理论上讲,这些数据集暴露了用户的隐私,而且这些说法被媒体广泛曲解。 P203

[2]网飞奖对研究型社区而言也是一次成功。 P204

你无法预先对一台机器进行编程,所以它必须在自己所处的环境中学习。 P205

当时,DeepMind只有大约50名员工。 P206

随着一局游戏接近尾声,只剩下了一个外星人。 P209

自动驾驶汽车其实尚未在反复试错中学会如何自动行驶。 P210

因此,要训练它们,我们只需要对它们进行编程,让它们寻求这些激励。 P211

我们感兴趣的是设计一个智能体,当它在高尔夫球场的不同位置时,它能够学习应该朝哪个方向挥杆,应该瞄准东、南、西、北哪个方向,才能让球更接近球洞。 P213

如果你击球成功,球就会沿着你瞄准的方向移动一个小方格,如图7.3(b)所示,你希望用尽可能少的击球次数把球打进球洞。 P214

玩游戏的时候,你知道这些地雷的位置,而且每次玩的时候它们都是固定不动的,但是你必须不惜一切代价避免踩到它们。 P216

如果智能体踩到地雷,我们会用电击惩罚它,相当于减去半块巧克力(价值为–1/2)。 P217

如果立方体已经被填入了正确的数值,那么这个策略似乎是可行的,而且非常简单,我们甚至可以用物理设备对它进行编码,从而创建一台机械自动机。 P219

形式化的方法是将其定义为智能体可以期望得到的未来所有巧克力的总数,总数随着智能体得到这些巧克力所需要的时间而调整。 P220

这就把智能体面对的平坦布局变成了丘陵布局,而奖励就在一座丘陵的顶上。 P221

[2]1磅≈0.4536千克。 P222

雅达利游戏智能体不是用它的眼睛、耳朵和鼻子来感知周围的环境,而是必须通过观察屏幕上的像素并品尝我们给它的虚拟美食来感知它的环境。 P223

如果我们有关于这款游戏的完美信息,例如我们在球场的每个区域朝某个方向击球的可能性有多大,那么就可以使用强化学习领域的一些数学公式来计算整个多维数据集的数值,而无须让智能体玩游戏。 P225

我们把离线学习算法应用到高尔夫球游戏中。 P226

我们需要一些方法来估计这次动作后智能体看到的奖励流。 P227

接下来,如右侧框图所示,我们利用智能体经历过的“状态—动作对”来更新智能体在给定状态下采取不同行动得到的未来奖励的估值。 P228

这并不意味着它过去的状态和动作无关紧要,它们对于使智能体来到当前状态非常重要。 P229

当需要执行一个动作时,智能体会参考它的多维数据集。 P231

[2]我们用来估计高尔夫球游戏多维数据集中数值的方法——通过随机选择动作来学习,行不通了,因为我们需要玩太多局游戏才能用合理的数值填好多维数据集。 P232

[1]与会者了解到,这家神秘公司的创始人是杰米斯·哈萨比斯,一位沉静寡言、才华横溢、雄心勃勃的神经科学家。 P233

如果没有太多的状态和动作,这种方法非常有效。 P235

让q函数易于处理的关键是认识到它无须完美。 P236

)当研究人员解释神经网络的结构时,他们通常会画一幅类似于图8.1的图。 P238

换言之,整个神经网络就是一堆连接在一起的小分类器。 P240

当输出神经元被激活时,它们的值有望被用于某些用途。 P241

我们可以精心地手工设计一些游戏特征,并将它们与加权平均分类器结合起来。 P242

这就给我们带来了神经网络的另一个主要优点:它们的权重很容易通过数据被学习。 P243

这就是我们试图把所有这些信息都放进一个隐藏层中所付出的代价,但这并不意味着我们无法设计一个更简单的网络,用其他方式玩雅达利游戏,例如,使用更多的层,每层的神经元更少。 P245

在这个网络中,我们把输入神经元的值设置为高尔夫球当前的位置坐标。 P246

因为我们从坐标开始,所以网络不需要太庞大;它只需要储存表示智能体移动方向的8个不同的映射,每个映射对应一个输出方向。 P248

卷积层生成与输入图像对齐的图像,并描述这个图像的哪一部分与过滤器正在查找的图像匹配。 P249

卷积层输出的每个像素都是一个神经元,其权重对应于分类器的权重。 P251

因为在把球的位置转换成坐标后,我们没有压缩神经元的值,所以从数学上讲,把卷积层的输出完全连接到输出前的最后一层隐藏层,并设置权重来解释这一点是可能的。 P252

如果左边层中在坐标(4,3)处的神经元亮起,值为1,并且所有其他神经元都是暗的,那么这一层的输出值将反映这一点:输出结果为x=4和y=3由此,我们构建了一个本质上与玩雅达利游戏的神经网络类似的网络。 P254

第一层的输出随后被放置到32个独立的图像中,只要原始图像与相应的过滤器匹配,那个地方的图像就会发光。 P255

第二层是卷积层,使用32个过滤器在第一层中搜索32种不同的像素模式。 P256

较新版本的网络有三个卷积层,之后是两个相同的全连接层[1]。 P257

由于阿尔伯塔大学的研究人员开发了“街机学习环境”,DeepMind才可以专注于开发一种能玩多款游戏的智能体,而这正是“街机学习环境”创建者的愿望。 P259

因为这个网络可以学习运动,而且能以机器的精度做出反应,所以它在游戏中的得分比专业人类玩家高出20倍。 P260

雅达利游戏智能体最成功的部分之一是,它能通过卷积神经网络感知世界。 P261

你只需要把电子邮件抄送给埃米,她就会开始其神奇的表演。 P262

在上一章中,我们学习了将神经网络视作一种映射,它接受一些输入(图像中的像素)并产生一些输出(执行操纵杆动作的数值)。 P263

让我们暂时把话题转向一个著名的自动机,来获得一些更具体的经验教训,说明为什么这是真的。 P264

只见它坐在一张书桌旁,被旁边两个烛台的烟包围着。 P265

这一切都是一位机械天才设计的,他甚至还有一些模糊的想法,想要制造蒸汽机和复制人类语言的装置。 P266

神秘的棺材似的盒子和齿轮发条除了分散观众的注意力之外毫无用处。 P267

更糟糕的是,这种粗心大意的想法可能会让我们轻信自己每天仍在看到的骗局,像“土耳其人”那样的骗局。 P268

基于上述原因,我们将在本章的余下部分着重深入探讨人工神经网络,尤其是深度神经网络工作原理中的一些细节。 P269

首先,我们选择我们想让网络理解的图片。 P270

如果这个神经元明亮发光,我们就说网络认为图片中有狗,而如果神经元是暗的,那么网络则认为图片中没有狗。 P271

计算机为我们完成了所有艰苦的工作,我们只需要为网络提供尽可能多的训练样例。 P272

过度拟合在实践中又是什么样呢?在图9.1(a)中,我展示了一小部分数据样本。 P273

如果我们不遵循奥卡姆剃刀原则,那就是我们的疏忽大意。 P274

正如你所看到的,当有很多数据的时候,我们发现的模型看起来更像一条直线,这证实了我们的预感,曲线模型确实过度拟合了数据。 P276

我们首先了解一下李飞飞。 P277

例如,如果我在谷歌图片搜索中搜索“皮艇”(kayak),其中一个结果是旅游网站Kayak.com的商标,而我想要的是用于沿河旅行的小船的图片。 P278

虽然其他数据集可能有猫或狗的类别,但ImageNet对某些类别还有细粒度标签。 P279

[5]Russakovsky et al.,“ImageNet Large Scale Visual Recognition Challenge”;Alex Krizhevsky,Ilya Sutskever,and Geoffrey E.Hinton,“ImageNet Classification with Deep Convolutional Neural Networks,”Proceedings of the25th International Conference on Neural Information Processing Systems,Lake Tahoe,NV,December3–6,2012,1097–1105.[6]Russakovsky et al.,“ImageNet Large Scale Visual Recognition Challenge.”[7]因为一张图片可能包含多个物体,例如狗、天空、陆地和飞盘,所以从技术上讲,需要算法识别出图片中“前5名”的物体之一。 P280

研究人员设计的网络结构使旋钮的数量和位置有效地利用了他们的数据。 P282

网络的大部分是在两个不同的处理器上进行训练的,因此有些层不会处理另一个处理器处理的任何输入。 P283

如果贝壳过滤器没有在图片的任何小块中找到与其模式匹配的贝壳,那么这个过滤器的映射在所有地方都是暗的;相反,它在发现贝壳的地方就会有一个亮点。 P284

这些像素块看起来可能没有什么意义,但是当它们与网络中更深层次的其他“边缘探测器”结合起来时,就变得有意义了。 P285

经过训练的AlexNet遇到包含这些类别的图片时,相应的输出神经元就会亮起来。 P287

(a)大白鲨;(b)沙漏;(c)母鸡;(d)挂钟ImageNet挑战赛的图片类型偏向动物,在总共1000个类别中,仅家养犬就有120个不同的类别。 P288

这被称为最大池(max-pooling),它缓解了网络下游的计算瓶颈,增强了对噪声的鲁棒性,可以说它在允许过滤器更“柔和”地匹配图像中的位置方面发挥了重要作用。 P289

如果隐藏层变得过于庞大,也就是太宽,那么我们就需要学习太多的权重,如果没有大量的数据,很可能会过度拟合。 P290

通过使用少量的构件,眼睛、鼻子、头发、嘴巴以及Mii角色的其他所有共享的特征,你可以创建各种各样的Mii角色,这些角色可以忠实地代表你想象的任何人。 P291

尽管AlexNet在2012年遥遥领先,但2013年,其他一些团队击败了AlexNet,当时所有顶级团队都使用了深度学习。 P292

然而重要的是,他们这样做的方式是每层使用较少的参数(例如,两个3×3过滤器和一个1×1过滤器,以及将它们组合起来的3个权重,总共需要22个参数,而一个笨拙的5×5过滤器有25个参数)。 P293

[1]最终,他们得到的训练数据量是最初的2000倍,即大约20亿张用来训练网络的图片。 P295

计算机游戏必须执行完全相同类型的操作才能呈现高质量的图形,在过去几十年中,显卡已经得到了优化,以支持这些操作。 P296

但相似之处仅此而已,当你更仔细地观察时,你可以在各个尺度上发现奇怪的细节和物体。 P298

谷歌的工程师开始生成更多像这样的图片,并相互分享。 P299

但是深度网络之所以难以训练,是因为研究人员还没有发现让网络中的神经元发光的最佳方法。 P301

使用S型曲线的问题是,它往往会“稀释”通过网络传递的消息。 P302

[1]这通常被称为S型函数(sigmoid function),公式为exp(x)/(1+exp(x))。 P303

[1]如果神经元的输入总和小于0,则输出等于0,如果输入的总和大于0,则输出等于输入的总和。 P304

如果你在任意方向上稍微改变输入,原本“开启”或“关闭”的神经元集合通常不会改变。 P306

[6]还记得吗,现代神经网络可以轻易拥有数百万个神经元。 P307

[10]这些训练神经网络的技巧,包括使用ReLU激活函数、在训练期间随机抑制神经元,以及拥有大量数据、用深度代替宽度、使用卷积层。 P308

同样,我们也可以制造一种视错觉,在人类看来它像某个物体,而在神经网络看来它就像完全不同的物体。 P309

在每一层中,当神经元对图片中的不同模式做出反应时,有些神经元会保持黑暗,而有些则会亮起来。 P312

当写到如何做到这一点时,他们举了几个例子。 P313

网络的每一层都在不同的抽象层次上处理特征,因此我们生成的特征的复杂度取决于我们选择增强哪一层。 P314

然后,风格转换算法检测每个层中的过滤器如何在整张图片中相互关联。 P315

(b)带着对照片的重新诠释,基于“深梦”算法多次迭代后,网络所看到的图片。 P316

网络只是处理风格图像和内容图像,其神经元分别以可预测的方式对二者发光,然后算法调整内容图像以优化一个明确定义的数学函数,使网络中激活的神经元按照与风格图像一致的方式相互关联。 P317

[1]如果我们不小心,图片最终可能看起来不自然,因为像素可能会使用极端的颜色,而相邻像素可能会使用过渡不自然的不同颜色。 P318

但是,如果我们希望机器有其他方式与世界互动,比如生成英语句子,或者理解人类的语言,该怎么办?卷积神经网络在这方面还会有用吗?还有其他神经网络的“基本元素”会有帮助吗?更进一步讲,使用神经网络来完成理解语言这样的任务有意义吗?问题的答案都是肯定的。 P319

百度的网络转录语音的能力可以媲美人类,它之所以能做到这一点,与谷歌的网络在图片分类方面能媲美人类的原因一样:从大量数据开始。 P321

几个声音脉冲会在图像中显示为从左到右穿过白色背景的灰度斑点。 P322

这些单元共享相同的权重,就像卷积过滤器共享相同的权重一样。 P323

转变由输入x和前一个单元的状态决定。 P324

每个循环单元都会查看它的当前状态,对这个状态做(或不做)一些处理,有时还要根据它在环境中的感知改变状态。 P325

既然我们有了RNN,便可以在语音网络的不同位置使用它们。 P326

有时候,转录在语音上大体正确,但看上去更像是胡言乱语,例如下面这个转录:arther ntickets for the game.[3]这句话应该被转录成:“Are there any tickets for the game?”(翻译为:有这场比赛的票吗?)我们可以用英语单词序列的统计数据来修正这些转录。 P329

百度的研究人员也采用了同样的想法,根据单词在英文文本中出现的频率,记录哪些单词集合(最长可包括5个单词)听起来最自然。 P330

最近的一项突破是,网络可以创造出听起来很自然的短语字幕,以此描述图像内容。 P332

灰色的道路靠近闪闪发亮的公共汽车。 P333

在第一个变换中,它们使用卷积神经网络来处理图像。 P334

每个单元的输出是单词的概率分布;每个单元的输入是先前生成的单词。 P335

我们可以将搜索算法附加到网络顶部,以此改进网络生成字幕的方式,就像百度对其语音识别系统所做的那样,你可能对此不会感到惊讶。 P336

越是深入循环单元的链,信息就越容易被遗忘。 P338

与普通RNN一样,其状态可以根据在网络中观察到的情况随后续单元的变化而变化。 P339

同样,把这样的图像传递给生成字幕的网络,也很容易让网络出错。 P340

此时我们就可以用马和斑马的图片来训练其中一个网络,例如创建一个“生成对抗网络”,把马的照片转换成以假乱真的斑马图片;再如,我们还可以训练一个网络,根据梵高画作的风格生成逼真的场景。 P341

得克萨斯大学奥斯汀分校的研究生詹姆斯·法恩(James Fan)也在观众之列,他那时正在研究问答系统,这是计算机科学的一个冷门领域,致力于开发能够回答书面问题的计算机程序。 P344

[1]这场比赛是在IBM的一座研究大楼里举行的,“沃森”在隔壁数据中心的计算机机架上运行,被完全切断了互联网。 P346

当为期两天的挑战赛结束时,詹宁斯赢得了24000美元,鲁特赢得了21600美元,而“沃森”最终赢得了77147美元,它遥遥领先于两位人类对手。 P347

下面是《危险边缘》中关于2008年奥运会的一个例子:米洛拉德·查维奇(Milorad?avi?)差点儿破坏了这个人完美的2008年奥运会,仅以百分之一秒的劣势输给了他。 P349

它的程序员需要为“沃森”提供明确的操作序列,让它可以按照这些操作序列来回答每条线索。 P350

[1]这应该能让我们找到构建“沃森”的大部分方法,对吧?例如,请看下面这条《危险边缘》的线索,该线索出现在“作者是谁”的类别下。 P351

这些知识被称为关系。 P352

以我上文提到的“沃森”参赛时遇到的线索为例:被通缉的罪犯;最近一次在巴拉多塔出现;这是一只巨眼,伙计们,你们会找到它的。 P353

以上文中埃德加·爱伦·坡的线索为例,他在1849年“永不复还”了。 P354

除此之外,书中还描述了IBM的团队如何决定开发一个玩《危险边缘》的程序,这个故事我在下文会娓娓道来。 P356

有些人认为挑战《危险边缘》只是个宣传噱头,可能会浪费金钱和研究人员时间,更糟糕的是,这可能会危及公司的信誉。 P357

有太多开放的研究问题需要解决,项目似乎毫无希望。 P358

但是他们现有的系统并不适用于《危险边缘》,因此费鲁奇的团队花了大约一个月时间来改造它。 P360

而要与詹宁斯竞争,“沃森”需要答对92%以上的问题。 P361

自然语言处理让“沃森”能够用构成线索的单词做一些有意义的事情:“沃森”用它们找到线索中单词的词性,在线索中搜索人名和地名,并创建线索的句型图。 P364

在这条线索中,重点是“这对无敌搭档”。 P365

在我们那条关于2008年奥运会的线索中,答案类型是人。 P366

[5]这条线索可以在J-Archive网站上找到,请访问2017年6月16日的节目页面:http://www.j-archive.com/showgame.php?game_id=3652。 P367

“沃森”没有激光扫描仪或加速度计,也没有用来阅读屏幕的摄像机和用来听亚历克斯·特里贝克讲话的传声器。 P368

这个解析树属于传统的“句法分析”,很像你小学时学过的东西。 P369

你可能还记得,在你上学的时候,英语句子可以分解成主语短语和动词短语,而且每一种短语都可以进一步分解。 P370

)你可能认为这些例子是捏造出来的。 P371

)第二种解析没有任何语法或语义上的错误,但是如果你知道雨果奖,就会知道到雨果奖通常不会颁给聪明的老鼠。 P372

解析树的用处之一是找到线索的重点。 P373

[1]与此同时,他也开始担心,造一台计算机来玩《危险边缘》可能太容易了。 P376

相反,他必须想出自己的方法。 P377

“沃森”寻找答案的方法与人类截然不同。 P378

你可能会在很多地方找到这些人。 P380

有了这些关于线索的信息,“沃森”便可以开始寻找候选答案了。 P381

不过没关系。 P383

[1]因为在比赛中不允许访问互联网,所以“沃森”不能简单地使用谷歌等网络搜索引擎。 P384

“沃森”将这些查询发送到其搜索引擎后,就会从搜索结果中创建更多的候选答案。 P385

让我们再次回顾那条关于2008年奥运会的线索,看看我们能从维基百科的这些把戏中得到什么候选答案。 P386

维基百科通常就是这样。 P387

在寻找填补空缺职位的人选时,你也会这样做。 P389

[1]为了做到这一点,“沃森”再次求助于它的数据库和搜索引擎。 P391

“沃森”首先使用轻量级过滤器筛选候选答案,然后从它的数据库和搜索引擎中为剩下的每个候选答案搜集大量证据在研究过程中,“沃森”搜集了大量证据来支持每一个候选答案;这些证据的大部分只是其搜索结果中的部分文字片段。 P392

关于“拉斐尔·穆尼奥斯”的其他搜索结果也同样毫无用处。 P393

另一个搜索结果中也出现了类似的段落,是维基百科中迈克尔·菲尔普斯的页面。 P394

直到下一阶段,它才开始对候选答案进行评判,此时它会对证据进行评分。 P395

这些评分器做了沃森的绝大部分“有趣”的工作:它们估计了每个候选答案的每个证据与线索的匹配程度。 P396

[1]按照这个标准,候选答案“迈克尔·菲尔普斯”必然会得到好评,因为许多支持候选答案“迈克尔·菲尔普斯”的段落和线索共用生僻词,例如“查维奇”。 P397

一旦对齐,匹配的单词会让评分更高,而不匹配或缺失的单词则会让评分更低。 P398

与网飞奖的模型一样,每当“沃森”背后的团队中有人发现它评价答案的方式有缺陷,他就可以把自己的直觉变成数学函数,将其编码成评分器,测试它是否可以改进“沃森”,果真有改进的话,他就把它添加到“沃森”中。 P399

“沃森”的确使用了分类器,但它需要先把证据评分表转换成正确的格式。 P400

有时“沃森”有一个更具体的答案版本和一个不太具体的答案版本,例如通用的“剑”和“亚瑟王的神剑”(一把传说中的剑的名字)。 P401

“沃森”最后的汇总和排名阶段中的这7个变换序列的迷人之处在于,它们每一个都有相同的结构。 P403

同样,这种变换使用了机器学习和统计学的典型技巧。 P404

“沃森”的早期版本是在单个CPU上运行的,它回答一个问题要花费两个小时。 P405

DeepQA是一个数据处理引擎,而“沃森”——至少是那个我在前两章谈到的玩《危险边缘》的程序,是建立在DeepQA基础之上的。 P407

“沃森”的第一步是用人类创造的各种规则来梳理线索。 P409

正如斯蒂芬·贝克在《危险边缘总决赛》一书中提到的那样,“沃森”和几位人类对手在一次练习中被要求用一个4个字母的单词来表达“否定”。 P410

IBM推销“沃森”是“各类问题的通用智能解决方案”。 P411

这些算法是建立在“沃森”的人类对手行为模型的基础上的。 P412

计算机速度快,精度高,而分析和识别能力差。 P413

它们通过遵循编码在发条中的程序来实现这些功能。 P414

为什么这样的装置不仅能玩策略游戏,而且还能玩得那么好,甚至战胜了最优秀的人类玩家呢?这便是贯穿本章的核心问题,当我们探索如何编程机器去玩策略游戏时,你应该时刻揣摩这个问题。 P415

数独游戏的目标是在每个空格中填入一个数字,使每一行、每一列,每一宫(即9个3×3子集网格)中都含有数字1到9,且不重复。 P416

在更难的题目中,如果不进行一些猜测,游戏根本无法继续。 P418

在图14.1的九宫格中,有45个空格,因此搜索算法必须搜索许多不同的方式来用数字填充所有这些空格,直到找到一些有效的配置。 P419

图14.2 寻找把数字1、2、3填入2×2网格的所有方法的搜索树。 P420

其次,如图14.2和图14.3所示的搜索树为计算机提供了一种有序的方法来访问每个状态。 P421

如图14.4所示,对于只有两层深度的树,它有81种状态。 P423

图14.4 只有两个层次的数独搜索树的状态数为9×9=81。 P424

修剪后的搜索树每一层通常只有一个分支,而不是9个。 P426

分支因子因数独九宫格的初始布局而异,而人类解数独题目的难度在很大程度上取决于这个题目的分支因子。 P427

当涉及一定的随机性时,不确定性就会显现出来,例如任何掷骰子的游戏或者有多个玩家的游戏,国际象棋也具备这样的不确定性。 P428

花点时间看看这张图,想想你的第一步策略是什么。 P429

无论你采取哪种策略,重要心得都是,你通过查看最终的钱数,回到起始位置做决定。 P430

再花点时间看看图14.7,在继续阅读下文之前做出你的决定。 P431

你知道我总是会选择最大的数字——10美元或6美元,所以你会选择向下的那个分支,因为这样你只需要付给我6美元。 P432

最后的灰点代表你赢的结果,而白点代表我赢的结果如果我们想要编程计算机来玩这个游戏,我们会像玩数独游戏一样使用搜索算法,但是我们会编写程序来预测你和我会在搜索树的每一层上采取哪些行动。 P433

你会选择一个保证你会赢的行动(如果这样的行动存在)。 P434

因此,如果我们要用计算机解决国际象棋问题,就需要另一种方法修剪这棵树。 P435

香农关于信息的观点主要讨论了一条消息的特殊程度。 P436

在计算机成为家庭用品的几年前,香农就如何编写在当下人工智能领域已经司空见惯的下棋算法提出了一些简单但深思熟虑的建议。 P437

你可以在图14.9中看到这个游戏的完美的评价函数是什么样子的,在图中,我根据最终的获胜者对每个状态进行了着色。 P438

在实践中,大多数评价函数都是近似的我们通常不可能创建出完美的评价函数,因此必须使用近似的评价函数来代替。 P439

[1]我在这里列出的数字是随意的,很可能并不正确,但这些数字确实捕捉了我们的一些直觉。 P440

例如,如果你的一个兵靠近对手棋盘一侧,它的价值就更大,因为它更有可能变成皇后。 P441

评价函数也可用于以其他方式修剪搜索树。 P442

当考虑下一步(着法B)的时候,你立即注意到我有一步可以让我赢下棋局的应对着法。 P443

alpha-beta剪枝不仅限于搜索树的顶层,它可以应用于树的任何层次。 P444

[1]随着他们的计算机及其后代机在接下来的10年里逐渐进步,计算机变得越来越有竞争力,一次次地战胜特级大师。 P446

“深蓝”团队确实使用了具有有限深度树的评价函数,也使用了alpha-beta剪枝,但许峰雄对巧妙的剪枝算法和搜索技巧持怀疑态度,至少在他们的硬件中是这样的。 P447

[4]Campbell et al.,“Deep Blue.”[5]Hsu,Behind Deep Blue,52–56.[6]Hsu,Behind Deep Blue,85.,54。 P448

有一种说法是,这个想法的种子是一位副总裁在男厕所里的一次谈话中播下的。 P449

[4]他们实现了自己的愿望,同时也获得了在IBM工作的其他一些好处,包括使他们能够构建“深蓝”的最终版本和参加比赛的雄厚资金,以及IBM的营销团队帮助他们策划同加里·卡斯帕罗夫的比赛。 P450

[5]Hsu,Behind Deep Blue,93.,133。 P451

因为棋盘上的位置和游戏规则都有很明确的定义,所以很容易把状态以及状态之间的转换编码到搜索树中。 P452

强化学习本质上把问题从(可能更难的)搜索问题转变为“爬山”问题,从而让它可以一步步地向更有前途的状态移动。 P453

西洋双陆棋和国际象棋一样,是一种双人游戏,玩家在棋盘上移动棋子。 P454

如你所见,输入层和输出层之间是隐藏的中间层。 P455

在特索罗的双陆棋算法的早期版本中,他使用专业玩家的棋谱进行强化学习来训练神经网络。 P456

“深蓝”包含8000个特征的评价函数,这听起来可能并不简单,但其中的特征大部分都是人类可以解释的。 P458

马丁·穆勒(Martin Muller)阿尔伯塔大学计算机科学教授兼副主席[1]2011年春天,IBM的“沃森”在《危险边缘》中击败世界冠军,登上全球新闻头条之后,该项目的研究人员在世界各地进行了各种演讲。 P459

尽管围棋历史悠久,但在互联网时代,围棋也意外地与科技并行。 P461

自1968年以来,人们一直在编写计算机程序来下围棋。 P462

玩家轮流在19×19的网格上落子。 P464

棋局截图来自https://gogameguru.com/2ndmlily-cup-final(thisisgame3of5oftheMLilycupfinal)尽管围棋规则简单,但围棋的策略深刻而又微妙。 P466

一开始你甚至不用关心自己下得是好是坏。 P468

程序假想的棋局几乎不可能成为实战进程,但这并不重要。 P469

每当需要在推演棋局的过程中规划一步棋时,它就用输入了棋盘和假想棋子的神经网络来做决定。 P470

(b)棋局结束时AlphaGo便可知道胜负结果,胜负信息通过搜索树被发送到顶部。 P472

)AlphaGo的走子预测网络的架构也与雅达利游戏网络不同。 P473

AlphaGo的走子预测网络在输出形式上也不同于雅达利游戏网络。 P474

[9]这听上去或许很快,但一般而言,一盘棋大约需要150步。 P475

AlphaGo的卷积层的步长都是1。 P476

[1]AlphaGo与李世石的这场五番棋比赛在李世石的祖国韩国举行,韩国约有800万名围棋玩家。 P477

接下来的棋比第一局要激烈得多,但结果还是一样。 P478

在赛后的新闻发布会上,李世石对媒体说道:“因为我输了三盘才赢了这一盘,这盘胜利对我来说弥足珍贵,我不会拿它跟任何东西做交换。 P479

棋谱请见https://gogameguru.com/lee-sedol-defeats-alphago-masterful-comeback-game-4在第四盘棋后,AlphaGo的创始人分析了这几个回合中发生的事情。 P481

如果你曾经看过计算机围棋程序的统计清单,那么这个清单很可能被分成两组:MCTS之前一组,MCTS之后一组。 P483

当棋局到达快速走子演算阶段时,它在边界状态上会运行一个评价函数,并使用快速走子预测网络为剩余的模拟选择着法。 P484

当AlphaGo运行这个评价函数时,它还会对棋局的剩余部分进行非常快速的模拟。 P485

这样,即使AlphaGo的走子预测网络在某些方面始终是错误的(即便AlphaGo用它的网络选择了随机的着法),AlphaGo最终也能学会走出最佳着法,因为它最终会从它的模拟结果中得知哪些着法是好棋。 P486

相反,无论算法进行了多长时间的处理,这些早期的算法仍然可能产生非最优的着法。 P488

机器学习研究人员对这一问题进行了广泛的研究,他们把这个问题称为“多臂老虎机”问题。 P489

还记得吗,当AlphaGo在搜索树的高处运行其迭代时,它在靠近搜索树顶部的慢速走子演算阶段会使用目前为止收集的胜负统计信息,以此调整着法。 P490

AlphaGo真的需要如此复杂吗?例如,为什么AlphaGo还要费心去模拟棋局呢?难道它不能搜索到某个固定的深度,然后仅使用神经网络评价函数,就像“深蓝”下国际象棋那样?别忘了,围棋的搜索树比国际象棋大了好几个数量级。 P492

[5]DeepMind进行的另一项实验研究了在慢速走子演算阶段之后,应该如何在搜索树的中途对局面进行评估。 P493

他们充分提高了网络的准确性,从而无须再使用快速走子演算:在慢速走子演算阶段结束时,他们只需运行自己的评价函数神经网络即可。 P494

虽然AlphaGo表现出了类似人类的识别围棋盘面特征的能力,但它只能执行下围棋这项非常单一的任务。 P496

AlphaGo是专门为下围棋而设计的,因此它只展现了下围棋所需要的能力。 P497

在进一步讨论这个话题之前,我要提醒一点,我们还没有完全掌握构建这些机器人的技术,所以你不要期望在这一章结束的时候就知道该如何做。 P499

有些单位(例如小兵)很弱,不能快速移动。 P501

为了让游戏更加有趣,《星际争霸》中的“战场迷雾”掩盖了大部分游戏空间。 P502

换言之,《星际争霸》对人工智能领域提出了巨大的挑战。 P503

[1]我已经将一些成功的机器人中反复出现的思想组织到图16.1所示的架构中。 P505

中间层是感知和环境建模层,用于为智能体追踪军事情报:它总结智能体搜集到的关于环境的信息,包括对手的基地、游戏中的单位和整个地图的信息。 P507

正如我们刚才看到的计算机科学教授戴维·邱吉尔所解释的那样:“当在战略层次做出决定时,这个构架就会向战术单位下达命令,命令中只包括完成战术目标所需要的信息。 P508

因此,他们着眼于数量,结合数百种模型和预测因素,完全不理会让网飞在之后的实践中复制他们的方法有多么不切实际。 P509

这招奏效了一段时间,UAlbertaBot在比赛中一度名列前茅,直到更多的竞争对手出现,他们有自己独特的rush策略;那时,邱吉尔正忙于成为一名教授,无暇调整他的机器人来对付这些新策略。 P510

所以你可能会想:如果创建玩《星际争霸》这类游戏的机器人如此困难,为什么计算机还是如此难以战胜?邱吉尔对此并不赞同。 P511

事实上,脚本化的构建规则甚至在“优秀”的机器人中也很常见。 P512

[书籍分 享V信 iqiyi114]职业《DOTA2》选手每年竞争2400万美元的比赛奖金。 P514

[3]为了玩《DOTA2》,OpenAI的一个研究小组创建了一个神经网络,就像我们在这本书前面看到的两个网络一样。 P515

智能体还记录状态,把状态从一个时间点传递到下一个时间点。 P516

但是雅达利游戏网络没有记忆,所以即便它有很多经验,也在游戏中表现不佳。 P517

杰米斯发现他的一位同事是一名《星际争霸》高手玩家,于是对这位同事屡战屡胜的能力非常着迷。 P519

单独来看,这个事实可能不足为奇;有趣的是,阿尔伯塔大学对整个人工智能领域,特别是对DeepMind的工作产生了深远的影响。 P520

创造出能够高水平地玩《星际争霸》的机器人可能是一个同样引人注目却很狭隘的结果。 P521

在过去的20年里,许多在人工智能领域引起轰动的想法与半个世纪前的20世纪60年代末引起轰动的想法如出一辙。 P522

这是人工智能更长期的持续发展的一部分,是一系列起起伏伏的发展过程。 P523

有限状态机和RNN使它们能够记录周围发生的事情(它们做了什么,正在做什么,还需要做什么),并且只关注环境中最显著的部分。 P524

但他精心挑选的团队成员认识到,这是为了项目的利益。 P525

例如,AlphaGo的一些核心研究人员在阿尔伯塔大学崭露头角,而IBM的“沃森”也从学术界吸收了大量人才和思想。 P526

首先,他们发布到社区的数据集庞大到足够有价值,它的规模是其他同类公共数据集的100倍;它也足够有针对性,而且网飞已经把它清理得足够好,易于使用。 P527

[1]人年是衡量工作量的单位,1个人工作1年是1人年。 P528

我们在围棋(在线对局棋谱会被记录下来)和《危险边缘》(“粉丝”从电视节目中搜集问题)这样的游戏中看到了这一点。 P529

首先,我们在未来创建的自动机将会始终遵循程序。 P530

随着我们继续设计更好的自动机,这些工作将不可避免地助长一种观念:这些机器对人类是一种威胁,它们会偷走我们的工作,破坏我们的生计。 P531

如果我们开发出可行的量子计算机,由于量子效应,追踪行为可能会变得更加困难。 P532

他们花了无数时间进行实验、研究,记录下他们的发现。 P533

丹尼尔·达克沃思(Daniel Duckworth)提供了关于《危险边缘》章节的特别详尽的反馈,我的父亲加里·格里什(Gary Gerrish)对书稿的前半部分提供了有益的反馈。 P534

good

标签