查看: 10564|回复: 1

[人工智能机器人学导论] 9 慎思/反应混合范式

上一章节：《人工智能机器人学导论》-7 反应式的设计和实现

《人工智能机器人学导论》-9 慎思/反应混合范式
概述
起初混合式被看成是一个局限于研究的产物，没有什么实际应用价值。一些研究着身子认为如果设计的机器人在非结构化的环境中操作，设计者必须使用反应是结构。如果任务说需要的环境信息丰富，容易建模，则分级式结构更适合，因为可以针对认为设计专门的软件。在上述两种环境中，混合范式都被认为是最糟糕的，即破坏了反应性的快速执行时间有难以开发分级式模型。

当前混合范式成为通常的求解结构，原因有以下几条：
1、运用异步处理技术（多任务、线程）使得慎思功能可以独立于反应式行为而自主执行。规划器可以慢速的技术机器人导航的下一个目标，而同时以高刷新率对当前目标进行反应式的导航。
2、良好的软件模块化使得混合结构中的子系统或对象可以针对特定的应用进行组合与匹配。适合纯反应式行为的应用可以只使用结构中有关行为的子集来实现，而有更多认字问题的情况则使用完整的结构去实现。

混合范式的属性
慎思/反应式混合系统机器人首先规划如何完成任务（使用全局环境模型），然后初始化或者说打开一个行为集来实现规划。行为将一直执行到规划完成，然后规划器再生成一个性的行为集，如此循环往复。

               规划
                  ↑
                  ↓
执行<------------------->感知

因为规划考虑的时间比较长，而且需要全局信息。所以应该从实时执行程序中分离出来。

混合结构中的感知系统的结构更为复杂，感知是实实在在的混合式。
9 慎思/反应混合范式图1

可见全局模型可以有自己的传感器、***其他传感器或者感知其他行为创建/使用的感知，也可以作为一个虚拟传感器供行为所用。
全局的内涵
一些不容易用反应式行为表示的事件，例如路径规划和地图生成需要一个全局环境模型。而其他一些行为需要另外一种类型的全局环境模型。
行为管理，要求知道一些有关当前任务和当前环境状态的知识。这样的全局知识要求模块知道一些自身以外的东西。而反应式行为不需要知道其他行为的情况。
性能监督，观测机器人是否确实在努力实现目标，问题求解式一个全局行为。为了实现诊断，程序必须知道正在完成的是什么行为，是否有其他传感器或知识来源能证明某些假设。
慎思功能有可能不需要全局环境模型，但可能必须全面了解机器人的内部工作状态。

混合结构具有以下模块和对象
1、序列发生器智能体：用于生成完成子任务所需的行为集，并决定所有的时序和激活条件。序列发生器能生成这些激光的同时又能动态的进行修改。
2、资源管理器：用于为行为分配资源。例如，机器人装有多种测距传感器，由行为管理器来查清IR传感器能否检测足够远的距离，立体视觉的刷新率是否满足机器人的期望速度。
人类就有这种功能，例如习惯用右手开门，但是如果右手有拿东西，大脑也可以调用左手来开门。而在反应式结构中，行为的资源却是固定连接的。
3、制图器：用于生成、存储和维护地图或空间信息。已经提供访问数据的方法。制图器往往包含一个全局环境模块和知识表示模型，即是模型实际上不是地图。
4、任务规划器：它与用户交互，把指令生成任务规划。例如对机器人下达一个命令：baymax，去找一下教授。任务规划器将首先把命令翻译为寻找一个人，根据人脸识别判断是不是教授。任务管理器访问教授最有可能在的地方的信息。规划结果可能首先是去他的办公室。
5、性能监督和问题求解智能体：由于让机器人注意到他是方在取得进展。这里机器人需要某种自我意识。

混合范式的管理结构
混合结构的管理类型可以像企业管理那样。最上层是进行高层规划的智能体，然后规划来到下一级，细化规划和手机资源。在传到最底层的工作部分-反应式行为。高层智能体可以读取低层智能体的运行结果，并进行引导。使用包容技术，上层只能修改它直接管辖的下层。每一层都发现本身的问题并进行修正。只有当某个智能体无法解决自己的我那天时才向上层求助，即故障上传。

自主机器人的结构
自主机器人结构（AuRA）是历史最长的一种混合范式。是Arkin在Brooks开始发表包容方面的研究工作的同时设计和实现的。
9 慎思/反应混合范式图2

AuRA基于图示理论，包含5个子系统，其中两个子系统有慎思成分组成：规划器和制图器。规划器负责任务规划，它又分为三个组件。制图器分支了所有导航所需的制图和读数功能。也可以前期装入一个地图供制图器使用。规划器的三个逐渐爱你会通过获得跟随路径并分为子段的方法与制图器交互作用。

规划器子系统分为任务规划（Mission Planner）、领航员（Navigator）、驾驶员（Pilot）。任务规划器用于与人交互。领航员与制图器一起工作，为及其内容计算路径并分级为子任务。驾驶员接收到每一项任务，并取得创建行为所需要的相关信息。规划子任务的驾驶员部分与运动子任务中的运动图式管理器（motor schema manager）交互，向它提供完成当前子任务说需的行为清单。运动图式管理器通过在感知子系统中对感知图式库和在运动子系统中对运动图式库的审查来组成每个行为。运动图式用势场表示行动，行为整体则通过向量合成来形成。

感知和运动子系统组成了结构的反应式部分。

第五个子系统是适应性控制（homeostatic control），它是慎思和反应之间的灰色区域。目的是修正行为之间的关系，这种修正是靠改变作为机器人“健康”函数或其他约束的增益来实现的。
考虑下一个在行星表面上采集岩石样本的的行星漫游机器人，它的任务是将采集到的岩石送回飞船。当前假设机器人行为增益有错或行为过于保守，机器人离每个障碍物距离都在2米以外。
刚开始时这种行为是正确的，如果当前飞船发射时间快到了，它应该见效和障碍物的安全距离，贴着岩石运动，减少运行时间。
我们应该如何来设计机器人的这种自我调节？
动物在下意识的改变他们的行为以响应自身的需求，例如一个饥饿的动物会变得更集中精力于觅食。人类的行为会改变胰岛素的水平。
在机器人设计中，每个行为的输出向量可以用一个增益来调节。在行星漫游机器人的例子中，返回飞船的行为增益应该开始增加，而躲避障碍物的行为增益应该开始减少。可根据发射时间的函数来控制这个增益变换。

传感器融合的实现
另外一种慎思/反应类型的结构是传感器融合的实现SFX（sensor fusion effects）。在AuRA的基础上结合了用于感知的通道。增加了确定如何感知的模块，包括传感器的融合和失效处理。

下图是根据对猫的感知研究得出的一个升级生理学感知模型。
9 慎思/反应混合范式图3

模型最初的传感器是独立的，在后面出现了分支，一部分传感器数据转向负责运动的上丘（superior colliculus）上丘的输出直接控制肌肉做出运动，这部分是行为范式。
有的传感器转向了有更多感知功能的大脑皮层（cerebral cortex）类似慎思范式。这种分支允许同时以多个范式使用同一个传感器信息流。

下图为SFX的实现结构和上面猫的感知研究认知模型类似，这里使用了传感器白板和行为白板来实现传感器或行为的分支。
9 慎思/反应混合范式图4

SFX中的感知管理（sensor manager）特别值得注意，它负责性能监督和问题的求解。如果行为失效或传感器数据不合理，感知管理就会发出警报，然后找出可替换的感知图式，身子替换行为，以处理有问题的行为。如果传感器出现故障它会立即切换到备份B计划或者身子在查找备份计划的同时开始平滑减速。
状态分级结构
状态分级类型的结构根据时间域的知识来组织行动。时间通常分为现在、过去、将来。状态分级类型的结构也有三层，每层内都是完成该层任务所需要的软件智能体。高层访问低层，并操作紧挨着的一个下层。

三层结构（3T）
3T结构是状态分级系统的最好例子，它在NASA是应用得主流。它把自己分为三层：反应层、慎思层、一个介于两者之间的接口层。下图显示了三台计算机上实际运行的各层情况。从右到左分别是：规划器、中间层序列发生器、控制器或技巧管理器（skill Manager）。
规划器是顶层，通过设置目标和战略计划实现任务规划器和制图器的功能。目标传送给中间层 -- 序列发生器。
序列发生器承担序列发生器和监督的作用。序列发生器实例化一系列的技巧来实现规划。这些技巧或者叫行为形成了低层，称为控制器或技巧管理器。
9 慎思/反应混合范式图5

3T结构中技巧和事件相互关联，事件作为检测点来证实执行是否取得了正确的效果。
序列发生器层的组建对反映过去的当前记忆的状态信息进行操作。因此，行为顺序可以这样来管理：记忆机器人已经完成了什么操作一级完成的操作是否成功。规划器层根据对为了状态信息的预测进行工作。它也能使用过去（机器人已经做了什么）和当前（机器人正在做什么）信息。为了规划任务，规划器必须要知道将要遇到的环境和其他因素。

实际中，3T结构并不严格按照功能状态（过去、当前、未来）情况来组织分层，它的组织依据通常是刷新率。刷新率慢的算法放在规划器层，快的放在技巧管理器层。虽然计算机视觉是感知功能，但是因为刷新率不高也将它放在了规划层。

9 慎思/反应混合范式图6

3T结构

我觉得可以用排兵打仗来形容：首先高级将领类似任务规划器，他需要列出需要达到的目标将这些目标分为各个小的目标和任务，将任务发给排长、团长等中层管理类似序列发生器。
序列发生器根据目标需求从战术库中提取合适的战术排兵打仗。而我们的技巧管理器里面有很多战术技巧，实施战术后通过反馈回来的事件来确认是否奏效或修改战术技巧。
saphira 结构
9 慎思/反应混合范式图7

结构框架的基本信条是：移动机器人在开放环境中成功运作的三个关键是：协调（coordination）、一致（coherence）、通讯（communication）。
机器人必须系统它的执行器和传感器，此外还必须协调一段时期内的目标。一致是指机器人维护全局模型的能力。通讯指机器人必须和其他机器人交互。

Saphira结构大部分都参与规划，规划和执行都依赖于局部感知空间 -- 中心环境模型。Saphira也把慎思获得从软件智能体中分离出来。这提供了高度灵活性，软件智能体是独立的，甚至不必在它所控制的机器人车载板上运行。

Saphira的反应式组件由行为组成。这些行为从总线环境模型（LPS具备感知空间）提取虚拟传感器输入。这些行为输出模糊规则，在通过模糊逻辑综合出一个速度和舵机指令。生成一个与势场方法相同的结果。因为能平滑传感器误差，具备感知空间可以提高机器人整体行为的品质。
任务控制结构TCA
TCA（Task Control Architecture）
9 慎思/反应混合范式图8

任务调度器 prodigy 与用户进行交互并决定执行过程的目标和顺序。如果有几个任务要做prodigy能进行排序并优化进度。
一旦建立了当前任务，路径规划层就开始工作。导航由部分能关的马尔可夫决策过程（POMDP）模块来处理，决定或测定机器人应该寻找的是什么，在哪里，曾经在哪里。
壁障层获取期望的前进方向并根据障碍物进行调整。
下一章节：《人工智能机器人学导论》-10 多智能体

人工智能, 机器人学, 导论