关于监督学习、非监督学习和强化学习

来源：百度文库编辑：神马文学网时间：2024/04/26 09:21:26

机器学习中的方法或范式（paradigm）有很多种分类体系，例如从学习的方式分，有
从例子中学习、类比学习、分析学习等，但一般来说，现在研究得最多、被认为最有用
的是从例子中学习（learning from examples）。对从例子中学习，又有很多分类方法
，
例如从学习的主动性方面，可以分为主动学习（active learning）和被动学习
（passive learning）；从训练过程启动的早晚，可以分为迫切学习（eager learning）
和惰性学习（lazy learning）；等等。
最常见的对“从例子中学习”的方法的分类是监督学习、非监督学习和强化学习，这
是从训练样本的歧义性（ambiguity）来进行分类的。对监督学习来说，它通过对具有概
念标记（concept label）的训练例进行学习，以尽可能正确地对训练集之外的示例的概
念标记进行预测。这里所有训练例的概念标记都是已知的，因此训练样本的歧义性最低。
对非监督学习来说，它通过对没有概念标记的训练例进行学习，以发现训练例中隐藏的
结构性知识。这里的训练例的概念标记是不知道的，因此训练样本的歧义性最高。对强化
学习来说，它通过对没有概念标记、但与一个延迟奖赏或效用（可视为延迟的概念标记）
相关联的训练例进行学习，以获得某种从状态到行动的映射。这里本来没有概念标记的概
念，但延迟奖赏可被视为一种延迟概念标记，因此其训练样本的歧义性介于监督学习和非
监督学习之间。
需要注意的是，监督学习和非监督学习从一开始就是相对的，而强化学习在提出时并
没有从训练样本歧义性的角度考虑其与监督学习和非监督学习的区别，因此，一些早期的
研究中把强化学习视为一种特殊的非监督学习。事实上，对强化学习的定位到目前仍然是
有争议的，有的学者甚至认为它是与“从例子中学习”同一级别的概念。
从训练样本歧义性角度进行的分类体系，在近几年可望有一些扩展，例如多示例学习
（multi-instance learning）等从训练样本歧义性方面来看很特殊的新的学习框架有可能
会进入该体系。但到目前为止，没有任何新的框架得到了公认的地位。另外，半监督学习
（semi-supervised learning）也有一定希望，它的障碍是半监督学习中的歧义性并不是
与生俱来的，而是人为的，即用户期望用未标记的样本来辅助对已标记样本的学习。这与
监督学习、非监督学习、强化学习等天生的歧义性完全不同。半监督学习中人为的歧义性
在解决工程问题上是需要的、有用的（对大量样本进行标记的代价可能是极为昂贵的），
但可能不太会导致方法学或对学习问题视点的大的改变。
不同的分类体系是相交的，例如，监督学习方法既可能是迫切的（例如大多数神经网
络、决策树等），也可能是惰性的（例如k近邻等）。另外，分类体系也不是绝对的，例
如前面提到的强化学习的情况。

关于监督学习、非监督学习和强化学习高新民解读四中全会公报：“越反越腐”和“一把手监督”需党建破题 - 相关文章 - 学习贯彻... 中江举行学习人大制度暨《监督法》专题报告会 OTC终端操作更要注重动作到位和实效性的监督 - 学习交流 - 游傲培训网培训课程,培训... 关于学习关于学习关于学习关于学习 “路径依赖”和“强化学习”（上）(Psytopic) 张鸣：监督与分肥———天益：学习型社会领航者乔建军：全市人大系统学习贯彻袁纯清讲话精神暨监督工作会议在我县召开乔建军：全市人大系统学习贯彻袁纯清讲话精神暨监督工作会议在我县召开强化组织领导拓展监督渠道强化组织领导拓展监督渠道学习- *****学习学习！学习. 学习学习学习学习关于非学科学习支持服务的思考学习十七大精神　强化法院党风廉政建设学习十七大精神　强化法院党风廉政建设强化监督制约必须充分发挥各监督主体作用强化监督制约必须充分发挥各监督主体作用?