关于监督学习、非监督学习和强化学习

来源:百度文库 编辑:神马文学网 时间:2024/04/26 09:21:26
机器学习中的方法或范式(paradigm)有很多种分类体系,例如从学习的方式分,有
从例子中学习、类比学习、分析学习等,但一般来说,现在研究得最多、被认为最有用
的是从例子中学习(learning from examples)。对从例子中学习,又有很多分类方法

例如从学习的主动性方面,可以分为主动学习(active learning)和被动学习
(passive learning);从训练过程启动的早晚,可以分为迫切学习(eager learning)
和惰性学习(lazy learning);等等。
最常见的对“从例子中学习”的方法的分类是监督学习、非监督学习和强化学习,这
是从训练样本的歧义性(ambiguity)来进行分类的。对监督学习来说,它通过对具有概
念标记(concept label)的训练例进行学习,以尽可能正确地对训练集之外的示例的概
念标记进行预测。这里所有训练例的概念标记都是已知的,因此训练样本的歧义性最低。
对非监督学习来说,它通过对没有概念标记的训练例进行学习,以发现训练例中隐藏的
结构性知识。这里的训练例的概念标记是不知道的,因此训练样本的歧义性最高。对强化
学习来说,它通过对没有概念标记、但与一个延迟奖赏或效用(可视为延迟的概念标记)
相关联的训练例进行学习,以获得某种从状态到行动的映射。这里本来没有概念标记的概
念,但延迟奖赏可被视为一种延迟概念标记,因此其训练样本的歧义性介于监督学习和非
监督学习之间。
需要注意的是,监督学习和非监督学习从一开始就是相对的,而强化学习在提出时并
没有从训练样本歧义性的角度考虑其与监督学习和非监督学习的区别,因此,一些早期的
研究中把强化学习视为一种特殊的非监督学习。事实上,对强化学习的定位到目前仍然是
有争议的,有的学者甚至认为它是与“从例子中学习”同一级别的概念。
从训练样本歧义性角度进行的分类体系,在近几年可望有一些扩展,例如多示例学习
(multi-instance learning)等从训练样本歧义性方面来看很特殊的新的学习框架有可能
会进入该体系。但到目前为止,没有任何新的框架得到了公认的地位。另外,半监督学习
(semi-supervised learning)也有一定希望,它的障碍是半监督学习中的歧义性并不是
与生俱来的,而是人为的,即用户期望用未标记的样本来辅助对已标记样本的学习。这与
监督学习、非监督学习、强化学习等天生的歧义性完全不同。半监督学习中人为的歧义性
在解决工程问题上是需要的、有用的(对大量样本进行标记的代价可能是极为昂贵的),
但可能不太会导致方法学或对学习问题视点的大的改变。
不同的分类体系是相交的,例如,监督学习方法既可能是迫切的(例如大多数神经网
络、决策树等),也可能是惰性的(例如k近邻等)。另外,分类体系也不是绝对的,例
如前面提到的强化学习的情况。