无监督学习

=无监督学习=

无监督学习(unsupervised learning):设计分类器时候，用于处理未被分类标记的样本集 目标是我们不告诉计算机怎么做，而是让它（计算机）自己去学习怎样做一些事情. 非监督学习一般有两种思路. 第一种思路是在指导Agent时不为其指定明确的分类，而是在成功时采用某种形式的激励制度. 需要注意的是，这类训练通常会置于决策问题的框架里，因为它的目标不是产生一个分类系统，而是做出最大回报的决定. 这种思路很好的概括了现实世界，Agent可以对那些正确的行为做出激励，并对其他的行为进行处罚. 强化学习的一些形式常常可以被用于非监督学习，由于没有必然的途径学习影响世界的那些行为的全部信息，因此Agent把它的行为建立在前一次奖惩的基础上. 在某种意义上，所有的这些信息都是不必要的，因为通过学习激励函数，Agent不需要任何处理就可以清楚地知道要做什么，因为它（Agent）知道自己采取的每个动作确切的预期收益. 对于防止为了计算每一种可能性而进行的大量计算，以及为此消耗的大量时间（即使所有世界状态的变迁概率都已知），这样的做法是非常有益的. 另一方面，在尝试出错上，这也是一种非常耗费时间的学习. 不过这一类学习可能会非常强大，因为它假定没有事先分类的样本. 在某些情况下，例如，我们的分类方法可能并非最佳选择. 在这方面一个突出的例子是Backgammon（西洋双陆棋）游戏，有一系列计算机程序（例如neuro-gammon和TD-gammon）通过非监督学习自己一遍又一遍的玩这个游戏，变得比最强的人类棋手还要出色. 这些程序发现的一些原则甚至令双陆棋专家都感到惊讶，并且它们比那些使用预分类样本训练的双陆棋程序工作得更出色. 一种次要的非监督学习类型称之为聚合（clustering）. 这类学习类型的目标不是让效用函数最大化，而是找到训练数据中的近似点. 聚合常常能发现那些与假设匹配的相当好的直观分类. 例如，基于人口统计的聚合个体可能会在一个群体中形成一个富有的聚合，以及其他的贫穷的聚合.

围棋自动对弈程序
中文版的免费资源有天才围棋，发行于2006年，由UNBALANCE公司出品，玩家分黑方或是白方，不论是黑白都可以选择计算机或者人类玩家，就是说可以有四种情况： 当选择3,或4的时候是人机对弈，玩家操作人类角色，当选择1时你可以操作任一角色，和别人一起下棋，也可以自己同自己对弈，当选者2时，是你最无聊的时候，你想验证天才围棋的计算机玩家等级是否名副其实，例如选择3级与7级的进行比赛，看哪个能赢. 计算机玩家分为两大类共10个等级 初级1-5适合初学者与计算机玩家之间的对弈， 进阶级6-10级是高级玩家的游戏. 除了这些特点外，棋盘也分三种：
 * 1) 人类持黑VS人类持白
 * 2) 计算机持黑VS计算机持白
 * 3) 人类持黑VS计算机持白
 * 4) 计算机持黑VS人类持白
 * 1) 9 * 9
 * 2) 13 * 13
 * 3) 19 * 19