半监督方法

=强化学习的认识：= IBM的深蓝赢了人类国际象棋大师，强化学习并没有给最终的结果画上标签， 而是给每一步打分，如果最终的的结局是赢了，那么加高分，否则给低分 media type="custom" key="7919124"