TechBlog
首页分类标签搜索关于

© 2025 TechBlog. All rights reserved.

机器学习监督学习无监督学习半监督学习自监督学习弱监督学习强化学习

11/23/2025
未分类#机器学习#学习#人工智能

【机器学习】监督学习、无监督学习、半监督学习、自监督学习、弱监督学习、强化学习

(4 条消息) 监督学习、无监督学习、半监督学习、强化学习、自监督学习 - 知乎

(2 条消息) 监督学习 半监督学习 无监督学习 - 搜索结果 - 知乎

💡六种学习方式

  • 监督学习(Supervised Learning 或 Supervised Machine Learning ):

    • **定义:**使用标记数据集来训练算法,以便训练后的算法可以对数据进行分类或准确预测结果。
    • 目标:分类(将测试数据分配到特定的类别中)和回归(理解因变量和自变量之间的关系)。
    • 关键点:高度依赖大量高质量的人工标注,成本高昂。
    • **定位:**是最基础和最直观的范式。
    • 算法:SVM、随机森林、ResNet。
    • 场景:图像分类、语音识别、风险评估。
  • 无监督学习(Unsupervised Learning):

    • **定义:**用算法来分析并聚类未标记的数据集,以便发现数据中隐藏的模式和规律,而不需要人工干预。
    • 目标:聚类(将相似的数据分组)、降维(简化数据维度)和关联(使用不同的规则来查找给定数据集中变量之间的关系​​​​​​​)。
    • 关键点:无需标注,成本低;但学习目标更模糊,评估难度大。
    • **定位:**与监督学习相反。
    • 算法:K-Means、DBSCAN、PCA。
    • 场景:客户分群、异常检测、数据可视化。
  • 半监督学习(Semi-supervised Learning):

    • **定义:**旨在解决标注数据不足的难题。它同时使用少量有标签的数据和大量无标签的数据进行训练。
    • 目标:利用未标注数据中蕴含的数据分布信息,来提升模型在少量标注数据上的泛化能力。
    • 关键点:基于“聚类假设”或“平滑假设”,即相似的数据点更可能具有相同标签。
    • 常见方法:标签传播、使用教师模型生成伪标签等。
    • 定位:****​​​​​​​是监督学习和无监督学习的结合。
    • 算法:标签传播、Mean Teacher。
    • 场景:医学影像分析(标注成本高)、网页分类。
  • 自监督学习(self-supervised learning,简写SSL):

    • **定义:**不需要人工标注训练数据,它的模型主要训练从大规模的无监督数据中挖掘能够应用于自身的监督信息,从而从输入的一部分数据中去学习另一部分。
    • 目标:学习高质量、通用性强的数据特征表示,为下游任务服务。
    • 关键点:它巧妙地将无监督问题转化为监督问题来求解,是当前大模型(如GPT、BERT)的预训练基石。
    • 例子:将一张图片的部分内容遮盖,让模型预测被遮盖的部分(类似“填空”)。通过这个任务,模型能学到关于物体结构的通用知识。
    • **定位:**是无监督学习的子集。
    • 算法:BERT、SimCLR、MAE。
    • 场景:预训练语言模型、图像表征学习。
  • 弱监督学习 (Weakly-Supervised Learning)****:

    • **定义:**属于监督学习的范畴,但它处理的是标签质量不高的情况,迫使模型学习更鲁棒的特征。这些标签可能是不精确的、不完整的或带有噪声的。
    • 目标:利用这种“弱”的监督信号,去完成一个需要“强”标签(如精确边界框)的任务。
    • 例子:在图像分割中,我们只有图像级标签(如“包含猫”),而没有每个像素的精细标签(指出猫的精确轮廓),但模型需要学会完成像素级的分割任务。
    • **分类:**不完全监督(Incomplete supervision),不确切监督(Inexact supervision),不精确监督(Inaccurate supervision)。
    • 定位:​​​​​​​是监督学习的变体。
    • 算法:多示例学习、注意力机制。
    • 场景:弱监督图像分割(仅知图片含肿瘤但无像素级标注)。
  • 强化学习 (Reinforcement Learning):

    • **定义:**它不依赖于静态的数据集,而是让一个智能体(Agent)通过与环境进行持续交互来学习。智能体根据当前状态选择行动,环境会反馈一个奖励(Reward),智能体的目标是学习一个策略,使得长期累积奖励最大化。
    • 目标:学习在特定环境下采取最优的行动序列(决策策略)。
    • 关键点:试错学习、延迟奖励、与环境动态交互。
    • 例子:AlphaGo通过不断对弈学习围棋策略。
    • **定位:**独立但可结合监督。
    • 算法:DQN、PPO、A3C。
    • 场景:游戏AI、机器人控制、推荐系统。

🔄前沿融合趋势

  • 自监督 -> 微调 (Fine-tuning):

    • ​​​​​​​这是当今AI领域的主流范式。先通过自监督学习在海量无标签数据上预训练一个基础模型(如大语言模型),然后使用少量标注数据,通过监督学习的方式对模型进行微调,使其适应特定下游任务。这完美解决了标注数据稀缺的核心痛点。
  • 强化学习从模仿学习开始:

    • 如AlphaGo,其初期版本(AlphaGo Fan)正是通过监督学习(学习人类棋谱)来初始化策略网络,获得一个不错的起点,然后再通过强化学习(自我对弈)进行超越。这展示了如何用监督学习为强化学习“预热”。
  • 弱监督+半监督:

    • 用弱标签初始化模型,再用未标注数据优化。
  • 强化+自监督:

    • Agent通过自监督学习环境表征(如DeepMind的BYOL-R)。
  • 具体情况具体选择:

    • 当有充足高质量标签时:优先选择监督学习。
    • 当标签稀缺时:半监督/弱监督/自监督可破局。
    • 当完全无标签时:无监督或自监督是首选。
    • 当需要序列决策时:强化学习独树一帜。
  • 最主流的组合范式:自监督预训练 + 监督微调 + 强化学习对齐(例如RLHF):

    • 先通过自监督学习在海量无标签数据上预训练一个基础模型,然后使用监督学习在特定任务的标注数据上微调,最后可能再用强化学习来使模型的行为与人类价值观对齐。

⚠️ 当前研究的批判与局限

  • 监督学习的“天花板”:

    • 其性能严重受限于标注数据的质量和规模。数据中的偏见(Bias)会直接被模型学会并放大,导致公平性问题。更重要的是,它只能学习训练数据中存在的模式,对于“开放世界”中未见过的全新情况,泛化能力可能很差。
  • 无监督/自监督学习的“黑箱”与评估难题:

    • 我们如何知道聚类结果就是有意义的?如何定量评估自监督学习学到的特征表示的好坏?这通常需要依赖下游任务(如分类准确率)来间接评估,缺乏像监督学习那样明确(如准确率、精确率)的内在评估指标。理论保证也远不如监督学习坚实。
  • 强化学习的“成本”与“不稳定”:

    • 需要与环境进行海量交互,这在现实世界中(如训练真实机器人)可能成本极高、甚至危险。训练过程也可能非常不稳定,难以收敛。
  • 共同挑战:可解释性与能耗:

    • 几乎所有深度学习模型都像是“黑箱”,决策过程难以解释,这在金融、医疗等高风险领域是重大障碍。同时,大模型的训练能耗巨大,引发了环境成本的担忧。

⭐总结

学习范式核心定义主要目标关键特点典型算法应用场景
监督学习 Supervised Learning使用带标签的数据集训练算法,学习输入到输出的映射关系 。预测:进行分类(离散值)或回归(连续值)预测 。高度依赖高质量人工标注数据;是最基础、最直观的范式 。SVM, 随机森林, ResNet图像分类、语音识别、风险评估
无监督学习 Unsupervised Learning分析无标签的数据集,以发现其中隐藏的结构或模式 。探索:进行聚类、降维、关联分析等 。无需标注,成本低;但学习目标模糊,评估难度大 。K-Means, DBSCAN, PCA客户分群、异常检测、数据可视化
半监督学习 Semi-supervised Learning同时使用少量有标签数据和大量无标签数据进行训练 。利用未标注数据的分布信息,提升模型在少量标注数据上的泛化能力。基于“聚类假设”或“平滑假设”;是监督和无监督学习的结合 。标签传播, Mean Teacher, Pseudo-Labeling医学影像分析、网页分类(标注成本高的场景)
自监督学习 Self-supervised Learning从无标签数据自身构造“伪标签”(前置任务)来进行学习 。学习高质量、通用性强的数据特征表示,为下游任务服务。将无监督问题转化为监督学习的形式;是现代大模型预训练的基石 。BERT, SimCLR, MAE预训练语言模型、图像表征学习
弱监督学习 Weakly-Supervised Learning利用不精确、不完整或不准确的标签来训练模型 。利用“弱”监督信号,完成需要“强”标签的任务。是监督学习的变体,旨在降低标注成本,迫使模型学习更鲁棒的特征 。多示例学习, 注意力机制弱监督图像分割(如图像级标签完成像素级任务)
强化学习 Reinforcement Learning智能体通过与环境试错交互,根据获得的奖励信号学习最优策略 。学习在特定环境下采取最优的**行动序列(决策)**以最大化累积奖励。学习过程基于延迟奖励和动态交互;与其他范式有本质区别 。DQN, PPO, A3C游戏AI、机器人控制、推荐系统