TechBlog
首页分类标签搜索关于
← 返回标签列表
加载中...

© 2025 TechBlog. All rights reserved.

#标签

共 15 篇文章
机器学习高阶教程2优化理论实战BERT用AdamW强化学习爱SGD

机器学习高阶教程2优化理论实战BERT用AdamW强化学习爱SGD

优化器选择没有“银弹”,精准匹配场景才是关键。本文通过三大实战案例,直击算法工程师的调参困境:为何BERT必须用AdamW?因其解决了L2正则与自适应学习率的“耦合冲突”,避免参数过度衰减。为何强化学习偏爱SGD?其动量机制能抵御高方差梯度噪声,而Adam的“过度适应”反成弱点。为何大语言模型依赖梯度累积?它用时间换空间,在小显存下模拟大Batch的稳定性。核心在于理解优化器底层逻辑,根据数据噪声、内存限制与梯度特性做出明智选择。

时间:12/16/2025

RLDoes-RLVR-enable-LLMs-to-self-improve

RLDoes-RLVR-enable-LLMs-to-self-improve

论文:DoesRLVRenableLLMstoself-improve?研究问题:这篇文章探讨了强化学习(RL)在提升大型语言模型(LLMs)推理能力方面的潜力,特别是是否超越了基础模型的推理能力。研究难点:该问题的研究难点包括:如何准确评估LLMs的推理能力边界,以及现有的RLVR方法是否能够引入新的推理模式。相关工作:该问题的研究相关工作包括OpenAI的o1模型、DeepSeek-R1等,这些工作展示了LLMs在复杂逻辑任务中的显著进步,但对其推理能力的提升机制尚不明确。(1)可验

时间:11/22/2025

LLM基于ms-Swift大模型SFT和RL训练

LLM基于ms-Swift大模型SFT和RL训练

Swift框架MoE训练并行技术选择:Megatron-SWIFT的并行技术采用zero1(默认开启use_distributed_optimizer)+各种并行技术的组合。DP的速度最快,但显存占用较多,使用其他并行技术以降低显存占用。TP/EP通信量较大,尽量不跨节点(NVLink域内),跨节点建议使用PP/DP;专家层建议使用EP而不是ETP,ETP更节约显存,但速度较慢。MoE 并行折叠:MoE 相关的并行组与 Dense 组分离。Attention使用 tp-cp-dp-pp 组,MoE

时间:10/03/2025

MATH-500大模型数学推理能力评估基准

MATH-500大模型数学推理能力评估基准

MATH-500是一个专门用于评估大型语言模型(LLM)数学推理能力的高难度基准测试数据集。它包含了500道高质量、富有挑战性的数学题目,覆盖了多个数学分支领域,旨在全面检验模型解决复杂数学问题的能力。该数据集作为对原有MATH数据集的补充和扩展,提供了更加全面和具有挑战性的评估环境。本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!20.GSM8K:评估大模型数学推理能力的关键数据集。

时间:09/29/2025

强化学习区分理解-时序差分TD蒙特卡洛MC动态规划DP

强化学习区分理解-时序差分TD蒙特卡洛MC动态规划DP

本文对比分析了强化学习中三种核心价值估计方法:时序差分(TD)、蒙特卡洛(MC)和动态规划(DP)。TD方法结合即时奖励和下一状态估计进行在线更新,效率高但可能估计偏差;MC依赖完整回合回报,适合离线学习但方差大;DP需要环境模型,能精确求解但计算量大。三者各具特点:TD适用于在线/大规模任务,MC适合回合制问题,DP则适用于模型已知的小规模场景。理解这些方法的特性有助于根据实际问题选择合适的算法,平衡学习效率、计算成本和环境依赖性。

时间:08/26/2025

基于动手学强化学习的知识点五第-18-章-离线强化学习gym版本-0.26

基于动手学强化学习的知识点五第-18-章-离线强化学习gym版本-0.26

第 18 章 离线强化学习(gym版本 >= 0.26)(一)

时间:03/15/2025

基于动手学强化学习的知识点二第-15-章-模仿学习gym版本-0.26

基于动手学强化学习的知识点二第-15-章-模仿学习gym版本-0.26

第 15 章 模仿学习(gym版本 >= 0.26)

时间:03/14/2025

Visual-RFT基于强化学习的视觉语言模型微调技术研究

Visual-RFT基于强化学习的视觉语言模型微调技术研究

Visual-RFT代表了视觉语言模型微调方法的技术变革。通过整合类人推理过程与强大的强化学习框架,该方法在传统上受数据可用性制约的任务中实现了显著性能提升。无论是细粒度图像分类、少样本对象检测还是推理定位,Visual-RFT都为模型提供了迭代学习和动态适应的能力,为未来视觉语言模型开发提供了新的技术路径。

时间:03/06/2025

强化学习入门总结

强化学习入门总结

+次,点赞255次,收藏2k次。目录一、强化学习概述1.强化学习简介2.发展历程:3.MDP(马儿可

时间:12/31/2024

基于强化学习与深度强化学习的游戏AI训练

基于强化学习与深度强化学习的游戏AI训练

基于强化学习与深度强化学习的游戏AI训练...

时间:12/23/2024

强化学习-Reinforcement-Learning

强化学习-Reinforcement-Learning

强化学习:强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源

时间:12/13/2024

深度通信网络专栏2自编码器无信道模型的通信系统端到端学习

深度通信网络专栏2自编码器无信道模型的通信系统端到端学习

本文地址:https://arxiv.org/abs/1804.02276前言深度通信网络专栏|自编

时间:04/18/2024

通用人工智能之路什么是强化学习如何结合深度学习

通用人工智能之路什么是强化学习如何结合深度学习

通用人工智能之路什么是强化学习如何结合深度学习...

时间:07/03/2023

2022-05-29-PyTorch强化学习实战1强化学习环境配置与PyTorch基础

2022-05-29-PyTorch强化学习实战1强化学习环境配置与PyTorch基础

2022-05-29-PyTorch强化学习实战1强化学习环境配置与PyTorch基础...

时间:05/29/2022

强化学习笔记目标奖励回报和回合

强化学习笔记目标奖励回报和回合

在上一篇我们介绍了强化学习问题的形式化(数学)框架:马尔科夫决策过程。本篇以及后续几篇继续讨论这个形

时间:01/12/2022