<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>微调 on Ralph's Blog</title><link>https://pothos.dpdns.org/tags/%E5%BE%AE%E8%B0%83/</link><description>Recent content in 微调 on Ralph's Blog</description><generator>Hugo -- 0.147.7</generator><language>zh-cn</language><lastBuildDate>Thu, 25 Dec 2025 00:00:00 +0000</lastBuildDate><atom:link href="https://pothos.dpdns.org/tags/%E5%BE%AE%E8%B0%83/index.xml" rel="self" type="application/rss+xml"/><item><title>52.大模型微调技术指南</title><link>https://pothos.dpdns.org/posts/52.%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%BE%AE%E8%B0%83%E6%8A%80%E6%9C%AF%E6%8C%87%E5%8D%97/</link><pubDate>Thu, 25 Dec 2025 00:00:00 +0000</pubDate><guid>https://pothos.dpdns.org/posts/52.%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%BE%AE%E8%B0%83%E6%8A%80%E6%9C%AF%E6%8C%87%E5%8D%97/</guid><description>&lt;h1 id="大模型微调技术完整指南">大模型微调技术完整指南&lt;/h1>
&lt;h2 id="目录">目录&lt;/h2>
&lt;details>
&lt;summary>点击展开目录&lt;/summary>
&lt;ul>
&lt;li>&lt;a href="#%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%BE%AE%E8%B0%83%E6%8A%80%E6%9C%AF%E5%AE%8C%E6%95%B4%E6%8C%87%E5%8D%97">大模型微调技术完整指南&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#%E7%9B%AE%E5%BD%95">目录&lt;/a>&lt;/li>
&lt;li>&lt;a href="#1-%E5%BE%AE%E8%B0%83%E6%8A%80%E6%9C%AF%E6%A6%82%E8%BF%B0">1. 微调技术概述&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#11-%E4%BB%80%E4%B9%88%E6%98%AF%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%BE%AE%E8%B0%83">1.1 什么是大模型微调&lt;/a>&lt;/li>
&lt;li>&lt;a href="#12-%E5%BE%AE%E8%B0%83%E6%8A%80%E6%9C%AF%E5%88%86%E7%B1%BB">1.2 微调技术分类&lt;/a>&lt;/li>
&lt;li>&lt;a href="#13-%E5%BE%AE%E8%B0%83%E5%BA%94%E7%94%A8%E5%9C%BA%E6%99%AF">1.3 微调应用场景&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#2-%E7%8E%AF%E5%A2%83%E6%90%AD%E5%BB%BA%E4%B8%8E%E5%87%86%E5%A4%87">2. 环境搭建与准备&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#21-%E7%A1%AC%E4%BB%B6%E7%8E%AF%E5%A2%83%E8%A6%81%E6%B1%82">2.1 硬件环境要求&lt;/a>&lt;/li>
&lt;li>&lt;a href="#22-%E8%BD%AF%E4%BB%B6%E7%8E%AF%E5%A2%83%E9%85%8D%E7%BD%AE">2.2 软件环境配置&lt;/a>&lt;/li>
&lt;li>&lt;a href="#23-%E4%BE%9D%E8%B5%96%E5%BA%93%E5%AE%89%E8%A3%85">2.3 依赖库安装&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#3-%E6%95%B0%E6%8D%AE%E5%87%86%E5%A4%87%E4%B8%8E%E5%A4%84%E7%90%86">3. 数据准备与处理&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#31-%E6%95%B0%E6%8D%AE%E6%A0%BC%E5%BC%8F%E8%A7%84%E8%8C%83">3.1 数据格式规范&lt;/a>&lt;/li>
&lt;li>&lt;a href="#32-%E6%95%B0%E6%8D%AE%E9%A2%84%E5%A4%84%E7%90%86%E6%B5%81%E7%A8%8B">3.2 数据预处理流程&lt;/a>&lt;/li>
&lt;li>&lt;a href="#33-%E6%95%B0%E6%8D%AE%E8%B4%A8%E9%87%8F%E6%8E%A7%E5%88%B6">3.3 数据质量控制&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#4-%E5%85%A8%E5%8F%82%E6%95%B0%E5%BE%AE%E8%B0%83%E5%AE%9E%E6%88%98">4. 全参数微调实战&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#41-%E5%85%A8%E5%8F%82%E6%95%B0%E5%BE%AE%E8%B0%83%E5%8E%9F%E7%90%86">4.1 全参数微调原理&lt;/a>&lt;/li>
&lt;li>&lt;a href="#42-%E4%BB%A3%E7%A0%81%E5%AE%9E%E7%8E%B0%E6%B5%81%E7%A8%8B">4.2 代码实现流程&lt;/a>&lt;/li>
&lt;li>&lt;a href="#43-%E8%AE%AD%E7%BB%83%E7%9B%91%E6%8E%A7%E4%B8%8E%E8%B0%83%E4%BC%98">4.3 训练监控与调优&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#5-lora%E5%BE%AE%E8%B0%83%E6%8A%80%E6%9C%AF">5. LoRA微调技术&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#51-lora%E5%8E%9F%E7%90%86%E8%AF%A6%E8%A7%A3">5.1 LoRA原理详解&lt;/a>&lt;/li>
&lt;li>&lt;a href="#52-lora%E5%AE%9E%E7%8E%B0%E4%BB%A3%E7%A0%81">5.2 LoRA实现代码&lt;/a>&lt;/li>
&lt;li>&lt;a href="#53-lora%E5%8F%82%E6%95%B0%E8%B0%83%E4%BC%98">5.3 LoRA参数调优&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#6-qlora%E9%87%8F%E5%8C%96%E5%BE%AE%E8%B0%83">6. QLoRA量化微调&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#61-qlora%E6%8A%80%E6%9C%AF%E5%8E%9F%E7%90%86">6.1 QLoRA技术原理&lt;/a>&lt;/li>
&lt;li>&lt;a href="#62-qlora%E5%AE%9E%E7%8E%B0%E6%B5%81%E7%A8%8B">6.2 QLoRA实现流程&lt;/a>&lt;/li>
&lt;li>&lt;a href="#63-%E5%86%85%E5%AD%98%E4%BC%98%E5%8C%96%E7%AD%96%E7%95%A5">6.3 内存优化策略&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#7-%E6%8C%87%E4%BB%A4%E5%BE%AE%E8%B0%83%E6%8A%80%E6%9C%AF">7. 指令微调技术&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#71-%E6%8C%87%E4%BB%A4%E6%95%B0%E6%8D%AE%E6%9E%84%E5%BB%BA">7.1 指令数据构建&lt;/a>&lt;/li>
&lt;li>&lt;a href="#72-sft%E8%AE%AD%E7%BB%83%E6%B5%81%E7%A8%8B">7.2 SFT训练流程&lt;/a>&lt;/li>
&lt;li>&lt;a href="#73-%E5%A4%9A%E8%BD%AE%E5%AF%B9%E8%AF%9D%E5%BE%AE%E8%B0%83">7.3 多轮对话微调&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#8-%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%BE%AE%E8%B0%83">8. 强化学习微调&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#81-rlhf%E5%8E%9F%E7%90%86%E8%A7%A3%E6%9E%90">8.1 RLHF原理解析&lt;/a>&lt;/li>
&lt;li>&lt;a href="#82-%E5%A5%96%E5%8A%B1%E6%A8%A1%E5%9E%8B%E8%AE%AD%E7%BB%83">8.2 奖励模型训练&lt;/a>&lt;/li>
&lt;li>&lt;a href="#83-ppo%E8%AE%AD%E7%BB%83%E5%AE%9E%E7%8E%B0">8.3 PPO训练实现&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#9-%E5%88%86%E5%B8%83%E5%BC%8F%E8%AE%AD%E7%BB%83%E9%83%A8%E7%BD%B2">9. 分布式训练部署&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#91-deepspeed%E9%9B%86%E6%88%90">9.1 DeepSpeed集成&lt;/a>&lt;/li>
&lt;li>&lt;a href="#92-%E5%A4%9Agpu%E8%AE%AD%E7%BB%83%E9%85%8D%E7%BD%AE">9.2 多GPU训练配置&lt;/a>&lt;/li>
&lt;li>&lt;a href="#93-%E6%A2%AF%E5%BA%A6%E7%B4%AF%E7%A7%AF%E4%BC%98%E5%8C%96">9.3 梯度累积优化&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#10-%E6%A8%A1%E5%9E%8B%E8%AF%84%E4%BC%B0%E4%B8%8E%E9%83%A8%E7%BD%B2">10. 模型评估与部署&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#101-%E8%AF%84%E4%BC%B0%E6%8C%87%E6%A0%87%E4%BD%93%E7%B3%BB">10.1 评估指标体系&lt;/a>&lt;/li>
&lt;li>&lt;a href="#102-%E6%A8%A1%E5%9E%8B%E6%8E%A8%E7%90%86%E4%BC%98%E5%8C%96">10.2 模型推理优化&lt;/a>&lt;/li>
&lt;li>&lt;a href="#103-%E7%94%9F%E4%BA%A7%E7%8E%AF%E5%A2%83%E9%83%A8%E7%BD%B2">10.3 生产环境部署&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#11-%E5%AE%9E%E6%88%98%E6%A1%88%E4%BE%8B%E5%88%86%E6%9E%90">11. 实战案例分析&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#111-%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB%E5%BE%AE%E8%B0%83">11.1 文本分类微调&lt;/a>&lt;/li>
&lt;li>&lt;a href="#112-%E5%AF%B9%E8%AF%9D%E7%B3%BB%E7%BB%9F%E5%BE%AE%E8%B0%83">11.2 对话系统微调&lt;/a>&lt;/li>
&lt;li>&lt;a href="#113-%E4%BB%A3%E7%A0%81%E7%94%9F%E6%88%90%E5%BE%AE%E8%B0%83">11.3 代码生成微调&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#12-%E5%B8%B8%E8%A7%81%E9%97%AE%E9%A2%98%E4%B8%8E%E8%A7%A3%E5%86%B3%E6%96%B9%E6%A1%88">12. 常见问题与解决方案&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#121-%E8%AE%AD%E7%BB%83%E9%97%AE%E9%A2%98%E6%8E%92%E6%9F%A5">12.1 训练问题排查&lt;/a>&lt;/li>
&lt;li>&lt;a href="#122-%E5%86%85%E5%AD%98%E6%BA%A2%E5%87%BA%E8%A7%A3%E5%86%B3">12.2 内存溢出解决&lt;/a>&lt;/li>
&lt;li>&lt;a href="#123-%E6%80%A7%E8%83%BD%E4%BC%98%E5%8C%96%E6%8A%80%E5%B7%A7">12.3 性能优化技巧&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;/ul>
&lt;/li>
&lt;/ul>
&lt;/details>
&lt;h2 id="1-微调技术概述">1. 微调技术概述&lt;/h2>
&lt;h3 id="11-什么是大模型微调">1.1 什么是大模型微调&lt;/h3>
&lt;p>&lt;strong>大模型微调(Fine-tuning)&lt;/strong> 是在预训练大模型的基础上，使用特定任务的数据进行进一步训练，使模型适应特定领域或任务的技术。&lt;/p></description></item></channel></rss>