課程簡介
■SFT(Supervised Fine-tuning,監(jiān)督微調(diào))的原理、數(shù)據(jù)構(gòu)建與常見問題。
■參數(shù)高效微調(diào)(PEFT)方法:
■LoRA、QLoRA、Prompt Tuning、P-Tuning等核心PEFT技術(shù)講解。
■不同PEFT方法的選擇與適用場景。
■結(jié)合PyTorch/TensorFlow等框架實現(xiàn)PEFT的案例分析。
目標收益
培訓對象
課程大綱
第一單元 提示工程學習(完成時長:0.5小時) |
1.1 提示工程原理及意義 1.2 提示工程Prompt模板設(shè)計原則及相關(guān)技巧 1.3 提示工程師學習成長路徑 |
第二單元 大模型SFT微調(diào)關(guān)鍵技術(shù)(完成時長1.5小時) |
2.1 全量微調(diào)技術(shù)分析 2.2 lora與Qlora技術(shù)分析 2.3 Prompt tuning與P-Tuning技術(shù)分析 2.4 各類SFT綜合對比分析 |
第三單元 大模型RL對齊關(guān)鍵技術(shù)(完成時長1小時) |
3.1強化學習理論綜述 3.2 RLHF關(guān)鍵技術(shù)解析 3.3 PPO關(guān)鍵技術(shù)解析 3.4 DPO關(guān)鍵技術(shù)解析 3.5 GRPO 關(guān)鍵技術(shù)研究 3.6 強化學習算法綜合對比分析 |
第四單元 大模型開發(fā)技術(shù)棧介紹(完成時長:1小時) |
4.1pytorch實戰(zhàn)介紹 4.2transformers框架介紹 4.3trl訓練類庫介紹 4.4華為昇騰框架介紹 |
第五單元 大模型微調(diào)實戰(zhàn)(完成時長:如:2小時) |
5.1 TRL框架介紹 5.2 LLM-SFT微調(diào)代碼解讀(全量與lora) 5.3 LLM-RL微調(diào)代碼解讀(PPO與GRPO) 5.4 分布式訓練代碼解讀 |
第一單元 提示工程學習(完成時長:0.5小時) 1.1 提示工程原理及意義 1.2 提示工程Prompt模板設(shè)計原則及相關(guān)技巧 1.3 提示工程師學習成長路徑 |
第二單元 大模型SFT微調(diào)關(guān)鍵技術(shù)(完成時長1.5小時) 2.1 全量微調(diào)技術(shù)分析 2.2 lora與Qlora技術(shù)分析 2.3 Prompt tuning與P-Tuning技術(shù)分析 2.4 各類SFT綜合對比分析 |
第三單元 大模型RL對齊關(guān)鍵技術(shù)(完成時長1小時) 3.1強化學習理論綜述 3.2 RLHF關(guān)鍵技術(shù)解析 3.3 PPO關(guān)鍵技術(shù)解析 3.4 DPO關(guān)鍵技術(shù)解析 3.5 GRPO 關(guān)鍵技術(shù)研究 3.6 強化學習算法綜合對比分析 |
第四單元 大模型開發(fā)技術(shù)棧介紹(完成時長:1小時) 4.1pytorch實戰(zhàn)介紹 4.2transformers框架介紹 4.3trl訓練類庫介紹 4.4華為昇騰框架介紹 |
第五單元 大模型微調(diào)實戰(zhàn)(完成時長:如:2小時) 5.1 TRL框架介紹 5.2 LLM-SFT微調(diào)代碼解讀(全量與lora) 5.3 LLM-RL微調(diào)代碼解讀(PPO與GRPO) 5.4 分布式訓練代碼解讀 |