文章归档
这里是我所有文章的归档列表,按时间倒序排列。
2025
- Prompt 第二弹 · 2025-10-06 · 标签:分享、Prompt
- 使用 DPO,DDPO,PPO 完成 LunarLander-v3 · 2025-06-15 · 标签:RL
- 十分钟上手 MCP · 2025-06-12 · 标签:分享、MCP
- Prompt 分享/关于 Prompt 的一些看法 · 2025-06-11 · 标签:分享、Prompt
- 我的第一篇笔记 · 2025-05-24 · 标签:hugo、学习、博客
- 西湖大学 RL 第五课:蒙特卡洛方法 · 2025-05-20 · 标签:深度学习、强化学习
- 西湖大学 RL 第七课:时序差分学习 · 2025-05-20 · 标签:深度学习、强化学习
- 西湖大学 RL 第六课:随机近似与随机梯度下降 · 2025-05-20 · 标签:深度学习、强化学习
- 交叉熵公式推导(为啥分类问题用交叉熵作为损失函数) · 2025-02-12 · 标签:深度学习、损失函数