文章归档
这里是我所有文章的归档列表,按时间倒序排列。
2025
Prompt 第二弹
— 2025-10-06
(标签:分享、Prompt)
使用 DPO,DDPO,PPO 完成 LunarLander-v3
— 2025-06-15
(标签:RL)
十分钟上手 MCP
— 2025-06-12
(标签:分享、MCP)
Prompt 分享/关于 Prompt 的一些看法
— 2025-06-11
(标签:分享、Prompt)
西湖大学 RL 第六课:随机近似与随机梯度下降
— 2025-05-20
(标签:深度学习、强化学习)
西湖大学 RL 第五课:蒙特卡洛方法
— 2025-05-20
(标签:深度学习、强化学习)
西湖大学 RL 第七课:时序差分学习
— 2025-05-20
(标签:深度学习、强化学习)
交叉熵公式推导(为啥分类问题用交叉熵作为损失函数)
— 2025-02-12
(标签:深度学习、损失函数)
2004
我的第一篇笔记
— 2004-05-24
(标签:hugo、学习、博客)