又弯道超车了是吧?赢麻
全球掀DeepSeek复现狂潮!硅谷巨头神话崩塌,30刀见证啊哈时刻
就在这当口,全球复现DeepSeek的一波狂潮也来了。更令人兴奋的是,成本不到30美金,就可以亲眼见证「啊哈」时刻。7B模型复刻,结果令人惊讶港科大助理教授何俊贤的团队,只用了8K个样本,就在7B模型上复刻出了DeepSeek-R1-Zero和DeepSeek-R1的训练。与DeepSeek R1类似,研究者的强化学习方案极其简单,没有使用奖励模型或MCTS类技术。随后,生成长度开始再次增加,此时出现了自我反思机制。
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。
5
举报
登录后可参与评论

暂无评论