牛大妈在社招职位搜索QQ浏览器-大模型后训练算法工程师 有 3 条结果

招聘城市:北京
…偏好学习、强化学习等算法研发、优化与创新,提升业务效果;
2.研究各领域高质量数据的自动化合成方法,建设高效的线上数据飞轮链路;
3.跟踪模型训练方向的前沿技术,参与前沿算法研究,推动研究成果在业务场景的落地应用;
4.参与产品讨论,基于技术对产品提出改进建议。
岗位要求:
1.计算机科学、人工智能等相关专业硕士及以上学历;
2.具备良好的LLM技术基础,熟练使用深度学习训练和推理框架,深入理解Transformer、GPT等模型架构;
3.在Post-training方向有一定研究基础,熟悉SFT/DPO/PPO/GRPO/Reward Model等;熟悉数据合成技术;
4.具备良好的分析和解决问题的能力,针对具体的应用场景能合理设计和优化算法并应用;
5.对于…
招聘城市:北京
…偏好学习、强化学习等算法研发、优化与创新,提升业务效果;
2.研究各领域高质量数据的自动化合成方法,建设高效的线上数据飞轮链路;
3.跟踪模型训练方向的前沿技术,参与前沿算法研究,推动研究成果在业务场景的落地应用;
4.参与产品讨论,基于技术对产品提出改进建议。
岗位要求:
1.计算机科学、人工智能等相关专业硕士及以上学历;
2.具备良好的LLM技术基础,熟练使用深度学习训练和推理框架,深入理解Transformer、GPT等模型架构;
3.在Post-training方向有一定研究基础,熟悉SFT/DPO/PPO/GRPO/Reward Model等;熟悉数据合成技术;
4.具备良好的分析和解决问题的能力,针对具体的应用场景能合理设计和优化算法并应用;
5.对于…
招聘城市:深圳
…偏好学习、强化学习等算法研发、优化与创新,提升业务效果;
2.研究各领域高质量数据的自动化合成方法,建设高效的线上数据飞轮链路;
3.跟踪模型训练方向的前沿技术,参与前沿算法研究,推动研究成果在业务场景的落地应用;
4.参与产品讨论,基于技术对产品提出改进建议。
岗位要求:
1.计算机科学、人工智能等相关专业硕士及以上学历;
2.具备良好的LLM技术基础,熟练使用深度学习训练和推理框架,深入理解Transformer、GPT等模型架构;
3.在Post-training方向有一定研究基础,熟悉SFT/DPO/PPO/GRPO/Reward Model等;熟悉数据合成技术;
4.具备良好的分析和解决问题的能力,针对具体的应用场景能合理设计和优化算法并应用;
5.对于…