混元强化训练框架研发工程师深圳北京上海杭州,最近06月26日有更新,腾讯,2027社招职位,11条信息

腾讯(tencent) 混元强化训练框架研发工程师（深圳/北京/上海）

2026-06-02 全职北京

招聘城市：北京
…Agent框架的研发与维护，支持强化学习、数据生成及自动化评估等业务需求；
2.负责优化框架的易用性与稳定性，解决实际运行中的性能瓶颈，保障实验流程的高效执行；
3.支持各类外部Agent策略及评估逻辑的接入，维护相关接口与组件，确保系统的兼容性与扩展性；
4.结合大模型训练视角，配合算法团队进行新Agent范式的工程化落地与探索。
岗位要求：
1.具备扎实的Python编程能力，熟悉异步编程（Asyncio）及并发处理的最佳实践，有良好的代码规范意识；
2.熟悉大模型与Agent相关应用技术，熟练使用AI编程工具并理解其工作原理；
3.熟悉K8S及容器化技术，具备相关环境下的开发或部署经验；
4.了解大模型训练全…

腾讯(tencent) 混元强化训练框架研发工程师（深圳/北京/上海/杭州）

2025-12-18 全职深圳

招聘城市：深圳
…熟悉PyTorch、Megatron等框架，掌握3D并行、ZeRO机制、Flash-Attn等的原理、使用场景、优劣势以及可优化方向；
2.熟悉使用主流推理框架，如vLLM、SGLang，掌握kvcache、量化、投机采样、算子优化等推理优化方法；
3.熟悉常见RL训练算法，如DPO、GRPO、PPO等，理解不同算法的差别和使用场景；
4.熟悉Ray框架，有Ray框架优化经验者优先；
5.熟练掌握CUDA性能优化手段，有算子编写优化项目经验者优先；
6.对大模型、强化学习前沿技术比较敏锐者优先；
7.有实际大模型RL训练，性能和效果优化经验的优先；
8.良好的沟通能力、解决问题能力。
岗位介绍：
在腾讯，后台开发工程师不仅是“又快又稳”的问题解决专家，更是生态共创者。你将与技术团队一同沉淀…

腾讯(tencent) 混元Agent强化学习框架工程师（深圳/北京/上海）

2026-06-02 全职北京

招聘城市：北京
…日志 Trace 和结果评估等核心链路；
3.熟悉 Kubernetes 和容器化技术，具备在集群环境下进行开发、部署、排障或性能优化的经验；
4.了解大模型训练流程和基本原理，包括预训练、SFT、RLHF、强化学习训练或自动化评估中的至少一类；
5.具备良好的软件工程能力，重视模块化设计、测试、日志、性能和稳定性治理；
6.具备良好的问题分析及解决能力、沟通合作能力和 owner 意识，能高频承接算法团队需求并持续迭代。
加分项：
1.熟练使用 AI 编程工具，并理解其工作原理、适用边界和工程落地方式；
2.有 Agent 框架、AI Coding CLI、强化学习环境或评测框架经验；
3.有研发效能平台、Review / Debug / Monitor、实验结果分析、问题追踪或知识库工具建设经验；
4…

腾讯(tencent) 混元大语言模型后训练算法工程师-深圳/北京

2026-01-14 全职深圳

招聘城市：深圳
…1.负责大语言模型后训练（Post-Training）阶段的核心技术研发，构建和优化高质量的奖励系统（Reward System），通过Reward Modeling (RM) 和强化学习（RL）算法持续提升模型在复杂指令遵循、逻辑推理及价值观对齐方面的能力；
2.深入研究和优化 RLHF等后训练算法，提升模型训练的稳定性和最终效果；
3.负责后训练阶段的数据合成与管理，设计高效的数据飞轮机制，利用SFT、Self-Instruct等技术合成高质量训练数据，并负责建立从用户反馈（User Feedback）到模型迭代的闭环信号建模体系；
4.负责后训练模型的全维度评测与分析，制定科学的评价指标，跟进前沿技术动态，将最新研究成果快速转化为业务价值。
岗位要求：
1.计算机科学/软件工程/人工智能…

腾讯混元大语言模型精调算法工程师-代码方向-深圳/北京

2026-01-08 全职深圳

招聘城市：深圳
…的技术研究，提升大模型的代码基础能力；
2.跟进大模型代码领域的前沿技术，将其应用于研发生产中，持续提升大模型的代码能力；
3.负责大模型的代码相关的数据构建、训练调优及评测迭代，推进大模型技术在代码补全,Text2SQL,代码问答,代码Agent等业务场景落地。
岗位要求：
1.自然语言处理/机器学习/模式识别/人工智能/计算机等相关专业硕士以上学历；
2.在NLP、LLM、深度学习、强化学习方面有一定研究基础，熟悉主流模型和算法，并有一定的实践经验；
3.较强的工程实现能力，熟练掌握C/C++，Python等至少一种语言，有实际编程项目经验，熟悉DeepSpeed、Megatron等分布式训练框架，熟练使用至少一种深度学习框架(如tensorflow，pytorch等)；
4…

腾讯(tencent) 混元Agent数据与环境平台工程师（深圳/北京/上海）

2026-06-02 全职北京

招聘城市：北京
…框架能力协同设计，支持超长任务、复杂系统任务、多轮用户环境和环境依赖型数据集；
4.打通数据集、任务框架、沙盒环境、训练流程和评测结果之间的链路，提升数据使用的可追踪性、可复现性和交付效率。
岗位要求：
1.精通 Python，具备扎实的软件工程能力与系统设计能力，能在复杂系统中推进架构落地；
2.熟练掌握 Docker 容器化交付体系，理解镜像构建优化、依赖隔离、网络/存储、制品/镜像仓库等能力，并能设计可复现的环境交付流程；
3.熟悉 Kubernetes 使用与排障，能在集群环境下完成部署治理、资源配置和稳定性问题定位；
4.有后端服务、数据平台、任务平台、机器学习平台或评测平台相关研发经验；
5.理解数据集管理中的版本、元…

腾讯(tencent) 混元多模态大模型强化学习后训练框架研发工程师（北京）

2026-03-03 全职深圳

招聘城市：深圳
岗位职责：
1.负责混元多模态大模型的RL后训练框架研发；
2.设计和开发高效的框架和算子，以支持各种硬件加速器；
3.参与强化学习算法的优化和实现，提高训练和推理性能；
4.跨团队协作，与算法、软件、硬件团队密切合作，提高框架性能和稳定性。
岗位要求：
1.熟悉常用的大模型训练推理框架，如PyTorch/Megatron/VLLM/Verl，有相关开发经验；
2.熟悉Docker、Kubernetes等容器和容器编排技术；
3.熟悉编译器相关技术，了解MLIR/XLA/TVM等AI编译器者优先考虑；
4.熟悉CPU/GPU硬件架构，有扎实的CUDA/OpenMP编程基础；
5.良好的团队协作能力和沟通能力，具有较强的自我驱动能力。

腾讯(tencent) 混元大模型音频理解算法工程师（北京）

2026-04-27 全职深圳

招聘城市：深圳
岗位职责：
1.负责语音/音频大模型研发，包括音频理解（ASR/音频caption）、音视频理解等模型研发；
2.负责预训练、后训练、强化学习（文本和音频强化）相关的数据、算法、评测工作；
3.负责音频理解/ASR模型开源以及产品落地（比如产品全链路端到端优化、音频理解在噪音/口音/远场/音效音乐场景的优化）。
岗位要求：
1.有语音识别、音频理解、音乐理解等相关经验者优先；
2.有音视频多模态、大语言模型（预训练、微调、强化学习）等相关经验者优先；
3.优秀的代码能力、数据结构和算法功底，熟练掌握Python，熟悉Pytorch/Megatron/FSDP等模型训练框架、熟悉SLIME/VERL等RL框架优先；
4.有ACM/ICPC、NOI/IOI、Top Coder、Kaggle等比赛获奖者优先；
5.在相关顶级会议…

腾讯(tencent) 混元大模型语音算法工程师（北京/上海）

2026-03-03 全职深圳

招聘城市：深圳
…负责语音/音频大模型研发，包括语音对话（语音交互/音视频对话）、音频理解（ASR/音频caption）、音频生成（TTS/视频配音）等模型研发；
2.负责语音/音频大模型的预训练、后训练、强化学习（文本和音频强化）相关的数据和算法工作；
3.负责语音对话/音频理解/音频生成的模型开源以及产品落地（比如语音对话产品全链路端到端优化、音频理解在噪音/口音/远场/音效音乐场景的优化、语音合成在播报/闲聊/游戏/社交等场景的优化）。
岗位要求：
1.有语音对话、语音合成、语音识别、音视频多模态、大语言模型（预训练、微调、强化学习）等相关经验者优先；
2.优秀的代码能力、数据结构和算法功底，熟练掌握Python或C/C++，熟悉Pytorch/Megatron/DeepSpeed等模型训练框架，有ACM…

腾讯(tencent) 混元大模型后训练算法工程师/专家-agent

2026-06-26 全职北京

招聘城市：北京
…机制，定向进行数据补充与配方调整，实现“评测发现问题-数据定向强化-效果闭环提升”，持续驱动模型核心能力的演进；
3.深度追踪与研究用于支撑大模型后训练与 Agent 能力提升的前沿数据技术，关注数据自动生成、复杂轨迹数据构建、多模态与多智能体互动等方向，能够将最新数据相关成果快速转化为业务价值。
岗位要求：
1.计算机科学、人工智能或相关专业硕士及以上学历，具备大模型数据工程或模型训练实际项目经验；
2.深入理解 Transformer 架构及大语言模型训练原理，具备丰富的数据经验，能针对 LLM Alignment、RLHF等后训练场景，设计高标准数据方案，有项目实战经验；
3.深入实践过 ReAct、Reflexion 等前沿 Agent 推理框架，能够深度剖析 Agent 运行轨迹，系统…

腾讯(tencent) 混元大模型后训练算法工程师/专家-coding

2026-06-26 全职北京

招聘城市：北京
…实现“评测发现问题-数据定向强化-效果闭环提升”，持续驱动模型代码核心能力的演进；
3.追踪与研究支撑大模型后训练与 Coding 能力提升的前沿技术，关注基于执行反馈的强化学习（RLAIF/RLCE）、代码自验证生成、AI SWE等方向，能够将最新代码数据相关的研究成果快速转化为业务价值。
岗位要求：
1.计算机科学、软件工程、人工智能或相关专业硕士及以上学历，具备大模型数据工程或Code LLM等实际项目经验；
2.深入理解 Transformer 架构及大语言模型训练原理，具备丰富的数据处理经验。能针对Code SFT、代码偏好对齐等后训练场景，设计高标准数据方案，有项目实战经验；
3.深入实践过 CodeAct、SWE-agent、LATS、AlphaCode等前沿代码推理与自动化框架者优先…

牛大妈在社招职位搜索混元强化训练框架研发工程师深圳 北京 上海 杭州 有 11 条结果

牛大妈在社招职位搜索混元强化训练框架研发工程师深圳北京上海杭州有 11 条结果