大模型训练基础架构工程师,最近06月25日有更新,小红书,腾讯,哔哩哔哩,饿了么,2027社招职位,1000+条信息

小红书(xiaohongshu) 大模型训练基础架构工程师

2025-11-19 全职北京，上海

招聘城市：北京，上海
…模分布式训练通讯/计算/内存瓶颈。
3、通过Triton，TileLang计算图编译优化或者使用CUDA/cutlass编写高性能算子，将硬件性能压榨到极致，最大化发挥出CPU/GPU等异构硬件协同算力。
4、支撑业界领先的多模态模型在国内最大的生活兴趣社区上落地。
任职要求：
1. 有扎实的工程算法基础，精通数据结构和常用算法，熟练掌握各种编译、调试、性能分析工具。
2. 精通C/C++/CUDA，具备扎实的系统底层能力（内存、并发、网络）。
3. 有大规模分布式系统开发和优化经验；有大模型分布式训练经验者优先。
4. 精通MLIR/TVM/Triton/Torch Inductor/TileLang/Verbs/NCCL/NVSHMEM等分布式异构计算框架和相关工具链。
5. 精通Megatron/DeepSpeed/veRL/OpenRLHF/LLaMA-Factory等业界开源训练框架…

腾讯微信-基础大模型训练框架研发工程师

2025-10-11 全职北京

招聘城市：北京
岗位职责：
1.参与开发优化大模型训练框架，支持大规模高效稳定训练；
2.参与大模型结构设计，并联合业务进行模型训练效率和效果验证。
岗位要求：
1.熟练使用PyTorch框架，可对DDP训练的代码进行性能分析和优化；
2.熟练使用主流大模型训练框架DeepSpeed、Megatron，掌握3D并行、ZeRO机制、Flash-Attn等的原理、使用场景、优劣势以及可优化方向；
3.熟练掌握CUDA性能优化手段，有算子编写优化项目经验者优先；
4.对大模型前沿技术比较敏锐者优先；
5.有实际大模型的训练调参和效果评测项目经验的优先；
6.良好的沟通能力、解决问题能力。

小红书大模型训练框架研发工程师/专家

2026-02-09 全职上海，北京

招聘城市：上海，北京
…链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！
1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架，优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline；
2、研发支持多机多卡 RL 的分布式训练框架，开发TP/PP/ZeRO-3与RL流程的动态协同机制，解决 RL 算法在超长时序下的显存/通信瓶刭
3、构建端到端后训练…

腾讯大模型训练框架研发工程师-强化学习/精调/蒸馏方向

2026-01-19 全职上海

招聘城市：上海
…LM、DeepSpeed等工具，优化大模型分布式训练策略（数据并行/张量并行/流水并行/专家并行等），解决显存、通信与计算瓶颈；
3.工具链构建：参与开发轻量化训练框架（如LLama-Factory、swift），支持快速模型微调、部署及多硬件平台适配；
4.前沿技术探索：跟踪学术动态（如RLHF、MoE架构、FlashMLA、EPLB、DualPipe等），将最新研究成果转化为框架功能，提升产品竞争力；
5.协作与文档：与产品团队紧密配合，提供框架级解决方案；编写技术文档与案例，赋能公有云客户。
岗位要求：
1.计算机科学、数学、电子工程等相关专业硕士及以上学历，3年以上深度学习框架或工具链开发经验，精通Python，熟练使用C++；
2.有Megatron-LM、DeepSpeed等开源框架使用或二次开发经验，理解分布式训练…

腾讯(tencent) 大模型训练框架研发工程师-强化学习/精调/蒸馏方向

2026-06-25 全职北京

招聘城市：北京
…LM、DeepSpeed等工具，优化大模型分布式训练策略（数据并行/张量并行/流水并行/专家并行等），解决显存、通信与计算瓶颈；
3.工具链构建：参与开发轻量化训练框架（如LLama-Factory、swift），支持快速模型微调、部署及多硬件平台适配；
4.前沿技术探索：跟踪学术动态（如RLHF、MoE架构、FlashMLA、EPLB、DualPipe等），将最新研究成果转化为框架功能，提升产品竞争力；
5.协作与文档：与产品团队紧密配合，提供框架级解决方案；编写技术文档与案例，赋能公有云客户。
岗位要求：
1.计算机科学、数学、电子工程等相关专业硕士及以上学历，3年以上深度学习框架或工具链开发经验，精通Python，熟练使用C++；
2.有Megatron-LM、DeepSpeed等开源框架使用或二次开发经验，理解分布式训练…

腾讯(tencent) 大模型训练框架研发工程师-强化学习/精调/蒸馏方向

2026-06-25 全职杭州

招聘城市：杭州
…LM、DeepSpeed等工具，优化大模型分布式训练策略（数据并行/张量并行/流水并行/专家并行等），解决显存、通信与计算瓶颈；
3.工具链构建：参与开发轻量化训练框架（如LLama-Factory、swift），支持快速模型微调、部署及多硬件平台适配；
4.前沿技术探索：跟踪学术动态（如RLHF、MoE架构、FlashMLA、EPLB、DualPipe等），将最新研究成果转化为框架功能，提升产品竞争力；
5.协作与文档：与产品团队紧密配合，提供框架级解决方案；编写技术文档与案例，赋能公有云客户。
岗位要求：
1.计算机科学、数学、电子工程等相关专业硕士及以上学历，3年以上深度学习框架或工具链开发经验，精通Python，熟练使用C++；
2.有Megatron-LM、DeepSpeed等开源框架使用或二次开发经验，理解分布式训练…

小红书(xiaohongshu) 基础大模型算法专家

2026-03-10 全职上海，北京，杭州

招聘城市：上海，北京，杭州
…设计、router replay、RL算法创新，显著提升alignment阶段模型生成能力；
3、数据&评测：持续改进数据体系pipeline，包括：数据收集、清洗、去重和配比等，合成各种高质量agentic/reasoning训练数据，提升模型通用能力；持续完善大模型评估体系和Bench，能有效评估STEM、math、code、知识、指令跟随、多语言等维度能力。
任职要求：
1、背景：计算机、电子、数学等相关专业硕士/博士；深入理解大模型训练、推理和数据构建流程； -
2、专业深耕：在预训练（数据配比，模型结构，AI Infra）、SFT（e.g. 数据合成、拒绝采样）、强化学习（e.g. Reward Model，GRPO/PPO）或模型推理（e.g. 投机解码）等领域有深厚积累； -
3、工程能力：熟练使用 PyTorch，有Megatron-LM、FDPS、Verl、SGlang 等大规模分布式训练和推理实战经验；
4、加…

小红书(xiaohongshu) 大模型推理服务架构工程师-hi lab

2026-05-16 全职北京，上海，广州

招聘城市：北京，上海，广州
岗位职责：
职位描述
团队专注于大模型机器学习系统领域的前沿技术研究和落地，提供高性能、高可靠、可扩展的机器学习系统、丰富的异构计算资源和极致的端到端的机器学习服务体验，为公司提供核心技术能力和服务。
1、负责大模型推理服务的研究与开发，服务于公司各个产品；
2、负责端到端解决大模型预训练、微调对齐阶段的工程、算法问题，为结果负责
任职要求：
1、熟练掌握Linux环境下的C/C++、Python语言；
2、具备扎实的计算机科学功底和编程能力，熟悉常见算法和数据结构，具有良好的编程习惯；
3、能够熟练使用至少一种主流的机器学习框架(TensorFlow / PyTorch等)，熟悉框架内部实现；
4、熟悉Transformer模型及其应用场景
5、熟悉…

腾讯(tencent) 微信 -大模型后台开发工程师-后训练方向

2026-02-27 全职北京

招聘城市：北京
…模型相关业务功能开发，基础框架与工具建设等；
4.跟踪前沿技术，推动研究成果在业务场景的落地。
岗位要求：
1.计算机相关专业，本科及以上学历；
2.熟悉 linux 开发环境，优秀的 C++ 编程经验，熟练掌握常用数据结构与算法，有一定的软件工程能力和良好的编程能力；
3.了解常见的深度学习训练框架（如 HuggingFace，Megatron，DeepSpeed，PyTorch) 以及推理框架（如 VLLM、SGLang、TRT）；
4.具备良好的逻辑思维、快速学习能力、分析和解决问题的能力；
5.对于探索前沿技术有很好的热情，具备独立探索前沿技术的能力，有良好的团队协作和沟通能力。
加分项：
1.主导过基座大模型后训练项目，并在性能优化、稳定性优化方面取得过显著成效；
2.了解 GPU 硬件架构…

小红书大模型算法工程师

2026-02-15 全职北京，上海

招聘城市：北京，上海
…新一代大语言模型基座架构，完成扩散模型（diffusion model）在大语言模型的重塑，突破逐个token预测的方式，实现高效的推理模式，探索全新scaling law；
2、实现大模型训练的数据清洗、合成和评估；设计和实现大模型训练的AI Infra框架。
任职要求：
1、本科及以上学历，计算机、人工智能和数学等相关专业，博士研究生优先；
2、熟练掌握扩散模型设计和使用技巧，在知名大模型公司/团队从事图像或视频生成者优先，有多模态/OMNI大模型理解&生成统一框架经验者优先；
3、有丰富的大模型预训练和后训练数据处理经验，熟练掌握数据收集、数据清洗、数据去重和数据合成等流程，能针对数据质量制定出评估指标和方法，在知名大模型…

哔哩哔哩(bilibili|b站) 大模型数据开发工程师

2026-04-02 全职上海

招聘城市：上海
…的配置化流水线引擎，支持原子算子的快速编排，并持续优化全链路的数据处理速度和资源效率，快速响应算法团队的数据需求。
5、质量与评估体系：建立数据质量监控与评估体系，确保输出数据集的洁净度、一致性与有效性，并能量化数据质量对最终模型效果的影响。
工作要求:
1、计算机科学、软件工程、大数据或相关专业本科及以上学历，有3年以上数据开发或算法工程经验。
2、精通Python，熟练使用Pandas、PyTorch等数据处理和深度学习框架，必须具备构建或优化训练数据Dataloader的实际经验。
3、深入理解多模态数据的特性及处理技术，具备丰富的数据建模和数据架构经验，能够设计统一、高效的数据处理抽象。
4、有使用Spark…

小红书(xiaohongshu) Hi Lab-大模型预训练算法工程师

2026-01-21 全职北京，上海

招聘城市：北京，上海
…策略、模型能力、下游任务的全链路归因能力
建立并持续完善的数据质量、多样性、重复度、覆盖率等评估体系，分析和量化每个维度的影响
针对模型核心能力进行重点强化，包括不限于数学、推理、Code、Agent、ICL、OCR等
探索如何使用更少数据量，达到同样模型能力的策略，持续提升per token的通用能力训练效果
探索基于各类策略
任职要求：
对大模型方向充满兴趣，且能充分意识到数据对于模型能力的重要价值和数据侧的巨大空间
有很好的数据感觉，对人类文明积累下来的优质数据分布有很好的判断
有很好的NLP/多模态经验，在数据和算法方向上有深度的工作
工程能力强，有大规模数据处理的经验

小红书(xiaohongshu) 大模型 Infra 全栈研发工程师/专家

2026-04-23 全职北京，上海，杭州

招聘城市：北京，上海，杭州
…芯片架构、通信机制与 Kernel 性能调优，并能在大规模集群场景下解决关键瓶颈：
（1）熟悉底层硬件架构（如 Nvidia GPU 或昇腾 NPU 的 Tensor Core、内存层级体系）与基础软件栈（CUDA / ROCm / CANN）。
（2）掌握 NCCL / RDMA / IB / RoCE 等高性能网络通信机制，能解决千卡规模下的跨节点通信瓶颈。
（3）具备高性能 CUDA Kernel 相关研发经验，能熟练使用 Nsight Systems/Compute 等工具进行 Profiling 与算子优化。
加分项：
1.参与过主流开源大模型框架（如Megatron、veRL 、vLLM、SGLang、DeepSpeed等）的代码贡献与架构设计。
2.在大规模集群建设中，成功解决过跨机房通信、动态容错训练、或国产化异构芯片大规模业务替代等生产级难题。
3.具备较高的代码品味和工程…

腾讯(tencent) 元宝-大模型训练工程师

2026-03-05 全职深圳

招聘城市：深圳
…
3.系统设计与优化：设计并搭建分布式训练框架，跟平台协作，支持千亿级参数大模型的训练；
4.性能调优与成本优化：针对大模型训练任务，优化框架（如PyTorch/VERL等）的分布式策略，提升训练效率；
5.稳定性与可靠性保障：设计高可用架构，解决训练中断、数据丢失等风险，确保长周期训练任务的稳定性；
6.协作与落地：与算法团队紧密合作，理解模型需求，提供基础设施层面的技术建议；推动开源工具的定制化开发，适配业务场景。
岗位要求：
1.计算机科学、分布式系统或相关专业硕士及以上学历，2年以上大模型Infra领域经验；
2.精通PyTorch，熟悉其底层原理与分布式扩展机制；
3.至少熟练使用一种开源训练框架（VERL， ROLL， ms…

腾讯(tencent) 微信-WeLM 大模型预训练框架研发工程师（深圳、上海）

2026-02-27 全职北京

招聘城市：北京
…从数据处理到训练部署的全流程自动化解决方案。
岗位要求：
1.计算机科学、人工智能、模式识别、计算语言学等相关专业硕士及以上学历；
2.精通一种或多种主流深度学习框架（PyTorch、JAX、TensorFlow），具备大规模分布式训练经验；
3.熟悉Transformer系列架构，理解其在语言、语音、视觉等方向的模型原理与实现；
4.了解 LLM 的训练流程，有 Megatron, DeepSpeed 等大规模训练框架使用经验者优先；
5.对RL/RLHF、偏好学习、奖励建模有实践经验者优先；
6.具备扎实的工程实现能力与代码规范意识，熟悉CUDA优化、参数并行、流水线并行等技术；
7.具备良好的团队协作与沟通能力，热爱探索与创新。
加分项：
1.在 GitHub 等平台持续参与主流大模型 / 分布式训练…

饿了么(ele) 淘宝闪购-大模型训练-多模态大模型训练

2026-02-26 全职上海

招聘城市：上海
…优化。
5. Agentic AI训练。与已有Agent系统联动，构造高吞吐，可调用外部信息的，可训练的大模型系统。
任职要求：
1. 硕士及以上学历，计算机、人工智能、电子信息等相关专业优先；
2. 2年以上算法相关工作经验，具备多模态模型训练或大模型研发经验者优先；
3. 熟悉Python编程语言，掌握TensorFlow/PyTorch等主流深度学习框架之一；
4. 具备良好的算法基础和工程实现能力，熟悉图像、文本等多模态数据处理方法；
5. 对AI前沿技术有持续关注，具备较强的问题分析与解决能力；
6. 良好的沟通能力和团队协作意识，能够跨团队推动项目落地。
加分项：
1. 有大规模多模态模型训练经验者优先；
2. 熟悉模型压缩、推理加速等相关技术者优先…

腾讯(tencent) 元宝-大模型训练工程师

2026-02-03 全职北京

招聘城市：北京
…
3.系统设计与优化：设计并搭建分布式训练框架，跟平台协作，支持千亿级参数大模型的训练；
4.性能调优与成本优化：针对大模型训练任务，优化框架（如PyTorch/VERL等）的分布式策略，提升训练效率；
5.稳定性与可靠性保障：设计高可用架构，解决训练中断、数据丢失等风险，确保长周期训练任务的稳定性；
6.协作与落地：与算法团队紧密合作，理解模型需求，提供基础设施层面的技术建议；推动开源工具的定制化开发，适配业务场景。
岗位要求：
1.计算机科学、分布式系统或相关专业硕士及以上学历，2年以上大模型Infra领域经验；
2.精通PyTorch，熟悉其底层原理与分布式扩展机制；
3.至少熟练使用一种开源训练框架（VERL， ROLL， ms…

腾讯(tencent) 大模型训推优化工程师（深圳/北京）

2026-03-06 全职北京

招聘城市：北京
…有训练调参和性能评测经验；
2.熟悉主流大模型推理框架（vLLM、SGLang等），具备在推理上进行通信优化、并行计算、存储优化等调优能力；
3.熟悉主流AI芯片（GPU H100、Ascent）架构特性和相关profiling工具，有CUDA编程、编译分析、运行时分析等经验；
4.熟悉大规模训推的可观测建设、诊断分析、故障解决，有稳定性治理经验优先；
5.有良好的沟通、解决问题能力，能主动探索业界前沿技术。
岗位介绍：
在腾讯，后台开发工程师不仅是“又快又稳”的问题解决专家，更是生态共创者。你将与技术团队一同沉淀优质代码，让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段，你的架构思维也将帮助更多协作团队拓展新…

小红书搜广推-ps方向训练框架研发工程师

2026-02-02 全职上海，北京

招聘城市：上海，北京
…存储等关键路径，实现极致的端到端训练性能；
4、与算法团队紧密合作，理解前沿模型（如大语言模型、推荐系统、多模态模型）对训练基础设施的需求，并将其转化为系统级的创新与优化；
5、负责GPU/XPU计算资源的精细调度与性能优化，深入挖掘硬件潜力，降低训练成本。
任职要求：
1、优秀的代码能力、数据结构和基础算法功底，熟悉C++开发，理解大规模分布式应用系统和平台；
2、熟悉至少一种主流的深度学习训练或推理框架（TensorFlow / PyTorch / Onnx / TensorRT等）的原理和实现；
3、深入理解并拥有大规模参数服务和分布式系统的实践经验，熟悉其架构、一致性协议与性能调优。
4、参与推理/训练参数服务器的迭代优化，优化GPU…

小红书(xiaohongshu) 【hi lab】通用基座大模型算法工程师-Posttrain

2026-03-17 全职北京，上海，杭州

招聘城市：北京，上海，杭州
…系统
构建“可训练的 Agent 系统”，而不仅是工具调用的外壳
设计 Agent 的记忆、学习、反思与策略更新机制
将 Agent 视为一个持续演化的产品级智能体
5. 新范式与新架构探索
对现有 Attention、NTP 等范式保持批判性思考，例如探索全新的
探索新架构、新目标函数、新训练范式在 Post-Training 中的可能性
参与从模型 → 推理过程 → 自学习环境（System-level Scaling）的演进
任职要求：
基础要求
扎实的机器学习 / 深度学习基础，对模型训练全流程有深入理解
熟悉至少一个方向：
强化学习（RL Scaling / RLAIF / Online RL 等）
多模态学习（尤其是视频、时序、感知建模）
Agent / 多智能体系统
良好的工程能力，能将研究想法落地为稳定系统
加分项
有大模型 Post-Training…

牛大妈在社招职位搜索大模型训练基础架构工程师 有 1000+ 条结果

牛大妈在社招职位搜索大模型训练基础架构工程师有 1000+ 条结果