招聘城市:北京,上海
…模分布式训练通讯/计算/内存瓶颈。
3、通过Triton,TileLang计算图编译优化或者使用CUDA/cutlass编写高性能算子,将硬件性能压榨到极致,最大化发挥出CPU/GPU等异构硬件协同算力。
4、支撑业界领先的多模态模型在国内最大的生活兴趣社区上落地。
任职要求:
1. 有扎实的工程算法基础,精通数据结构和常用算法,熟练掌握各种编译、调试、性能分析工具。
2. 精通C/C++/CUDA,具备扎实的系统底层能力(内存、并发、网络)。
3. 有大规模分布式系统开发和优化经验;有大模型分布式训练经验者优先。
4. 精通MLIR/TVM/Triton/Torch Inductor/TileLang/Verbs/NCCL/NVSHMEM等分布式异构计算框架和相关工具链。
5. 精通Megatron/DeepSpeed/veRL/OpenRLHF/LLaMA-Factory等业界开源训练框架…
招聘城市:北京
岗位职责:
1.参与开发优化大模型训练框架,支持大规模高效稳定训练;
2.参与大模型结构设计,并联合业务进行模型训练效率和效果验证。
岗位要求:
1.熟练使用PyTorch框架,可对DDP训练的代码进行性能分析和优化;
2.熟练使用主流大模型训练框架DeepSpeed、Megatron,掌握3D并行、ZeRO机制、Flash-Attn等的原理、使用场景、优劣势以及可优化方向;
3.熟练掌握CUDA性能优化手段,有算子编写优化项目经验者优先;
4.对大模型前沿技术比较敏锐者优先;
5.有实际大模型的训练调参和效果评测项目经验的优先;
6.良好的沟通能力、解决问题能力。
招聘城市:上海,北京
…链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地!
1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline;
2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭
3、构建端到端后训练…
招聘城市:上海
…LM、DeepSpeed等工具,优化大模型分布式训练策略(数据并行/张量并行/流水并行/专家并行等),解决显存、通信与计算瓶颈;
3.工具链构建:参与开发轻量化训练框架(如LLama-Factory、swift),支持快速模型微调、部署及多硬件平台适配;
4.前沿技术探索:跟踪学术动态(如RLHF、MoE架构、FlashMLA、EPLB、DualPipe等),将最新研究成果转化为框架功能,提升产品竞争力;
5.协作与文档:与产品团队紧密配合,提供框架级解决方案;编写技术文档与案例,赋能公有云客户。
岗位要求:
1.计算机科学、数学、电子工程等相关专业硕士及以上学历,3年以上深度学习框架或工具链开发经验,精通Python,熟练使用C++;
2.有Megatron-LM、DeepSpeed等开源框架使用或二次开发经验,理解分布式训练…
招聘城市:北京
…LM、DeepSpeed等工具,优化大模型分布式训练策略(数据并行/张量并行/流水并行/专家并行等),解决显存、通信与计算瓶颈;
3.工具链构建:参与开发轻量化训练框架(如LLama-Factory、swift),支持快速模型微调、部署及多硬件平台适配;
4.前沿技术探索:跟踪学术动态(如RLHF、MoE架构、FlashMLA、EPLB、DualPipe等),将最新研究成果转化为框架功能,提升产品竞争力;
5.协作与文档:与产品团队紧密配合,提供框架级解决方案;编写技术文档与案例,赋能公有云客户。
岗位要求:
1.计算机科学、数学、电子工程等相关专业硕士及以上学历,3年以上深度学习框架或工具链开发经验,精通Python,熟练使用C++;
2.有Megatron-LM、DeepSpeed等开源框架使用或二次开发经验,理解分布式训练…
招聘城市:杭州
…LM、DeepSpeed等工具,优化大模型分布式训练策略(数据并行/张量并行/流水并行/专家并行等),解决显存、通信与计算瓶颈;
3.工具链构建:参与开发轻量化训练框架(如LLama-Factory、swift),支持快速模型微调、部署及多硬件平台适配;
4.前沿技术探索:跟踪学术动态(如RLHF、MoE架构、FlashMLA、EPLB、DualPipe等),将最新研究成果转化为框架功能,提升产品竞争力;
5.协作与文档:与产品团队紧密配合,提供框架级解决方案;编写技术文档与案例,赋能公有云客户。
岗位要求:
1.计算机科学、数学、电子工程等相关专业硕士及以上学历,3年以上深度学习框架或工具链开发经验,精通Python,熟练使用C++;
2.有Megatron-LM、DeepSpeed等开源框架使用或二次开发经验,理解分布式训练…
招聘城市:上海,北京,杭州
…设计、router replay、RL算法创新,显著提升alignment阶段模型生成能力;
3、数据&评测:持续改进数据体系pipeline,包括:数据收集、清洗、去重和配比等,合成各种高质量agentic/reasoning训练数据,提升模型通用能力;持续完善大模型评估体系和Bench,能有效评估STEM、math、code、知识、指令跟随、多语言等维度能力。
任职要求:
1、背景: 计算机、电子、数学等相关专业硕士/博士;深入理解大模型训练、推理和数据构建流程; -
2、专业深耕:在预训练(数据配比,模型结构,AI Infra)、SFT(e.g. 数据合成、拒绝采样)、强化学习(e.g. Reward Model,GRPO/PPO) 或 模型推理(e.g. 投机解码)等领域有深厚积累; -
3、工程能力:熟练使用 PyTorch,有Megatron-LM、FDPS、Verl、SGlang 等大规模分布式训练和推理实战经验;
4、加…
招聘城市:北京,上海,广州
岗位职责:
职位描述
团队专注于大模型机器学习系统领域的前沿技术研究和落地,提供高性能、高可靠、可扩展的机器学习系统、丰富的异构计算资源和极致的端到端的机器学习服务体验,为公司提供核心技术能力和服务。
1、负责大模型推理服务的研究与开发,服务于公司各个产品;
2、负责端到端解决大模型预训练、微调对齐阶段的工程、算法问题,为结果负责
任职要求:
1、熟练掌握Linux环境下的C/C++、Python语言;
2、具备扎实的计算机科学功底和编程能力,熟悉常见算法和数据结构,具有良好的编程习惯;
3、能够熟练使用至少一种主流的机器学习框架(TensorFlow / PyTorch等),熟悉框架内部实现;
4、熟悉Transformer模型及其应用场景
5、熟悉…
招聘城市:北京
…模型相关业务功能开发,基础框架与工具建设等;
4.跟踪前沿技术,推动研究成果在业务场景的落地。
岗位要求:
1.计算机相关专业,本科及以上学历;
2.熟悉 linux 开发环境,优秀的 C++ 编程经验,熟练掌握常用数据结构与算法,有一定的软件工程能力和良好的编程能力;
3.了解常见的深度学习训练框架(如 HuggingFace,Megatron,DeepSpeed,PyTorch) 以及推理框架(如 VLLM、SGLang、TRT);
4.具备良好的逻辑思维、快速学习能力、分析和解决问题的能力;
5.对于探索前沿技术有很好的热情,具备独立探索前沿技术的能力,有良好的团队协作和沟通能力。
加分项:
1.主导过基座大模型后训练项目,并在性能优化、稳定性优化方面取得过显著成效;
2.了解 GPU 硬件架构…
招聘城市:北京,上海
…新一代大语言模型基座架构,完成扩散模型(diffusion model)在大语言模型的重塑,突破逐个token预测的方式,实现高效的推理模式,探索全新scaling law;
2、实现大模型训练的数据清洗、合成和评估;设计和实现大模型训练的AI Infra框架。
任职要求:
1、本科及以上学历,计算机、人工智能和数学等相关专业,博士研究生优先;
2、熟练掌握扩散模型设计和使用技巧,在知名大模型公司/团队从事图像或视频生成者优先,有多模态/OMNI大模型理解&生成统一框架经验者优先;
3、有丰富的大模型预训练和后训练数据处理经验,熟练掌握数据收集、数据清洗、数据去重和数据合成等流程,能针对数据质量制定出评估指标和方法,在知名大模型…
招聘城市:上海
…的配置化流水线引擎,支持原子算子的快速编排,并持续优化全链路的数据处理速度和资源效率,快速响应算法团队的数据需求。
5、质量与评估体系:建立数据质量监控与评估体系,确保输出数据集的洁净度、一致性与有效性,并能量化数据质量对最终模型效果的影响。
工作要求:
1、计算机科学、软件工程、大数据或相关专业本科及以上学历,有3年以上数据开发或算法工程经验。
2、精通Python,熟练使用Pandas、PyTorch等数据处理和深度学习框架,必须具备构建或优化训练数据Dataloader的实际经验。
3、深入理解多模态数据的特性及处理技术,具备丰富的数据建模和数据架构经验,能够设计统一、高效的数据处理抽象。
4、有使用Spark…
招聘城市:北京,上海
…策略、模型能力、下游任务的全链路归因能力
建立并持续完善的数据质量、多样性、重复度、覆盖率等评估体系,分析和量化每个维度的影响
针对模型核心能力进行重点强化,包括不限于数学、推理、Code、Agent、ICL、OCR等
探索如何使用更少数据量,达到同样模型能力的策略,持续提升per token的通用能力训练效果
探索基于各类策略
任职要求:
对大模型方向充满兴趣,且能充分意识到数据对于模型能力的重要价值和数据侧的巨大空间
有很好的数据感觉,对人类文明积累下来的优质数据分布有很好的判断
有很好的NLP/多模态经验,在数据和算法方向上有深度的工作
工程能力强,有大规模数据处理的经验
招聘城市:北京,上海,杭州
…芯片架构、通信机制与 Kernel 性能调优,并能在大规模集群场景下解决关键瓶颈:
(1)熟悉底层硬件架构(如 Nvidia GPU 或昇腾 NPU 的 Tensor Core、内存层级体系)与基础软件栈(CUDA / ROCm / CANN)。
(2)掌握 NCCL / RDMA / IB / RoCE 等高性能网络通信机制,能解决千卡规模下的跨节点通信瓶颈。
(3)具备高性能 CUDA Kernel 相关研发经验,能熟练使用 Nsight Systems/Compute 等工具进行 Profiling 与算子优化。
加分项:
1.参与过主流开源大模型框架(如Megatron、veRL 、vLLM、SGLang、DeepSpeed等)的代码贡献与架构设计。
2.在大规模集群建设中,成功解决过跨机房通信、动态容错训练、或国产化异构芯片大规模业务替代等生产级难题。
3.具备较高的代码品味和工程…
招聘城市:深圳
…
3.系统设计与优化:设计并搭建分布式训练框架,跟平台协作,支持千亿级参数大模型的训练;
4.性能调优与成本优化:针对大模型训练任务,优化框架(如PyTorch/VERL等)的分布式策略,提升训练效率;
5.稳定性与可靠性保障:设计高可用架构,解决训练中断、数据丢失等风险,确保长周期训练任务的稳定性;
6.协作与落地:与算法团队紧密合作,理解模型需求,提供基础设施层面的技术建议;推动开源工具的定制化开发,适配业务场景。
岗位要求:
1.计算机科学、分布式系统或相关专业硕士及以上学历,2年以上大模型Infra领域经验;
2.精通PyTorch,熟悉其底层原理与分布式扩展机制;
3.至少熟练使用一种开源训练框架(VERL, ROLL, ms…
招聘城市:北京
…从数据处理到训练部署的全流程自动化解决方案。
岗位要求:
1.计算机科学、人工智能、模式识别、计算语言学等相关专业硕士及以上学历;
2.精通一种或多种主流深度学习框架(PyTorch、JAX、TensorFlow),具备大规模分布式训练经验;
3.熟悉Transformer系列架构,理解其在语言、语音、视觉等方向的模型原理与实现;
4.了解 LLM 的训练流程,有 Megatron, DeepSpeed 等大规模训练框架使用经验者优先;
5.对RL/RLHF、偏好学习、奖励建模有实践经验者优先;
6.具备扎实的工程实现能力与代码规范意识,熟悉CUDA优化、参数并行、流水线并行等技术;
7.具备良好的团队协作与沟通能力,热爱探索与创新。
加分项:
1.在 GitHub 等平台持续参与主流大模型 / 分布式训练…
招聘城市:上海
…优化。
5. Agentic AI训练。与已有Agent系统联动,构造高吞吐,可调用外部信息的,可训练的大模型系统。
任职要求:
1. 硕士及以上学历,计算机、人工智能、电子信息等相关专业优先;
2. 2年以上算法相关工作经验,具备多模态模型训练或大模型研发经验者优先;
3. 熟悉Python编程语言,掌握TensorFlow/PyTorch等主流深度学习框架之一;
4. 具备良好的算法基础和工程实现能力,熟悉图像、文本等多模态数据处理方法;
5. 对AI前沿技术有持续关注,具备较强的问题分析与解决能力;
6. 良好的沟通能力和团队协作意识,能够跨团队推动项目落地。
加分项:
1. 有大规模多模态模型训练经验者优先;
2. 熟悉模型压缩、推理加速等相关技术者优先…
招聘城市:北京
…
3.系统设计与优化:设计并搭建分布式训练框架,跟平台协作,支持千亿级参数大模型的训练;
4.性能调优与成本优化:针对大模型训练任务,优化框架(如PyTorch/VERL等)的分布式策略,提升训练效率;
5.稳定性与可靠性保障:设计高可用架构,解决训练中断、数据丢失等风险,确保长周期训练任务的稳定性;
6.协作与落地:与算法团队紧密合作,理解模型需求,提供基础设施层面的技术建议;推动开源工具的定制化开发,适配业务场景。
岗位要求:
1.计算机科学、分布式系统或相关专业硕士及以上学历,2年以上大模型Infra领域经验;
2.精通PyTorch,熟悉其底层原理与分布式扩展机制;
3.至少熟练使用一种开源训练框架(VERL, ROLL, ms…
招聘城市:北京
…有训练调参和性能评测经验;
2.熟悉主流大模型推理框架(vLLM、SGLang等),具备在推理上进行通信优化、并行计算、存储优化等调优能力;
3.熟悉主流AI芯片(GPU H100、Ascent)架构特性和相关profiling工具,有CUDA编程、编译分析、运行时分析等经验;
4.熟悉大规模训推的可观测建设、诊断分析、故障解决,有稳定性治理经验优先;
5.有良好的沟通、解决问题能力,能主动探索业界前沿技术。
岗位介绍:
在腾讯,后台开发工程师不仅是“又快又稳”的问题解决专家,更是生态共创者。你将与技术团队一同沉淀优质代码,让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段,你的架构思维也将帮助更多协作团队拓展新…
招聘城市:上海,北京
…存储等关键路径,实现极致的端到端训练性能;
4、与算法团队紧密合作,理解前沿模型(如大语言模型、推荐系统、多模态模型)对训练基础设施的需求,并将其转化为系统级的创新与优化;
5、负责GPU/XPU计算资源的精细调度与性能优化,深入挖掘硬件潜力,降低训练成本。
任职要求:
1、优秀的代码能力、数据结构和基础算法功底,熟悉C++开发,理解大规模分布式应用系统和平台;
2、熟悉至少一种主流的深度学习训练或推理框架(TensorFlow / PyTorch / Onnx / TensorRT等)的原理和实现;
3、深入理解并拥有大规模参数服务和分布式系统的实践经验,熟悉其架构、一致性协议与性能调优。
4、参与推理/训练参数服务器的迭代优化,优化GPU…
招聘城市:北京,上海,杭州
…系统
构建“可训练的 Agent 系统”,而不仅是工具调用的外壳
设计 Agent 的记忆、学习、反思与策略更新机制
将 Agent 视为一个 持续演化的产品级智能体
5. 新范式与新架构探索
对现有 Attention、NTP 等范式保持批判性思考,例如探索全新的
探索新架构、新目标函数、新训练范式在 Post-Training 中的可能性
参与从模型 → 推理过程 → 自学习环境(System-level Scaling)的演进
任职要求:
基础要求
扎实的机器学习 / 深度学习基础,对模型训练全流程有深入理解
熟悉至少一个方向:
强化学习(RL Scaling / RLAIF / Online RL 等)
多模态学习(尤其是视频、时序、感知建模)
Agent / 多智能体系统
良好的工程能力,能将研究想法落地为稳定系统
加分项
有大模型 Post-Training…