牛大妈在社招职位搜索企业微信-大模型训练工程师-AI Infra 有 1000+ 条结果

招聘城市:成都
…定制训练方案并评估验证模型
4.负责模型训练和推理所需的IaaS基础设施的规划、迭代与框架维护,致力于提供一致性、可扩展、高可靠的平台技术底座。
岗位要求:
1.计算机科学、数学、统计学、自动化等相关专业本科及以上学历,3年以上相关领域工作经验;
2.熟悉Post-Training流程,深入了解RL领域,包括但不限于RM、PPO、DPO、GRPO等算法;
3.具备模型训练框架开发能力,包括pytorch、megatron等;
4.具备强化学习框架开发能力,包括openRLHF、verl等;
5.具备一线的C++/Python工程能力,精通数据结构和常用算法,掌握各种编译、调试、性能分析工具,熟悉并行编;(CUDA/Triton等)优先;
6.该岗位支持base成都、广州、北京。
岗位介绍:
在腾讯,后台开发工程不仅…
招聘城市:北京
…验证,加速前沿模型对齐算法在海量业务场景的规模化落地。
岗位要求:
1.计算机相关专业,具备较强的动手能力;熟悉 Python ,具备扎实的系统编程功底和优秀的复杂系统 Debug 能力;
2.训练框架经验: 深入理解模型分布式训练原理,具备 Megatron-LM、DeepSpeed 或 PyTorch FSDP 等主流框架的实际源码级开发与定制经验;
3.RL 与 RL Infra 储备: 熟悉模型训练与对齐技术(PPO、GRPO、DPO等),熟悉 Verl、ROLL,AReal 等强化学习/分布式计算框架,可以理解并解决 RL过程中的工程痛点;
4.综合素质: 具备极强的技术好奇心与自驱力,面对业界无先例的技术难题,能独立思考并推动解决。
岗位介绍:
在腾讯,后台开发工程不仅是…
招聘城市:广州
…需求定制训练方案并评估验证模型
4.负责模型训练和推理所需的IaaS基础设施的规划、迭代与框架维护,致力于提供一致性、可扩展、高可靠的平台技术底座。
岗位要求:
1.计算机科学、数学、统计学、自动化等相关专业本科及以上学历,3年以上相关领域工作经验;
2.熟悉Post-Training流程,深入了解RL领域,包括但不限于RM、PPO、DPO、GRPO等算法;
3.具备模型训练框架开发能力,包括pytorch、megatron等;
4.具备强化学习框架开发能力,包括openRLHF、verl等;
5.具备一线的C++/Python工程能力,精通数据结构和常用算法,掌握各种编译、调试、性能分析工具,熟悉并行编;(CUDA/Triton等)优先;
6.该岗位支持base成都、广州。
岗位介绍:
在腾讯,后台开发工程不仅…
招聘城市:广州
…3.与搜索算法团队紧密合作,设计实现高性能的AI搜索模型,加速最新的模型技术在搜索场景的落地。
岗位要求:
1.具备较强的动手能力;熟悉 Python ,具备扎实的系统编程功底和优秀的复杂系统 Debug 能力;
2.深入理解模型分布式训练原理,具备 Megatron-LM、DeepSpeed 或 PyTorch FSDP 等主流框架的开发和优化经验;
3.熟悉模型训练与对齐技术(PPO、GRPO、DPO等),熟悉 Verl、ROLL,AReal 等强化学习/分布式计算框架,有实际开发部署并解决相关问题的经验;
4.熟悉最新的模型结构,熟悉各种软硬件架构,能够结合具体的模型结构和软硬件架构做训练过程的深度优化。
岗位介绍:
在腾讯,后台开发工程不仅是“又快又稳”的…
招聘城市:北京
…3.优化模型推理框架,提升框架易用性和可调试性。
岗位要求:
1.熟练掌握 C/C++、Python语言,有计算机体系结构背景或软件开发背景,熟悉系统性能调优的方式;
2.具备基础的GPU编程能力,包括但不限于Cuda、OpenCL;熟悉至少一种GPU加速库,如cublas、cudnn、cutlass等;
3.有Tensorrt/FasterTransformer/Tensorrt-llm/vllm/sglang等深度学习推理框架的实际使用经验;
4.熟悉各类深度学习网络和算子底层实现细节,训练和推理模型调试、调优有实操经验优先;
5.熟悉CPU/GPU异构加速瓶颈分析方法,有服务器端 AI 芯片、GPU加速经验优先;
6.熟悉分布式推理常用加速方法,有超大模型分布式部署经验优先。
岗位介绍:
在腾讯,后台开发工程不仅是“又…
招聘城市:北京
岗位职责:
1.参与开发优化模型训练框架,支持大规模高效稳定训练
2.参与模型结构设计,并联合业务进行模型训练效率和效果验证。
岗位要求:
1.熟练使用PyTorch框架,可对DDP训练的代码进行性能分析和优化;
2.熟练使用主流模型训练框架DeepSpeed、Megatron,掌握3D并行、ZeRO机制、Flash-Attn等的原理、使用场景、优劣势以及可优化方向;
3.熟练掌握CUDA性能优化手段,有算子编写优化项目经验者优先;
4.对模型前沿技术比较敏锐者优先;
5.有实际模型训练调参和效果评测项目经验的优先;
6.良好的沟通能力、解决问题能力。
招聘城市:北京,上海
…职责:
训练推理框架研发】
模型hi lab AI Infra团队专注于语言模型领域的前沿技术研究和落地,提供高性能、高可靠、可扩展的机器学习系统、丰富的异构计算资源和极致的端到端的机器学习服务体验,为公司提供核心技术能力和服务。
1、负责机器学习框架的研究与开发,服务于公司各个产品;
2、高效部署,优化NLP/多模态模型核心业务模型
【轻量化】
机器学习系统团队需要将传统或者新型的轻量化算法和工程有机结合起来进行加速,提高语言模型训练或者推理性能的同时,通过算法手段尽可能降低效果损失。候选人将在以下几个方向进行深入探索和落地:
1、量化方向:负责但不限于语言模型的低精度训练
招聘城市:北京
…优化LLM,VLM等模型的推理引擎,构建适合AI Search,智能 Agent相关领域大规落地应用中的推理基础架构;
2.紧跟 LLM Infra 领域的前沿技术演进突破,将合适成果落地于实际应用;
3.与搜索算法同学深度合作,联合优化,设计实现能够给大型搜索系统带来代际更迭的模型
岗位要求:
1.熟悉AI基础硬件设置,有真实的大规模推理系统的设计开发部署经验;
2.熟悉各种主流LLM/VLM的模型结构,具有 vllm/sglang/TRT-llm等推理引擎优化实践经验;
3.熟悉LLM 推理常用加速方法(算子融合、量化策略、动态批处理、分布式KV 缓存优化等);
4.有针对真实场景问题的LLM 模型结构和的设计优化经验。
岗位介绍:
在腾讯,后台开发工程不仅是“又快又稳…
招聘城市:北京
…LLM,VLM等模型的推理引擎,构建适合AI Search,智能 Agent相关领域大规落地应用中的推理基础架构;
3.紧跟 LLM Infra 领域的前沿技术演进突破,将合适成果落地于实际应用;
4.与搜索算法同学深度合作,联合优化,设计实现能够给大型搜索系统带来代际更迭的模型
岗位要求:
1.岗位要求:;
2.熟悉AI基础硬件设置,有真实的大规模推理系统的设计开发部署经验;
3.熟悉各种主流LLM/VLM的模型结构,具有 vllm/sglang/TRT-llm等推理引擎优化实践经验;
4.熟悉LLM 推理常用加速方法(算子融合、量化策略、动态批处理、分布式KV 缓存优化等);
5.有针对真实场景问题的LLM 模型结构和的设计优化经验。
岗位介绍:
在腾讯,后台开发工程不仅是…
招聘城市:广州
…负责企业AI应用后台系统的设计、开发与迭代,集成模型能力,为企业用户提供智能对话、任务自动化等场景服务;
2.构建高可用、低延迟的模型调用与服务调度框架,优化AI请求链路的稳定性与性能;
3.与AI产品、算法团队紧密协作,推动LLM(语言模型)功能在企生态中的落地,扩展AI应用能力矩阵;
4.负责分布式后台服务的功能开发、容灾设计与性能调优,保障系统在高并发场景下的可靠性。
岗位要求:
1.计算机/人工智能相关专业,1年以上工程开发经验;
2.具备良好的编程能力,熟悉C++/Python,有1年以上Linux/Unix后台开发工作经验;
3.了解模型相关技术原理与基础知识,具备AI系统…
招聘城市:北京
…Megatron, DeepSpeed 等大规模训练框架使用经验者优先;
5.对RL/RLHF、偏好学习、奖励建模有实践经验者优先;
6.具备扎实的工程实现能力与代码规范意识,熟悉CUDA优化、参数并行、流水线并行等技术;
7.具备良好的团队协作与沟通能力,热爱探索与创新。
加分项:
1.在 GitHub 等平台持续参与主流模型 / 分布式训练 / RLHF 等项目的开发维护,有高质量 PR 被核心项目合并,或担任 maintainer / reviewer;
2.主导或深度参与自研预训练 / 后训练框架、长上下文训练工具链等开源项目,具备清晰的技术文档与使用教程,拥有一定 Star / Fork 规模和社区用户;
3.在 Hugging Face 社区、技术博客或开发者论坛上定期分享工程实践(如长上下文训练、MoE…
招聘城市:广州
…GCore 在做 AIGC 训练(图生文、图生视频)时的性能,支持新算法的探索。
岗位要求:
1.计算机相关专业,本科及以上学历,熟悉至少一门编程语言,善于通过编程解决实际问题;
2.了解常见的深度学习训练框架(如Megatron,VeRL,FSDP) 以及推理框架(如 VLLM、SGLang);
3.具备良好的沟通能力和团队协作精神,积极主动,勇于接受挑战。
加分项:
1.在ICPC/CCPC等算法竞赛中取得过良好成绩;
2.熟悉一种以上的模型训练或推理框架,如 Megatron,VeRL、VLLM、SGLang 等,在此之上做过深度的开发/优化;
3.对模型算法有较好的理解,能做算法和工程 co-design 的设计。
岗位介绍:
在腾讯,后台开发工程不仅是“又快又稳”的问题解决专家,更是…
招聘城市:北京
岗位职责:
1.对LLM训练的多方面场景的AI基础设施进行优化。包括但不限于GPU,RDMA,存储等硬件设备,RL/训练算法等技术方向。最终将硬件性能榨干,加速语言模型落地;
2.一个人无法穷尽AI系统的各方面能力。只要有独特经验和独到观点,推进某一个维度优化系统即可;
3.同时希望您认同我们产品优先,乐于挑战的文化,推动AI产品落地过程中AI Infra加速工作。
岗位要求:
1.扎实的编程能力,技术风格以及责任心;
2.具有自我驱动的工作能力,能够持续改进系统不足,提出方案并推动实现。
加分项:
1.对主流开源软件有贡献。
岗位介绍:
在腾讯,后台开发工程不仅是“又快又稳”的问题解决专家,更是生态共创者…
招聘城市:广州
…职责:
1.负责模型训练框架的开发和优化,支撑高效稳定的大规模训练任务;
2.参与模型应用层面的开发,包含 Agent 应用、RAG 实现与调优、数据合成、自动化测评等。
岗位要求:
1.熟练掌握 C/C++/Python 等至少一门编程语言,具备扎实的数据结构和算法功底;
2.有海量服务开发经验,熟悉分布式系统设计与优化,具备良好的工程素养;
3.熟悉主流模型训练框架 Megatron/DeepSpeed,熟悉分布式训练调优;
4.具备良好的数据处理能力,具备快速学习能力,有团队合作精神;
5.对于探索前沿技术有热情,具备独立探索前沿技术的能力。
加分项:
1.熟悉模型相关算法,参与过百卡以上训练任务优先;
2.有模型应用研发经验,熟悉 Agent 构建…
招聘城市:北京
…高性能和高可用性;
3.模型相关业务功能开发,基础框架与工具建设等;
4.跟踪前沿技术,推动研究成果在业务场景的落地。
岗位要求:
1.计算机相关专业,本科及以上学历;
2.熟悉 linux 开发环境,优秀的 C++ 编程经验,熟练掌握常用数据结构与算法,有一定的软件工程能力和良好的编程能力;
3.了解常见的深度学习训练框架(如 HuggingFace,Megatron,DeepSpeed,PyTorch) 以及推理框架(如 VLLM、SGLang、TRT);
4.具备良好的逻辑思维、快速学习能力、分析和解决问题的能力;
5.对于探索前沿技术有很好的热情,具备独立探索前沿技术的能力,有良好的团队协作和沟通能力。
加分项:
1.主导过基座模型训练项目,并在性能优化、稳定性优化方面取得…

小红书(xiaohongshu) AI Infra工程/专家

全职 北京,上海,深圳
招聘城市:北京,上海,深圳
…优化模型训练和推理的性能。
参与开发Triton,TileLang计算图编译优化或者使用CUDA/cutlass编写高性能算子,将硬件性能压榨到极致,最大化发挥出GPU/NPU/PPU/CPU等异构硬件协同算力。
参与开发/调试用于异构计算全链路的AI编译器,探索基于IR编译优化的片内多部件并行流水线等前沿技术,构建业界影响力。
支撑业界领先的多模态模型在国内最大的生活兴趣社区上落地。
任职要求:
【岗位要求】
1. 有扎实的工程算法基础,精通数据结构和常用算法,熟练掌握各种编译、调试、性能分析工具。
2. 精通C/C++/CUDA/Topscc/AscendC,具备扎实的系统底层能力(内存、并发、网络)。
3. 有大规模分布式系统开发和优化经验;有模型分布式训练经验…
招聘城市:深圳
…探索多模态模型前沿技术在安全领域的结合和落地,包括但不限于强化学习,领域知识注入,跨模态信息对齐,预训练技术等。
岗位要求:
1.硕士及以上学历,人工智能相关专业优先;
2.精通至少一种主流深度学习框架(如PyTorch、TensorFlow等),熟练掌握C++/Python编程语言,会使用CUDA进行开发者优先;
3.有模型训练经验,熟悉Megatron/Deepspeed等常见模型训练框架;熟悉模型推理优化技术,有使用vllm/sglang及其他推理优化框架经验者优先;
4.有AI/CV/NLP顶会(如AAAI,CVPR,ACL)发表经历者优先;有业界知名开源项目开发维护经验、有竞赛(ACM、业界知名AI竞赛)获奖经历者优先。
部门介绍:
安全负责个人用户的安全使用体验和…

小红书(xiaohongshu) 模型 Infra 全栈研发工程/专家

全职 北京,上海,杭州
招聘城市:北京,上海,杭州
…链路,熟练运用 AI 编程工具进行架构探索、复杂 Debug 与重构,大幅提升 AI Infra 全栈工程的迭代效率。
任职要求:
任职要求:
1.AI 工程范式:熟练使用 Claude Code、Cursor、Codex 等工具,具备成熟的 Agentic Engineering 实践技巧,能够基于 AI 工具进行复杂的系统级 Debug、代码重构及单测生成。
2.语言与系统基础:精通 C++ 与 Python,熟悉 Rust 或 Golang 开发,具备扎实的计算机体系结构、数据结构与操作系统底层知识,有深度学习相关框架的理解认知。
3.框架实战能力:深入理解并具备修改 PyTorch 等主流深度学习框架源码的能力,对前沿模型架构有敏锐嗅觉,熟悉 Transformer、ViT,并对 Mamba、Linear Attention 等新型架构的计算特性有了解。需在以下至少一个方向有实战经验:
(1)训练:…
招聘城市:广州
…探索多模态模型前沿技术在安全领域的结合和落地,包括但不限于强化学习,领域知识注入,跨模态信息对齐,预训练技术等。
岗位要求:
1.硕士及以上学历,人工智能相关专业优先;
2.精通至少一种主流深度学习框架(如PyTorch、TensorFlow等),熟练掌握C++/Python编程语言,会使用CUDA进行开发者优先;
3.有模型训练经验,熟悉Megatron/Deepspeed等常见模型训练框架;熟悉模型推理优化技术,有使用vllm/sglang及其他推理优化框架经验者优先;
4.有AI/CV/NLP顶会(如AAAI,CVPR,ACL)发表经历者优先;有业界知名开源项目开发维护经验、有竞赛(ACM、业界知名AI竞赛)获奖经历者优先。
部门介绍:
安全负责个人用户的安全使用体验和…
招聘城市:北京
岗位职责:
1.负责社交模型方向的记忆检索、Agent函数调用、风格化基座模型等方向的算法突破;
2.紧密贴合业务,通过后训练(SFT&RL)提升模型的专项问题解决能力;
3.基于场景数据提供技术解决方案,探索业界前沿技术在业务中的落地与指标优化。
岗位要求:
1.硕士或博士学位,机器学习、人工智能、自然语言处理或相关领域的专业背景;
2.在post-training方向或RL方向有一定研究基础优先;
3.高质量相关论文NeurIPS、ACL、ICML、EMNLP作者优先;
4.有大型语言模型算法研究或落地经验者优先;
5.热爱探索AI前沿技术,具有团队精神和良好的沟通能力。
加分项:
1.北京、广州base均可。
岗位介绍:
渴望为世界带来新意的人,早已对…