牛大妈在校招职位搜索基座大模型北斗实习大模型预训练数据科学与模型潜力前沿研究 有 42 条结果

招聘城市:北京,上海
…重与清洗算法,提高数据质量、多样性和覆盖度。
2、深入探究数据分布与模型能力的因果关系,建立“训练数据-模型效果”归因机制,探索并突破基座模型的能力上限。
3、探索自动化数据筛选机制、动态配比(Data Mixture)与多阶段训练范式,探索不同类型数据对模型能力的Scaling Law。
4、构建科学、多维度的基座模型能力和潜力评估,驱动训练数据策略的优化,形成高效的数据迭代闭环。
任职要求:
1、硕士及以上学历,计算机、人工智能、数学、NLP等相关专业,博士优先;
2、在模型领域有研究基础,或参与过有影响力的开源项目,在ICLR/NeurIPS/ICML/ACL等顶会发表论文者优先;
3、对模型有浓厚兴趣,对“什么是好数据”有深刻洞察…
招聘城市:北京,上海
…能训练算子(FlashAttention变体、FusedMLP、RMSNorm等)。
②推进 8bit、4bit 混合精度训练落地,在精度与速度之间找到最优平衡。
③通过 profiling 定位热点,把MFU(模型算力利用率)推向理论上限。
3、通信链路优化
①深挖 NCCL / RDMA / InfiniBand 通信性能,优化 AllReduce/AllGather/MoE层Dispatch/Combine 等集合通信原语。
②结合网络拓扑设计通信-计算重叠策略,让通信开销近乎透明。
4、稳定性 & 大规模容错
①构建万卡级自动故障检测、弹性容错、断点续训机制。
②设计高效的异步checkpoint方案,千亿模型保存时间压到分钟级。
③开发训练健康度监控系统:loss异常、梯度爆炸、卡间通信超时等实时告警。
5、存储 & 数据IO
①解决 PB级训练语料的高并发高吞吐读取问题。
②设计 tokenized 数据
招聘城市:北京,上海
数据扩展中的模型坍塌(Model Collapse)与多样性瓶颈问题,通过课程学习(Curriculum Learning)等训练策略,显著优化Token/FLOPs转化效率
2. 长上下文 (Long Context) 与高效架构演进
长窗口突破: 持续Scaling Up模型的Context Length,优化超长上下文机制,重点提升LongCat基座模型在长上下文上的表现
架构优化: 探索并验证MoE(混合专家)、稀疏注意力(Sparse Attention)、线性注意力等模型结构;结合剪枝与稀疏化技术,协同优化训练与推理效率,提升超长上下文场景下的效率
上下文管理: 探索逐轮次和跨多轮次的上下文管理方法,并建立对应评测体系,从而减少冗余信息堆叠,实现高效思考和性能提升
3. 多模态能力融合与 Agent 赋能
模态融合:探索多模态训练
招聘城市:北京,上海
…视觉、语音等各个模态的数据,从而更加自然地进行模态融合,以及通过scaling友好的训练范式,解锁模型智能的新维度。
研究课题包括但不限于:
1、探索early fusion阶段,引入图文交错/audio等多模态序列数据自监督训练带来的scaling价值。
2、原生全模态训练的training dynamic探究,模态之间的关系建模。
3、通过SFT / RL等手段,借助多模态token解锁模型新的智能维度,提升模型解决Robot/Gaming等物理世界问题的能力。
任职要求:
岗位要求:
1、熟悉NLP、LLM、MLLM、RL等相关领域,对其中一个或多个方向有深入的研究经历,且有相关实际项目经验;
2、熟悉Python、C++等至少一门编程语言,熟悉LINUX环境;
3、熟悉 Megatron、DeepSpeed 等开源训练框架。
加分项:
1…
招聘城市:北京,上海
…像人类一样“看懂世界、判未来、灵活操作、自然交互”的原生能力,挑战物理世界中的复杂长程任务,推动具身智能从实验室走向千家万户。
具体地,我们关注如下研究方向:
1、具身模型感知与决策:探索构建端到端(End-to-End)的Vision-Language-Action(VLA)模型。研究如何将海量互联网多模态数据与机器人异构动作数据进行统一表征训练,提升模型在开放场景下的零样本任务泛化能力,实现从高层逻辑推理到底层电机控制指令的平滑映射。
2、物理世界模型与因果推理:研究基于生成式架构的物理世界模型,使机器人能够通过视频生成或状态预测“判”行动后果。探索如何在模型中建模物理定律(重力、摩擦…
招聘城市:北京
…理解能力。
多国统一推荐基座模型:探索以LLM为基座,通过多国数据联合训练与国家/文化特征注入,构建可快速适配各国市场的统一推荐模型,降低多国分治的维护成本。
跨国冷启动与迁移学习:针对新兴市场数据稀缺问题,研究基于LLM的跨国知识迁移与冷启动方案,提升新市场推荐效果的快速收敛能力。
任职要求:
【任职要求】
海内外高校在校本科生(大三及以上)、硕士生及博士生,且以下条件至少满足一项:
超级学霸:专业成绩排名前1%。
学术达人:在顶级期刊或学术会议上以第一作者身份发表论文(或导师一作,自己为二作)。
竞赛大神:在顶级大赛上获奖。
工程高手:有大厂实验室的实习经验,或有贡献突出的开源项目。
招聘城市:北京,上海
…2.多国统一推荐基座模型:探索以LLM为基座,通过多国数据联合训练与国家/文化特征注入,构建可快速适配各国市场的统一推荐模型,降低多国分治的维护成本。
3.跨国冷启动与迁移学习:针对新兴市场数据稀缺问题,研究基于LLM的跨国知识迁移与冷启动方案,提升新市场推荐效果的快速收敛能力。
任职要求:
【任职资格】
必要条件:
2027届本科及以上学历,计算机、人工智能等相关专业,且以下条件至少满足一项:
1.在NLP、IR、RecSys等方向的顶级会议(ACL、EMNLP、SIGIR、KDD、WWW、NeurIPS等)以第一作者身份发表论文(或导师一作,自己为二作)。
2.在Kaggle、ACM-ICPC等顶级大赛上获奖。
3.有大厂实验室的实习经验,或有贡献突出的…
招聘城市:北京,上海
模型架构优化探索,算法工程协同设计,涉及到训练和推理的各类算法和工程策略探索落地。参与美团基座模型项目,包含但不限于:
1、模型高效架构设计探索(高效attention,moe架构等)。
2、训练 / 后训练算法工程策略。
3、投机推理算法工程策略。
4、模型轻量化策略(剪枝,量化,稀疏,蒸馏,结构搜索等) 。
5、Agentic coding系统优化策略。
任职要求:
1、熟悉一些常用的深度学习框架和大规模训推框架(比如megatron,verl,vllm,sglang等等),在模型上有训练和推理算法工程优化实际经验的优先;
2、熟悉机器学习和深度学习理论,具备扎实的编程能力,熟悉常见的主流模型架构;
3、有模型或机器学习相关顶会论文发表,特别是模型架构…
招聘城市:北京,上海,深圳
…设计,实现视觉感知与多模态理解场景下的高性能可信输出与幻觉抑制。
3、视觉推理能力增强研究(Visual CoT、PRM 等),提升模型在复杂视觉任务上的推理深度。
4、工具调用与 Agent 能力构建,探索多模态模型在规划决策场景中的综合表现。
5、长上下文视觉理解与 GUI 能力研究,提升模型在长程复杂任务上的综合能力。
6、其他你坚信路线正确的多模态模型前沿方向。
任职要求:
1、具备视觉多模态模型训练或后训练研究经历;
2、熟悉PyTorch,有充分的动手实践经验。
加分项:
1、社区影响力:在多模态模型领域有影响力的开源项目中做出过核心贡献;
2、学术影响力:发表过高水平论文(如ICLR、CVPR…
招聘城市:北京,上海
模型、音视频联合生成等,思考在模态统一、任务统一和多种模态联合生成过程带来新的能力跃迁并进行度量,分析模态和任务间的相互关联,指引模型架构、训练策略等选型。
3、多模交互方向:包括通用世界模型、音视频交互等,研究动态多轮交互中的一致性、真实性和长程记忆等关键能力的自动化度量,指引基座模型的迭代。
任职要求:
1、硕士及以上学历,计算机或相关专业,博士优先。;
2、在 ML / NLP / RL / CV / Speech 等相关方向有扎实的研究基础,在 ACL / EMNLP / NAACL / NeurIPS / ICML / ICLR / CVPR / ICCV / ICASSP 等顶级会议发表论文者优先;
3、优秀的代码和算法功底,具备工匠精神,ACM/ICPC、NOI/IOI、Top Coder、Kaggle等比赛获奖者优先;
4、在模型
招聘城市:上海
…模态、高信息密度的「决策快照」。
2.用户决策基座模型:依托「全域行为快照」,训练一个统一的用户决策基座模型,在给定任意「场景 prompt + 候选 item/店铺」时,能输出用户下一步行为的多任务、多状态概率。
3.决策策略对齐:探索该模型在各个场景上进行轻量微调与部署的方案,实现场景级定制。
任职要求:
【任职要求】
海内外高校在校本科生(大三及以上)、硕士生及博士生,且以下条件至少满足一项:
1.超级学霸:专业成绩排名前1%。
2.学术达人:在顶级期刊或学术会议上以第一作者身份发表论文(或导师一作,自己为二作)。
3.竞赛大神:在顶级大赛上获奖。
4.工程高手:有大厂实验室的实习经验,或有贡献突出的开源项目。
招聘城市:北京,上海
岗位职责:
简介:多模态训练pretrain和posttrain的前沿研究,可根据个人背景和研究兴趣选择以下方向之一深入推进:
1、超长序列的高效pretrain训练方案。
2、基于投机采样的方式加速多模态RL的训练效率。
3、针对compute use场景的大规模agentic RL 高效训练方案探索。
任职要求:
1、精通 C++/Python,熟悉 CUDA 编程、NCCL 通信库或 RDMA 网络优化;
2、具有很强的学习能力、复杂问题归纳梳理能力、沟通和团队协作能力,具备能够深度钻研技术的耐心;
3、至少深入研读过 Megatron-LM, vLLM, Sglang, VERL 其中之一的源码,并有过定制化修改或性能调优经历。
加分项目:
1、有很强的学术研究能力和优秀的学术成果(AI领域顶会/顶刊论文);
2、熟悉…
招聘城市:北京,上海
…等范式。和算法共同提升模型各类专项能力,应用生产力等等
你可能从事以下方向:
1、RL训练系统架构
①设计和实现支持 PPO及各类变种算法的高效训练框架。
②Data/Env Scaling,优化并发调度效率 。
2、在线采样 & Rollout 优化
①优化RL场景(longcot、长尾分布、多轮交互)推理引擎效率,包括不限于量化、MTP、并行切分等等。
②训推混部署、全流程异步训练,提升 GPU 利用率。
3、 训推一致性
①训推引擎天然为了各自最大化效率存在精度差异,研究如何不断降低两者diff,包括不限于 Routing Replay、确定性计算等等。
4、训练稳定性
①攻克RL训练特有的奖励Hacking、训练不稳定、KL爆炸等系统层面问题。
②设计细粒度的训练过程监控:reward曲线、KL散…
招聘城市:北京,上海
岗位职责:
简介:打造 world class,production ready 的模型推理引擎,可根据个人背景和研究兴趣选择以下方向之一深入推进:
1、异构硬件高性能推理算子研究与开发。
2、Model System Co -design,充分利用硬件特性。
3、Scale up & scale out 分布式推理系统设计,高效可靠的推理调度体系。
4、投机推理算法研究与落地。
5、模型/KVCache 量化算法研究与算子开发。
任职要求:
1、具有扎实的编程功底,熟悉 C++/CUDA 编程最佳;
2、深入理解 Transformer/MoE/Attention 等 LLM 概念;
3、熟悉 RDMA,PD 分离等技术;
4、有一手的开源推理引擎使用/开发/调优经验最佳。
招聘城市:北京,上海
岗位职责:
简介:模型的能力上限,很大程度取决于训练系统的天花板。我们在做的事:让千亿参数的模型在万卡集群上跑得更快、更稳、更省——把每一张GPU的算力榨干,把每一次训练崩溃的损失降到最低,把工程师等待结果的时间从“几天”压到“几小时”。
1、分布式训练框架优化
①深入源码,针对美团训练场景做定制化改造。
②设计和实现更高效的张量并行、流水线并行、数据并行混合策略。
③探索 MoE(混合专家) 模型的并行训练方案,解决专家负载均衡、通信爆炸等硬问题。
2、计算效率优化
①基于 CUDA / Triton 编写和优化高性能算子(FlashAttention、FusedMLP等)。
②分析训练 profiling 数据,定位计算/通信/内存的瓶颈…
招聘城市:北京,上海
…职责:
简介:Reasoning(推理)是模型理解和处理信息的核心能力,是通用智能水平逼近的重要观测维度。本课题聚焦于探究生成式模型的高级推理发生机制,提升模型在复杂任务上的推理表现。
研究内容包括但不限于:
1、复杂任务推理应用效果优化,诸如逻辑推理、数学推理、代码推理、跨模态推理、多模型决策等。
2、RL scaling,通过大规模强化学习持续提升模型推理能力。
3、Test time scaling,通过增加inference时消耗的算力持续提升模型推理能力。
任职要求:
1、熟悉NLP、LLM、RL等相关领域,对其中一个或多个方向有深入的研究经历,且有相关实际项目经验;
2、熟悉Python、C++等至少一门编程语言,熟悉LINUX环境;
3、熟悉 Megatron、DeepSpeed 等开源训练框架…
招聘城市:北京,上海
岗位职责:
简介:语言模型训练前沿算法研究包括但不限于:
1、对齐算法研发:包括 SFT 数据建设,指令微调等。构建高质量的训练数据,包括自动化数据清洗、合成数据生产、高质量 Prompt Engineering 等。优化模型复杂指令遵循、逻辑推理、创作写作、代码生成以及工具调用等能力,提升模型综合能力和用户体验。
2、人类偏好对齐:包括奖励模型、人类偏好对齐等前沿强化算法的探索和实践,提升模型在包括创意写作、对话风格以及模型内生安全对齐等人类偏好上的可控性,生成更符合人类价值观、逻辑习惯和审美偏好的内容。
3、跟踪并实现最新的后训练技术(如数据领域自动化配比、后训练机制设计和优化等)。
任职要求:
1、硕士及以上学历,计算机…
招聘城市:北京,上海
岗位职责:
简介:探索下一代模型训练范式,从模型结构、训练策略、数据策略、算力利用率等角度切入,打造具有更强能力和更高潜力的基座模型
1、设计更高效的模型结构,提高给定数据量、计算量、硬件资源、输出序列长度等约束下的模型能力,如长序列能力、记忆能力等。
2、探索更科学和前沿的训练策略,对影响training dynamic的关键变量(如学习率、batchsize、初始化等)形成更科学的认知,探索diffusion LLM,test-time scaling等技术。
3、研究模型结构和数据的耦合关系,优化分阶段训练范式。
4、结合MLsys解决大规模训练中遇到的卡点问题,实现算法和工程联合设计。
任职要求:
1、熟悉NLP、LLM、MLsys、Optimization、OR、Control、RL等相关领域,对其中…
招聘城市:北京,上海
…构建下一代具有强大代码生成与自主 Agent 能力的基座模型,打造可在真实工程环境中独立运作的 AI 开发者。
岗位职责
1、负责基座模型在代码生成、代码理解、代码 debug 等方向的能力研究与提升,提升模型在Coding任务中的 Planning、长上下文理解等核心能力。
2、探索模型在 repo 级代码理解、跨文件修改、自主 debug 等复杂任务上的能力边界。
3、参与 Post-training(SFT / RL/ PRM)等 Alignment 方法在 Coding 场景的研究与落地。
任职要求:
1、熟悉NLP、LLM、MLsys、Optimization、OR、Control、RL等相关领域,对其中一个或多个方向有深入的研究经历,且有相关实际项目经验;
2、熟悉Python等至少一门编程语言,熟悉LINUX环境;
3、熟悉Pytorch、 Megatron、DeepSpeed 等开源训练框架…
招聘城市:北京,上海,深圳
…负责不同规模、不同结构的多模态模型数据准备和优化,构建多模态数据处理流程等。
2、视频多模态能力提升:负责解决多模态视频模型领域的前沿技术难题,如视频后训练、长视频时序理解、音视频等,探索短视频、长视频、视频流等不同形态的视频多模态方案,探究图像、视频统一的多模态解决方案。
3、视觉基座表征能力提升:面向不同的多模态架构和训练范式,从视觉基座的角度深入探索视觉连续表征和离散表征的联系和区别,负责探索更具通用性的多模态视觉特征,生产行业内领先的视觉基座
4、多模态理解生成统一:负责多模态理解与生成的前沿探索与研究,包括但不限于视觉表征统一训练、多模态…