招聘城市:北京,上海
…多模态大模型能力在近年飞速发展,模态的统一、任务的统一、多种模态联合生成和实时交互带来了崭新的应用体验和生产力提升。在这个过程中,我们需要脚踏实地的同时仰望星空,发挥想象力预判新模型能力带来的应用场景革新,研究达到理想态的关键演进路径并进行度量分析,指引长期有潜力的模型迭代方向。方向包括但不限于:
1、多模Agent方向:包括在多模态的工具调用和GUI/CUA,探索结合多模原生能力的OpenClaw展现出的生产力提升潜力,从基座模型能力角度分析其中的关键影响因素并进行自动化度量,指引基座模型的迭代。
2、多模态统一方向:包括全模态统一模型、音视频联合生成等,思考在模态统一…
招聘城市:北京,上海,深圳
…生成统一:负责多模态理解与生成的前沿探索与研究,包括但不限于视觉表征统一训练、多模态统一架构探索、理解与生成任务关系研究。
任职要求:
1、硕士及以上学历,计算机、人工智能、自动化、数学、自然语言处理等相关专业,博士优先;
2、在以下一个或多个领域有较深入的研究或实践经验:多模态大模型(MLLM)、全模态融合大模型(Omni-LLM),视觉基座(Vision-Model)、理解生成统一(Unified-MM)、强化学习(RL);
3、具备扎实的算法和数学理论基础及良好的编程基础,熟悉PyTorch等深度学习框架;
4、在大模型领域有研究基础,或参与过有影响力的开源项目,在ICLR/NeurIPS/ICML/ACL等顶会发表论文者优先;
5、有良好的沟通协作能力,对…
招聘城市:北京
岗位职责:
简介:跟踪多模态后训练前沿方法(SFT / DPO / GRPO 等),快速完成技术预研与可行性验证,形成可落地的训练方案并推动模型迭代。
1、面向复杂业务场景(如多轮交互、长序列推理、跨模态 Agent 决策等),进行针对性的垂域数据建设与指令微调,持续提升模型在垂直场景下的表现上限。
2、建设后训练评估体系与数据飞轮,设计面向垂域场景的自动化评测基准,驱动"评测→数据→训练→评测"的闭环迭代。
3、探索多模态大模型与新一代Agent框架(Claude Code、OpenClaw 等)的深度结合,研究模型在工具调用、环境感知、多步规划等场景下的能力边界,推动多模态模型从"被调用"向"自主交互"演进,拓展智能体在真实复杂环境…
招聘城市:北京,上海,深圳
…视觉问答等核心任务上的能力上限。
2、多模态强化学习方案设计,实现视觉感知与多模态理解场景下的高性能可信输出与幻觉抑制。
3、视觉推理能力增强研究(Visual CoT、PRM 等),提升模型在复杂视觉任务上的推理深度。
4、工具调用与 Agent 能力构建,探索多模态模型在规划决策场景中的综合表现。
5、长上下文视觉理解与 GUI 能力研究,提升模型在长程复杂任务上的综合能力。
6、其他你坚信路线正确的多模态大模型前沿方向。
任职要求:
1、具备视觉多模态大模型的预训练或后训练研究经历;
2、熟悉PyTorch,有充分的动手实践经验。
加分项:
1、社区影响力:在多模态大模型领域有影响力的开源项目中…
招聘城市:北京,上海
岗位职责:
简介:原生多模态旨在以统一的范式处理文本、视觉、语音等各个模态的数据,从而更加自然地进行模态融合,以及通过scaling友好的训练范式,解锁模型智能的新维度。
研究课题包括但不限于:
1、探索early fusion阶段,引入图文交错/audio等多模态序列数据自监督预训练带来的scaling价值。
2、原生全模态预训练的training dynamic探究,模态之间的关系建模。
3、通过SFT / RL等手段,借助多模态token解锁模型新的智能维度,提升模型解决Robot/Gaming等物理世界问题的能力。
任职要求:
岗位要求:
1、熟悉NLP、LLM、MLLM、RL等相关领域,对其中一个或多个方向有深入的研究经历,且有相关实际项目经验;
2、熟悉Python、C++等至少一门编程语言,熟悉…
招聘城市:北京,上海
岗位职责:
简介:从多模态大模型基座延伸到具身智能,我们的目标是做到具身智能的“GPT时刻”,具备test-time zero-shot/few-shot的跨本体、跨任务泛化。在这个过程中,我们进行具身智能在泛化能力评测分析和关键迭代路径的探索,包括但不限于:
1、探索激发多模态大模型Training-Free泛化能力的Data-Scaling方案(包括VLA和VA),迁移人类数据到具身本体,包括latent action和unified model等方向。
2、探索通过世界模型作为物理仿真引擎的进阶,兼顾仿真和真机的优点,实现泛化评测、强化学习和多样性数据合成。
3、探索通过环境交互的在线强化学习,涉及仿真环境的搭建、数据合成和真机实验,研究通过自我进化的下一代…
招聘城市:北京,上海
岗位职责:
简介:我们聚焦于多模态推理的前沿探索。你将参与具有前瞻性的研究,并可根据个人背景与兴趣,选择以下任一方向进行深入:
1、下一代多模态推理架构: 定义并实现复杂/统一多模态模型的高效推理框架。
2、实时交互演进: 针对多模态语音视频流,探索极致的系统级优化。
3、长文本/长视频突破: 深入研究长序列下的创新压缩算法与高性能推理加速方案。
任职要求:
1、熟悉大模型推理原理及主流优化技术,拥有扎实的编程能力;
2、对多模态技术发展趋势有独立见解与思考;
3、具备极强的自驱力、创新意识与执行闭环能力;
加分项:
1、在相关领域有研究或项目实践经验;
2、对系统性能优化、压缩算法、实时…
招聘城市:北京,上海,深圳
…但不限于:多模态环境下的奖励建模与过程奖励设计、GUI交互轨迹的大规模RL Scaling、基于环境反馈的自进化与持续学习机制,以及多模态推理与行动的联合优化策略。
任职要求:
1、本科及以上学历,计算机、人工智能、自动化、数学等相关专业在读;
2、在以下一个或多个领域有较深入的研究或实践经验:多模态大模型(MLLM)、强化学习(RL)、Agent系统、GUI Agent / Computer Use、视觉-语言模型、跨模态融合;
3、熟悉Python,具备较强的工程实现能力,有大模型训练或推理实践经验者优先;
4、好奇心驱动,具备出色的问题分析与自主探索能力,能够在前沿不确定性较高的方向中持续推进;
5、具有良好的沟通协作能力,对追求…
招聘城市:北京,上海
…体训练,提高模型面对一般多模态场景的交互与融合模态推理能力。
2、探索趋向于真实物理世界的开放世界建模,为模型在真实物理世界下的训练和模拟训练提供坚实基础。
3、训练模型在动态、时序变化的开放世界下,自主进行感知、观察、探索、交互、任务推进的能力,并预期这样的能力作为真实物理世界训练的坚实前置基础,可以 minimize 所需的高成本真实物理世界训练量。
任职要求:
岗位要求:
1、本科及以上学历,计算机、人工智能、自动化、数学、物理等相关专业在读;
2、在强化学习、文本/多模态大模型训练、Agent 、世界模型等一个或多个领域有较深入的研究和实践经验者;
3、好奇心驱动,具有出色的分析、解决问题的能力,有…
招聘城市:北京,上海,深圳
…背景和研究兴趣选择以下方向之一深入推进:
1、基于多模态大模型构建端到端交互虚拟人模型,实现智能双工交互能力。
2、人、物、场景多模态感知与推理,探索高度拟人化的虚拟人交互体验。
3、Human Video Model 研究:高质量人脸、人体及人物交互的视频生成基座构建。
4、虚拟人语音、表情、动作的多模态对齐与同步生成方法研究。
5、其他你坚信路线正确的虚拟人交互前沿方向。
任职要求:
1、熟悉多模态大模型、2D虚拟人、视频生成等相关研究进展;
2、熟悉PyTorch,有充分的动手实践经验。
加分项:
1、社区影响力:有多模态大模型、视频生成、虚拟人相关研究和实习经历,有影响力的开源项目中做出过核心贡献;
2…
招聘城市:北京,上海
…使模型能主动在重复性任务或封闭任务域中总结、提炼认知与经验,并进行有效复用,达到不断自进化 / 自迭代 / 持续学习的效果。
3、训练智能体系统的系统性长程任务高效处理能力,可以自主进行合理的任务拆解、分工;探索通过 agent swarm 或其他先进的 multi-agent system 进行系统性长程任务的并行执行和提效。
4、探索多模态推理和多模态环境交互的范式,并基于此进行增强智能体系统在复杂全模态环境下的任务完成能力。
任职要求:
1、本科及以上学历,计算机、人工智能、自动化、数学、物理等相关专业在读;
2、在强化学习、文本 / 多模态大模型训练、Agent、世界模型等一个或多个领域有较深入的研究和实践经验…
招聘城市:北京,上海
…化生成方法(数据引擎/合成数据)。
3、基于多模态大模型的泛化具身智能 Agent 系统研究。
4、Training-free的基于few-shot的具身智能大模型研究。
5、多模态大模型的多视角空间感知与主动探索能力研究。
6、其他你坚信路线正确的具身智能前沿方向。
任职要求:
1、计算机科学、自动化、机器人或相关领域在读硕士/博士研究生;
2、具备扎实编程能力,熟练掌握 Python 及 PyTorch;熟悉 C++ 者优先;
3、对具身智能、机器人、计算机图形学或多模态大模型中至少一个方向有深入的理论基础与研究积累;
4、有较强的自驱力和独立解决问题的能力,能在模糊环境中推进研究;
具备以下者优先:
1、在 AI…
招聘城市:北京,上海
岗位职责:
简介:多模态训练pretrain和posttrain的前沿研究,可根据个人背景和研究兴趣选择以下方向之一深入推进:
1、超长序列的高效pretrain训练方案。
2、基于投机采样的方式加速多模态RL的训练效率。
3、针对compute use场景的大规模agentic RL 高效训练方案探索。
任职要求:
1、精通 C++/Python,熟悉 CUDA 编程、NCCL 通信库或 RDMA 网络优化;
2、具有很强的学习能力、复杂问题归纳梳理能力、沟通和团队协作能力,具备能够深度钻研技术的耐心;
3、至少深入研读过 Megatron-LM, vLLM, Sglang, VERL 其中之一的源码,并有过定制化修改或性能调优经历。
加分项目:
1、有很强的学术研究能力和优秀的学术成果(AI领域顶会/顶刊论文);
2、熟悉…
招聘城市:北京,上海
…职责:
随着大语言模型从通用问答走向复杂任务执行,Agent能力正成为模型演进的关键方向。传统大模型虽具备海量知识,但面对复杂任务的自主规划、工具调用及长期记忆管理时,往往难以应对。本课题旨在探索Midtrain这一关键阶段,推动通用基座模型向原生Agentic Foundation Model演进,为构建下一代自主智能体提供坚实的底座支持。
1. 大规模高质量数据体系与合成数据建设
数据体系构建:建设 Trillion 级别的大规模跨模态数据处理与合成链路。负责从训练数据获取到配比建模的全流程优化
合成方法演进:探索大规模合成数据 (Synthetic Data) 与自蒸馏 (Self-distillation) 技术,制定合成数据应用策略
理论探索:研究Data Scaling Laws,解决数据扩展中的模型坍塌(Model Collapse…
招聘城市:北京,上海
…操作的能力。
本课题致力于打造世界一流的具身智能团队,构建统一的感知-决策-控制底层架构。我们探索将视觉、语言与动作指令深度耦合,赋予机器人像人类一样“看懂世界、预判未来、灵活操作、自然交互”的原生能力,挑战物理世界中的复杂长程任务,推动具身智能从实验室走向千家万户。
具体地,我们关注如下研究方向:
1、具身大模型感知与决策:探索构建端到端(End-to-End)的Vision-Language-Action(VLA)大模型。研究如何将海量互联网多模态数据与机器人异构动作数据进行统一表征预训练,提升模型在开放场景下的零样本任务泛化能力,实现从高层逻辑推理到底层电机控制指令的平滑映射。
2、物理世界模型与…
招聘城市:北京,上海
岗位职责:
简介:Reasoning(推理)是大模型理解和处理信息的核心能力,是通用智能水平逼近的重要观测维度。本课题聚焦于探究生成式模型的高级推理发生机制,提升大模型在复杂任务上的推理表现。
研究内容包括但不限于:
1、复杂任务推理应用效果优化,诸如逻辑推理、数学推理、代码推理、跨模态推理、多模型决策等。
2、RL scaling,通过大规模强化学习持续提升模型推理能力。
3、Test time scaling,通过增加inference时消耗的算力持续提升模型推理能力。
任职要求:
1、熟悉NLP、LLM、RL等相关领域,对其中一个或多个方向有深入的研究经历,且有相关实际项目经验;
2、熟悉Python、C++等至少一门编程语言,熟悉LINUX环境;
3、熟悉 Megatron、DeepSpeed 等开源训练…
招聘城市:北京,上海,深圳
…检测(VAD)与即时状态切换的底层模型架构,实现媲美真人的丝滑对话节奏。
3、语音驱动的Agent规划与工具调用(Voice-to-Action): 探索如何将模糊、口语化、包含冗余信息的自然语音指令,直接转化为精准的Agent意图与工具调用(Tool Use/API Call)序列。研究语音模态下的长上下文记忆、多轮语音交互中的意图追踪,以及“边对话边执行任务”的并行处理能力。
4、面向语音Agent的高效对齐与强化学习: 探索适用于语音大模型的训练范式与对齐策略。包括但不限于:基于人类偏好的语音强化学习(RLHF for Audio)、语音交互轨迹的大规模构建、针对“对话自然度”与“任务完成率”的多目标奖励建模,以及基于环境反馈的语音Agent自进化机制…
招聘城市:北京,上海,深圳
…实时交互视频世界模型的长时空一致性、动态性和交互控制能力增强,以及在可交互视频、虚拟人实时交互场景的应用。
任职要求:
1.熟悉扩散模型、VAE等相关研究进展
2.熟悉PyTorch,有充分的动手实践经验
加分项:
1.有图像/视频生成、多模态大模型相关研究和实习经历,有影响力的开源项目中做出过核心贡献
2.发表过高水平论文(如ICLR、CVPR、ICCV等),有相关竞赛经历并取得名次
岗位吸引力:
1.极具前沿性和爆发力的研究方向:你将站在视频生成基座Scaling、实时交互式生成、世界模型的交叉前沿,每个技术方向都没有完全收敛,内容创作、交互式生成、具身智能的任何一个方向爆发,你做的模型都是第一…
招聘城市:上海
…用户每一次决策时刻的多模态、高信息密度的「决策快照」。
2.用户决策基座模型:依托「全域行为快照」,预训练一个统一的用户决策基座模型,在给定任意「场景 prompt + 候选 item/店铺」时,能输出用户下一步行为的多任务、多状态概率。
3.决策策略对齐:探索该模型在各个场景上进行轻量微调与部署的方案,实现场景级定制。
任职要求:
【任职要求】
海内外高校在校本科生(大三及以上)、硕士生及博士生,且以下条件至少满足一项:
1.超级学霸:专业成绩排名前1%。
2.学术达人:在顶级期刊或学术会议上以第一作者身份发表论文(或导师一作,自己为二作)。
3.竞赛大神:在顶级大赛上获奖。
4.工程高手:有大厂实验室的实习经验…