牛大妈在社招职位搜索分布式计算研发工程师-Ray深圳 北京 上海 有 6 条结果

招聘城市:北京
…云原生环境下超大规模分布系统的服务能力与平台化能力,为业务提供高可用、可扩展、高易用性的集群化服务;
4.参与开源共建与合作,提升团队与个人在业界的影响力。
岗位要求:
1.计算机相关专业,本科及以上学历,3年及以上工作经验;
2.精通 C++/Python/Java 中的一种,同时熟悉C++和Python更佳,具备丰富的大型软件系统研发经验;
3.具有大数据 infra 或 AI infra 方向的从业经验,并且至少参与过一种分布系统的研发、优化或运维,包括但不限于计算引擎、调度引擎、任务编排框架、高性能计算与通信系统、应用与服务框架等;
4.非必需但可以加分的情况:熟悉Ray;参与过 Data + AI 的系统工程
招聘城市:上海
…弹幕),构建高质量对齐数据集,助力 AI 搜多模态大模型研发与场景化应用。
工作要求:
【硬性要求】
1、本科及以上学历,计算机、大数据、人工智能等相关专业,5 年以上 AI 数据开发 / 数据工程相关工作经验,有大厂大模型 / 搜索 / 内容平台数据领域从业经历优先。
2、精通 Python 开发,熟练掌握Ray/Spark/Hadoop等分布数据处理框架,了解 GPU 异构集群管理、MinIO/Alluxio 等存储技术,有爬虫系统开发、多模态数据处理经验者优先;熟悉内容平台数据特点(如音视频 / 弹幕 / UGC)者加分。
3、有AI 数据体系从 0 到 1 搭建经验,主导过大模型知识库、RAG 材料库、多模态数据集等项目落地,能独立完成搜索 / 内容场景数据处理架构设计与工程化实现…
招聘城市:上海

5、质量与评估体系:建立数据质量监控与评估体系,确保输出数据集的洁净度、一致性与有效性,并能量化数据质量对最终模型效果的影响。
工作要求:
1、计算机科学、软件工程、大数据或相关专业本科及以上学历,有3年以上数据开发或算法工程经验。
2、精通Python,熟练使用Pandas、PyTorch等数据处理和深度学习框架,必须具备构建或优化训练数据Dataloader的实际经验。
3、深入理解多模态数据的特性及处理技术,具备丰富的数据建模和数据架构经验,能够设计统一、高效的数据处理抽象。
4、有使用Spark、Ray分布框架进行大规模数据处理的实战经验,理解其核心原理。
5、具备优秀的业务理解能力和跨团队(数据、算法、Infra)沟通…
招聘城市:北京上海,杭州
…优化: 探索长链推理(CoT)、强化学习驱动的自反思与自进化机制,提升模型在的 System 2 思维能力。
Agentic RL 与Agency: 研发面向 Search Agent、Code Agent 和 Tool-use Agent 的强化学习方案,提升模型在开放环境中的任务拆解、工具调用及闭环执行能力。
合成数据与模型进化: 探索高质量合成数据的生成与过滤技术,实现模型能力的自我循环与持续进化
任职要求:
我们希望你具备:
背景: 计算机、数学等相关专业硕士/博士;深入理解 Transformer 架构及大模型训练全流程。
专业深耕: 在 Search(搜索)、Code(代码生成/工程)、tool-use、alignment 或 RL(强化学习) 领域有深厚积累。
工程能力: 熟练使用 PyTorch,有 DeepSpeed、Megatron-LM 或 Ray 等大规模分布训练实战经验。
加分项:
在 NeurIPS, ICML…
招聘城市:深圳
Ray/Spark 等框架,优化万亿级 Token 的处理效率,挑战多模态超大规模数据的计算瓶颈;
5.质量度量体系:建立数据与模型效果的强关联指标,通过自动化评测闭环,量化每一批次数据对模型“智商”的贡献。
岗位要求:
1.计算机相关专业,硕士及以上学历,3年以上数据研发或 AI 平台经验,对 Data-Centric AI 有深刻理解;
2.既能玩转 大规模分布计算(Spark/Flink/Ray/Hudi),又深度理解 多模态模型训练流程(Pytorch/DeepSpeed),能与算法同学无缝对话;
3.熟悉图像、视频、语音等非结构化数据的处理逻辑,有 VLM(视觉语言模型) 或 音频大模型 数据管线建设经验者重磅加分;
4.具备自研自动化标注、合成及评估工具的能力,能通过工程手段…
招聘城市:北京
Ray/Spark 等框架,优化万亿级 Token 的处理效率,挑战多模态超大规模数据的计算瓶颈;
5.质量度量体系:建立数据与模型效果的强关联指标,通过自动化评测闭环,量化每一批次数据对模型“智商”的贡献。
岗位要求:
1.计算机相关专业,硕士及以上学历,3年以上数据研发或 AI 平台经验,对 Data-Centric AI 有深刻理解;
2.既能玩转 大规模分布计算(Spark/Flink/Ray/Hudi),又深度理解 多模态模型训练流程(Pytorch/DeepSpeed),能与算法同学无缝对话;
3.熟悉图像、视频、语音等非结构化数据的处理逻辑,有 VLM(视觉语言模型) 或 音频大模型 数据管线建设经验者重磅加分;
4.具备自研自动化标注、合成及评估工具的能力,能通过工程手段…