招聘城市:北京,上海,深圳,杭州
…治理经验。
2、熟悉 Kubernetes 调度体系、弹性伸缩、服务发现、流量治理等技术。
3、理解大模型推理链路,熟悉 GPU、显存、KV Cache、batching、Token 吞吐、TTFT/TPOT 等概念。
4、有 GPU 集群、MaaS 平台、模型服务平台或推理系统经验优先。
5、具备强指标意识,能够围绕 SLA、GPU 利用率/SMA、吞吐、延迟和成本持续优化系统。
加分项
1、熟悉 AIBrix、llm-d、vLLM、SGLang、KServe、Ray Serve 等推理框架或服务化体系。
2、有在线离线混部、弹性调度、算力资源池化、异构算力调度相关经验。
3、有大规模 GPU 集群、万亿级 Token 推理服务或商业化 MaaS 平台建设经验。
4、有提升 GPU 利用率、SMA、推理吞吐或降低单位 Token 成本的实际案例。
5、熟悉多租户资源隔离、优先级调度、抢占、配额…
…治理经验。
2、熟悉 Kubernetes 调度体系、弹性伸缩、服务发现、流量治理等技术。
3、理解大模型推理链路,熟悉 GPU、显存、KV Cache、batching、Token 吞吐、TTFT/TPOT 等概念。
4、有 GPU 集群、MaaS 平台、模型服务平台或推理系统经验优先。
5、具备强指标意识,能够围绕 SLA、GPU 利用率/SMA、吞吐、延迟和成本持续优化系统。
加分项
1、熟悉 AIBrix、llm-d、vLLM、SGLang、KServe、Ray Serve 等推理框架或服务化体系。
2、有在线离线混部、弹性调度、算力资源池化、异构算力调度相关经验。
3、有大规模 GPU 集群、万亿级 Token 推理服务或商业化 MaaS 平台建设经验。
4、有提升 GPU 利用率、SMA、推理吞吐或降低单位 Token 成本的实际案例。
5、熟悉多租户资源隔离、优先级调度、抢占、配额…