職位描述
核心職責(zé)? Kubernetes平臺(tái)建設(shè)? 1、設(shè)計(jì)并部署高可用K8s集群,優(yōu)化存儲(chǔ)(如Longhorn/Ceph)、網(wǎng)絡(luò)(Calico/Cilium)、監(jiān)控(Prometheus/Grafana)及日志(EFK/Loki)體系。 2、開發(fā)自動(dòng)化運(yùn)維工具,實(shí)現(xiàn)集群擴(kuò)縮容、故障自愈、安全加固(RBAC/OPA/網(wǎng)絡(luò)策略)。 3、支持混合云/多云架構(gòu),整合公有云(AWS?EKS/AKS/GKE)與私有化資源。 CI/CD流水線設(shè)計(jì)與開發(fā)1、構(gòu)建AI場(chǎng)景下的CI/CD全鏈路工具鏈,集成代碼管理(GitLab/GitHub)、流水線設(shè)計(jì)(Jenkins)、鏡像構(gòu)建(Kaniko/Docker)、自動(dòng)化測(cè)試(單元/集成/壓力測(cè)試)、滾動(dòng)發(fā)布(Argo?Rollouts)及制品倉庫(Harbor/Nexus)。 2、實(shí)現(xiàn)AI模型訓(xùn)練的CI/CD流程,支持分布式訓(xùn)練任務(wù)調(diào)度、模型版本管理(MLflow/DVC)及自動(dòng)化部署(KServe/Seldon)。 3、開發(fā)自定義GitOps工作流(Argo?CD/Flux),提升發(fā)布效率和可觀測(cè)性。 云容器開發(fā)環(huán)境? 1、搭建容器化AI開發(fā)機(jī)(基于VS?Code?Remote/NVIDIA?Container?Toolkit),支持GPU直通、代碼熱加載及多人協(xié)作。 2、優(yōu)化開發(fā)環(huán)境資源調(diào)度,按需分配CPU/GPU資源,降低閑置成本。 3、集成JupyterLab、PyCharm等IDE插件,提供開箱即用的AI研發(fā)環(huán)境。 GPU虛擬化與資源調(diào)度1、實(shí)現(xiàn)GPU虛擬化方案(vGPU/MIG/Kubevirt),支持細(xì)粒度資源切割(如1/8?GPU卡調(diào)度)。 2、開發(fā)K8s?GPU調(diào)度插件(如KubeShare/Gpu-Share),優(yōu)化AI任務(wù)排隊(duì)、搶占及資源利用率。 3、監(jiān)控GPU使用率、顯存占用及溫度,設(shè)計(jì)智能調(diào)度策略(結(jié)合Prometheus+自定義Operator)。 AI?Infra架構(gòu)支持? 1、構(gòu)建支持大規(guī)模分布式訓(xùn)練的基礎(chǔ)設(shè)施,集成PyTorch?Distributed/Horovod等框架。 2、優(yōu)化模型推理服務(wù)(Triton/TorchServe),實(shí)現(xiàn)自動(dòng)擴(kuò)縮容、金絲雀發(fā)布及A/B測(cè)試。 3、與數(shù)據(jù)團(tuán)隊(duì)協(xié)作,打通數(shù)據(jù)流水線(Kafka/Airflow)、特征存儲(chǔ)(Feast)與模型服務(wù)鏈路。 任職要求? 技術(shù)能力? 1、精通Kubernetes生態(tài)(Helm/Operator/CRD)及至少一種公有云容器服務(wù)(ACK/EKS/GKE)。 2、熟悉CI/CD工具鏈(Jenkins/GitLab?CI/Argo),具備Pipeline即代碼(Jenkinsfile/GitLab?CI?YAML)開發(fā)經(jīng)驗(yàn)。 3、掌握GPU虛擬化技術(shù)(vGPU/MIG/Kubevirt)及調(diào)度策略,有NVIDIA?Docker/Kubernetes?Device?Plugin實(shí)戰(zhàn)經(jīng)驗(yàn)。 4、熟悉AI研發(fā)流程(模型訓(xùn)練/部署/監(jiān)控),了解MLOps工具鏈(MLflow/Kubeflow)。 5、熟練使用Python/Go開發(fā)運(yùn)維腳本或Operator,具備自動(dòng)化運(yùn)維平臺(tái)開發(fā)經(jīng)驗(yàn)。 經(jīng)驗(yàn)要求? 1、3年以上云原生運(yùn)維開發(fā)經(jīng)驗(yàn),主導(dǎo)過K8s集群搭建或AI?Infra建設(shè)項(xiàng)目。 2、有大規(guī)模GPU集群(50+節(jié)點(diǎn))管理或性能調(diào)優(yōu)經(jīng)驗(yàn)者優(yōu)先。 3、 熟悉Infra-as-Code(Terraform/Ansible)及監(jiān)控告警體系(****Manager/Thanos)者優(yōu)先。
企業(yè)介紹
傅利葉智能成立于2015年,是一家通用機(jī)器人平臺(tái)型企業(yè),以全棧式機(jī)器人核心技術(shù)為基石、以創(chuàng)新型機(jī)器人本體產(chǎn)品為載體,致力于通過智能技術(shù)變革各行各業(yè),讓人人享有美好生活。公司總部坐落于上海張江,聯(lián)動(dòng)新加坡海外總部,構(gòu)建國際化的研發(fā)、生產(chǎn)和銷售服務(wù)網(wǎng)絡(luò)。成立至今,傅利葉智能陸續(xù)獲得IDG、國中資本、沙特阿美、張江科投、軟銀愿景等國內(nèi)外多家頂尖機(jī)構(gòu)投資近10億元融資,并榮獲國家重點(diǎn)“專精特新”小巨人企業(yè)、工信部新一代人工智能技術(shù)攻關(guān)揭榜企業(yè)、上海市小巨人企業(yè)、上海市企業(yè)技術(shù)中心、中國工業(yè)設(shè)計(jì)獎(jiǎng)等榮譽(yù)獎(jiǎng)項(xiàng)。傅利葉智能自創(chuàng)立伊始,堅(jiān)持聚焦通用機(jī)器人底層技術(shù),不斷攻克核心零部件(執(zhí)行、感知)能力瓶頸,力爭(zhēng)以高性能機(jī)器人本體,為各類行業(yè)場(chǎng)景提供技術(shù)開放平臺(tái),讓機(jī)器人技術(shù)真正通用化、普及化。公司研發(fā)團(tuán)隊(duì)達(dá)數(shù)百名,覆蓋機(jī)械電子、軟件算法、工程測(cè)試等機(jī)器人領(lǐng)域全板塊,并自建高技術(shù)密度、醫(yī)療級(jí)機(jī)器人產(chǎn)品量產(chǎn)交付能力。2023年中,傅利葉智能正式發(fā)布首款通用雙足機(jī)器人產(chǎn)品GR-1,該產(chǎn)品具備流暢的外觀、優(yōu)異的運(yùn)動(dòng)能力,并將領(lǐng)先實(shí)現(xiàn)量產(chǎn)交付,在技術(shù)水平,商業(yè)化進(jìn)展上皆具備全球突破性,引起行業(yè)廣泛專注。同時(shí),傅利葉智能也已將通用機(jī)器人技術(shù)在醫(yī)療康復(fù)場(chǎng)景實(shí)現(xiàn)規(guī)?;瘧?yīng)用,通過“智能康復(fù)港”產(chǎn)品矩陣,累計(jì)為全球超過40個(gè)國家和地區(qū)的2000多家客戶提供高性能康復(fù)機(jī)器人及綜合性解決方案。