職位描述
崗位職責:1. 算力中心服務器日常運維 - 包括 GPU 服務器、存儲節(jié)點、網絡設備的部署、上線、監(jiān)控、巡檢、故障處理等。算力資源調整2. 硬件管理與故障排查 - 負責服務器、硬盤、內存、風扇、GPU 等硬件的安裝、替換和故障分析。3. 系統(tǒng)與環(huán)境維護 - 負責 Linux 系統(tǒng)的安裝、優(yōu)化和升級,環(huán)境變量配置、NVIDIA 驅動和 CUDA 環(huán)境維護。4. 資源調度與使用監(jiān)控 - 管理調度系統(tǒng)(如 Slurm/Kubernetes/Yarn 等),監(jiān)控算力資源使用情況,協(xié)助用戶提交任務。5. 數(shù)據(jù)中心基礎設施建設與支持 - 參與數(shù)據(jù)中心(IDC)建設項目,包括機柜布局、配電規(guī)劃、網絡布線、冷通道系統(tǒng)等; - 協(xié)助管理電力、空調、UPS、動環(huán)監(jiān)控系統(tǒng),保障設施穩(wěn)定運行; - 定期巡檢和維護 IDC 環(huán)境,協(xié)助廠商完成施工、驗收及擴容項目。6. 安全運維與權限控制 - 參與服務器與操作系統(tǒng)的安全加固(如 SSH 安全配置、最小權限原則等); - 管理用戶權限、密鑰、LDAP/AD 對接等; - 定期執(zhí)行安全掃描(如 rootkit、漏洞、端口掃描等),防止入侵與病毒傳播; - 協(xié)助應對突發(fā)安全事件、日志追蹤與問題復盤。7. 文檔與規(guī)范制定 - 編寫和維護運維文檔、操作手冊、安全策略、故障記錄、應急流程、IDC運維標準。 任職要求:1. 學歷背景: - 本科及以上學歷,計算機、電子、通信、自動化等相關專業(yè)優(yōu)先。2. 技術能力: - 熟練使用 Linux 系統(tǒng)(CentOS、Ubuntu 等),掌握系統(tǒng)服務、安全權限、系統(tǒng)加固等; - 熟悉 GPU(如 NVIDIA A100)、X86 架構服務器的組成及維護; - 了解網絡基礎知識(VLAN/IP/交換機配置);有防火墻、NAT、ACL 管理經驗優(yōu)先; - 有 Python/Shell 運維腳本能力者優(yōu)先。3. 安全相關經驗: - 熟悉 Linux 系統(tǒng)安全管理,如防火墻(iptables、firewalld)、SELinux、安全組管理; - 熟悉常見信息安全框架(如等保、ISO27001)或有參與過信息安全評審經驗; - 有賬號權限管理、運維審計、日志分析經驗; - 有安全工具使用經驗,如 Nessus、Lynis、Fail2ban、OSSEC 等者優(yōu)先。4. 經驗要求: - 有 3 年以上數(shù)據(jù)中心、機房運維經驗;有真實搭建或運維過GPU平臺(K8s/Slurm/自研平臺皆可)的經歷;對GPU資源管控、調度策略、任務生命周期有深入理解和實戰(zhàn)經驗; - 有 HPC、AI 算力集群、云平臺(OpenStack/K8s)經驗者優(yōu)先; - 有防火墻、堡壘機、殺毒硬件終端使用和維護經驗; - 有 IDC 機房建設經驗,熟悉配電、動環(huán)、冷通道、UPS 系統(tǒng)者優(yōu)先。5. 其他要求: - 具備良好的溝通能力和團隊協(xié)作能力; - 能接受現(xiàn)場支持等工作安排; - 有責任心,具備較強的問題定位和應急處理能力。加分項(非必須):- 有等保三級或更高級別安全體系部署經驗- 有 NVIDIA DGX 系列或 A100 大規(guī)模部署經驗- 有大型 IDC 機房規(guī)劃、擴容、搬遷項目經驗- 熟悉主流日志收集與安全審計平臺(如 ELK、Wazuh、Graylog)- 熟悉動環(huán)監(jiān)控系統(tǒng)- 有弱電布線、鏈路規(guī)劃、機房標準化建設經驗
企業(yè)介紹
蘇州新科蘭德科技有限公司創(chuàng)立于2010年2月,由來自美國斯坦福、清華、復旦大學等名校的業(yè)界精英與CSDN創(chuàng)始人蔣濤、真格基金合伙人李劍威聯(lián)合組建,是一家商業(yè)模式成熟,盈利高速增長的大數(shù)據(jù)公司,致力于為企業(yè)客戶提供數(shù)據(jù)解決方案和商業(yè)智能服務。
公司于2016年12月獲得3.6億C輪融資。
新科蘭德科技致力于創(chuàng)新理念、創(chuàng)新科技、創(chuàng)新模式、創(chuàng)新生活,相信科技運用的最終目的都是為了改善人的生活而服務。