崗位職責
1、按照故障處理SLA要求響應智算機房各類運維工單,嚴格遵循SOP流程執行操作,涵蓋設備的上下架、硬件部件更換、機房布線等操作
2、負責智算機房GPU服務器、交換機等設備的日常巡檢、狀態匯總、故障跟蹤處理及總結歸檔
3、及時響應并處理機房緊急突發情況(如服務器宕機、網絡中斷、服務器硬件故障等),嚴格按流程執行處理、記錄等工作
4、具備較強的責任心與溝通能力,確保智算機房運維安全規范,最快程度完成故障處理,保障訓練業務的穩定運行
任職要求
1、熟悉GPU服務器、服務器各部件如GPU/網卡/存儲卡/CPU/內存等配置與特性,熟練掌握各類服務器部件故障排障手段與經驗;
2、熟悉交換機基礎命令,能完成交換機基礎配置與檢查;
3、1年以上智算機房/數據中心運維經驗,有GPU集群硬件運維經驗者優先;
4、熟悉IDC機房運維環境與安全規范;
5、熟練操作Linux系統(CentOS/Ubuntu),熟悉硬件查詢命令及常用系統命令,能進入單用戶模式進行系統操作;
6、具備智算機房應急事件處理能力,如GPU掉卡、網絡中斷、機房溫濕度異常等情況的快速響應與處理;
7、對智算機房常見的服務器、交換機運維流程能熟練掌握,并能識別流程中的潛在風險;
8、具有較強責任心,具備良好的團隊協作與溝通能力,能跨部門配合推進運維工作;
9、本科及以上學歷,計算機科學與技術、電子信息工程等計算機相關專業