崗位要求
1、計算機相關專業(yè)本科及以上學歷,5年以上運維工作經(jīng)驗,其中至少3年專職Kubernetes運維管理經(jīng)驗,維護過較大規(guī)模生產(chǎn)k8s集群。
2、精通Linux操作系統(tǒng)維護、內(nèi)核性能調(diào)優(yōu),熟練使用Python/Shell/Go等至少一種語言,可開發(fā)自動化運維腳本及工具。
3、具備良好的網(wǎng)絡基礎,熟悉 TCP/IP、DNS、HTTP 等協(xié)議,熟悉常見的網(wǎng)絡問題分析和處理,具備很強技術敏感度和故障排查經(jīng)驗。
4、深入理解 Kubernetes 的核心概念(如 Pod、Deployment、Service、Ingress、StatefulSet、DaemonSet 等)和工作原理。熟練使用 kubectl、helm 等命令行工具,具備編寫和調(diào)試YAML/JSON 資源清單文件的能力。熟練掌握Docker 容器技術,熟悉Dockerfile 最佳實踐
5、熟練掌握至少一種主流的 CNI 網(wǎng)絡插件、CSI 存儲方案和Ingress Controller。
6、熟練掌握 Prometheus + Grafana 監(jiān)控棧的搭建、配置和使用,熟悉ELK日志系統(tǒng)管理和使用。
7、工作細致、善于思考,對前沿技術有強烈的鉆研精神;強烈的責任心、良好的溝通和協(xié)調(diào)能力、極強的業(yè)務推動能力、勇于接受挑戰(zhàn);具備較強的文檔編寫能力。
8、愿意接受7*24小時根據(jù)監(jiān)控系統(tǒng)或人工報障信息,隨時處理線上系統(tǒng)故障,保障系統(tǒng)穩(wěn)定運行。
崗位職責
1、負責公司生產(chǎn)、灰度、測試、開發(fā)環(huán)境的 Kubernetes 集群的規(guī)劃、部署、升級、擴容、監(jiān)控與日常維護,保障集群的高可用性和穩(wěn)定性。深入排查并解決集群節(jié)點、網(wǎng)絡、存儲、負載均衡等組件的故障和性能瓶頸。管理和維護集群的etcd、CNI網(wǎng)絡插件、CSI存儲插件、Ingress、coredns、鏡像倉庫等核心組件。
2、構建和完善集群及應用的全鏈路監(jiān)控體系,使用 Prometheus、Grafana 等工具對集群資源、應用性能及業(yè)務指標進行監(jiān)控,配置和管理合理的告警規(guī)則,確保能及時響應并處理各類故障。
3、為開發(fā)團隊提供資源規(guī)劃和性能調(diào)優(yōu)的建議與支持。