【崗位職責】
1.負責企業級云原生監控告警系統的建設與運維,基于Prometheus生態構建高可用的指標采集、存儲、告警體系,提升業務系統可觀測性。
2.負責分布式日志平臺的運維與開發,在Kubernetes環境下優化基于Elasticsearch、Kafka的日志采集、傳輸、存儲及檢索鏈路,保障系統穩定高效運行。
3.參與PaaS平臺AIOps能力建設,使用Golang開發運維工具,協助智能異常檢測、根因分析等功能落地,提升運維自動化水平。
4.負責監控日志系統的故障排查、性能調優與應急響應,建立完善的巡檢與容量管理機制,保障服務SLA。
【任職要求】
1.計算機相關專業大專及以上學歷(學信網可查統招學歷),2年以上開發或SRE相關工作經驗。
2.熟悉Golang/Python等至少一種開發語言,具備基礎系統運維能力,了解Linux、網絡協議及容器化技術。
3.了解Kubernetes基本概念與操作,熟悉Prometheus、Elasticsearch、Kafka中至少一項,掌握其日常運維操作。
4.具備良好的問題分析能力、溝通協作意識與文檔編寫習慣,能配合團隊完成項目落地。
5.有監控告警或日志平臺等可觀測性相關開發運維經驗者優先。