【崗位職責】
1、負責大數據集群核心組件的全生命周期運維,包括Ambari部署管理、Hadoop(HDFS/YARN)集群運維、Spark/Flink計算任務支持、Hive/HBase數據存儲管理,以及 Kylin、Doris、ES、Zookeeper、海豚調度器的日常巡檢、故障排查與版本升級,保障集群7×24小時穩定運行。
2、參與大數據技術體系的信創適配落地與運維,針對飛騰、海光、鯤鵬芯片服務器,以及麒麟 V10SP2/3 操作系統,解決組件兼容性問題(如 Hadoop與鯤鵬芯片驅動適配、Flink在麒麟系統的依賴庫沖突),沉淀信創環境運維手冊與故障處理預案。
3、基于 RedHat、CentOS、麒麟 V10SP2/3 操作系統,通過Shell腳本實現運維任務自動化,如集群狀態批量檢查、日志定期清理、配置跨節點同步;同時利用Python或Go 語言研發運維工具,提升運維效率(如歷史故障自動分析工具、組件配置校驗工具)。
4、參與集群容量規劃、性能調優與監控告警體系迭代,結合業務數據增長與計算需求,輸出資源擴容建議;針對慢查詢、任務阻塞等問題,聯合業務團隊優化SQL語句、調整組件參數。
5、負責運維文檔沉淀,包括集群架構圖、組件部署手冊、故障處理案例、信創適配指南等,配合團隊完成新人帶教與技術分享。
6、完成領導安排的其他工作。
【任職要求】
1、本科及以上學歷,計算機、大數據、軟件工程相關專業優先,3年及以上大數據集群運維經驗,有金融、互聯網等大規模集群(50節點以上)運維經驗者優先。
2、精通Hadoop生態組件原理與運維,能獨立解決HDFS塊丟失、YARN資源死鎖、Hive元數據損壞、Flink任務背壓等復雜故障;熟悉Spark/Flink任務提交、資源配置與調優,了解Kylin/Doris的預計算邏輯與查詢優化。
3、熟練使用RedHat/CentOS系統命令,精通Shell腳本編程;具備Python或Go語言開發能力,有實際大數據運維工具開發案例(如自動化部署工具、巡檢工具)者優先。
4、熟悉監控告警工具(如 Prometheus、Grafana、夜鶯),能獨立搭建組件監控面板、配置告警規則;具備容量規劃、性能調優經驗,了解云原生技術(Docker、K8s)者優先。
5、具備較強的問題分析與應急處理能力,責任心強,能接受節假日值班與突發故障應急響應。