我們正在招聘一名以 Ansible 自動化平臺 為核心的運維工程師,負責對 IT 基礎設施進行高效、穩定、可擴展的自動化運維。該崗位需要具備一定的 SRE(Site Reliability Engineering)思想,通過自動化和工程化手段,減少人工操作,提高系統可靠性和運維效率。
工作職責:
1. 基于 Ansible / Ansible Automation Platform 設計、開發和維護自動化運維方案
2. 將重復性、標準化的運維工作盡量自動化,包括但不限于:
- 日常巡檢與健康檢查
- 操作系統與中間件補丁管理
- 常規與批量變更執行
3. 建立和維護自動化運維 Playbook、Role、Collection 及相關規范
4. 在系統或服務發生故障時,利用自動化工具進行:
- 初步故障診斷
- 信息采集與問題定位支持
- 已知問題的自動化修復
5. 結合 SRE 理念,持續優化系統的穩定性、可觀測性和可恢復性
6. 與開發、架構及其他運維團隊協作,推動自動化和標準化運維流程落地
7. 編寫和維護運維文檔、自動化使用說明及最佳實踐
任職要求:
必備技能:
1. 熟悉 Linux 操作系統(如 RHEL / CentOS 等)的日常運維
2. 具備 Ansible 實際使用經驗,熟悉:
- Playbook、Role、Inventory、Variables
- 常見模塊及最佳實踐
3. 理解基礎的 IT 基礎設施組件,如:
- 服務器、網絡、存儲
- 常見中間件(Web Server、數據庫、緩存等)
4. 具備腳本能力,至少掌握一種:Shell / Python
5. 具備良好的問題分析和排障能力
思想與能力要求:
1. 具備 SRE 或 DevOps 思想,認同“自動化優先、減少人工介入”的運維理念
2. 能夠將運維經驗沉淀為自動化方案和標準流程
3. 對系統穩定性、可用性和運維效率有持續優化意識
4. 具備良好的溝通能力和文檔習慣
加分項(非必須):
1. 有 Ansible Automation Platform / AWX / Tower 使用經驗
2. 了解 CI/CD 流程或與自動化運維的集成方式
3. 有監控與可觀測性經驗(如 Prometheus、Grafana、ELK 等)
4. 了解云平臺或混合云環境(OpenStack、阿里云、AWS、Azure 等)
5. 有應急響應、故障演練或穩定性治理經驗
我們能提供:
1. 參與自動化和 SRE 體系建設的機會
2. 技術導向、工程文化濃厚的團隊環境
3. 具有競爭力的薪酬與職業發展空間