崗位職責:
1、DeepSeek、通義千問系列等大模型本地化部署。
2、負責阿里云百練平臺,通義點金,大模型相關的部署實施;
3、負責大模型日常維護和版本更新。
4、負責阿里云平臺資源的分通義配、搭建、部署、監控、調優、升級、日常維護工作;
5、建立和完善云平臺安全的監控體系和事件處理機制,確保業務的穩定運行;
6、制定云平臺的運維流程、制度和規范;參與運維工作相關流程標準設計、編寫;
任職要求
1、熟悉大模型(DeepSeek系列、通義千問系列等)的本地化部署,熟悉多機多卡大模型部署。
2、熟悉dify等智能體平臺,有實際使用經驗最佳。
3、熟悉阿里云百練平臺,對通義點金等有一定了解,有實施使用經驗最佳。
4、掌握 Linux 操作系統管理、TCP/IP 網絡棧。
5、精通 Docker 基礎操作,具備 Kubernetes 集群部署、升級、故障排查、網絡與存儲插件調優經驗;熟練使用 Helm。
6、熟練搭建與維護 Prometheus、Alertmanager、Grafana、Loki 等監控和可視化平臺;
7、熟練阿里云產品、包括不限于ACK、ECS、SLB、NAT、NAS存儲等,具備阿里云操作經驗。
8、精通至少一種腳本語言(Shell/Python/Go),能快速實現自動化與工具開發。