崗位職責:
1.負責AI大模型及相關應用、智能體的評測工作,深入理解評測需求,制定并落地評測方案;
2.負責構建大模型評測能力平臺,通過不斷探索和創新,迭代提升評測效率及準確性;
3.對AI大模型進行功能測試、性能測試、穩定性測試、自動化測試等,確保系統滿足用戶需求及合規安全;
4.負責模型測試數據集的構建及維護,定期抽樣真實對話數據并進行標注;
5.分析歸因評測結果,編寫測試報告,提出改進建議,協助研發團隊定位并修復問題;
6.熟練使用LLM應用開發平臺,開發并落地推廣測試領域場景保險業務相關的智能工作流,助力測試工作提效。
任職要求:
1.計算機、軟件工程、人工智能、電子信息等相關專業;
2.二年以上AI大模型應用測試工作經驗,參與四項及以上AI大模型應用的測試工作,擁有保險領域契約、核保、理賠、營銷、客戶服務等場景AI大模型應用測試工作經驗優先;
3.熟悉Java/Python/C++等至少一種編程語言;
4.熟悉AI大模型應用的測試方法、測試工具、測試數據集構建、測試指標體系等;
5.熟悉常見LLM、VLM評測方案,對業界常見的Benchmark、評測集有基礎了解;
6.熟練使用LLM應用開發平臺,如Dify、Langflow、Flowise等;
7.了解機器學習理論,包括深度學習、自然語言處理等技術;了解數據處理和分析方法,能夠運用數據驅動的方法協助算法團隊優化模型性能;
8.掌握軟件測試設計方法,理解軟件編程規范,了解軟件自動化測試、性能測試基礎方法和工具。