【職位描述】
1. 負責公司大模型(LLM及多模態模型)的核心算法研發,包括但不限于模型架構的設計、改進與實現。
2. 主導針對工業(礦山)垂直領域的大模型預訓練(Pre-training)和微調(Fine-tuning),包括SFT、RLHF、DPO等關鍵技術。
3. 構建和管理高效、可擴展的數據處理管線,負責大規模訓練數據的清洗、去重、過濾和Tokenization。
4. 緊跟大模型前沿技術,研究參數高效微調(如LoRA、QLoRA)、模型融合、長文本處理等技術,并將其應用于模型迭代。
5.精通模型,量化,減枝,蒸餾。
【崗位要求】
1. 人工智能、計算機科學、數學等相關專業,碩士及以上學歷(博士優先)。
2. 具備扎實的數學和機器學習基礎,深入理解Transformer、MoE等大模型架構及其原理。
3. 在AI/NLP/ML領域頂級會議(如NeurIPS, ICML, ICLR, ACL, EMNLP等)發表高質量論文者優先。
4. 精通PyTorch/JAX/TensorFlow等框架,具備豐富的大模型訓練經驗,熟悉分布式訓練(FSDP, ZeRO, DeepSpeed)技術。
5. 具備強大的工程能力,能熟練處理T級別以上的大規模數據集。
6. 對新技術充滿熱情,具備極強的論文閱讀、復現和創新能力。
7. 熟悉Hugging Face生態,有大型開源模型(如Llama, Mistral, GLM等)訓練和微調經驗者優先。
【我們提供】
1. 具有競爭力的薪酬與股權激勵
2. 前沿的技術方向與充足的算力資源
3. 與頂尖高校及研究機構的合作機會
4. 開放包容的技術氛圍,鼓勵創新與探索