1.負責構建大模型場景應用數據集,包括訓練數據集、微調數據集和測試數據集等;
2.負責數據平臺設計與開發,包括數據采集、數據清洗、數據去重、數據標注、質量評估、數據發布等策略制定及相關工具開發;
3.負責數據平臺與大模型訓練平臺、大模型應用的對接集成,根據需求設計對接方案并工程化實現;
4.及時發現和定位數據問題,跟蹤問題的解決進度,確保數據問題得到有效解決;
5.開展數據治理,持續提升數據質量,挖掘數據價值;
6.管理數據存儲和數據安全,確保數據的保密性和合規性;
7.參與需求文檔、設計文檔、使用文檔等材料編寫;
任職要求:
1.統招本科及以上學歷,計算機科學、數據科學、信息系統、統計等相關專業;
2.三年以上數據處理或人工智能相關工作經驗;
3.具備較強的SQL編程能力,能夠編寫腳本進行數據處理;
5.具備較強的Python編程能力,熟練使用常用數據處理庫(Pandas、NumPy);
4.熟悉主流的數據庫,如Oracle、MySQL、ES、MongoDB等;
5.熟悉主流的向量數據庫,如Milvus、Chroma等;
6.熟悉大數據技術棧,如Hadoop、Spark等;
7.了解深度學習、大模型、RAG等相關技術,了解主流的大模型訓練及微調方法;