崗位職責:
1、負責AI訓練數據的全流程管理:清洗、標注、增強、版本控制及質量評估;
2、負責多模態訓練數據(文本、圖像、語音、視頻等)的采集、清洗與結構化處理,制定數據質量標準,確保數據集的多樣性、代表性和合規性;
3、開發自動化工具或腳本(如Python/Pandas)處理大規模數據,解決噪聲過濾、重復數據刪除、格式統一等問題;
4、設計數據標注規則與流程,確保標注結果的一致性與準確性(如實體識別、語義分割、意圖分類等任務);
5、通過應用數據增強技術(如文本擴寫、圖像變換、對抗生成)提升數據量級與多樣性,優化模型泛化能力;
6、設計數據標注規則與SOP,搭建自動化數據處理Pipeline;
7、開發數據合成工具(如基于Diffusion模型生成圖像數據);
8、保障數據安全合規,制定隱私脫敏與版權管理策略。
任職要求:
1、計算機/統計學相關專業本科以上學歷,2年以上數據工程經驗;
2、精通Python/SQL,熟練使用數據處理庫(如Pandas、NumPy)及分布式計算工具(Spark、Dask)。
3、熟悉主流標注工具(Label Studio/CVAT)及數據湖架構;
4、了解數據標注行業生態,熟悉GDPR/《個人信息保護法》等數據合規要求;
5、參與過大模型預訓練數據建設(如RedPajama/The Pile);
6、熟悉房地產業務場景的數據特點與標注規范者優先。