1、搭建數據采集平臺,通過對數據的抓取、解析、調度、存儲等模塊的拆分與優化,構建和完善統一的抓取服務平臺;
2、設計爬取、調度和抽取算法,優化系統;
3、熟識Hadoop生態圈技術體系對離線計算、內存計算和流式計算均有深刻理解如Hadoop、Hive、Spark、Flink、Impala 等;
4、解決爬蟲和數據庫出現的問題并不斷維護、優化程序。
任職資格:
1、本科及以上學歷,計算機相關專業,2年左右相關經驗;
2、Python 開發的經驗,爬蟲開發經驗,熟識MySQL或了解PostgreSQL 數據庫能協助檢查數據入庫環節;
3、熟識整個爬蟲的設計及實現流程.精通網頁抓取原理及技術,精通正則表達式從結構化的和非結構化的數據中獲取信息;
4、具有搜尋相關技術研發、數據挖掘、數據處理、自然語言處理、信息檢索、機器學習背景者優先。
職位福利:五險一金、加班補助、周末雙休、年底雙薪、員工旅游、定期體檢