崗位職責:
1.設計并實現日均億級請求的分布式爬蟲架構,保障系統99.99%可用性;
2.主導反反爬技術攻防體系構建(包括但不限于IP代理池、請求特征偽裝、驗證碼破解、瀏覽器指紋對抗);
3.開發智能調度系統,實現分布式節點協同、動態負載均衡與故障自愈;
4.構建多維度監控體系(請求成功率、數據質量、資源消耗等核心指標);
5.制定數據清洗標準化流程,設計異構數據存儲方案(關系型/非關系型/數據湖);
6.確保數據采集符合GDPR等數據合規要求,建立風險控制機制;
7.主導技術選型與核心組件研發,持續優化采集效率與成本控制。
任職要求:
1.計算機相關專業統招本科,4年以上中大型爬蟲系統開發經驗(特別優秀者可放寬)
2.精通以下技術棧:
語言:精通Java,最好了解一些Python
框架:Scrapy/WebMagic/Colly等二次開發經驗
中間件:Redis/RabbitMQ/Kafka等分布式組件
瀏覽器自動化:Playwright/Selenium高級應用
協議深度:TCP/HTTP/WebSocket等網絡層調優
3.具備復雜反爬場景實戰經驗(某寶/某音/某團等大型平臺數據采集案例)
4.有分布式任務調度系統設計經驗(Celery/Airflow等)
5.熟悉常見數據存儲方案優化(分庫分表/冷熱分離/數據壓縮)
【加分項】
1.有JS逆向/安卓逆向工程經驗
2.主導過日請求量過億級項目
3.熟悉深度學習在驗證碼識別中的應用
4.具備海外數據采集合規經驗(CCPA等)
5.有開源爬蟲框架貢獻經歷
五險一金、周末雙休、帶薪年假、節日福利、各項補貼、零食飲品全都有