職位描述:
1、負責網絡爬蟲系統平臺的架構設計與開發(如抓取調度,多樣化抓取,頁面解析和結構化抽取)、技術選型;
2、研究爬蟲策略和防屏蔽規則,解決封賬號、封IP、驗證碼、混淆加密,算法還原,so層,頁面跳轉等難點攻克,提升網頁抓取的效率和質量;
3、對抓取后的數據進行清洗、存儲等,并持續優化
平臺,以便滿足各種爬取業務需求。崗位要求:
1.精通Linux/UNIX,精通Python語言,至少熟練掌
握主流爬蟲框架中的一種;
2.了解各種加密算法,在破解驗證碼方面有豐富經驗,能夠獨立解決is反爬和模擬登陸問題;
3.熟練掌握正則表達式、XPath、CSS等網頁信息抽
取技術;
4.熟悉常見反爬機制,驗證碼識別,IP代理池、應用 lp池、headers認證和cookie等;
5.熟練掌握應用Selenium、PhantomJS、Splash Puppeteer實施動態抓取;
6.熟悉熟練使用charles、fiddler等抓包工具者優先
7.熟悉數據清洗,能夠用numpy、pandas、jieba等
8.熟悉mysal、mongodb、redis、rabbitMQ、kafk
a、spark者優先;
9.對有金融數據抓取清洗經驗優先;
工作時間:
8小時工作制,周一至周五(雙休、國家法定節假日
)。
薪資待遇:
試用期3個月,正式入職工資6000~11000。
條件優異者,