一、職位描述
1、對指定的多個網(wǎng)站進行網(wǎng)頁抓取、數(shù)據(jù)提取;負責(zé)網(wǎng)絡(luò)數(shù)據(jù)抓取規(guī)劃、清洗以及匯總的開發(fā)工作;
2、負責(zé)特殊網(wǎng)頁采集任務(wù)的分析及采集方案設(shè)計;
3、參與爬蟲架構(gòu)設(shè)計和研發(fā),滿足產(chǎn)品中數(shù)據(jù)抓取的要求;
4、參與爬蟲核心算法和策略優(yōu)化研究;
5、抓取調(diào)度和策略優(yōu)化,實時監(jiān)控爬蟲的進度和警報反饋;
6、爬蟲核心系統(tǒng), 數(shù)據(jù)平臺的研發(fā)維護。
二、職位要求
1、 本科及以上學(xué)歷,計算機相關(guān)專業(yè);3年以上開發(fā)經(jīng)驗,2年以上Hadoop相關(guān)工作經(jīng)驗;
2、具有數(shù)據(jù)挖掘、信息檢索、機器學(xué)習(xí)開發(fā)經(jīng)驗;
3、精通HTML語言,熟悉JS,Ajax,熟悉Lucene、Nutch、Heritrix、larbin、HtmlParse、Scrapy、Crawler4j、WebMagic、WebCollector等開源工具;
4、精通網(wǎng)頁抓取原理及技術(shù),從結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)中獲取信息;
5、熟練使用一門以上腳本語言(PHP/PYTHON/JAVA/Node.js/SQL/R語言 等);
6、熟練Hadoop大數(shù)據(jù)平臺的核心框架 (HDFS, Pig, Hive, Sqoop, oozie, Zookeeper, Spark, Storm, Kafka 等);
7、精通網(wǎng)絡(luò)編程,熟悉HTTP傳輸協(xié)議,能模擬瀏覽器操作爬蟲;
8、有豐富Java /Python開發(fā)經(jīng)驗者優(yōu)先;熟悉MySQL、Oracle及有集群數(shù)據(jù)庫開發(fā)經(jīng)驗者優(yōu)先。
9、具備web挖掘等搜索引擎相關(guān)知識,有從事網(wǎng)絡(luò)爬蟲、網(wǎng)頁去重、網(wǎng)頁信息抽取的經(jīng)驗。以解決技術(shù)難題為樂,對程序完美有偏執(zhí)追求;具有團隊精神,有想法,敢于挑戰(zhàn)自我。