任職要求:
熟悉Python語(yǔ)言,熟練運(yùn)用多進(jìn)程、多線程開(kāi)發(fā);
熟悉爬蟲(chóng)原理,熟練掌握正則表達(dá)式、XPath、CSS等網(wǎng)頁(yè)信息抽取技術(shù)以及提取多層Json結(jié)構(gòu)數(shù)據(jù);
熟悉常見(jiàn)反爬機(jī)制,IP池、cookie、js加密等;對(duì)破解驗(yàn)證碼有豐富經(jīng)驗(yàn),獨(dú)立解決js反爬和模擬登陸問(wèn)題
熟練使用Scrapy、Requests、Selenium、PhantomJS等框架;熟練使用抓包工具;
熟悉Linux基礎(chǔ)命令,熟悉Mysql、Redis等數(shù)據(jù)庫(kù)及相關(guān)操作;
其它要求:
熟悉數(shù)據(jù)清洗,能夠用numpy、pandas、jieba等工具對(duì)數(shù)據(jù)進(jìn)行處理者優(yōu)先;
崗位職責(zé):
1、負(fù)責(zé)網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的設(shè)計(jì)與開(kāi)發(fā)(結(jié)構(gòu)化抽取,分布式,調(diào)度策略);
2、研究爬蟲(chóng)策略和防屏蔽規(guī)則,解決封鎖、驗(yàn)證碼、加密,等問(wèn)題,優(yōu)化爬蟲(chóng)效率和質(zhì)量;
3、對(duì)抓取后的數(shù)據(jù)進(jìn)行清洗、存儲(chǔ),并持續(xù)優(yōu)化平臺(tái),提升爬蟲(chóng)穩(wěn)定性及可擴(kuò)展性。
4、向部長(zhǎng)匯報(bào)。
24小時(shí)免費(fèi)咨詢
請(qǐng)輸入您的聯(lián)系電話,座機(jī)請(qǐng)加區(qū)號(hào)