【崗位職責】
1、系統(tǒng)設(shè)計與開發(fā):運維現(xiàn)有的系統(tǒng),編寫高效的Python爬蟲腳本,從指定的公開網(wǎng)站、API接口、APP、微信公號等渠道,自動化抓取多源數(shù)據(jù);
2、數(shù)據(jù)處理與清洗: 對爬取到的原始數(shù)據(jù)進行清洗、去重、格式化、轉(zhuǎn)換和集成,確保數(shù)據(jù)的準確性和一致性,使其滿足報告研究人員的使用;
3、技術(shù)難題攻堅: 解決爬取過程中遇到的各種技術(shù)挑戰(zhàn),包括但不限于動態(tài)渲染(JS)、驗證碼識別、IP封禁、API限制等。
4、質(zhì)量與效率: 建立數(shù)據(jù)質(zhì)量監(jiān)控體系,持續(xù)優(yōu)化爬蟲策略和系統(tǒng)架構(gòu),提升數(shù)據(jù)采集的覆蓋度、及時性和效率。
5、合規(guī)與倫理: 嚴格遵守Robots協(xié)議、數(shù)據(jù)安全法與版權(quán)法規(guī),確保所有數(shù)據(jù)采集活動的合法合規(guī)性。
【技術(shù)要求】
1、精通 Python 編程語言,熟練使用Python、Java、php語言,掌握 Scrapy, Requests, Selenium/Playwright 等主流爬蟲框架和工具。
2、深刻理解HTTP/HTTPS協(xié)議,熟悉Web前端技術(shù)(HTML, CSS, JavaScript)。
3、具備處理復雜反爬機制(如IP速率限制、驗證碼、動態(tài)加載、用戶行為檢測、加密參數(shù)等)的實戰(zhàn)經(jīng)驗。
4、熟悉至少一種數(shù)據(jù)庫(如 MySQL, PostgreSQL, MongoDB, Redis)。
5、具備優(yōu)秀的數(shù)據(jù)清洗和處理能力,熟悉 Pandas, NumPy 等工具。
6、了解分布式爬蟲原理,有使用 Scrapy-Redis, Celery 等工具的經(jīng)驗。
符合條件且有相關(guān)經(jīng)驗的人員也可兼職錄用本工作崗位
工作地點:南寧市青秀區(qū)金洲路18-1號疾控中心小區(qū)1棟B單元3103室
總部地址:北京市西城區(qū)天橋南大街1號天橋藝術(shù)大廈B1-104室
職位福利:周末雙休、每年多次調(diào)薪、加班補助、節(jié)日福利、餐補、年底雙薪、員工旅游、帶薪年假
職位亮點:全國第一的演藝、音樂和文旅大數(shù)據(jù)機構(gòu)!