崗位職責:
1、負責公司大數據平臺的架構設計、開發與優化,支撐離線與實時數據處理場景;
2、構建高可靠、高性能的數據管道,基于 Kafka + Flink 實現實時數據采集、清洗、聚合與入倉;
3、設計并維護基于Hive、SparkSQL離線數倉體系,保障數據穩定性與計算效率;
4、具備ClickHouse或者Doris 構建高并發、低延遲的 OLAP 查詢服務的實戰經驗,支持 BI、運營及算法團隊需求;
5、參與 Hadoop 集群運維、資源調度優化(YARN)、存儲治理(HDFS 小文件/副本管理)及成本控制;
6、熟練使用Python進行數據處理和分析,熟練掌握Scala、Java開發語言;
7、推動數據質量、元數據管理、血緣追蹤等數據治理體系建設。
任職要求:
1、核心技能(熟練掌握):Scikit-learn、PyTorch 、 TensorFlow;熟練運用:Python, Pandas, NumPy, 數據可視化;熟悉 IDAES 體系架構,要有實際經驗。
2、具有DataX在生產環境大規模調度使用經驗