工作描述:
1.高性能数仓架构与模型设计:负责基于 StarRocks / Doris 等高性能OLAP引擎构建计算层,优化极速分析体验(如:大宽表设计、物化视图应用)。负责从多源业务系统(ERP、CRM、PLM等)到数仓的链路设计,完成数据模型(维度建模)的建设,确保底层架构的扩展性。
2.实时与离线ETL开发:负责离线(T+1)与实时(秒级/分钟级)数据同步链路的开发。利用 Flink / Spark 等框架处理海量数据转换,编写高质量的 ETL 任务,并负责调度监控与失败重试机制。
3.指标体系与高性能看板:结合业务场景(如营销实时战报、生产制造看板),利用BI工具与高性能后端对接,解决万亿级数据下的秒级响应问题。统一集团数据口径,主导数据字典的维护,确保各业务线指标口径一致。
4.系统性能调优:深度优化慢SQL,针对 StarRocks 等引擎进行 Join 优化、分区分桶优化及缓存调优,降低系统资源消耗。
职位要求:
1.专科及以上学历,5年及以上数仓或BI开发经验。有大规模数据处理经验,或有过从传统型数据库(如MySQL/Oracle)向 MPP数据库(如StarRocks/Doris/ClickHouse)迁移经验者优先。
2.计算引擎: 深入理解 StarRocks、Apache Doris 或 ClickHouse 中至少一种,熟悉其存储原理(如列式存储、稀疏索引、Pipeline引擎)。
3.SQL基本功: 精通 SQL/Stored Procedure,能够处理复杂的逻辑运算,对窗口函数、CTE、递归等高级特性运用自如。
4.大数据框架: 熟悉 Spark / Flink 中的一种,了解其在数据清洗和聚合中的应用;熟悉 Hadoop 生态(HDFS, Hive, YARN)。
5.数据集成与工具:熟练使用 Kettle / DataX / SeaTunnel 等集成工具;熟悉 Airflow / DolphinScheduler 等任务调度平台。掌握主流BI展示工具(如 FineBI, PowerBI, Tableau, 或开源的 Superset/Metabase)。
6.模型与思维:深刻理解维度建模(Star Schema, Snowflake Schema),能独立进行数据主题域划分。具备良好的业务感知能力,能将复杂的业务逻辑转化为高效的底层数仓物理模型。
7.熟悉 Python/Go 至少一种后端语言,能编写自动化运维脚本。对数据安全和 AI有一定的了解。
收藏
取消收藏
已投递