1、携程在面对互联网世界复杂数据需求时干货携程酒店基于血缘元数据的数据流程优化实践,选择了分布式图数据库Nebula Graph进行运维治理,以提高效率并适应现有系统Nebula Graph以其开源性能优化兼容性以及社区活跃性等因素脱颖而出以下是Nebula Graph在携程的部署与运维实践在Nebula Graph的架构中,它由GraphdMetad和Storaged构成,分别负责计算。
2、携程数据基础平台主要包括HDFS分布式存储集群YARN计算集群与SparkHive计算引擎自2017年数据基础平台10架构逐步成型,至2021年,团队基于此架构进行了性能优化与各类Bug修复,有效支撑了集群数据与计算任务的高速增长然而,随着2023年业务恢复与数据量的激增,单日数据量净增超过数PB,增速前所未有,两。
3、三方案为了避免上述的问题,提升数据流程优化的效率和质量,干货携程酒店基于血缘元数据的数据流程优化实践我们采用了从血缘元数据出发的方案在数仓任务的执行中,都会依。
4、同时保证在携程度假层面ODS表的唯一性数据运维也是如此,通过元数据血缘平台工具等制定出标准流程及自动规则,来赋能各。
5、数据运维也是如此,通过元数据血缘平台工具等制定出标准流 其实很多的实践或者是落地的产物还都是基于规范或者文档的形式。
6、携程机票部门的数据仓库建设主要基于公司公共部门的大数据基础 用以实时落地从Kafka同步的各个主流程服务日志,并通过统一的。
7、携程酒店订单 Elasticsearch 实战选择对分片后的数据库建立实时 基于数据一直的做调整也是不现实的,但是对机器来讲,就完全没。
8、数据血缘是元数据管理数据治理数据质量的重要一环,追踪数据的来源处理出处,对数据价值评估提供依据,描述源数据流程。
9、大数据平台 目前很火,数据源头,各种炫酷新技术,搭建HadoopHiveSparkKylinDruidBeam~数据仓库ETL 确实做仓库的人很辛苦,单单Oncall就会让人望而却步有很多数据库工程师,晚上睡觉的时候经常被Oncall电话吵醒数据可视化 这是个很炫的工作,最好是能懂点前端,比如js数据可视化人员需要有很好的分析思维,不能为了炫技而忽视对业务的帮助程度。
10、作者简介蔡岳毅,携程酒店大数据高级研发经理,负责酒店数据智 为此我们设计了一套完整的数据导入流程,保证数据从hive到mysql。
联系电话:18300931024
在线QQ客服:616139763
官方微信:18300931024
官方邮箱: 616139763@qq.com