Hudi + Spark3入门第一课

源码 2024-10-6 11:10:39 34 0 来自 中国
欢迎访问我的博客
Hudi + Spark3入门第一课

Apache Hudi 是下一代流数据湖平台。Apache Hudi 将数仓和数据库核心功能迁移到数据湖。Hudi 提供表、 事务、高效的 upserts/deletes、高级索引、 流式摄取、数据集群/压缩优化和并发,同时将数据使用开源文件格式。
hudi 0.10.1源码编译


  • maven 3.5.4,spark3.1.1,配置了aliyun的maven源
  • hudi目录修改pom.xml中的spark version为3.1.1,本来是3.1.2的,小版本的差异不大,看自己的环境。
  • 编译命令mvn clean package -DskipTests -Dscala-2.12 -Dspark3
  • 编译产物在packaging下的hudi-spark-bundle目录
  • spark绑定jar包名称为:hudi-spark3.1.1-bundle_2.12-0.10.1.jar,大小约38M
之前的hudi 0.9.0 版本在和spark3.1一起使用时有明显的问题,可以和spark3.0.3搭配使用。当然,这在hudi的发版说明里也有提及。


  • hudi-spark3.1.2-bundle_2.12-0.10.1.jar
  • hudi-spark3.0.3-bundle_2.12-0.10.1.jar
这两个包不用自己编译,可以从maven中央仓库获取,(页面很不好找,hudi得把仓库类目梳理一下了)贴一下。
您需要登录后才可以回帖 登录 | 立即注册

Powered by CangBaoKu v1.0 小黑屋藏宝库It社区( 冀ICP备14008649号 )

GMT+8, 2024-10-18 16:47, Processed in 0.166847 second(s), 32 queries.© 2003-2025 cbk Team.

快速回复 返回顶部 返回列表