Hadoop体系固然在如今应用非常广泛,但架构繁琐、运维复杂度过高、版本升级困难,且由于部门缘故因由,数据中台需求排期较长,我们急需探索敏捷性开发的数据平台模式。在如今云原生架构的遍及和湖仓一体化的大配景下,我们已经确定了将Doris作为离线数据堆栈,将TiDB(如今>已经应用于生产)作为及时数据平台,同时由于Doris具有 on MySQL 的odbc本领,所以又可以>对外部数据库资源举行整合,同一对外输出报表
遇到的题目
在数据引擎上,我们确定利用Spark和Flink
利用Spark on K8s client 客户端模式做离线数据处置处罚
利用Flink on K8s Native-Application/Session 模式做及时任务流管理
在这里,实际上有一些题目我们不停没有彻底办理。用过Native-Application模式的朋侪都知道,每提交一个任务,都必要打包新的镜像,提交到私有堆栈,然后再调用Flink Run 指令沟通K8s,去拉取镜像运行Pod。任务提交之后,还必要去K8s查察log, 但是: