SparkClickHouse实战企业级数据仓库进军大厂必备-spark数据存储在哪

2023-08-07 13:52:18

最近公司决定采用 ClickHouse 来做数据的大规模处理，关于 ClickHouse 虽然早有耳闻，但因为时间原因并没有专门去学习。而公司也考虑到目前内部具有 ClickHouse 使用经验的人还不是很多，因此给了相对比较充足的时间去了解。虽然 ClickHouse 诞生于2016年，但相对于 Hadoop 生态圈而言，普及度显然还没有那么广，因此除了官网之外还没有看到比较合适的教程。不过幸运的是在京东上面发现了一本关于 ClickHouse 的书，叫《ClickHouse 原理解析与应用实践》，由朱凯老师编写，据悉这是第一本讲解 ClickHouse 的书。看了一下目录，感觉内容还是比较充实的，于是果断买下来，用于学习。因此本文很多内容均来自于此书，只不过书中的 ClickHouse 版本有些低了（ClickHouse 的发布频率还是挺快的），这里采用了一个比较新的版本，因此安装时的细节会有些不同。那么下面就开始 ClickHouse 的学习之旅吧，看看 ClickHouse 究竟是何方神圣，为何能够异军突起。

Google 于2003~2006年相继发表了三篇论文："Google File System"、"Google MapReduce"、"Google Bigtable"，将大数据的处理技术带进了大众视野，而2006年开源项目 Hadoop 的出现，则标志着大数据处理技术

必看！如何download课程

普及的开始，大数据技术真正开始走向大众。Hadoop 最初指的是分布式文件系统 HDFS 和 MapReduce 计算框架，但是它一路高歌猛进，在此基础之上像搭积木一样快速发展成为一个庞大的生态（被称为 Hadoop 生态圈），其中包括 Hive、HBase、Spark 等数十种框架。而在大数据分析场景的解决方案中，传统的关系型数据库很快就被 Hadoop 生态圈所取代，BI 领域就是其中之一。像传统关系型数据库所构建的数据仓库，就被以 Hive 为代表的大数据技术所取代，数据查询分析的手段更是层出不穷，Spark、Impala、Kylin 等框架百花齐放。Hadoop 发展至今，早已上升成为大数据的代名词，仿佛一提到海量数据分析场景下的技术选型，就非 Hadoop 生态莫属。

然而世间并没有银弹（万全之策），Hadoop 也跳不出这个规则。虽然 Hadoop 生态圈已经相当完善了，不同的组件也可以相互对接，例如分布式文件系统 HDFS 可以直接作为其他组件的底层存储（像 HBase、Hive 等），生态内部的组件之间不用重复造轮子，只需相互借力、组合就能形成新的方案。但生态化的另一面则可以看做臃肿和复杂，Hadoop 生态下每种组件都自成一体、相互独立，这种强强组合的技术组件有些时候则显得过于笨重了。与此同时，随着现代化终端系统对实时性的要求越来越高，Hadoop 生态在海量数据和高时效性的双重压力下，也显得有些力不从心了。

而这个时候，ClickHouse出现了，它是俄罗斯的 Yandex 公司于2016年开源的列式存储数据库，使用 C++语言编写，专门用于 OLAP（联机分析处理），其惊人的性能可以瞬间让你跪倒在它的石榴裙下。

以上就是关于《SparkClickHouse实战企业级数据仓库进军大厂必备-spark数据存储在哪》的全部内容，本文网址：https://www.7ca.cn/baike/59772.shtml，如对您有帮助可以分享给好友，谢谢。

标签:

声明