SparkClickHouse实战企业级数据仓库进军大厂必备-spark数据存储在哪

2023-08-07 13:52:18

 

最近公司决定采用 ClickHouse 来做数据的大规模处理,关于 ClickHouse 虽然早有耳闻,但因为时间原因并没有专门去学习。而公司也考虑到目前内部具有 ClickHouse 使用经验的人还不是很多,因此给了相对比较充足的时间去了解。虽然 ClickHouse 诞生于2016年,但相对于 Hadoop 生态圈而言,普及度显然还没有那么广,因此除了官网之外还没有看到比较合适的教程。不过幸运的是在京东上面发现了一本关于 ClickHouse 的书,叫《ClickHouse 原理解析与应用实践》,由朱凯老师编写,据悉这是第一本讲解 ClickHouse 的书。看了一下目录,感觉内容还是比较充实的,于是果断买下来,用于学习。因此本文很多内容均来自于此书,只不过书中的 ClickHouse 版本有些低了(ClickHouse 的发布频率还是挺快的),这里采用了一个比较新的版本,因此安装时的细节会有些不同。那么下面就开始 ClickHouse 的学习之旅吧,看看 ClickHouse 究竟是何方神圣,为何能够异军突起。

Google 于2003~2006年相继发表了三篇论文:"Google File System"、"Google MapReduce"、"Google Bigtable",将大数据的处理技术带进了大众视野,而2006年开源项目 Hadoop 的出现,则标志着大数据处理技术

必看!如何download课程

普及的开始,大数据技术真正开始走向大众。Hadoop 最初指的是分布式文件系统 HDFS 和 MapReduce 计算框架,但是它一路高歌猛进,在此基础之上像搭积木一样快速发展成为一个庞大的生态(被称为 Hadoop 生态圈),其中包括 Hive、HBase、Spark 等数十种框架。而在大数据分析场景的解决方案中,传统的关系型数据库很快就被 Hadoop 生态圈所取代,BI 领域就是其中之一。像传统关系型数据库所构建的数据仓库,就被以 Hive 为代表的大数据技术所取代,数据查询分析的手段更是层出不穷,Spark、Impala、Kylin 等框架百花齐放。Hadoop 发展至今,早已上升成为大数据的代名词,仿佛一提到海量数据分析场景下的技术选型,就非 Hadoop 生态莫属。

然而世间并没有银弹(万全之策),Hadoop 也跳不出这个规则。虽然 Hadoop 生态圈已经相当完善了,不同的组件也可以相互对接,例如分布式文件系统 HDFS 可以直接作为其他组件的底层存储(像 HBase、Hive 等),生态内部的组件之间不用重复造轮子,只需相互借力、组合就能形成新的方案。但生态化的另一面则可以看做臃肿和复杂,Hadoop 生态下每种组件都自成一体、相互独立,这种强强组合的技术组件有些时候则显得过于笨重了。与此同时,随着现代化终端系统对实时性的要求越来越高,Hadoop 生态在海量数据和高时效性的双重压力下,也显得有些力不从心了。

而这个时候,ClickHouse出现了,它是俄罗斯的 Yandex 公司于2016年开源的列式存储数据库,使用 C++语言编写,专门用于 OLAP(联机分析处理),其惊人的性能可以瞬间让你跪倒在它的石榴裙下。


以上就是关于《SparkClickHouse实战企业级数据仓库进军大厂必备-spark数据存储在哪》的全部内容,本文网址:https://www.7ca.cn/baike/59772.shtml,如对您有帮助可以分享给好友,谢谢。
标签:
声明

排行榜