博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
《Hadoop权威指南·大数据的存储与分析》阅读笔记(未读完)
阅读量:6604 次
发布时间:2019-06-24

本文共 665 字,大约阅读时间需要 2 分钟。

Hadoop基础知识:1.MapReduce 执行引擎

                          2.HDFS

                          3.Yarn

          4.Hadoop的I/O操作

Hadoop相关开源项目:1. Avro   数据格式

            2.Parquet

                                3.Flume  数据摄取

            4.Sqoop

                                5.Pig   数据处理

                                6.Hive

                                7.Cruch

                                8.Spark 

                                9.Hbase  存储

                                10.Zookeeper  协作

Haoop相关开源项目:

8. Spark 大数据处理的集群计算框架

spark没有使用MapReduce作为执行引擎,而是使用自身的分布式运行环境在集群上执行工作

spark内最核心的概念是RDD,弹性分布式数据集,集群中跨多个机器分区存储的只读的对象集合(弹性:可以通过安排计算重新得到丢失的分区)

spark有延迟执行的机制,就是点那个加载RDD或者转换的时候并不会立即触发任何数据处理的操作,只不过是创建了一个计算的计划,只有当对RDD执行某个动作的时候才会真正执行。所以spark中的job与MapReduce中的job不同,Spark中的job是由多个阶段组成的一个有向无环图,每个阶段都相当于MapReduce中的Map或者Reduce,这些阶段会被分布在Spark内并行执行。

弹性分布式数据集RDD:

创建:来自内存中的对象集合;使用外部存储器中的数据集;现有RDD的转换

redis的持久化:

转载于:https://www.cnblogs.com/Flower-Z/p/10683460.html

你可能感兴趣的文章
P147、面试题26:复杂链表的复制
查看>>
文件及IO操作(三)
查看>>
割点与桥
查看>>
51.字符串操作函数
查看>>
ASP.NET MVC5中View显示Html
查看>>
Eclipse连接到My sql数据库的操作总结/配置数据库驱动
查看>>
python 将unicode编码转换为汉字的几种方法
查看>>
服务器负载粗略估算
查看>>
Spring 中 ApplicationContext 和 BeanFactory 的区别
查看>>
3.28Day09函数
查看>>
Linux Makefile 生成 *.d 依赖文件及 gcc -M -MF -MP 等相关选项说明【转】
查看>>
Linux下安装Python-3.3.2【转】
查看>>
npm
查看>>
STL杂记
查看>>
LeetCode OJ:Merge Two Sorted Lists(合并两个链表)
查看>>
C-4 一个标准的学生类的代码及测试
查看>>
功能测试
查看>>
Rust的闭包
查看>>
【BZOJ 1901】Dynamic Rankings
查看>>
阿里架构师都在学的知识体系
查看>>