基础
浅谈:Hadoop、spark、SaaS、PaaS、IaaS、云计算
- Hadoop & Spark
Hadoop是由Apache基金会所开发的分布式系统基础架构
Hadoop主要包括:
Hadoop分布式文件系统:一个分布式的、面向块的、不可更新的、高度伸缩性的、可运行在集群中普通硬盘上的文件系统
MapReduce框架:一个基本的在集群中一组标准硬件上执行的分布式计算框架
YARN :Hadoop生态集群中默认的资源管理器
Hive :构建在MapReduce框架之上的类SQL查询引擎
Hbase:基于HDFS的键值对存储系统为Hadoop提供了联机事务处理(OLTP)能力
- Spark
是专为大规模数据处理而设计的快速通用的计算引擎,实际上现阶段其还不够成熟
Spark主要包括:
Spark Core :用于通用分布式数据处理的引擎
Spark Sql :运行在Spark上的SQL查询语句支持一系列SQL函数和HiveQL
Spark Streaming:基于spark的微批处理引擎
MLib:构建在spark之上的机器学习库
- IaaS :Infrastructure as a Service
基础设施即服务
把计算基础(服务器、网络技术、存储和数据中心空间)作为一项服务提供给客户。它也包括提供操作系统和虚拟化技术、来管理资源。消费者通过Internet可以从完善的计算机基础设施获得服务。
- PaaS:Platform as a Service
平台即服务
PaaS实际上是指将软件研发的平台作为一种服务,供应商提供超过基础设施的服务,一个作为软件开发和运行环境的整套解决方案,即以SaaS的模式提交给用户。因此,PaaS也是SaaS模式的一种应用。但是,PaaS的出现可以加快SaaS的发展,尤其是加快SaaS应用的开发速度。
- SaaS:Software as a Service
软件即服务
是一种交付模式,其中应用作为一项服务托管,通过Internet提供给用户;帮助客户更好地管理它们的IT项目和服务、确保它们IT应用的质量和性能,监控它们的在线业务。
- 云计算的五大特点:
- 大规模、分布式
- 虚拟化
- 高可用性和扩展性
- 按需服务,更加经济
- 安全