1.5 Hadoop特点
Hadoop作为比较流行的分布式开源项目系统,提供了存储和处理海量数据的能力,很多大公司,如 Google、Facebook 等都争先使用 Hadoop 作为公司内部产品的技术支撑。Hadoop所具有的几个特征如下。
(1)高可扩展性。
Hadoop是一个高度可扩展的存储平台,可以存储和分发横跨数百个并行操作的廉价的服务器数据集群。能可靠地(reliably)存储和处理拍字节(PB)数据。不同于传统的关系型数据库系统不能扩展到处理大量的数据,Hadoop是能给企业提供涉及成百上千TB的数据节点上运行的应用程序。
(2)成本效益良好。
Hadoop为企业用户提供了极具成本效益的存储解决方案。传统的关系型数据库管理系统的问题是不符合海量数据的处理器,不能够符合企业的成本效益。Hadoop的架构则不同,其被设计为一个向外扩展的架构,可以经济地存储所有公司的数据供以后使用,节省的费用是非常惊人的,Hadoop提供数百TB的存储和计算能力。
可以通过普通机器组成的服务器群来分发以及处理任务数据。这些服务器群总计可达数千个节点,甚至更多。与一体机、商用数据仓库相比,Hadoop是开源的,项目的软件成本因此会大大降低
(3)灵活性更好。
Hadoop能够帮助企业轻松地访问数据源,并可以分析不同类型的数据,从这些数据中产生价值,这意味着企业可以利用 Hadoop 的灵活性从社交媒体、电子邮件或单击流量等数据源获得宝贵的商业价值。
此外,Hadoop的用途非常广,诸如对数处理、推荐系统、数据仓库、市场活动分析以及欺诈检测。
(4)Hadoop处理更快。
Hadoop拥有独特的存储方式,用于数据处理的工具通常在与数据相同的服务器上,从而能够更快地处理数据,如果你正在处理大量的非结构化数据,Hadoop能够有效地在几分钟内处理TB级的数据。
通过分发数据,Hadoop可以在数据所在的节点上并行地(Parallel)处理,这使得处理非常快速高效。
(5)容错能力强。
使用Hadoop的一个关键优势就是具有很强的容错能力。当数据被发送到一个单独的节点,该数据也被复制到集群的其他节点上,这意味着在故障情况下,存在另一个副本可供使用。
Hadoop能自动地维护数据的多份副本,一般默认备份为3份,一旦某个节点上的数据损坏或丢失,立刻将失败的任务重新分配。并且在任务失败后能自动地重新部署(Redeploy)计算任务。