首页 > 精选知识 > Hadoop是什么

Hadoop是什么

来源:婷承知识网

Hadoop是由Apache Software Foundation所开发的一个分布式系统基础架构。最初是建立在Google的MapReduce算法之上的Apache Nutch项目。它是一个能够处理大量数据的分布式计算平台,并能够通过编程模型实现对数据的分布式处理。总的来说,Hadoop包含两个核心模块:分布式存储模块(Hadoop Distributed File System,简称HDFS)和分布式计算模块(MapReduce)。

相较于传统的数据处理方式,Hadoop能够更加高效地处理大规模的数据。此外,Hadoop的应用场景也非常广泛,比如云存储、数据仓库和数据分析等方面。

Hadoop最初的开发者Doug Cutting起初是受到Google的两篇论文《The Google File System》和《MapReduce: Simplified Data Processing on Large Clusters》的启发。他试图实现这两种模型,因而有了Hadoop的两个核心模块。Hadoop的名字源自Doug Cutting儿子的玩具大象。当时,Doug Cutting在考虑新系统的名字时,他的儿子正在用一只小象玩具玩耍,于是他想到了这个名字。

相关信息