Hadoop是什么?-学习网-Hadoop-SEO「hadoop是什么东西」

Hadoop是一个开源软件框架,用于存储数据并在商用硬件集群上运行应用程序。它为任何类型的数据提供了庞大的存储空间、庞大的处置惩罚能力以及处置惩罚几乎无穷并发使命或作业的能力。Hadoop的汗青随着万维网在20世纪后期和21世纪初的成长,搜刮引擎和索引被创建来帮忙在基于文本的内容中定位相关信息。在早期,搜索成果由人工返回。可是,随着web从几十个页面成长到数百万个页面,需要实现主动化。收集爬虫被缔造出来,很多是由大学带领的研究项目,搜刮引擎初创企业最先腾飞(雅虎、AltaVista等)。此中一个项目是一个叫做Nutch的开源收集搜刮引擎,它是DougCutting和MikeCafarella的创意。他们但愿通过在差别的计较机上分配数据和计较来更快地返回web搜刮成果,如许就可以同时完成多个使命。在此期间,另一个名为谷歌的搜刮引擎项目正在举行中。它基于相同的概念——以分布式、主动化的方式存储和处置惩罚数据,以便更快地返回相关的web搜刮成果。2006年,Cutting插手了雅虎,带着Nutch项目以及基于谷歌的主动化分布式数据存储和处置惩罚的早期工作的设法。Nutch项目被分成两部门——收集爬虫部门保留为Nutch,分布式计较和处置惩罚部门成为Hadoop(以Cutting的儿子的玩具大象定名)。2008年,雅猛将Hadoop作为一个开源项目发布。今天,Hadoop的框架和技能生态系统由非营利的Apache软件基金会(ASF)治理和维护,ASF是一个由软件开辟职员和贡献者构成的全球社区。为什么Hadoop很紧张?快速:可以或许快速存储和处置惩罚大量的任何类型的数据,随着数据量和种类的不停增长,尤其是来自社交媒体和物联网(IoT)的数据。计较能力:Hadoop的分布式计较模子快速处置惩罚大数据。使用的计较节点越多,处置惩罚能力就越强。容错:掩护数据和应用程序处置惩罚不受硬件故障的影响。假如一个节点宕机,作业将主动重定向到其他节点,以确保分布式计算不会失败,所有数据的多个副本被主动存储。机动性:与传统的关系数据库差别,不必在存储数据之前对其举行预处置惩罚。可以存储尽可能多的数据,并决定以后若何使用它。这包括文本、图像和视频等非布局化数据。低成本:开源框架是免费的,使用平凡硬件来存储大量数据。可伸缩性:可以简朴地通过添加节点来扩展体系来处置惩罚更多的数据,险些不需要治理。相关文章推荐DNS是什么?DNS域名体系诠释  DNS是域名体系的缩写,是收集情况中最常见但又被误解的组件之一。简而言之,DNS通过将域名与现实的Web办事器[…]...GitHub是什么?GitHub初学者教程  从较高的层面来说,GitHub是一个基于网站和云的办事,可以帮忙开辟职员存储和治理他们的代码,以及跟踪和节制对[…]...3D打印机是什么?  3D打印机是一种计较机辅助制造(CAM)装备,可以创建三维物体,与传统打印机一样,3D打印机从计较机吸收数字数[…]...SOA是什么?  SOA(或面向办事的系统布局)是一种技能,它可以在需要时链接收集上的各种资源。与其他类型的体系体系布局设计比拟[…]...MPLS是什么意思?  MPLS是指多协议标签互换的技能操作,从本质上讲,MPLS是一种操作方案,它通过更好地操纵可用的收集路径来加速[…]...Hadoop是什么?

客户评论

我要评论