1简介
1.1目标
为辅助利用ClouderaCDH、Impala项目标快速实行。
1.2实用范围
实用于ClouderManager5.x安装CDH5和Impala2.2.0版本。
1.3术语表
CMClouderaManager是Cloudera公司的Hadoop体系组件的安装管理工具
CDHCloudera'sDistributionHadoop,是Cloudera公司发布的Hadoop版本
1.4参考资料
《Installing-and-Using-Impala》v2.2.0Cloudera
2yum离线安装
安装前,必要实行“2.1运行环境安装”部分的操纵,以便安装能顺遂实行。
2.1运行环境安装
2.1.1根本环境预备
设置ip和主机名
禁用防火墙
禁用Selinux
vi/etc/selinux/config
内容改成如下:
#disabled-NoSELinuxpolicyisloaded.
SELINUX=disabled
SELINUXTYPE=targeted
然后生存,重启体系。
修改/etc/hosts
加上本机的IP
加上模仿archive.cloudera.com这个域名的IP
比方加上如下内容:
134.64.208.132hadoop1
134.64.208.132archive.cloudera.com
下载cloudera-manager-installer.bin,这个必须要到www.cloudera.com上下载。
下载要用到的cloudera-manager的安装包
下载要用到的cdh的parcel格式的包
下载要用到的impala的parcel格式的包
阐明:要在生产体系摆设CDH,先要实现ClouderaManager的离线安装,安装好ClouderaManager后,还要通过ClouderaManager实行CDH的离线安装两个步调。由于生产环境的封闭性,这些离线包不能从Cloudera的官方网站下载,以是必要将Cloudera的官方网站下载地点映射到本地IP。
2.1.2ClouderaManager的离线安装包下载
cloudera-manager-installer.bin程序会毗连到Cloudera的官方网站下载ClouderaManager必要的rpm包,完成ClouderaManager的安装。
要实现ClouderaManager的离线安装,必要1.下载ClouderaManager必要的rpm包(https://archive.cloudera.com/cm5/)2.将Cloudera的官方网站下载地点映射到本地IP。第一步可以登录到Cloudera的官方网站将这些包下载到本地,目次雷同于下面的布局:
CM5
└─redhat
├─6
│└─x86_64
│└─cm
││cloudera-manager.repo
││RPM-GPG-KEY-cloudera
││
│└─4
│├─repodata
││filelists.xml.gz
││other.xml.gz
││primary.xml.gz
││repomd.xml
││
│└─RPMS
│└─x86_64
│cloudera-manager-agent-5.4.7-1.cm472.p0.135.el5.x86_64.rpm
│cloudera-manager-daemons-5.4.1-1.cm472.p0.135.el5.x86_64.rpm
│cloudera-manager-server-5.4.7-1.cm472.p0.135.el5.x86_64.rpm
│cloudera-manager-server-db-5.4.7-1.cm472.p0.135.el5.x86_64.rpm
│enterprise-debuginfo-5.4.7-1.cm472.p0.135.el5.x86_64.rpm
│jdk-6u31-linux-amd64.rpm
└─6
└─x86_64
└─cm
│cloudera-manager.repo
│RPM-GPG-KEY-cloudera
└─4
├─repodata
│filelists.xml.gz
│filelists.xml.gz.asc
│other.xml.gz
│other.xml.gz.asc
│primary.xml.gz
│primary.xml.gz.asc
│repomd.xml
│repomd.xml.asc
│
└─RPMS
├─noarch
└─x86_64
cloudera-manager-agent-5.4.7-1.cm471.p0.125.el6.x86_64.rpm
cloudera-manager-daemons-5.4.7-1.cm471.p0.125.el6.x86_64.rpm
cloudera-manager-server-5.4.7-1.cm471.p0.125.el6.x86_64.rpm
cloudera-manager-server-db-5.4.7-1.cm471.p0.125.el6.x86_64.rpm
enterprise-debuginfo-5.4.7-1.cm471.p0.125.el6.x86_64.rpm
jdk-6u31-linux-amd64.rpm
第二步,设置一个htttp服务,比方apachehttpd服务,将上述目次树拷贝到这个http服务的根目次下,比方apachehttpd服务缺省的根目次是/var/www/html,然后在待安装呆板上设置hosts文件,将上面的服务提供的IP映射到archive.cloudera.com的域名上即可,一样平常是在hosts文件中增长一行,比方134.64.208.132archive.cloudera.com
完成上述两步后,实行cloudera-manager-installer.bin即可完成ClouderaManager的离线安装,ClouderaManager安装完成后,在被安装呆板上会打开7180端口,这时在欣赏器中访问这个地点,即可进入ClouderaHadoop的管理界面。
留意:安装时,偶然必要用到体系包,下面简单先容一些体系包安装源的一些方法:
假如有安装盘,可以将安装盘mount到一个目次,然后引用file:///协议映射安装源,比方:在目次下新建一个cdrom_media.repo的文件,内容为:
[cdrom_media]
name=cdrom_media
baseurl=file:///mnt/cdrom/
gpgcheck=0
大概把操纵体系的安装源拷贝到上面的http服务的目次下,把源写入一个os.repo的文件中。比方一个os.repo的内容如下:
[os]
name=LinuxOSPackages
baseurl=https://134.64.208.132/os
gpgcheck=0
而os的目次布局为下面雷同:
os
├─Packages
│abrt-libs-2.0.8-6.el6.x86_64.rpm
│abrt-tui-2.0.8-6.el6.x86_64.rpm
│amanda-2.6.1p2-7.el6.x86_64.rpm
│amanda-client-2.6.1p2-7.el6.x86_64.rpm
│amanda-server-2.6.1p2-7.el6.x86_64.rpm
│amtu-1.0.8-8.el6.x86_64.rpm
│anaconda-13.21.176-1.el6_3.x86_64.rpm
│anaconda-yum-plugins-1.0-5.1.el6.noarch.rpm
│ant-1.7.1-13.el6.x86_64.rpm
│anthy-9100h-10.1.el6.x86_64.rpm
│antlr-2.7.7-6.5.el6.x86_64.rpm
│eclipse-callgraph-0.6.1-1.el6.x86_64.rpm
│gmp-4.3.1-7.el6_2.2.i686.rpm
.........
│yum-plugin-security-1.1.30-14.el6.noarch.rpm
│yum-plugin-tmprepo-1.1.30-14.el6.noarch.rpm
│zlib-devel-1.2.3-27.el6.i686.rpm
│zlib-devel-1.2.3-27.el6.x86_64.rpm
│zsh-4.3.10-5.el6.x86_64.rpm
└─repodata
filelists.xml.gz
other.xml.gz
primary.xml.gz
productid
productid.gz
repomd.xml
TRANS.TBL
上面关于体系包的安装源,未作深入讨论,如有题目,请参考其他创建体系离线安装源的质料。
2.1.3CDH和Impala的离线安装包下载
CDH5可以通过rpm安装,也可通过parcels安装,官方保举利用parcels安装。
先到Cloudera的官方网站下载CDH5和Impala的parcels包。下面貌录树布局映射了官方的下载地点。
cdh5
└─parcels
└─latest
CDH-5.4.7-1.cdh4.4.0.p0.39-el5.parcel
CDH-5.4.7-1.cdh4.4.0.p0.39-el6.parcel
CDH-5.4.7-1.cdh4.4.0.p0.39-lucid.parcel
CDH-5.4.7-1.cdh4.4.0.p0.39-precise.parcel
CDH-5.4.7-1.cdh4.4.0.p0.39-sles11.parcel
CDH-5.4.7-1.cdh4.4.0.p0.39-squeeze.parcel
manifest.json
impala
└─parcels
└─latest
IMPALA-2.2.2-1.p0.17-el5.parcel
IMPALA-2.2.2-1.p0.17-el6.parcel
IMPALA-2.2.2-1.p0.17-lucid.parcel
IMPALA-2.2.2-1.p0.17-precise.parcel
IMPALA-2.2.2-1.p0.17-sles11.parcel
IMPALA-2.2.2-1.p0.17-squeeze.parcel
manifest.json
下载完成后,放到上面一样的http服务的根目次下。进入ClouderaHadoop的管理界面,添加集群,添加服务器,添加服务等,就可主动从这些包中安装Hadoop依靠的软件。
比方HDFS的添加步调是服务――下拉“操纵”――添加服务――选择HDFS
比方Impala的添加步调是服务――下拉“操纵”――添加服务――选择impala
必要阐明的是,服务是有依靠关系的,要添加impala服务,就要先次序添加hdfs—mapreduce—hive这几个服务。添加服务时,一些关键的设置参数也要留意,比方hdfs的namenode目次、secondarynamenode目次、mapreduce的jobtracker目次、tasktracker目次等。
2.2体系安装
运行已下载的cloudera-manager-installer.bin
一起选择Next,回车。
在确认License处,按右箭头?选择Yes回车。
当Cloudera的官方网站下载地点映射到本地IP已完成而且必要的rpm包也已下载好放到了本地IP的http服务器指定目次中后,安装顺遂完成,等待服务启动,而且7180端口的开启。
[root@hadoop1~]#netstat–an|grep7180
tcp000.0.0.0:71800.0.0.0:*LISTEN
上面下令输出表现已完成启动,此时可以在欣赏器上输入这个ClouderaManager服务器的地点和端口,就可进入ClouderaManager的安装和管理界面。
下面操纵都从主菜单上链接开始:
1.添加集群
主页—右上角—添加集群
2.添加服务
服务—全部服务—
—添加服务
在下面的界面中选择你要添加的服务。
3.添加节点
主机—向集群添加主机
4.删除节点
主机
然后选定一个主机(界面上的一行记录)
主机—已选定的动作—从集群中删除
主机—已选定的动作—删除
安装完成,相干服务启动后,在master节点输入impala-shell就进入sql语句输入界面,可以利用sql查询hdfs的数据了。一样平常的,impala查询的速率可以到达hive的5~30倍。
3疑难懂答
1.提示PostgreSQL版本过低
体系必要安装PostgreSQL数据库8.4.11以上,先卸载低版本,然后安装8.4.11以上的版本。
2.提示RPM-GPG-KEY-cloudera文件找不到
在Cloudera找到RPM-GPG-KEY-cloudera文件,放到映射的本地IP的相对应的位置。这个文件一样平常在cm5/redhat/6/x86_64/cm的相对目次下。
3.5.4.7版本下某文件找不到
本版本的ClouderaManager偶然找cm5/redhat/6/x86_64/cm/5目次下的文件,偶然找cm5/redhat/6/x86_64/cm/5.4.7目次下的文件,偶然找cm5/redhat/6/x86_64/cm/5.4.7目次下的文件,出现此错误时,办理的办法是,将cm5/redhat/6/x86_64/cm/5.4.7目次下的文件下载完备,然后在同级创建符号链接,比方
ln–s5.4.75
ln–s5.4.75.5
如许,三种情况下的文件都可以找到了。
我要评论