要想学好大数据,不仅要懂得如何分析数据,而且更要懂得处理数据的过程,也就是说各种的分析工具,我们也需要去学习使用。下面分享一个用云主机搭建伪分布式hadoop环境的操作教程给大家。
今天我们用单台云主机(或自建vmware虚机)进行Hadoop所有组件的实际应用,再次加深大数据的技术底蕴。
一、我们搭建伪分布式的hadoop环境
所谓伪分布式,即hadoop之dfs的namenode、datanode均在一台云主机中。今天我们用ubuntu 14.04进行测试,主机配置为2cpu、2GB内存、40GB硬盘,具有弹性IP配置。
二、为便于操作,新建hadoop帐户
1、sudo useradd -m hadoop -s /bin/bash
这条命令创建hadoop帐户,并创建/home/hadoop目录,并使用/bin/bash作为Shell
2、sudo passwd hadoop
这条命令为hadoop帐户设置密码
3、sudo adduser hadoop sudo
为hadoop用户增加管理员权限,方便将来的部署
三、为便于操作,实现master主机无密登陆
1、sudo apt-get update
升级系统,以便为将来的java jdk安装作准备
2、为本机生成免密码登录,为hadoop作准备
ssh localhost 登录成功后退出
cd ~/.ssh/
ssh-keygen -t rsa
cat ./id_rsa.pub>>./authorized_keys
ssh localhost 如果正常,将实现免密登陆
四、安装java环境
1、sudo apt-get install openjdk-7-jre openjdk-7-jdk 安装201M的jdk文件
2、dpkg -L openjdk-7-jdk |grep 'bin/javac' 获得java的执行路径为/usr/lib/jvm/java-7-openjdk-amd64
3、配置JAVA_HOME变量
vim ~/.bashrc
在文件最开始增加
JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64
!wq后保存退出
4、使环境变量生效
source ~/.bashrc
5、java -version,如果输出版本,则正常安装
五、安装伪分布式hadoop环境
1、从http://mirrors.cnnic.cn/apache.hadoop/common中下载hadoop2.7.6.tar.gz
2、通过rz命令上传至云主机
3、安装hadoop
sudo tar -zxf hadoop-2.7.6.tar.gz -C /usr/local
cd /usr/local/
sudo mv ./hadoop-2.7.6/ ./hadoop 将文件夹名改名
sudo chown -R hadoop ./hadoop 修改文件权限为hadoop用户
4、检查hadoop版本
cd /usr/local/hadoop
./bin/hadoop version
六、配置伪分布式hadoop环境
如果是单机环境,不用配置即可使用,但单机环境无法使用hdfs功能,因此我们按照伪分布式进行配置。
1、配置core-site.xml文件
cd /usr/local/hadoop/etc/hadoop
vim core-site.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
2、配置hdfs-site.xml文件
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/data</value>
</property>
</configuration>
3、格式化hdfs环境
cd /usr/local/hadoop
./bin/hdfs namenode -format
4、配置mapreduce的文件
vim mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
5、配置yarn的文件
vim yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
~
七、启动所有进程
./sbin/start-dfs.sh 先启动hdfs
./sbin/stop-dfs.sh 先关闭hdfs,以产生secondary进程
./sbin/start-dfs.sh 启动hadoop
./sbin/start-yarn.sh 启动yarn
./sbin/mr-jobhistory-daemon.sh start historyserver 开启历史服务器,才能在web中查看任务运行情况
以上就是搭建的主要步骤,大数据能够帮助我们制定解决方案提供帮助,学好怎么分析才能够去应用。
相关文章内容简介
1 Windows系统云主机如何磁盘分区?
采用Windows系统的云主机要进行磁盘分区要怎么操作?流程是不是跟电脑硬盘分区是一样的呢?下面我们一起来看看具体的教程流程,图文具备方便你学习。 磁盘加载:新开的默认云主机只有一个C盘,其它的磁盘空间需要您自己手动加载,详细步骤以下: 1、点“我的电脑”右健-管理,出现如图: 2、选择磁盘管理,出现下图,点下一步 3... [阅读全文]
2 云主机如何用作视频储存?
不知道大家平时看剧或是看电影是喜欢在线观看还是下载下来看,有时一些网站的视频版权是有时间限制的,而且国外的剧集跟电影如果没有引进电影院的话,我们通常就只能够在网上寻找资源。如果你也是一个剧迷、电影迷,那么会选择将这些视频保留在本地,但是时间久了,资源积累越来越多,内容不够放怎么办?云主机今天就来帮你解决存储空间不... [阅读全文]
推荐阅读
11
2019-06
短视频网站服务器租用要注意什么
短视频网站服务器租用要注意什么?互联网快速发展,网络速度也大幅提升,越来越多的人喜欢看视频,视频被网站使用的也越来越多,包括小视频、短视频、教育培训视频等。视频播放很早就
20
2019-07
云服务器最好用在哪些场景?
云服务器最好用在哪些场景?都说上云,但是租用一台云服务器能做什么?做哪些业务需要用到云服务器呢?很多行业外的用户可能会有这样的疑问,今天万变云就来科普一下云服务器的应用场
17
2019-09
企业如何对私有云主机进行管理?
互联网的大数据时代,企业的服务器也在跟着时代更新换代,从旧时的系统到云平台的转移,这一过程对企业来说可以算是一门挑战,因为云主机等云端服务器对于大部分人来说还是比较陌生。
28
2019-06
租用云服务器之前要考虑几点
租用云服务器之前要考虑几点,虽然说云发展得快,很多企业都上云了,但也不是所有企业都适合上云的,因此大家在租用云服务器之前要考虑几点:
20
2019-05
独立服务器租用容易陷入误区
独立服务器租用容易陷入误区,企业(Enterprise)在将线上业务托管到基础设施(infrastructure)(shèshī)时有很多选择。其中服务器租用是面向亚太客户群的大中型业务最常使用(use)的业务承载方式之一
07
2019-10
云主机服务器流量超出的原因
当你的云主机服务器出现流量超标的情况,该怎么办?首先,我们要做的是要先找回导致流量超标的原因,然后再根据原因来进行处理。同时,我们也要积极与云服务商进行沟通,让他们提供相
热门文章