Cài đặt môi trường Hadoop Cluster
Kịch bản Cluster
Ở đây, chúng tôi sẽ cài đặt một cụm Hadoop 3 nút, trong đó ba máy chủ đều triển khai dịch vụ DataNode
và NodeManager
, nhưng chỉ có hadoop001 triển khai dịch vụ NameNode
và ResourceManager
.
Điều kiện tiên quyết
Hadoop hoạt động phụ thuộc vào JDK, cần được cài đặt trước. Các bước cài đặt được tổng hợp riêng tại:
Cấu hình đăng nhập không cần mật khẩu
Tạo khóa
Trên mỗi máy chủ, sử dụng lệnh ssh-keygen
để tạo cặp public key và private key:
Đăng nhập không cần mật khẩu
Đưa public key của hadoop001
vào tệp ~/ .ssh/authorized_key
của máy cục bộ và máy từ xa:
Xác nhận đăng nhập không cần mật khẩu
Cài đặt Cluster
Tải và giải nén
Tải về gói cài đặt Hadoop từ trang chủ, địa chỉ tải về là: Index of /hadoop/common/hadoop-2.10.2
Cấu hình biến môi trường
Chỉnh sửa tệp profile
:
Thêm cấu hình sau:
export HADOOP_HOME=/usr/app/hadoop-2.10.2
export PATH=${HADOOP_HOME}/bin:$PATH
Thực hiện lệnh source
, để cấu hình có hiệu lực ngay lập tức:
Chỉnh sửa cấu hình
Truy cập thư mục ${HADOOP_HOME}/etc/hadoop
, chỉnh sửa các tệp cấu hình. Nội dung của từng tệp cấu hình như sau:
1. hadoop-env.sh
2. core-site.xml
3. hdfs-site.xml
4. yarn-site.xml
5. mapred-site.xml
5. slaves
Cấu hình tên máy chủ hoặc địa chỉ IP của tất cả các nút phụ thuộc, mỗi dòng một. Tất cả các dịch vụ DataNode
và NodeManager
trên tất cả các nút phụ thuộc sẽ được khởi động.
Phân phối chương trình
Phân phối gói cài đặt Hadoop đến hai máy chủ khác, sau khi phân phối, đề xuất cũng cấu hình biến môi trường Hadoop trên hai máy chủ này.
Khởi tạo
Thực hiện lệnh khởi tạo namenode trên Hadoop001
:
hdfs namenode -format
Khởi động cụm
Truy cập vào thư mục ${HADOOP_HOME}/sbin
của Hadoop001
, khởi động Hadoop. Lúc này, các dịch vụ liên quan trên hadoop002
và hadoop003
cũng sẽ được khởi động:
Kiểm tra cụm
Sử dụng lệnh jps
để kiểm tra quy trình dịch vụ trên mỗi máy chủ, hoặc truy cập trực tiếp vào giao diện Web-UI để kiểm tra, cổng là 50070
. Bạn có thể thấy có ba Datanode
có sẵn:
Nhấp vào Live Nodes
để vào, bạn có thể xem chi tiết về mỗi DataNode
:
Tiếp theo, bạn có thể kiểm tra tình hình của Yarn, số cổng là 8088
:
Gửi dịch vụ đến cụm
Cách gửi công việc đến cụm hoàn toàn giống với môi trường đơn máy, ở đây, chúng tôi sẽ sử dụng chương trình mẫu tính toán Pi được tích hợp sẵn trong Hadoop làm ví dụ, bạn có thể thực thi trên bất kỳ nút nào, lệnh như sau: