Hdfs là gì

     
Mở đầu

Có bao giờ bạn băn khoăn lượng dữ liệu của các công ty công nghệ lớn như Facebook, Amazon, Google, ... Thu thập hàng ngày và được xử lý ra làm sao mà vẫn đảm bảo tốc độ truy vấn một cách gấp rút và công dụng nhất.

Bạn đang xem: Hdfs là gì

Từ đấy họ biết đến BIG DATA. Nó là thuật ngữ dùng để làm chỉ một tập thích hợp dữ liệu không nhỏ và rất tinh vi đến nỗi phần lớn công cụ, ứng dụng xử lí dữ liệu truyền thống lịch sử không thể nào đảm đang được. Mặc dù nhiên, Big Data lại chứa trong mình rất nhiều thông tin quý giá nhưng mà nếu trích xuất thành công, nó để giúp rất các cho việc kinh doanh, nghiên cứu khoa học, dự đoán những dịch bệnh dịch sắp tạo ra và thậm chí là cả việc xác định điều kiện giao thông vận tải theo thời gian thực.

Hiện nay câu hỏi xử lý BIG DATA đang một trong những ưu tiên hàng đầu của các công ty công nghệ trên toàn cố kỉnh giới. Buộc phải những framwork giúp vấn đề xử lý BIG DATA cũng đang càng ngày càng được chăm chú và cải tiến và phát triển mạnh.

Bài viết này sẽ reviews về Hadoop, một trong những các technology cốt lõi mang đến việc lưu trữ và truy cập số lượng béo dữ liệu.

Hadoop là gì?

Hadoop là một trong framwork giúp lưu trữ và xử lý Big Data áp dụng MapReduce. Nói dễ dàng cách khác nó sẽ giúp sắp xếp dữ liệu sao để cho user có thể dễ dàng áp dụng nhất.

MapReduce được Google chế tạo ra ra ban đầu để cách xử trí đống tài liệu lớn của công ty họ. Ta còn có thể gọi phương thức này là Phân tán dữ liệu bởi vì nó bóc tách hết tập hợp những dữ liệu lúc đầu thành những dữ liệu nhỏ dại và bố trí lại bọn chúng để dễ dàng tìm kiếm cùng truy xuất hơn, nhất là việc truy xuất những dữ liệu tương đồng. Ví dụ thường trông thấy nhất là các lời khuyên mà ta thường thấy ở Google tra cứu kiếm

Như vậy quy mô lập trình map Reduce là nền tảng ý tưởng phát minh của Hadoop. Bạn dạng thân Hadoop là một framework chất nhận được phát triển các ứng dụng phân tán phần cứng thông thường . Các phần cứng này thường có tác dụng hỏng hóc cao. Khác với một số loại phần cứng chuyên sử dụng đắt tiền, kỹ năng xảy ra lỗi phải chăng như những supermicrocomputer chẳng hạn.

Hadoop viết bởi Java. Tuy nhiên, nhờ chế độ streaming, Hadoop chất nhận được phát triển các ứng dụng phân tán bằng cả java lẫn một số ngôn ngữ lập trình khác ví như C++, Python, Pearl.

Kiến trúc Hadoop

Hadoop bao gồm 4 module:

Hadoop Common: Đây là các thư viện với tiện ích cần thiết của Java để các module không giống sử dụng. đều thư viện này hỗ trợ hệ thống file với lớp OS trừu tượng, đôi khi chứa những mã lệnh Java nhằm khởi động Hadoop.Hadoop YARN: Đây là framework để làm chủ tiến trình và tài nguyên của những cluster.

Xem thêm: Hướng Dẫn Rút Tiền Không Cần Thẻ Techcombank Đơn Giản, Chi Tiết

Hadoop Distributed file System (HDFS): Đây là khối hệ thống file phân tán cung ứng truy cập thông lượng cao mang lại ứng dụng khai thác dữ liệu.Hadoop MapReduce: Đây là khối hệ thống dựa bên trên YARN dùng để xử lý tuy nhiên song những tập dữ liệu lớn.

Hiện ni Hadoop đang ngày càng được mở rộng cũng như được nhiều framwork khác cung ứng như Hive, Hbase, Pig. Tùy vào mục tiêu sử dụng mà ta sẽ áp dụng framework phù hợp để cải thiện hiệu quả xử lý tài liệu của Hadoop.

Hadoop chuyển động như thế nào?

Giai đoạn 1:

Một user hay là 1 ứng dụng rất có thể submit một job lên Hadoop (hadoop job client) với yêu cầu xử trí cùng các thông tin cơ bản:

Truyền tài liệu lên server(input) để bắt đầu phân tán tài liệu và gửi ra công dụng (output).Các dữ liệu được chạy thông qua 2 hàm chính là map cùng reduce.Map: vẫn quét qua tổng thể dữ liệu cùng phân tán chúng ra thành các dữ liệu con.Reduce: sẽ tích lũy các tài liệu con lại và thu xếp lại chúng.Các thiết lập cụ thể tương quan đến job trải qua các thông số kỹ thuật truyền vào.

Giai đoạn 2:

Hadoop job client submit job (file jar, tệp tin thực thi) và ban đầu lập lịch làm cho việc(JobTracker) gửi job vào hàng chờ .

Sau khi tiếp nhận yêu ước từ JobTracker, server cha(master) vẫn phân chia công việc cho những server con(slave). Những server nhỏ sẽ tiến hành các job được giao cùng trả hiệu quả cho server cha.

Giai đoạn 3:

TaskTrackers dùng để làm kiểm tra bảo đảm an toàn các MapReduce hoạt động thông thường và kiểm tra công dụng nhận được (quá trình output).

Xem thêm: Hướng Dẫn Cách Làm Baboy Trên Điện Thoại Cực Đơn Giản, Cách Làm Powerpoint Trên Điện Thoại Cực Đơn Giản

Khi “chạy Hadoop” có nghĩa là chạy một tập các trình nền - daemon, hoặc các chương trình hay trú, trên những máy chủ khác biệt trên mạng của bạn. đa số trình nền tất cả vai trò cụ thể, một trong những chỉ trường thọ trên một vật dụng chủ, một số hoàn toàn có thể tồn trên trên những máy chủ.

Ưu điểm của Hadoop

Hadoop framework chất nhận được người dùng lập cập viết và chất vấn các hệ thống phân tán. Đây là biện pháp hiệu quả được cho phép phân phối tài liệu và các bước xuyên suốt các máy trạm dựa vào cơ chế xử lý tuy vậy song của những lõi CPU.Hadoop không phụ thuộc vào cơ chế chịu lỗi của hartware fault-tolerance & high availability (FTHA), thay bởi vậy bạn dạng thân Hadoop có các thư viện được thiết kế với để phát hiện với xử lý những lỗi sống lớp ứng dụng.Hadoop có thể phát triển lên nhiều server với kết cấu master-slave để đảm bảo thực hiện nay các quá trình linh hoạt và không trở nên ngắt quãng vì chưng chia nhỏ công việc cho những server slave được điều khiển và tinh chỉnh bởi vps master.Hadoop có thể tương mê say trên mọi gốc rễ như Window, Linux, MacOs vày được tạo nên từ Java.Cài đặt

Tải Hadoop về máy

wget http://apache.claz.org/hadoop/common/hadoop-2.4.1/hadoop-2.4.1.tar.gzUnzip tệp cài về

tar xzf hadoop-2.4.1.tar.gzĐổi tên thư mục đến dễ nhìn =))

mv hadoop-2.4.1 to hadoopCài đặt môi trường xung quanh cho Hadoop cần sử dụng vi ~/.bashrc và thêm đầy đủ dòng sau rồi sử dụng lệnh source ~/.bashrc để triển khai thay đổi

export HADOOP_HOME=/usr/local/hadoop export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOMEexport HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native exportPATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/binTruy cập thư mục hadoop/etc/hadoop cùng sửa các file sau:

hdfs namenode -formatChạy hệ thống hadoop:

start-dfs.shstart-yarn.shTruy cập localhost:50070: overview của hadoop

*

Truy cập localhost:8088: ta có thể xem các job mapreduce đang hoạt động ở đây

*

Các daemon lúc khởi chạy Hadoop vẫn bao gồm:

NameNodeDataNodeSecondaryNameNodeJobTrackerTaskTrackerTham khảo thêm tại:

https://kipalog.com/posts/Co-ban-ve-Hadoop

https://www.tutorialspoint.com/hadoop/hadoop_enviornment_setup.htm

https://www.mastercode.vn/blog/web-development/hadoop-la-gi-huong-dan-cai-dat-cau-hinh-hadoop-tren-windows.84