Hive là gì

     

Thuật ngữ Big Data được sử dụng cho những bộ tập tài liệu khổng lồ bao gồm khối lượng lớn, tốc độ cao và những loại tài liệu đang tăng lên từng ngày. Sử dụng những hệ thống quản lý dữ liệu truyền thống, rất nặng nề để giải pháp xử lý Big data. Bởi vì đó, Quỹ phần mềm Apache (Apache Software Foundation) đã reviews một framework thương hiệu là Hadoop để giải quyết và xử lý các thách thức thống trị và giải pháp xử lý Big data.

Bạn đang xem: Hive là gì

Hadoop

Hadoop là một trong framework open-source để lưu trữ và xử trí Big data trong môi trường phân tán. Nó cất hai mô-đun, một là MapReduce và một mô-đun khác là hệ thống tệp phân tán Hadoop (Hadoop Distributed tệp tin System - HDFS).

MapReduce: Đây là quy mô lập trình song song để giải pháp xử lý một lượng lớn dữ liệu có cấu trúc, bán cấu tạo và không cấu trúc trên những cụm béo của phần cứng thương mại (commodity hardware).HDFS: khối hệ thống tệp phân tán Hadoop là một phần của framework Hadoop, được thực hiện để tàng trữ và xử lý các bộ dữ liệu. Nó cung cấp một khối hệ thống tập tin chịu đựng lỗi để điều khiển xe trên phần cứng yêu đương mại.

Hệ sinh thái Hadoop chứa những sub-project (tool) khác nhau như Sqoop, Pig với Hive được sử dụng để trợ giúp những mô-đun Hadoop.

Sqoop: Nó được thực hiện để nhập và xuất dữ liệu đến cùng đi thân HDFS với RDBMS.Pig: Đây là một trong những nền tảng ngôn ngữ thủ tục được thực hiện để phát triển tập lệnh mang lại các hoạt động của MapReduce.

Xem thêm: " Go The Extra Mile Nghĩa Là Gì ? Go The Extra Mile Nghĩa Là Gì

Hive: Đây là 1 trong nền tảng được sử dụng để phát triển các tập lệnh một số loại SQL để tiến hành các chuyển động MapReduce.

Chú ý: có nhiều cách khác biệt để tiến hành các chuyển động MapReduce:

Cách tiếp cận truyền thống lịch sử sử dụng lịch trình Java MapReduce cho dữ liệu có cấu trúc, bán cấu tạo và không cấu trúc.Cách tiếp cận sử dụng câu lệnh cho MapReduce để xử lý tài liệu có cấu trúc và bán cấu tạo bằng Pig.Ngôn ngữ truy nã vấn Hive (HiveQL hoặc HQL) cho MapReduce nhằm xử lý tài liệu có cấu tạo bằng Hive.Hive là gì?

Hive là một trong công cụ cơ sở hạ tầng kho dữ liệu để xử lý dữ liệu có cấu trúc trong Hadoop. Nó vị trí đỉnh Hadoop để tóm tắt dữ liệu lớn với giúp tầm nã vấn và phân tích dễ dàng dàng.

Ban đầu Hive được trở nên tân tiến bởi Facebook, tiếp nối Quỹ ứng dụng Apache đã đưa và cách tân và phát triển nó thành một mối cung cấp mở bên dưới tên Apache Hive. Nó được thực hiện bởi những công ty không giống nhau. Ví dụ: Amazon sử dụng nó trong Amazon Elastic MapReduce.

Hive không hẳn là:Một csdl quan hệMột xây dựng để xử lý thanh toán giao dịch Online (OnLine Transaction Processing - OLTP)Một ngôn ngữ cho những truy vấn thời gian thực và cập nhật cấp hàngĐặc trưng của HiveNó lưu trữ lược đồ trong cơ sở dữ liệu và xử lý dữ liệu vào HDFS.Nó được thiết kế theo phong cách cho OLAP.Nó cung cấp ngôn ngữ mẫu mã SQL để truy vấn được call là HiveQL hoặc HQL.Nó là quen thuộc, cấp tốc chóng, có khả năng mở rộng.Kiến trúc của Hive

Sơ đồ tiếp sau đây mô tả kiến trúc của Hive:

*
Sơ đồ thành phần này chứa các đơn vị khác nhau.

User Interface: Hive là một phần mềm hạ tầng kho dữ liệu rất có thể tạo ra sự xúc tiến giữa người tiêu dùng và HDFS. Những giao diện người dùng mà Hive cung ứng là Hive website UI, Hive command line cùng Hive HD Insight (Trong máy chủ Windows).Meta Store: Hive chọn các máy chủ đại lý dữ liệu tương ứng để lưu trữ lược đồ vật hoặc metadata của các bảng, đại lý dữ liệu, những cột vào một bảng, các loại tài liệu của chúng và ánh xạ HDFS.HiveQL Process Engine: HiveQL giống như như SQL nhằm truy vấn thông tin lược đồ vật trên Metastore. Đây là giữa những thay vắt của phương pháp truyền thống mang lại chương trình MapReduce. Thay do viết lịch trình MapReduce bằng Java, bạn có thể viết một truy vấn vấn cho các bước MapReduce và giải pháp xử lý nó.Execution Engine: Phần kết hợp của nguyên tắc xử lý HiveQL cùng MapReduce là Công cụ triển khai Hive (Hive Execution Engine). Công cụ thực hiện xử lý truy hỏi vấn và tạo tác dụng giống như hiệu quả MapReduce.HDFS hoặc HBASE: khối hệ thống tệp phân tán Hadoop hoặc HBASE là những kỹ thuật lưu trữ dữ liệu để lưu trữ dữ liệu vào khối hệ thống tệp.Cách thao tác làm việc của Hive

Sơ thiết bị sau biểu đạt quy trình thao tác làm việc giữa Hive cùng Hadoop.

*

Cách Hive can hệ với framework Hadoop:

Thực thi query: bối cảnh Hive như Command line hoặc Giao diện người dùng web gởi truy vấn mang lại Trình tinh chỉnh (bất kỳ trình điều khiển cơ sở dữ liệu nào như JDBC, ODBC, v.v.) nhằm thực thi.Nhận kế hoạch: Trình điều khiển có sự hỗ trợ của trình biên dịch truy vấn để phân tích cú pháp truy vấn vấn để kiểm tra cú pháp và chiến lược truy vấn hoặc yêu ước của tầm nã vấn.Nhận metadata: Trình biên dịch gởi yêu mong metadata cho Metastore (bất kỳ cơ sở dữ liệu nào).Gửi metadata: Metastore gởi metadata như một bình luận cho trình biên dịch.Gửi kế hoạch: Trình biên dịch bình chọn yêu cầu và nhờ cất hộ lại chiến lược cho trình điều khiển. Đến đây, vấn đề phân tích cú pháp cùng biên dịch một truy hỏi vấn vẫn hoàn tất.Kế hoạch thực hiện: Trình điều khiển và tinh chỉnh gửi kế hoạch triển khai đến giải pháp thực thi.Thực kiến thiết việc: vào nội bộ, quá trình thực thi quá trình là một công việc MapReduce. Công cụ thực thi gửi các bước đến JobTracker, trong node Name với nó gán các bước này đến TaskTracker, trong node Data. Ở đây, truy vấn thực thi quá trình MapReduce.

Xem thêm: Hazard Ratio Là Gì - Lstk22 Rr Or Hr Pdf

Hoạt động metadata: trong khi thực hiện, luật pháp thực thi rất có thể thực thi các chuyển động metadata với Metastore.Lấy kết quả: Công cụ thực thi nhận công dụng từ các node Data.Gửi kết quả: Công cụ xúc tiến gửi những giá trị công dụng đó cho trình điều khiển.Gửi kết quả: Trình tinh chỉnh và điều khiển gửi kết quả đến giao diện Hive.