Spark Là Gì

     

Ngày nay có khá nhiều hệ thống đang áp dụng Hadoop nhằm phân tích với xử lý tài liệu lớn. Ưu điểm lớn số 1 của Hadoop là được dựa trên một mô hình lập trình tuy nhiên song với xử lý dữ liệu lớn là MapReduce, mô hình này chất nhận được khả năng tính toán rất có thể mở rộng, linh hoạt, năng lực chịu lỗi, ngân sách chi tiêu rẻ. Điều này cho phép tăng tốc thời hạn xử lý những dữ liệu béo nhằm gia hạn tốc độ, bớt thời gian chờ đợi khi tài liệu ngày càng lớn.

Bạn đang xem: Spark là gì

Dù có nhiều điểm bạo phổi về khả năng đo lường song tuy vậy và tài năng chịu lỗi cao dẫu vậy Apache Haddop gồm một điểm yếu là toàn bộ các thao tác đều phải tiến hành trên ổ đĩa cứng vấn đề đó đã làm tụt giảm độ thống kê giám sát đi gấp nhiều lần.

Để khắc chế được nhược điểm đó thì Apache Spark được ra đời. Apache Spark rất có thể chạy cấp tốc hơn 10 lần đối với Haddop nghỉ ngơi trên đĩa cứng với 100 lần lúc chạy trên bộ nhớ lưu trữ RAM.

1. Ra mắt về Apache Spark

*

Apache Spark là 1 framework mã nguồn mở đo lường và tính toán cụm, được cách tân và phát triển sơ khởi vào thời điểm năm 2009 bởi AMPLab. Sau này, Spark đã làm được trao cho Apache Software Foundation vào năm 2013 và được phân phát triển cho đến nay.

Tốc độ giải pháp xử lý của Spark có được do việc tính toán được triển khai cùng lúc trên nhiều máy không giống nhau. Đồng thời việc đo lường được triển khai ở bộ nhớ lưu trữ trong (in-memories) hay thực hiện trọn vẹn trên RAM.

Spark có thể chấp nhận được xử lý dữ liệu theo thời gian thực, vừa nhận tài liệu từ những nguồn không giống nhau đồng thời triển khai ngay vấn đề xử lý trên dữ liệu vừa nhận thấy ( Spark Streaming).

Spark ko có khối hệ thống file của riêng rẽ mình, nó sử dụng khối hệ thống file không giống như: HDFS, Cassandra, S3,…. Spark hỗ trợ nhiều vẻ bên ngoài định dạng file khác biệt (text, csv, json…) đồng thời nó hoàn toàn không dựa vào vào bất cứ một hệ thống file nào.

Xem thêm: Tại Sao Tròng Trắng Mắt Bị Đục, Mắt Bị Vàng Đục

2. Yếu tố của Spark

*

Apache Spark gồm bao gồm 5 thành phần bao gồm : Spark Core, Spark Streaming, Spark SQL, MLlib với GraphX, trong đó:

Spark Core là nền tảng cho các thành phần sót lại và các thành phần này ao ước khởi chạy được thì hồ hết phải thông qua Spark Core do Spark Core phụ trách vai trò thực hiện quá trình tính toán và xử lý trong bộ nhớ lưu trữ (In-memory computing) đôi khi nó cũng tham chiếu những dữ liệu được lưu trữ tại các hệ thống lưu trữ bên ngoài.

Spark SQL cung cấp một vẻ bên ngoài data abstraction bắt đầu (SchemaRDD) nhằm mục đích hỗ trợ cho tất cả kiểu tài liệu có kết cấu (structured data) và tài liệu nửa cấu trúc (semi-structured data – thường là tài liệu dữ liệu có cấu trúc nhưng không đồng nhất và cấu trúc của dữ liệu phụ thuộc vào vào bao gồm nội dung của dữ liệu ấy). Spark SQL cung cấp DSL (Domain-specific language) để triển khai các thao tác trên DataFrames bằng ngôn ngữ Scala, Java hoặc Python với nó cũng cung ứng cả ngôn từ SQL với đồ họa command-line và ODBC/JDBC server.

Spark Streaming được sử dụng để tiến hành việc phân tích stream bằng việc coi stream là các mini-batches với thực hiệc chuyên môn RDD transformation đối với các dữ liệu mini-batches này. Qua đó cho phép các đoạn code được viết cho cách xử trí batch có thể được tận dụng tối đa lại vào trong vấn đề xử lý stream, tạo nên việc phát triển lambda architecture được thuận tiện hơn. Tuy nhiên điều này lại tạo thành độ trễ vào xử lý dữ liệu (độ trễ chính bằng mini-batch duration) và cho nên vì thế nhiều chuyên gia cho rằng Spark Streaming không thực thụ là hình thức xử lý streaming y hệt như Storm hoặc Flink.

MLlib (Machine Learning Library): MLlib là 1 trong những nền tảng học lắp thêm phân tán bên trên Spark do kiến trúc phân tán dựa trên bộ nhớ. Theo những so sánh benchmark Spark MLlib nhanh hơn 9 lần đối với phiên phiên bản chạy bên trên Hadoop (Apache Mahout).

GrapX: Grapx là nền tảng xử lý đồ gia dụng thị dựa vào Spark. Nó cung cấp các Api nhằm diễn tảcác đo lường và tính toán trong đồ dùng thị bằng cách sử dụng Pregel Api.

Xem thêm: Học Cách Dùng No Sweat Là Gì ? Sweating Tiếng Anh Là Gì

3. Những điểm nhấn của SparkXử lý dữ liệu: Spark xử lý dữ liệu theo lô và thời gian thựcTính tương thích: có thể tích phù hợp với tất cả các nguồn dữ liệu và định dạng tệp được hỗ trợ bởi các Hadoop.Hỗ trợ ngôn ngữ: cung cấp Java, Scala, Python với R.Phân tích thời hạn thực:Apache Spark rất có thể xử lý dữ liệu thời hạn thực có nghĩa là dữ liệu mang lại từ các luồng sự kiện thời hạn thực với tốc độ hàng triệu sự khiếu nại mỗi giây. Ví dụ: Data Twitter chẳng hạn hoặc luợt phân chia sẻ, đăng bài bác trên Facebook. Sức mạnh Spark là năng lực xử lý luồng trực tiếp hiệu quả.Apache Spark rất có thể được sử dụng để xử trí phát hiện ăn lận trong khi thực hiện các thanh toán ngân hàng. Đó là vì chưng vì, tất cả các khoản thanh toán giao dịch trực tuyến đường được triển khai trong thời gian thực và họ cần kết thúc giao dịch ăn gian trong khi quá trình thanh toán vẫn diễn ra.Mục tiêu sử dụng:Xử lý tài liệu nhanh với tương tácXử lý thiết bị thịCông việc lặp đi lặp lạiXử lý thời hạn thựcjoining DatasetMachine LearningApache Spark là Framework tiến hành dữ liệu dựa vào Hadoop HDFS. Apache Spark không thay thế cho Hadoop nhưng lại nó là một framework ứng dụng. Apache Spark tuy thành lập sau nhưng được không ít người biết đến hơn Apache Hadoop vì kỹ năng xử lý hàng loạt và thời gian thực.Những doanh nghiệp thực hiện Apache Spark

Hiện nay, có không ít hãng béo đã sử dụng Spark cho những sản phẩm của bản thân như Yahoo, ebay, IBM, Cisco…

*

Tổng kết

Với sự phân phát triển mạnh khỏe trong vài ba năm quay trở lại đây của Apache Spark thì lập trình sẵn viên, những nhà khoa học máy tính có thêm qui định hữu hiệu nhằm phục vụ quá trình của mình và bạn ta sẽ dần quên “Hadoop Stack” mà sửa chữa vào này sẽ là “Big data Stack”, với nhiều sự chắt lọc hơn không chỉ là là Hadoop.