Spark là gì

  -  

Ngày nay có khá nhiều hệ thống đang thực hiện Hadoop để phân tích và xử lý tài liệu lớn. Ưu điểm lớn số 1 của Hadoop là được dựa vào một quy mô lập trình tuy vậy song với xử lý dữ liệu lớn là MapReduce, mô hình này có thể chấp nhận được khả năng tính toán có thể mở rộng, linh hoạt, tài năng chịu lỗi, ngân sách rẻ. Điều này được cho phép tăng tốc thời gian xử lý những dữ liệu mập nhằm duy trì tốc độ, giảm thời gian mong chờ khi tài liệu ngày càng lớn.

Bạn đang xem: Spark là gì

Dù có rất nhiều điểm bạo gan về khả năng đo lường song song và khả năng chịu lỗi cao tuy nhiên Apache Haddop tất cả một điểm yếu là toàn bộ các thao tác đều phải tiến hành trên ổ đĩa cứng vấn đề đó đã làm tụt giảm độ thống kê giám sát đi gấp những lần.

Để hạn chế được nhược điểm này thì Apache Spark được ra đời. Apache Spark có thể chạy cấp tốc hơn 10 lần đối với Haddop sống trên đĩa cứng cùng 100 lần lúc chạy trên bộ nhớ RAM.

1. Trình làng về Apache Spark

*

Apache Spark là 1 trong những framework mã mối cung cấp mở đo lường và tính toán cụm, được cải cách và phát triển sơ khởi vào thời điểm năm 2009 vì AMPLab. Sau này, Spark đã làm được trao mang lại Apache Software Foundation vào năm trước đó và được phạt triển cho tới nay.

Tốc độ cách xử lý của Spark có được do việc đo lường và thống kê được thực hiện cùng lúc trên những máy khác nhau. Đồng thời việc đo lường được triển khai ở bộ nhớ trong (in-memories) giỏi thực hiện trọn vẹn trên RAM.

Spark cho phép xử lý tài liệu theo thời gian thực, vừa nhận dữ liệu từ những nguồn không giống nhau đồng thời thực hiện ngay việc xử lý trên dữ liệu vừa nhận được ( Spark Streaming).

Spark không có khối hệ thống file của riêng rẽ mình, nó sử dụng khối hệ thống file khác như: HDFS, Cassandra, S3,…. Spark cung cấp nhiều kiểu dáng định dạng file khác nhau (text, csv, json…) đồng thời nó trọn vẹn không phụ thuộc vào vào bất cứ một hệ thống file nào.

Xem thêm: Giao Thức Phân Giải Địa Chỉ Arp Là Gì ? Nó Hoạt Động Ra Sao? Quang Vũ Blog

2. Nhân tố của Spark

*

Apache Spark gồm gồm 5 thành phần thiết yếu : Spark Core, Spark Streaming, Spark SQL, MLlib với GraphX, trong đó:

Spark Core là nền tảng cho những thành phần còn lại và các thành phần này hy vọng khởi chạy được thì đều phải thông qua Spark Core bởi vì Spark Core đảm nhiệm vai trò thực hiện quá trình tính toán và xử trí trong bộ nhớ lưu trữ (In-memory computing) đồng thời nó cũng tham chiếu những dữ liệu được tàng trữ tại các hệ thống lưu trữ mặt ngoài.

Spark SQL hỗ trợ một kiểu dáng data abstraction new (SchemaRDD) nhằm hỗ trợ cho cả kiểu dữ liệu có kết cấu (structured data) và dữ liệu nửa kết cấu (semi-structured data – thường xuyên là dữ liệu dữ liệu có cấu tạo nhưng không nhất quán và cấu trúc của dữ liệu phụ thuộc vào vào chủ yếu nội dung của tài liệu ấy). Spark SQL cung ứng DSL (Domain-specific language) để tiến hành các thao tác trên DataFrames bằng ngữ điệu Scala, Java hoặc Python và nó cũng cung ứng cả ngôn ngữ SQL với giao diện command-line cùng ODBC/JDBC server.

Spark Streaming được áp dụng để thực hiện việc đối chiếu stream bằng việc coi stream là các mini-batches cùng thực hiệc kỹ thuật RDD transformation so với các dữ liệu mini-batches này. Qua đó có thể chấp nhận được các đoạn code được viết cho xử lý batch hoàn toàn có thể được tận dụng tối đa lại vào trong câu hỏi xử lý stream, khiến cho việc cách tân và phát triển lambda architecture được thuận lợi hơn. Mặc dù điều này lại tạo thành độ trễ vào xử lý dữ liệu (độ trễ chính bằng mini-batch duration) và cho nên nhiều chuyên gia cho rằng Spark Streaming không thực sự là luật pháp xử lý streaming giống như Storm hoặc Flink.

MLlib (Machine Learning Library): MLlib là một trong những nền tảng học thứ phân tán bên trên Spark do bản vẽ xây dựng phân tán dựa vào bộ nhớ. Theo những so sánh benchmark Spark MLlib cấp tốc hơn 9 lần đối với phiên phiên bản chạy trên Hadoop (Apache Mahout).

GrapX: Grapx là nền tảng gốc rễ xử lý đồ gia dụng thị dựa vào Spark. Nó cung ứng các Api để diễn tảcác giám sát và đo lường trong vật thị bằng phương pháp sử dụng Pregel Api.

Xem thêm: Talking Angela And The New Born Baby, My Talking Angela 2 4+

3. Những điểm nhấn của SparkXử lý dữ liệu: Spark xử lý dữ liệu theo lô và thời hạn thựcTính tương thích: hoàn toàn có thể tích hợp với tất cả những nguồn dữ liệu và định dạng tệp được hỗ trợ bởi các Hadoop.Hỗ trợ ngôn ngữ: hỗ trợ Java, Scala, Python và R.Phân tích thời gian thực:Apache Spark rất có thể xử lý dữ liệu thời gian thực có nghĩa là dữ liệu đến từ những luồng sự kiện thời hạn thực với vận tốc hàng triệu sự kiện mỗi giây. Ví dụ: Data Twitter chẳng hạn hoặc luợt phân chia sẻ, đăng bài trên Facebook. Sức khỏe Spark là kỹ năng xử lý luồng thẳng hiệu quả.Apache Spark rất có thể được thực hiện để giải pháp xử lý phát hiện ăn lận trong khi triển khai các giao dịch ngân hàng. Đó là vì chưng vì, tất cả các khoản giao dịch thanh toán trực tuyến đường được tiến hành trong thời gian thực và bọn họ cần xong xuôi giao dịch ăn gian trong khi quy trình thanh toán sẽ diễn ra.Mục tiêu sử dụng:Xử lý dữ liệu nhanh và tương tácXử lý thiết bị thịCông việc lặp đi lặp lạiXử lý thời gian thựcjoining DatasetMachine LearningApache Spark là Framework thực hiện dữ liệu dựa trên Hadoop HDFS. Apache Spark không thay thế sửa chữa cho Hadoop tuy vậy nó là một trong những framework ứng dụng. Apache Spark tuy thành lập sau nhưng được không ít người nghe biết hơn Apache Hadoop vì kĩ năng xử lý hàng loạt và thời hạn thực.Những doanh nghiệp sử dụng Apache Spark

Hiện nay, có khá nhiều hãng lớn đã sử dụng Spark cho các sản phẩm của bản thân như Yahoo, ebay, IBM, Cisco…

*

Tổng kết

Với sự phân phát triển mạnh mẽ trong vài ba năm quay lại đây của Apache Spark thì lập trình viên, các nhà khoa học laptop có thêm mức sử dụng hữu hiệu nhằm phục vụ các bước của bản thân và fan ta sẽ dần dần quên “Hadoop Stack” mà sửa chữa vào đó sẽ là “Big data Stack”, với khá nhiều sự chắt lọc hơn không chỉ là Hadoop.