Spark là gì
Ngày nay có khá nhiều hệ thống đang thực hiện Hadoop để phân tích và xử lý tài liệu lớn. Ưu điểm lớn số 1 của Hadoop là được dựa vào một quy mô lập trình tuy vậy song với xử lý dữ liệu lớn là MapReduce, mô hình này có thể chấp nhận được khả năng tính toán có thể mở rộng, linh hoạt, tài năng chịu lỗi, ngân sách rẻ. Điều này được cho phép tăng tốc thời gian xử lý những dữ liệu mập nhằm duy trì tốc độ, giảm thời gian mong chờ khi tài liệu ngày càng lớn.
Bạn đang xem: Spark là gì
Dù có rất nhiều điểm bạo gan về khả năng đo lường song song và khả năng chịu lỗi cao tuy nhiên Apache Haddop tất cả một điểm yếu là toàn bộ các thao tác đều phải tiến hành trên ổ đĩa cứng vấn đề đó đã làm tụt giảm độ thống kê giám sát đi gấp những lần.
Để hạn chế được nhược điểm này thì Apache Spark được ra đời. Apache Spark có thể chạy cấp tốc hơn 10 lần đối với Haddop sống trên đĩa cứng cùng 100 lần lúc chạy trên bộ nhớ RAM.
1. Trình làng về Apache Spark
Apache Spark là 1 trong những framework mã mối cung cấp mở đo lường và tính toán cụm, được cải cách và phát triển sơ khởi vào thời điểm năm 2009 vì AMPLab. Sau này, Spark đã làm được trao mang lại Apache Software Foundation vào năm trước đó và được phạt triển cho tới nay.
Tốc độ cách xử lý của Spark có được do việc đo lường và thống kê được thực hiện cùng lúc trên những máy khác nhau. Đồng thời việc đo lường được triển khai ở bộ nhớ trong (in-memories) giỏi thực hiện trọn vẹn trên RAM.
Spark cho phép xử lý tài liệu theo thời gian thực, vừa nhận dữ liệu từ những nguồn không giống nhau đồng thời thực hiện ngay việc xử lý trên dữ liệu vừa nhận được ( Spark Streaming).
Spark không có khối hệ thống file của riêng rẽ mình, nó sử dụng khối hệ thống file khác như: HDFS, Cassandra, S3,…. Spark cung cấp nhiều kiểu dáng định dạng file khác nhau (text, csv, json…) đồng thời nó trọn vẹn không phụ thuộc vào vào bất cứ một hệ thống file nào.
Xem thêm: Giao Thức Phân Giải Địa Chỉ Arp Là Gì ? Nó Hoạt Động Ra Sao? Quang Vũ Blog

Apache Spark gồm gồm 5 thành phần thiết yếu : Spark Core, Spark Streaming, Spark SQL, MLlib với GraphX, trong đó:
Spark Core là nền tảng cho những thành phần còn lại và các thành phần này hy vọng khởi chạy được thì đều phải thông qua Spark Core bởi vì Spark Core đảm nhiệm vai trò thực hiện quá trình tính toán và xử trí trong bộ nhớ lưu trữ (In-memory computing) đồng thời nó cũng tham chiếu những dữ liệu được tàng trữ tại các hệ thống lưu trữ mặt ngoài.
Spark SQL hỗ trợ một kiểu dáng data abstraction new (SchemaRDD) nhằm hỗ trợ cho cả kiểu dữ liệu có kết cấu (structured data) và dữ liệu nửa kết cấu (semi-structured data – thường xuyên là dữ liệu dữ liệu có cấu tạo nhưng không nhất quán và cấu trúc của dữ liệu phụ thuộc vào vào chủ yếu nội dung của tài liệu ấy). Spark SQL cung ứng DSL (Domain-specific language) để tiến hành các thao tác trên DataFrames bằng ngữ điệu Scala, Java hoặc Python và nó cũng cung ứng cả ngôn ngữ SQL với giao diện command-line cùng ODBC/JDBC server.
Spark Streaming được áp dụng để thực hiện việc đối chiếu stream bằng việc coi stream là các mini-batches cùng thực hiệc kỹ thuật RDD transformation so với các dữ liệu mini-batches này. Qua đó có thể chấp nhận được các đoạn code được viết cho xử lý batch hoàn toàn có thể được tận dụng tối đa lại vào trong câu hỏi xử lý stream, khiến cho việc cách tân và phát triển lambda architecture được thuận lợi hơn. Mặc dù điều này lại tạo thành độ trễ vào xử lý dữ liệu (độ trễ chính bằng mini-batch duration) và cho nên nhiều chuyên gia cho rằng Spark Streaming không thực sự là luật pháp xử lý streaming giống như Storm hoặc Flink.
MLlib (Machine Learning Library): MLlib là một trong những nền tảng học thứ phân tán bên trên Spark do bản vẽ xây dựng phân tán dựa vào bộ nhớ. Theo những so sánh benchmark Spark MLlib cấp tốc hơn 9 lần đối với phiên phiên bản chạy trên Hadoop (Apache Mahout).
GrapX: Grapx là nền tảng gốc rễ xử lý đồ gia dụng thị dựa vào Spark. Nó cung ứng các Api để diễn tảcác giám sát và đo lường trong vật thị bằng phương pháp sử dụng Pregel Api.
Xem thêm: Talking Angela And The New Born Baby, My Talking Angela 2 4+
Hiện nay, có khá nhiều hãng lớn đã sử dụng Spark cho các sản phẩm của bản thân như Yahoo, ebay, IBM, Cisco…

Với sự phân phát triển mạnh mẽ trong vài ba năm quay lại đây của Apache Spark thì lập trình viên, các nhà khoa học laptop có thêm mức sử dụng hữu hiệu nhằm phục vụ các bước của bản thân và fan ta sẽ dần dần quên “Hadoop Stack” mà sửa chữa vào đó sẽ là “Big data Stack”, với khá nhiều sự chắt lọc hơn không chỉ là Hadoop.