DATA WAREHOUSE LÀ GÌ

  -  
Kho tài liệu – “Chiếc dạ dày” của hệ thống Business Intelligence

1. Vai trò của Kho dữ liệu vào hệ thống BI

Hệ thống công bố quản trị tối ưu (Business Intelligence – BI) là 1 trong khối hệ thống góp các công ty quản lý biện pháp và một phương thức new quản lý điều hành doanh nghiệp như sẽ trình bày vào bài trước. Để hoàn toàn có thể trình bày được công bố trên các report quản lí trị (dashboard) thì cần có mối cung cấp cung cấp tin đó – đó chính là Kho dữ liệu (Data warehouse). Vị trí của Kho dữ liệu được minc họa làm việc Figure 1. Phía bên đề nghị (hình oval mặt phải) là đối tượng thụ hưởng của khối hệ thống – những người dân sẽ so sánh đọc tin để mang ra những chiến lược lâu dài tốt điều hành thời gian ngắn.

Bạn đang xem: Data warehouse là gì

*
Figure 1. Kiến trúc nấc cao của hệ thống BI (Nguồn W. Eckerson, Smart Companies in the 21st Century: The Secrets of Creating Successful Business Intelligent Solutions, 2003)

Để rất có thể đưa ra được những thông tin có tính hệ thống, phù hợp với nhiệm vụ sale của người tiêu dùng thì cần có đội hình nhiệm vụ (hình oval sống giữa), Chịu đựng trách rưới nhiệm chế tạo các báo cáo quản lí trị từ Kho dữ liệu. Cuối thuộc để hoàn toàn có thể mang được dữ liệu và chuyển vào Kho dữ liệu theo nhu yếu nghiệp vụ thì cần phải có đội ngũ nghệ thuật (hình oval mặt trái).

Dường như hoàn toàn có thể tất cả những hệ thống thông bản thân (hình vuông góc bên dưới bên trái) có thể khai thác tài liệu từ Kho dữ liệu nhằm hỗ trợ làm chủ ra đưa ra quyết định.

2. Định nghĩa Kho dữ liệu

Kho dữ liệu ban đầu được quan niệm là một trong tập tài liệu được dùng làm cung ứng quy trình ra ra quyết định. Theo quy trình phát triển, Kho dữ liệu được quan niệm là một môi trường thông tin (information environment) (từ môi trường xung quanh đọc tin bộc lộ nó chưa phải là một trong thành phầm (product)), tất cả những chức năng:

Cung cung cấp một ánh mắt toàn vẹn về doanh nghiệp:

Cho dù doanh nghiệp có khá nhiều mảng marketing được cai quản vị các hệ thống thiểm độc không giống nhau, nhưng lại Kho dữ liệu là địa điểm sẽ tập thích hợp (tích hợp) được đầy đủ thông tin về những mảng nhiệm vụ khác biệt để hỗ trợ một góc nhìn toàn diện. Việc tích đúng theo này còn cung cấp khả năng review chéo các mảng nghiệp vụ khác biệt để Review sự tương quan thân chúng.

Cung cấp cho khá đầy đủ ban bố hiện giờ và lịch sử dân tộc của khách hàng, với chuẩn bị mang đến câu hỏi khai quật, thực hiện đến câu hỏi cung ứng ra đưa ra quyết định kế hoạch.

Từ báo cáo tại đây mô tả tài liệu sống trong kho không những đối chọi thuần là dữ liệu thô lấy từ những khối hệ thống tthâm độc nhưng nó đã có tổng phù hợp, tính tân oán thành các độ đo tất cả ý nghĩa phân tích.

Có kĩ năng hỗ trợ tài liệu cụ thể theo nhu yếu cơ mà không hẳn tầm nã xuất những khối hệ thống tác nghiệp:

Như vậy miêu tả trong một trong những trường vừa lòng hoàn toàn có thể yêu cầu đối chiếu tài liệu ở tại mức thanh toán giao dịch, thì nó cũng trở nên được lưu lại sẵn ngơi nghỉ Kho tài liệu.

Đảm bảo công bố vào Kho tài liệu tất cả tính duy nhất quán:

ví dụ như công ty có rất nhiều nhiệm vụ được cai quản cùng với những khối hệ thống tthâm hiểm không giống nhau, tuy nhiên phải bảo đảm an toàn ánh xạ được một người tiêu dùng lộ diện sinh hoạt nhiều hệ thống về 1 tín đồ duy nhất. Điều này áp dụng cho các đối tượng dữ liệu không giống. Dường như một ngôi trường dữ liệu hoàn toàn có thể được biểu diễn bởi rất nhiều cách thức không giống nhau, ví dụ Tên người sử dụng tất cả hệ thống tách chúng ta với thương hiệu thành 2 ngôi trường khác biệt, bao gồm khối hệ thống chỉ lưu giữ trong 1 ngôi trường. khi tổng vừa lòng về Kho tài liệu thì sẽ tiến hành gửi về 1 dạng thống tuyệt nhất.

Là nguồn lên tiếng chiến lược mềm dẻo với tất cả tính tương tác:

Chữ mềm dẻo với liên hệ tại chỗ này diễn đạt người tiêu dùng rất có thể mang các đọc tin khác nhau của cùng một đối tượng người dùng. Từ xúc tiến ở chỗ này biểu đạt có thể thực hiện được không ít thao tác làm việc cùng với các đối tượng người tiêu dùng dữ liệu vậy vì chưng trả lại một danh sách tĩnh. ví dụ như hoàn toàn có thể lấy tài liệu tổng đúng theo theo ngày, theo tuần, theo mon của thuộc 1 đối tượng tài liệu. Tính cửa hàng diễn đạt người tiêu dùng có thể áp dụng những làm việc so với dữ liệu, một ví dụ là căn nguyên phân tích tài liệu Squốc lộ Server Analysis Services (SSAS) được cho phép người tiêu dùng có thể liên can để so với tài liệu.

3. Điểm lưu ý của Kho dữ liệu

Dữ liệu được lưu giữ trong Kho dữ liệu ko được tạo nên trực tiếp trường đoản cú người tiêu dùng nhưng mà được rước tự các mối cung cấp tài liệu sẵn gồm với mục tiêu là Giao hàng tạo ra các report quản trị vì vậy nó bao gồm những đặc điểm sau:

Hướng chủ đề (subject-oriented):

Mục đích của Kho dữ liệu là giao hàng những trải đời phân tích, hoặc khai thác rõ ràng được hotline là chủ đề. lấy ví dụ với chủ thể so sánh nhân sự thì hoàn toàn có thể bao hàm các độ đo về lệch giá của từng fan, số ngày nghỉ hồi tháng, số dự án công trình tmê say gia vào tháng, theo những chiều phân tích: thời hạn, chi nhánh, sản phẩm, …

Một sự so sánh dễ dàng nắm bắt, giống như chẩn đân oán một bệnh dịch ví dụ căn bệnh liên quan đến tyên, thì bác sỹ phải quan tâm không chỉ có một mà lại một vài chỉ số nhỏng các chỉ số tương quan đến ngày tiết, chỉ số về áp suất máu, nhịp tim, điện chổ chính giữa trang bị. Trong khi còn nên theo dõi và quan sát theo thời gian (có thể là mặt hàng ngày) nhằm chú ý sự biến đổi cơ mà gồm cách thức chữa bệnh kịp thời. Trong ngôi trường đúng theo này thời hạn được điện thoại tư vấn là chiều so với. Để chẩn đân oán được đúng chuẩn thì cần đầy đủ các ban bố về các chỉ số trên, với cũng ko đề nghị những chỉ số khác lẫn vào có tác dụng nhiễu quá trình chẩn đân oán và cũng không quan trọng. Việc tổ chức tài liệu theo chủ đề này đã dẫn cho yêu cầu tổ chức triển khai lưu trữ dữ liệu khác cùng với các cơ sở tài liệu tthâm nho.

Được tích phù hợp (integrated):

Tại một cơ sở y tế, những chống khác nhau đã thực hiện những xét nghiệm khác biệt, cho nên vì vậy để sở hữu được rất đầy đủ báo cáo giao hàng chẩn đoán thù thì nên tích lũy được hiệu quả từ bỏ nhiêu nguồn. Điều này hoàn toàn tựa như như tại công ty, dữ liệu phải để so sánh rất có thể ở rải rác rến làm việc những khối hệ thống tác nghiệp không giống nhau, với do vậy buộc phải tích phù hợp lại. Quá trình tích đúng theo này sẽ tiến hành triển khai vào quá trình ETL nlỗi sẽ trình diễn nghỉ ngơi bài bác trước. Việc tổng đúng theo dữ liệu từ không ít mối cung cấp vào một kho dữ liệu cho phép bạn cũng có thể coi đôi khi những đội chỉ tiêu khác biệt (từ khá nhiều hệ thống nhiệm vụ không giống nhau), ví dụ ta hoàn toàn có thể xem tiêu chuẩn lệch giá ngơi nghỉ các mảng nhiệm vụ khác nhau để hoàn toàn có thể so sánh được sự đối sánh thân những mảng nghiệp vụ này. Như vậy cũng tương tự trong chuẩn chỉnh đoán căn bệnh ta rất có thể phải nhiều xét nghiệm (demo ngày tiết, test nước tiếu, khôn cùng âm, …) và khám nghiệm khác biệt để hoàn toàn có thể chỉ dẫn Tóm lại chính xác.

Có gán nhãn thời hạn (time variant):

Như vẫn nhắc, với các chỉ số thay đổi liên tục (nlỗi huyết áp, nhịp tim) vấn đề chẩn đân oán bệnh dịch sẽ buộc phải tài liệu của những ngày hôm trước để đối chiếu ship hàng quá trình khám chữa. Do đó hằng ngày cần phải gìn giữ giá trị của những chỉ số này. Hay nói theo một cách khác những chỉ số này lúc lưu sẽ tiến hành gán 1 nhãn thời gian tương xứng. Tương tự điều này, dữ liệu lịch sử dân tộc gồm trung bình đặc biệt đặc biệt trong đối chiếu tài liệu, và một độ đo vẫn có nhiều quý giá khác biệt trong lịch sử dân tộc có thể dùng làm đối chiếu cùng nhau để hiểu rằng sự đổi khác là tốt hay xấu.

lấy ví dụ như, độ đo lệch giá của 1 mặt hàng của mon ngày nay, giả dụ mang so sánh cùng với lợi nhuận của mặt hàng đó trong thời điểm tháng trước, mon này năm kia thì sẽ có không ít ban bố rộng nhằm Review doanh thu của mặt hàng đó là tốt hay là không, trên cơ sở kia sẽ có những ra quyết định phù hợp. Ngoài ra, tài liệu lịch sử còn được cho phép đoán trước được sau này Khi ứng dụng khai thác dữ liệu.

Bất phát triển thành (non-volatile):

Khác với các đại lý dữ liệu (CSDL) thanh toán, khu vực thông báo của một đối tượng người dùng hoàn toàn có thể được update biến hóa mỗi ngày, dữ liệu vào Kho tài liệu bao gồm công dụng báo cáo lại những chỉ số về chuyển động marketing thực tiễn sẽ xẩy ra. Do kia tài liệu trong Kho dữ liệu quan trọng update, biến hóa vì nó sẽ không còn đề đạt đúng thực tiễn. Do đó cùng với kho tài liệu chỉ có 2 thao tác làm việc đó là thiết lập dữ liệu vào kho và truy vấn (đọc) tài liệu trường đoản cú kho.

Trường vừa lòng sau khi tổng đúng theo dữ liệu cơ mà tài liệu sống vào nguồn bị đổi khác, lúc ấy một chiến thuật cách xử lý là tiến hành lại quy trình ETL nhằm mua lại dữ liệu từ nguồn vào Kho dữ liệu chứ không hề cho phép sửa đổi dữ liệu ở trong Kho. Một ý nghĩa sâu sắc khác của đặc điểm này là dữ liệu lịch sử hào hùng vẫn được bảo tồn, vẫn có ý nghĩa chứ đọng không phải như dữ liệu tcay nghiệt sinh sống những cơ sở tài liệu, tài liệu cũ (thời gian trước, hoặc tháng trước) không tồn tại chân thành và ý nghĩa giao hàng vận động hàng ngày.

Xem thêm: Quả Muỗm Là Quả Gì, Muỗm, Tác Dụng Chữa Bệnh Của Muỗm, Quả Muỗm Là Gì

bởi vậy, nếu như như cơ sở dữ liệu tcay nghiệt được ví như chiếc giá sách cá thể, vị trí người ta thường xuyên tra cứu giúp, cập nhật, hiệu đính, ghi crúc vào lề, thêm bắt đầu hoặc gửi sách đi. Thì Kho dữ liệu lại được đối chiếu với thỏng viện tổ quốc, chỗ những tài liệu kinh khủng được mang lại liên tục nhằm lưu trữ cùng tham khảo, không ai thay thế sửa chữa hoặc đưa bọn chúng qua chỗ nào khác cả.

4. Mô hình trình diễn tài liệu trong Kho dữ liệu

Vì các sệt điểm dữ liệu được tổ chức phía chủ thể, bắt buộc quy mô quan hệ thực thể được sử dụng trong thiết kế cơ sở dữ liệu (CSDL) tác nghiệt là không thể cân xứng. Trong thực tiễn, bạn ta sử dụng 2 quan niệm là độ đo (measure) và chiều so sánh (dimension) nhằm biểu diễn dữ liệu trong kho. Áp dụng vào ví dụ làm việc bên trên, tập những chỉ số ngày tiết, nhịp tlặng, áp suất máu vẫn khớp ứng với những độ đo, và thời gian là chiều so sánh.

Một số quy mô sau sẽ được thiết kế với để màn trình diễn những độ đo cùng chiều so với. Người ta vẫn dùng quy mô các đại lý tài liệu quan hệ tình dục để màn trình diễn, trong số ấy bảng sự khiếu nại (Fact) sẽ được tạo nên để đựng những độ đo, cùng bảng chiều (demension) được dùng để làm chứa thông báo về những chiều phân tích, bảng sự khiếu nại sẽ có được quan hệ với bảng chiều khớp ứng. Cụ thể gồm 3 mô hình màn trình diễn quan hệ thân bảng sự kiện cùng bảng chiều nlỗi sau:

Mô hình ngôi sao (star schema)

Trong mô hình này, một bảng sự kiện đã nằm ở vị trí chính giữa với xung quanh là những bảng chiều (Figure phía 2 bên trái), vày hình hình ảnh này như thể một ngôi sao đã phát sáng phải tín đồ ta đặt mang lại nó tên là mô hình ngôi sao (Figure phía 2 bên phải).

*
Figure 2 lấy ví dụ về quy mô ngôi sao (Nguồn Data Mining: Jiawei Han và Micheline Kamber, Concepts và Techniques, Second Edition, 2006)

Tại trong ví dụ vào Figure 2, bảng sự khiếu nại đựng ban bố bán hàng cùng với các độ đo: số lượng bán được (unit sold), số chi phí chiếm được (dollars sold) và mức độ vừa phải lệch giá (average sale). Bảng sự khiếu nại này có liên kết cùng với 4 bảng chiều: thời gian (time), Trụ sở siêu thị (branch), sản phẩm (item) và địa điểm shop (location).

điểm sáng của mô hình ngôi sao là chỉ có 1 cấp quan hệ thân bảng chiều và bảng sự kiện cho nên vì thế Lúc truy xuất tài liệu thì các hệ cai quản trị cơ sở dữ liệu vẫn cách xử trí nhanh khô hơn và trả lại hiệu quả nkhô nóng hơn. Nhưng yếu điểm của phương pháp này là một số bảng chiều chưa được chuẩn chỉnh hóa. ví dụ như nlỗi bảng chiều vị trí, trong các số ấy nó ko được chuẩn chỉnh hóa theo quy mô cửa hàng dữ liệu.

Trong bảng này các tài liệu bị tái diễn ví dụ toàn cục các ngôi trường thành phố, state_or_province, cùng country có khả năng sẽ bị lặp bên trên các cái gồm trùng thành phố. Việc dữ liệu không được chuẩn chỉnh hóa sẽ không bảo đảm được sự đồng hóa về dữ liệu. Lúc tài liệu chuyển đổi ví dụ tín đồ ta thay tên city, rất có thể quy trình update có khả năng sẽ bị sót vày rất nhiều loại rất cần được update. Hình như dữ liệu lặp đã có tác dụng tăng không khí lưu trữ, tác động mang lại quy trình sao lưu, đồng điệu dữ liệu.

Một chủ đề phân tích có thể được màn biểu diễn bởi một hoặc nhiều “ngôi sao”.

Mô hình bông tuyết (snowflake)

Mô hình bông tuyết hạn chế điểm yếu kém của mô hình ngôi sao 5 cánh sinh hoạt cẩn thận dữ liệu không được chuẩn chỉnh hóa. Do đó nó được cho phép những bảng chiều được chuẩn hóa (tùy theo ngôi trường vừa lòng nhưng nó rất có thể chuẩn chỉnh hóa mang đến chuẩn 3 Boyce–Codd). Vì sau thời điểm chuẩn chỉnh hóa các bảng chiều, nó tất cả ngoại hình tương tự một bông tuyết (Figure 3 bên phải), đấy là nguyên do nó mang tên điều này.

*
Figure 3 Mô hình bông tuyết (Nguồn Data Mining: Jiawei Han and Micheline Kamber, Concepts & Techniques, Second Edition, 2006)

Figure 3 minh họa mô hình bông tuyết trong các số đó bảng location đã làm được chuẩn hóa, bởi thiếu thốn không khí yêu cầu sinh hoạt hình này chỉ vẽ được đến bảng đô thị (trong các số ấy có chứa khóa state_or_province_key) nhằm links cùng với bảng state_or_province, tiếp tục bảng state_or_province lại có tình dục cùng với bảng country (nếu như muốn chuẩn chỉnh hóa mang đến chuẩn 3). Tuy nó hạn chế và khắc phục được yếu điểm của quy mô ccỗ ván sao, nhưng mà nó lại phá mất ưu điểm của quy mô ngôi sao là vận tốc cách xử trí dữ liệu khi nó cần links những bảng cùng nhau để đưa tài liệu.

Tương từ bỏ với quy mô ngôi sao 5 cánh, một chủ thể so sánh có thể được trình diễn bởi một hoặc một vài ba bông tuyết.

Mô hình chòm sao (constellation)

Mô hình ccỗ áo sao thường xuyên là sự việc không ngừng mở rộng quy mô bông tuyết, trong những số ấy nó cho phép các bảng sự kiện có thể áp dụng bình thường những bảng chiều. lúc đó những bảng sự kiện với bảng chiều sẽ tạo ra quan hệ y hệt như một đồ gia dụng thị – với một hình ảnh hết sức giống như cùng với mối quan hệ này là csăng sao (Figure 3 mặt phải).

*
Figure 4 Mô hình cquan tài sao (Nguồn Data Mining: Jiawei Han và Micheline Kamber, Concepts and Techniques, Second Edition, 2006)

Trong ví dụ ngơi nghỉ Figure 4, khi bổ sung cập nhật chế tạo bảng sự khiếu nại giao hàng (shipping), khi ấy bảng sự khiếu nại này vẫn mong muốn áp dụng chiều location, item, time.

Việc sử dụng phổ biến chiều bao gồm điểm mạnh là rút ít gọn được số lượng bảng chiều. Nhưng vấn đề làm cho này vẫn ảnh hưởng bự mang lại quá trình ETL tài liệu. Giả sử hệ thống quản lý bán hàng là bóc biệt với hệ thống thống trị ship hàng, khi ấy cần được đem đọc tin trường đoản cú cả hai mối cung cấp dữ liệu nhằm đẩy vào bảng chiều chung là location.

Nhược điểm của quy mô ccỗ ván sao là tinh vi, khó sử dụng với yêu cầu đọc tài liệu lí giải thì mới có thể rất có thể gọi và đem được lên tiếng cần từ Kho tài liệu. Các quy trình khác ví như ETL cũng trở thành phức hợp rộng so với các quy mô khác. Vì đặc điểm mô hình này phức tạp đề nghị một trong những sách hoàn toàn có thể ko kể trình làng mô hình này.

Xem thêm: Logistics Ngược ( Reverse Logistics Là Gì, Cần Nắm Thông Tin Gì Về Reverse

Với những mô hình màn trình diễn sẽ sở hữu được các ưu thế cùng điểm yếu kém riêng, phải bạn xây đắp phải Chịu đựng trách nát nhiệm lựa chọn mô hình làm sao cân xứng.

N12H – chamichi.com.vn

Theo dõi kênh tin tức của công ty chúng tôi nhằm cập nhật đa số tin tức bắt đầu nhất: Youtube, Fanpage