Có thể tóm gọn ngành Tin học trong 3 từ : "Lưu trữ - Xử lý - Khai thác" thông tin. Về mặt Lưu trữ, các Hệ quản trị cơ sở dữ liệu đều thực hiện rất tốt. Tuy nhiên, khi lượng thông tin cần lưu trữ và khai thác trở nên khổng lồ đặc biệt trong những ngành như : ngân hàng, tài chính,... đã làm nảy sinh khái niệm Data Warehouse (tức Kho dữ liệu). Bài báo này bạn Nguyễn Phước Lộc xin giới thiệu một số nét về Data Warehouse.
Tóm tắt
Kho dữ liệu về bản chất cũng là một database bình thường, các hệ Quản trị cơ sở dữ liệu quản lý và lưu trữ nó như các database thông thường (tuy nhiên có hỗ trợ thêm về quản lý dữ liệu lớn và truy vấn). Thực ra nét khác biệt của datawarehouse so vớI database là ở quan niệm, cách nhìn vấn đề:
- Trước tiên datawarehouse là database rất lớn (very large database-VLDB)
- database hướng về xử lý thời gian thực, datawarehouse hướng về tính ổn định
- database phục vụ xử lý transaction, cập nhật. Datawarehouse thường chỉ đọc, phục vụ cho những nhu cầu báo cáo. VD: Chúng ta sẽ yêu cầu hãy cho biết trong 5 năm, bộ phận phần mềm đã làm được những dự án nào từ đó chúng ta sẽ có quyết định về hiệu năng của nhóm này
- Datawarehouse sẽ lấy thông tin có thể từ nhiều nguồn khác nhau: DB2, Oracle, SQLserver thậm chí cả File thông thưởng rồi làm sạch chúng và đưa vào cấu trúc của nó-đó là VLDB(very large database). Datatawarehouse rất lớn nên muốn cho từng bộ phận chuyên biệt ngườI sử dụng cuối cùng có thể khai thác thông dễ dàng thì bản thân datawarehouse phải được chuyên hoá, phân ra thành những chủ đề, do đó những chủ đề chuyên môn hóa đó tạo thành một Database chuyên biệt-đó là Data mart. VD: Datawarehouse của Microsoft là rất lớn, trong một núi thông tin đó làm sao khai thác? Vì thế có rất nhiều Data mart về kinh doanh, tiếp thị, kỹ thuật, testing,…. Có một điểm lưu ý ở đây là có một công cụ hay đúng hơn là một chuẩn công cụ mà mọi hệ quản trị Database hỗ trợ cho việc truy vấn thông tin trong Datamart rồI đưa ra những quyết định, nhận dịnh những thông tin trong Datamart - Đó là OLAP, bộ phân tích trực tuyến (Online Analyze Proceesing). (Thật ra tôi chỉ thấy OLAP trong Oracle và SQL Server)
- Một điểm quan trọng là Database thường được chuẩn hóa(Dạng chuẩn 1, 2, 3, BCK) để khai thác. Datawarehouse phảI phi chuẩn hoá rồi sau đó có thể chuẩn hoá theo start chema trong Data mart, điều này đồng nghĩa vớI việc Dataware house sẽ trùng lắp thông tin. Thật ra điều này theo tôi nghĩ là hiển nhiên vì việc chuẩn hoá nhằm tránh sự trùng lắp thông tin, do đó sẽ nhất quán trong việc cập nhật, thêm, xoá, sửa, tuy nhiên Datawarehouse là Database rất lớn phục vụ cho báo cáo, truy vấn chỉ đọc nên việc trùng lắp thông tin sẽ giúp thao tác tìm kiếm sẽ nhanh hơn. Đây cũng là một quy luật: Càng Trùng lắp thông tin thì tìm kiếm càng dễ dàng và ngược lại.
Tóm lại Datawarehouse khác biệt là ỏ quan niệm, cách nhìn
KHO DỮ LIỆU (DATA WAREHOUSE)
I. Kho dữ liệu là gì ?
Một kho dữ liệu là 1 tập hợp thông tin cơ bản trên máy vi tính mà chúng có tính quyết định đến việc thực hiện thành công bước đầu trong công việc kinh doanh.
Một kho dữ liệu (data warehouse), gọi một cách chính xác hơn là kho thông tin (information warehouse), là một cơ sở dữ liệu hướng đối tượng được thiết kế với việc tiếp cận các ý kiến trong mọi lĩnh vực kinh doanh. Nó cung cấp các công cụ để đáp ứng thông tin cần thiết cho các nhà quản trị kinh doanh tại mọi cấp độ tổ chức - không những chỉ là những yêu cầu dữ liệu phức hợp, mà còn là điều kiện thuận tiện nhất để đạt được việc lấy thông tin nhanh, chính xác. Một kho dữ liệu được thiết kế để người sử dụng có thể nhận ra thông tin mà họ muốn có và truy cập đến bằng những công cụ đơn giản.
Một kho dữ liệu là một sự pha trộn của nhiều công nghệ, bao gồm các cơ sở dữ liệu đa chiều và mối quan hệ giữa chúng, kiến trúc chủ khách, giao diện người dùng đồ họa và nhiều nữa. Dữ liệu trong kho dữ liệu không giống dữ liệu của hệ điều hành là loại chỉ có thể đọc nhưng không chỉnh sửa được. Hệ điều hành tạo ra, chỉnh sửa và xóa những dữ liệu sản xuất mà những dữ liệu này cung cấp cho kho dữ liệu. Nguyên nhân chính cho sự phát triển một kho dữ liệu là hoạt động tích hợp dữ liệu từ nhiền nguồn khác nhau vào một kho dữ liệu đơn lẻ và dày đặc mà kho này cung cấp cho việc phân tích và ra quyết định trong công việc kinh doanh.
Đối với một số công việc kinh doanh tin rằng thông tin là nguồn tài nguyên có giá trị rất lớn thì một kho dữ liệu tương đối giống như một nhà kho chứa hàng. Hệ điều hành tạo ra những phần dữ liệu và nạp chúng vào kho. Một số phần được tóm tắt trong thành phần thông tin và được cất vào kho. Người sử dụng kho dữ liệu đưa ra những yêu cầu và được cung cấp sản phẩm được tạo ra từ các thành phần và các phân đoạn được lưu trong kho.
Kho dữ liệu là một hướng công nghệ nóng nhất. Một kho dữ liệu được xác định đúng hướng, hoạt động hiệu quả có thể trở thành một công cụ cạnh tranh có giá trị cao trong kinh doanh.
II. Lợi ích của kho dữ liệu
Tạo ra những quyết định có ảnh hưởng lớn. Một kho dữ liệu cho phép trích rút tài nguyên nhân lực và máy tính theo yêu cầu để cung cấp các câu truy vấn và các báo cáo dựa vào cơ sở dữ liệu hoạt động và sản xuất. Điều này tạo ra sự tiết kiệm đáng kể. Có kho dữ liệu cũng trích rút tài nguyên khan hiếm của hệ thống sản xuất khi thực thi một chương trình quá lâu hoặc các báo cáo và các câu truy vấn phức hợp.
Công việc kinh doanh trở nên thông minh hơn. Tăng thêm chất lượng và tính linh hoạt của việc phân tích kinh doanh do phát sinh từ cấu trúc dữ liệu đa tầng của kho dữ liệu, đó là nơi cung cấp dữ liệu được sắp xếp từ mức độ chi tiết của công việc kinh doanh cho đến mức độ cao hơn - mức độ tổng quát. Đảm bảo được dữ liệu chính xác và đáng tin cậy do đảm bảo được là trong kho dữ liệu chỉ chứa duy nhất dữ liệu có chất lượng cao và ổn định (trusted data).
Dịch vụ khách hàng được nâng cao. Một doanh nghiệp có thể giữ gìn mối quan hệ với khách hàng tốt hơn do có mối tương quan với dữ liệu của tất cả khách hàng qua một kho dữ liệu riêng.
Tái sáng tạo những tiến trình kinh doanh. Sự cho phép phân tích không ngừng thông tin kinh doanh thường cung cấp sự hiểu biết mọi mặt của phương thức kinh doanh do đó có thể làm nảy sinh ra những ý kiến cho sự sáng tạo ra những tiến trình này lại. Chỉ khi xác định chính xác các nhu cầu từ kho dữ liệu thì mới giúp ta đánh giá được những hạn chế và mục tiêu kinh doanh một cách chính xác hơn.
Tái sáng tạo hệ thống thông tin. Một kho dữ liệu là nền tảng cho các yêu cầu dữ liệu trong mọi lĩnh vực kinh doanh, nó cung cấp một chi phí ảnh hưởng nghĩa là đưa ra thói quen cho cho cả hai sự chuẩn hóa dữ liệu và sự chuẩn hóa hoạt động của hệ điều hành theo chuẩn quốc tế.
III. Thành phần kho dữ liệu
Chi tiết hiện hành
Trung tâm của kho dữ liệu là chi tiết hiện hành của nó. Đó là nơi mà phần lớn dữ liệu được lưu trữ. Chi tiết hiện hành đến trực tiếp từ hệ điều hành và có thể được lưu trữ như là dữ liệu thô hoặc như sự tập hợp của dữ liệu thô.

Chi tiết hiện hành là phần lõi dữ liệu mức thấp nhất trong kho dữ liệu. Mọi thực thể dữ liệu trong chi tiết hiện hành là một bức ảnh chụp nhanh, tại một thời điểm, trình ra sự minh họa khi dữ liệu chính xác. Chi tiết hiện hành là đặc trưng từ hai đến năm năm. Sự chính xác của chi tiết hiện hành xảy ra thường xuyên như là điều kiện cần thiết để cung cấp những yêu cầu trong kinh doanh.
Hệ thống bản ghi
Một hệ thống bản ghi là nguồn dữ liệu tốt nhất hoặc phải nhất (rightest data) dùng để nuôi dưỡng kho dữ liệu. Dữ liệu phải nhất là dữ liệu hợp thời nhất, đầy đủ nhất, chính xác nhất, và có sự thích nghi về cấu trúc nhất trong kho dữ liệu. Dữ liệu phải nhất thường đóng nhất đối với nguồn ghi nhận trong môi trường sản xuất. Trong những trường hợp khác, một hệ thống bản ghi có thể là một nơi dùng để chứa dữ liệu tổng hợp.
IV. Những chương trình biến đổi và tích hợp dữ liệu
Ngay cả dữ liệu hoạt động phải nhất cũng được chép vào kho dữ liệu. Dữ liệu hoạt động thô thì hầu như quá khó hiểu đối với phần lớn những người sử dụng ở khâu cuối cùng. Thêm vào đó, dữ liệu hoạt động ít khi thích nghi với tính logic, cấu trúc hướng đối tượng của kho dữ liệu. Hơn nữa, những hệ điều hành khác nhau biểu diễn dữ liệu cũng khác nhau, sử dụng những bộ mã khác nhau cho cùng một mục đích, dồn nhiều mẩu tin vào trong một trường, và nhiều nữa. Dữ liệu hoạt động cũng đến từ nhiều nguồn vật lý khác nhau như các file của máy tính lớn, các cơ sở dữ liệu không quan hệ, các file chỉ mục phẳng, ngay cả những băng từ cá nhân và các bộ nhớ thứ cấp. Vì vậy dữ liệu hoạt động phải được dọn dẹp, chọn lọc, định dạng lại trước khi được nạp vào kho dữ liệu.
Khi các mẩu tin hoạt động có được từ hệ thống bản ghi của chúng đến một kho dữ liệu, các chương trình biến đổi và tích hợp dữ liệu biến đổi chúng từ dữ liệu đặc trưng của trình ứng dụng thành dữ liệu kinh doanh. Các chương trình biến đổi và tích hợp dữ liệu thực hiện các chức năng sau:
- Định dạng lại, tính toán lại, hoặc sửa đổi các cấu trúc chính.
- Thêm vào yếu tố thời gian.
- Xác định giá trị mặc định.
- Cung cấp tính logic để chọn lọc giữa các nguồn dữ liệu.
- Tổng kết, gán nhãn và kết hợp dữ liệu từ các nguồn dữ liệu.
Khi môi trường hoạt động hoặc môi trường kho dữ liệu thay đổi, các chương trình biến đổi và tích hợp dữ liệu được sửa đổi để phản ánh sự thay đổi này.
V. Dữ liệu tổng hợp
Dữ liệu tổng hợp nhanh (lightly summarized data) là dấu hiệu xác nhận chất lượng của một kho dữ liệu. Tất cả các yếu tố của công việc kinh doanh (phòng ban, lĩnh vực hoạt động, chức năng hoạt động, …) có những yêu cầu thông tin khác nhau, vì thế việc thiết kế kho dữ liệu phải có kết quả cung cấp dữ liệu tuỳ biến, tổng hợp nhanh cho mỗi yếu tố doanh nghiệp (xem thêm phần kho dữ liệu thông minh bên dưới). Mỗi yếu tố của công việc kinh doanh có thể có truy cập đến dữ liệu chi tiết và tổng hợp, nhưng sẽ không có nhiều hơn tổng số dữ liệu được lưu trữ trong chi tiết hiện hành.
Dữ liệu tổng hợp chất lượng cao (hightly summarized data) là căn bản cho việc tiến hành công việc kinh doanh. Dữ liệu tổng hợp chất lượng cao có thể đến từ dữ liệu tổng hợp nhanh được dùng cho các yếu tố công việc kinh doanh hoặc từ chi tiết hiện hành. Số lượng dữ liệu ở mức độ này có ít hơn ở các mức độ khác, nó mô tả một tập hợp được chọn lọc cung cấp một sự sự đa dạng rộng lớn cho các nhu cầu và các sự quan tâm. Thêm vào đó để truy cập đến dữ liệu tổng hợp chất lượng cao, việc tiến hành nói chung cũng cần có khả năng tăng mức độ cập nhật chi tiết thông qua tiến trình khoan đi xuống (drill down).
VI. Nơi lưu trữ
Nơi lưu trữ kho dữ liệu chứa các dữ liệu cũ (thường từ hai năm trở lên) quan trọng, đang được quan tâm và có giá trị đối với công việc kinh doanh. Thường có một lượng lớn dữ liệu được cất giữ trong nơi lưu trữ kho dữ liệu ít khi được truy cập. Dữ liệu lưu trữ phần lớn thường được dùng cho sự dự đoán và phân tích các xu hướng. Mặc dù dữ liệu lưu trữ được cất giữ ở cùng mức lõi như chi tiết hiện hành, nhưng điều này càng giống như việc dữ liệu lưu trữ được tập hợp lại và được lưu trữ. Nơi lưu trữ không chỉ bao gồm dữ liệu cũ (dưới dạng thô hoặc tổng hợp), chúng còn bao gồm kho dữ liệu về dữ liệu (metadata) mà được mô tả như là dữ liệu cũ đặc trưng.
VII. Kho dữ liệu về dữ liệu
Một trong những phần quan trọng nhất của kho dữ liệu là kho dữ liệu về dữ liệu – dữ liệu quản lý dữ liệu. Cũng được gọi là kiến trúc kho dữ liệu, kho dữ liệu về dữ liệu là toàn bộ tất cả các mức độ của kho dữ liệu, kể cả các dạng tồn tại và các chức năng ở một chiều khác biệt của kho dữ liệu khác. Các chuyên viên phát triển kho dữ liệu sử dụng kho dữ liệu về dữ liệu để quản trị ,điều khiển sự hình thành và duy trì sự tồn tại các kho dữ liệu nằm bên ngoài kho dữ liệu nói trên. Kho dữ liệu về dữ liệu của các người sử dụng kho dữ liệu là một phần của chính kho dữ liệu đó và có thể được dùng để điều khiển sự phân tích và truy cập kho dữ liệu đó. Đối với người sử dụng kho dữ liệu, kho dữ liệu về dữ liệu giống như là một tờ mục lục (card catalog) về các chủ đề có trong kho dữ liệu.
VIII. Cấu trúc kho dữ liệu
Một kho dữ liệu có thể có một vài phần của cấu trúc sau :
Kho dữ liệu mức vật lý
Cơ sở dữ liệu mức vật lý trong tất cả dữ liệu của kho dữ liệu được lưu trữ , theo cùng với metada và tiến trình xử lý logic cho việc lọc, tổ chức và đóng gói dữ liệu, xử lý dữ liệu chi tiết
Kho dữ liệu mức logic
Cũng chứa đựng metadata bao gồm những luật kinh doanh và xử lý logic cho việc lọc, tổ chức, đóng gói và xử lý dữ liệu, nhưng không chứa đựng dữ liệu thật sự. Thay vào đó nó chứa đựng những thông tin cần thiết để truy cập dữ liệu bất cứ nơi đâu
Kho dữ liệu thông minh hay dữ liệu theo chủ đề (Data mart)
Là tập con của một kho dữ liệu diện rộng. Điển hình là nó cung cấp những thành phần lớn (phân khu, vùng, chức năng,…). Nói tóm lại Data mart như là những phần chuyên biệt hóa của kho dữ liệu
Bài của Nguyễn Phước Lộc