Đang xử lý.....

Tổng quan về khái niệm cơ sở dữ liệu, phân loại cơ sở dữ liệu và thảo luận về cơ sở dữ liệu trong cơ quan nhà nước (phần 1)  

Thứ Hai, 19/09/2016 47663
|

Phần 1: Tổng quan về khái niệm cơ sở dữ liệu, phân loại cơ sở dữ liệu

Cơ sở dữ liệu đã được nhắc đến trong Luật công nghệ thông tin và các tài liệu liên quan đến triển khai ứng dụng công nghệ thông tin trong cơ quan nhà nước. Cơ sở dữ liệu trong cơ quan nhà nước được quy định trong văn bản pháp luật có đề cập là Cơ sở dữ liệu quốc gia và cơ sở dữ liệu của bộ, ngành, địa phương. Hiểu đúng về khái niệm các cơ sở dữ liệu này là điều cần thiết để có thể thực hiện đúng các quy định của pháp luật là điểm chính chúng ta sẽ thảo luận trong bài này.

Cơ sở dữ liệu là gì

Định nghĩa cơ sở dữ liệu của từ điển Oxford: Một tập hợp có cấu trúc của dữ liệu được lưu trong máy tính, theo một cách đặc biệt nào đó có thể được tiếp cận theo những cách khác nhau.

Theo Wikipedia, cơ sở dữ liệu là một tập hợp thông tin có cấu trúc. Tuy nhiên, thuật ngữ này thường dùng trong công nghệ thông tin và nó thường được hiểu rõ hơn dưới dạng một tập hợp liên kết các dữ liệu, thường đủ lớn để lưu trên một thiết bị lưu trữ như đĩa hay băng từ. Dữ liệu này được duy trì dưới dạng một tập hợp các tập tin trong hệ điều hành hay được lưu trữ trong các hệ quản trị cơ sở dữ liệu.

Theo trang công nghệ techtarget.com: Một cơ sở dữ liệu là một tập hợp các thông tin được tổ chức để nó có thể dễ dàng được truy cập, quản lý và cập nhật. Theo một vài quan điểm, cơ sở dữ liệu có thể được phân loại theo loại nội dung: thư mục, văn bản đầy đủ, số, và hình ảnh. Trong máy tính, cơ sở dữ liệu đôi khi được phân loại theo phương pháp tổ chức của nó. Phương pháp phổ biến nhất là các cơ sở dữ liệu quan hệ , cơ sở dữ liệu dạng bảng trong đó dữ liệu được định nghĩa để nó có thể được tổ chức lại và truy cập trong một số cách khác nhau.

Một định nghĩa được biết đến thông dụng khác: Cơ sở dữ liệu là một hệ thống các thông tin có cấu trúc, được lưu trữ trên các thiết bị lưu trữ nhằm thõa mãn yêu cầu khai thác thông tin đồng thời của nhiều người sử dụng hay nhiều chương trình ứng dụng chạy cùng một lúc với những mục đích khác nhau.

Hơn nữa, tham khảo qua trang công cụ tìm kiếm của google về thuật ngữ cơ sở dữ liệu, ta cũng sẽ thu thập được nhiều định nghĩa hoặc khái niệm khác nhau về cơ sở dữ liệu, nhiều website còn đánh đồng với thuật ngữ cơ sở dữ liệu với hệ thống quản trị cơ sở dữ liệu bởi việc triển khai các giải pháp công nghệ quản trị cơ sở dữ liệu hiện nay.

Tuy nhiên, qua các khái niệm, ta có thể tóm tắt một số điểm chung của cơ sở dữ liệu là:

-         Tập hợp thông tin có cấu trúc.

-         Được quản lý và duy trì phục vụ khai thác thông tin.

-         Có thể phục vụ nhiều đối tượng khai thác với nhiều cách thức khác nhau.

-         Có nhiều giải pháp khác nhau để xây dựng và quản lý cơ sở dữ liệu.

Vì vậy, khi nói về cơ sở dữ liệu, ta trọng tâm nói về thông tin, dữ liệu được quản lý, lưu trữ và khai thác mà không phải là vỏ bọc chứa thông tin, dữ liệu (ví dụ hệ thống quản lý cơ sở dữ liệu).

Phân loại cơ sở dữ liệu

Khi nhắc đến phân loại cơ sở dữ liệu, có vô vàn kiểu phân loại cơ sở dữ liệu. Một số loại cơ sở dữ liệu thường được nhắc đến như: Cơ sở dữ liệu lớn, cơ sở dữ liệu hướng tài liệu, cơ sở dữ liệu hướng đối tượng, Cơ sở dữ liệu đồ thị, cơ sở dữ liệu thời gian thực, cơ sở dữ liệu tri thức, cơ sở dữ liệu không gian, cơ sở dữ liệu thời gian, cơ sở dữ liệu tập trung, cơ sở dữ liệu phân tán, cơ sở dữ liệu đám mây, cơ sở dữ liệu quan hệ, cơ sở dữ liệu ngữ nghĩa…. Với mỗi loại cơ sở dữ liệu này lại kéo theo rất nhiều các công nghệ liên quan, mục đích sử dụng và kỹ thuật thực hiện.

Tuy nhiên, theo một cách thông dụng nhất, phân loại về cơ sở dữ liệu trong máy tính thường được thực hiện theo một số hình thức của dữ liệu cơ bản sau:

Phân loại theo loại dữ liệu:

-  Cơ sở dữ liệu có cấu trúc (structured database): có nghĩa là cơ sở dữ liệu dữ liệu được định hình theo một cấu trúc xác định từ trước. Chúng ta có thể hình dung như một văn bản đã được xác định tiêu đề, có các dòng và cột với tiêu đề xác định trước, các thông tin chi tiết được lấp đầy các bảng này và không thay đổi khi cập nhật. Một hình dung khác về cơ sở dữ liệu dữ liệu có cấu trúc là một thư viện với các tủ hồ sơ được đánh nhãn, trong mỗi tủ được phân ngăn rõ ràng. Cơ sở dữ liệu có cấu trúc được xây dựng sẽ dễ dàng quản lý và truy cập thông tin.

-  Cơ sở dữ liệu phi cấu trúc (unstructured database): là cơ sở dữ liệu không được xác định cấu trúc thông tin từ trước. Thường là tập hợp các dữ liệu thô, hỗn tạp và không đồng nhất. Các thành phần của cơ sở dữ liệu không có đặc điểm chung. Chúng ta có thể hình dung cơ sở dữ liệu này là tập hợp các thông tin, dữ liệu bao gồm: thư điện tử, dữ liệu ảnh, video, âm thanh, các bài viết,…Dữ liệu  phi cấu trúc có mặt ở khắp mọi nơi và được sản sinh ra từ các nguồn khác nhau. Để quản lý, dữ liệu phi cấu trúc cần được chuyển đổi thành dữ liệu có cấu trúc qua quá trình chuẩn hóa.

-  Cơ sở dữ liệu bán cấu trúc (semi-structured database): thường là dữ liệu có cấu trúc nhưng không đồng nhất. Cấu trúc của dữ liệu phụ thuộc vào chính nội dung của dữ liệu ấy. Chúng ta có thể thấy được rằng trong thực tế dữ liệu được lưu dưới dạng XML tự do (không kèm theo lược đồ), với định dạng này thông tin mô tả về đối tượng thể hiện trong các thẻ. Đây là cơ sở dữ liệu có nhiều ưu điểm do lưu trữ được hầu hết các loại dữ liệu khác nhau nên cơ sở dữ liệu bán cấu trúc là hướng mới trong nghiên cứu và ứng dụng và được sử dụng thông dụng trên mạng Internet. Tuy nhiên cũng cần lưu ý rằng XML cũng có thể được mô tả dữ liệu có cấu trúc bằng cách kèm xây dựng và lưu trữ dữ liệu tuân thủ lược đồ.

Phân loại theo hình thức lưu trữ, mô hình tổ chức

-  Cơ sở dữ liệu dạng tệp (file database) dữ liệu được lưu trữ dưới dạng các file có thể là văn bản, ảnh, thông tin nhị phân, hoặc phát triển hơn là tệp cơ sở dữ liệu nhỏ gọn của các phần mềm quản lý dữ liệu. Tiêu biểu cho cơ sở dữ liệu dạng tệp là*.mdb Foxpro, Microsoft Access…dạng cơ sở dữ liệu này thường phù hợp với phạm vi nhỏ hoặc theo cách thức tổ chức quản lý dạng cũ.

-  Cơ sở dữ liệu quan hệ (relational database): dữ liệu được lưu trữ trong các bảng dữ liệu gọi là các thực thể, giữa các thực thể này có mối liên hệ với nhau gọi là các quan hệ, mỗi quan hệ có các thuộc tính, trong đó có một thuộc tính là khóa chính. Các hệ quản trị hỗ trợ cơ sở dữ liệu quan hệ như: MS SQL server, Oracle, MySQL… là đặc trưng thể hiện của các cơ sở dữ liệu này.

-  Cơ sở dữ liệu phân cấp (herachical database):  Một mô hình cơ sở dữ liệu phân cấp là một mô hình dữ liệu trong đó các dữ liệu được tổ chức thành một cây cấu trúc. Các dữ liệu được lưu trữ như các hồ sơ đó được kết nối với nhau thông qua các liên kết. Một thực thể là một tập hợp của các thực thể con, mỗi thực thể con cuối cùng (gọi là lá) chỉ chưa giá trị. Thể hiện thực tế của loại cơ sở dữ liệu này là cơ sở dữ liệu được lưu như hệ thống thư mục trên ổ đĩa. Mỗi thư mục cha chứa các thư mục con và tệp nằm trong các thư mục. Một thể hiện khác là các cơ sở dữ liệu quản lý tài khoản, người dùng như LDAP, AD trong đó có chứa các tài khoản tổ chức, cá nhân có cấu trúc lồng nhau.

Phân loại theo đặc tính sử dụng

-  Cơ sở dữ liệu hoạt động (operational databases): Trong hoạt động của mỗi cơ quan, đơn vị hay doanh nghiệp luôn sản sinh ra một lượng lớn thông tin. Các thông tin này lại là đầu vào cho quá trình thực hiện một nghiệp vụ khác. Các thông tin này được đưa vào các cơ sở dữ liệu để quản lý và truy xuất bởi các đối tượng khác nhau. Đây chính là hình thức của các cơ sở dữ liệu hoạt động. Một cơ sở dữ liệu hoạt động thường là cực kỳ quan trọng đối với các tổ chức vì chúng bao gồm các cơ sở dữ liệu đối tác, khách hàng, cơ sở dữ liệu cá nhân và cơ sở dữ liệu sản phẩm hoạt động… Các dữ liệu được lưu trữ trong cơ sở dữ liệu hoạt động có thể được thay đổi và thao tác tùy thuộc vào những gì các tổ chức yêu cầu.

-  Cơ sở dữ liệu kho (data warehouse): Các tổ chức được yêu cầu phải giữ tất cả các dữ liệu có liên quan trong nhiều năm. Những thông tin này cũng là một nguồn quan trọng của thông tin để phân tích và so sánh các dữ liệu năm nay với các năm trước đó cũng làm cho nó dễ dàng hơn để xác định xu hướng chính phát triển của các tổ chức đang diễn ra. Tất cả các dữ liệu này từ năm trước đó được lưu trữ trong một kho dữ liệu. Kể từ khi dữ liệu được lưu trữ đã trải qua tất cả các loại sàng lọc, chỉnh sửa và tích hợp. Cơ sở dữ liệu này đóng vai trò quan trọng trong việc hoạch định chính sách, định hướng phát triển và hỗ trợ ra quyết định. Đặc điểm của cơ sở dữ liệu này là không được sửa đổi nội dung mà chỉ có làm đầy thêm theo thời gian.

-  Cơ sở dữ liệu ngữ nghĩa (semantic database): Đây là cơ sở dữ liệu mới thường được nhắc đến trong thời đại Internet. Là một cơ sở dữ liệu mềm dẻo và linh hoạt lưu trữ ngữ nghĩa của thông tin như như các sự kiện của các đối tượng. Cơ sở dữ liệu dữ liệu ngữ nghĩa được thiết kế để đại diện cho thế giới thực một cách chính xác nhất có thể trong tập hợp dữ liệu. Ký hiệu dữ liệu được tổ chức tuyến tính và phân cấp để cung cấp cho những ý nghĩa nhất định như một trong những mô tả ở trên. Bằng đại diện cho thế giới thực trong bộ dữ liệu, dữ liệu ngữ nghĩa cho phép các máy để tương tác với thông tin của thế gian mà không cần giải thích bởi con người.

Phân loại theo mô hình triển khai

-  Cơ sở dữ liệu tập trung (centralized database): Một cơ sở dữ liệu tập trung  là một cơ sở dữ liệu được đặt, lưu trữ, và duy trì trong một địa điểm duy nhất. Đây là vị trí thường xuyên nhất thiết đặt một hệ thống máy tính hoặc cơ sở dữ liệu hệ thống trung tâm, ví dụ một máy tính chủ, hoặc một hệ thống máy tính máy tính lớn (Wikipedia). Thông thường, một cơ sở dữ liệu tập trung sẽ được duy trì và quản lý bởi một đầu mối, một tổ chức hoặc một cơ quan. Người dùng truy cập vào một cơ sở dữ liệu tập trung thông qua hệ thống mạng nội bộ hoặc mạng diện rộng, internet để truy cập vào các cơ sở dữ liệu để cập nhật hoặc khai thác trung tâm CPU, do đó duy trì cơ sở dữ liệu riêng của mình

-  Cơ sở dữ liệu phân tán (distributed database) là cơ sở dữ liệu không được lưu trữ và xử lý bởi nhiều máy tính, nhiều hệ thống thông tin và thường được đặt ở nhiều vị trí khác nhau. Các vị trí được kết nối với nhau bằng hệ thống mạng (có thể không thường xuyên trực tuyến). cơ sở dữ liệu phân tán có thể được quản lý bởi nhiều cơ quan, đơn vị và tổ chức khác nhau nhưng cần có một chính sách thống nhất để các cơ sở dữ liệu tương hợp và trao đổi thông tin với nhau.

-  Cơ sở dữ liệu tập trung có bản sao: Các cơ sở dữ liệu tập trung và phân tán thường có những ưu điểm và nhược điểm của mình. Quyết định sử dụng loại nào còn phụ thuộc vào yếu tố quản lý và kỹ thuật như sự tham gia của các cơ quan, chính sách quản lý và khai thác dữ liệu, sự ổn định và tốc độ kết nối mạng, mức độ đáp ứng người sử dụng… cơ sở dữ liệu tập trung bản sao là cơ sở dữ liệu được lai giữa hai loại tập trung và phân tán trong đó một cơ sở dữ liệu tập trung lưu toàn bộ dữ liệu theo phạm vi quản lý, triển khai thêm các cơ sở dữ liệu thành phần bản sao theo từng phạm vi dữ liệu và kết nối đồng bộ đến cơ sở dữ liệu trung tâm. Các cơ sở dữ liệu bản sao thành phần này có thể phục vụ các mục đích khác nhau hoặc đặt ở các vị trí khác nhau để tối ưu và khắc phục các nhược điểm đã kể trên nhưng vẫn đảm bảo tính thống nhất như cơ sở dữ liệu tập trung.

Như vậy, ta đã cùng thảo luận khái quát về thuật ngữ cơ sở dữ liệu, phân loại cơ sở dữ liệu bởi các đặc trưng của nó. Đây chỉ là một số cách phân loại thường gặp nhất trong thực tế. Trong phần sau, ta sẽ dựa trên một số các thông tin cơ bản này để thảo luận về cơ sở dữ liệu trong cơ quan nhà nước để hiểu đúng, và rõ tránh các hiểu lầm về khái niệm cơ sở dữ liệu trong quá trình thực thi.

Tham khảo:

https://vi.wikipedia.org/wiki/C%C6%A1_s%E1%BB%9F_d%E1%BB%AF_li%E1%BB%87u

http://www.semagix.com/what-is-semantic-data.htm

https://brightplanet.com/2012/06/structured-vs-unstructured-data/

http://ecomputernotes.com/fundamental/what-is-a-database/type-of-database-system

Nguyễn Trọng Khánh