Siêu dữ liệu, hay dữ liệu đặc tả, là dữ liệu mô tả các đặc tính của một đối tượng thông tin, đóng vai trò không thể thiếu trong việc quản lý và khai thác tài sản thông tin số. Trong lĩnh vực số hoá tài liệu hành chính công, siêu dữ liệu không chỉ đơn thuần là các trường mô tả mà còn là yếu tố kỹ thuật cốt lõi đảm bảo tính pháp lý, tính toàn vẹn, và khả năng bảo quản lâu dài của tài liệu điện tử. Nó cung cấp ngữ cảnh cần thiết để biến một chuỗi bit nhị phân thành một hồ sơ có giá trị pháp lý và nghiệp vụ.
Về mặt lý thuyết, siêu dữ liệu là sự cụ thể hóa của ngữ cảnh thông tin (information context). Nếu không có siêu dữ liệu, tài liệu số chỉ là dữ liệu thô, không thể truy xuất, quản lý hoặc xác minh nguồn gốc một cách tin cậy.
1. Phân loại siêu dữ liệu cần được xem xét theo góc độ ứng dụng nghiệp vụ trong chính phủ số:
Có nhiều loại siêu dữ liệu khác nhau:
- Siêu dữ liệu mô tả (descriptive metadata): nhằm mục đích nhận dạng và tối ưu hóa việc tìm kiếm. Nhóm này bao gồm các trường kinh điển như tiêu đề, cơ quan ban hành (creator), ngày ban hành (date), chủ đề (subject), và từ khoá (keywords). Mức độ chi tiết của siêu dữ liệu mô tả quyết định độ chính xác và tốc độ truy xuất tài liệu trong các hệ thống thông tin lớn.
- Siêu dữ liệu cấu trúc (structural metadata): là cần thiết cho việc tổ chức các tập tin kỹ thuật số thành các đối tượng logic và nghiệp vụ. Nó mô tả mối quan hệ phân cấp (hierarchical) và tuần tự (sequential) giữa các thành phần của một tài liệu phức hợp (ví dụ: hồ sơ, sổ sách). Trong số hoá, siêu dữ liệu cấu trúc giúp xác định số trang, mối liên kết logic giữa các tệp tin hình ảnh cấu thành một văn bản, hoặc các tài liệu con cấu thành một hồ sơ nghiệp vụ duy nhất.
- Siêu dữ liệu quản lý (administrative metadata): là nhóm quan trọng nhất đối với cơ quan nhà nước, tập trung vào việc quản lý vòng đời (lifecycle) và tính hợp pháp của tài liệu:
- Siêu dữ liệu kỹ thuật (technical metadata): ghi lại các thông số kỹ thuật của quá trình số hoá và tệp tin số, ví dụ: định dạng tệp (pdf/a, tiff), độ phân giải (dpi), chuẩn nén, và dung lượng tệp. Điều này đảm bảo khả năng đọc được và tính trung thực của hình ảnh số hoá so với bản gốc.
- Siêu dữ liệu bảo quản (preservation metadata): theo dõi lịch sử quản lý tài liệu trong môi trường số, bao gồm các sự kiện chuyển đổi định dạng, di chuyển hệ thống, và các kiểm tra tính toàn vẹn bằng mã hash (checksum). Đây là yếu tố cốt lõi để chứng minh tính xác thực (authenticity) của tài liệu qua thời gian.
- Siêu dữ liệu quyền và sử dụng (rights and usage metadata): quy định các hạn chế về truy cập, phân loại mật (ví dụ: mật, tối mật), và thời hạn lưu giữ (retention schedule). Nhóm này giúp hệ thống tự động thực thi các quy tắc bảo mật và quản lý hồ sơ theo luật định.
Tuỳ theo nhu cầu thực tế mà các cơ quan số hoá triển khai áp dụng một phần và sự phối hợp của các loại siêu dữ liệu trên.
2. Vai trò của siêu dữ liệu đối với tài liệu số hoá và quản lý hồ sơ điện tử
Siêu dữ liệu đóng vai trò xương sống kỹ thuật và pháp lý trong mô hình quản lý hồ sơ điện tử (electronic records management - ERM) của cơ quan nhà nước, không chỉ có vai trò của một công cụ phân loại đơn thuần.
2.1. Đảm bảo tính pháp lý và tính toàn vẹn của hồ sơ.
Trong môi trường hành chính, tài liệu số chỉ có giá trị khi nó có thể chứng minh được nguồn gốc, sự toàn vẹn và không bị thay đổi kể từ khi tạo lập.
- Siêu dữ liệu bảo quản, đặc biệt là việc ghi lại mã hash của tệp tin (file hash value) ngay sau khi số hoá, tạo ra một dấu ấn kỹ thuật duy nhất cho tài liệu. Bất kỳ thay đổi nào dù nhỏ nhất trong nội dung tệp cũng sẽ làm thay đổi mã hash, từ đó hệ thống có thể phát hiện hành vi giả mạo hoặc thay đổi trái phép. Siêu dữ liệu quản lý còn ghi lại chuỗi bảo quản (chain of custody), bao gồm tên người số hoá, ngày số hoá, và phần mềm/thiết bị đã sử dụng. Điều này là cơ sở pháp lý để chứng minh giá trị bằng chứng (evidential value) của tài liệu số trong các giao dịch hành chính và pháp luật.
2.2. Nâng cao khả năng khai thác, phân tích và ra quyết định (discovery, analysis, and decision making)
Khả năng khai thác tài liệu số không phụ thuộc vào số lượng tài liệu, mà phụ thuộc vào chất lượng siêu dữ liệu mô tả chúng.
Việc sử dụng các công cụ tìm kiếm chỉ dựa trên nội dung toàn văn (full-text search) thường dẫn đến kết quả nhiễu, không chính xác, đặc biệt với các tài liệu hành chính phức tạp. Siêu dữ liệu cung cấp các điểm truy cập có cấu trúc (structured access points), cho phép người dùng thực hiện các truy vấn phức tạp và đa chiều (ví dụ: truy vấn kết hợp nhiều điều kiện: "tất cả các quyết định của bộ A về chủ đề B có hiệu lực trong năm 2024"). Khả năng lọc chính xác này giúp cán bộ nhà nước truy xuất thông tin nhanh chóng, hỗ trợ việc tham chiếu chính sách (policy referencing) và ra quyết định kịp thời.
2.3. Tự động hóa quản lý vòng đời và tuân thủ pháp lý
Siêu dữ liệu là đầu vào cho các thuật toán quản lý hồ sơ tự động.
Các trường siêu dữ liệu như thời hạn lưu trữ (retention period) và lịch trình tiêu hủy (disposition schedule) được gắn chặt với tài liệu ngay từ khi tạo lập. Hệ thống quản lý hồ sơ có thể tự động cảnh báo, chuyển tài liệu đến kho lưu trữ điện tử, hoặc đưa vào danh sách tiêu hủy khi thời hạn hết, đảm bảo tuân thủ pháp lý (regulatory compliance) mà không cần sự can thiệp thủ công tốn kém, vốn là nguyên nhân chính gây ra rủi ro trong quản lý hồ sơ truyền thống.

Hình1: Vai trò của siêu dữ liệu trong tìm kiếm tài liệu số hoá
3. Sử dụng siêu dữ liệu trong khai thác, tìm kiếm và liên kết tài liệu chuyên sâu
Việc sử dụng siêu dữ liệu không chỉ dừng lại ở hộp tìm kiếm, mà còn là nền tảng cho các kỹ thuật tổ chức và liên kết dữ liệu phức tạp.
3.1. Kỹ thuật tìm kiếm đa chiều và bộ lọc phân tầng
Tìm kiếm đa chiều sử dụng nhiều trường siêu dữ liệu như các bộ lọc động, cho phép người dùng tinh chỉnh kết quả theo thời gian thực.
Thay vì một danh sách kết quả tuyến tính, hệ thống hiển thị các tiêu chí lọc (facets) ở bên lề, dựa trên các trường siêu dữ liệu phổ biến như cơ quan ban hành, loại văn bản, mức độ mật, và tình trạng hiệu lực. Ví dụ: khi tìm kiếm về "đầu tư công", người dùng có thể nhanh chóng lọc kết quả chỉ còn "nghị định" do "bộ kế hoạch và đầu tư" ban hành trong "hai năm gần nhất". Kỹ thuật này nâng cao đáng kể trải nghiệm người dùng (user experience) và hiệu suất làm việc.
3.2. Xây dựng bản đồ cấu trúc và hồ sơ điện tử
Siêu dữ liệu cấu trúc là chìa khóa để tổ chức các tệp tin riêng lẻ thành một hồ sơ điện tử (electronic dossier) logic và hoàn chỉnh.
Một hồ sơ thủ tục hành chính thường bao gồm nhiều loại tài liệu (đơn đăng ký, quyết định phê duyệt, biên bản kiểm tra). Siêu dữ liệu cấu trúc thiết lập mối quan hệ parent-child giữa hồ sơ và các tài liệu thành phần, đồng thời quy định thứ tự logic của các tài liệu đó. Điều này đảm bảo rằng khi hồ sơ được chuyển giao (ví dụ: từ cơ quan giải quyết sang cơ quan lưu trữ), tính toàn vẹn và ngữ cảnh của hồ sơ được bảo toàn, không bị rời rạc thành các tệp tin độc lập.
3.3. Liên kết ngữ cảnh và sơ đồ tri thức
Ứng dụng tiên tiến của siêu dữ liệu là sử dụng nó để mô tả mối quan hệ ngữ cảnh giữa các tài liệu.
Các trường siêu dữ liệu như tài liệu liên quan (related documents), sửa đổi/thay thế (amends/replaces), và tham chiếu (cites) cho phép hệ thống tạo ra một mạng lưới thông tin (information network). Điều này vượt ra khỏi tìm kiếm cơ bản để hình thành sơ đồ tri thức (knowledge graph) về chính sách và quy định. Cán bộ không chỉ tìm thấy một văn bản mà còn thấy được toàn bộ chuỗi các văn bản sửa đổi, bổ sung, hoặc liên quan, giúp hiểu rõ bối cảnh và lịch sử pháp lý của một quy định.
4. Kinh nghiệm thực tiễn quốc tế về quy định và ứng dụng siêu dữ liệu
Kinh nghiệm của các quốc gia phát triển cung cấp những bài học về cách thức ban hành, lựa chọn chuẩn, và thực thi siêu dữ liệu một cách hiệu quả trong lĩnh vực công.
4.1. Siêu dữ liệu đối với tài liệu của chính phủ Pháp (SEDA standard)
Pháp áp dụng một cách tiếp cận chặt chẽ, tập trung vào lưu trữ thông qua tiêu chuẩn trao đổi dữ liệu lưu trữ (SEDA - standard d'echange de données pour l'archivage).
- Lựa chọn chuẩn: SEDA là một tiêu chuẩn dựa trên xml, được thiết kế để chuẩn hóa việc đóng gói và chuyển giao các gói thông tin lưu trữ (aip - archival information package) giữa các hệ thống hành chính và cơ quan lưu trữ quốc gia pháp.
- Trọng tâm: siêu dữ liệu SEDA rất chi tiết, đặc biệt trong nhóm siêu dữ liệu bảo quản (preservation metadata), ghi lại mọi sự kiện trong vòng đời của tài liệu (ví dụ: sự kiện xác thực, sự kiện kiểm tra tính toàn vẹn). SEDA cũng quy định chi tiết về siêu dữ liệu quyền (rights metadata) để quản lý việc công bố và truy cập tài liệu công khai sau thời hạn bảo mật. Mục tiêu là đảm bảo rằng mọi tài liệu điện tử khi được chuyển giao vào kho lưu trữ đều có đầy đủ bằng chứng pháp lý và kỹ thuật để tồn tại qua nhiều thế hệ công nghệ. (tham khảo: archives de france, seda standard documentation).
4.2. Siêu dữ liệu đối với tài liệu của mỹ (NARA and DOD)
Chính phủ mỹ, thông qua cục lưu trữ quốc gia (NARA - national archives and records administration) và bộ quốc phòng (DOD), đã thiết lập các quy tắc nghiêm ngặt về quản lý hồ sơ điện tử.
- Lựa chọn chuẩn: nara sử dụng một phương pháp tiếp cận dựa trên chức năng (functional approach). Họ áp dụng các chuẩn mở như dublin core làm cơ sở mô tả, nhưng mở rộng với các bộ siêu dữ liệu quản lý hồ sơ riêng của nara. Đặc biệt, tiêu chuẩn DOD 5015.2 là tiêu chuẩn bắt buộc cho các hệ thống quản lý hồ sơ điện tử (erms) được sử dụng bởi các cơ quan liên bang, trong đó quy định rõ ràng các trường siêu dữ liệu cần thiết cho việc phân loại, theo dõi và tiêu hủy hồ sơ.
- Trọng tâm: mỹ tập trung vào siêu dữ liệu quản lý (administrative metadata), yêu cầu siêu dữ liệu phải được tạo lập tự động tại thời điểm tạo hồ sơ (capture metadata), bao gồm lịch trình lưu giữ (retention schedule). Điều này đảm bảo rằng việc phân loại hồ sơ và tuân thủ pháp lý được thực hiện ngay từ nguồn, giảm thiểu rủi ro hồ sơ bị thất lạc hoặc quản lý sai. (tham khảo: nara records management policy; DOD 5015.2 standard).
4.3. Siêu dữ liệu đối với tài liệu của trung quốc (GB/T standards)
Trung quốc áp dụng một chiến lược thống nhất hóa và kiểm soát tập trung các tiêu chuẩn siêu dữ liệu trên toàn quốc.
- Lựa chọn chuẩn: ban hành các tiêu chuẩn quốc gia bắt buộc (GB/T standards), ví dụ như GB/T 36066-2018 (electronic records management metadata set). Bộ siêu dữ liệu này rất chi tiết và bao phủ hầu hết các khía cạnh: nhận dạng, nội dung, ngữ cảnh, cấu trúc, an ninh và kỹ thuật.
- Trọng tâm: đảm bảo tính đồng bộ tuyệt đối giữa các cấp hành chính, tạo điều kiện cho việc tích hợp dữ liệu và luân chuyển hồ sơ điện tử trong một hệ thống chính phủ điện tử quy mô lớn. Sự thống nhất về từ vựng siêu dữ liệu được ưu tiên hàng đầu để tối ưu hóa việc liên thông dữ liệu.
4.4. Siêu dữ liệu đối với tài liệu của Úc và liên minh Châu Âu
- Úc (AGLS): chính phủ Úc sử dụng AGLS (australian government locator service), một lược đồ mở rộng từ dublin core. Agls được thiết kế để tối ưu hóa việc tìm kiếm dịch vụ công và thông tin chính phủ trên mạng internet, tập trung mạnh vào các trường mô tả dịch vụ, đối tượng người dùng, và cơ quan cung cấp.
- Liên minh Châu Âu (DCAT-AP): eu thúc đẩy DCAT-AP (data catalogue and vocabulary application profile), một tiêu chuẩn siêu dữ liệu cho các tập dữ liệu (datasets) công khai. Mục tiêu chính là tạo điều kiện cho việc chia sẻ dữ liệu mở (open data) và đảm bảo khả năng tương tác xuyên biên giới (cross-border interoperability) giữa các quốc gia thành viên thông qua một từ vựng mô tả chung về dữ liệu. (tham khảo: european commission, dcat-ap specification).
5. Các tiêu chuẩn quốc tế về siêu dữ liệu và vai trò kỹ thuật
Việc tuân thủ các tiêu chuẩn quốc tế không chỉ là vấn đề học thuật mà là điều kiện tiên quyết cho việc đảm bảo khả năng tương thích và bảo quản tài liệu số trong thời gian dài.
5.1. Dublin core
Dublin core là tiêu chuẩn siêu dữ liệu mô tả cơ bản và phổ quát nhất.
- Cấu trúc kỹ thuật: gồm 15 phần tử cốt lõi, thường được triển khai dưới dạng xml/rdf (resource description framework). Các phần tử này được xem là ngôn ngữ chung (lingua franca) để mô tả tài liệu số.
- Vai trò: cung cấp khung cơ sở cho siêu dữ liệu mô tả. Hầu hết các chuẩn siêu dữ liệu quốc gia (như agls, các lược đồ nara) đều là lược đồ mở rộng (extensions) của dublin core, bổ sung thêm các trường chuyên biệt cho nghiệp vụ hành chính và lưu trữ.
5.2. Metadata encoding and transmission standard (METS)
METS là một tiêu chuẩn đóng gói siêu dữ liệu phức hợp.
- Cấu trúc kỹ thuật: là một lược đồ xml được thiết kế để đóng gói các loại siêu dữ liệu (mô tả, cấu trúc, quản lý) và liên kết chúng với các tệp tin dữ liệu thực tế. Mets có 7 phần chính, bao gồm hành vi (behavior), cho phép định nghĩa các hành vi hoặc chức năng kỹ thuật liên quan đến đối tượng số.
- Vai trò: rất phù hợp cho các dự án số hoá lớn, nơi cần đóng gói một đối tượng lưu trữ phức tạp (ví dụ: một cuốn sổ tay có nhiều hình ảnh và một tệp văn bản ocr) thành một đơn vị thông tin duy nhất.
5.3. Preservation metadata: implementation strategies (PREMIS)
PREMIS là tiêu chuẩn chi tiết nhất và được chấp nhận rộng rãi nhất cho siêu dữ liệu bảo quản.
- Cấu trúc kỹ thuật: tập trung vào việc ghi lại đầy đủ và có cấu trúc các thông tin cần thiết để quản lý các hoạt động bảo quản. Nó định nghĩa các thực thể cốt lõi: đối tượng (object), sự kiện (event), tác nhân (agent) và quyền (rights).
- Vai trò chiến lược: premis là bằng chứng kỹ thuật về sự can thiệp và thay đổi. Ví dụ, nó ghi lại chi tiết sự kiện di chuyển định dạng (migration event) từ tệp tiff cũ sang tiff mới, bao gồm phần mềm và người thực hiện, đảm bảo tính bền vững và khả năng đọc được của tài liệu trong một môi trường công nghệ luôn thay đổi.
6. Quy định pháp lý và thực thi siêu dữ liệu tại Việt Nam
Việt Nam đã xây dựng các văn bản quy phạm pháp luật quan trọng để chuẩn hóa siêu dữ liệu, tuy nhiên vẫn cần một sự thống nhất hóa toàn diện hơn.
6.1. Siêu dữ liệu trong số hoá tài liệu lưu trữ (thông tư 10/2022/TT-BNV)
Lĩnh vực lưu trữ là lĩnh vực có quy định chi tiết và nghiêm ngặt nhất về siêu dữ liệu, chịu sự điều chỉnh của bộ nội vụ.
- Cơ sở pháp lý và phạm vi: Thông tư số 10/2022/TT-BNV quy định chi tiết về bộ siêu dữ liệu bắt buộc cho tài liệu lưu trữ điện tử, bao gồm 5 nhóm siêu dữ liệu chi tiết cho cả hồ sơ và văn bản/tài liệu trong hồ sơ.
- Đặc điểm kỹ thuật: Thông tư 10/2022/TT-BNV đã thiết lập một khung siêu dữ liệu mạnh mẽ, kết hợp giữa các yếu tố nghiệp vụ lưu trữ truyền thống (ví dụ: tên phông, số hồ sơ) với các yếu tố kỹ thuật hiện đại (ví dụ: mã định danh điện tử, định dạng tệp). Việc này đảm bảo rằng siêu dữ liệu không chỉ phục vụ tìm kiếm mà còn là công cụ nghiệp vụ quản lý vòng đời tài liệu trong các trung tâm lưu trữ quốc gia và lưu trữ các cơ quan.
6.2. Siêu dữ liệu trong số hoá giấy tờ phục vụ dịch vụ công (nghị định 45/2020/NĐ-CP)
Lĩnh vực này ưu tiên tính liên thông và chứng thực pháp lý của tài liệu được số hoá phục vụ các giao dịch hành chính.
- Cơ sở pháp lý và phạm vi: nghị định số 45/2020/NĐ-CP và các văn bản hướng dẫn của bộ thông tin và truyền thông quy định việc số hoá giấy tờ phục vụ thủ tục hành chính, tập trung vào các thông tin cần thiết để xác minh nguồn gốc và giá trị pháp lý của bản sao số.
- Trọng tâm: siêu dữ liệu phải bao gồm các trường về mã hồ sơ thủ tục hành chính, mã định danh cá nhân/tổ chức, cơ quan chứng thực, và thông tin về chữ ký số của cơ quan có thẩm quyền. Siêu dữ liệu ở đây đóng vai trò là giấy thông hành kỹ thuật cho tài liệu số khi lưu chuyển trong hệ thống thông tin giải quyết thủ tục hành chính cấp bộ, cấp tỉnh.
6.3. Siêu dữ liệu đối với các tài liệu khác và khó khăn đồng bộ
Đối với các tài liệu hành chính nội bộ, tài liệu chuyên môn của các bộ, ngành (không thuộc lưu trữ bắt buộc hoặc dịch vụ công), quy định về siêu dữ liệu vẫn còn phân tán hoặc được các cơ quan tự ban hành theo nhu cầu nội bộ.
- Thách thức: sự thiếu vắng một khung siêu dữ liệu quốc gia tổng thể dẫn đến việc các hệ thống quản lý văn bản và điều hành tại các cơ quan khác nhau sử dụng các bộ trường siêu dữ liệu không thống nhất, hoặc sử dụng các thuật ngữ mô tả khác nhau cho cùng một khái niệm. Điều này gây ra rào cản kỹ thuật lớn cho việc tích hợp và chia sẻ dữ liệu khi thực hiện các yêu cầu báo cáo hoặc liên thông giữa các cơ quan.
Kết luận
Siêu dữ liệu là yếu tố quyết định đối với sự thành công của công cuộc số hoá tài liệu và xây dựng chính phủ số tại Việt Nam. Nó không chỉ đơn thuần là mô tả mà là công cụ quản lý, pháp lý và khai thác dữ liệu. Việc hoàn thiện khung pháp lý bằng việc ban hành một khung siêu dữ liệu quốc gia tổng thể, kết hợp với đầu tư vào công nghệ tự động hóa, và tuân thủ các chuẩn quốc tế về bảo quản sẽ là chìa khóa để chuyển đổi kho tài liệu hành chính công khổng lồ thành tài sản tri thức số có giá trị pháp lý, minh bạch và khả năng khai thác bền vững.
Nguyễn Trọng Khánh