Từ tài liệu giấy đến tài sản số: quy trình số hóa tài liệu lưu trữ
Số hóa tài liệu lưu trữ là một nhiệm vụ chiến lược, cốt lõi trong tiến trình xây dựng Chính phủ số, chuyển đổi số quốc gia, và tạo lập cơ sở dữ liệu quốc gia. Bài báo này tiến hành phân tích chuyên sâu Quy trình số hóa tài liệu lưu trữ chuẩn mực được quy định tại các văn bản pháp lý hiện hành, đặc biệt là các Điều 9, 10, 11, 12 của Thông tư số 05/2025/TT-BNV và các Nghị định liên quan. Quy trình được chuẩn hóa thành 6 bước tuần tự, bao gồm: Chuẩn bị và phân loại, Chuẩn kỹ thuật trước khi số hóa, Tạo lập dữ liệu đặc tả, Ký số, Lưu trữ, bảo quản và sao lưu, và cuối cùng là Tích hợp, liên thông và khai thác dữ liệu. Mục tiêu của việc phân tích là làm rõ yêu cầu kỹ thuật, nghiệp vụ và pháp lý chi tiết của từng bước, từ đó cung cấp một cái nhìn toàn diện và chuyên sâu, giúp các cơ quan, tổ chức áp dụng thành công quy trình số hóa, đảm bảo tính pháp lý, toàn vẹn và khả năng khai thác lâu dài của tài liệu số.
Vai trò chiến lược của số hóa tài liệu lưu trữ trong kỷ nguyên số
Sự bùng nổ của thông tin và nhu cầu quản lý hành chính công hiệu quả đã đặt ra yêu cầu cấp thiết về việc chuyển đổi từ tài liệu lưu trữ vật lý sang tài liệu lưu trữ số. Trong bối cảnh Việt Nam đang đẩy mạnh chương trình chuyển đổi số quốc gia và xây dựng Chính phủ điện tử/Chính phủ số, việc số hóa tài liệu lưu trữ không chỉ là một hoạt động nghiệp vụ mà còn là một cấu phần hạ tầng quan trọng, nền tảng để tạo ra các cơ sở dữ liệu chuyên ngành và quốc gia.
Tài liệu lưu trữ, dù là tài liệu hành chính thông thường hay tài liệu có giá trị đặc biệt, đều chứa đựng những thông tin có ý nghĩa lịch sử, pháp lý và nghiệp vụ. Việc bảo quản tài liệu giấy tốn kém về không gian, dễ bị xuống cấp theo thời gian và gặp nhiều khó khăn trong việc khai thác, tìm kiếm. Số hóa là giải pháp tối ưu để giải quyết triệt để những vấn đề này, mang lại ba lợi ích cốt lõi:
- Bảo tồn vĩnh viễn: Chuyển đổi vật chất dễ hư hỏng thành định dạng số bền vững.
- Tăng cường khả năng khai thác: Cho phép tra cứu, chia sẻ và truy cập từ xa một cách nhanh chóng, minh bạch.
- Nâng cao hiệu quả quản lý: Giảm thiểu thủ tục giấy tờ, rút ngắn thời gian xử lý nghiệp vụ và hành chính công.
Nhận thức được tầm quan trọng này, Chính phủ đã ban hành nhiều văn bản quy phạm pháp luật nhằm chuẩn hóa quy trình số hóa, đảm bảo chất lượng và tính pháp lý của tài liệu điện tử. Quy trình số hóa tài liệu lưu trữ được trình bày trong bài báo này được xây dựng trên cơ sở các Điều 9, 10, 11, 12 của Thông tư số 05/2025/TT-BNV (quy định chi tiết về quản lý tài liệu lưu trữ số) và các văn bản hướng dẫn nghiệp vụ khác, tạo thành một khung khổ đồng bộ và chặt chẽ, áp dụng cho các loại tài liệu cần số hóa chưa được quy định cụ thể trong các văn bản hiện hành.
Quy trình bao gồm 6 bước rõ ràng, được thiết kế để đảm bảo sự chuyển đổi từ môi trường vật lý sang môi trường số diễn ra an toàn, chính xác và có giá trị pháp lý, từ đó kiến tạo nên tài sản số phục vụ phát triển kinh tế - xã hội.

Hình 1: Quy trình số hóa tài liệu
Bước 1. Chuẩn bị và phân loại tài liệu
Bước chuẩn bị là nền tảng quyết định sự thành công và hiệu quả của toàn bộ dự án số hóa. Việc thiếu sót trong khâu này có thể dẫn đến lãng phí nguồn lực, sai sót trong quá trình thực hiện và chất lượng tài liệu số hóa không đạt yêu cầu. Cơ quan thực hiện số hóa cần tiến hành các hoạt động sau một cách nghiêm ngặt:
1.1. Phân loại mức độ ưu tiên và Lựa chọn tài liệu số hóa
Không phải tất cả tài liệu lưu trữ đều cần được số hóa cùng một lúc. Cơ quan cần xây dựng tiêu chí phân loại ưu tiên dựa trên:
- Giá trị pháp lý và nghiệp vụ: Ưu tiên tài liệu gốc có giá trị cao, tài liệu liên quan đến thủ tục hành chính công thường xuyên được tra cứu.
- Mức độ khai thác: Tài liệu có tần suất khai thác cao (tra cứu, sử dụng) nên được số hóa trước để tối ưu hóa hiệu quả công việc.
- Tình trạng vật lý: Tài liệu đang có dấu hiệu xuống cấp, hư hỏng, dễ mất mát cần được số hóa khẩn cấp để bảo tồn thông tin.
- Quy mô và Nguồn lực: Lựa chọn quy mô số hóa phù hợp với nguồn nhân lực, thiết bị và ngân sách được cấp.
Việc đánh giá tài liệu trước khi số hóa cần tuân thủ các hướng dẫn nghiệp vụ, xem xét kỹ lưỡng tình trạng giấy (giấy ố vàng, rách, nát, mực phai), kích thước và loại hình tài liệu (văn bản, bản vẽ, ảnh, sổ sách).
1.2. Lập Kế hoạch và danh mục chi tiết
Sau khi đánh giá và lựa chọn, cần tổng hợp các hồ sơ, tài liệu quyết định số hóa và đưa vào kế hoạch thực hiện chi tiết. Kế hoạch này phải bao gồm:
- Mục tiêu, thời gian và phạm vi: Số lượng tài liệu dự kiến, thời gian hoàn thành từng giai đoạn.
- Danh mục hồ sơ tài liệu cần số hóa: Lập danh mục chi tiết đến từng hồ sơ, từng văn bản, phân công rõ trách nhiệm cho từng đơn vị, cán bộ thực hiện. Danh mục này đóng vai trò như một biên bản đối chiếu trước và sau số hóa.
- Thiết lập quy trình nội bộ: Xây dựng quy trình số hóa nội bộ rõ ràng, đảm bảo các tác vụ được thực hiện theo từng bước, có sự kiểm soát chất lượng ở các khâu quan trọng. Phân công nhân lực chịu trách nhiệm (cán bộ chuẩn bị, cán bộ quét/chụp, cán bộ kiểm tra chất lượng, cán bộ hoàn trả tài liệu gốc).
1.3. Quản lý vận chuyển/bàn giao và kiểm tra sơ bộ
Đây là khâu quan trọng để đảm bảo tính toàn vẹn của tài liệu gốc.
- Nguyên tắc bảo toàn trật tự: Khi lấy tài liệu từ kho để số hóa, phải bảo đảm tuyệt đối trật tự sắp xếp ban đầu của tài liệu lưu trữ.
- Bảo vệ tài liệu gốc: Tuyệt đối không làm hỏng tài liệu trong quá trình vận chuyển, tháo gỡ ghim, kẹp, hoặc làm phẳng tài liệu (nếu cần).
- Kiểm đếm và Biên bản: Việc giao nhận tài liệu từ kho lưu trữ đến bộ phận số hóa phải được kiểm đếm số lượng chi tiết và lập biên bản giao nhận có xác nhận của hai bên. Biên bản này là căn cứ để truy vết trách nhiệm và kiểm tra hoàn trả.
- Kiểm tra sơ bộ: Thực hiện kiểm tra sơ bộ về số lượng, tình trạng vật lý lần cuối trước khi đưa vào thiết bị quét/chụp.
Tầm quan trọng: Bước 1 tạo ra sự minh bạch về quy trình, giới hạn phạm vi công việc và đảm bảo an toàn tuyệt đối cho tài liệu lưu trữ gốc.
Bước 2. Chuẩn kỹ thuật và thực hiện số hóa
Đây là bước quyết định chất lượng kỹ thuật của tài liệu số. Việc thiết lập các thông số kỹ thuật phải tuân thủ nghiêm ngặt các tiêu chuẩn để đảm bảo tài liệu số hóa có thể khai thác và bảo quản lâu dài.
2.1. Thiết lập thông số kỹ thuật đầu ra
Thông số kỹ thuật được xác định theo mục đích sử dụng và giá trị của tài liệu:
|
Thông số
|
Tiêu chuẩn tối thiểu
|
Ghi chú và Khuyến khích
|
|
Độ phân giải (Resolution)
|
Tối thiểu 300 dpi.
|
Tối thiểu 200 dpi đối với tài liệu hành chính thông thường (tra cứu và lưu giữ ngắn/trung bình).
|
|
Định dạng tệp (File Format)
|
Ảnh quét gốc: TIFF hoặc PNG (nén không mất dữ liệu).
|
Tài liệu lưu trữ chính: PDF/A-1 hoặc PDF/A-2 (định dạng lưu trữ ISO chuẩn quốc tế).
|
|
Màu sắc (Color)
|
Văn bản thông thường: Đen trắng (B/W) hoặc Thang xám (Grayscale).
|
Bắt buộc quét màu: Tài liệu có dấu, ảnh, bút phê, hoặc yêu cầu nhận dạng thông tin sinh trắc. Khuyến khích quét màu (full color) đối với tài liệu có giá trị đặc biệt để lưu giữ toàn bộ thông tin vật lý của bản gốc (tình trạng giấy, vết ố,...) trước khi chuyển thành bản lưu trữ chính PDF/A.
|
|
Tên tệp (File Name)
|
Thiết lập theo hướng dẫn tại Mục 2.4 của văn bản hướng dẫn.
|
Tên tệp cần chứa thông tin mã hóa về hồ sơ, năm, số thứ tự để dễ dàng truy xuất.
|
- Lưu ý về PDF/A: Việc sử dụng định dạng PDF/A (Archival) là bắt buộc vì nó là tiêu chuẩn ISO đảm bảo tính ổn định và khả năng hiển thị lâu dài, loại bỏ các yếu tố dễ thay đổi (ví dụ: JavaScript, phông chữ không nhúng). Tài liệu PDF/A-2 lớp cần đảm bảo lớp ảnh (image layer) và lớp văn bản (text layer) được tách biệt, phục vụ cho việc tìm kiếm.
2.2. Thực hiện số hóa (Quét/Chụp) và nhận dạng ký tự quang học (OCR)
- Sử dụng thiết bị phù hợp: Đưa tài liệu vào máy quét phẳng, máy quét tốc độ cao, hoặc thiết bị chụp ảnh chuyên dụng phù hợp với tình trạng vật lý (ví dụ: máy quét chuyên dụng cho sách cổ, tài liệu dễ rách).
- Nhận dạng ký tự quang học (OCR): Đây là bước cực kỳ quan trọng đối với văn bản in, nhằm tạo ra lớp văn bản có thể tìm kiếm được (searchable text layer) trong tệp PDF/A.
- Ngôn ngữ: Bắt buộc thực hiện OCR tiếng Việt.
- Độ chính xác: Độ chính xác tối thiểu là 98% trên tổng số ký tự của tài liệu được kiểm tra bằng công cụ hoặc xác suất. Yêu cầu này đòi hỏi sự đầu tư vào các công nghệ OCR tiên tiến, có khả năng xử lý các phông chữ, định dạng và chất lượng in khác nhau của tài liệu Việt Nam.
2.3. Xử lý ảnh và kiểm tra sơ bộ chất lượng
Sau khi quét, cần tiến hành xử lý và kiểm tra chất lượng để đảm bảo tài liệu số hóa đáp ứng tiêu chuẩn.
- Xử lý ảnh tự động: Bao gồm các tác vụ như: tự động kiểm tra và hiệu chỉnh độ nghiêng, loại bỏ độ mờ, xóa viền đen hoặc các vùng trống không mong muốn.
- Kiểm tra chất lượng (QC): So sánh ảnh quét với tài liệu lưu trữ gốc.
- Kiểm tra tính đầy đủ: Đảm bảo không thiếu trang, không trùng lặp trang.
- Kiểm tra tính rõ nét: Ảnh phải rõ ràng, dễ đọc, không bị lỗi màu, lỗi sọc, hoặc quá tối/quá sáng.
- Xử lý lỗi: Nếu tài liệu số hóa không đạt yêu cầu, phải thực hiện hiệu chỉnh cấu hình máy quét hoặc chuyển đổi phương pháp số hóa lại tài liệu (ví dụ: chuyển từ quét tốc độ cao sang chụp ảnh nếu tài liệu quá mỏng/rách).
2.4. Hoàn trả tài liệu gốc
Ngay sau khi hoàn thành số hóa và kiểm tra chất lượng, tài liệu gốc phải được trả về kho lưu trữ:
- Kiểm đếm và Kiểm tra: Kiểm đếm số lượng tài liệu và kiểm tra tình trạng vật lý của chúng (đảm bảo không bị hư hại) khi trả lại.
- Ghi Biên bản: Lập biên bản hoàn trả có xác nhận và vận chuyển tài liệu lưu trữ gốc về kho bảo quản theo đúng trật tự sắp xếp ban đầu.
Tầm quan trọng: Bước 2 đảm bảo tài liệu số được tạo ra có chất lượng kỹ thuật cao nhất, phục vụ cả mục đích khai thác hiện tại và bảo quản vĩnh viễn trong tương lai.
Bước 3. Tạo lập dữ liệu đặc tả (metadata)
Dữ liệu đặc tả (Metadata) là dữ liệu mô tả về dữ liệu, có vai trò cực kỳ quan trọng, là chìa khóa để tổ chức, tìm kiếm, quản lý và khai thác tài liệu số. Một tài liệu được số hóa nhưng không có Metadata hoàn chỉnh sẽ trở thành một "bãi rác số" không thể truy cập hiệu quả.
3.1. Khái niệm và vai trò của Metadata
Metadata được chia thành ba loại chính, đều phải được tạo lập cho tài liệu số hóa:
- Metadata Mô tả (Descriptive Metadata): Thông tin về nội dung của tài liệu (Tên hồ sơ/văn bản, Tác giả, Thời gian ban hành, Chủ đề, Từ khóa). Giúp người dùng tìm kiếm và xác định nội dung.
- Metadata Cấu trúc (Structural Metadata): Thông tin về mối quan hệ giữa các phần của tài liệu (Số trang, Thứ tự các tệp tin trong một hồ sơ). Giúp hệ thống quản lý và trình bày tài liệu theo đúng cấu trúc gốc.
- Metadata Quản trị (Administrative Metadata): Thông tin về nguồn gốc và quy trình quản lý tài liệu (Ngày số hóa, Người số hóa, Định dạng tệp, Tình trạng bản gốc). Đảm bảo tính toàn vẹn và giá trị pháp lý.
Đối với số hoá tài liệu, cần xây dựng metadata mô tả.
3.2. Tuân thủ chuẩn thông tin đầu vào
Đối với việc số hóa các loại văn bản phục vụ văn bản đi, văn bản đến, dữ liệu đặc tả bắt buộc phải tuân thủ nghiêm ngặt quy định chuẩn thông tin đầu vào của hệ thống quản lý văn bản và hồ sơ. Cụ thể, cần tuân thủ Phần II, Phụ lục VI Nghị định số 30/2020/NĐ-CP quy định về công tác văn thư.
Các trường Metadata tối thiểu cần có, bao gồm nhưng không giới hạn:
- Thông tin về Văn bản đi/đến: Số ký hiệu, Ngày tháng, Cơ quan ban hành, Trích yếu nội dung, Độ mật/khẩn.
- Thông tin về Hồ sơ: Tiêu đề hồ sơ, Số và Ký hiệu hồ sơ, Thời hạn bảo quản.
- Thông tin Số hóa: Ngày số hóa, Thiết bị số hóa, Mã nhận dạng duy nhất của tài liệu số (UUID).
3.3. Quy trình Tạo lập Metadata
Quy trình tạo lập Metadata cần được chuẩn hóa, ưu tiên sử dụng công cụ tự động nhưng phải có bước kiểm tra, bổ sung thủ công:
- Thu thập Metadata từ bản gốc: Trích xuất các thông tin hành chính có sẵn trên tài liệu gốc (số, ký hiệu, ngày, trích yếu).
- Tự động tạo lập (từ OCR): Sử dụng kết quả OCR để tạo ra các trường dữ liệu tìm kiếm như từ khóa, trích yếu.
- Gán Metadata Quản trị: Tự động ghi lại các thông số kỹ thuật (độ phân giải, định dạng) và thông tin quy trình (người số hóa, ngày số hóa).
- Kiểm tra và Chuẩn hóa: Kiểm tra độ chính xác của Metadata, đảm bảo các trường dữ liệu tuân thủ chuẩn định dạng (ngày tháng, tên cơ quan) trước khi nhúng vào tệp tin hoặc ghi vào cơ sở dữ liệu.
Tầm quan trọng: Bước 3 biến tài liệu số hóa thành dữ liệu có cấu trúc, có thể tìm kiếm và trao đổi, là yếu tố then chốt cho mọi hoạt động khai thác sau này.
Bước 4. Ký số (chữ ký điện tử)
Ký số là bước nghiệp vụ bắt buộc để gán giá trị pháp lý của tài liệu điện tử cho tài liệu đã được số hóa, đảm bảo tính toàn vẹn và chống chối bỏ.
4.1. Căn cứ pháp lý và yêu cầu giá trị pháp lý
Theo Luật Giao dịch điện tử, tài liệu điện tử (bao gồm tài liệu số hóa) chỉ có giá trị pháp lý tương đương bản gốc giấy khi đáp ứng các điều kiện về tính toàn vẹn của thông tin và khả năng nhận diện người khởi tạo. Ký số chính là cơ chế kỹ thuật để đáp ứng yêu cầu này.
- Yêu cầu: Đối với dữ liệu yêu cầu giá trị pháp lý của tài liệu điện tử (được sử dụng để thay thế bản gốc giấy trong các giao dịch, thủ tục hành chính), cần thực hiện ký số của đơn vị thực hiện số hóa hoặc người có thẩm quyền lên bản điện tử được tạo lập.
4.2. Thông số kỹ thuật của chữ ký số
Để đảm bảo tính hợp lệ và khả năng kiểm tra của chữ ký số, các thông tin sau phải được hiển thị rõ ràng trên tệp tin tài liệu số hóa:
- Thông tin hiển thị: Tên cơ quan/cá nhân thực hiện ký số và thời gian ký (ngày, tháng, năm; giờ, phút, giây; múi giờ Việt Nam).
- Vị trí hiển thị: Góc trên, bên phải, trang đầu tệp tin tài liệu số hóa. Vị trí cố định này giúp các hệ thống tự động nhận diện và kiểm tra tính hợp lệ của chữ ký một cách đồng bộ.
- Định dạng chữ ký: Chữ ký số phải được nhúng vào tệp tin theo chuẩn quy định (ví dụ: PAdES cho PDF, CAdES cho các tệp tin khác).
4.3. Quy trình ký số và kiểm tra
Quy trình Ký số phải được thực hiện sau khi tài liệu đã hoàn thành các bước số hóa, tạo lập Metadata và kiểm tra chất lượng:
- Xác định người/cơ quan ký: Xác định chữ ký số của cá nhân có thẩm quyền hoặc chữ ký số của cơ quan (dấu điện tử) sẽ được sử dụng.
- Thực hiện ký số: Hệ thống ký số sẽ tính toán hàm băm (hash value) của tài liệu và mã hóa bằng khóa bí mật của người ký, sau đó nhúng chữ ký cùng với thông tin hiển thị (tên, thời gian, vị trí) vào tệp tin.
- Kiểm tra tính hợp lệ: Kiểm tra ngay sau khi ký số để đảm bảo chữ ký không bị lỗi, được hiển thị đúng vị trí và có thể xác minh được bằng khóa công khai (public key) của cơ quan cấp chứng thư số.
Tầm quan trọng: Bước 4 biến tài liệu số hóa từ một bản sao kỹ thuật số thành một tài liệu điện tử có giá trị pháp lý, đủ điều kiện để thay thế và khai thác trong các nghiệp vụ hành chính.
Bước 5. Lưu trữ, bảo quản và sao lưu
Sau khi hoàn tất quá trình tạo lập và ký số, tài liệu số hóa cần được đưa vào môi trường lưu trữ chuyên dụng để đảm bảo an toàn, bảo mật và khả năng truy cập lâu dài.
5.1. Hệ thống Quản lý Tài liệu Lưu trữ Số
Tài liệu lưu trữ số hóa phải được lưu giữ trên một hệ thống chuyên biệt, được gọi là Hệ thống quản lý tài liệu lưu trữ số, tuân thủ nghiêm ngặt các quy định tại Mục 2 Chương IV Nghị định số 113/2025/NĐ-CP và Chương V Thông tư số 05/2025/TT-BNV.
- Yêu cầu về Hệ thống: Hệ thống phải đạt cấp độ an toàn hệ thống thông tin theo quy định của Bộ Thông tin và Truyền thông. Điều này bao gồm các biện pháp bảo mật về vật lý, mạng, ứng dụng và dữ liệu.
5.2. Đóng gói văn bản điện tử (gói tin lưu trữ chuẩn)
Việc đưa tài liệu vào hệ thống không chỉ đơn thuần là sao chép tệp tin. Đối với tài liệu lưu trữ, việc đóng gói phải theo cấu trúc gói tin lưu trữ chuẩn được quy định tại Phụ lục I Thông tư 05/2025/TT-BNV.
- Cấu trúc Gói tin: Gói tin lưu trữ là một tập hợp có cấu trúc, bao gồm:
- Tệp tin tài liệu số hóa (PDF/A, TIFF, PNG...).
- Tệp tin Metadata mô tả (thường là XML) chứa toàn bộ thông tin đặc tả của tài liệu.
- Tệp tin kiểm tra tính toàn vẹn (ví dụ: tệp chứa hàm băm - hash/checksum) để xác nhận tài liệu không bị thay đổi.
- Các thông tin quản trị khác.
- Mục đích: Việc đóng gói chuẩn giúp hệ thống dễ dàng quản lý, kiểm tra tính toàn vẹn, và đảm bảo khả năng chuyển giao giữa các hệ thống lưu trữ khác nhau trong tương lai (Interoperability).
5.3. Bảo mật thông tin và xử lý tài liệu mật
Yếu tố bảo mật là tối thượng, đặc biệt đối với tài liệu có độ nhạy cảm cao:
- Phân quyền truy cập: Phải áp dụng cơ chế phân quyền truy cập nghiêm ngặt dựa trên vai trò và nhu cầu nghiệp vụ của người dùng.
- Tài liệu Mật: Việc lưu trữ, bảo quản tài liệu mật (tài liệu được phân loại theo Luật Bảo vệ bí mật nhà nước) phải thực hiện theo quy định chuyên biệt của Bộ Công an đối với tài liệu mật, bao gồm việc mã hóa dữ liệu, lưu trữ trên các hệ thống cách ly hoặc có mức độ bảo mật cao hơn.
5.4. Sao lưu (Backup)
Sao lưu là biện pháp phòng ngừa rủi ro cuối cùng, đảm bảo khả năng khôi phục dữ liệu khi xảy ra sự cố (thiên tai, hỏa hoạn, tấn công mạng).
- Quy tắc tối thiểu: Tài liệu lưu trữ số và cơ sở dữ liệu phải được sao lưu ít nhất hai bộ trên phương tiện lưu trữ độc lập.
- Phương tiện độc lập: Sao lưu trên các thiết bị, hệ thống hoặc địa điểm khác nhau (ví dụ: một bản sao lưu tại chỗ, một bản sao lưu ngoài cơ sở - off-site backup) để tuân thủ nguyên tắc 3-2-1 của sao lưu (3 bản sao, trên 2 loại phương tiện khác nhau, 1 bản sao ngoài cơ sở).
Tầm quan trọng: Bước 5 đảm bảo sự tồn tại vĩnh viễn của tài liệu số trong một môi trường an toàn, có khả năng phòng chống mọi rủi ro về vật lý và công nghệ.
Bước 6. Tích hợp, liên thông và khai thác dữ liệu
Mục tiêu cuối cùng của số hóa không phải là tạo ra tệp tin, mà là khai thác giá trị của dữ liệu. Bước này tập trung vào việc kết nối kho dữ liệu số hóa với các hệ thống khác để phục vụ hoạt động công vụ và giao dịch điện tử.
6.1. Tích hợp và liên thông dữ liệu
Dữ liệu số hóa khi được đưa vào kho phải được chuẩn bị để kết nối với các hệ thống khác, tạo điều kiện cho việc chia sẻ thông tin một cách thông suốt.
- Tuân thủ Nghị định 194/2025/NĐ-CP: Việc kết nối phục vụ chia sẻ dữ liệu phải tuân thủ quy định tại Điều 20, Nghị định 194/2025/NĐ-CP (quy định chi tiết về cơ sở dữ liệu quốc gia, kết nối và chia sẻ dữ liệu, dữ liệu mở phục vụ giao dịch điện tử của cơ quan nhà nước).
- Vai trò của Hệ thống Trung gian: Dữ liệu sẽ được kết nối thông qua các Hệ thống trung gian trong kết nối phục vụ chia sẻ dữ liệu (ví dụ: Nền tảng tích hợp, chia sẻ dữ liệu quốc gia - NDXP) để đảm bảo tính an toàn và đồng bộ về giao thức.
6.2. Công bố đặc tả dịch vụ (API)
Để các cơ quan khác có thể khai thác, cơ quan chủ quản kho dữ liệu số hóa có trách nhiệm công bố tài liệu kỹ thuật về cách thức truy cập:
- Lập tài liệu kỹ thuật: Lập tài liệu mô tả dịch vụ (Service Description/API Documentation), bao gồm các giao thức, định dạng dữ liệu (JSON/XML), và cơ chế xác thực.
- Phối hợp công bố: Phối hợp với cơ quan quản lý Hệ thống trung gian để công bố đặc tả dịch vụ (API Specifications) cho các cơ quan có liên quan khai thác, sử dụng. Điều này đảm bảo tính tương thích và minh bạch trong việc sử dụng dữ liệu.
6.3. Khai thác tài liệu số hóa
Tài liệu số hóa có thể được khai thác theo nhiều hình thức khác nhau:
- Sử dụng tài liệu lưu trữ số (Tuân thủ Thông tư 05/2025/TT-BNV): Việc sử dụng tài liệu lưu trữ số phải tuân thủ các quy định tại Chương VI Thông tư số 05/2025/TT-BNV, bao gồm các quy tắc về việc cấp bản sao, xác thực thông tin và bảo vệ quyền riêng tư.
- Thay thế văn bản giấy trong thủ tục hành chính: Đối với các loại tài liệu số hóa đã được ký số và có giá trị pháp lý, chúng có thể phục vụ tra cứu tham khảo hoặc thay thế hoàn toàn văn bản giấy trong các thủ tục hành chính, nghiệp vụ hành chính. Giá trị pháp lý của tài liệu số hóa là yếu tố quyết định khả năng thay thế này.
- Kết nối Hệ thống:
- Các hệ thống nội bộ trong cùng phạm vi cơ quan kết nối trực tiếp đến kho dữ liệu lưu trữ tài liệu số hóa.
- Các hệ thống bên ngoài kết nối thông qua các hệ thống trung gian phục vụ mục đích chia sẻ dữ liệu, tạo thành một mạng lưới thông tin liên thông, phục vụ Chính phủ số.
Tầm quan trọng: Bước 6 là sự chuyển hóa của chi phí và công sức số hóa thành lợi ích thực tế: hiệu quả hành chính, sự minh bạch và nguồn dữ liệu lớn.
Thách thức và kiến nghị
Mặc dù quy trình số hóa đã được chuẩn hóa, việc triển khai trên thực tế vẫn đối mặt với nhiều thách thức, đặc biệt khi yêu cầu khối lượng lớn và chất lượng cao (DPI 300, OCR 98%, PDF/A).
3.1. Thách thức
- Chất lượng tài liệu gốc và công đoạn tiền số hóa: Tài liệu lưu trữ thường có tình trạng vật lý kém (rách nát, ố vàng, mực nhòe). Việc xử lý, làm sạch và chuẩn bị tài liệu (Bước 1) là công đoạn tốn kém và đòi hỏi kinh nghiệm, quyết định đến khả năng đạt chuẩn kỹ thuật (Bước 2).
- Yêu cầu kỹ thuật nghiêm ngặt: Tiêu chuẩn 300 dpi và định dạng PDF/A-2 đòi hỏi thiết bị quét chuyên dụng, công nghệ xử lý ảnh chất lượng cao và dung lượng lưu trữ lớn. Chuẩn OCR tiếng Việt với độ chính xác 98% là một thách thức công nghệ, cần sự đầu tư vào các thuật toán học máy (Machine Learning) để nhận dạng chữ viết tay hoặc chữ in không chuẩn.
- Chi phí và nguồn lực: Số hóa là một dự án đầu tư lớn về thiết bị, phần mềm (OCR, Metadata Management System, Archival System) và nhân công. Việc duy trì chất lượng và quy mô trong một dự án dài hơi đòi hỏi cam kết tài chính bền vững.
- Bảo mật và tính pháp lý (Ký số và Lưu trữ): Đảm bảo an toàn hệ thống thông tin đạt cấp độ an toàn theo quy định, đặc biệt là việc xử lý tài liệu mật, là một yêu cầu kỹ thuật và pháp lý phức tạp.
3.2. Kiến nghị
- Chuẩn hóa đào tạo chuyên sâu: Cần có chương trình đào tạo chuyên sâu về nghiệp vụ tiền số hóa (xử lý tài liệu vật lý) và hậu số hóa (tạo lập Metadata, kiểm tra chất lượng file PDF/A), đặc biệt là kỹ năng sử dụng các công cụ tự động.
- Đầu tư công nghệ và phần mềm: Ưu tiên đầu tư vào các hệ thống phần mềm tự động hóa quy trình (Business Process Automation - BPA) để giảm thiểu can thiệp thủ công, đặc biệt là trong khâu tạo lập Metadata (Bước 3) và kiểm tra chất lượng OCR (Bước 2).
- Xây dựng kho dữ liệu tập trung và chia sẻ dữ liệu (API): Thay vì mỗi cơ quan xây dựng một kho dữ liệu riêng lẻ, nên hướng tới mô hình kho dữ liệu tập trung, cho phép tích hợp và liên thông dễ dàng (Bước 6), từ đó tối ưu hóa chi phí hạ tầng và thúc đẩy việc khai thác, chia sẻ dữ liệu chung cho cả quốc gia.
Kết luận
Quy trình số hóa tài liệu lưu trữ theo Thông tư số 05/2025/TT-BNV và các văn bản hướng dẫn liên quan là một khung khổ nghiệp vụ và kỹ thuật tiên tiến, đáp ứng yêu cầu của Chính phủ số. Sự thành công của quy trình này phụ thuộc vào việc tuân thủ nghiêm ngặt từng bước trong chuỗi 6 bước: từ khâu chuẩn bị tài liệu vật lý, thiết lập các thông số kỹ thuật nghiêm ngặt (300 dpi, PDF/A-2, OCR 98%), tạo lập Metadata chuẩn hóa theo Nghị định 30, thực hiện Ký số để đảm bảo giá trị pháp lý, đến việc Lưu trữ an toàn trên Hệ thống quản lý tài liệu lưu trữ số đạt chuẩn bảo mật và cuối cùng là Tích hợp, liên thông dữ liệu để phục vụ khai thác rộng rãi.
Việc triển khai thành công quy trình này sẽ giúp chuyển đổi hàng triệu tài liệu giấy có giá trị thành tài sản số bền vững, dễ dàng truy cập, và là nguồn lực cốt lõi để xây dựng các cơ sở dữ liệu quốc gia và nâng cao hiệu quả quản trị hành chính công. Đây là một hành trình dài hơi, đòi hỏi sự cam kết về chính sách, đầu tư về công nghệ và sự chuyên nghiệp về nghiệp vụ của toàn bộ hệ thống hành chính.
Nguyễn Trọng Khánh
Tài liệu tham khảo:
- Thông tư số 05/2025/TT-BNV: Quy định về quản lý tài liệu lưu trữ số.
- Nghị định số 30/2020/NĐ-CP: Về công tác văn thư (Phụ lục VI).
- Nghị định số 113/2025/NĐ-CP: Quy định về Hệ thống quản lý tài liệu lưu trữ số.
- Nghị định số 194/2025/NĐ-CP: Quy định chi tiết một số điều của Luật Giao dịch điện tử về cơ sở dữ liệu quốc gia, kết nối và chia sẻ dữ liệu, dữ liệu mở.
- ISO 19005 (PDF/A Standards).