Các bước đơn giản để cung cấp dữ liệu của cơ quan nhà nước
Cách nhanh nhất và dễ nhất để cung cấp dữ liệu trên môi trường số là việc trích xuất dữ liệu ở dạng thô. Tuy nhiên, dữ liệu nên được ở dạng có cấu trúc để cho phép mọi người có thể sử dụng dữ liệu một cách tự động. Các định dạng hoặc có cấu trúc phổ biến bao gồm XML, RDF và CSV. Các định dạng mà chỉ cho phép người dùng được xem, thay vì trích xuất (ví dụ: hình ảnh của dữ liệu) là không hữu ích và không nên áp dụng. Tiếp đến, cần phải tạo một danh mục trực tuyến các dữ liệu thô (công bố cùng với tài liệu) để mọi người có thể khám phá những dữ liệu và thông tin đã được đăng tải. Các tập dữ liệu thô này cần có cấu trúc và số liệu tin cậy, nếu không đảm bảo được điều này thì tính hữu dụng của dữ liệu sẽ bị hạn chế. Việc đăng tải các dữ liệu thô với một danh mục trực tuyến là một bước khởi động rất quan trọng cho các mốc phát triển tiếp theo. Ở bước cuối cùng, là việc làm cho dữ liệu có thể đọc được bằng con người và bằng máy móc có thể thông qua việc:
- Làm phong phú thêm các tài nguyên HTML(X) hiện có với ngữ nghĩa (semantics), dữ liệu đặc tả (metadata) và số định danh (identifiers);
- Mã hóa dữ liệu bằng cách sử dụng các tiêu chuẩn của nghành và tiêu chuẩn mở - đặc biệt là XML - hoặc tạo các tiêu chuẩn riêng dựa trên các ngôn ngữ thuật ngữ đặc thù;
- Làm cho dữ liệu có thể đọc được (human-readable) bằng cách chuyển đổi sang (X) HTML hoặc bằng cách sử dụng các công cụ chuyển đổi theo thời gian thực thông qua CSS hoặc XSLT;
- Sử dụng các mẫu cấu trúc có tính dài hạn và có thể tìm kiếm được bằng "Cool URIs";
- Cho phép trích dẫn điện tử dưới dạng siêu liên kết được chuẩn hóa (liên kết neo /id hoặc liên kết XLINK/XPointers).
Các bước này sẽ giúp mọi người dễ dàng tìm kiếm, sử dụng, trích dẫn và hiểu về dữ liệu. Danh mục dữ liệu nên giải thích về các quy tắc, yêu cầu, quy định phải tuân thủ trong việc sử dụng tập dữ liệu. Ngoài ra, việc cung cấp dữ liệu cần phải có cấu trúc để các bên thứ ba có thể dễ dàng trích xuất dữ liệu. Đồng thời cung cấp định dạng như RSS để nhanh chóng và dễ dàng quảng bá các bộ dữ liệu mới được cung cấp.
Định danh các đối tượng
Khả năng định danh đối tượng bằng URI/URL là nền tảng của Internet. Các thực tiễn thành công nhất đối với "dữ liệu chính phủ mở" phụ thuộc vào việc áp dụng kiến trúc được mô tả trong Kiến trúc của World Wide Web. Nếu chúng ta có khả năng cung cấp URI/URL tồn tại lâu dài, theo mẫu và những địa chỉ có khả năng tìm kiếm đến tài nguyên dữ liệu mà chúng ta cung cấp thì quy trình và mọi người sẽ dễ dàng tìm kiếm và sử dụng dữ liệu. URI/URL có thể được sử dụng trong cơ sở dữ liệu và dữ liệu đặc tả dưới dạng mã định danh phổ quát và duy nhất (ví dụ như bằng cách nối dãy số sê-ri hoặc đặt các tên nội bộ vào địa chỉ tên miền: http://www.example.gov/objects/optional-hierarchy/serial12345678.html). Sử dụng ID nội bộ để chỉ ra các dữ liệu cụ thể để có thể tái sử dụng bằng máy đọc (ví dụ: http://www.census.gov/main/www/popclock.html). Bằng cách sử dụng URI và kết hợp các liên kết nội bộ bên trong các tệp hoặc tài liệu có quy mô lớn giúp mọi người có thể trích dẫn thông tin một cách dễ dàng trên các trang thông tin riêng.
Tài liệu mô tả và các dữ liệu có tính liên kết
Nếu không có các văn bản đi kèm, dữ liệu sẽ trở nên ít hữu ích. Các mô tả tập dữ liệu tối thiểu cần phải chỉ ra tiêu đề, mô tả, ngày cung cấp và nguồn cung cấp của đơn vị có thẩm quyền đối với dữ liệu. Sử dụng ngôn ngữ rõ ràng, có tính liên kết đến các thông tin liên quan để giúp người dùng hiểu được ngữ cảnh của dữ liệu. Trong phạm vi cung cấp tốt hơn, có thể ghi lại đầy đủ thông tin mô tả về mốc đo lường và tiêu chuẩn dữ liệu, tính xác thực của dữ liệu (ví dụ như nếu mốc đo lường là nhiệt độ thì cần giải thích các tiêu chuẩn liên quan ví dụ như Celsius, Fahrenheit hoặc Kelvin). Cũng như tận dụng đối với các tiêu chuẩn để mô tả các tập dữ liệu, kèm với các công cụ tìm kiếm, phương pháp ReSTful để lấy dữ liệu nếu điều này khả dụng.
Hình ảnh 1: Quy trình tham khảo về 6 bước để mở dữ liệu
Bước tiếp theo vượt qua phạm vi của dữ liệu thô là dữ liệu được liên kết một cách đầy đủ. Nói cách khác, dữ liệu thô có thể được liên kết đến dữ liệu và tài liệu khác ví dụ như tiêu chuẩn RDF có thể giúp chúng ta liên kết các dữ liệu của mình. Có bốn kỳ vọng cho dữ liệu được liên kết gồm: URI là tên cho đối tượng; HTTP URI giúp mọi người tìm thấy những đối tượng; Khi một người tra cứu URI, họ sẽ tìm thấy thông tin hữu ích; và các liên kết trong dữ liệu của chúng ta với các URI khác giúp mọi người khám phá thêm những điều liên quan. Sử dụng URI như được mô tả cung cấp cho một mạng lưới dữ liệu phong phú và có tính kết nối, dễ dàng hơn cho mọi người tìm kiếm và sử dụng. Tuy nhiên, nhiều cơ sở dữ liệu không xây dựng URIs, mà thay vào đó sử dụng các số nhận dạng duy nhất được quy định nội bộ. Để liên kết dữ liệu này với các dữ liệu lớn hơn trên môi trường mạng, chúng ta cần sử dụng các hệ thống có thể dự đoán hoặc xây dựng URI trước khi cung cấp dữ liệu.
Đảm bảo dữ liệu được tồn tại lâu dài và tính trực quan hóa
Bảo quản dữ liệu đã được cung cấp được xem là một mối quan tâm hàng đầu của các chính phủ. Vậy, câu hỏi đặt ra: “Làm thế nào để có thể đảm bảo rằng dữ liệu có thể tìm thấy được và có thể được tham chiếu bất cứ khi nào mọi người vẫn cần đến tài liệu đó? Làm được việc này, mọi người có thể tiếp tục trích dẫn các dữ liệu cũ tại URI công bố lần đầu sau nhiều thập kỷ kể từ khi dữ liệu được xuất bản lần đầu”. Để duy trì lịch sử của tập dữ liệu cần tiếp cận theo hướng tích hợp URI mới cho các tập dữ liệu mới và được cập nhật, đồng thời cấu trúc URI một cách phù hợp. Sử dụng việc chỉ ra các phiên bản của tập dữ liệu để mọi người có thể trích dẫn và liên kết đến các phiên bản hiện tại và trước đây của dữ liệu. Bộ dữ liệu mới và được cập nhật có thể tham chiếu tới các tập dữ liệu gốc. Việc mô tả lại sự thay đổi giữa các phiên bản, các mã số của các phiên bản là cần thiết, đồng thời xem xét các định dạng với tiêu chuẩn định dạng mở cho các tập dư liệu.
Nếu chúng ta muốn mọi người dễ dàng khám phá dữ liệu đã cung cấp, một số tiêu chuẩn W3C là phương án hữu ích cần xem xét. Có thể làm cho dữ liệu thuận tiện cho người đọc (human-readable) bằng cách sử dụng XSLT cho các định dạng dựa trên XML và RDF. Làm cho các trang web có thể đọc được bằng máy thông qua việc nhúng thông tin ngữ nghĩa vào HTML, sử dụng RDFa hoặc Microformats. Nếu như việc thêm các kiểu XSL hoặc CSS vào dữ liệu cũ là khó khăn, chúng ta có thể mô tả việc chuyển đổi dữ liệu bằng công cụ XSLT (ví dụ như tham khảo công cụ tại http://www.xmldatasets.net). Những người dùng dữ liệu bên ngoài có thể tạo ra các giao diện mới và sáng tạo mà các nhà cung cấp dữ liệu không biết đến. Do đó, cần phải duy trì và đảm bảo tính toàn vẹn của dữ liệu. Nếu chung ta cung cấp việc hiển thị dữ liệu trực quan thì vẫn đảm bảo việc cung cấp dữ liệu tách biệt với giao diện và đảm bảo người dùng có quyền truy cập trực tiếp vào dữ liệu thô để mọi người có thể xây dựng việc trực quan hóa dữ liệu theo đúng ý người dùng. Ngoài ra, vì tất cả các tài liệu web sử dụng (X)HTML, XML và RDF có thể được sử dụng như một cơ sở dữ liệu đối tượng hoặc API ReSTful, mọi người có thể tạo phần mềm, ứng dụng Web và phối kết hợp các bộ dữ liệu với nhau để tạo ra các phiên bản mới. Hai ngôn ngữ tiêu chuẩn W3C giúp điều này trở nên khả thi là XQuery và SPARQL. Khi dữ liệu được cung cấp, cơ quan nhà nước cũng có thể tạo ra một giao diện minh bạch, thân thiện với người dùng để cho phép người dùng tùy chỉnh thông tin mà họ quan tâm.
Có một số định danh duy nhất cho các cơ quan nhà nước đã đăng ký cũng là điều quan trọng. Ngoài việc sử dụng các tiêu chuẩn mở, cần nỗ lực để lập ra danh mục có thể tham chiếu đến tất cả các cơ quan nhà nước, công chức và các đối tượng. Các URI sau này có thể được sử dụng đối với tất cả các dữ liệu giúp nâng cao khả năng khám phá, cải thiện dữ liệu đặc tả và đảm bảo tính xác thực.
Chọn dữ liệu và định dạng để công bố
Tất cả dữ liệu có khả năng chia sẻ cho cá nhân, tổ chức, doanh nghiệp cần được mở cho mọi người tiết cận một cách công khai. Dữ liệu nên được công bố tuân thủ theo các quy định và luật pháp hiện hành và chỉ sau khi giải quyết các vấn đề liên quan đến bảo mật và quyền riêng tư. Trước tiên là việc công bố tất cả các dữ liệu đã có sẵn ở các định dạng khác (ví dụ như tập in). Việc cung cấp các dữ liệu có cấu trúc và tài liệu dạng văn bản, cung cấp các luật, quy định và các tài liệu công khai liên quan đến sứ mệnh, tầm nhìn, giá trị và mục tiêu của cơ quan nhà nước.
Có nhiều tiêu chuẩn cho các tài liệu này ví dụ như StratML, XBRL và các tiêu chuẩn khác. Việc sử dụng các tiêu chuẩn cho phép các bên liên quan dễ dàng khám phá và cung cấp phản hồi về các mục mà người dùng quan tâm. Việc tạo và cung cấp các tài liệu mới ở các định dạng tiêu chuẩn khác nhau dễ dàng hơn so với việc điều chỉnh những định dạng hiện có. Khi chúng ta tạo các tài liệu mô tả cho dữ liệu nên bao gồm và tham chiếu lược đồ XML, DTD và cách phân loại. Giải thích về cách khai phá các tập dữ liệu, đồng thời sử dụng các tiêu chuẩn và công cụ để thông báo các nội dung bổ sung, sửa đổi. Cung cấp tài liệu một cách đầy đủ sẽ giúp cho việc tự động khai thách, truy cấn dữ liệu cũng như tìm kiếm dữ liệu được dễ dàng.
Có nhiều định dạng dữ liệu khác nhau, định dạng cơ bản cho dữ liệu thuận lợi cho người đọc như là (X)HTML. Dữ liệu thô được tạo ra bằng cách sử dụng các định dạng được tùy chỉnh theo các trường hợp cụ thể tùy theo các công cụ hoặc tiêu chuẩn ngành. W3C là tổ chức tiên phong trong định dạng XML và RDF. Các tệp RDF và XML có thể được truy cập như cơ sở dữ liệu, sử dụng SPARQL, XQuery, JavaScript và nhiều ngôn ngữ máy tính khác. Ngoài ra, trong phạm vi có thể triển khai, việc sử dụng các tiêu chuẩn mở và dữ liệu được liên kết cần được quan tâm.
Tổ chức thực hiện chính sách
Việc xác định một cơ quan duy nhất được giao thẩm quyền để giải quyết các bất cập và đảm bảo tuân thủ các biện pháp dữ liệu mở là nội dung nên làm. Một điều cũng cần nhấn mạnh là việc tạo ra cơ quan giám sát không nhất thiết phải thuê nhân viên mới. Trách nhiệm có thể được phân phối giữa các cơ quan thông qua các buổi họp mặt, trao đổi nhằm nâng cao sự đồng thuận với các nỗ lực thúc đẩy dữ liệu mở. Chỉ định một cơ quan có thẩm quyền là một bước quan trọng để đảm bảo rằng chính sách dữ liệu mở có thể được thực thi và giải quyết các rào cản không lường trước được trong quá trình thực hiện. Các cơ quan giám sát nên được tiến hành công việc một cách độc lập và công khai.
Các chính sách dữ liệu mở phải bám sát với thưc tiễn, tức là không chỉ dừng lại ở việc lợi ích và lý do mở dữ liệu mà cần phải cung cấp được các bước thực hiện có khả thi cho các cơ quan nhà nước và cơ quan giám sát có thể thao dõi và thực hiện. Tạo ra các quy định, hướng dẫn là một bước đảm bảo việc thực thi chính sách được đúng hướng, thực chất. Chính sách dữ liệu mở cũng có thể đưa ra các hướng dẫn trực tiếp từ các khung cơ bản được miêu tả trong chính sách. Do vậy, thay vì chỉ ra riêng rẽ các tiêu chuẩn dữ liệu trong chính sách, cơ quan nhà nước có thể lồng vào chính sách các hướng dẫn để giúp các cơ quan tuân thủ việc cung cấp khả năng truy cập vào các dữ liệu không ở định dạng độc quyền, máy có thể đọc được với các định dạng mở. Để các chính sách được phù hợp với thực tiễn. Các chính phủ nên tạo ra các cơ hội cho người dân, doanh nghiệp, tổ chức phản hồi về chất lượng, số lượng, định dạng của các tập dữ liệu, cũng như giao diện thân thiện với người dùng của các cổng truy cập. Những phản hồi này cần được xem xét và xử lý khi các chính sách được rà soát, sửa đổi.
Việc đặt ra các thời hạn rõ ràng có thể thể hiện được cam kết hành động và khả năng chuyển hóa các cam kết thành kết quả. Thời hạn cũng có thể cung cấp cho các bên liên quan có sự giám sát, thúc đẩy việc hoàn thành mục tiêu. Các cơ quan liên quan nên được cung cấp đủ thời gian để chuẩn bị và tổ chức triển khai, nhưng không nên quá nhiều thời gian làm cho trì hoãn và chậm trễ. Diễn biến về thời gian nên rõ ràng, mang lại động lực cho các hành động hướng đến mục tiêu cũng như được đối chiếu trong việc hoàn thành các nhiệm vụ. Những mục tiêu của chính sách cần được giám sát được thông qua các phép đo định tính và định lượng. Ngoài ra, cũng giống như bất kỳ nhiệm vụ nào khác, việc thực hiện chính sách dữ liệu mở nên được bám sát với mục đích phát triển bền vững lâu dài. Một trong các việc làm cụ thể là xem xét các nguồn kinh phí để triển khai chính sách cũng như bảo trì trong tương lai. Đủ kinh phí là một nội dung thể hiện sự khác biệt giữa sự thành công và không thành công của chính sách. Kinh phí nên được xem xét cho những nội dung tiềm năng như: Nhân sự mới ( về hành chính, kỹ thuật và pháp chế), phần mềm mới (để chứa, trích xuất và nhập dữ liệu), đào tạo nâng cao năng lực và duy trì bảo dưỡng máy chủ. Mặc dù khả năng hỗ trợ kinh phí các cấp là khác nhau, nhưng cần xem xét trong việc thiết lập và hỗ trợ một hệ sinh thái dữ liệu mở.
Kết luận
Cũng giống như việc cung cấp dữ liệu mở là một quá trình liên tục và phải đặc biệt quan tâm đến chất lượng và tính cập nhật của dữ liệu, các chính sách cũng cần phải có sự tiếp cận tương tự. Để theo kịp với sự thay đổi, các chính sách về dữ liệu mở nên được quy định phải có sự xem xét lại trong tương lai cũng như các hướng dẫn và quy trình triển khai. Các chính sách dữ liệu mở nên chập nhận một thực tế khách quan là các hoạt động đang thay đổi nhanh chóng theo thời gian và cần duy trì sự quan tâm để có sự điều chỉnh một cách phù hợp. Một trong những trọng tâm chính là việc hiểu rõ đối tượng sử dụng dữ liệu mở. Cần thiết phải có sự quan tâm và nắm bắt chi tiết ví dụ như đối tượng nào đang sử dụng dữ liệu mở của chính phủ, tần suất các dữ liệu đang được sử dụng, dữ liệu đang được sử dụng để làm gì và nhiều nội dung khác để việc cung cấp dữ liệu mở có hiệu quả thiết thực. /.
Nguyễn Huy Kháng
Tài liệu tham khảo
- Data [Online]. - 2022. - https://www.worldbank.org/en/home.
- Discover and use data [Online]. - 2022. - https://www.data.govt.nz/.
- Open Data Handbook [Online]. - 2022. - http://opendatahandbook.org/.
- Open Data Policy Hub [Online]. - 2022. - https://sunlightfoundation.com/.
- Open Standards for Data [Online]. - 2022. - https://standards.theodi.org/.
- Publishing Open Government Data [Online]. - 2022. - https://www.w3.org/.
- Supply and Quality of Data [Online]. - 2022. - http://opendatatoolkit.worldbank.org/en/supply.html.
- The Impact of Open Data [Online]. - 2022. - https://blog.thegovlab.org/.