Hầu hết các văn bản quy định và hệ thống luật pháp của các chính phủ hiện nay liên quan đến quyền được biết, tự do thông tin và công khai hồ sơ đang được tiếp cận theo cách “cung cấp theo yêu cầu”. Cách tiếp cận này có nghĩa là một câu hỏi cần được hỏi trước khi một câu trả lời được đưa ra và thông tin công khai phải được yêu cầu trước khi nó được tiết lộ. Cách tiếp cận theo “cung cấp chủ động” thì ngược lại. Cách tiếp cận này là việc công bố các thông tin công khai trước khi các được yêu cầu. Trong thế kỷ 21, nó đồng nghĩa với việc cung cấp thông tin trực tuyến qua internet để cho mọi người có thể dễ dàng tìm kiếm. Các chính sách dữ liệu mở nên được xây dựng dựa trên các quy định hiện hành về quyền tiếp cận thông tin chính phủ. Việc xây dựng dựa trên các chính sách này có thể giúp làm mạnh hơn các yêu cầu về các dữ liệu mở và thông tin mới khi các chính sách được cập nhật và rà soát lại mà ở đó các chính sách dữ liệu mở có thể được chỉ đến. Một lợi ích khác của việc vận dụng các chính sách tiếp cận hiện hành là việc tạo nền tảng trong việc đảm bảo quyền hợp pháp trong việc sử dụng dữ liệu mở.
Xây dựng chính sách dựa trên các giá trị, mục tiêu dữ liệu mở
Một chính sách dữ liệu mở có thể được theo đuổi với mục đích hiện thực hóa nhiều loại lợi ích khác nhau như: tính minh bạch, trung thực, trách nhiệm giải trình, hiệu quả, sự tham gia của người dân và tăng trưởng kinh tế cao. Một thông cáo rõ ràng về các mục tiêu, giá trị hoặc các ý định có thể giúp làm rõ hơn kỳ vọng về kết quả mà chính phủ đề ra. Một tuyên bố về mục tiêu nhấn mạnh tầm quan trọng của dữ liệu mở nói chung và việc công khai thông tin nói riêng. Ngoài ra, việc ban hành các tuyên bố này giúp cho sự tham gia của các bên về dữ liệu mở cũng như nâng cao khả năng sử dụng, khai thác của nhiều bên liên quan. Để chính sách dữ liệu mở có một nền tảng vững chắc, trước tiên chúng ta cần biết hiện mình đang có dữ liệu gì. Các chính phủ nên tiến hành kiểm kê dữ liệu hiện có trong quá trình xây dựng chính sách dữ liệu mở để chính phủ cũng như các bên liên quan nhận thức được một cách đầy đủ các tiềm năng của việc công bố dữ liệu. Mặc dù việc xác định tất cả các thông tin hiện nắm giữ có thể là một công việc phức tạp, các chính phủ nên tiến hành đánh giá một cách toàn diện thông tin dữ liệu có khả năng tồn tại một cách đầy đủ nhất có thể. Việc kiểm kê dữ liệu này cũng nên được công khai. Việc công khai này có thể đảm bảo được việc các thông tin được quản lý một cách phù hợp với mục đích, đồng thời cũng giúp cho xây dựng một nhận thức chung những dữ liệu mà chính phủ đang nắm giữ và tạo ra được sự hiệu quả giữa các cơ quan nhà nước. Ngoài việc tạo tiền đề cho các đánh giá, thảo luận về việc công bố các tập dữ liệu, việc kiểm kê cũng có lợi ích trong việc xác định và đề ra các dữ liệu mới nên được thu thập.
Mặc dù chính sách dữ liệu mở lý tưởng là việc phát hành công khai trực tuyến tất cả thông tin của chính phủ trừ các thông tin nhạy cảm, tuy nhiên, trong thực tế việc làm này là khó khả thi liên quan đến nguồn lực về kinh phí cũng như nhân sự. Do đó, các chính phủ nên rõ ràng trong phương pháp xác định mức độ ưu tiên cho việc phát hành và công bố các dữ liệu. Một loạt các mục tiêu, tác nhân, sự kiện có thể đóng góp cho việc quyết định các tập dữ liệu nào là ưu tiên. Bởi vì thông thường, công chúng quan tâm đến các dữ liệu có mức độ liên quan cao đến cuộc sống hàng ngày, việc công bố các dữ liệu được sử dụng cho quá trình xây dựng các quy định, luật là điều được quan tâm. Tuy nhiên, mục tiêu đáp ứng được nhu cầu của công chúng về các tập dữ liệu được đề nghị mở thông qua các bình luận hoặc phản ánh là điều cần được xem xét. Một yếu tố cũng cần được xem xét khi xác định mức độ ưu tiên mở dữ liệu là chi phí, nội dung này cũng cần được cân nhắc để đảm bảo sự cân bằng và hài hòa giữa chi phí và lợi ích mang lại.
Các lưu ý để cung cấp dữ liệu mở được hiệu quả
Thông tin được thu thập nhiều trường hợp đến từ việc sử dụng ngân sách nhà nước, các thông tin này cần được quy định về cung cấp công khai. Thực tế thì các cơ quan nhà nước thường làm việc với các bên thứ 3 để cung cấp các nghiên cứu, khảo sát cho các cơ quan nhà nước thông qua các tài trợ cho các cơ sở nghiên cứu, đào tạo. Tuy nhiên, nếu các quy định không rõ ràng cũng sẽ làm cho các thông tin này không được công khai và mở dữ liệu. Do đó, đối với các hoạt động sử dụng ngân sách nhà nước thì điều này vẫn cần được quy định. Chính sách dữ liệu mở tốt hơn hết là nên được xây dựng dựa trên các quy định pháp luật đã có từ trước về quyền truy cập thông tin công khai, có nghĩa là nó có thể kết hợp với việc miễn trừ công khai thông tin đối với thông tin nhạy cảm vì quyền riêng tư, bảo mật hoặc các lý do khác. Việc truy cập trực tuyến đối với các thông tin khối lượng lớn có thể tạo ra các mối quan tâm về quyền riêng tư, bảo mật và trách nhiệm pháp lý. Dữ liệu liên quan đến cá nhân đòi hỏi có sự giám sát đặc biệt. Tuy nhiên, các trường hợp miễn trừ cũng được xây dựng cẩn thận để chỉ loại trừ các loại thông tin cần thiết nhất. Ví dụ như: thay vì nói "thông tin liên quan đến chủ đề X được miễn tiết lộ", các điều khoản nên yêu cầu "thông tin liên quan đến chủ đề X được miễn tiết lộ nếu khả năng gây hại lớn hơn lợi ích công cộng trong trường hợp công khai".
Để truy cập tối đa, dữ liệu phải được phát hành ở các định dạng cho phép tái sử dụng dễ dàng và hiệu quả. Điều này có nghĩa là phát hành thông tin ở định dạng mở (hoặc "tiêu chuẩn mở"), ở các định dạng có thể đọc được bằng máy, có cấu trúc (hoặc có thể xử lý bằng máy) một cách thích hợp. "Định dạng mở" đề cập đến một tập hợp các "tiêu chuẩn mở", thường được xác định bởi các tổ chức tiêu chuẩn, lưu trữ thông tin theo cách dữ liệu có thể được truy cập bằng các phương tiện phần mềm độc quyền hoặc không độc quyền. Các định dạng này tồn tại trên một loạt các kiểu dữ liệu; một ví dụ phổ biến nhất là CSV thay cho XLS đối với bảng tính. "Khả năng máy có thể đọc được" chỉ đơn giản là đề cập đến định dạng mà máy tính có thể hiểu được. Mặc dù các định dạng như HTML và PDF dễ dàng mở đối với hầu hết người dùng máy tính, nhưng các định dạng này rất khó để chuyển đổi thông tin sang mục đích sử dụng mới. Việc cung cấp dữ liệu ở các định dạng có cấu trúc, chẳng hạn như JSON và XML, giúp việc truy cập dễ dàng hơn một cách đáng kể và cho phép nâng cao khả năng phân tích, đặc biệt là với một lượng lớn thông tin. Đối với định dạng của các tập dữ liệu, các báo cáo nghiên cứu đã phân chia định dạng với các mức độ trưởng thành khác nhau. Một trong những cách phân chia được phổ biến và nhiều trích dẫn trong cộng đồng dữ liệu mở là mô hình “5 ngôi sao” thể hiện các mức độ trưởng thành về định dạng. Sơ khởi là các định dạng như pdf, bước tiếp theo là các tập dữ liệu có định dạng như XLS, CSV, RDF và cao nhất là LOD.
Hình 1: 05 mức độ trưởng thành của dữ liệu mở mà chính sách cần hướng đến
Ngoài việc phát hành thông tin ở các định dạng cho phép tái sử dụng kỹ thuật một cách tối đa, cần xem xét các phương pháp phân phối phù hợp để tối đa hóa mức độ truy cập, sử dụng. Ví dụ: nếu như báo cáo của cơ quan nhà nước được chia sẻ hiệu quả nhất thông qua định dạng PDF, nhưng báo cáo này chứa các yếu tố liên quan đến dữ liệu thì báo cáo và các dữ liệu có cấu trúc đều cần được phát hành. Tương tự, các tùy chọn để tải dữ liệu xuống hàng loạt cũng sẽ giúp cho nâng cao năng lực của việc truy cập thông tin ở nhiều định dạng khác nhau. Mức độ truy cập và tương tác này cho phép người dân, doanh nghiệp và các tổ chức tận dụng tối đa hiệu quả dữ liệu.
Để cung cấp quyền truy cập thực sự mở, cần thiết phải có quyền tái sử dụng dữ liệu và thông tin của chính phủ và không nên có các hạn chế về mặt kỹ thuật cũng như yêu cầu đăng ký, phí truy cập và giới hạn sử dụng, trong số những hạn chế khác. Mục đích nhằm cung cấp quyền truy cập rộng rãi, không phân biệt đối xử, miễn phí việc tiếp cận dữ liệu để bất kỳ người nào cũng có thể truy cập thông tin bất cứ lúc nào mà không cần phải đăng ký danh tính cũng như khai báo giải trình đối với việc tiếp cận dữ liệu. Cả chính sách dữ liệu mở và Điều khoản sử dụng liên quan đến dữ liệu của chính phủ cần được tạo điều kiện tối đa cho việc tiếp cận và truy cập. Mặc dù có thể có thêm những tuyên bố từ chối trách nhiệm có thể được đưa vào để giới hạn trách nhiệm pháp lý, nhưng những nội dung nàu cũng không nên đặt ra thêm hạn chế nào, chẳng hạn như giới hạn đối tượng cũng như mục đích sử dụng dữ liệu.
Nếu thông tin thực sự công khai và có thể tái sử dụng một cách tối đa thì không có rào cản nào liên quan đến giấy phép đối với việc sử dụng. Để việc “mở” được hoàn toàn, dữ liệu mở của chính phủ nên được phát hành một cách rộng rãi và được dán nhãn rõ ràng. Việc mở dữ liệu công khai phải loại bỏ các rào cản đối với việc truy cập thông tin, giúp cho phổ biến kiến thức, hỗ trợ việc lưu trữ và bảo quản dữ liệu, thúc đẩy sự tham gia của người dân và doanh nghiệp, kéo dài chu giá trị của dữ liệu. Chính sách dữ liệu mở phải rõ ràng về điều này vì luật bản quyền có sự khác nhau giữa các khu vực. Nếu dữ liệu mở của chính phủ không rõ ràng trong việc giấy phép tái sử dụng, các dữ liệu này nên áp dụng các giấy phép mở phổ biến như Creative Commons CC0 hoặc Giấy phép PDDL (Open Data Commons Public Domain Dedication and License).
Các quy định cần phải quan tâm đối với đơn vị cung cấp dữ liệu mở
Mặc dù việc cung cấp đầy đủ các thuộc tính về dữ liệu là một việc khó khả thi, nhưng người dùng dữ liệu của chính phủ nên được khuyến khích về chỉ dẫn các nguồn gốc của nguồn dữ liệu bằng cách trích dẫn các nguồn đó. Việc tiến hành trích dẫn dữ liệu của chính phủ có thể được khuyến khích bằng việc các nhà quản lý dữ liệu trực tiếp phát triển các hướng dẫn về yêu cầu trích dẫn đối với các tập dữ liệu của họ. Các trích dẫn này nên liệt kê cả yếu tố chính về nguồn cũng như cơ quan cung cấp dữ liệu. Khi người dùng tái sử dụng dữ liệu, việc khuyến khích trích dẫn dữ liệu của chính phủ cho phép người dùng cuối phát hiện ra các vấn đề đối với chất lượng của dữ liệu và có những phản hồi phù hợp với nguồn và cơ quan cung cấp dữ liệu.
Việc cung cấp một lược đồ dữ liệu đặc tả lõi một cách đầy đủ (cũng như các tài liệu khác) có thể sẽ đem lại hữu ích cho công chúng và cơ quan nhà nước. Lược đồ dữ liệu đặc tả tham khảo từ các thuộc tính dữ liệu chuẩn quốc tế (chẳng hạn như DCAT) và cho phép các cơ quan phát hành dữ liệu phân loại các trường hoặc các phần tử theo ngữ cảnh trong tập dữ liệu của họ. Việc này không chỉ hữu ích trong việc tạo lập dữ liệu, chất lượng và việc sử dụng dữ liệu mà còn giúp nâng cao cơ chế tự động hóa để phục vụ việc tích hợp dữ liệu. Cung cấp dữ liệu chất lượng cũng yêu cầu các cơ quan cung cấp phải giúp người dùng hiểu được dữ liệu đó được tạo ra như thế nào. Thông tin tóm tắt các quy trình được sử dụng để tạo một tập dữ liệu cụ thể có thể sẽ không thể nắm bắt được thông qua dữ liệu đặc tả mà nên thông qua bản phát hành tập dữ liệu đi kèm. Tài liệu về quy trình dữ liêu giúp mọi người và các cơ quan nhà nước phân biệt được các đặc tính của tập dữ liệu, chẳng hạn như: nguồn gốc, độ tin cậy, độ hiếm và khả năng sử dụng của dữ liệu. Ngoài ra, việc ghi lại các quy trình tạo dữ liệu có thể giúp cải thiện quy trình làm việc và tạo ra dữ liệu.
Các yêu cầu để mức độ trưởng thành dữ liệu mở được cao hơn
Số đinh danh nhận dạng duy nhất là số tham chiếu được sử dụng để xác định các cá nhân, thực thể hoặc vị trí. Việc sử dụng các mã số định danh duy nhất đối với các tập dữ liệu giúp cải thiện chất lượng và độ chính xác phục vụ phân tích dữ liệu. Nếu không có mã số định dạng duy nhất, một số phân tích sẽ trở nên khó khăn hoặc không thể thực hiện được vì có sự nhầm lẫn giữa các tên tương tự cho các thực thể khác nhau. Điều quan trọng là các mã số nhận dạng này phải không độc quyền và được công khai.
Một số cách tiếp cận có thể được thực hiện nhằm phát triển và phổ biến các mã số định danh duy nhất. Ví dụ: người quản lý các tập dữ liệu riêng lẻ có trách nhiệm trong việc phát triển các mã số định danh duy nhất cho các thực thể mà các đơn vị này thường xuyên tham chiếu thể bị tính phí phát triển các giá trị nhận dạng duy nhất cho các thực thể mà họ tham chiếu nhiều nhất. Ngoài ra, một đơn vị dẫn dắt có thể phát triển một lược đồ về mã định danh toàn diện. Ngoài dữ liệu, mã lập trình được sử dụng để tạo các trang web, cổng thông tin, công cụ và các tài nguyên trực tuyến khác của chính phủ cũng có thể mang lại lợi ích giá trị như chính dữ liệu mở. Các chính phủ nên sử dụng các giải pháp nguồn mở tối đa có thể để cho phép chia sẻ và tận dụng tối đa những lợi ích này.
Các chính sách dữ liệu mở có thể đề cập không chỉ thông tin hiện tại hoặc sớm có sẵn ở định dạng điện tử mà còn cả các tài liệu lưu trữ chưa được số hóa. Ví dụ bao gồm các thông tin từ ngân sách cũ, các biên bản cuộc họp hoặc ảnh, bản đồ. Các câu hỏi về tài liệu lưu trữ nào nên được số hóa và những mốc thời gian cụ thể cho việc số hóa. Để trả lời nội dung này, sự tham gia của công chúng và phản hồi từ các bên liên quan của chính phủ sẽ là chìa khóa để làm cho việc số hóa tài liệu lưu trữ trở thành một việc làm có hiệu quả.
Tạo điều kiện để truy cập và dễ dàng trong việc tái sử dụng dữ liệu mở
Cổng dữ liệu và các trang web tương tự có thể tạo điều kiện thuận lợi cho việc phân phối dữ liệu mở bằng cách cung cấp một nơi truy cập tập trung dễ truy cập, thuận tiện trong việc tìm kiếm nhiều bộ dữ liệu. Ở mức tốt nhất, các cổng thông tin hoặc khu vực tập trung (hubs) này thúc đẩy tương tác và việc sử dụng lại dữ liệu mở cũng như cung cấp tài liệu cho các thông tin liên quan. Đối với các cổng thông tin cụ thể, chúng nên liên kết đến các cổng thông tin liên quan. Để tạo sự thuận lợi cho khả năng tìm kiếm dữ liệu, các trang web này nên cho phép các bên thứ ba lập chỉ mục và tìm kiếm thông qua các công cụ tìm kiếm. Có một số tính năng hữu ích cũng nên được bao gồm trên các cổng thông tin. Ví dụ như danh sách những dữ liệu là một thông tin cần thiết để giúp người dùng dễ dàng xem nhanh những loại dữ liệu nào có sẵn trên cổng dữ liệu. Một tính năng có lợi khác có thể xem xét để đưa vào cổng dữ liệu là báo cáo phân tích việc tải xuống các tập dữ liệu. Điều này sẽ giúp người dùng và nhà cung cấp dữ liệu nắm được các tập dữ liệu nào đang được quan tâm nhiều nhất.
Cung cấp việc truy cập hàng loạt là một tính năng đơn giản nhưng đầy hiệu quả để xuất bản đầy đủ các tập dữ liệu bằng cách cho phép mọi người tải xuống tất cả thông tin được lưu trữ trong cơ sở dữ liệu cùng một lúc. Đây là một bước không chỉ đơn giản trong việc tải dữ liệu mà còn quan trọng trong việc hỗ trợ việc tái sử dụng và phân tích dữ liệu một cách tối đa. Cho dù được cung cấp như một tính năng của cổng thông tin dữ liệu, tuy nhiên, đây là một trong những bước đơn giản và trực tiếp nhất mà cơ quan nhà nước có thể thực hiện để tăng cường chia sẻ thông tin công khai. Mặc dù truy cập dữ liệu hàng loạt đã cung cấp quyền truy cập cơ bản nhất phục vụ tìm kiếm và truy xuất dữ liệu, các cơ quan nhà nước cũng có thể phát triển API (giao diện lập trình ứng dụng) để cho phép các bên thứ ba tự động tìm kiếm, truy xuất hoặc gửi thông tin trực tiếp từ cơ sở dữ liệu một cách trực tuyến. Việc điều hướng các yêu cầu đối với tải dữ liệu hàng loạt và API nên được thực hiện với sự tham khảo ý kiến của những người có chuyên môn kỹ thuật.
Kết luận
Việc mở dữ liệu là một việc làm không dễ dàng, đặc biệt với các cơ quan nhà nước luôn có một văn hóa bảo mật thông tin cao. Do đó, việc ban hành được các chính sách cụ thể và có trọng tâm là một việc làm quan trọng để tạo điều kiện cho dữ liệu mở được thực sự thúc đẩy. Bài viết đã chỉ ra các nội dung cần quan tâm liên quan đến quy định và chính sách để bước đầu thúc đẩy được nhiệm vụ cung cấp dữ liệu mở của cơ quan nhà nước. /.
Nguyễn Huy Kháng
Tài liệu tham khảo
- Data [Online]. - 2022. - https://www.worldbank.org/en/home.
- Discover and use data [Online]. - 2022. - https://www.data.govt.nz/.
- Open Data Handbook [Online]. - 2022. - http://opendatahandbook.org/.
- Open Data Policy Hub [Online]. - 2022. - https://sunlightfoundation.com/.
- Open Standards for Data [Online]. - 2022. - https://standards.theodi.org/.
- Publishing Open Government Data [Online]. - 2022. - https://www.w3.org/.
- Supply and Quality of Data [Online]. - 2022. - http://opendatatoolkit.worldbank.org/en/supply.html.
- The Impact of Open Data [Online]. - 2022. - https://blog.thegovlab.org/.