Đang xử lý.....

Khung giá trị dữ liệu chính phủ mở  

Hầu hết các sáng kiến chính phủ mở trên toàn thế giới dựa vào việc cung cấp số lượng dữ liệu chính phủ công cộng ngày càng tăng trên Web để tăng cường tính minh bạch. Các sáng kiến chính phủ mở bắt đầu ở Bắc Ai-len và thủ đô Oa-xinh-tơn, D.C của Hoa Kỳ đã nhanh chóng lan rộng ra nhiều thành phố như Niu Y-oóc, Xan Phran-xít-cô và các quốc gia như Niu Gi-lân, Úc, Vương quốc Anh, Hà Lan và Hoa Kỳ. Tuy nhiên, hầu như không có sáng kiến nào trong số này cho thấy việc sử dụng khung giá trị để thúc đẩy các cơ quan chính phủ trong việc ưu tiên “mở” dữ liệu của họ...
Thứ Tư, 17/07/2019 976
|

Cụ thể, Chỉ thị Chính phủ mở gần đây do Chính phủ liên bang Hoa Kỳ ban hành yêu cầu tất cả các cơ quan liên bang xuất bản ít nhất ba bộ dữ liệu giá trị cao và lên kế hoạch xuất bản thêm mà không nói bất cứ điều gì về “giá trị cao” thực sự có nghĩa là gì [3]. Bài viết này giới thiệu về lợi ích, rủi ro và chi phí khi lựa chọn và thực thi khung giá trị dữ liệu chính phủ mở.

Khái niệm về dữ liệu mở [1]

Giống như nhiều thuật ngữ kỹ thuật khác, dữ liệu mở là một khái niệm còn nhiều tranh cãi. Không tồn tại một định nghĩa duy nhất, phổ quát được chấp nhận. Có 10 định nghĩa được sử dụng rộng rãi.

  • Định nghĩa mở (tham khảo Tài liệu Sổ tay dữ liệu mở phiên bản 1.0.0 của Quỹ Tri thức mở)

“Dữ liệu mở là dữ liệu có thể được bất kỳ ai tự do sử dụng, sử dụng lại và phân phối lại - chỉ tuân theo, nhiều nhất, yêu cầu phải ghi nhận nguồn và chia sẻ tương tự.”

  • Nhà Trắng, Bản ghi nhớ OMB 2013

“Dữ liệu mở đề cập đến dữ liệu sẵn có công khai, được cấu trúc theo cách cho phép người dùng cuối hoàn toàn có thể phát hiện và sử dụng dữ liệu.”

  • Data.Gov.UK

“Dữ liệu mở là dữ liệu được xuất bản ở định dạng mở, có thể đọc được bằng máy và được xuất bản theo giấy phép cho phép tái sử dụng miễn phí.”

  • Dbpedia [1]: Hạt nhân cho một mạng dữ liệu mở

“Dữ liệu mở là ý tưởng rằng dữ liệu nhất định phải có sẵn, miễn phí cho mọi người sử dụng và tái xuất bản theo ý muốn, không bị hạn chế bởi bản quyền, bằng sáng chế hoặc các cơ chế kiểm soát khác.”

  • Viện dữ liệu mở (Open Data Institute-ODI[2])

“Dữ liệu mở là thông tin có sẵn, miễn phí cho bất cứ ai sử dụng cho bất kỳ mục đích nào. Dữ liệu mở phải có giấy phép cho biết đó là dữ liệu mở. Không có giấy phép, dữ liệu không thể được sử dụng lại.”

“Dữ liệu mở là dữ liệu không có khả năng định danh cá nhân được tạo ra trong quy trình nghiệp vụ bình thường của một tổ chức, được phát hành dưới giấy phép không hạn chế. Việc mở các dữ liệu công khai được củng cố bởi triết lý rằng dữ liệu do các tổ chức trong khu vực công tạo ra hoặc thu thập phải thuộc về đối tượng nộp thuế, ở bất cứ nơi nào có khả năng về tài chính và những nơi việc cung cấp dữ liệu sẽ không vi phạm luật pháp hoặc quyền riêng tư (đối với công dân hay nhân viên chính phủ).”

  • Viện McKinsey toàn cầu

“Thông tin có thể đọc được bằng máy, đặc biệt là dữ liệu của chính phủ, được cung cấp cho người khác. Những tập dữ liệu mở này chia sẻ bốn đặc điểm sau:

1) Khả năng truy cập: nhiều người dùng được phép truy cập dữ liệu.

2) Khả năng đọc của máy: dữ liệu có thể được xử lý tự động.

3) Chi phí: dữ liệu có thể được truy cập miễn phí hoặc với chi phí không đáng kể.

4) Các quyền: giới hạn về việc sử dụng, chuyển đổi và phân phối dữ liệu là tối thiểu”.

  • Open Data Now[4]

“Dữ liệu mở là dữ liệu có thể truy cập công khai mà chúng ta có thể sử dụng để khởi động các dự án mới, phân tích các xu hướng, ra quyết định và giải quyết các vấn đề.”

  • Open Data Barometer [5]

Trích từ báo cáo chỉ ra rằng các nhà nghiên cứu đã đánh giá các tập dữ liệu dựa trên “các yêu cầu đầy đủ về Định nghĩa mở để máy có thể đọc được, có thể truy cập hàng loạt và được cấp phép mở”.

  • Ngân hàng Thế giới

“Dữ liệu là mở nếu nó đáp ứng cả hai điều kiện sau:

- Mở về kỹ thuật: có sẵn trong một định dạng chuẩn mà máy có thể đọc được, có nghĩa là nó có thể được trích xuất và xử lý có ý nghĩa bằng một ứng dụng máy tính.

- Mở về pháp lý: được cấp phép rõ ràng theo cách cho phép sử dụng, tái sử dụng thương mại và phi thương mại mà không bị hạn chế.”

GovLab[6] đã tiến hành phân tích các định nghĩa này bằng một ma trận, nhằm đạt được một định nghĩa phù hợp. Dựa trên ma trận này, định nghĩa về dữ liệu mở được đưa ra như sau: “Dữ liệu mở là dữ liệu sẵn có công khai có thể được truy cập, sử dụng và phân phối lại dễ dàng, phổ biến và miễn phí. Nó được cấu trúc cho khả năng sử dụng và tính toán.”

Như vậy, có thể coi dữ liệu mở là dữ liệu có thể phổ biến mà không bị hạn chế hoặc bị hạn chế tối thiểu bởi cơ quan có thẩm quyền.

Dữ liệu chính phủ mở

Dữ liệu chính phủ mở (Open Government Data - OGD) là một tập hợp các chính sách nhằm thúc đẩy tính minh bạch, trách nhiệm và tạo ra giá trị bằng cách cung cấp dữ liệu chính phủ cho tất cả mọi đối tượng. Các cơ quan, tổ chức công tạo ra và ủy thác số lượng lớn dữ liệu và thông tin. Bằng cách làm cho các bộ dữ liệu của họ có sẵn, các cơ quan, tổ chức công trở nên minh bạch hơn và có trách nhiệm với người dân. Bằng cách khuyến khích sử dụng, tái sử dụng và phân phối miễn phí các bộ dữ liệu, chính phủ thúc đẩy các doanh nghiệp kinh doanh sáng tạo, đổi mới và các dịch vụ lấy người dân làm trung tâm [2].

Các nguyên tắc cơ bản của khung giá trị dữ liệu chính phủ mở [3]

Các nguyên tắc cơ bản cho một khung giá trị dữ liệu chính phủ mở bao gồm:

  • Hỗ trợ nhiều khía cạnh lợi ích, chi phí và rủi ro.
  • Dựa trên một khung và quy trình hiện có.
  • Nếu có thể, nên được bắt nguồn bằng cách đơn giản hóa và tổng hợp khung đánh giá đầu tư hiện có.
  • Dựa trên sự kết hợp của các số liệu định lượng dễ thiết lập, dễ thu thập và một số số liệu định tính: Mục đích không phải là chỉ định một chỉ số giá trị duy nhất, mà là dẫn đến việc phân loại dữ liệu theo các mức giá trị khác nhau, có thể đơn giản như mức độ ưu tiên cao-trung bình-thấp.
  • Nên được thiết lập để phát triển: không nhất thiết phiên bản đầu tiên sẽ hoàn toàn đầy đủ vì toàn bộ khu vực của chính phủ mở là khá mới.

Các lợi ích của khung giá trị dữ liệu chính phủ mở [3]

Đánh giá giá trị của dữ liệu mở không giống với đánh giá giá trị của đầu tư. Có một số giá trị công khai của các khung công nghệ thông tin đang được sử dụng trên toàn thế giới và mặc dù chúng sử dụng các thuật ngữ khác nhau, tất cả đều xem xét ba khía cạnh cơ bản của giá trị công - tức là dịch vụ cấu thành, hiệu quả hoạt động và tác động đến sứ mệnh của cơ quan, tổ chức.

  • Dịch vụ cấu thành: Bao gồm cách dữ liệu có thể góp phần cải thiện mức độ dịch vụ cho các đối tượng mục tiêu khác nhau hoặc làm tăng sự hài lòng của các bộ phận trong cơ quan, tổ chức. Mặc dù các biện pháp này rất chủ quan, chúng có thể được thực hiện phù hợp hơn bằng cách thu hút các bên liên quan khác nhau bày tỏ quan điểm của mình, có thể bao gồm người dân và các thành phần bên ngoài khác.
  • Hiệu quả hoạt động: Bao gồm cách dữ liệu tác động đến một số số liệu nội bộ, chẳng hạn như chi phí và năng suất. Ví dụ có thể bao gồm thời gian mua sắm ngắn hơn, chi phí mua sắm thấp hơn, thời gian hoàn thành công việc ngắn hơn, số lượng giao dịch cao hơn trên mỗi nhân viên, quản lý tài sản hiệu quả hơn…
  • Tác động đến sứ mệnh của cơ quan, tổ chức: Mỗi cơ quan, tổ chức có một số mục tiêu chiến lược liên quan đến nhiệm vụ của mình như tăng cường an toàn công cộng, cải thiện việc tuân thủ thuế, cung cấp dịch vụ chăm sóc xã hội tốt hơn…

Các chi phí khi lựa chọn và thực thi khung giá trị dữ liệu chính phủ mở [3]

Các mục chi phí chính như sau:

Chi phí phát triển

Đây là những chi phí được duy trì khi dữ liệu được công bố lần đầu tiên ở định dạng mở theo yêu cầu của sáng kiến chính phủ mở có liên quan, bao gồm:

  • Làm sạch: Bảo đảm chất lượng dữ liệu trước khi có thể được phát hành để sử dụng công khai
  • Truy xuất: Dữ liệu có thể có sẵn trên giấy hoặc trong cơ sở dữ liệu nội bộ. Nó cần được định vị và trích xuất từ vị trí ban đầu của nó.
  • Phân loại: Cơ quan cần xác minh dữ liệu đáp ứng các yêu cầu để phân loại và áp dụng các thủ tục cần thiết.
  • Định danh: Dữ liệu có thể bao gồm các tham chiếu đến thông tin định danh cá nhân, phải được xóa sạch trước khi dữ liệu được công bố. Trong một số trường hợp, điều này có thể xảy ra do kích thước hạn chế của bộ dữ liệu hoặc có thể xảy ra do hậu quả của việc xuất bản hai bộ dữ liệu riêng biệt.
  • Chuyển đổi: Dữ liệu đã sẵn sàng để xuất bản cần được chuyển đổi theo bất kỳ định dạng mở nào là phù hợp nhất và tuân thủ các yêu cầu của sáng kiến chính phủ mở có liên quan.
  • Thí điểm: Dữ liệu nên được kiểm tra để khám phá mức độ phù hợp và giá trị.

Chi phí vận hành

  • Hosting: Dữ liệu mở phải được đặt trên cơ sở hạ tầng của cơ quan, tổ chức hoặc một đơn vị bên ngoài (có thể thuê ngoài hoặc dựa trên đám mây hoặc được cung cấp bởi một cơ quan, tổ chức khác). Điều này bao gồm lưu trữ, chu kỳ tính toán, sử dụng băng thông và khắc phục thảm họa.
  • Giám sát: Việc sử dụng dữ liệu công cộng cần được theo dõi để bảo đảm rằng các rủi ro được hiểu và quản lý đúng cách. Mặc dù đây là một hoạt động liên quan đến khá nhiều dữ liệu được công bố, chi phí của nó tăng theo số lượng bộ dữ liệu có thể bị lạm dụng. Chi phí (bao gồm giấy phép cho các công cụ phân tích mạng xã hội và nguồn nhân lực) có thể được phân bổ tùy thuộc vào quy mô và rủi ro của tập dữ liệu.
  • Cập nhật: Các chi phí này liên quan đến cập nhật thường xuyên bộ dữ liệu, trong đó nhất thiết sẽ bao gồm các loại chi phí trong “Chi phí phát triển” cho dữ liệu bổ sung hoặc toàn bộ tập dữ liệu được cập nhật.

Chi phí cơ hội

Các cơ quan, tổ chức tạo ra và bán một số dữ liệu sẽ tác động đến nguồn thu của mình.

Các rủi ro khi lựa chọn và thực thi khung giá trị dữ liệu chính phủ mở [3]

Rủi ro là một chủ đề hiếm khi được đưa ra bởi những người hỗ trợ các sáng kiến dữ liệu mở. Thông thường, những người ủng hộ dữ liệu mở lo lắng rằng việc tăng cường quản lý rủi ro có thể gây ra sự đẩy lùi bởi những người không tin vào giá trị dữ liệu và cần có chính phủ mở. Tuy nhiên, nếu các sáng kiến dữ liệu mở trở thành một phần của nghiệp vụ thông thường, rủi ro cần được khai thác và quản lý đúng cách.

Một số ví dụ về rủi ro như sau:

Tuân thủ

  • Quyền riêng tư: Mặc dù đã xóa các thông tin định danh, dữ liệu vẫn có thể gián tiếp tiết lộ thông tin về các cá nhân.
  • Độ mở: Dữ liệu có thể có sẵn ở định dạng không được coi là cần các yêu cầu định dạng mở.
  • Bảo mật: Dữ liệu có thể gián tiếp tiết lộ thông tin được phân loại.

Chất lượng

  • Không chính xác: Mặc dù đã làm sạch dữ liệu, một số bộ dữ liệu vẫn có thể bị hỏng, không chính xác hoặc các nỗ lực làm sạch dữ liệu không đầy đủ, bị lỗi.
  • Lỗi thời: Ngay cả khi dữ liệu là chính xác, nó có thể không được cập nhật.

Sử dụng sai

  • Sử dụng độc hại: Bộ trộn dữ liệu có thể sử dụng có chọn lọc một tập hợp con (hoặc bản sao lỗi thời) của dữ liệu mở để thúc đẩy hành vi của người dùng. Vì điều này là khó dự đoán, cách tiếp cận tốt nhất là theo dõi việc sử dụng chặt chẽ để nhận dạng nhanh chóng và theo dõi bất kỳ sự lạm dụng nào. Những nỗ lực của cộng đồng người dùng bên ngoài nên được tận dụng triệt để để giúp xác định việc sử dụng độc hại hoặc không chính xác.
  • Sử dụng không chính xác: Dữ liệu từ nhiều nguồn có thể bị nhầm lẫn (không có bất kỳ ác ý nào). Các cơ quan, tổ chức cũng cần phải ngăn chặn các trường hợp này để ngăn ngừa thiệt hại có thể xảy ra.

Kết luận

Năm 2018, Văn phòng Chính phủ, Ngân hàng Thế giới và tổ chức Sáng kiến Việt Nam đã tiến hành đánh giá về mức độ sẵn sàng cho Chính phủ số và Dữ liệu mở tại Việt Nam. Đánh giá đã nêu 3 thách thức lớn là sự thiếu vắng khung pháp lý cho dữ liệu mở; năng lực chuyên môn của khu vực công; sự quan tâm chưa đồng đều của các cấp lãnh đạo và sự phối hợp của các Bộ, ngành và chính quyền các cấp nhưng cũng cho thấy Chính phủ Việt Nam đã và đang thực hiện một loạt các giải pháp khác nhau để khắc phục những điểm yếu hiện tại như có cam kết chính sách mạnh mẽ; đã áp dụng những tiến bộ kỹ thuật có tính nền tảng để phát triển Chính phủ số và dữ liệu mở; một số cơ quan đã bắt đầu sử dụng các công nghệ mới như dữ liệu lớn và phân tích dữ liệu, điện toán đám mây [4].

Những lợi ích, rủi ro và chi phí khi lựa chọn và thực thi khung giá trị dữ liệu chính phủ mở trong bài viết này là một nguồn thông tin tham khảo cho các cơ quan nhà nước Việt Nam trong quá trình xây dựng, hoàn thiện khung pháp lý cho dữ liệu mở thực hiện quyết tâm xây dựng Chính phủ điện tử hướng tới Chính phủ số, góp phần phòng chống tham nhũng, chống sách nhiễu của cán bộ, tạo sự minh bạch trong giải quyết thủ tục hành chính.

Tài liệu tham khảo

[1] Andrew Young and Stefaan Verhulst, The Global Impact of Open Data, O’Reilly Media Inc., 2016.

[2] http://www.oecd.org/gov/digital-government/open-government-data.htm

(Truy cập ngày 14/3/2019).

[3] Andrea Di Maio, How to Determine the Value of Open Government Data, Gartner, 2013.

[4] http://baochinhphu.vn/Hoat-dong-Bo-nganh/Viet-Nam-co-cam-ket-manh-me-trong-trien-khai-Chinh-phu-so-va-Du-lieu-mo/357311.vgp

(Truy cập ngày 14/3/2019).

 

  Phạm Văn Thịnh

 

 


[1] DBpedia là một dự án nhắm đến việc trích xuất dữ liệu cấu trúc từ các thông tin được tạo nên từ một phần của dự án Wikipedia. Cấu trúc thông tin này được xây dựng sẵn có trên World Wide Web. DBpedia cho phép người dùng truy vấn các quan hệ và thuộc tính liên quan đến tài nguyên Wikipedia, bao gồm các liên kết tới dữ liệu liên kết (https://vi.wikipedia.org/wiki/DBpedia).

[2] ODI được thành lập năm 2012 bởi nhà phát minh web Sir Tim Berners-Lee và chuyên gia trí tuệ nhân tạo Sir Nigel Shadbolt để vận động cho việc sử dụng sáng tạo dữ liệu mở để tác động đến thay đổi tích cực trên toàn cầu (https://theodi.org/about-the-odi).

[3] LinkedGov là một dự án cộng đồng để hợp tác làm sạch và tạo ra các dữ liệu có thể sử dụng được từ chính quyền địa phương và các cơ quan công cộng khác (http://linkedgov.org).

[4] Open Data Now là một cuốn sách về dữ liệu mở do Joel Gurin viết năm 2014

[5] Được sản xuất bởi World Wide Web Foundation dưới hình thức hợp tác của mạng Open Data for Development (OD4D) và với sự hỗ trợ của Mạng Omidyar, Open Data Barometer (ODB) nhằm mục đích khám phá ra sự phổ biến thực sự và tác động của các sáng kiến dữ liệu mở trên toàn thế giới. Nó phân tích xu thế toàn cầu và cung cấp dữ liệu so sánh về các quốc gia và khu vực sử dụng một phương pháp luận chuyên sâu kết hợp dữ liệu theo ngữ cảnh, đánh giá kỹ thuật và các chỉ số thứ cấp để xếp hạng các chính phủ về sự sẵn sàng, sự thực thi và tác động của dữ liệu mở (https://opendatabarometer.org).

[6] GovLab là một trung tâm nghiên cứu hành động của Trường Kỹ thuật Tandon thuộc Trường Đại học New York.