Đang xử lý.....

Các nội dung chính cần quan tâm trong việc hướng dẫn việc cung cấp dữ liệu mở  

Dữ liệu mở là một trong những nội dung được nhiều quốc gia trên thế giới quan tâm trong những năm vừa qua. Tuy nhiên, để triển khai việc cung cấp dữ liệu mở thành công, cần có nhận thức đúng và các bước làm phù hợp. Bài viết sau đây sẽ giới thiệu các nội dung cần quan tâm để giúp việc hướng dẫn việc cung cấp dữ liệu mở được tiếp cận một cách đầy đủ.
Thứ Tư, 07/12/2022 124
|

Có thể nói, chúng ta đang sống trong một kỷ nguyên thông tin. Tuy nhiên, nhiều câu hỏi mà chúng ta đặt ra nhiều lúc vẫn chưa có câu trả lời kịp thời, ví dụ như chúng ta hầu như cũng không có đầy đủ thông tin để biết chính xác số tiền thuế mà mình đã nộp được chi tiêu như thế nào? Các thông tin trên tuyến đường mà mình đi làm? Những thành phần trong không khí tại khu vực mình sinh sống? Tình hình việc làm của địa phương như thế nào cũng như sản lượng nông sản mùa vụ qua? Nếu chúng ta muốn có những đóng góp cho xã hội trong một số lĩnh vực chúng ta quan tâm thì tìm đến đâu? Đó là một trong nhiều câu hỏi thường nhật của chúng ta trong cuộc sống hàng ngày. Ngày nay, các công nghệ mới có thể giúp chúng ta phát triển các ứng dụng để trả lời những câu hỏi trên một cách tự động dễ dàng mà phần lớn dữ liệu bạn cần để trả lời những câu hỏi này được tạo ra bởi các cơ quan nhà nước. Tuy nhiên, thường thì dữ liệu cần thiết vẫn chưa có sẵn ở dạng dễ sử dụng. Bài viết này điểm qua một số thông tin, nội dung chính để việc khai phá tiềm năng của các dữ liệu, thông tin nhằm kích hoạt các dịch vụ, ứng dụng mới để cải thiện cuộc sống của người dân và làm cho chính phủ và xã hội hoạt động tốt hơn.

Có rất nhiều nội dung liên quan đến việc cung cấp dữ liệu mở để các cơ quan, đơn vị có nhận thức và triển khai đúng. Nhưng tựu chung, có 3 nội dung lớn mà các tài liệu nâng cao nhận thức về dữ liệu mở nên tập trung gồm: Những hướng dẫn cụ thể về dữ liệu mở, tổng hợp những câu truyện giá trị mà dữ liệu mở mang lại để truyền cảm hứng và việc cung cấp một thư viện tài nguyên để người triển khai, người tìm hiểu dễ dàng tiếp cận thông tin và giải pháp là những nội dung cần tiến hành.

Đối với những hướng dẫn cơ bản về dữ liệu mở, hướng dẫn này thảo luận về các khía cạnh về pháp lý, xã hội và kỹ thuật của dữ liệu mở. Nội dung này có thể được sử dụng cho bất kỳ ai nhưng thiết thực nhất là đối với những cá nhân, tổ chức đang tìm kiếm về việc mở dữ liệu. Nội dung này sẽ thảo luận về lý do tại sao nên mở dữ liệu, mở có nghĩa là gì và cách 'mở' dữ liệu. Đối với những câu truyện giá trị mà dữ liệu mở mang lại, đó là tập hợp các câu truyện, các mô hình hay, các ví dụ thực tiễn để thể hiện được những giá trị về mặt kinh tế và xã hội mà dữ liệu mang lại, những tác động và việc ứng dụng đa dạng của dữ liệu mở ở các thành phố và quốc gia trên quy mô toàn cầu. Đối với thư viện tài nguyên có thể xem đây là một tập hợp về các tài nguyên dữ liệu mở được tuyển chọn, bao gồm các bài báo, ấn phẩm, cách hướng dẫn, tài liệu trình bày và video được sản xuất được tạo lập do cộng đồng dữ liệu mở toàn cầu.

Hình 1: Ví dụ các bước cần hướng dẫn khi cung cấp dữ liệu mở

Khái niệm dữ liệu mở và cụ thể là dữ liệu chính phủ mở là việc công khai dữ liệu và thông tin để bất kỳ ai cũng có thể tự do truy cập và tái sử dụng cho bất kỳ mục đích nào - đã xuất hiện được một số năm. Năm 2009, dữ liệu mở bắt đầu trở nên rõ ràng hơn với nhiều chính phủ khác nhau (chẳng hạn như Hoa Kỳ, Vương quốc Anh, Canada và New Zealand) đã công bố các phát kiến mới nhằm mở các thông tin của cơ quan nhà nước một cách công khai. Có thể nói, dữ liệu mở, đặc biệt là dữ liệu mở của chính phủ, là một nguồn tài nguyên to lớn chưa được khai thác một cách mạnh mẽ. Hiện nhiều cá nhân và các tổ chức thu thập đa dạng các loại dữ liệu để thực hiện các mục đích khác nhau. Chính phủ đặc biệt có ý nghĩa trong nội dung này vì tính chất số lượng, quy mô về dữ liệu thu thập cũng như khả năng cung cấp dữ liệu mở. Một số lợi ích mà dữ liệu mở chính phủ mang lại như:

- Nâng cao tính công khai, minh bạch của cơ quan nhà nước; tạo điều kiện thuận lợi cho việc đo lường tác động của các chính sách;

- Nâng cao hiệu quả các dịch vụ công;

- Tạo điều kiện thuận lợi cho sự tham gia của nhiều đối tượng trong hoạt động của cơ quan nhà nước; thúc đẩy việc trao quyền cho mọi người dân, doanh nghiệp, tổ chức;

- Góp phần cải thiện và tạo ra các dịch vụ và sản phẩm mới; thúc đẩy, tạo điều kiện cho hoạt động đổi mới sáng tạo; góp phần tạo ra các kiến thức mới.

Hướng dẫn cung cấp dữ liệu mở tiếp cận như thế nào

Nội dung quan trọng nhất của các hướng dẫn về cung cấp dữ liệu mở phải đưa ra các khuyến nghị cụ thể, chi tiết về cách tiến hành mở dữ liệu. Có ba quy tắc chính được khuyến nghị khi mở dữ liệu.

- Trước hết, cần đơn giản, tránh phức tạp hóa vấn đề, bắt đầu nhỏ, đơn giản và nhanh chóng, không cần thiết phải đưa ra yêu cầu mọi tập dữ liệu phải được mở một cách ngay lập tức và nên bắt đầu bằng cách chỉ mở một tập dữ liệu (hoặc thậm chí một phần của tập dữ liệu lớn) là việc nên làm. Tất nhiên là việc nếu chúng ta có khả năng nhiều bộ dữ liệu thì càng tốt.

- Tiếp đến, sự đổi mới là vấn đề quan trọng, triển khai nhanh là việc làm tốt vì thông qua việc này chúng ta có thể tạo ra một động lực cũng như học hỏi kinh nghiệm thất bại, vì vấn đề đổi mới thì tầm quan trọng của thất bại cũng như thành công và phải ghi nhớ rằng không nên kỳ vọng mọi bộ dữ liệu đều là hữu ích.

- Cuối cùng, nên có sự tham gia sớm và thường xuyên, tiến hành tương tác với người dùng thực tế, người dùng tiềm năng và người tái sử dụng các dữ liệu một cách sớm và thường xuyên nhất có thể, những người này là công dân, doanh nghiệp, hay các nhà lập trình phát triển. Điều này sẽ đảm bảo những vòng lặp tiếp theo của việc mở dữ liệu sẽ có tính liên quan và hữu dụng cao hơn.

Có thể nói, tựu chung có bốn bước chính trong việc mở dữ liệu, bao gồm việc lựa chọn tập dữ liệu, áp dụng giấy phép, làm cho dữ liệu khả dụng và biến các tập dữ liệu này có thể tìm kiếm và khám phá được. Về lựa chọn các tập dữ liệu là việc tiến hành chọn các tập dữ liệu chúng ta dự định mở. Việc áp dụng giấy phép mở tập trung vào việc xác định những quyền sở hữu trí tuệ có tồn tại trong dữ liệu và áp dụng giấy phép 'mở' phù hợp thông qua cấp phép cho tất cả các quyền một cách “mở” nhất có thể. Nội dung để làm cho dữ liệu có sẵn là việc biến chúng thành 1 tập hợp hoàn chỉnh và ở định dạng hữu ích. Nội dung về làm cho dữ liệu có thể tìm kiếm và khám phá được cụ thể như đăng tải trên web và có thể sắp xếp thành một danh mục trung tâm để liệt kê các bộ dữ liệu mở mà chúng ta cung cấp.

Cách lựa chọn tập dữ liệu để cung cấp

Chọn các tập dữ liệu mà chúng ta dự định mở là bước đầu tiên - mặc dù cũng cần lưu ý rằng toàn bộ quá trình mở dữ liệu là việc lặp đi lặp lại và chúng ta có thể quay lại bước này nếu gặp những vấn đề ở bước sau. Nếu như chúng ta đã biết chính xác các tập dữ liệu nào là nên mở, chúng ta có thể chuyển thẳng sang phần tiếp theo. Tuy nhiên, trong nhiều trường hợp, đặc biệt là đối với các tổ chức lớn, việc lựa chọn bộ dữ liệu nào để tập trung trong việc mở dữ liệu ở giai đoạn đầu là một thách thức. Vậy, chúng ta nên tiến hành trong trường hợp bằng cách nào? Tạo ra một danh sách nên được tiến hành nhanh nhằm xác định tập dữ liệu nào có thể được mở trong giai đoạn đầu. Sẽ có thời gian ở các giai đoạn sau để kiểm tra chi tiết xem từng tập dữ liệu có phù hợp hay không cho việc mở. Không có một yêu cầu cụ thể nào trong việc phải tạo ra một danh sách toàn diện các tập dữ liệu mà chúng ta có. Điểm chính cần lưu ý là việc liệu có khả thi hay không để mở các tập dữ liệu này.

Một cách tiếp cận khác là khảo sát nhu cầu của cộng đồng người dùng, để đưa ra danh mục các dữ liệu cần mở, việc hỏi, khảo sát cộng đồng là việc làm khuyến nghị bởi vì đây là những người sẽ truy cập và sử dụng dữ liệu. Do đó, cộng đồng sẽ hiểu rõ dữ liệu nào có thể có giá trị. Các bước làm có thể thông qua 6 bước như sau: Trước hết, chúng ta cần chuẩn bị một danh sách ngắn các tập dữ liệu tiềm năng mà chúng ta muốn nhận phản hồi. Không nhất thiết cầu toàn danh sách này đáp ứng được đầy đủ các mong đợi, mục đích chính của việc làm này là để cảm nhận được nhu cầu về dữ liệu mở. Công việc này có thể được tiến hành bằng cách dựa trên danh mục dữ liệu mở của các quốc gia khác. Tiếp theo là tạo các yêu cầu cho ý kiến đóng góp, nhận xét và công khai đưa ra yêu cầu xin ý kiến qua các trang web và đảm bảo rằng có thể truy cập thông tin thông qua URL. Bằng cách này, khi được chia sẻ qua phương tiện mạng xã hội, các yêu cầu này có thể được tìm thấy dễ dàng. Ngoài ra, chúng ta cần cung cấp các phương thức dễ dàng để gửi phản hồi. Tránh việc yêu cầu đăng ký tài khoản vì điều này làm giảm số lượng phản hồi. Việc thúc đẩy mọi người có ý kiến bằng cách truyền tải thông tin xin ý kiến qua các danh sách thư điện tử liên quan, diễn đàn, các cá nhân và dẫn chiếu đến địa chỉ xin ý kiến. Ngoài ra, chúng ta cũng ó thể tổ chức một hội thảo để xin ý kiến. Cân nhắc việc tổ chức vào thời gian phù hợp để mọi người có thể tham dự.

Một cách tiếp cận khác thay vì quyết định dữ liệu nào có giá trị hữu ích nhất, thì tiếp cận dữ liệu nào dễ dàng công bố và mở công khai cho công chúng nhất. Việt phát hành các tập dữ liệu đơn giản, dễ dàng, nhỏ có thể đóng vai trò là chất xúc tác cho văn hóa mở trong tổ chức. Tuy nhiên, đối với cách tiếp cận này cũng nên có những cẩn thận nhất định. Vì việc phát hành các dữ liệu này nếu không có quá nhiều giá trị sẽ không thể tạo ra giá trị từ các dữ liệu này và do đó ảnh hưởng đến niềm tin về tiềm năng của dữ liệu mở. Dữ liệu mở là một phong trào đang phát triển. Có khả năng có nhiều cơ quan, tổ chức khác cũng triển khai các hoạt động tương tự. Việc xây dựng một danh sách trên cơ sở những cơ quan, tổ chức khác đang triển khai cũng là một cách tiếp cận khả thi.

Áp dụng Giấy phép Mở (tính mở về mặt pháp lý) cho dữ liệu mở

Hầu hết đối với vấn đề pháp lý là vấn đề về quyền sở hữu trí tuệ trong các tập dữ liệu để ngăn các bên thứ ba sử dụng, tái sử dụng và phân phối lại dữ liệu mà không có sự cho phép rõ ràng. Ngay cả khi việc mở nhưng các quyền sử dụng dữ liệu không rõ ràng, điều quan trọng ở đây là phải áp dụng giấy phép chỉ đơn giản với mục đích duy nhất là làm rõ ràng quyền sử dụng. Do đó, nếu cơ quan, tổ chức có kế hoạch cung cấp dữ liệu mở của mình, chúng ta nên đặt giấy phép cho nó - nếu chúng ta muốn dữ liệu thực sử mở và thúc đẩy tối đa mục tiêu quan trọng là sử dụng, tái sử dụng lại dữ liệu.

Chúng ta có thể sử dụng những giấy phép nào? Các hướng dẫn cũng cần đưa ra lời khuyên nên sử dụng một trong các giấy phép phù hợp với Định nghĩa mở và phù hợp với dữ liệu. Danh sách này (kèm theo hướng dẫn sử dụng) có thể được tham khảo tại địa chỉ: http://opendefinition.org/licenses/ để có hướng dẫn tóm tắt để áp dụng giấy phép dữ liệu mở trên trang Web Open Data Commons hoặc tại địa chỉ http://opendatacommons.org/guide/.

Tạo tính khả dụng của các tập dữ liệu mở được công bố

Dữ liệu nên được cung cấp có sẵn miễn phí và có thể tải miễn phí dễ dàng từ Internet, dữ liệu nên có sẵn dưới dạng một bộ hoàn chỉnh. Nếu bạn có một tập dữ liệu về một chủ đề nhất định, tất cả các số liệu của chủ đề này nên là một bộ hoàn chỉnh để tải xuống. API hoặc dịch vụ tương tự cũng có thể rất hữu ích, nhưng chúng không thay thế cho khả năng truy cập dữ liệu hàng loạt. Một vấn đề quan trọng khác là đảm bảo việc cung cấp dữ liệu ở các định dạng có thể đọc được bằng máy để cho phép sử dụng lại nhiều nhất. Để minh họa điều này, hãy xem xét số liệu thống kê được công bố dưới dạng tài liệu PDF, loại định dạng này thường được sử dụng để in chất lượng cao. Mặc dù những số liệu thống kê này có thể được đọc bởi con người, nhưng chúng rất khó để máy tính sử dụng. Điều này hạn chế đáng kể khả năng người khác sử dụng lại dữ liệu đó.

Có nhiều cách khác nhau để cung cấp dữ liệu cho người khác. Phổ biến nhất trong thời đại Internet là cung cấp dữ liệu trực tuyến. Có rất nhiều biến thể cho mô hình này. Ở mức cơ bản nhất, các cơ quan cung cấp dữ liệu thông qua các trang web của cơ quan, tổ chức và một danh mục trung tâm hướng người truy cập đến nguồn thích hợp. Tuy nhiên, cũng có những lựa chọn thay thế. Khi kết nối bị hạn chế hoặc kích thước của dữ liệu là rất lớn, việc phân phối qua các định dạng khác cũng có thể được đề cập để đảm bảo việc mở dữ liệu. Tài liệu này cũng sẽ thảo luận về các phương án thay thế để triển khai nhưng vẫn đảm bảo chi phí thấp.

Việc quen thuộc và đơn giản nhất để cung cấp dữ liệu mở của cơ quan, tổ chức mình là thông qua website của mình. Việc cung cấp các tập dữ liệu có thể tải được kèm theo tính năng cho phép bình luận về dữ liệu sẽ tạo điều kiện thuận lợi cho việc tiếp cận dữ liệu. Một vấn đề khó khăn với cách tiếp cận này là khó cho mọi người có thể dễ dàng khám phá vị trí để tìm các thông tin cập nhật. Phương án này tạo ra một số khó khăn nhất định cho người khai thác và sử dụng dữ liệu của mình.

Một phương án khác là việc cung cấp dữ liệu mở thông qua các trang web của bên thứ 3. Nhiều kho lưu trữ đã trở thành trung tâm dữ liệu trong các lĩnh vực cụ thể. Ví dụ như Infochimps.com; Talis.com cho phép các cơ quan lưu trữ một lượng lớn dữ liệu. Các trang web của bên thứ ba này có thể rất hữu ích. Lý do chính là các trang web này đã được tập hợp lại với nhau như một cộng đồng những người quan tâm đến dữ liệu. Khi dữ liệu của chúng ta là một phần của các nền tảng này, sự tích cực trong việc chia sẻ dữ liệu sẽ được tăng lên và có lợi cho đôi bên. Các nền tảng dữ liệu thương mại cũng đã cung cấp cơ sở hạ tầng có thể hỗ trợ nhu cầu cung cấp dữ liệu mở và thường cung cấp dịch vụ phân tích và sử dụng thông tin. Các nền tảng này có thể có hai bất cập nhỏ. Đầu tiên là vấn đề về tính độc lập trong việc kiểm soát các dữ liệu. Vấn đề thứ hai là sự cởi mở. Cần phải đảm bảo rằng bất cứ ai cũng có thể truy cập và sử dụng dữ liệu mà cơ quan, tổ chức đã cung cấp với bất kỳ thiết bị, loại hình truy cập nào.

Một phương pháp khác để cung cấp quyền truy cập vào các tập dữ liệu là thông qua Giao thức truyền tệp (FTP). Điều này có thể phù hợp nếu đối tượng truy cập dữ liệu có chuyên môn, nghiệp vụ về công nghệ kỹ thuật, chẳng hạn như nhà phát triển phần mềm hoặc các nhà khoa học. Hệ thống FTP hoạt động thay cho HTTP, nhưng được thiết kế đặc biệt để hỗ trợ truyền tệp. Thực tế thì giải pháp FTP không còn được quá ưa chuộng. Thay vì cung cấp thông qua trang web, khi truy cập vào máy chủ FTP tương tự như nhìn vào các thư mục trên máy tính. Do đó, mặc dù nó phù hợp với mục đích, nhưng các công ty phát triển web có ít khả năng tùy chỉnh giao diện.

Một phương án khác cũng nên được xem xét mặc dù không quá phổ biến là việc cung cấp dữ liệu dưới dạng torrent. BitTorrent là một hệ thống đã trở nên quen thuộc vì mối liên hệ của nó với vấn đề vi phạm bản quyền. BitTorrent sử dụng các tệp được gọi là torrent, hoạt động bằng cách chia nhỏ chi phí phân phối tệp giữa tất cả những người truy cập các tệp đó. Thay vì biến các máy chủ trở nên quá tải vì nguồn cung tăng theo khi nhu cầu tăng lên. Đây là lý do mà hệ thống này rất thành công trong việc chia sẻ phim ảnh. Có thể nói đây là một giải pháp rất hiệu quả để phân phối khối lượng dữ liệu rất lớn.

Dữ liệu có thể được công bố thông qua Giao diện lập trình ứng dụng (API). Các giao diện này đã trở nên rất phổ biến. Chúng cho phép các lập trình viên lựa chọn các phần cụ thể của dữ liệu, thay vì cung cấp hàng loạt dữ liệu dưới dạng một tệp lớn. Các API thường được kết nối với cơ sở dữ liệu đang được cập nhật trong thời gian thực. Điều này đồng nghĩa với việc cung cấp thông tin thông qua API có thể đảm bảo rằng thông tin được cập nhật nhất. Việc cung cấp dữ liệu hàng loạt cho phép người khác sử dụng dữ liệu ngoài mục đích ban đầu của nó. Ví dụ: nó cho phép được chuyển đổi sang một định dạng mới, được liên kết với các tài nguyên khác hoặc được lập ra các phiên bản và lưu trữ ở nhiều nơi. Mặc dù phiên bản mới nhất của dữ liệu có thể được cung cấp thông qua API, nhưng dữ liệu thô nên được cung cấp hàng loạt theo định kỳ. Ví dụ: dịch vụ thống kê Eurostat cung cấp hơn 4000 tệp dữ liệu. Nó được cập nhật hai lần một ngày, dữ liệu được cung cấp ở định dạng TSV và bao gồm tài liệu về hướng dẫn cũng như các tệp dữ liệu. Một ví dụ khác là Danh mục dữ liệu của Quận Columbia, cho phép tải xuống dữ liệu ở định dạng CSV và XLS ngoài nguồn cấp dữ liệu một cách trực tiếp.

Kết luận

Bài viết trên đây là những nội dung cơ bản mà người cung cấp dữ liệu mở cần nắm bắt để phục vụ việc triển khai. Dữ liệu mở sẽ không có giá trị nếu không có người dùng. Do đó, khi mở dữ liệu cần thiết phải đảm bảo được rằng mọi người có thể tìm kiếm và khai phá dữ liệu. Các hướng dẫn cũng nên chỉ ra một số cách tiếp cận về các công cụ hiện có để thúc đẩy việc tương tác giữa nhà cung cấp và người sử dụng dữ liệu, các hoạt động, phát kiến xem xét triển khai để dữ liệu mở quảng bá được đến nhiều người dùng nhằm tái sử dụng một cách hiệu quả như thông qua các hoạt động nâng cao năng lực, các cuộc thi đổi mới sáng tạo dựa trên dữ liệu mở đã được công bố. /.

Nguyễn Huy Kháng

Tài liệu tham khảo

  1. Data [Online]. - 2022. - https://www.worldbank.org/en/home.
  2. Discover and use data [Online]. - 2022. - https://www.data.govt.nz/.
  3. Open Data Handbook [Online]. - 2022. - http://opendatahandbook.org/.
  4. Open Data Policy Hub [Online]. - 2022. - https://sunlightfoundation.com/.
  5. Open Standards for Data [Online]. - 2022. - https://standards.theodi.org/.
  6. Publishing Open Government Data [Online]. - 2022. - https://www.w3.org/.
  7. Supply and Quality of Data [Online]. - 2022. - http://opendatatoolkit.worldbank.org/en/supply.html.
  8. The Impact of Open Data [Online]. - 2022. - https://blog.thegovlab.org/.