Các thuật ngữ "danh mục", "nền tảng" và "cổng thông tin" thường có sự nhầm lẫn với nhau và khá trừu tượng. Bài viết này sẽ định nghĩa các thuật ngữ trên như sau:
- Danh mục dữ liệu là danh sách các tập dữ liệu khả dụng trong sáng kiến về dữ liệu mở. Các yếu tố thiết yếu của một danh mục dữ liệu bao gồm tìm kiếm, dữ liệu đặc tả, thông tin giấy phép một cách rõ ràng và quyền truy cập đến các tập dữ liệu.
- Nền tảng cung cấp một "giao diện bề ngoài" trực tuyến (front door) để người dùng truy cập tất cả các tài nguyên có sẵn liên quan đến sáng kiến dữ liệu mở. Một nền tảng bao gồm danh mục dữ liệu kèm với các thông tin và dịch vụ khác như một phần của hệ sinh thái dữ liệu mở, bao gồm các thành phần như: Diễn đàn trực tuyến để thảo luận, hỗ trợ và phản hồi với bộ phận kỹ thuật; các thông tin về kiến thức nền tảng và tài liệu đào tạo; các thông tin để liên lạc và tiếp cận. Các dịch vụ trong một nền tảng thường được triển khai với một nhóm các công nghệ, chứ không phải là một công nghệ duy nhất.
- Cổng thông tin có thể bao hàm nhiều ý nghĩa khác nhau; với lý do đó, bài viết này tránh sử dụng thuật ngữ này.
Danh mục dữ liệu mở được hiểu như thế nào?
Hầu hết các danh mục dữ liệu mở đều có một số đặc điểm chung như tính dễ dàng truy cập, khả năng tìm kiếm, các định dạng máy có thể đọc được, dữ liệu đặc tả, giấy phép mở, trực quan hóa dữ liệu, các tiêu chuẩn, API và tính bảo mật.
Về tính dễ dàng truy cập, danh mục dữ liệu mở giúp người sử dụng dễ dàng trong việc truy cập dữ liệu một cách nhanh chóng, thoải mái và trực quan. Việc truy cập vào danh mục dữ liệu mở không yêu cầu phải đăng ký hoặc đăng nhập vì những yêu cầu này sẽ tạo nên rào cản và không khuyến khích việc khai phá và sử dụng dữ liệu. Đối với khả năng tìm kiếm, danh mục dữ liệu mở giúp dễ dàng tìm kiếm dữ liệu. Hầu hết các danh mục dữ liệu được sắp xếp theo chủ đề, tổ chức hoặc loại dữ liệu cũng như hỗ trợ việc tìm kiếm theo từ khóa. Nhiều danh mục dữ liệu mở thực hiện tối ưu hóa việc tìm kiếm nhằm mục đích dễ dàng hiển thị được dữ liệu từ các công cụ tìm kiếm thông thường.
Về định dạng để việc truy cập các dữ liệu có thể đọc được bằng máy, dữ liệu sẵn sàng được tải xuống ở định dạng số không độc quyền, có thể đọc được bằng máy. Trong phạm vi có thể, ưu tiên việc có khả năng tải xuống tất cả dữ liệu chỉ bằng một tệp tải xuống. Đối với dữ liệu đặc tả. Các dữ liệu đặc tả chính, chẳng hạn như ngày xuất bản và phân phối được hiển thị nổi bật cho các tập dữ liệu. Nhiều danh mục dữ liệu mở triển khai tiêu chuẩn dữ liệu đặc tả Dublin Core (Dublin Core nghĩa là chuẩn dùng để mô tả dữ liệu trong các thẻ Metadata nhằm khai thác các tài liệu trong thư viện và trên các Web thông qua Internet) và cung cấp dữ liệu đặc tả ở định dạng máy có thể đọc được.
Dữ liệu cũng cần phải rõ ràng về giấy phép
Giấy phép dữ liệu cần được hiển thị rõ ràng và nổi bật cho mỗi tập dữ liệu. Nếu dữ liệu được cấp phép theo các chuẩn của Creative Commons (Giấy phép Creative Commons là cách thức tiêu chuẩn để người sáng tạo nội dung cấp quyền sử dụng tác phẩm của họ cho người khác), Giấy phép Dữ liệu Mở hoặc các tiêu chuẩn khác thì việc minh bạch các đường dẫn tham chiếu đến các giấy phép này cần được bao gồm. Đối với trực quan hóa dữ liệu, nhiều danh mục Dữ liệu Mở có sẵn các tính năng xem trước dữ liệu trước khi tải xuống hoặc trực quan hóa các dữ liệu thông qua tính năng các đồ thị hoặc bản đồ được tích hợp sẵn. Về việc tuân thủ tiêu chuẩn, hầu hết các danh mục dữ liệu mở đều hỗ trợ tích hợp nhiều tiêu chuẩn khác nhau, ví dụ như các định dạng dữ liệu (như CSV, XML, JSON) và dữ liệu đặc tả (như Dublin Core). Danh mục dữ liệu mở thường thiết lập mỗi tập dữ liệu khả dụng dưới dạng một liên kết URL duy nhất và dài hạn giúp cho người dùng có thể trích dẫn và liên kết một cách trực tiếp đến dữ liệu. Giao diện lập trình ứng dụng (API) cũng là một nội dung cần quan tâm trong dữ liệu mở. API cho phép các nhà phát triển ứng dụng truy cập được đến danh mục dữ liệu mở mà cụ thể là các tập dữ liệu chi tiết thông qua phần mềm. API tạo điều kiện thuận lợi cho việc khai phá, phân tích, tích hợp dữ liệu, thu thập dữ liệu đặc tả từ các trang web bên ngoài và thông qua các ứng dụng khác. Và vấn đề cuối cùng liên quan đến tính bảo mật. Danh mục dữ liệu mở tiến hành các biện pháp bảo mật để bảo vệ dữ liệu và dữ liệu đặc tả không bị thay đổi bởi người dùng trái phép.
Danh mục dữ liệu mở thường tuân theo một trong hai mô hình cung cấp dịch vụ. Các danh mục Nguồn mở được cung cấp trên danh nghĩa "miễn phí" có thể được sở hữu thông qua việc tải xuống miễn phí và có thể được sửa đổi, tùy chỉnh mà không bị hạn chế hoặc mất phí. Các sản phẩm này có thể được lưu trữ trên các máy chủ chuyên dụng của riêng chủ sở hữu hoặc trên cơ sở hạ tầng dựa trên đám mây, nhưng cả hai cách tiếp cận này đều yêu cầu nhà vận hành danh mục phải quản lý các hoạt động hậu cần liên quan đến công nghệ. Một số nhà cung cấp cung cấp lưu trữ đám mây các sản phẩm nguồn mở như một dịch vụ. Ngoài ra, các sản phẩm Phần mềm dưới dạng Dịch vụ (SaaS) cũng được cung cấp bởi các doanh nghiệp khác nhau với một khoản phí hàng tháng hoặc hàng năm, trong đó các nhà cung cấp chịu trách nhiệm quản lý công nghệ thông tin (CNTT), đảm bảo việc bảo mật và cập nhật phần mềm. Các nhà cung cấp SaaS cũng có thể cung cấp một số hạng mục có thể tùy chỉnh.
Ba mô hình của một danh mục dữ liệu mở
Mục đích ở đây nhằm chỉ ra các yếu tố và dịch vụ khác nhau ảnh hưởng như thế nào và hệ thống thay đổi như thế nào đối với các quy mô khác nhau. Đối với mô hình nền tảng đơn, mô hình này thể hiện một cơ sở hạ tầng CNTT ở mức đơn giản, nơi danh mục dữ liệu và các tệp dữ liệu được lưu trữ trong một môi trường máy chủ duy nhất. Máy chủ này có thể được quản lý nội bộ bởi cơ quan dẫn dắt hoặc nó có thể được lưu trữ đám mây. Các tập dữ liệu hướng API (nếu có) sẽ được quản lý riêng theo các yêu cầu đối với công nghệ cơ bản. Nội dung về tin tức, hỗ trợ và phải hồi người dùng là những thành phần quan trọng trong việc thúc đẩy sự tham gia của người dùng trong sáng kiến dữ liệu mở thường có thể được cung cấp bởi cùng một cơ sở hạ tầng. Tuy nhiên, về mặt khái niệm, các bộ phận này là các hệ thống riêng biệt được kết nối với danh mục dữ liệu một cách không quá chặt chẽ. Mô hình này phù hợp khi có một số lượng nhỏ tập dữ liệu (khoảng dưới 200 tập dữ liệu) trong danh mục dữ liệu, dung lượng các tập dữ liệu không quá lớn (khoảng dưới 100Mb) và một cơ quan duy nhất đóng một vai trò mạnh mẽ trong việc điều phối danh mục dữ liệu và quản lý cơ sở hạ tầng CNTT.
Hình 1: Mô hình nền tảng đơn trong cung cấp dữ liệu mở
Mô hình thứ hai là mô hình các máy chủ riêng biệt, mô hình này tiếp cận theo hướng các danh mục dữ liệu và máy chủ lưu trữ các tệp dữ liệu có thể được quản lý riêng biệt bằng cách sử dụng cơ sở hạ tầng được lưu trữ nội bộ hoặc lưu trữ đám mây. Cách tiếp cận này có phần phức tạp hơn so với Mô hình 1 và có sự phù hợp với các tập dữ liệu và danh mục lớn hơn. Cơ sở hạ tầng được lưu trữ đám mây thường là một cách tiếp cận hiệu quả về chi phí, nhưng sẽ không khả thi ở những khu vực có băng thông rất hạn chế.
Về mô hình danh mục liên kết, mô hình này tiếp cận theo hướng việc quản lý danh mục dữ liệu mở được phân cấp cho nhiều cơ quan khác nhau. Theo cách tiếp cận này, một số tệp dữ liệu và dịch vụ API được quản lý bởi các cơ quan riêng biệt, trong khi dữ liệu đặc tả vẫn được cung cấp cho danh mục trung tâm nhằm cho phép tìm kiếm và truy cập liên cơ quan. Các cơ quan thậm chí có thể vận hành danh mục của riêng mình (ví dụ: dữ liệu không gian địa lý hoặc thống kê giáo dục) trong khi vẫn có sự hỗ trợ danh mục trung tâm. Mô hình này phù hợp khi có nhiều cơ quan có năng lực và kinh nghiệm trong việc quản lý dữ liệu mở của riêng họ. Các cơ quan không có năng lực này có thể lựa chọn dựa vào cơ quan dẫn dắt để triển khai như Mô hình 1 hoặc 2.
Nền tảng dữ liệu mở thường được sử dụng
Nền tảng phồ biến nhất hiện nay có thể được kể đến là CKAN, CKAN là một danh mục dữ liệu mã nguồn mở được hỗ trợ chính thức bởi Quỹ Kiến thức Mở (tiếng Anh là Open Knowledge Foundation) và có thể được cài đặt trên bất kỳ các máy chủ Linux, bao gồm cả việc cấu hình được lưu trữ đám mây. Open Knowledge Foundation cũng cung cấp dịch vụ lưu trữ với chi phí tính theo hàng tháng. CKAN được viết bằng ngôn ngữ lập trình Python và được thiết kế để cung cấp và quản lý dữ liệu thông qua giao diện người dùng hoặc API. CKAN có kiến trúc mô-đun thông qua đó các tính năng bổ sung hoặc tùy chỉnh có thể được thêm vào. Ví dụ tiện ích mở rộng DDI Importer (được tài trợ bởi Ngân hàng Thế giới) cung cấp việc hỗ trợ cho tiêu chuẩn dữ liệu đặc tả DDI, bao gồm thu thập dữ liệu đặc tả từ các danh mục vi dữ liệu.
Nền tảng DKAN cũng là một trong những nền tảng nổi bật, DKAN được thiết kế để trở thành "tính năng tương thích" với CKAN. Điều này có nghĩa là API cơ bản của 2 nền tảng này tương đồng nhau, do đó, các hệ thống được thiết kế để tương thích với API của CKAN sẽ hoạt động tốt trên DKAN. DKAN cũng là mã nguồn mở, nhưng nền tảng này dựa trên Drupal, một hệ thống quản lý nội dung tương đối phổ biến được viết bằng PHP thay vì Python. Điều này có thể tạo nên sự thu hút hơn đối với các tổ chức đã đầu tư vào các cổng thông tin dựa trên Drupal. Drupal có kiến trúc mô-đun riêng với hàng nghìn mô-đun có sẵn để tải xuống.
Một nền tảng khác cũng thường được nhắc đến là Junar, Junar là một nền tảng dữ liệu mở SaaS dựa trên đám mây và dữ liệu thường được quản lý trong cơ sở hạ tầng của Junar (mô hình all-in-one - “tất cả trong một"). Junar có thể cung cấp danh mục dữ liệu hoàn chỉnh hoặc dữ liệu thông qua API đối với các danh mục riêng biệt.
Không nổi bật như các nền tảng trên, nền tảng OpenDataSoft cũng được biết đến trong cộng đồng dữ liệu mở. OpenDataSoft là một nền tảng SaaS dựa trên đám mây cung cấp nhiều công cụ về dữ liệu mở và trực quan hóa dữ liệu. Giao diện người dùng (front end) của nền tảng này hoàn toàn là mã nguồn mở. Nền tảng hỗ trợ các định dạng dữ liệu mở phổ biến như CSV, JSON và XML, cùng với các định dạng không gian địa lý như KML, OSM và SHP. Chức năng tìm kiếm được đánh giá là dễ sử dụng và khả dụng với nhiều ngôn ngữ khác nhau.
Một nền tảng khác liên quan đến kho thông tin nổi tiếng Wikipedia là Semantic Media Wiki. Semantic MediaWiki là một phần mở rộng của MediaWiki – ứng dụng wiki nổi tiếng trong việc xây dựng kho thông tin Wikipedia. Trong khi các wiki truyền thống chỉ chứa văn bản, Semantic MediaWiki được bổ sung để cho phép wiki hoạt động như một danh mục dữ liệu và phối kết hợp nhiều cơ sở dữ liệu với nhau. Semantic MediaWiki triển khai dạng RDF, đồng nghĩa với việc cả dữ liệu và dữ liệu đặc tả đều được lưu trữ dưới dạng dữ liệu được liên kết và có thể truy cập thông qua các giao diện dữ liệu được liên kết như SPARQL.
Những nền tảng cần được lưu ý khác như Socrata và Swirrl. Socrata là một nền tảng danh mục dữ liệu mở SaaS dựa trên đám mây cung cấp API, danh mục và các công cụ thao tác với dữ liệu. Một điểm khác biệt của Socrata là nền tảng này cho phép người dùng tạo chế độ xem và trực quan hóa dữ liệu đã được cung cấp và lưu sản phẩm cho người khác sử dụng. Ngoài ra, Socrata cung cấp phiên bản mã nguồn mở của API, nhằm tạo điều kiện cho việc chuyển đổi dễ dàng khi người dùng quyết định không sử dụng mô hình SaaS. Trong khi, Swirrl là một nền tảng dữ liệu mở SaaS dựa trên đám mây được xây dựng dựa trên các công nghệ về dữ liệu được liên kết (ví dụ như RDF và SPARQL) được thiết kế để đạt được mức độ cao nhất trong mô hình dữ liệu mở 5 sao. Tuy nhiên, Swirrl cũng có thể cung cấp dữ liệu thông qua các định dạng thông thường như CSV.
Về nền tảng dữ liệu không gian địa lý liên quan đến dữ liệu mở. Chúng ta có 2 nền tảng nổi bật là ArcGIS và GeoNode. ArcGIS Open Data là một nền tảng SaaS dựa trên đám mây, nơi người dùng có thể khám phá cả dữ liệu không gian và phi không gian trong một giao diện. Đồng thời, nền tảng này cho phép trích xuất các tính năng cụ thể, tải xuống ở nhiều định dạng và API mở. Nền tảng có ArcGIS Online được cung cấp miễn phí, các dịch vụ ArcGIS và được tích hợp với hàng trăm ứng dụng mã nguồn mở cho các thiết bị di động, web và máy tính để bàn. ArcGIS Open Data sử dụng Koop, một công cụ mã nguồn mở ETL để tự động chuyển đổi các dịch vụ web sang các định dạng có thể truy cập được. Trong khi, GeoNode là một nền tảng mã nguồn mở phục vụ phát triển hệ thống thông tin không gian địa lý (GIS) và để triển khai cơ sở hạ tầng dữ liệu không gian. Nền tảng này được thiết kế mở rộng và sửa đổi và có khả năng tích hợp vào các nền tảng hiện có.
Kết luận
Trong các hoạt động liên quan đến cung cấp dữ liệu mở, việc thiết lập hạ tầng liên quan đến quản lý, xây dựng và vận hành hệ thống dữ liệu mở là việc làm quan trọng để tạo nên sự tổng thể, đồng bộ nói chung và việc quản lý dữ liệu mở của từng cơ quan, đơn vị được hiệu quả. Bài viết cung cấp các thông tin tổng quát về các mô hình, các nền tảng phổ biến liên quan đến dữ liệu mở để việc triển khai được hiệu quả, học tập được kinh nghiệm của các quốc gia đã triển khai./.
Nguyễn Huy Kháng
Tài liệu tham khảo
- Data [Online]. - 2022. - https://www.worldbank.org/en/home.
- Discover and use data [Online]. - 2022. - https://www.data.govt.nz/.
- Open Data Handbook [Online]. - 2022. - http://opendatahandbook.org/.
- Open Data Policy Hub [Online]. - 2022. - https://sunlightfoundation.com/.
- Open Standards for Data [Online]. - 2022. - https://standards.theodi.org/.
- Publishing Open Government Data [Online]. - 2022. - https://www.w3.org/.
- Supply and Quality of Data [Online]. - 2022. - http://opendatatoolkit.worldbank.org/en/supply.html.
- The Impact of Open Data [Online]. - 2022. - https://blog.thegovlab.org/.