Đang xử lý.....

Vấn đề về tiêu chuẩn mở cho dữ liệu  

Để nâng cao chất lượng của dữ liệu, việc áp dụng các tiêu chuẩn đổi với dữ liệu là một điều quan trọng. Với việc áp dụng tiêu chuẩn, các dữ liệu sẽ được hiểu và nhận thức giống nhau giữa người dùng giúp cho việc tái sử dụng được thuận tiện hơn. Đối với tiêu chuẩn, tiêu chuẩn mở là một nội dung được nhiều tổ chức cung cấp dữ liệu quan tâm. Bài viết này sẽ tổng hợp và giới thiệu những thông tin liên quan đến tiêu chuẩn mở để hiểu rõ hơn về tiêu chuẩn mở cho dữ liệu.
Thứ Sáu, 16/12/2022 134
|

Tiêu chuẩn mở là gì?

Tiêu chuẩn là các nội dung được văn bản hóa và là các thỏa thuận có thể tái sử dụng nhằm giải quyết một loạt vấn đề cụ thể hoặc đáp ứng các nhu cầu được xác định rõ ràng. Các tiêu chuẩn nêu chi tiết về ngôn ngữ, khái niệm, quy tắc, hướng dẫn hoặc kết quả đã được thống nhất. Các tiêu chuẩn được sử dụng khi các nội dung có tính nhất quán, có thể lặp lại các quy trình, so sánh hoặc đạt được sự hiểu biết chung. Về việc sử dụng, các tiêu chuẩn được sử dụng trong nhiều ngành và lĩnh vực trên toàn thế giới để ghi lại các tiêu chí về mặt vật lý, ý tưởng, sản phẩm số cũng như quy trình và nhiều nội dung khác nữa.

Để hiểu rõ hơn, chúng ta có thể thấy các tiêu chuẩn trong cuộc sống hàng ngày như tiêu chuẩn cho ổ cắm điện để bất kỳ thiết bị nào cũng có thể kết nối, tiêu chuẩn về địa chỉ để bưu điện có thể được gửi bưu kiện hiệu quả hơn, đơn vị đo lường tiêu chuẩn cho đồ uống, kích thước tiêu chuẩn cho đai ốc và bu lông để việc mua bán tiết kiệm chi phí hơn. Như vậy tiêu chuẩn mở là gì, tiêu chuẩn mở là một tiêu chuẩn có sẵn cho bất kỳ ai truy cập, sử dụng hoặc chia sẻ. Liên minh Viễn thông Quốc tế - ITU (tiếng Anh là The International Telecommunication Union), cơ quan chuyên môn của Liên Hợp Quốc về công nghệ thông tin và truyền thông đã cung cấp một định nghĩa hữu ích về các tiêu chuẩn mở từ lĩnh vực tiêu chuẩn hóa viễn thông (ITU-T) như sau: Tiêu chuẩn mở là các tiêu chuẩn được cung cấp cho công chúng và được phát triển (hoặc phê duyệt) và duy trì thông qua một quá trình hợp tác và hướng đến sự đồng thuận.

Định nghĩa này hàm ý rằng các tiêu chuẩn mở không chỉ có sẵn cho bất kỳ ai đọc và thực hiện, mà tham gia vào quá trình tạo ra chúng. Trong thực tế, định nghĩa về tiêu chuẩn mở được diễn giải ở phạm vi rộng. Một số được thiết kế bởi một nhóm nhỏ các tổ chức. Một số khác được tạo ra bằng cách sử dụng các quy trình mở khuyến khích sự tham gia rộng rãi. Một số tiêu chuẩn được tự nguyện thông qua, một số khác được ủy quyền bởi các cơ quan quản lý. Một đặc tính kỹ thuật được tạo ra bởi một tổ chức mà có sẵn cho bất kỳ ai tự do sử dụng và đã được áp dụng một cách rộng rãi cũng có thể được coi là một tiêu chuẩn mở.

Tiêu chuẩn mở cho dữ liệu là gì?

Các tiêu chuẩn mở cho dữ liệu được hiểu là các tiêu chuẩn được văn bản hóa và các thỏa thuận có thể tái sử dụng giúp các cá nhân, tổ chức cung cấp, truy cập, chia sẻ và sử dụng dữ liệu chất lượng tốt hơn. Các tiêu chuẩn mở có thể áp dụng cho dữ liệu mở (dữ liệu mà bất kỳ ai cũng có thể truy cập, sử dụng hoặc chia sẻ), cũng như dữ liệu được chia sẻ hoặc dữ liệu đóng. Các tiêu chuẩn mở hỗ trợ cho các loại dữ liệu một cách tốt hơn, đầu ra của một tiêu chuẩn mở có thể là dữ liệu hoặc một mô hình hỗ trợ dữ liệu chất lượng tốt hơn.

Để dễ hình dung, chúng ta có thể điểm qua một số tiêu chuẩn mở cho dữ liệu.  Ví dụ như đặc tính kỹ thuật nguồn cấp dữ liệu phương tiện công cộng (GTFS) là một tiêu chuẩn cho phương tiện công cộng giúp chúng ta dễ dàng tìm thấy các điểm dừng và lịch trình xe buýt, tàu khi sử dụng các ứng dụng như Citymapper, Google Maps hoặc các ứng dụng chia sẻ hành trình như Park.io. Ở Anh, các cơ quan quy hoạch thuộc chính quyền địa phương sử dụng tiêu chuẩn dữ liệu mở đăng ký Brownfield để chia sẻ vị trí và tình trạng của các địa điểm phù hợp cho việc phát triển khu dân cư. Cơ quan Bảo vệ Môi trường Hoa Kỳ (EPA) sử dụng các tiêu chuẩn mở cho dữ liệu môi trường và trao đổi dữ liệu trung tâm để giảm đáng kể chi phí thu thập và chia sẻ dữ liệu với 65.000 người dùng đang hoạt động.

Các loại tiêu chuẩn mở cho dữ liệu

Có hàng ngàn tiêu chuẩn mở cho dữ liệu được sử dụng mỗi ngày trên khắp thế giới. Để rõ hơn, có thể nhóm các tiêu chuẩn theo mục đích và sản phẩm chính. Với các tiêu chuẩn mở về dữ liệu, có 3 mục đích lớn. Thứ nhất là chia sẻ thuật ngữ và ngôn ngữ chung bằng cách sử dụng các mô hình, thuộc tính và định nghĩa chung, với các nội dung như đăng ký, phân loại, thuật ngữ và bản thể. Đối với trao đổi dữ liệu trong và giữa các tổ chức và hệ thống bằng cách sử dụng các định dạng phổ biến và quy tắc được chia sẻ, với các nội dung như thông số kỹ thuật, lược đồ và các mẫu. Cuối cùng đối với việc cung cấp hướng dẫn và khuyến nghị để chia sẻ dữ liệu chất lượng tốt hơn, hiểu các quy trình và luồng thông tin, với các nội dung đầu ra như mô hình, giao thức và hướng dẫn.

Hình 1: Các nội dung có thể áp dụng tiêu chuẩn mở

Tất cả các tiêu chuẩn mở đều chia sẻ các tính năng chung, ví dụ như khả dụng cho bất cứ người nào truy cập, sử dụng hoặc chia sẻ. Tùy thuộc vào mục đích và sản phẩm của một tiêu chuẩn mở nhất định, một số tính năng có liên quan hơn những tính năng khác. Ví dụ khi sử dụng tiêu chuẩn trao đổi dữ liệu là phải kiểm tra xem dữ liệu đã được tạo chính xác hay chưa bằng cách kiểm tra dữ liệu theo các quy tắc của tiêu chuẩn. Điều này không cần thiết cho các tiêu chuẩn tập trung vào hướng dẫn hoặc thuật ngữ được chia sẻ vì việc sử dụng các tiêu chuẩn này không tạo ra dữ liệu mới.

Đối với tiêu chuẩn để chia sẻ các thuật ngữ. Các thuật ngữ được chia sẻ giúp mọi người và tổ chức truyền đạt các khái niệm, con người, địa điểm, sự kiện hoặc những nội dung quan trọng để đáp ứng nhu cầu hoặc giải quyết vấn đề. Một kho thuật ngữ tốt tập trung vào một lĩnh vực cụ thể và sử dụng các định nghĩa rõ ràng, rõ ràng về các từ và khái niệm mà nó hàm chứa. Thuật ngữ được chia sẻ bao gồm từ danh sách các từ đơn giản và ý nghĩa của chúng đến các sản phẩm phức tạp hơn. Sự phức tạp của thuật ngữ phụ thuộc vào độ phức tạp của vấn đề được giải quyết.

Với vốn thuật ngữ được chia sẻ, chúng ta có thể nhóm các nội dung như: “các khái niệm” thể hiện các thông tin quan trọng, ví dụ: "giáo dục", "tội phạm" hoặc "mua sắm". “Các từ” được sử dụng trong ngữ cảnh vấn đề đang được giải quyết, ví dụ: "trường học", "tòa án" hoặc "hợp đồng". “Thuộc tính” là thuộc tính của con người, địa điểm, sự kiện hoặc sự vật, đồng thời cung cấp cho chúng tôi thêm thông tin về họ, ví dụ: tên của một người. “Mối quan hệ” giữa con người, địa điểm, sự kiện hoặc sự vật, ví dụ: "đã kết hôn với" hoặc "do ai sản xuất". “Mã hoặc số nhận dạng” xác định người, địa điểm, sự kiện hoặc sự vật, ví dụ: "mã bưu chính", "số hộ chiếu" hoặc "số đăng ký xe". “Đơn vị đo lường” mô tả cách đo đại lượng, ví dụ: "inch", "centimet" hoặc "độ C". “Các mô hình” mô tả những người và tổ chức hoạt động trong một khu vực và mối quan hệ giữa họ dựa trên cách thông tin lưu chuyển.

Thuật ngữ dùng chung thường được sử dụng với các tiêu chuẩn trao đổi dữ liệu để tạo ra dữ liệu chất lượng tốt hơn, dễ phân tích và diễn giải. Ví dụ về từ vựng được chia sẻ như BBC Ontology được BBC sử dụng để mô tả các tổ chức và đội thể thao; Bộ danh sách đăng ký chính quyền địa phương Vương quốc Anh là một danh sách có thẩm quyền của chính quyền địa phương do Bộ Cộng đồng và Chính quyền địa phương quản lý.

Tiêu chuẩn để trao đổi dữ liệu

Các tiêu chuẩn mở có thể hỗ trợ tốt hơn cho chất lượng dữ liệu bằng cách cung cấp các quy tắc về những gì cần chia sẻ và cách chia sẻ dữ liệu đó. Các tiêu chuẩn để trao đổi dữ liệu chỉ định các định dạng phổ biến và các quy tắc được chia sẻ dẫn đến dữ liệu nhất quán. Một tiêu chuẩn tốt để trao đổi dữ liệu giải quyết một vấn đề cụ thể và cung cấp các công cụ để kiểm tra xem dữ liệu đã được cấu trúc đúng chưa. Các tiêu chuẩn trao đổi dữ liệu điển hình xác định một định dạng chung cho dữ liệu mô tả cách dữ liệu nên được quy trình và cấu trúc để chia sẻ như thế nào. Hoặc nó có thể kết hợp các định dạng phổ biến, chia sẻ các thuật ngữ và các quy tắc khác để mô tả dữ liệu nào nên được chia sẻ để giải quyết một vấn đề cụ thể.

Đối với trao đổi dữ liệu, chúng ta có các nhóm nội dung như sau. Các định dạng mô tả cách cấu trúc dữ liệu để chia sẻ hoặc lưu trữ, ví dụ: định dạng tệp và dữ liệu như CSV, JSON và XML. Các loại dữ liệu mô tả cách thể hiện các giá trị liên quan đến con người, địa điểm, sự kiện hoặc sự vật, ví dụ: tên của một người là văn bản, tuổi của họ là một số nguyên. Trao chuyển dữ liệu xác định các quy tắc về chia sẻ, trao đổi hoặc cung cấp quyền truy cập vào thông tin, ví dụ như API để tìm một số dữ liệu hoặc hoàn tất giao dịch. Các quy tắc mô tả dữ liệu nào cần chia sẻ, lược đồ, định dạng và thuật ngữ được chia sẻ để sử dụng, cũng như các quy tắc khác cần thiết để giải quyết một vấn đề cụ thể. Bản đồ mô tả cách các mô hình được thể hiện dưới dạng định dạng trao đổi dữ liệu - ví dụ: ánh xạ đầu ra của mô hình thành phố thông minh sang định dạng trao đổi dữ liệu mà hệ thống thông tin có thể đọc và ghi.

Ví dụ về các tiêu chuẩn trao đổi dữ liệu như thông tin kỹ thuật dữ liệu phương tiện công cộng (GFTS) là tiêu chuẩn trên thực tế trên toàn thế giới để xuất bản, truy cập, chia sẻ và sử dụng thông tin giao thông công cộng. CSV là định dạng văn bản thuần túy để cấu trúc tệp dữ liệu bằng cách sử dụng hàng và cột

Tiêu chuẩn cho các hướng dẫn

Một tiêu chuẩn mở cung cấp hướng dẫn giúp mọi người và tổ chức hiểu và ghi lại các luồng thông tin và mô hình dữ liệu cần thiết để giải quyết vấn đề của họ. Với tiêu chuẩn hướng dẫn, chúng ta có thể chuẩn hóa các đơn vị và cách đo lường để giúp thu thập dữ liệu, ví dụ: độ C, vĩ độ và mét. Các quy trình mô tả các giao thức hoặc phương pháp để đo lường, thu thập hoặc chia sẻ dữ liệu một cách nhất quán, ví dụ: các phương pháp thống kê như chọn mẫu. Quy tắc thực hành cung cấp các phương pháp thực hành dữ liệu nhất quán, ví dụ: các phương pháp hay nhất, đề xuất và hướng dẫn khác. Ví dụ về các tiêu chuẩn hướng dẫn như mô hình khái niệm thành phố thông minh BSI PAS 182 giúp những người ra quyết định và các tổ chức cung cấp dịch vụ tại các thành phố xóa bỏ rào cản chia sẻ thông tin; OpenEHR là tiêu chuẩn quốc tế để xây dựng kho dữ liệu sức khỏe có thể được sử dụng với bất kỳ nhà cung cấp nào.

Khi nào nên sử dụng các tiêu chuẩn mở cho dữ liệu

Các tiêu chuẩn mở cho dữ liệu rất hữu ích cho việc tương tác, tổng hợp, so sánh và liên kết. Nếu có thể, nên cân nhắc sử dụng tiêu chuẩn mở hiện có thay vì phát triển một tiêu chuẩn mới. Đối với tăng khả năng tương tác là sự dễ dàng mà các hệ thống có thể làm việc cùng nhau bằng cách sử dụng các công cụ và quy trình được phát triển phù hợp với tiêu chuẩn trao đổi dữ liệu, một tiêu chuẩn để chia sẻ thuật ngữ hoặc cách thực hiện để trao đổi dữ liệu thành công. Ví dụ như các nhà phát triển có thể thêm thông tin phương tiện công cộng từ mọi nơi trên thế giới vào ứng dụng của họ, miễn là dữ liệu tuân thủ tiêu chuẩn GTFS. Đây là cách Google Maps và Citymapper cung cấp lịch trình xe buýt, tàu, phương tiện giao thông cùng với chỉ đường lái xe và đi bộ. Về việc cải thiện khả năng so sánh thông qua việc giúp so sánh dữ liệu từ các nguồn khác nhau và rút ra kết luận dễ dàng hơn. Sử dụng một tiêu chuẩn để chia sẻ các thuật ngữ làm cho ngôn ngữ và khái niệm có thể tái sử dụng và nhất quán, hoặc một tiêu chuẩn để trao đổi dữ liệu có thể làm cho dữ liệu chất lượng tốt hơn dễ so sánh hơn. Ví dụ: các cơ quan quy hoạch địa phương và Bộ Cộng đồng và Chính quyền Địa phương (DCLG) ở Anh có thể so sánh các địa điểm phù hợp để tái phát triển trên phạm vi toàn quốc hoặc khu vực khi dữ liệu đất đai brownfield được chia sẻ bằng tiêu chuẩn dữ liệu đăng ký đất đai Brownfield.

Đối với sự hữu ích trong việc tổng hợp bằng cách giảm chi phí và độ phức tạp của việc kết hợp dữ liệu tương tự từ nhiều nguồn. Các tiêu chuẩn mở khuyến khích công bố dữ liệu mới và dữ liệu chất lượng tốt hơn được cấu trúc theo cách tương tự, giúp kết hợp chúng dễ dàng hơn. Các tiêu chuẩn mở khuyến khích việc tạo ra các công cụ và dịch vụ mới để tận dụng dữ liệu phù hợp với tiêu chuẩn. Ví dụ như cơ quan Bảo vệ Môi trường Hoa Kỳ (EPA) thu thập dữ liệu môi trường, để hình thành một bức tranh chung quy mô quốc gia, thông tin từ từng tiểu bang, cơ quan địa phương và các tổ chức khác được tổng hợp bằng cách sử dụng các tiêu chuẩn mở cho dữ liệu môi trường. Đối với hữu ích trong việc cho phép khả năng liên kết đó là sự dễ dàng kết hợp dữ liệu đa dạng để tăng tính hữu ích và mang lại các thông tin chi tiết. Một tiêu chuẩn để chia sẻ các mã, số nhận dạng về con người, địa điểm, sự kiện và sự vật cho phép liên kết dữ liệu từ nhiều nguồn. Ví dụ, danh sách các chính quyền địa phương ở Anh là một danh sách có thẩm quyền được công bố bởi chính phủ Vương quốc Anh.

Các tiêu chuẩn mở là một công cụ quan trọng trong việc giúp tạo ra một cơ sở hạ tầng dữ liệu mạnh mẽ. Cơ sở hạ tầng dữ liệu bao gồm các tài sản dữ liệu, các tổ chức vận hành và duy trì dữ liệu cũng như hướng dẫn mô tả cách sử dụng và quản lý dữ liệu. Một cơ sở hạ tầng dữ liệu mạnh mẽ là rất quan trọng để thúc đẩy đổi mới kinh doanh, thúc đẩy các dịch vụ công tốt hơn và tạo ra các cộng đồng lành mạnh, bền vững.

Kết luận

Ngày nay, có hàng ngàn tiêu chuẩn mở cho các mục đích đa dạng trong nhiều lĩnh vực khác nhau. Các tiêu chuẩn mở thành công cho dữ liệu có một điểm chung - chúng tập trung vào việc giải quyết các vấn đề và hỗ trợ để nâng cao chất lượng của dữ liệu. Ví dụ, ở Mỹ có sự khác biệt về cách cấp giấy phép xây dựng chính quyền tiểu bang, quận và thành phố khác nhau. Các công ty công nghệ, cơ quan nhà nước và các bên khác đã hợp tác để tạo ra đặc tả dữ liệu BLDS giúp chia sẻ và sử dụng dữ liệu về giấy phép xây dựng và xây dựng dễ dàng hơn. Đây là một ví dụ về lợi ích trong việc áp dụng tiêu chuẩn mở, do đó, việc tìm hiểu và nghiên cứu về các tiêu chuẩn mở đối với dữ liệu là một việc làm cần thiết để dữ liệu chất lượng và mang lại nhiều giá trị hơn cho người dùng. /.

Nguyễn Huy Kháng

Tài liệu tham khảo

  • [Online] // World Bank Open Data. - 2022. - https://data.worldbank.org/.
  • Open Data Handbook [Online]. - 2022. - http://opendatahandbook.org/.
  • Open Data Policy Hub [Online]. - 2022. - https://sunlightfoundation.com/.
  • Open Standards for Data [Online]. - 2022. - https://standards.theodi.org/.
  • Readiness Assessment Tool [Online]. - 2022. - http://opendatatoolkit.worldbank.org/en/odra.html.
  • Releasing data on data.govt.nz [Online]. - 2022. - https://www.data.govt.nz/catalogue-guide/releasing-data-on-data-govt-nz/.
  • The Impact of Open Data – Initial Findings from Case Studies [Online]. - 2022. - https://blog.thegovlab.org/post/the-impact-of-open-data-initial-findings-from-case-studies.
  • Using data.govt.nz APIs [Online]. - 2022. - https://www.data.govt.nz/catalogue-guide/using-data-govt-nz-apis/.