Mặc dù việc giải thích từ ngữ "chất lượng" có thể khá trừu tượng, nhưng chất lượng có nội hàm là gì đối với bối cảnh dữ liệu đã được xác định khá rõ. Định nghĩa của EuroStat về chất lượng trong thống kê cung cấp một bộ tiêu chí gồm 6 thành phần lớn áp dụng cho dữ liệu thống kê, các thành phần này cũng có thể được áp dụng đối với nhiều loại dữ liệu khác:
- Tính phù hợp: Mức độ mà các số liệu thống kê đáp ứng được nhu cầu của người dùng hiện tại và tiềm năng.
- Độ chính xác và tin cậy: Mức độ mà dữ liệu không tạo ra các sai sót từ các yếu tố khác nhau; Trong bối cảnh thống kê, độ chính xác có nghĩa là sự gần nhất của giá trị ước tính với giá trị thực (không xác định).
- Tính kịp thời và đúng lúc: Thời điểm dữ liệu được công bố liên quan đến những nội dung được đo lường và mức độ tuân thủ chặt chẽ theo kế hoạch về các phiên bản cập nhật của dữ liệu.
- Khả năng truy cập và sự rõ ràng: Sự dễ dàng mà người dùng có thể truy cập được dữ liệu và mức độ giải thích rõ ràng của các dữ liệu thông qua dữ liệu đặc tả.
- Khả năng so sánh: Mức độ mà dữ liệu có khả năng so sánh theo thời gian, khu vực hoặc các lĩnh vực khác.
- Sự gắn kết: Mức độ mà dữ liệu phù hợp với các định nghĩa cũng như phương pháp luận đã được công nhận.
Một bộ tiêu chí đo lường khác, được công bố tại tài liệu Dự án dữ liệu mở (Project Open Data) cũng có thể được sử dụng để làm rõ hơn về chất lượng, cụ thể đối với ngữ cảnh là Dữ liệu mở bao gồm các đặc tính sau đây:
- Tính công khai: Mức độ công khai, cởi mở mà dữ liệu của cơ quan nhà nước tạo ra trong phạm vi pháp luật cho phép và tuân theo quyền riêng tư, bảo mật.
- Truy cập: Mức độ mà Dữ liệu mở được cung cấp ở các định dạng thuận tiện, có khả năng hiệu chỉnh và có tính mở để có thể được truy xuất, tải xuống, lập chỉ mục và tìm kiếm được.
- Mô tả: Thể hiện mức độ đầy đủ mà Dữ liệu mở được mô tả để người sử dụng dữ liệu có đủ thông tin để hiểu điểm mạnh, điểm yếu, hạn chế trong phân tích, các yêu cầu bảo mật và cách dữ liệu được xử lý.
- Có khả năng tái sử dụng: Dữ liệu mở có được cung cấp cùng với các giấy phép mở để không hạn chế việc tái sử dụng các dữ liệu hay không.
- Tính đầy đủ: Dữ liệu mở có được xuất bản dưới các dạng căn bản, với độ chi tiết một cách tốt nhất có thể.
- Tính kịp thời: Dữ liệu mở được cung cấp trong khoảng thời gian để đảm bảo giá trị của dữ liệu.
- Việc quản lý sau phát hành: Có hay không về đầu mối liên hệ được chỉ định rõ để hỗ trợ trong việc sử dụng dữ liệu, cũng như trả lời các phản ánh liên quan.
Các tiêu chuẩn đối với dữ liệu
Mặc dù các nguyên tắc chất lượng được mô tả trên đây thường được áp dụng cho tất cả các loại dữ liệu, các tiêu chuẩn và chi tiết đối với các loại dữ liệu khác nhau cũng có sự khác nhau. Nội dung sau đây tóm tắt các tiêu chuẩn liên quan đến từng loại dữ liệu khác nhau.
Đối với dữ liệu thống kê và Hệ thống Tài khoản quốc gia (National Accounts)
Tài khoản quốc gia chỉ ra các danh mục về thu nhập, đầu ra và chi tiêu trên phạm vi toàn bộ nền kinh tế đối với các thực thể khác nhau như hộ gia đình, doanh nghiệp và cơ quan nhà nước. Các số liệu thống kê này thường được tạo lập hay điều phối bởi các Cơ quan Thống kê Quốc gia (NSO) từng quốc gia theo các tiêu chuẩn và phương pháp chi tiết. Về tiêu chuẩn dữ liệu liên quan đến nội dung này, có nhiều tiêu chuẩn nồi bật. Ví dụ như danh sách các tiêu chuẩn thống kê của Liên hợp quốc là một danh mục các phân loại thống kê, định nghĩa, khái niệm, phương pháp luận và hướng dẫn quy trình cho việc sử dụng các sản phẩm thống kê. Hướng dẫn của Vương quốc Anh về Đo lường Chất lượng Thống kê gồm các hướng dẫn về đo lường chất lượng thống kê này về cơ bản sử dụng các cách thức đo lường chung như hướng dẫn của EuroStat. Quỹ Tiền tệ Quốc tế có hai khuôn khổ liên quan đến hướng dẫn thống kê quốc gia gồm Hệ thống phổ biến dữ liệu chung (GDDS) và Hệ thống phổ biến dữ liệu đặc biệt (SDDS). Cả GDDS và SDDS đều được thiết kế nhằm tăng cường tính khả dụng của các số liệu thống kê một cách kịp thời và toàn diện nhờ đó góp phần đạt được các chính sách kinh tế vĩ mô một cách phù hợp. (chi tiết...). Khung đánh giá chất lượng dữ liệu (DQAF) cũng là một công cụ khác từ IMF, DQAF được sử dụng để đánh giá một cách toàn diện chất lượng dữ liệu của các quốc gia. Khung đánh giá này chỉ ra các nội dung về môi trường thể chế, quy trình thống kê và thuộc tính của các sản phẩm thống kê. Một tiêu chuẩn khác là chỉ số năng lực thống kê của Ngân hàng Thế giới. Công cụ này cung cấp một góc nhìn tổng quan đối với năng lực thống kê của các nước đang phát triển, dựa trên khung đánh giá năng lực của các hệ thống thống kê. Trang web Chỉ số Năng lực Thống kê cho phép người đọc nắm bắt được những thay đổi về năng lực thống kê của một quốc gia qua các thời kỳ.
Ngoài ra, còn có tiêu chuẩn liên quan đến các quy trình mà các cơ quan nhà nước tiến hành mua sắm hàng hóa và dịch vụ. Dữ liệu về ký kết hợp đồng bao gồm các thông tin về đấu thầu, yêu cầu đề xuất (RFP), hợp đồng được ký kết, đánh giá hiệu suất và mức độ hoàn thành cùng với nhiều nội dung khác. Để khuyến khích các ví dụ thực tiễn tốt nhất trong công bố thông tin mua sắm công, Đối tác hợp đồng mở đã phát triển một bộ nguyên tắc có thể được điều chỉnh để phù hợp với bối cảnh của từng ngành, chính quyền địa phương. Những nguyên tắc này được thiết kế nhằm mục đích để cho việc ký kết hợp đồng trở nên cạnh tranh, công bằng, có tính minh bạch toàn cầu, đồng thời hướng dẫn các cơ quan nhà nước và các bên liên quan trong việc cung cấp dữ liệu nhằm thúc đẩy các giám sát hiệu quả cũng như nâng cao trách nhiệm giải trình. Tiêu chuẩn dữ liệu hợp đồng mở (OCDS) cũng là một tiêu chuẩn nổi bật đã được tạo ra nhằm cho phép các cơ quan nhà nước công khai chi tiết về tất cả các giai đoạn của việc ký hợp đồng, bao gồm Lập kế hoạch, Đấu thầu, Chọn nhà thầu, Ký kết hợp đồng và Triển khai. Tiêu chuẩn cung cấp lược đồ chi tiết để thể hiện dữ liệu hợp đồng ở nhiều định dạng, cũng như hướng dẫn về các phương án triển khai. Bộ phận Trợ giúp OCDS luôn sẵn sàng trợ giúp trong việc triển khai OCDS. Ngoài ra còn có một chương trình xác thực OCDS phục vụ việc kiểm tra xem dữ liệu có tuân thủ tiêu chuẩn OCD hay không.
Dữ liệu ngân sách nhà nước
Dữ liệu ngân sách đề cập đến chi tiêu khu vực công, được phân tách theo cấp chính quyền, lĩnh vực hoặc chương trình, năm tài khóa và nguồn tài chính. BOOST và OpenSpending là hai phát kiến cung cấp các ví dụ thực tiễn tốt nhất trong việc tạo dữ liệu ngân sách phù hợp với các đặc điểm của Dữ liệu mở:
- BOOST: Sáng kiến BOOST là một nỗ lực hợp tác diện rộng giữa các ngân hàng nhằm tạo điều kiện tiếp cận các dữ liệu về ngân sách và cải thiện các quy trình ra quyết định, nâng cao tính minh bạch. BOOST là một cơ sở dữ liệu chi tiêu của khu vực công một cách toàn diện được thiết lập ở 57 quốc gia, sử dụng dữ liệu của chính phủ và biểu mẫu gồm 26 chữ số để dữ liệu tài chính dễ hiểu và chi tiết. (chi tiết...)
- OpenSpending: Đây là một cơ sở dữ liệu mở, chất lượng cao bao gồm thông tin tài chính khu vực công như ngân sách, chi tiêu và bảng cân đối kế toán; các cộng đồng người dùng và đóng góp; và một tập hợp các tài nguyên mở cung cấp thông tin về kỹ thuật, tài chính một cách cơ bản để thuận tiện trong việc xử lý các dữ liệu tài chính. (chi tiết...)
Dữ liệu giao thông vận tải
Dữ liệu giao thông có thể cung cấp thông tin về cơ sở hạ tầng, việc sử dụng và công suất (ví dụ: phạm vi đường xá, số lượng phương tiện, mức tiêu thụ nhiên liệu). Tuy nhiên, trong ngữ cảnh của bài viết, dữ liệu giao thông liên quan đến phương tiện công cộng ví dụ như tính khả dụng của phương tiện tàu hỏa, xe buýt, taxi cũng như lịch trình. Các đơn vị tạo lập dữ liệu giao thông đã trở nên quen thuộc với Mô tả kỹ thuật về dữ liệu phương tiện công cộng chung (GTFS). GTFS là một tiêu chuẩn dữ liệu mà máy có thể đọc được đối với lịch trình vận chuyển, những dữ liệu và thông tin địa lý liên quan nhằm khuyến khích việc tái sử dụng. TransitApp là một ví dụ về ứng dụng tận dụng dữ liệu định dạng GTFS được tạo lập bởi một số thành phố.
Hình 1: Ứng dụng của dữ liệu theo thời gian thực định dạng GTFS
Dữ liệu không gian địa lý
Dữ liệu không gian địa lý bao gồm các khía cạnh địa lý ở nhiều góc độ khác nhau, ví dụ như vị trí của các tòa nhà, ranh giới giữa các địa phương hoặc vị trí các rừng.
Trong các phát kiến Dữ liệu mở, dữ liệu không gian địa lý thường được phân phối ở ít nhất một trong các định dạng như GeoJSOM, TopoJSON, KML, Shapefile. Về GeoJSON, đây là một dẫn xuất của JSON, định dạng dữ liệu phổ biến dựa trên Javascript. Với tính năng này giúp dữ liệu GeoJSON dễ dàng tích hợp với các ứng dụng web. Trong khi, TopoJSON là mở rộng của GeoJSON, nhưng với một cách tiếp cận khác để mô tả các đặc điểm địa lý. Do đó, các tệp TopoJSON thường nhỏ hơn 80% so với các tệp GeoJSON tương đương. Keyhole Markup Language (KML) là một định dạng dữ liệu dựa trên XML được Google giới thiệu trong Google Maps và Google Earth. Ngoài ra, Shapefile là là một định dạng nội bật, đây là định dạng gốc cho bộ phần mềm ArcGIS từ ESRI, với tính phổ biến của nó nên dữ liệu này tương thích với hầu hết các hệ thống GIS. Hiệp hội không gian địa lý mở (OGC) là một tổ chức quốc tế tự nguyện bao gồm gần 500 công ty, cơ quan nhà nước và trường đại học hợp tác với nhau nhằm phát triển các tiêu chuẩn cho dữ liệu không gian địa lý. Đến nay, OGC đã phát triển hơn 30 loại tiêu chuẩn cho nhiều loại dữ liệu không gian địa lý khác nhau, bao gồm cả định dạng KML do Google phát triển.
Quản trị dữ liệu
Quản trị dữ liệu giải quyết vấn đề về cách quản lý dữ liệu mở trong cả vòng đời của dữ liệu. Các chính sách quản trị làm rõ thẩm quyền trong các cơ quan nhà nước để quản lý dữ liệu, mô tả quy trình và yêu cầu phát hành hoặc cập nhật dữ liệu, đồng thời cung cấp phương tiện để người dùng có thể phản ánh với các tổ chức cung cấp dữ liệu về các vấn đề phát sinh. Một số thực tiễn như Bộ hướng dẫn thiết lập nhanh cổng thông tin dữ liệu của data.gov.uk. Các thông tin này cung cấp tổng quát về các thỏa thuận quản trị cả ở cấp cao (liên cơ quan) cũng như cấp địa phương, đồng thời mô tả các vai trò khác nhau trong việc quản lý dữ liệu. Hướng dẫn triển khai dữ liệu mở - một phần của Dự án Dữ liệu Mở của Chính phủ Hoa Kỳ nhằm cung cấp hướng dẫn cho các cơ quan thực hiện Quy định về Dữ liệu mở. Cụ thể cung cấp các hướng dẫn về tạo và duy trì việc kiểm kê các bộ dữ liệu thuộc sở hữu của một cơ quan, tạo danh sách các dữ liệu công khai và thu hút sự tham gia của người dùng để hỗ trợ và ưu tiên trong việc phát hành dữ liệu.
Ẩn danh dữ liệu
Ẩn danh là quá trình làm mờ hoặc xóa thông tin khỏi tập dữ liệu có thể được sử dụng nhằm xác định cụ thể các cá nhân, hộ gia đình hoặc doanh nghiệp. Ẩn danh và quy định về bảo vệ tính bảo mật có vai trò đặc biệt quan trọng đối với các cơ quan nhà nước trong việc công bố dữ liệu. Một nội dung khác cũng quan trọng là các cơ quan cần cung cấp thông tin một cách rõ ràng về các chính sách bảo mật liên quan đến quản lý dữ liệu. Ẩn danh thích hợp tùy thuộc vào các loại và tập dữ liệu cụ thể, một vài tài nguyên được liệt kê như: Hướng dẫn ẩn danh do Văn phòng Thông tin của Vương quốc Anh phát hành. Tài liệu này cung cấp hướng dẫn về các kỹ thuật ẩn danh và bảo vệ quyền riêng tư cho nhiều loại dữ liệu trong phạm vi các quy định pháp luật của Vương quốc Anh. Ẩn danh Microdata là tài liệu trình bày các nguyên tắc chính của ẩn danh microdata, các biện pháp kỹ thuật để đo lường và giảm thiểu rủi ro do IHSN cung cấp. Tài liệu về quản lý về bảo mật số liệu thống kê gồm bộ nguyên tắc và hướng dẫn đã được thông qua tại Hội nghị các nhà thống kê châu Âu (CES) cũng là một tài liệu nổi bật liên quan đến nội dung này.
Dữ liệu đặc tả
Dữ liệu đặc tả thường được định nghĩa đơn giản là "dữ liệu về dữ liệu". Dữ liệu đặc tả cung cấp thông tin cần thiết để sử dụng một nguồn dữ liệu cụ thể một cách hiệu quả bao gồm thông tin về nguồn dữ liệu, cấu trúc, phương pháp, phạm vi, địa lý, thời gian, giấy phép, thời điểm được cập nhật lần cuối và cách dữ liệu được duy trì. Các loại dữ liệu cụ thể thường bao gồm dữ liệu đặc tả bổ sung phù hợp; ví dụ như các bức ảnh kỹ thuật số có thể bao gồm dấu thời gian, thông tin về thiết bị được sử dụng, cài đặt khẩu độ và có thể là vị trí GPS.
Dublin Core Metadata Initiative (DCMI) cung cấp khung và các từ vựng lõi đối với dữ liệu đặc tả có thể được áp dụng cho hầu hết các tài nguyên số. Dublin Core được sử dụng nhiều trong DCAT, một tiêu chuẩn được thiết kế để tạo điều kiện tương tác giữa các danh mục dữ liệu. Các chính phủ có thể phát triển các mô hình dữ liệu đặc tả riêng (tốt nhất là dựa trên các tiêu chuẩn đã được thiết lập như DCAT) để cung cấp sự đồng nhất cho phát kiến Dữ liệu mở trên toàn quốc.
Các tiêu chuẩn dữ liệu đặc tả khác đang được sử dụng cho nhiều loại dữ liệu khác nhau. Đối với dữ liệu của chính phủ, một số tài liệu liên quan nhất như: Sáng kiến Tài liệu Dữ liệu (DDI) được sử dụng nhiều trong dữ liệu khoa học xã hội, nhưng cũng có thể áp dụng rộng rãi hơn; Chứng chỉ ISO 19115-1:2014 về dữ liệu không gian địa lý; Sáng kiến mã hóa văn bản ứng dụng đối với văn bản ở dạng kỹ thuật số, chủ yếu trong khoa học xã hội và ngôn ngữ học; Định dạng trao đổi thư mục (DIF) ứng dụng trong tập dữ liệu khoa học là các tiêu chuẩn dữ liệu đặc tả cần được quan tâm, nghiên cứu.
Kết luận
Cung cấp dữ liệu mở là một nỗ lực đáng ghi nhận của cơ quan nhà nước. Tuy nhiên, vấn đề về chất lượng dữ liệu là một vấn đề rất quan trọng để dữ liệu có thể dễ dàng tái sử dụng, tạo ra những giá trị cho xã hội. Vì vậy, việc nghiên cứu và đề xuất các tiêu chuẩn để dữ liệu được ngày càng chất lượng nhằm tăng độ tin cậy và giảm thời gian xử lý, làm sạch dữ liệu là một việc làm cần thiết. Bài viết đã tổng quát và đề xuất một số nội dung cần được nghiên cứu, tham khảo phục vụ trong việc đề xuất các tiêu chuẩn, tiêu chuẩn liên quan đến dữ liệu. /.
Nguyễn Huy Kháng
Tài liệu tham khảo
- Data [Online]. - 2022. - https://www.worldbank.org/en/home.
- Discover and use data [Online]. - 2022. - https://www.data.govt.nz/.
- Open Data Handbook [Online]. - 2022. - http://opendatahandbook.org/.
- Open Data Policy Hub [Online]. - 2022. - https://sunlightfoundation.com/.
- Open Standards for Data [Online]. - 2022. - https://standards.theodi.org/.
- Publishing Open Government Data [Online]. - 2022. - https://www.w3.org/.
- Supply and Quality of Data [Online]. - 2022. - http://opendatatoolkit.worldbank.org/en/supply.html.
- The Impact of Open Data [Online]. - 2022. - https://blog.thegovlab.org/.