Khu vực công ở Châu Âu đang ngày càng nhận thức được giá trị tiềm năng thu được từ dữ liệu lớn. Chính phủ các quốc gia Châu Âu tạo và thu thập số lượng lớn dữ liệu thông qua các hoạt động hàng ngày của mình, chẳng hạn như quản lý việc trả lương hưu và trợ cấp, thu thuế, hệ thống y tế quốc gia, ghi lại dữ liệu giao thông và ban hành các văn bản chính thức. Tuy nhiên, cho đến nay, dữ liệu lớn chưa được triển khai rộng rãi trong khu vực công ở Châu Âu [9]. Bài viết này trình bày về các lợi ích của dữ liệu lớn, các ứng dụng dữ liệu lớn trong khu vực công ở Châu Âu, các yêu cầu của khu vực công ở Châu Âu đối với dữ liệu lớn và lộ trình công nghệ cho dữ liệu lớn trong khu vực công ở Châu Âu.
Giới thiệu về dữ liệu lớn
Dữ liệu lớn là các tập dữ liệu rất lớn và/hoặc rất phức tạp vượt quá khả năng phân tích, xử lý của công nghệ, kỹ thuật công nghệ thông tin truyền thống [3]. Như vậy, dữ liệu lớn có thể có tính chất lớn hoặc phức tạp hoặc cả có cả tính chất lớn và phức tạp. Nhiều khi tên gọi dữ liệu lớn khiến chúng ta chỉ hình dung về độ lớn của dữ liệu. Để có cái nhìn đầy đủ hơn về dữ liệu lớn, chúng ta hãy xem xét các đặc điểm sau đây.
Theo [1], dữ liệu lớn (Big Data) có ba đặc điểm quan trọng: Dung lượng (Volume), Đa dạng (Variety) và Tốc độ (Velocity).
Dung lượng (Volume) chỉ độ lớn của dữ liệu ở mức terabytes (1012 bytes) đến mức zettabytes (1018 bytes). Theo [6], ước tính mỗi phút có 300 giờ video được tải lên YouTube; Google xử lý trung bình 2,4 triệu yêu cầu tìm kiếm và có 4,17 triệu bài được “Like” trên Facebook. Và chắc chắn tại thời điểm hiện tại, các số liệu này đã tăng lên.
Đa dạng (Variety) chỉ sự đa dạng của dữ liệu bao gồm từ dữ liệu có cấu trúc tới dữ liệu hỗn hợp có cấu trúc và phi cấu trúc.
Tốc độ (Velocity) chỉ tính chất chuyển động liên tục của dòng dữ liệu rất lớn cần xử lý; khác với dữ liệu được thu nhận và xử lý theo từng lô (batch) truyền thống, dòng dữ liệu không ngừng chuyển động theo thời gian.
Ngoài ba đặc điểm trên, theo [2], dữ liệu lớn còn có đặc điểm Chính xác (Veracity). Chính xác (Veracity) chỉ sự nhiễu, sai, không chính xác của dữ liệu. Sự chính xác thể hiện độ tin cậy của nguồn gốc dữ liệu.
Một số nhà phân tích còn bổ sung các đặc điểm khác của dữ liệu lớn (các chữ V khác) như: Biến đổi (Variability), Hợp lệ (Validity), Lỗ hổng (Vulnerability), Biến động (Volatility), Biểu diễn (Visualization), Giá trị (Value) [7] [8].
Dữ liệu lớn bao gồm dữ liệu được tạo ra bởi máy móc như các cảm biến, nhật ký máy, thiết bị di động, tín hiệu GPS, hồ sơ giao dịch, luồng thông tin trao đổi tự động [5].
Khi tiếp cận dữ liệu lớn, chúng ta thường quan tâm đến thời gian nhận được kết quả nhanh đến mức độ nào, dữ liệu được xử lý lớn hoặc phức tạp đến mức nào, có nhu cầu về khả năng xử lý nhiều dữ liệu hơn trong tương lai không, tốc độ truyền dữ liệu có phải là vấn đề quyết định đối với ứng dụng không, các cơ sở hạ tầng nào được sử dụng (hệ thống vật lý hay đám mây), công nghệ nào được sử dụng cho xử lý phân tán hoặc song song, có cần thiết đầu tư vào việc nghiên cứu mô hình mới hay không [4].
Lợi ích của dữ liệu lớn trong khu vực công
Lợi ích của dữ liệu lớn trong khu vực công ở Châu Âu có thể được nhóm thành 03 lĩnh vực chính dựa trên phân loại các loại lợi ích.
1) Phân tích dữ liệu lớn: Lĩnh vực này bao gồm các ứng dụng chỉ có thể được thực hiện thông qua các thuật toán tự động cho phân tích nâng cao để phân tích các tập dữ liệu lớn nhằm giải quyết vấn đề có thể tiết lộ thông tin chi tiết theo hướng dữ liệu. Những khả năng như vậy có thể được sử dụng để phát hiện và nhận biết các mẫu hoặc để tạo ra các dự báo. Các ứng dụng trong lĩnh vực này bao gồm phát hiện gian lận; giám sát hoạt động quản lý khu vực tư nhân; phân tích cảm xúc nội dung Internet để ưu tiên các dịch vụ công; phát hiện mối đe dọa từ các nguồn dữ liệu bên ngoài và nội bộ để phòng ngừa tội phạm, tình báo và bảo đảm an ninh; dự đoán cho mục đích lập kế hoạch của các dịch vụ công cộng.
2) Cải thiện hiệu lực: Bao gồm việc áp dụng dữ liệu lớn để cung cấp tính minh bạch nội bộ cao hơn. Người dân và doanh nghiệp có thể đưa ra quyết định tốt hơn và hiệu quả hơn, thậm chí tạo ra sản phẩm và dịch vụ mới nhờ thông tin được cung cấp. Một số ví dụ về các ứng dụng trong lĩnh vực này bao gồm chia sẻ thông tin qua các tổ chức khu vực công cộng (ví dụ: tránh các vấn đề do thiếu một cơ sở dữ liệu nhận dạng duy nhất ); chính phủ mở và dữ liệu mở tạo điều kiện cho luồng thông tin miễn phí từ các tổ chức công đến người dân và doanh nghiệp, tái sử dụng dữ liệu để cung cấp các dịch vụ mới và sáng tạo cho người dân.
3) Cải thiện hiệu quả: Lĩnh vực này bao gồm các ứng dụng cung cấp các dịch vụ tốt hơn và cải tiến liên tục dựa trên việc cá nhân hóa các dịch vụ và các bài học từ việc thực hiện các dịch vụ đó. Một số ví dụ về các ứng dụng trong lĩnh vực này là cá nhân hóa các dịch vụ công để thích ứng với nhu cầu của người dân và cải thiện các dịch vụ công thông qua phân tích nội bộ dựa trên phân tích các chỉ số hiệu suất.
Các ứng dụng dữ liệu lớn cho khu vực công
Bốn ứng dụng tiềm năng cho khu vực công được mô tả và phát triển để minh họa việc sử dụng các công nghệ dữ liệu lớn trong khu vực công ở Châu Âu bao gồm:
1) Theo dõi và giám sát các hoạt động đối với các nhà điều hành các trò chơi cờ bạc trực tuyến
Trong bối cảnh số lượng lớn dữ liệu sẵn có khiến cho việc quy định và giám sát hiệu quả hoạt động trở nên khó khăn, cơ quan công quyền chịu trách nhiệm về hoạt động giám sát sử dụng ứng dụng này để giám sát các nhà điều hành các trò chơi cờ bạc trực tuyến nhằm kiểm soát các hoạt động được quy định và phát hiện gian lận. Thực hiện nghĩa vụ pháp lý từ chính quyền công, các nhà điều hành các trò chơi cờ bạc trực tuyến phải cung cấp thông tin cho cơ quan công quyền theo quy định thông qua một kênh truyền thông cụ thể. Dữ liệu thời gian thực nhận được từ các nhà điều hành các trò chơi cờ bạc trực tuyến là 5 phút/01 lần. Ứng dụng này giúp bảo đảm sự tuân thủ các quy định, phòng chống và phát hiện gian lận, điều tra tội phạm.
2) Hiệu quả hoạt động trong cơ quan quản lý việc làm
- việc trích xuất giá trị từ số lượng lớn dữ liệu chưa sử dụng có sẵn, phần mềm này cho phép một loạt dịch vụ mới được cá nhân hóa, cải thiện dịch vụ khách hàng và cắt giảm chi phí hoạt động trong cơ quan quản lý việc làm của Liên bang Đức. Tất cả các công nhân thất nghiệp đều nhận được các dịch vụ tiêu chuẩn giống nhau mặc dù có hồ sơ khác nhau. Dữ liệu lịch sử về khách hàng của họ được phân tích, bao gồm cả các hồ sơ, sự can thiệp và thời gian cần thiết để tìm kiếm một công việc. Dựa trên phân tích này, phân khúc khách hàng đã được phát triển. Ứng dụng này giúp giảm chi phí và nâng cao chất lượng dịch vụ: giờ đây những người công nhân thất nghiệp có thể tìm được một công việc mới trong khoảng thời gian ngắn hơn.
3) An toàn công cộng ở các thành phố thông minh
Nhằm phản ứng nhanh với trường hợp khẩn cấp, ngăn ngừa thiệt hại và ít thương vong hơn, một khối lượng lớn dữ liệu có sẵn từ các cảm biến, phương tiện truyền thông xã hội và các cuộc gọi khẩn cấp có thể được kết hợp để mang lại hiệu quả an toàn công cộng. Các thành phố thông minh được trang bị cảm biến và cơ sở hạ tầng truyền thông giúp khu vực công giữ thành phố và người dân của họ an toàn. Có thông tin chính xác và cập nhật cho phép việc phản hồi tốt hơn và nhanh hơn trong trường hợp khẩn cấp và dẫn đến ít thiệt hại và thương vong hơn. Các nguồn điển hình để thu thập thông tin như vậy có thể đến từ các cuộc gọi đáp ứng khẩn cấp, camera giám sát và các lực lượng di động đến một địa điểm (như xe tuần tra của cảnh sát). Trong những năm gần đây, phương tiện truyền thông xã hội đã cho thấy tiềm năng để thu thập thông tin hỗ trợ trong việc có được một “bức tranh” nhận thức tình huống chính xác. Tất cả các thông tin đã thu thập được tập hợp trong một trung tâm chỉ huy và kiểm soát, nơi một người điều hành có thể quyết định làm thế nào để chỉ đạo lực lượng di động có sẵn.
4) Dự báo chính sách bằng cách sử dụng dữ liệu mở
Để thúc đẩy việc sử dụng lại dữ liệu mở công khai để cung cấp chính sách dự báo, các chính phủ trên thế giới đã bắt đầu các sáng kiến dữ liệu mở để làm cho dữ liệu khu vực công có sẵn cho công chúng vì lợi ích của sự minh bạch và cho phép các bên thứ ba cung cấp các dịch vụ dựa trên dữ liệu. Một dịch vụ như vậy có thể được mô tả như là một chính sách dự báo, nơi dữ liệu lịch sử tội phạm được sử dụng để tự động khai phá các xu hướng và các mẫu. Các mẫu được xác định giúp hiểu rõ hơn về các vấn đề liên quan đến tội phạm mà một thành phố đang phải đối mặt và cho phép triển khai hiệu lực và hiệu quả hơn các lực lượng cảnh sát. Ứng dụng này giúp làm giảm đáng kể tội phạm và sử dụng hiệu quả các lực lượng di động.
Các yêu cầu của khu vực công
1) Yêu cầu phi kỹ thuật
- Vấn đề quyền riêng tư và bảo mật
- Kỹ năng dữ liệu lớn
- Các yêu cầu khác như sẵn sàng cung cấp và áp dụng các công nghệ dữ liệu lớn; cần có các cách tiếp cận chung (chính sách) của quốc gia hoặc châu Âu như các chính sách của châu Âu về khả năng liên thông và dữ liệu mở; có sự phù hợp chung giữa tri thức nghiệp vụ nói chung và dữ liệu lớn.
2) Yêu cầu kỹ thuật
- Khám phá mẫu: Xác định các mẫu để phát hiện các hành vi tội phạm hoặc hành vi bất hợp pháp trong kịch bản ứng dụng theo dõi và giám sát các nhà điều hành cờ bạc trực tuyến và các kịch bản giám sát tương tự trong khu vực công.
- Chia sẻ dữ liệu/Tích hợp dữ liệu: Cần thiết để khắc phục sự thiếu tiêu chuẩn hóa các lược đồ dữ liệu và sự phân mảnh quyền sở hữu dữ liệu. Tích hợp nhiều nguồn dữ liệu đa dạng vào trong một nền tảng dữ liệu lớn.
- Thông tin chi tiết thời gian thực: Cho phép phân tích dữ liệu mới/dữ liệu thời gian thực để ra quyết định ngay lập tức để có được thông tin chi tiết trong thời gian thực từ dữ liệu.
- Bảo mật dữ liệu và quyền riêng tư: Thủ tục pháp lý và phương tiện kỹ thuật cho phép việc chia sẻ dữ liệu một cách bảo mật và riêng tư. Các giải pháp cho yêu cầu này có thể mở rộng việc sử dụng rộng rãi dữ liệu lớn trong khu vực công. Những tiến bộ trong việc bảo vệ dữ liệu và quyền riêng tư của dữ liệu là “chìa khóa” cho khu vực công, vì nó có thể cho phép phân tích một lượng lớn dữ liệu thuộc sở hữu của khu vực công mà không tiết lộ thông tin nhạy cảm. Các vấn đề về quyền riêng tư và bảo mật này ngăn cản việc sử dụng cơ sở hạ tầng đám mây để xử lý dữ liệu nhạy cảm của nhiều cơ quan công quyền.
- Truyền dữ liệu thời gian thực: Bởi khả năng đặt cảm biến đang gia tăng trong các kịch bản ứng dụng thành phố thông minh nên có nhu cầu cao về truyền dữ liệu theo thời gian thực. Ứng dụng sẽ yêu cầu cung cấp khả năng xử lý và làm sạch phân tán cho cảm biến hình ảnh để không làm gián đoạn các kênh truyền thông và chỉ cung cấp thông tin cần thiết cho phân tích thời gian thực. Ứng dụng sẽ cung cấp hệ thống nhận thức tình huống cho người ra quyết định.
- Phân tích ngôn ngữ tự nhiên: Trích xuất thông tin từ các nguồn trực tuyến không có cấu trúc (ví dụ: mạng xã hội) để cho phép khai thác cảm xúc. Nhận dạng dữ liệu từ các đầu vào là ngôn ngữ tự nhiên như văn bản, âm thanh và video.
- Phân tích dự báo: Như được mô tả trong kịch bản ứng dụng cho chính sách dự báo, mục tiêu là phân phối lực lượng an ninh và tài nguyên theo dự đoán sự cố, cung cấp dự đoán dựa trên việc học từ các tình huống trước đó để dự báo phân bổ nguồn lực tối ưu cho các dịch vụ công.
- Lập mô hình và mô phỏng: Các công cụ đặc trưng cho mô hình hóa và mô phỏng các sự kiện theo dữ liệu từ các sự kiện trước đây để dự đoán kết quả từ các quyết định được đưa ra để điều chỉnh các điều kiện hiện tại trong thời gian thực. Ví dụ, trong các tình huống an toàn công cộng.
Lộ trình công nghệ cho dữ liệu lớn trong khu vực công
1) Khám phá mẫu
- Công nghệ phân tích dữ liệu: Công nghệ mẫu ngữ nghĩa bao gồm đối sánh mẫu theo luồng.
- Công nghệ xử lý dữ liệu: Xác nhận kết quả phân tích mẫu với con người thông qua xử lý.
- Công nghệ lưu trữ dữ liệu: Cơ sở dữ liệu phân tích, Hadoop, Spark, Mahout.
2) Chia sẻ dữ liệu/Tích hợp dữ liệu
- Công nghệ thu thập dữ liệu: Để tạo thuận lợi cho việc tích hợp cũng như phân tích.
- Công nghệ phân tích dữ liệu: Dữ liệu được liên kết cung cấp bộ công nghệ tốt nhất để chia sẻ dữ liệu trên Web. Dữ liệu được liên kết cung cấp các cơ chế để tích hợp dữ liệu.
- Công nghệ xử lý/lưu trữ dữ liệu: Các khuôn khổ nguồn gốc dữ liệu đặc tả và dữ liệu.
3) Thông tin chi tiết thời gian thực
- Công nghệ phân tích dữ liệu: Dữ liệu được liên kết và công nghệ học máy có thể hỗ trợ phân tích tự động, điều này là cần thiết để có được thông tin chi tiết thời gian thực.
- Công nghệ lưu trữ dữ liệu: Google Data Flow, Amazon Kinesis, Spark, Drill, Impala, cơ sở dữ liệu trong bộ nhớ.
4) Bảo mật dữ liệu và quyền riêng tư
- Công nghệ lưu trữ dữ liệu: Bộ nhớ và cơ sở dữ liệu được mã hóa; proxy mã hóa lại giữa các tên miền; bảo vệ quyền riêng tư tự động.
5) Truyền dữ liệu thời gian thực
- Công nghệ thu thập dữ liệu: Kafka, Flume, Storm
- Công nghệ lưu trữ dữ liệu: Phương pháp hay nhất hiện tại là viết giải pháp lưu trữ được tối ưu hóa (ví dụ: Hadoop Distributed File System), lưu trữ theo cột.
6) Phân tích ngôn ngữ tự nhiên
- Công nghệ phân tích dữ liệu: Khai thác thông tin, nhận dạng thực thể được đặt tên, học máy, dữ liệu được liên kết. Liên kết thực thể và độ phân giải đồng tham chiếu.
- Công nghệ xử lý dữ liệu: Xác nhận kết quả phân tích ngôn ngữ tự nhiên (Natural Language Analytics - NLA) với con người thông qua xử lý.
7) Phân tích dự báo
- Công nghệ lưu trữ dữ liệu: Cơ sở dữ liệu phân tích
8) Lập mô hình và mô phỏng
- Công nghệ lưu trữ dữ liệu: Thực hành tốt nhất; xử lý theo lô và trong luồng (kiến trúc Lambda), các cơ sở dữ liệu thời gian.
- Công nghệ sử dụng dữ liệu: Tiêu chuẩn trong lập mô hình (ngữ nghĩa); ứng dụng mô phỏng trong quy hoạch (ví dụ: quy hoạch nhà máy).
Kết luận
Sử dụng dữ liệu lớn trong khu vực công ở Châu Âu yêu cầu khả năng mở rộng của phân tích dữ liệu, khám phá mẫu, các ứng dụng thời gian thực cùng với việc chia sẻ và tích hợp dữ liệu từ khu vực công, cơ chế bảo mật và quyền riêng tư tích hợp trong các ứng dụng dữ liệu lớn. Việc phát triển phân tích ngôn ngữ tự nhiên, các phân tích dự báo hiệu quả cũng như các công cụ mô hình hóa và mô phỏng để phân tích dữ liệu lịch sử là những thách thức chính cần được giải quyết để sử dụng dữ liệu lớn.
Ở Việt Nam, tiềm năng sử dụng dữ liệu lớn trong khu vực công còn chưa rõ ràng. Các cơ quan nhà nước cần dựa vào các đặc điểm của dữ liệu lớn để khảo sát, xác định các dữ liệu lớn hình thành trong hoạt động của cơ quan, nhu cầu sử dụng dữ liệu lớn, lợi ích của việc sử dụng dữ liệu lớn, ứng dụng dữ liệu lớn đối với cơ quan mình để từ đó có những đầu tư, nghiên cứu, xây dựng lộ trình công nghệ cho dữ liệu lớn. Các vấn đề đối với dữ liệu lớn của khu vực công ở Châu Âu có thể là tham khảo tốt cho các cơ quan nhà nước để có lộ trình sử dụng dữ liệu lớn phù hợp với nhu cầu thực tế tránh việc đầu tư theo trào lưu, hiệu quả sử dụng không cao.
Tài liệu tham khảo
[1] Paul Zikopoulos, Chris Eaton, Dirk deRoos, Thomas Deutsch, George Lapis, Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data, McGraw-Hill, 2012.
[2] Dr. Arvind Sathi, Big Data Analytics: Disruptive Technologies for Changing the Game, IBM Corporation, 2012.
[3] Hồ Tú Bảo, Dữ liệu lớn: Cơ hội và thách thức lớn, Tia Sáng, 2013.
[4] Dilpreet Singh and Chandan K Reddy, A Survey on platforms for big data analytics, Journal of Big Data, 2014.
[5] Commonwealth of Australia, Australian Public Service Better Practice Guide for Big Data, 2015.
[6] Martina Barbero, Jo Coutuer, Régy Jackers, Karim Moueddene, Els Renders, Wim Stevens, Yves Toninato, Sebastiaan van der Peijl, Dimitry Versteele, Big data analytics for policy making, European Union, 2016.
[7] https://www.impactradius.com/blog/7-vs-big-data.
[8] https://upside.tdwi.org/Articles/2017/02/08/10-Vs-of-Big-Data.aspx.
[9] Jose ´ Marı ´a Cavanillas, Edward Curry, Wolfgang Wahlster, New Horizons for a Data-Driven Economy - A Roadmap for Usage and Exploitation of Big Data in Europe, Springer International Publishing, 2016
Phạm Văn Thịnh