Ngày nay, với sự phát triển của Cloud computing (điện toán đám mây) và khoa học máy tính, đặc biệt là sự phát triển nhanh chóng của mạng xã hội, truyền thông không dây và thương mại điện tử, sự bùng nổ của công nghệ IoT…xã hội loài người đang bước vào một kỷ nguyên mới, kỷ nguyên của công nghệ số và dữ liệu lớn. Những vấn đề xung quanh dữ liệu lớn được hầu hết các quốc gia trên thế giới quan tâm như một trong những vấn đề hàng đầu trong thời đại bùng nổ dữ liệu số, công nghệ và dịch vụ số ngày nay
Những thách thức chính đối với các tổ chức, doanh nghiệp là quản lý dữ liệu khổng lồ, thu thập, xử lý và phân tích chúng. Tuy nhiên, thông tin thu được từ phân tích Dữ liệu lớn là chìa khóa cho lợi thế cạnh tranh, cho phép họ đưa ra quyết định kịp thời, tối ưu hóa nguồn lực và thậm chí ngăn ngừa thảm họa. Để một tập hợp thông tin được coi là Dữ liệu lớn, nó phải tuân thủ các thuộc tính nhất định. Trong số những người khác, đây là những thứ thường được đề cập nhất: khối lượng, vận tốc, sự đa dạng, tính xác thực và giá trị. Mục tiêu chính của Dữ liệu lớn là thu được giá trị từ dữ liệu được phân tích. Việc tạo ra dữ liệu liên tục trong các thiết bị thông minh, cảm biến, mạng xã hội, duyệt web và triển khai Internet vạn vật (IoT), cùng với các công nghệ khác, đã thúc đẩy các nhà nghiên cứu quan tâm đến việc phát triển các giải pháp mới để quản lý số lượng khổng lồ này Dữ liệu. Thông qua các giải pháp này, có thể tăng thêm giá trị cho dữ liệu thu thập được và một trong những ứng dụng của nó đã cho phép giải quyết các vấn đề xã hội, chẳng hạn như quá tải, giao thông, ô nhiễm môi trường, an toàn, sức khỏe và di cư. Ngoài ra, Big Data còn hỗ trợ tạo ra các sản phẩm và dịch vụ sáng tạo có tác động tích cực đến xã hội. Xã hội đang bước vào thời đại thông tin và việc sử dụng Dữ liệu lớn thúc đẩy sự đổi mới trong quản trị, tăng cường khả năng cạnh tranh giữa các công ty và góp phần nâng cao năng suất.
Nhiều quốc gia đã áp dụng những tiến bộ trong phân tích dữ liệu lớn cho các vấn đề xã hội và Nam Mỹ là một điển hình nhưng khu vực này vẫn đang ở giai đoạn đầu triển khai công nghệ này. Dự báo vào năm 2023, Big Data ở châu Mỹ Latinh sẽ đạt doanh thu 8.593,5 triệu USD, đồng thời khu vực này cũng đang phải đối mặt với một thách thức lớn do các ngành nghề truyền thống đang dần biến mất trước xu thế nền kinh tế toàn cầu đang trở nên dựa nhiều hơn vào kỹ năng và kiến thức hơn là công việc thủ công. Xu hướng Công nghiệp 4.0 hiện nay cung cấp khả năng tận dụng dữ liệu và công nghệ kỹ thuật số để đẩy nhanh quá trình hiện đại hóa và mang lại cơ hội lớn cho nền kinh tế.
Theo Liên hợp quốc, dân số thế giới sẽ đạt 8.600 triệu người vào năm 2030, 9.800 triệu người vào năm 2050 và 11.200 triệu người vào năm 2100; do đó, nhu cầu về lương thực sẽ tăng lên đáng kể. Nông nghiệp là một trong những ngành kinh tế trọng yếu, đặc biệt là ở Argentina, nơi các đề xuất tích hợp dữ liệu lớn đã được đề xuất. Một nghiên cứu được thực hiện ở Argentina coi nông nghiệp là một trong những lĩnh vực chính để đáp ứng những nhu cầu này và chứng minh rằng việc đưa dữ liệu lớn vào thúc đẩy những cải tiến trong quản lý các quy trình nông nghiệp.
Nông nghiệp ở Argentina cung cấp lương thực cho 400 triệu người và đóng góp khoảng 9,3% GDP của quốc gia này. Khoảng 75% sản lượng nông nghiệp là ngũ cốc với sản lượng xấp xỉ 3,4 triệu tấn mỗi năm. Argentina là nước xuất khẩu đậu nành chính với hơn 50% thị trường. Với dữ liệu lớn và các công nghệ khác như: GPS, IoT và học máy nhằm tạo một nền nông nghiệp chính xác thông qua việc tạo ra các báo cáo về thời tiết, điều kiện đất đai, nguồn nước, nhu cầu thị trường và hậu cần sản xuất…
Đặc điểm của dữ liệu lớn
Như đã đề cập ở trên, dữ liệu lớn là tên gọi cho dữ liệu tuân thủ các thuộc tính nhất định, từ đó các thuộc tính phổ biến nhất được giải thích ngắn gọn dưới đây.
Khối lượng đề cập đến lượng lớn dữ liệu được tạo ra, với dung lượng từ terabyte trở lên. Vận tốc liên quan đến tốc độ mà thông tin được tạo ra trong một khoảng thời gian nhỏ. Sự đa dạng tương ứng với các loại dữ liệu riêng biệt có thể được xử lý, chẳng hạn như dữ liệu có cấu trúc, bán cấu trúc hoặc phi cấu trúc. Dữ liệu có cấu trúc được tổ chức theo hàng và cột như trong cơ sở dữ liệu quan hệ; dữ liệu bán cấu trúc cũng có cấu trúc nhưng chúng không được tổ chức như trong cơ sở dữ liệu quan hệ, ví dụ, tệp nhật ký và siêu dữ liệu và dữ liệu phi cấu trúc không có định dạng, ví dụ, hình ảnh và video. Tính xác thực liên quan đến việc thu thập dữ liệu từ các nguồn đáng tin cậy và không có lỗi. Giá trị đề cập đến tính hữu ích của dữ liệu đối với quá trình tạo ra tri thức.
Hình 1 đại diện cho các đặc điểm chính của dữ liệu lớn, tất cả đều hội tụ vào giá trị của dữ liệu. Đặc điểm này, giá trị, được coi là quan trọng nhất vì nó cho phép chúng ta tạo ra các hướng dẫn hữu ích cho việc ra quyết định.
Hình 1: Đặc điểm của dữ liệu lớn
Để thúc đẩy việc sử dụng dữ liệu lớn trong các ngành kinh tế và dựa trên các nghiên cứu điển hình từ các khu vực khác, ba giai đoạn chính đã được thiết lập để hỗ trợ việc thực hiện khung tham chiếu: chẩn đoán, lập kế hoạch và thực hiện. Các hoạt động tương ứng của từng giai đoạn được trình bày chi tiết trong Bảng 1.
Bảng 1 Các giai đoạn chính của khung đề xuất.
Giai đoạn
|
Hoạt động
|
Đặc điểm
|
Thu thập thông tin liên quan đến quy định liên quan đến việc sử dụng dữ liệu công khai. Xác định các nguồn dữ liệu lớn cho các ngành kinh tế
|
Lập kế hoạch
|
Thiết kế khung tích hợp dữ liệu lớn sẽ như thế nào được tích hợp với chính phủ điện tử hiện tại quy trình ra quyết định. Nhận biết thực thể nào sẽ thực hiện dữ liệu lớn phân tích
|
Thực hiện
|
Kế hoạch thực hiện cho khung tham chiếu. Phân tích thách thức và cơ hội
|
Trong giai đoạn chẩn đoán, cần thu thập thông tin về các quy định và hạn chế hiện có có thể ảnh hưởng, theo cách tích cực hoặc tiêu cực, việc áp dụng các giải pháp được xác định trong tổng quan tài liệu và xác định tất cả các nguồn có khả năng cung cấp dữ liệu cần thiết.
Trong giai đoạn lập kế hoạch, khung tích hợp dữ liệu lớn và các đơn vị chịu trách nhiệm thực hiện nó được thiết lập. Khung tích hợp dữ liệu lớn được đề xuất tập trung vào các lĩnh vực kinh tế của chính phủ điện tử, chẳng hạn như giáo dục, y tế và chăm sóc xã hội, giao thông, nông nghiệp và khai thác tài nguyên thiên nhiên, nhà ở, xây dựng và bảo vệ môi trường. Mục tiêu là xác định các thủ tục mà các tổ chức nhà nước hoặc tư nhân phải tuân theo để xử lý và phân tích tất cả các thông tin được tạo ra, cho các quá trình ra quyết định sau này của chính phủ.
Trong giai đoạn thực hiện, các chính phủ, thông qua các sắc lệnh và chính sách của mình, nên thực hiện việc thực hiện hệ quy chiếu và phân tích những thách thức và cơ hội hiện có của họ. Hình 2 trình bày khung tích hợp dữ liệu lớn được đề xuất, để thực hiện trong giai đoạn lập kế hoạch. Khuôn khổ đã được chia thành ba giai đoạn: Sản xuất, quản lý và phân tích dữ liệu lớn.
Hình 2: Dữ liệu lớn và khung tích hợp chính phủ điện tử
Các đoạn sau trình bày chi tiết từng giai đoạn của khuôn khổ đề xuất cho việc tích hợp dữ liệu lớn trong chính phủ điện tử.
a/ Sản xuất dữ liệu lớn
Sản xuất dữ liệu lớn đề cập đến việc xác định các nguồn dữ liệu liên quan đến các lĩnh vực kinh tế. Đây có thể là cơ sở dữ liệu công cộng hoặc riêng tư, sổ đăng ký của các thực thể quản lý, thông tin điều tra và khảo sát, dữ liệu được tạo bởi thiết bị thông minh, mạng xã hội và thiết bị IoT, v.v. Ngoài ra, điều rất quan trọng là phải xác định xem có tồn tại bất kỳ quy định đồng ý nào liên quan đến việc sử dụng dữ liệu cho mục đích nghiên cứu hay không. Điều đáng chú ý là tại thời điểm xác minh dữ liệu, nó phải tuân thủ các thuộc tính của dữ liệu lớn. Thông tin này và bất kỳ thông tin nào khác có thể được coi là có liên quan trong quá trình phát triển dự án cần được xác định trong giai đoạn chẩn đoán.
b/ Quản lý dữ liệu lớn
Khi các nguồn dữ liệu đã được xác định việc tiến hành quản lý dữ liệu lớn được thực hiện. Có ba quá trình chính: thu thập dữ liệu, lưu trữ dữ liệu và xử lý dữ liệu. Quá trình truyền dữ liệu từ nguồn đến thiết bị lưu trữ bao gồm việc thu thập dữ liệu. Đối với việc lưu trữ và xử lý dữ liệu, điều quan trọng là phải xác định xem có cần thiết phải có một trung tâm nghiên cứu để giám sát các nhiệm vụ này hay không. Trong quá trình xử lý, dữ liệu phải được khám phá và thực hiện các hoạt động tiền xử lý cần thiết. Ví dụ, chúng có thể bao gồm các hoạt động làm sạch dữ liệu, chuyển đổi dữ liệu hoặc đóng gói dữ liệu. Ngoài ra, ở giai đoạn này, rất thuận tiện để thực hiện phân tích sơ bộ thông tin để phát hiện và sửa chữa những điểm mâu thuẫn có thể có.
Các công cụ hoặc nền tảng được sử dụng trong giai đoạn này độc lập với hệ quy chiếu, vì chúng phải dựa trên Kiến trúc hướng mô hình (MDA), cụ thể là Mô hình độc lập nền tảng (PIM).
c/ Phân tích dữ liệu lớn
Sau khi xử lý dữ liệu, bước tiếp theo là phân tích thông tin do Big Data tạo ra. Điều này liên quan đến việc đánh giá các kết quả thu được cho phép tạo ra các báo cáo, các dự đoán được đưa ra hoặc các quyết định được thực hiện. Tương tự như vậy, cần phải xác định các thực thể nhà nước hay tư nhân sẽ chịu trách nhiệm thực hiện các hành động dựa trên kết quả thu được.
Trong giai đoạn này, có thể lựa chọn kỹ thuật phân tích nào được coi là thích hợp hơn và ngoài ra, có thể thiết kế và xây dựng các mô hình để sử dụng trong tương lai. Điều quan trọng là phải xem xét hiệu quả của các hoạt động, chất lượng của dữ liệu và tính bảo mật của nó. Như trong quản lý dữ liệu lớn, khuôn khổ đề xuất việc sử dụng PIM để làm cho mô hình độc lập với nền tảng.
Khi ba giai đoạn đã được hoàn thành, kết quả thu được cần được chuyển tải thông qua các báo cáo để các thực thể ra quyết định đưa ra quyết định và hành động phù hợp cho các ngành kinh tế của đất nước. Đổi lại, điều này sẽ tạo động lực cho các dự án đổi mới công nghệ khác có khả năng tăng cường kiến thức, đổi mới và phát triển trong bối cảnh quốc gia và quốc tế. Điều quan trọng cần đề cập là ba giai đoạn này lặp đi lặp lại và các công cụ và nền tảng được sử dụng phải có khả năng mở rộng để đối phó với khối lượng dữ liệu ngày càng tăng và thay đổi nhanh chóng. Về việc xây dựng các chính sách của chính phủ, có một số đề xuất nghiên cứu có thể được áp dụng cho chính phủ điện tử, chẳng hạn như những thách thức trong việc áp dụng chính sách, các chiến lược có thể được thông qua, các khuyến nghị về ứng dụng trong nông nghiệp, y tế và vận tải hoặc việc quảng bá các chính sách này.
Kết luận
“Vắng dữ liệu, chúng ta như kẻ mù và điếc giữa ngã ba đường” – là câu nói nổi tiếng của Geoffrey Moore đã phản ánh tầm quan trọng của dữ liệu đối với xã hội ngày nay. Phát triển, ứng dụng và khai thác dữ liệu lớn đòi hỏi các quốc gia cần có chiến lược thúc đẩy cho lĩnh vực này, Việt Nam không phải là một ngoại lệ. Những năm gần đây, được sự quan tâm của Đảng, Chính phủ, các hệ thống thông tin của cơ quan nhà nước phục vụ cung cấp dịch vụ công cho người dân, doanh nghiệp ngày một hoàn thiện. Tuy nhiên, bài toán dữ liệu lớn đòi hỏi sự quan tâm kịp thời của các cấp, các ngành để bắt kịp xu thế chung của thế giới, đồng thời cải thiện dịch vụ công phục vụ người dân và doanh nghiệp ngày một tốt hơn.
Bùi Trung Hiếu
Tài liệu tham khảo
1. Latin American Big Data and analytics market, forecast to 2023, Research and Markets, [online]. 2018. Available at:
https://www.researchandmarkets.com/research/vdwzt9/latin_america n?w=4
2. Hwang, T., How big and open data can transform Latin America, World Economy Forum on Latin America, [online]. 2018. Available at:
https://www.weforum.org/agenda/2018/03/latin-america-smartcities-big-data/
3. United Nations. World population projected to reach 9.8 billion in 2050, and 11.2 billion in 2100, [online]. 2017. Available at:
https://www.un.org/development/desa/en/news/population/worldpopulation-prospects-2017.html
4. Escudero, S., Big Data como mejora competitiva para la gestión de la información en la Agricultura Argentina, Universidad de San Andrés, [en línea]. 2015. Disponible en: http://repositorio.udesa.edu.ar/jspui/handle/10908/10919