Do việc thiết lập các chính sách của chính phủ cho phép tiếp cận dữ liệu mở từ các ngành kinh tế, Ecuador đã được chọn làm nghiên cứu điển hình để cung cấp cho người đọc một ví dụ về việc thực hiện khung tham chiếu được đề xuất. Ngoài ra, những thách thức mới được đề xuất trong Kế hoạch Nacional de Desarrollo 2017-2021 nhằm thúc đẩy sự phát triển của đất nước, tập trung vào ba trục chính: quyền bình đẳng và cơ hội cho tất cả mọi người trong suốt cuộc đời của họ; nền kinh tế phục vụ xã hội; và mối quan hệ giữa xã hội và chính phủ.
Một trong những mục tiêu chính là đạt được sự độc lập trong thăm dò tài nguyên thiên nhiên, thông qua sản xuất hàng hóa giá trị gia tăng và cung cấp dịch vụ, đảm bảo tài nguyên thiên nhiên, hệ sinh thái, loài và bảo vệ khí hậu. Như đã giải thích trong Kế hoạch Nacional de Desarrollo 2017-2021, nền kinh tế Ecuador luôn dựa vào khai thác tài nguyên thiên nhiên, điều này đã hạn chế tính kỹ thuật của vải công nghiệp và ảnh hưởng đến tính bền vững của môi trường. Sự phụ thuộc vào tài nguyên thiên nhiên cũng đã hạn chế sự tăng trưởng GDP của quốc gia khi tài nguyên khan hiếm hoặc biến mất. Để thay thế, việc sử dụng các công nghệ ứng dụng để tăng năng suất, về tri thức, đổi mới và phát triển công nghệ, được đề xuất.
Dựa trên chính sách của chính phủ của quốc gia này và các nghiên cứu điển hình thành công do kinh nghiệm quốc tế cung cấp, Ecuador cũng có thể sử dụng lượng lớn dữ liệu được tạo ra bởi các thiết bị khác nhau để cải thiện chất lượng cuộc sống của người dân Ecuador và cải thiện uy tín của chính phủ. Để đạt được mục tiêu này, phân tích Dữ liệu lớn là chìa khóa để đánh giá nhu cầu và xu hướng hiện tại trong xã hội.
Vì những lý do nêu trên, một số dự án liên doanh đã được đề xuất trong nước, ở cấp độ doanh nghiệp, liên quan đến phân tích Dữ liệu lớn để kết hợp công nghệ thông tin và truyền thông (ICT) trong lĩnh vực công nghiệp. Morán và Cañarte đã trình bày một nghiên cứu thư mục về sự kết hợp ICT trong các doanh nghiệp vừa và nhỏ (SME) với trọng tâm là việc áp dụng các nền tảng Dữ liệu lớn. Tạp chí Líderes của Ecuador đã nêu bật các nghiên cứu điển hình thành công từ các công ty đã sử dụng phân tích Dữ liệu lớn trong các quy trình của họ ở Ecuador; ví dụ, Teojama Comercial quan sát thấy doanh số bán hàng tăng 10% trong cùng năm triển khai. Theo công ty Vía Inteligente và phương pháp Theo dõi mạng kết nối không dây của mình, việc áp dụng phân tích Dữ liệu lớn trong khu vực du lịch của Quito đã thu hút thêm 11,38% khách hàng trong suốt năm 2018. Tuy nhiên, theo Stephen Brobst của công ty Teradata, khi so sánh với các quốc gia khác trong khu vực, Ecuador là một thị trường mới cho Dữ liệu lớn, và bây giờ là thời điểm thích hợp để áp dụng nó và tạo ra một môi trường cạnh tranh tối ưu.
Từ các ví dụ trước, có thể kết luận rằng Dữ liệu lớn ở Ecuador đang được các tổ chức tư nhân áp dụng để cải thiện các chiến lược thương mại của riêng họ. Tuy nhiên, phạm vi ứng dụng của nó rộng hơn nhiều và có thể hỗ trợ giải quyết các vấn đề công cộng quan trọng trong các lĩnh vực y tế, giáo dục, nhà ở và bảo vệ môi trường, trong số những lĩnh vực khác. Tóm lại, mô hình Dữ liệu lớn hiện đang xoay quanh thế giới kinh doanh. Vì vậy, các đề xuất sử dụng nó trong chính phủ điện tử là kịp thời.
Để mô tả việc áp dụng mô hình được đề xuất, một nghiên cứu điển hình trong tại Ecuador được trình bày.
Thứ nhất, ngân hàng dữ liệu mở từ Instituto Nacional de Estadística y Censos (INEC) của Ecuador1 đã được xác định là nguồn Dữ liệu lớn phù hợp. Tổ chức này được coi là một nguồn đáng tin cậy, bởi vì nó là một tổ chức chính thức của Nhà nước, chịu trách nhiệm sản xuất thông tin thống kê ở Ecuador. Năm 2011 tương ứng với ngày khả dụng ban đầu của nguồn dữ liệu mở này; năm gần nhất có sẵn cho dữ liệu là năm 2016. Mục đích của nghiên cứu điển hình này là để xác định số lượng bộ đèn tiết kiệm năng lượng hiện tại được lắp đặt trong các hộ gia đình trong nước và ước tính việc sử dụng chúng cho đến năm 2020. Sau đó, có thể tạo ra các quy định về quản lý chất thải cho các loại đèn điện này với dữ liệu thu được.
Hình 1: Dữ liệu lớn và khung tích hợp Chính phủ điện tử
Theo hình vẽ, có thể thấy các giai đoạn trong trường hợp áp dung của Ecuador như sau:
a/ Sản xuất dữ liệu lớn
Như đã đề cập trong phần trước, giai đoạn lập kế hoạch đề xuất một khung tham chiếu bao gồm ba giai đoạn: sản xuất, quản lý và phân tích Dữ liệu lớn. Về mặt sản xuất, đối với nghiên cứu điển hình này, INEC là nguồn Dữ liệu lớn, bởi vì trang web của nó chứa thông tin cần thiết về số lượng đèn điện tiết kiệm năng lượng trong các hộ gia đình từ Ecuador.
Về sự đồng ý sử dụng dữ liệu, INEC cung cấp dữ liệu của mình theo giấy phép Creative Commons 4.0, cho phép chia sẻ, định vị lại và phối lại hợp pháp, miễn là người tạo ban đầu được ghi công. Trong số một số định dạng dữ liệu có sẵn cho phân tích bắt buộc, định dạng CSV đã được chọn vì nó có thể dễ dàng được xử lý bởi một số ngôn ngữ lập trình.
Một số đặc điểm của dữ liệu lớn được thể hiện thông qua các con số dưới đây:
- Về khối lượng của dữ liệu:
Hình 2 cho thấy sự tăng trưởng của dữ liệu có sẵn từ năm 2011 đến năm 2016. Đối với nghiên cứu điển hình này, dữ liệu thu được từ một tệp đơn lẻ là:
Trong năm 2011, có 1.446.606 hồ sơ.
Đối với năm 2012, hai tài liệu tồn tại; một tương ứng với tháng 6 bao gồm 1.297.520 bản ghi và một bản khác cho tháng 12 với 1.388.870.
Đối với năm 2013, 2.258.224 hồ sơ.
Đối với năm 2014, 2.277.450 hồ sơ.
Đối với năm 2015, 2.372.686 hồ sơ.
Đối với năm 2016, lượng dữ liệu đã tăng lên 3.003.561 bản ghi.
Hình 2: Tăng trưởng dữ liệu mở 2011-2016
- Về tính đa dạng:
Mặc dù định dạng dữ liệu không thay đổi trong định dạng CSV qua các năm, nhưng có thể thấy rằng cấu trúc dữ liệu chỉ ổn định vào năm 2014 và trước đây danh pháp được sử dụng đã thay đổi năm này qua năm khác. Điều này là do quy chuẩn quy định và tiêu chuẩn hóa việc chuẩn bị và công bố dữ liệu mở trong các cơ quan hành chính công của Ecuador đã có hiệu lực từ năm 2014.
Một số thay đổi cấu trúc này được liệt kê dưới đây:
Vào năm 2011, đèn điện tiết kiệm năng lượng có mã AM242, tương ứng với trường 65.
Trong năm 2012, không có dữ liệu nào được thu thập về đèn chiếu sáng trong nhà.
Vào năm 2013, mã A15A đã được sử dụng và dữ liệu thuộc trường 47.
Tính đến năm 2014, đối tượng được đại diện bởi mã A07B và được duy trì trong trường 24.
Dữ liệu phải trải qua quá trình Trích xuất, Chuyển đổi và Tải (ETL) để có được thông tin cần thiết.
- Về vận tốc của dữ liệu:
Nếu so sánh giữa năm 2011 và năm 2016, có thể thấy mức tăng vượt quá 100% trong khoảng thời gian 5 năm này, chỉ trong một tệp duy nhất. Vấn đề là dữ liệu được tạo ra với tốc độ mà không áp dụng các kỹ thuật giảm thiểu, có thể không kịp xử lý và lưu trữ toàn bộ dữ liệu.
- Về tính xác thực và giá trị của dữ liệu:
Dữ liệu thu được có thể được coi là hợp lệ vì chúng được lấy từ một nguồn đáng tin cậy, chẳng hạn như INEC, theo Hướng dẫn Chính sách Công về Dữ liệu Mở. Đối với giá trị được cung cấp bởi dữ liệu, điều này được chứng minh trong các giai đoạn quản lý và phân tích của mô hình đề xuất.
b/ Quản lý dữ liệu lớn
Sau khi dữ liệu của cuộc khảo sát ENEMDU đã được thu thập, nó phải được lưu trữ và xử lý để phân tích thêm. Trong giai đoạn quản lý, cần phải xử lý dữ liệu để dữ liệu đó trở thành thông tin có giá trị cho khu vực công và tư của quốc gia.
Đối với nghiên cứu điển hình này, thách thức đầu tiên là xác định vị trí của dữ liệu liên quan đến số lượng đèn điện tiết kiệm năng lượng trong nhà trong mỗi tệp. Như đã đề cập trước đó, cấu trúc dữ liệu không giống nhau trên các tệp dữ liệu nguồn. Vì lý do này, điều cần thiết là phải thực hiện một hoạt động xử lý trước đối với dữ liệu đã thu thập; do đó, mọi tệp đều có cấu trúc chuẩn hóa.
Thách thức thứ hai là suy ra dữ liệu bị thiếu cho năm 2012, bởi vì cuộc khảo sát không phản ánh dữ liệu này trong tháng 6 và tháng 12. Để giải quyết vấn đề này, phép nội suy tuyến tính dựa trên dữ liệu của năm 2011 và 2013 đã được áp dụng. Các kỹ thuật khác có thể đã được sử dụng, nhưng vì đây là một nghiên cứu điển hình chứng minh cho hệ quy chiếu được đề xuất, một trong những phương pháp đơn giản nhất đã được sử dụng.
Theo một số nghiên cứu, khi các phương pháp khác nhau để nhập dữ liệu bị thiếu được so sánh, đối với một phân tích Dữ liệu lớn phức tạp, các mạng nơ-ron có sai số bình phương trung bình thấp hơn (RMSE). Tuy nhiên, nếu cần ít thời gian tính toán hơn, thì hồi quy tuyến tính có thể được ưu tiên hơn, ví dụ, mô hình tuyến tính với nhiều lần truy xuất (MICE).
Hình 3 trình bày dữ liệu thu được từ ngân hàng dữ liệu mở INEC. Thông tin về năm 2012 đã được sửa chữa và dự kiến cho các năm 2017 đến 2020 được bao gồm. Phép chiếu này được thực hiện bằng phép ngoại suy tuyến tính với dữ liệu từ những năm trước. Phép ngoại suy được sử dụng như một cách đơn giản để dự đoán dữ liệu.
Hình 3: Số lượng bộ đèn tiết kiệm năng lượng trong gia đình 2011-2016 theo INEC
Với cùng một dữ liệu, một so sánh đã được thực hiện giữa tổng số bộ đèn và những hộ gia đình được trang bị bộ đèn tiết kiệm năng lượng cho mỗi ngôi nhà trong năm khả dụng gần đây nhất, đó là năm 2016. Để đạt được mục tiêu này, ngôn ngữ lập trình Python đã được sử dụng và mã của nó được hiển thị trong Bảng 2. Nói một cách tổng quan, mã cho phép tải dữ liệu từ tệp dữ liệu CSV và trình bày thông tin quan tâm dưới dạng đồ họa, trong trường hợp này là số lượng đèn điện trong nhà.
Hình 4 cho thấy kết quả thực thi của mã Python, trong đó các thanh màu đen tương ứng với tổng số bộ đèn trong nhà và các thanh màu xám biểu thị số lượng bộ đèn tiết kiệm năng lượng trong nhà ở Ecuador. Dữ liệu được trình bày tương ứng với năm 2016, là năm có thông tin mới nhất.
Hình 4: Mức sử dụng đèn chiếu sáng cho mỗi hộ gia đình
Đây là một ví dụ cơ bản về một số thông tin có thể được tạo ra bằng cách sử dụng dữ liệu mở hiện có sẵn mà không cần sử dụng các chương trình phức tạp. Sử dụng các phương pháp tương tự, thông tin bổ sung có thể được trích xuất và suy ra từ INEC thông qua cùng một tệp CSV. Điều này bao gồm thông tin như xử lý rác thải, sử dụng pin, tiêu thụ nước, tiêu thụ năng lượng, sử dụng hệ thống giao thông, sử dụng đất và sử dụng.
Bảng 2 Thuật toán Python để xử lý dữ liệu mở INEC
#!/usr/bin/env python3
import errno
import os
import sys
import pandas as pd
import matplotlib as mpl
try:
# Load CSV data from passed argument
csvData = pd.read_csv(sys.argv[1], delimiter=';', header=0)
except IndexError:
# No data file supplied, print command usage
sys.stderr.write('Error: No data file specified!' + os.linesep)
sys.stdout.write(os.linesep + 'Usage: ' + sys.argv[0] + ' ' +
os.linesep)
sys.exit(errno.EIO)
except Exception as exc:
# Other error related to supplied file
sys.stderr.write('Error: Could not read data file: ' + str(exc) + '!' + os.linesep)
sys.exit(errno.EIO)
try:
# Extract column A07A and convert values to numbers (non-numbers will be
stored as NaN)
dataA = pd.to_numeric(csvData.pop('A07A'), errors='coerce',
downcast='integer')
# Apply COUNT group function to each distinct value of A07A
dataA = pd.DataFrame({'id':dataA.index,
'val':dataA.values}).groupby('val').count()
# Extract column A07B and convert values to numbers (non-numbers will be
stored as NaN)
dataB = pd.to_numeric(csvData.pop('A07B'), errors='coerce',
downcast='integer')
# Apply COUNT group function to each distinct value of A07B
dataB = pd.DataFrame({'id':dataB.index,
'val':dataB.values}).groupby('val').count()
# Determine the highest DISTINCT VALUE of A07A and A07B, and fills
existent gaps
for i in range(0, int(max(dataA.index.max(), dataB.index.max())) + 1):
tmp = pd.DataFrame(data={'id':[0]}, index=[i])
if i not in dataA.index:
dataA = pd.concat([dataA, tmp])
if i not in dataB.index:
dataB = pd.concat([dataB, tmp])
# Creates a single DATASET with 3 columns: Index, A07A, and A07B
final = pd.DataFrame({'S1':dataA.pop('id'), 'S2':dataB.pop('id')})
except Exception as exc:
# Error while handling supplied data
sys.stderr.write('Error: Could process data: ' + str(exc) + '!' + os.linesep)
sys.exit(errno.EAGAIN)
try:
# Draw bar graph using the colors BLACK and GREY
ax = final.plot(kind='bar', color=['black','grey'], grid=True)
# Set graph grid
ax.set_axisbelow(True)
ax.xaxis.set_major_locator(mpl.ticker.MultipleLocator(base=5))
ax.xaxis.set_major_formatter(mpl.ticker.FormatStrFormatter('%d'))
ax.xaxis.set_minor_locator(mpl.ticker.MultipleLocator(base=1))
ax.xaxis.set_minor_formatter(mpl.ticker.NullFormatter())
ax.yaxis.set_major_locator(mpl.ticker.MultipleLocator(base=1000))
ax.yaxis.set_major_formatter(mpl.ticker.FormatStrFormatter('%d'))
ax.yaxis.set_minor_locator(mpl.ticker.MultipleLocator(base=250))
ax.yaxis.set_minor_formatter(mpl.ticker.NullFormatter())
# Set graph labels
ax.set_xlabel('Luminaires')
ax.set_ylabel('Households')
ax.legend(['Total luminaires', 'Saving luminaires'], \
loc='upper right', ncol=1, shadow=True)
#ax.get_legend().set_title('Energy saving luminaires per household usage')
ax.get_legend().set_visible(True)
mpl.pyplot.show();
except Exception as exc:
- Error while generating the draph
sys.stderr.write('Error: Could not generate graph: ' + str(exc) + '!' + os.linesep)
sys.exit(errno.EAGAIN)
c/ Phân tích dữ liệu lớn
Trong giai đoạn nghiên cứu điển hình này, điều cần thiết là các chuyên gia trong lĩnh vực môi trường phải phân tích thông tin và xác định các biện pháp thích hợp theo các quy định hiện hành. Tại Ecuador, tổ chức quan trọng nhất chịu trách nhiệm phân tích và hành động theo thông tin này là Ministerio del Ambiente3.
Theo Hình 4, đã có sự gia tăng trong việc sử dụng các bộ đèn tiết kiệm năng lượng trong các ngôi nhà tuân theo biểu thức y = 15177x + 56650, là các biến y năm và x số lượng đèn tiết kiệm năng lượng. Kết quả là, Bảng 3 trình bày sự tăng trưởng trong việc áp dụng các bộ đèn tiết kiệm năng lượng ở Ecuador.
Áp dụng đèn tiết kiệm năng lượng ở Ecuador.
y
|
x
|
2011
|
82949
|
2012
|
82888.5
|
2013
|
82828
|
2014
|
129514
|
2015
|
134297
|
2016
|
144351
|
2017
|
160263.4
|
2018
|
179979.6333
|
2019
|
197344.8756
|
2020
|
206836.4526
|
Do đó, có thể nhận thấy xu hướng ngày càng tăng rõ ràng liên quan đến việc áp dụng các bộ đèn tiết kiệm năng lượng trong nhà. Vì những loại đèn điện này sử dụng một lượng nhỏ thủy ngân, trung bình là 4 mg, nên có thể kết luận rằng quyết định đầu tiên được đưa ra trong lĩnh vực môi trường là chính sách quản lý chất thải được nhắm mục tiêu cho loại đèn điện này, nhằm tránh các rủi ro sinh thái, chẳng hạn như ngộ độc đất hoặc nước.
Điều quan trọng cần nhấn mạnh là thủy ngân là một nguyên tố hóa học khó phân hủy được coi là có độc tính cao và có thể ảnh hưởng đến hệ thần kinh, da và DNA, trong số các tình cảm khác, ở người.
Ở các quốc gia đã áp dụng phân tích Dữ liệu lớn vào các bối cảnh xã hội khác nhau, chẳng hạn như nông nghiệp, môi trường, y tế, giao thông, kinh tế, giáo dục, việc làm, nhà ở và tài nguyên thiên nhiên, v.v. Chứng minh cách các quốc gia như Argentina, Úc, Trung Quốc, Đan Mạch và Hàn Quốc đã tích hợp các giải pháp Dữ liệu lớn để cải thiện chất lượng cuộc sống của công dân và quy trình của họ. Dựa trên nghiên cứu đã xác định, nghiên cứu này đề xuất một khuôn khổ cho tích hợp dữ liệu lớn trong quá trình ra quyết định của chính phủ điện tử, bao gồm sản xuất, quản lý và ứng dụng. Trường hợp của Nam Mỹ là một sự tham khảo để đẩy nhanh tiến độ của công nghệ, nơi đang có sự chậm trễ so với các khu vực khác. Mặc dù Ecuador đã có một số trường hợp thành công trong việc áp dụng Dữ liệu lớn, nhưng đây là vì mục đích thương mại trong khi đề xuất này tập trung vào các lĩnh vực duy trì nền kinh tế Ecuador.
Do đó, có thể thấy nhu cầu rõ ràng về chính sách quản lý chất thải nhằm vào các bộ đèn tiết kiệm năng lượng. Cần có chính sách do xu hướng ngày càng tăng của việc áp dụng các loại đèn điện này. Nếu một chính sách như vậy không được thông qua, có thể có những tác động tiêu cực đến môi trường.
Kết luận
Ecuador là một trong những quốc gia sớm quan tâm và triển khai áp dụng dữ liệu lớn trong lĩnh vực năng lượng, đây là một trường hợp điển hình để Việt Nam tham khảo. Trước bối cảnh các vấn đề về an ninh năng lượng được các quốc gia trên toàn thế giới đặc biệt quan tâm, việc ứng dụng và khai thác dữ liệu lớn là một trong những giải pháp hiệu quả. Việt Nam đang phấn đấu cơ bản trở thành một nước công nghiệp theo hướng hiện đại vào năm 2030, vì vậy, giải quyết các bài toán về năng lượng là một trong những việc không hề dễ dàng, những lợi ích mà dữ liệu lớn mang lại cần được thí điểm và nhân rộng đối với các lĩnh vực khác.
Bùi Trung Hiếu
Tài liệu tham khảo:
1. Consejo Nacional de Planificación del Ecuador. Plan Nacional de Desarrollo 2017-2021, [en línea]. 2017. Disponible en:
http://www.planificacion.gob.ec/wpcontent/uploads/downloads/2017/10/PNBV-26 OCTFINAL_0K.compressed1.pdf
2. Morán, C. and Cañarte, T., Las PYMEs y su incorporación en las TICs, Manta, Ecuador, Dominio de las Ciencias, 3(3), pp. 734-741, 2017.
3. Autor corporativo: Revista Líderes. El big data le hace un zoom al consumidor. Revista Líderes. [en línea]. 2013. Disponible en: https://www.revistalideres.ec/lideres/big-data-le-zoomconsumidor. html
4. Romero, D., El ‘big data’ cambia los negocios en la plaza Foch, en Quito. Diario EL COMERCIO. ElComercio.com. [en línea]. 2018. Disponible en:
https://www.elcomercio.com/actualidad/bigdatacambia- negocios-plaza-foch.html.
5. Brobst, S., Las empresas que no utilicen Big Data no sobrevivirán en la economía moderna, ComputerWorld, [en línea]. 2018. Disponible en:
http://www.computerworld.com.ec/actualidad/tendencias/242- stephen-brobst.html
6. Secretaría Nacional de la Administración Pública. Guía de política pública de datos abiertos. [en línea]. 2014. Disponible en: https://www.gobiernoelectronico.gob.ec/wpcontent/
uploads/2018/10/Gu%C3%ADa-de-pol%C3%ADticap% C3%BAblica-de-Datos-Abiertos.pdf
7. Jauk, S., Kramer, D. and Leodolter, W., Cleansing and imputation of body mass index data and its impact on a machine learning based prediction model. Proceedings of the 12th eHealth Conference, pp. 116-123, 2018. DOI: 10.3233/978-1-61499-858-7-116
8. Krause, R.W., Huisman, M., Steglich, C. and Sniiders, T.A., Missing network data a comparison of different imputation methods. Proceedings of IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining, pp. 159-163, 2018. DOI: 10.1109/ASONAM.2018.8508716
9. Iribarme, R., Tratamiento de sólidos, los residuos en el contexto de la luminotecnia. [en línea]. 2002. Sicanews. Disponible en:
http://www.paginadigital.com.ar/articulos/2002rest/2002terc/tecnolo gia/sica92.html