Đang xử lý.....

Bài viết nghiên cứu: Các ứng dụng quản trị điện tử theo hướng tiếp cận dữ liệu lớn của Ấn Độ  

Thế giới đang hướng tới nền Kinh tế số, Chính phủ số. Ở Ấn Độ, chính quyền trung ương và các tiểu bang đang dần tiến tới việc số hóa tất cả các cơ quan và dịch vụ của Chính phủ...
Thứ Sáu, 05/10/2018 1083
|

1. Lời mở đầu

Thế giới ngày nay hoàn toàn hướng tới việc sử dụng phần mềm số hóa các dịch vụ của tất cả các hoạt động diễn ra hàng ngày. Tất cả các ứng dụng ở khắp các tiểu bang của Ấn Độ đều lấy người dân làm gốc vì thế chính quyền trung ương và các tiểu bang của Ấn Độ đang dần tiến tới việc số hóa tất cả các cơ quan và dịch vụ của Chính phủ. Nhu cầu xử lý và phân tích dữ liệu cũng tăng lên theo cấp số nhân với khối lượng dữ liệu ngày càng tăng. Từ đó làm xuất hiện nhiều dữ liệu có cấu trúc và phi cấu trúc từ dịch vụ quản trị điện tử chẳng hạn như việc tin học hóa hồ sơ đất đai, hồ sơ y tế thường được dùng thường xuyên nhất dưới dạng điện tử. Bài viết này giới thiệu về các ứng dụng quản trị điện tử (e-Governance Applications) theo hướng tiếp cận dữ liệu lớn (Big Data) của Ấn Độ.

2. Tổng quan về dữ liệu lớn

Dữ liệu là giá trị vốn có của bất kỳ tổ chức phát triển nào. Với việc sử dụng các công nghệ mới hơn, một lượng dữ liệu đang được tạo ra bởi mỗi cá nhân thông qua các phương tiện khác nhau của các dịch vụ kỹ thuật số. Dữ liệu được tạo ra bao gồm: dữ liệu cá nhân, các cuộc trò chuyện trên mạng xã hội, blog, các giao dịch, các ứng dụng, thông tin địa lý được tạo ra dưới dạng dữ liệu có cấu trúc/phi cấu trúc/bán cấu trúc. Ở Ấn Độ, có một số ứng dụng quản trị điện tử được phát triển cho phép người dân truyền thông và giao tiếp giữa các lĩnh vực khác nhau bao gồm: y tế, giáo dục, khoa học, nghiên cứu, thương mại...

Big Data là một tập hợp dữ liệu rất lớn và phức tạp, có dung lượng vượt mức đảm đương của những ứng dụng và công cụ truyền thống. Kích cỡ của Big Data đang từng ngày tăng lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu mà thôi.

Dữ liệu lớn bao gồm một loạt dữ liệu khổng lồ được tạo ra từ nhiều nguồn khác nhau, chẳng hạn như kho kỹ thuật số, nguồn thiết bị di động, web và các ứng dụng tập trung... Gartner dự đoán rằng vào năm 2016 “trong số các công ty đã đầu tư vào công nghệ dữ liệu lớn thì có 70% đang phân tích hoặc lập kế hoạch để phân tích vị trí dữ liệu và 64% đang phân tích hoặc lập kế hoạch phân tích văn bản dạng tự do”. Vì vậy, công việc đặt ra là hướng tới số hóa các dịch vụ còn lại với hàng tỷ dữ liệu chưa được xử lý, dữ liệu lớn được thiết kế để xử lý dữ liệu có cấu trúc hoặc phi cấu trúc dưới mọi hình thức.

Các thành phần của dữ liệu lớn

Dữ liệu lớn là những tài nguyên thông tin mang trong mình những tính chất như high - volume (dung lượng cao), high - variety (sự đa dạng cao), high - velocity (khả năng xử lý tốc độ cao), high - variability (độ chính xác cao) và high - value (mức độ giá trị thông tin cao).

 

Volume (Dung lượng)

Với các công nghệ cải tiến gần đây, dữ liệu đã tăng trưởng theo cấp số nhân, các ứng dụng như facebook, zalo, istagram, blog... nắm bắt tất cả dữ liệu từ người dùng cuối và lưu trữ tất cả các thông tin trên máy chủ trong thời gian dài, với dữ liệu lớn, nó có thể dễ dàng xử lý và lưu trữ tất cả những thông tin trên hệ thống một cách dễ dàng.

Variety (Sự đa dạng)

Các dữ liệu từ những văn bản, hình ảnh, âm thanh, bản đồ, tài liệu, tệp nhị phân, cơ sở dữ liệu, thông tin địa lý, dữ liệu định dạng và dữ liệu không định dạng và nhiều dữ liệu khác... sẽ được sử dụng, phân tích hiệu quả thông qua những thuật toán tổng hợp dữ liệu.

Velocity (Khả năng xử lý)

Với việc ứng dụng dữ liệu lớn thì tốc độ của dữ liệu được tạo ra, xử lý và di chuyển từ nơi này sang nơi khác luôn đáp ứng các nhu cầu và thách thức, dữ liệu lớn có sẵn trong thời gian thực, sẽ phân tích các thông số của dữ liệu được tạo ra mà không cần phải sao lưu trên cơ sở dữ liệu và mọi người có thể giao tiếp với nhau trên môi trường mạng một cách nhanh chóng.

Trong những năm gần đây, Hadoop - Nền tảng phần mềm nguồn mở đã hỗ trợ để xử lý tất cả các dữ liệu lớn. Hadoop cung cấp khả năng lưu trữ hệ thống các tập dữ liệu phân tán phi cấu trúc lớn trong các máy tính. Hadoop không yêu cầu bất kỳ cấu trúc hoặc mô hình dữ liệu nào đang được xử lý và không yêu cầu phải có kích thước được xác định. Hadoop được thiết kế để xử lý bất kỳ dữ liệu nào và ở bất kỳ kích thước nào. Sử dụng Hadoop, dữ liệu lớn sẽ cung cấp kết quả phân tích tốt hơn cho một kích thước dữ liệu khổng lồ trong phạm vi 1 Petabyte = 1.024 terabyte dễ dàng.

Variability (Độ chính xác)

Vì đa dạng về các kiểu dữ liệu, nên sự không thống nhất của tập dữ liệu có thể cản trở các quy trình để xử lý và quản lý nó. Do đó, độ chính xác của dữ liệu lớn có thể đảm bảo cho việc giảm bớt sự sai lệch đáng tiếc có thể xảy ra.

Value (Giá trị)

Chất lượng của dữ liệu có thể thay đổi rất nhiều, điều này sẽ ảnh hưởng rất mạnh đến việc phân tích dữ liệu chính xác. Ta có thể xem đây là tính chất cũng là khái niệm mà những doanh nghiệp hay nhà nghiên cứu muốn sử dụng và khai thác dữ liệu lớn phải nắm giữ và am hiểu nó đầu tiên.

Ngoài ra, công nghệ này còn được ứng dụng rất nhiều trong thực tế vào các trường hợp khác nhau, như: phân tích khách hàng tiềm năng, truyền tải thông tin về y tế (sức khỏe), nghiên cứu khoa học,…

3. Những thách thức của Hệ quản trị cơ sở dữ liệu quan hệ (RDBMS - Relational Data Base Management System) trong ứng dụng chính phủ điện tử của Ấn Độ

Dịch vụ quản trị điện tử của Ấn Độ được cung cấp thông qua Kế hoạch quản trị điện tử quốc gia - NeGP (National e-Governance Plan). Ngày 18/5/2006, Chính phủ Ấn Độ đã phê duyệt kế hoạch NeGP bao gồm 27 dự án MMPs (Mission Mode Projects - Dự án chế độ nhiệm vụ) của Chính phủ và chính quyền trung ương và 8 dự án tích hợp MMPs. Vào năm 2001, NeGP đã bổ sung thêm 4 danh sách dự án được giới thiệu và bây giờ tổng cộng đã có 31 dự án MMPs. Bộ Công nghệ điện tử và Thông tin của Ấn Độ đã đề xuất Khung cam kết công dân trong quản trị điện tử. Hệ thống số định danh duy nhất của Chính phủ Ấn Độ là Aapka Aadhaar - hệ thống dự án đăng ký IUIDAI là công nghệ dữ liệu lớn được phân phối và có thể mở rộng.

Các lượng dữ liệu lớn trong lĩnh vực quản trị điện tử của Ấn Độ đang được lưu trữ dưới các định dạng có cấu trúc trong RDBMS. Thuật ngữ data-driven (hướng dữ liệu) chỉ có ý nghĩa khi doanh nghiệp/chính phủ sử dụng dữ liệu được lấy từ các ứng dụng chính phủ điện tử.

Các ứng dụng quản trị điện tử của Ấn Độ phát triển trong 10 năm qua được thiết kế với các cơ sở dữ liệu RDBMS như là xương sống của chúng. RDBMS bao gồm MySQL, Oracle, SQL Server, SQLite và MariaDB. Các cơ sở dữ liệu được thiết kế với các mối quan hệ giữa các bảng với các khóa chính và phụ, do đó nó chỉ chấp nhận dữ liệu có cấu trúc và theo mô hình.

Hình 2. Tổng quan về ứng dụng quản trị điện tử với hệ quản trị RDBMS

Như chúng ta đã thấy, RDBMS có một hạn chế là chỉ lưu trữ dữ liệu có cấu trúc. Với sự phát triển của Internet và công nghệ thông tin dẫn đến việc tạo ra các định dạng dữ liệu đa dạng với khối lượng lớn. Khi công nghệ phát triển với các ứng dụng web mới hơn, nhu cầu phát triển cả các dữ liệu phi cấu trúc trong tất cả các định dạng và loại dữ liệu mà không có bất kỳ hạn chế nào đối với định dạng và kích thước dữ liệu rất cần thiết cho ứng dụng quản trị điện tử.

Hình 3. Bộ nhớ RDBMS tăng lên khi cơ sở dữ liệu người dùng tăng

Hình 3 cho thấy bộ nhớ lưu trữ RDBMS tăng theo cấp số nhân khi cơ sở dữ liệu người dùng tăng. Đối với việc phân tích dữ liệu lớn tốt hơn, các ứng dụng quản trị điện tử cần phải lưu trữ giai đoạn bắt đầu và giai đoạn kết thúc của các định dạng dữ liệu phi cấu trúc để xử lý tất cả các loại định dạng dữ liệu một cách hiệu quả. Dữ liệu có cấu trúc thu được từ RDBMS truyền thống của quản trị điện tử có những hạn chế riêng của nó khi được sử dụng để lưu trữ các loại dữ liệu và khối lượng dữ liệu khác nhau sẽ được xử lý trong tương lai gần. Phân tích cơ sở dữ liệu tốt hơn với dữ liệu lớn cần tham số:

Khả năng mở rộng

Các cơ sở dữ liệu RDBMS đáp ứng các thuộc tính ACID (Atomicity - nguyên tử, Consistency - nhất quán, Isolation - cô lập, Durability - lâu bền) bằng bất kỳ chi phí nào trong cơ sở dữ liệu. Với việc tăng kích thước của các ứng dụng khác nhau lên tới terabyte và petabyte, RDBMS phải hy sinh tính nhất quán của nó khi nó cố gắng mở rộng khả năng xử lý dữ liệu ngày càng tăng. Cơ sở dữ liệu RDBMS được thiết kế theo kiểu truyền thống để chạy trên các máy chủ đơn lẻ và không dành cho hệ máy tính phân tán.

Các định dạng dữ liệu

Từ nhiều năm nay, RDBMS không có khả năng chứa nhiều định dạng, loại và kích thước dữ liệu. RDBMS không được thiết kế để xử lý dữ liệu không đồng nhất. Thông qua các bảng điển hình và cấu trúc dữ liệu, các định dạng dữ liệu đã xử lý được xác định không bị thay đổi trong nhiều năm.

Dễ dàng quản trị

Quản trị doanh nghiệp cấp RDBMS yêu cầu quản trị viên chuyên nghiệp được đào tạo tốt để thiết kế hệ thống, triển khai và duy trì hệ thống. Họ phải có đủ kinh nghiệm trong việc xử lý dữ liệu, phục hồi lỗi, khả năng sửa chữa tự động và điều chỉnh hệ thống trên ứng dụng. Một sai lầm nhỏ trong quản lý dữ liệu có thể dẫn đến mất mát lớn trong các giao dịch.

Kinh phí

Việc triển khai RDBMS truyền thống đòi hỏi cơ sở hạ tầng đắt tiền bao gồm các kho lưu trữ back-end (phần lập trình trên server), các bộ xử lý cao cấp và các máy chủ độc quyền. Điều này liên quan đến phí cấp phép phần mềm sở hữu độc quyền, phí bảo trì cao hơn và kênh chuyên dụng để giám sát các máy chủ và gia hạn duy trì cho chúng.

Tất cả các hạn chế này trở thành rào cản trong việc tích hợp và sử dụng dữ liệu RDBMS với hệ thống tệp Hadoop để xử lý dữ liệu lớn. Để phân tích dữ liệu lớn tốt hơn cho ứng dụng quản trị điện tử thì vấn đề đặt ra là cần phải khắc phục một số hạn chế của RDBMS.

4. Giải pháp thay thế cho RDBMS

Chuyển đổi sang hệ NoSQL (Lớp các hệ cơ sở dữ liệu không sử dụng mô hình quan hệ)

Không giống như các cơ sở dữ liệu truyền thống, thời gian gần đây sự xuất hiện của cơ sở dữ liệu NoSQL đã cải thiện các phân tích dữ liệu lớn trong một miền rộng lớn; đặc biệt đối với các ứng dụng quản trị điện tử, nơi mà khối lượng dữ liệu hướng tới việc xử lý và phân tích dữ liệu có cấu trúc và phi cấu trúc với tốc độ cao. Vì vậy, NoSQL là lựa chọn tốt nhất để chuyển đổi dữ liệu lớn.

Hình 4. Các ứng dụng quản trị điện tử với hệ NoSQL

Hình 4 cho thấy các ứng dụng quản trị điện tử sử dụng hệ NoSQL làm chương trình back-end (chương trình phụ trợ). Cơ sở dữ liệu được nhóm lại trong các máy chủ khác nhau.

Các ứng dụng quản trị điện tử nên chuyển sang sử dụng hệ NoSQL vì những lý do sau đây:

Khả năng mở rộng

Yếu tố quan trọng của dữ liệu lớn là được xử lý đơn giản hơn nhiều trong hệ NoSQL. Việc tăng dung lượng có thể đạt được ngay lập tức bằng cách thêm một máy chủ mới hoặc thêm một phiên bản đám mây vào quá trình thiết lập dữ liệu. Không cần tăng máy chủ vật lý thay vì nó có thể thực hiện và thu nhỏ theo chiều ngang.

Định dạng dữ liệu

Sức mạnh thực sự của NoSQL là thực tế nó có thể xử lý bất kỳ dữ liệu nào dưới bất kỳ định dạng nào. Không giống như cơ sở dữ liệu truyền thống, cơ sở dữ liệu NoSQL không bị giới hạn trong một thiết bị hay một thiết kế lược đồ cụ thể, mà lược đồ dành cho cơ sở dữ liệu NoSQL chỉ được định nghĩa trong quá trình đọc chứ không phải trong quá trình ghi. Do đó, lược đồ dành cho cơ sở dữ liệu NoSQL tạo thuận lợi cho việc lưu trữ dữ liệu phi cấu trúc.

Dễ dàng quản trị

Vì không có định dạng dữ liệu cụ thể được duy trì trong NoSQL, việc quản lý cơ sở dữ liệu này đơn giản hơn nhiều so với RDBMS truyền thống. NoSQL được thiết kế với các mô hình dữ liệu đơn giản hơn, điều chỉnh dễ dàng hơn và bảo trì với các chức năng tự động sửa chữa.

Kinh phí

Cơ sở dữ liệu NoSQL lưu trữ và xử lý dữ liệu từ các cụm máy chủ giá rẻ và không cần bất kỳ máy chủ cao cấp nào để lưu trữ. Chi phí liên quan đến một giao dịch cụ thể hoặc lưu trữ lên tới hàng gigabyte trong cơ sở dữ liệu NoSQL ít hơn nhiều so với một máy chủ cơ sở dữ liệu RDBMS truyền thống. Vì vậy, có thể tiết kiệm một khoản tiền khổng lồ cho chính phủ hoặc doanh nghiệp.

Kết luận

Trên toàn cầu, hầu hết các quốc gia khác cũng đang cố gắng áp dụng công nghệ dữ liệu lớn trong các lĩnh vực khác nhau như lĩnh vực chăm sóc sức khỏe, phòng chống tội phạm, nông nghiệp, giao thông vận tải, giáo dục và quản lý phòng chống thiên tai... Một quốc gia phát triển và có dân số lớn như Ấn Độ thì việc sử dụng phân tích dữ liệu lớn là mục tiêu quan trọng, có tầm ảnh hưởng đến việc ra quyết định của chính phủ. Phân tích dữ liệu nguồn mở lớn giúp Ấn Độ có thể cung cấp các giải pháp hiệu quả về chi phí và hỗ trợ trong việc triển khai các lợi ích cho người dân. Cơ chế quản lý và lập kế hoạch tài nguyên khác có thể sử dụng tài nguyên trung tâm dữ liệu của chính phủ một cách hiệu quả. Với việc sử dụng hệ NoSQL thay thế cho RDBMS, ứng dụng quản trị điện tử của Ấn Độ đã khắc phục nhiều nhược điểm về hiệu năng khi kết nối dữ liệu nhiều bảng lại hoặc khi có nhiều dữ liệu lớn trong cùng một bảng.

NoSQL là một giải pháp “cơ sở dữ liệu dành cho đám mây” trong thời đại big data của cuộc cách mạng công nghiệp 4.0 để hướng tới việc hợp nhất các công nghệ, làm mờ đi ranh giới giữa các lĩnh vực vật lý và sinh học. Từ những ưu điểm mà NoSQL mang lại so với việc sử dụng cơ sở dữ liệu truyền thống DBMS, khuyến nghị cho tất cả các cơ quan nhà nước và các tổ chức doanh nghiệp nên chuyển sang dùng cơ sở dữ liệu NoSQL để lưu trữ lượng dữ liệu lớn như hiện nay: y tế, tài chính ngân hàng, bảo hiểm, đất đai... để phục vụ các hoạt động quản lý, chia sẻ, xây dựng chính sách chiến lược, tạo nền tảng phát triển chính phủ số.

 

Lê Thị Thùy Trang

Tài liệu tham khảo

1. ICTKE_BigDataFrameworkforNationale-GovernancePlan_India

2. ijaerv12n21_113_India.