Đang xử lý.....

Quản trị dữ liệu và tuân thủ trong phân tích dữ liệu lớn dựa trên đám mây  

Sự phụ thuộc ngày càng tăng vào các nền tảng dựa trên đám mây cho phân tích dữ liệu lớn đã mang lại cả những cơ hội chưa từng có và những thách thức đáng kể cho các tổ chức (Tsai et al., 2015). Khi các doanh nghiệp ngày càng áp dụng cơ sở hạ tầng đám mây, họ được hưởng lợi từ khả năng mở rộng, tính linh hoạt và hiệu quả chi phí được nâng cao31. Tuy nhiên, những lợi thế này đi kèm với những lo ngại xung quanh quản trị dữ liệu và tuân thủ, đặc biệt trong các ngành xử lý dữ liệu nhạy cảm32. Với sự tăng trưởng bùng nổ về khối lượng và độ phức tạp của dữ liệu, việc đảm bảo quản trị dữ liệu thích hợp và tuân thủ các khuôn khổ quy định đã trở thành ưu tiên hàng đầu (Erevelles et al., 2016; Mikalef, Pappas, et al., 2017). Điện toán đám mây đã thay đổi căn bả
Thứ Năm, 21/08/2025 100
|

Giới thiệu

Sự phụ thuộc ngày càng tăng vào các nền tảng dựa trên đám mây cho phân tích dữ liệu lớn đã mang lại cả những cơ hội chưa từng có và những thách thức đáng kể cho các tổ chức (Tsai et al., 2015). Khi các doanh nghiệp ngày càng áp dụng cơ sở hạ tầng đám mây, họ được hưởng lợi từ khả năng mở rộng, tính linh hoạt và hiệu quả chi phí được nâng cao31. Tuy nhiên, những lợi thế này đi kèm với những lo ngại xung quanh quản trị dữ liệu và tuân thủ, đặc biệt trong các ngành xử lý dữ liệu nhạy cảm32. Với sự tăng trưởng bùng nổ về khối lượng và độ phức tạp của dữ liệu, việc đảm bảo quản trị dữ liệu thích hợp và tuân thủ các khuôn khổ quy định đã trở thành ưu tiên hàng đầu (Erevelles et al., 2016; Mikalef, Pappas, et al., 2017). Điện toán đám mây đã thay đổi căn bản việc quản lý và lưu trữ dữ liệu, đòi hỏi các tổ chức phải suy nghĩ lại về các chiến lược quản trị của mình để phù hợp với bối cảnh công nghệ và pháp lý đang phát triển (Dong & Srivastava, 2015a; Tsai et al., 2015). Bài báo này đi sâu vào các khía cạnh tập trung vào cơ sở dữ liệu của quản trị dữ liệu và tuân thủ trong môi trường phân tích dữ liệu lớn dựa trên đám mây, đánh giá cả thách thức và các phương pháp hay nhất.

Sự phát triển của điện toán đám mây đã được đánh dấu bằng một số giai đoạn khác biệt, mỗi giai đoạn đều tác động đến cách dữ liệu được quản trị. Các hệ thống dựa trên đám mây ban đầu chủ yếu tập trung vào việc cung cấp các giải pháp lưu trữ có khả năng mở rộng, nhưng khi phân tích dữ liệu lớn trở nên nổi bật, nhu cầu về các cơ chế quản trị tiên tiến trở nên rõ. Khi độ phức tạp của quản lý dữ liệu tăng lên, rủi ro về vi phạm dữ liệu, truy cập trái phép và không tuân thủ các quy định như Quy định chung về bảo vệ dữ liệu và Đạo luật về trách nhiệm giải trình và cung cấp bảo hiểm y tế) cũng tăng theo. Do đó, các tổ chức đã phải tích hợp các khuôn khổ quản trị mạnh mẽ để quản lý dữ liệu trên các môi trường đám mây phân tán, đồng thời đảm bảo tuân thủ các luật quốc tế, quốc gia và luật cụ thể của ngành. Sự chuyển đổi từ các mô hình quản trị dữ liệu truyền thống, tại chỗ, sang các hệ thống dựa trên đám mây.

2. Tổng quan

Việc áp dụng ngày càng tăng phân tích dữ liệu lớn dựa trên đám mây đã thu hút sự chú ý đáng kể đến các vấn đề quản trị dữ liệu và tuân thủ, đặc biệt trong các hệ thống quản lý cơ sở dữ liệu. Khi các tổ chức chuyển đổi từ cơ sở hạ tầng truyền thống tại chỗ sang môi trường đám mây linh hoạt hơn, nhu cầu về các khuôn khổ quản trị hiệu quả nhằm đảm bảo bảo mật dữ liệu, quyền riêng tư và tuân thủ quy định trở nên rõ rệt hơn. Tổng quan tài liệu này khám phá sự phát triển của các thực tiễn quản trị dữ liệu, tác động của các khuôn khổ quy định đối với các hệ thống dựa trên đám mây, và vai trò của các công nghệ mới nổi trong việc giải quyết các thách thức quản trị65. Bằng cách tổng hợp các nghiên cứu quan trọng về phân tích dữ liệu lớn dựa trên đám mây, phần này nhằm mục đích cung cấp nền tảng để hiểu cách kiến trúc cơ sở dữ liệu và chiến lược quản trị đã phát triển để đáp ứng nhu cầu ngày càng tăng của môi trường dữ liệu hiện đại.

2.1 Dữ liệu Lớn (Big Data)

Dữ liệu lớn có cấu trúc phù hợp một cách gọn gàng với các định dạng được xác định trước, trong khi dữ liệu phi cấu trúc, chẳng hạn như email, video và nội dung mạng xã hội, khó quản lý và phân tích hơn do thiếu cấu trúc nội tại. Dữ liệu bán cấu trúc, chẳng hạn như tệp JSON và XML, chứa một số yếu tố tổ chức nhưng không phù hợp với cơ sở dữ liệu quan hệ truyền thống. Vận tốc đề cập đến tốc độ dữ liệu được tạo ra và xử lý, đòi hỏi thời gian thực hoặc gần thời gian thực.

Hình 1 . Tổng quan chung về dữ liệu lớn

2.2 Dữ liệu lớn và Quản trị dữ liệu

Dữ liệu lớn đề cập đến các bộ dữ liệu rộng lớn, phức tạp vượt quá khả năng của các công nghệ xử lý dữ liệu truyền thống, được đặc trưng bởi 3V: volume (khối lượng), variety (đa dạng) và velocity (vận tốc). Các bộ dữ liệu khổng lồ này được tạo ra với tốc độ chưa từng có, với ước tính cho thấy 2,5 quintillion byte dữ liệu được tạo ra hàng ngày. Quy mô và sự đa dạng của dữ liệu này, bao gồm các dạng có cấu trúc, bán cấu trúc và phi cấu trúc, đặt ra những thách thức đáng kể trong lưu trữ, phân tích và trực quan hóa.

2.3 Quản trị dữ liệu trong Điện toán đám mây

Sự phát triển nhanh chóng của điện toán đám mây đã mang lại những thay đổi sâu sắc cho các hệ thống CNTT truyền thống, thay đổi căn bản bối cảnh của quản trị dữ liệu. Trong các môi trường tại chỗ trước đây, các khuôn khổ quản trị dữ liệu chủ yếu được xây dựng xung quanh sự kiểm soát tập trung, nơi các tổ chức quản lý trực tiếp cơ sở hạ tầng và lưu trữ dữ liệu của riêng họ. Các khuôn khổ ban đầu này được thiết kế để duy trì chất lượng, bảo mật và tính toàn vẹn của dữ liệu thông qua các quy trình đã được thiết lập như kiểm toán dữ liệu thủ công, kiểm soát truy cập và tuân thủ các yêu cầu quy định tĩnh. Tuy nhiên, các mô hình quản trị này được điều chỉnh để hoạt động trong một cơ sở hạ tầng cố định, khiến chúng không phù hợp với tính chất phân tán, linh hoạt của môi trường đám mây . Khi các tổ chức ngày càng chuyển sang hệ thống dựa trên đám mây hệ thống, trải dài trên nhiều trung tâm dữ liệu và khu vực địa lý, rõ ràng là các phương pháp quản trị truyền thống không thể giải quyết đủ sự phức tạp được giới thiệu bởi sự thay đổi này. Sự phức tạp này bao gồm việc quản lý dữ liệu trên nhiều khu vực pháp lý khác nhau, đảm bảo quyền riêng tư dữ liệu và bảo vệ chống lại các vi phạm trong một mạng lưới phân tán hơn. Do đó, việc áp dụng nhanh chóng điện toán đám mây đã đòi hỏi một sự thay đổi mô hình đối với các mô hình quản trị thích ứng và có khả năng mở rộng hơn

2.4 Quản trị dữ liệu lớn trong An ninh mạng

Quản trị dữ liệu lớn trong an ninh mạng là một lĩnh vực ngày càng quan trọng khi khối lượng, sự đa dạng và vận tốc của dữ liệu được tạo ra trong môi trường kỹ thuật số tiếp tục tăng lên. Sự gia tăng của các mối đe dọa mạng tinh vi, cùng với sự mở rộng của dữ liệu thông qua điện toán đám mây, IoT và các hệ thống kết nối khác, đã làm phức tạp đáng kể bối cảnh an ninh mạng. Các khuôn khổ quản trị dữ liệu truyền thống thường không được trang bị đầy đủ để xử lý quy mô và độ phức tạp của dữ liệu lớn trong bối cảnh an ninh mạng, nơi nhu cầu phát hiện, ngăn chặn và phản ứng với các mối đe dọa trong thời gian thực là tối quan trọng

2.5 Các Khuôn khổ Quy định Tác động đến Quản trị Dữ liệu

Bối cảnh quy định đã trải qua sự chuyển đổi đáng kể trong những năm gần đây, đặc biệt với sự ra đời của các quy định quan trọng như Quy định chung về bảo vệ dữ liệu (GDPR), Đạo luật Quyền riêng tư của Người tiêu dùng California (CCPA) và Đạo luật về trách nhiệm giải trình và cung cấp bảo hiểm y tế (HIPAA) . Các quy định này đã có tác động sâu sắc đến quản trị dữ liệu, đặc biệt trong các môi trường dựa trên đám mây. GDPR, có hiệu lực vào năm 2018, đã đặt ra một tiêu chuẩn toàn cầu mới cho quyền riêng tư dữ liệu, yêu cầu các tổ chức phải tuân thủ các hướng dẫn nghiêm ngặt về xử lý, lưu trữ và chia sẻ dữ liệu. Tương tự, CCPA đã đưa ra các quy tắc nghiêm ngặt về quyền riêng tư dữ liệu và quyền của người tiêu dùng ở California, trao cho người tiêu dùng nhiều quyền kiểm soát hơn đối với thông tin cá nhân của họ . Mặt khác, HIPAA tập trung vào việc bảo vệ thông tin sức khỏe, áp đặt các tiêu chuẩn bảo mật và quyền riêng tư dữ liệu nghiêm ngặt đối với các tổ chức chăm sóc sức khỏe. Các khuôn khổ quy định này đã nâng cao tầm quan trọng của quản trị dữ liệu, đặc biệt khi các tổ chức ngày càng dựa vào điện toán đám mây để lưu trữ và xử lý lượng lớn dữ liệu. Do đó, việc tuân thủ các quy định này đã trở thành mối quan tâm trung tâm đối với các tổ chức, thúc đẩy nhu cầu về các chiến lược quản trị mạnh mẽ để quản lý rủi ro quy định.

Hình 2: Cách thức quản trị tương tác với các yếu tố quan trọng

2.6 Công nghệ Mới nổi và Quản trị Dữ liệu

Sự xuất hiện của các công nghệ như blockchain, trí tuệ nhân tạo (AI), và học máy (ML) đã làm thay đổi đáng kể bối cảnh quản trị dữ liệu, đặc biệt trong việc tự động hóa tuân thủ: Quy trình. Công nghệ Blockchain, với hệ thống sổ cái phi tập trung, mang lại một cơ chế đáng tin cậy 7để đảm bảo tính toàn vẹn và minh bạch của dữ liệu trong các môi trường dựa trên đám mây . Bằng cách cung cấp một bản ghi chống giả mạo của tất cả các giao dịch, blockchain có thể tự động hóa việc xác minh sự tuân thủ các yêu cầu quy định, từ đó giảm nhu cầu về các quy trình kiểm toán thủ công9.

Mặt khác, các công nghệ AI và ML mang lại sự tự động hóa cho quản trị bằng cách giám sát dữ liệu theo thời gian thực, phát hiện các rủi ro tiềm ẩn và đảm bảo tuân thủ các chính sách bảo vệ dữ liệu. Các công nghệ này đã cho phép các tổ chức chuyển đổi khỏi các mô hình quản trị truyền thống, tốn nhiều công sức, để áp dụng các chiến lược tuân thủ linh hoạt, có khả năng mở rộng và hiệu quả hơn. Blockchain, AI và ML đã trở thành trung tâm của việc phát triển các mô hình quản trị năng động hơn, có thể đáp ứng các yêu cầu phức tạp của môi trường dữ liệu dựa trên đám mây hiện đại.

Công nghệ Blockchain đóng một vai trò then chốt trong việc đảm bảo tính toàn vẹn và quyền riêng tư của dữ liệu trong các hệ thống dựa trên đám mây. Bản chất phi tập trung của blockchain cung cấp một bản ghi bất biến và minh bạch về các giao dịch dữ liệu, khiến nó đặc biệt phù hợp với các môi trường mà tính toàn vẹn của dữ liệu là rất quan trọng.

Trong điện toán đám mây, nơi dữ liệu thường được phân tán trên nhiều địa điểm và nhà cung cấp, blockchain đảm bảo rằng mọi giao dịch đều có thể truy vết và xác minh, giảm thiểu rủi ro giả mạo hoặc truy cập trái phép Các nghiên cứu của Naik và cộng sự (2018) cho rằng hệ thống sổ cái phân tán của blockchain có thể tăng cường đáng kể quyền riêng tư của dữ liệu, vì nó cho phép các tổ chức quản lý kiểm soát truy cập hiệu quả hơn. Bằng cách kích hoạt hợp đồng thông minh tự động, blockchain cũng có thể tạo điều kiện cho việc tuân thủ bằng cách đảm bảo rằng các quy trình xử lý dữ liệu đáp ứng các tiêu chuẩn quy định mà không cần sự can thiệp của con người. Do đó, blockchain đóng vai trò là một công cụ mạnh mẽ để duy trì quản trị trong các môi trường dựa trên đám mây, đặc biệt trong các ngành công nghiệp mà quyền riêng tư và bảo mật dữ liệu là tối quan trọng.

3. Phương pháp

Nghiên cứu này tuân theo các hướng dẫn của Hệ thống Báo cáo Ưu tiên cho Tổng quan Hệ thống và Phân tích Tổng hợp (PRISMA) để đảm bảo một quy trình đánh giá có hệ thống, minh bạch và nghiêm ngặt81. Khuôn khổ PRISMA được áp dụng từng bước, bắt đầu bằng việc xác định các nghiên cứu liên quan và tiếp tục qua các giai đoạn sàng lọc, đánh giá tính đủ điều kiện và đưa vào cuối cùng82. Mỗi bước của quy trình PRISMA được trình bày dưới đây

3.1 Xác định các Nghiên cứu

Để bắt đầu, một cuộc tìm kiếm kỹ lưỡng đã được thực hiện trên nhiều cơ sở dữ liệu và sổ đăng ký điện tử để xác định các nghiên cứu liên quan đến chủ đề nghiên cứu85. Các cơ sở dữ liệu như PubMed, Scopus và Google Scholar được chọn vì phạm vi rộng và tính liên quan của chúng, cùng với các sổ đăng ký như ClinicalTrials.gov và WHO International Clinical Trials Registry. Sử dụng các thuật ngữ tìm kiếm và bộ lọc được xác định trước, tổng cộng 3.210 hồ sơ đã được xác định từ các cơ sở dữ liệu (n = 2.810) và sổ đăng ký này (n = 400).

Loại bỏ các Bản ghi Trùng lặp và Không đủ điều kiện Sau khi xác định ban đầu, các hồ sơ trùng lặp đã được loại bỏ để tránh sự dư thừa, dẫn đến 550 hồ sơ bị loại trừ. Ngoài ra, 300 hồ sơ đã được các công cụ tự động đánh dấu là không đủ điều kiện dựa trên các tiêu chí loại trừ được xác định trước, chẳng hạn như không liên quan loại hình nghiên cứu hoặc mẫu quần thể không phù hợp. Việc loại bỏ tự động này đã giúp tinh giản quy trình sàng lọc, đưa số lượng hồ sơ xuống còn 2.360.

3.2 Sàng lọc Hồ sơ

2.360 hồ sơ còn lại được sàng lọc dựa trên tiêu đề và tóm tắt để xác định tính liên quan94. Giai đoạn này giúp thu hẹp trọng tâm vào các nghiên cứu phù hợp trực tiếp với mục tiêu nghiên cứu. Tổng cộng 1.800 hồ sơ đã bị loại trừ trong giai đoạn sàng lọc này vì không đáp ứng các tiêu chí đưa vào, chẳng hạn như tính liên quan đến câu hỏi nghiên cứu hoặc thiết kế nghiên cứu không phù hợp. Quá trình này còn lại 560 hồ sơ để xem xét thêm.

3.3 Đánh giá Tính đủ điều kiện của các Báo cáo toàn văn

Tiếp theo, các báo cáo toàn văn của 560 hồ sơ đã sàng lọc được truy xuất và đánh giá tính đủ điều kiện dựa trên các tiêu chí đưa vào chi tiết, bao gồm thiết kế nghiên cứu, quần thể và kết quả. Sau khi xem xét kỹ lưỡng, 320 báo cáo đã bị loại trừ vì các lý do như dữ liệu không đầy đủ, thiếu đánh giá đồng cấp, hoặc không liên quan đến câu hỏi nghiên cứu cốt lõi. Đánh giá cuối cùng cho ra 240 báo cáo toàn văn đáp ứng tất cả các tiêu chí đủ điều kiện.

3.4 Đưa vào cuối cùng với các Nghiên cứu

Trong giai đoạn cuối cùng, trong số 240 báo cáo toàn văn đủ điều kiện, 120 nghiên cứu đã được đưa vào tổng quan hệ thống. Các nghiên cứu này đã được phân tích chuyên sâu về những đóng góp của chúng cho chủ đề nghiên cứu. Khi có thể áp dụng, tổng hợp định lượng (phân tích tổng hợp) đã được thực hiện trên 60 trong số các nghiên cứu này để củng cố các phát hiện. Các nghiên cứu được đưa vào tạo thành nền tảng cho các phát hiện và thảo luận trong nghiên cứu này.

Hình 3: Tóm tắt các kết quả nghiên cứu

4.Bài học kinh nghiệm cho Việt Nam:

Tích hợp Công nghệ Tiên tiến trong Quản trị: Việt Nam cần chủ động tích hợp Trí tuệ Nhân tạo (AI), Học máy (ML) và Blockchain vào các khuôn khổ quản trị dữ liệu quốc gia và doanh nghiệp. Cụ thể, nên tận dụng AI/ML để tự động hóa việc phân loại dữ liệu nhạy cảm, dự đoán rủi ro tuân thủ và thực hiện kiểm toán dữ liệu theo thời gian thực. Đồng thời, áp dụng Blockchain để tạo ra sổ cái bất biến về nguồn gốc và giao dịch dữ liệu, tăng cường tính minh bạch và độ tin cậy.

Xây dựng Khung pháp lý Dữ liệu "Linh hoạt và Có khả năng Mở rộng": Với tốc độ phát triển của công nghệ và dữ liệu lớn, Việt Nam cần phát triển các quy định về bảo vệ dữ liệu (tương tự như GDPR, CCPA) mang tính linh hoạt (agile), có thể nhanh chóng thích ứng với những tiến bộ công nghệ mới và các mô hình kinh doanh dựa trên đám mây đang phát triển.

Áp dụng Mô hình Bảo mật Đa lớp và Hợp tác Đám mây: Các tổ chức và cơ quan nhà nước tại Việt Nam khi sử dụng dịch vụ đám mây phải áp dụng phương pháp bảo mật đa lớp (mã hóa, kiểm soát truy cập dựa trên vai trò, giám sát liên tục). Điều quan trọng là phải thiết lập thỏa thuận quản trị rõ ràng với các nhà cung cấp dịch vụ đám mây (Cloud Service Providers) để phân định trách nhiệm rõ ràng về bảo mật và tuân thủ dữ liệu.

Chuyển đổi từ Quản trị Phản ứng sang Chủ động: Chuyển đổi từ việc khắc phục vi phạm sau khi đã xảy ra sang quản trị dự đoán (proactive governance), sử dụng AI để cảnh báo sớm và ngăn chặn các rủi ro bảo mật hoặc không tuân thủ, đảm bảo hệ sinh thái dữ liệu lớn của Việt Nam vững mạnh và tuân thủ pháp luật.

5. Kết luận

Nghiên cứu này đã làm nổi bật bản chất đang phát triển của quản trị dữ liệu trong phân tích dữ liệu lớn dựa trên đám mây, chứng minh cách các tổ chức ngày càng dựa vào các công nghệ tiên tiến như trí tuệ nhân tạo, học máy và blockchain để quản lý sự phức tạp và quy mô của môi trường đám mây. Các phát hiện nhấn mạnh sự cần thiết của các giải pháp quản trị chủ động, theo thời gian thực, có thể dự đoán rủi ro tuân thủ, tăng cường tính toàn vẹn của dữ liệu và đảm bảo tính minh bạch. Hơn nữa, sự phức tạp ngày càng tăng của các khuôn khổ quy định như GDPR và CCPA đòi hỏi các mô hình quản trị linh hoạt và có khả năng mở rộng, có thể thích ứng với các yêu cầu pháp lý thay đổi. Việc tích hợp các chiến lược bảo mật đa lớp và sự hợp tác với các nhà cung cấp dịch vụ đám mây củng cố hơn nữa các khuôn khổ quản trị, đảm bảo rằng cả thách thức kỹ thuật và quy định đều được giải quyết một cách hiệu quả. Khi các tổ chức tiếp tục áp dụng cơ sở hạ tầng dựa trên đám mây, sự chuyển dịch sang các mô hình quản trị năng động, tự động và hợp tác sẽ rất quan trọng trong việc duy trì sự tuân thủ, bảo vệ dữ liệu và xây dựng niềm tin với các bên liên quan. Nghiên cứu này không chỉ xác nhận các phát hiện của nghiên cứu trước đây mà còn mở rộng cuộc thảo luận bằng cách làm nổi bật các ứng dụng thực tế của các công nghệ mới nổi trong quản trị dữ liệu hiện đại, mở đường cho những đổi mới trong tương lai trong lĩnh vực quan trọng này.

Trần Thanh Hà

Thống kê truy cập
  • Đang truy cập: 196
    • Khách Khách 196
    • Thành viên Thành viên 0
    • Tổng lượt truy cập Tổng
    • Tổng số lượt truy cập: 5546089