1. Tổng quan về Ánh xạ dữ liệu
Ánh xạ dữ liệu (tên tiếng anh Data Mapping) hay cũng còn gọi là lập bản đồ về dữ liệu là quá trình kết hợp từ một hoặc nhiều nguồn dữ liệu hoặc nhiều cơ sở dữ liệu thành một nguồn dữ liệu, hoặc cơ sở dữ liệu tập trung thống nhất. Đây là kỹ thuật thiết lập mối quan hệ dữ liệu để tích hợp dữ liệu, xử lý dữ liệu và quản trị dữ liệu. Mục tiêu là đồng nhất các nguồn dữ liệu khác nhau thành một nguồn dữ liệu duy nhất, bảo đảm sự thống nhất về ý nghĩa thông tin.
Ở dạng đơn giản nhất, ánh xạ dữ liệu xác định mối quan hệ giữa hai hoặc nhiều tập dữ liệu và các trường phù hợp hoặc kết nối từ tập dữ liệu này sang tập dữ liệu khác. Mục đích chính của ánh xạ dữ liệu là liên kết các trường dữ liệu giữa các tập dữ liệu để tạo ra dữ liệu chuẩn hóa, chính xác.
Ánh xạ dữ liệu cũng có nghĩa là các tập hợp các dữ liệu khác nhau, với nhiều cách khác nhau để xác định được các điểm giống nhau, và kết hợp dữ liệu sao cho nó chính xác và có thể sử dụng được ở đầu ra cuối cùng.
Ví dụ: trong một tổ chức, doanh nghiệp có nhiều cơ sở dữ liệu khác nhau như quản lý nhân sự, khách hàng, nội bộ. Các cơ sở dữ liệu này đều chứa thông tin về nhân viên của mình. Tuy nhiên, cấu trúc thông tin về nhân viên có thể khác nhau. Một trường thông tin của nhân viên có thể tồn tại ở nhiều cơ sở dữ liệu với các tên không đồng nhất. Ánh xạ dữ liệu là kỹ thuật tham chiếu chỉ ra cùng một trường dữ liệu ở các cơ sở dữ liệu khác nhau với các tên khác nhau đều tham chiếu sang một thuộc tính cụ thể và duy nhất một nhân viên. Từ đó, việc chia sẻ dữ liệu thuộc tính nhân viên đó ra bên ngoài hoặc tích hợp, đối chiếu sẽ đồng bộ.
Đối với một tổ chức bất kỳ quy mô nào. Để có thể khai thác được giá trị từ dữ liệu, tổ chức đó phải làm chủ được việc lưu trữ và xử lý dữ liệu, có khả năng phân tích và trực quan hóa dữ liệu. Để thực hiện điều này, phải thực hiện việc ánh xạ dữ liệu để kết hợp các nguồn dữ liệu khác nhau đang tồn tại nhằm tạo ra một nguồn dữ liệu mới thống nhất để phân tích và trình diễn cho người lãnh đạo để đưa ra quyết định.
Ánh xạ dữ liệu là điều vô cùng cần thiết đối với bất kỳ tổ chức xử lý dữ liệu nào. Nó chủ yếu được sử dụng để tích hợp dữ liệu, xây dựng kho dữ liệu, chuyển đổi dữ liệu hoặc di chuyển dữ liệu từ nơi này sang nơi khác.
Ánh xạ dữ liệu chính là chìa khóa để quản lý dữ liệu tốt. Dữ liệu chưa được lập ánh xạ hoặc việc lập ánh xạ không tốt sẽ gây ra sự cố khi dữ liệu được trao đổi, chia sẻ dữ liệu giữa các CSDL khác nhau đặc biệt là các tổ chức, đơn vị khác nhau. Ánh xạ dữ liệu là bước đầu tiên để khai thác tối đa dữ liệu khi dữ liệu được tích hợp, chuyển đổi và khi dữ liệu được lưu trữ để sử dụng trong tương lai.
Hình 1: Minh họa ánh xạ dữ liệu nhiều cấp giữa các nguồn dữ liệu
2. Các hoạt động về dữ liệu sử dụng kỹ thuật ánh xạ dữ liệu:
Tích hợp dữ liệu
Tích hợp dữ liệu thực hiện việc kết hợp dữ liệu từ các nguồn khác nhau để tạo thành một nguồn dữ liệu duy nhất đầu ra phục vụ trình diễn, hiển thị trong hệ thống giám sát như hệ thống IOC hiện nay được các bộ, ngành, địa phương xây dựng hoặc đưa vào kho dữ liệu tập trung phục vụ chia sẻ. Các công cụ lập ánh xạ dữ liệu giúp thu hẹp sự khác biệt giữa hệ thống nguồn và hệ thống đích bằng cách cho phép chuyển đổi và chuyển đổi dữ liệu. Do đó, các tổ chức được phép đối chiếu thông tin từ các nguồn dữ liệu khác nhau một cách hiệu quả.
Chuyển đổi dữ liệu
Đây là trường hợp dữ liệu được lấy ở một định dạng cụ thể và sau đó được chuyển đổi thành một cấu trúc hoặc định dạng khác. Bước này rất quan trọng trong tích hợp dữ liệu và ánh xạ sẽ được sử dụng để xác định các kết nối giữa các tập dữ liệu. Hoạt động này cũng được sử dụng để thực hiện việc chia sẻ dữ liệu giữa các hệ thống hoặc cơ quan, tổ chức khi dữ liệu nguồn và dữ liệu cần khai thác khác nhau.
Di chuyển dữ liệu
Di chuyển dữ liệu là chuyển dữ liệu từ tập dữ liệu/CSDL này sang tập dữ liệu/CSDL khác và ánh xạ dữ liệu được sử dụng để làm cho quá trình chuyển đổi này diễn ra suôn sẻ. Di chuyển dữ liệu bao gồm một số bước phức tạp và tạo ánh xạ giữa nguồn và đích là một trong những bước quan trọng nhất. Các ánh xạ không chính xác ở giai đoạn này có thể ảnh hưởng tiêu cực đến khả năng sử dụng của dữ liệu.
Trao đổi, chia sẻ dữ liệu
Ánh xạ dữ liệu tạo điều kiện thuận lợi cho việc trao đổi, chia sẻ dữ liệu bằng cách chuyển đổi dữ liệu nguồn thành nhiều nguồn khác nhau như Excel, JSON và XML phù hợp với nhiều mục đích khác nhau khi chia sẻ. Một công cụ ánh xạ tốt có các công cụ chuyển đổi tích hợp để ánh xạ dữ liệu sang các định dạng phù hợp mà không cần mã hóa, do đó cho phép trao đổi dữ liệu giữa các cơ quan, tổ chức liền mạch.
3. Các kỹ thuật ánh xạ dữ liệu
Có ba kỹ thuật ánh xạ dữ liệu chính:
Lập ánh xạ dữ liệu thủ công
Lập ánh xạ dữ liệu thủ công liên quan đến việc kết nối các nguồn dữ liệu và ghi lại quy trình bằng cách sử dụng mã nguồn. Các nhà phân tích thường sẽ tạo bản đồ bằng các ngôn ngữ mã hóa như SQL, C ++ hoặc Java. Người lập ánh xạ dữ liệu cũng có thể sử dụng kỹ thuật ETL (trích xuất, biến đổi và tải) có thể sử dụng các chức năng để di chuyển dữ liệu giữa các tập dữ liệu hoặc ảo hóa dữ liệu. Các lợi ích của ánh xạ dữ liệu thủ công bao gồm tính linh hoạt, kiểm soát quá trình và khả năng tùy chỉnh theo nhu cầu chính xác. Tuy nhiên, quá trình lập ánh xạ dữ liệu là thủ công nên nhược điểm lớn nhất là tốn thời gian. Nó cũng tiêu tốn nhiều tài nguyên, phụ thuộc vào mã và công cụ.
Do ánh xạ dữ liệu cần được thực hiện bởi người có kỹ năng, như cán bộ khoa học dữ liệu, công việc này này tuy có chi phí cao hơn về tài chính nhưng mang lại giá trị đổi mới và tính sáng tạo cao hơn.
Lập ánh xạ dữ liệu bán tự động
Ánh xạ dữ liệu bán tự động còn được gọi là ánh xạ theo lược đồ. Kỹ thuật này đòi hỏi người dùng phải có kiến thức về mã hóa dữ liệu và di chuyển giữa các quy trình ánh xạ dữ liệu thủ công và tự động. Ánh xạ dữ liệu bán tự động sử dụng các biểu diễn đồ họa thể hiện các liên kết dữ liệu. Để thực hiện điều này, cán bộ có thể sử dụng các công cụ để vẽ hoặc sử dụng chức năng kéo và thả để tạo giao diện trực quan thông qua phần mềm lập ánh xạ dữ liệu. Sau đó, một người phân tích dữ liệu sẽ xem xét các kết nối này và thực hiện các điều chỉnh thủ công nếu cần.
Ưu điểm của phương pháp này là cân bằng giữa tính linh hoạt và hiệu quả cao hơn và thời gian thực hiện. Tuy nhiên, đòi hỏi một mức độ chuyên môn và kiến thức nhất định liên quan đến việc kết hợp giữa các quy trình thủ công và tự động. Hạn chế khác của phương pháp này là nó vẫn còn khá tốn kém nguồn lực.
Ánh xạ dữ liệu tự động
Hiện nay, việc triển khai thực hiện kỹ thuật ánh xạ dữ liệu đang trong quá trình trở nên hoàn toàn tự động, sử dụng trí tuệ nhân tạo (AI). Bất cứ ai cũng có thể thực hiện, từ chuyên gia đến người không chuyên. Việc mã hóa là không bắt buộc; dữ liệu có thể được sắp xếp, thường xuyên làm mới và lên lịch để phân tích. Một số nền tảng lập ánh xạ dữ liệu cũng có thể sử dụng học máy như các công cụ như xử lý ngôn ngữ tự nhiên để khớp các trường dữ liệu, giúp hiểu rõ hơn về dữ liệu. Những lợi thế của việc của ánh xạ tự động rất lớn: yêu cầu ít kỹ thuật đặc biệt hơn, quy mô nhanh hơn và dễ dàng hơn, đồng thời lập lịch trình và triển khai hiệu quả hơn. Tuy nhiên, ánh xạ tự động cũng đi kèm với những hạn chế - chủ yếu là chi phí và sự giới hạn đối với phần mềm/nền tảng cụ thể.
Một số trường hợp khác có thể được thực hiện cho việc lập ánh xạ dữ liệu tự động, đó là sử dụng các công cụ trí tuệ nhân tạo dựa trên đám mây. Các hệ thống dựa trên ánh xạ thủ công không thể bắt kịp với sự phức tạp của dữ liệu ngày nay. Khi các tổ chức phụ thuộc đáng kể vào chất lượng dữ liệu, các kiến trúc sư dữ liệu cần một cái nhìn rõ ràng, chính xác và theo thời gian thực về dữ liệu tại nguồn và đích. Các công cụ lập ánh xạ dữ liệu tự động đáp ứng những nhu cầu này bằng cách cung cấp tiêu chuẩn về cấu trúc được ánh xạ. Điều này cung cấp một cái nhìn toàn cảnh về toàn bộ cấu trúc dữ liệu, tính linh hoạt, luồng dữ liệu chuyển đổi của nó trong thời gian thực.
Ngoài ra, một công cụ/nền tảng dữ liệu tốt còn cho phép sắp xếp chính xác các chuyển động của dữ liệu, do đó giảm thiểu khả năng xảy ra lỗi do con người gây ra. Ánh xạ dữ liệu cũng không phải là việc làm một lần. Những thay đổi về tiêu chuẩn dữ liệu, luật bảo mật dữ liệu và cơ chế báo cáo có nghĩa là bản đồ cần được bảo trì. Một công cụ lập ánh xạ tốt sẽ bảo đảm việc lập hồ sơ về những thay đổi này một cách chuẩn hóa và kịp thời.
Các tổ chức nên cân nhắc sử dụng trí tuệ nhân tạo và máy học để giúp lập ánh xạ dữ liệu. Những kỹ thuật này mang lại hiệu suất tốt hơn so với các kỹ thuật phân tích truyền thống và có thể giúp tự động nhận dạng dữ liệu cá nhân để từ đó có thể có các chính sách phù hợp với bảo vệ dữ liệu cá nhân.
4. Quy trình thực hiện ánh xạ dữ liệu
Quy trình lập ánh xạ dữ liệu được thực hiện theo các bước sau:
Hình 2: Các bước thực hiện ánh xạ dữ liệu
Bước 1: Xác định dữ liệu – Xác định dữ liệu sẽ được di chuyển. Đối với tích hợp dữ liệu, tần suất truyền dữ liệu cũng được xác định.
Bước 2: Lập ánh xạ các nguồn dữ liệu sao cho khớp với các trường đích.
Bước 3: Chuyển đổi – Nếu một nguồn được yêu cầu chuyển đổi, công thức hoặc quy tắc chuyển đổi sẽ được mã hóa.
Bước 4: Kiểm tra – Sử dụng hệ thống kiểm tra và dữ liệu mẫu từ nguồn, chạy quá trình và chuyển giao để xem hoạt động ra sao. Từ đó thực hiện các điều chỉnh khi cần thiết.
Bước 5: Triển khai – Sau khi xác định rằng quá trình chuyển đổi dữ liệu đang hoạt động theo kế hoạch, lên lịch cho sự kiện tiếp theo của quá trình di chuyển hoặc tích hợp.
Bước 6: Duy trì và cập nhật – Để tích hợp dữ liệu liên tục, ánh xạ dữ liệu sẽ yêu cầu cập nhật và thay đổi khi nguồn dữ liệu mới được thêm vào, khi nguồn dữ liệu đã thay đổi hoặc khi các yêu cầu tại điểm đến thay đổi.
5. Kết luận
Ngày nay, tất cả các tổ chức doanh nghiệp đều hoạt động dựa trên dữ liệu. Dữ liệu được sử dụng để đưa ra các quyết định sáng suốt hơn là những quyết định dựa trên trực giác hoặc giả định. Tuy nhiên, ngay cả những tổ chức dữ liệu đôi khi cũng đưa ra quyết định sai lầm vì dữ liệu không được thu thập hoặc phân tích chính xác.
Ánh xạ dữ liệu là bước quan trọng đầu tiên trong việc khám phá những hiểu biết quan trọng. Nếu dữ liệu được nhập vào hệ thống không được tích hợp, các nhà phân tích sẽ không biết nguồn dữ liệu nào là dư thừa, có khả năng dẫn đến phân tích dữ liệu bị hiểu sai. Ánh xạ dữ liệu cho phép kết hợp các nguồn thành một tập dữ liệu đáng tin cậy, dẫn đến các quy trình và phân tích minh bạch hơn.
Ngoài ra, khi một tổ chức có dữ liệu quan trọng về kinh doanh, khách hàng của mình, việc ánh xạ dữ liệu là rất quan trọng để thiết lập tính hợp lệ của nó và cung cấp tài liệu về cách thu thập dữ liệu đó. Đây là một điều cần thiết đối với các quy định về dữ liệu. Với khối lượng dữ liệu bùng nổ ngày nay, các quy định về quyền riêng tư dữ liệu đã trở nên nghiêm ngặt hơn và yêu cầu các công ty kiểm kê, lưu trữ và quản lý tất cả dữ liệu một cách có trách nhiệm. Ánh xạ liên kết một cách hợp lý các dữ liệu dường như không liên quan và cho phép công ty thực thi các chính sách bảo mật và sử dụng dữ liệu một cách chính xác.
Ngoài những điều này, ánh xạ dữ liệu còn mang lại những lợi ích: Phân tích tốt hơn dẫn đến việc xác định các mẫu, xu hướng và hiểu sâu hơn về hành vi của người tiêu dùng; Truy cập dữ liệu dễ dàng và nhanh chóng hơn; Bảo mật tốt hơn cho dữ liệu cá nhân; Các giao thức tuân thủ dữ liệu nghiêm ngặt hơn; Cải tiến bảo mật dữ liệu; Cải tiến quy trình.
Như vậy, trong bài tổng hợp ngắn trên, chúng tôi đã giới thiệu tổng quan nhất về vai trò của ánh xạ dữ liệu, các bước và những hoạt động xử lý dữ liệu chính có sử dụng ánh xạ dữ liệu để cung cấp cho các cán bộ chuyên trách quản lý dữ liệu của các bộ, ngành, địa phương hiểu và từng bước nghiên cứu, tìm hiểu áp dụng kỹ thuật ánh xạ dữ liệu trong các hoạt động của mình. Đây là công nghệ quan trọng để triển khai trung tâm giám sát IOC cũng như xây dựng CSDL tích hợp của bộ, ngành, địa phương phục vụ chỉ đạo điều hành của lãnh đạo, hỗ trợ ra quyết định.
Khánh Nguyễn
Tài liệu tham khảo:
https://www.talend.com/resources/data-mapping/
https://marketingtrips.com/digital/data-mapping-la-gi-cac-ky-thuat-chinh-cua-viec-lap-so-do-du-lieu/
https://www.tibco.com/reference-center/what-is-data-mapping
https://onlineaz.vn/data-mapping-la-gi-cac-ky-thuat-chinh-cua-viec-lap-so-do-du-lieu/
https://www.sisense.com/glossary/data-mapping/
https://digalyst.com/digital-marketing/data-mapping-la-gi/