Trình diễn dữ liệu, trực quan hóa dữ liệu là gì?
Trình diễn dữ liệu hay trực quan hóa dữ liệu là quá trình tạo ra các biểu diễn trực quan của các tập dữ liệu. Các biểu diễn này được thiết kế để hiển thị thông tin quan trọng và truyền đạt thông tin chi tiết bằng cách sử dụng các thanh, biểu đồ, đường, tỷ lệ phần trăm, tỷ lệ . Hình thức này sẽ làm cho chúng ta dễ dàng nắm bắt thông tin hơn.
Theo Michael Friendly định nghĩa trực quan hóa dữ liệu "là thông tin đã được trừu tượng hóa ở một số dạng giản đồ, bao gồm các thuộc tính hoặc biến số cho các đơn vị thông tin. "Nói cách khác, đó là một cách mạch lạc để truyền đạt nội dung định lượng một cách trực quan. Tùy thuộc vào các thuộc tính của nó, dữ liệu có thể được biểu diễn theo nhiều cách khác nhau, chẳng hạn như biểu đồ đường, biểu đồ thanh, biểu đồ hình tròn, biểu đồ phân tán hoặc bản đồ.
Tại sao phải biểu diễn dữ liệu, trực quan hóa dữ liệu
Khi thông tin biểu diễn dưới dạng đồ họa, con người có thể nhận ra thường xuyên và nhanh chóng hơn, ngay cả khi thông tin được cung cấp rất phức tạp.
Theo IBM, 2,5 nghìn tỷ byte dữ liệu được tạo ra mỗi ngày. Khi thế giới ngày càng trở nên kết nối hơn với số lượng thiết bị điện tử ngày càng nhiều, khối lượng dữ liệu sẽ tiếp tục tăng theo cấp số nhân. IDC dự đoán sẽ có 163 zettabyte (163 nghìn tỷ gigabyte) dữ liệu vào năm 2025. Với khối lượng dữ liệu lớn như vậy thì khó mà não người có thể hiểu được - trên thực tế, não người khó có thể hiểu được những con số lớn hơn năm mà không vẽ ra một loại tương tự hoặc trừu tượng nào đó. Các nhà thiết kế trực quan hóa dữ liệu có thể đóng một vai trò quan trọng trong việc tạo ra những sự trừu tượng đó.
Xét cho cùng, dữ liệu lớn sẽ vô dụng nếu nó không thể được hiểu và sử dụng một cách hữu ích. Đó là lý do tại sao trực quan hóa dữ liệu đóng một vai trò quan trọng trong mọi thứ từ kinh tế đến khoa học và công nghệ, chăm sóc sức khỏe và các dịch vụ phục vụ cho nhu cầu của con người. Bằng cách chuyển các số phức và các phần thông tin khác thành đồ thị, nội dung trở nên dễ hiểu và dễ sử dụng hơn.
Lịch sử về trực quan hóa dữ liệu
Lý thuyết về Trực quan hóa Dữ liệu không phải là mới. Thậm chí nó đã tồn tại hàng thế kỷ. Ví dụ đầu tiên và rõ ràng nhất là bản đồ. Sau đó, biểu đồ hình tròn ra đời vào thế kỷ 19. Sau một vài thập kỷ, Charles Joseph và Minard đã sử dụng đồ thị để vẽ bản đồ Chiến dịch Nga năm 1812 của Napoléon Bonaparte với các số liệu khác nhau như một số đội quân, nhiệt độ, khoảng cách. Một số điểm nổi bật khác trong lịch sử trực quan hóa dữ liệu bao gồm Oresme, một trong những nhà tư tưởng xuất sắc nhất của thời trung cổ đã phát minh ra biểu đồ thanh vào thế kỷ 14 và Playfair được trao giải thưởng sử dụng biểu đồ diện tích đầu tiên.
Sử dụng trực quan hóa như thế nào
Vì những con số lớn rất khó nhận biết ý nghĩa, nhiều bộ dữ liệu hữu ích nhất chứa một lượng lớn dữ liệu có giá trị, nên trực quan hóa dữ liệu đã trở thành một công cụ đắc lực quan trọng cho những người ra quyết định. Để tận dụng tất cả dữ liệu này, nhiều tổ chức, doanh nghiệp nhận thấy giá trị của trực quan hóa dữ liệu trong việc hiểu rõ ràng và hiệu quả thông tin quan trọng, cho phép những người ra quyết định hiểu các khái niệm khó, xác định các mẫu mới và có được thông tin chi tiết theo hướng dữ liệu để cải tiến các quyết định.
Vì vậy, khi xử lý dữ liệu, các tổ chức dành nguồn lực cho các giải pháp thiết kế trực quan hóa dữ liệu. Việc hiểu các tập dữ liệu lớn là cần thiết để đưa ra quyết định đúng đắn - cho dù đó là trong lĩnh vực kinh doanh, công nghệ, khoa học hay một lĩnh vực khác. Hình ảnh rõ ràng làm cho dữ liệu phức tạp dễ nắm bắt hơn và do đó dễ dàng thực hiện hành động hơn.
Các kiểu trực quan hóa dữ liệu cơ bản
Có nhiều kiểu trực quan hóa khác nhau, về cơ bản thì đó là ta biến dữ liệu thành hình vẽ dễ hiểu. Một số loại cơ bản nhất như; bảng, biểu đồ, bản đồ, Infographics. Cụ thể ta xem xét một số loại thông dụng nhất như sau:
Bảng
Bảng là một hiển thị đơn giản của các số và giá trị trên các hàng và cột. Các bảng là tốt nhất để đăng thông tin danh nghĩa như ngân sách và số liệu thống kê.
Hình 1. Ví dụ về trình diễn dạng bảng
Biểu đồ thanh
Biểu đồ thanh được sử dụng để so sánh giá trị của các danh mục khác nhau và tổng hợp cho các thực thể khác nhau như GDP, thu nhập hộ gia đình hàng năm theo khu vực, v.v. Biểu đồ thanh rất hữu ích để hiểu sự phân bổ giữa các dữ liệu và so sánh các giá trị của các tập dữ liệu và bạn có thể xếp chồng lên nhau những hình ảnh này để chứng minh thành phần của tập dữ liệu.
Hình 2. Ví dụ về trình diễn dạng biểu đồ thanh
Biểu đồ đường
Biểu đồ đường được sử dụng để hiển thị những thay đổi theo thời gian và là công cụ được lựa chọn khi minh họa xu hướng, đưa ra dự báo và thể hiện sự tăng trưởng. Biểu đồ đường thường được sử dụng để so sánh các giá trị, phân tích xu hướng và hiểu rõ hơn về mối quan hệ giữa các tập giá trị.
Hình 3. Ví dụ về trình diễn dạng biểu đồ đường
Biểu đồ tròn
Biểu đồ hình tròn hiển thị tổng số được chia thành các danh mục theo tỷ lệ phần trăm. Biểu đồ hình tròn được sử dụng để so sánh các giá trị và thể hiện thành phần của tập dữ liệu. Mặc dù biểu đồ hình tròn thường hiển thị toàn bộ hình tròn, như bạn có thể thấy trong ví dụ bên dưới, bạn cũng có thể hiển thị tỷ lệ phần trăm trong một nửa hình tròn nếu nó phù hợp hơn với thiết kế của bạn. Hãy nhớ rằng, biểu đồ hình tròn là tốt nhất để so sánh "nhẹ" hơn là một biểu đồ chuyên sâu.
Hình 4. Ví dụ về trình diễn biểu đồ tròn
Đồ họa thông tin
Infographic là một màn hình hiển thị dễ đọc các đồ thị, đồ họa, biểu đồ và văn bản đơn giản được thiết kế để cung cấp cái nhìn tổng quan về một chủ đề. Đồ họa thông tin được sử dụng nhiều trong các chiến dịch truyền thông lớn để hỗ trợ báo cáo hoặc khi giáo dục công chúng về một chủ đề hoặc sáng kiến.
Biểu đồ phân tán
Để hiển thị mối tương quan của hai biến, như thời tiết và chi tiêu cho kỳ nghỉ, hãy sử dụng biểu đồ phân tán. Thông thường, biểu đồ phân tán được sử dụng để so sánh các giá trị, hiển thị phân phối dữ liệu và chứng minh mối quan hệ giữa các tập giá trị. Nhưng hãy cẩn thận - trong khi các biểu đồ phân tán có thể giúp cung cấp thông tin về quan hệ nhân quả vì chúng bị giới hạn ở hai biến, chúng cũng có thể gợi ý mối tương quan một cách không chính xác.
Hình 5. Ví dụ về trình diễn biểu đồ phân tán
Biểu đồ khu vực
Biểu đồ khu vực hiển thị các bản đồ phân bố chồng chéo và là một cách tuyệt vời để so sánh tỷ lệ của nhiều nhóm trong một danh mục, như chi tiêu tiếp thị so với chi tiêu sản xuất. Biểu đồ vùng chủ yếu được sử dụng để minh họa thành phần của một tập dữ liệu.
Hình 6. Ví dụ về trình diễn biểu đồ khu vực
Bản đồ
Bản đồ khu vực cho phép bạn xem những khu vực địa lý nào quan trọng đối với doanh nghiệp của bạn bằng cách trực quan hóa dữ liệu dưới dạng các điểm màu. Nó thường được sử dụng để xác định các khu vực bán hàng và theo dõi các nỗ lực tiếp thị.
Hình 7. Ví dụ về trình diễn bản đồ
Các khuyến nghị trình diễn dữ liệu
a) Đặc mục tiêu truyền tải thông điệp rõ ràng và nhấn mạnh những điểm quan trọng.
Trực quan hóa dữ liệu đóng một phần quan trọng, vì vậy cần phải đặt ra mục tiêu có thể đạt được và thông điệp rõ ràng được truyền tải qua biểu đồ.
Trong trực quan hóa dữ liệu, người xem phải theo dõi câu chuyện đang cố gắng truyền tải bằng cách xem biểu đồ. Đây là lý do cần phải hướng sự chú ý của người đọc thông qua các dấu hiệu hình ảnh cụ thể, chẳng hạn như các dòng tham chiếu hoặc các đường xu hướng.
Con người có thể hấp thụ lượng thông tin quan trọng hơn một cách trực quan. Đôi mắt của chúng ta bị thu hút bởi những biểu tượng gửi cho chúng ta những thông tin chi tiết có giá trị nhanh chóng.
Để dựa trên những hành vi của con người này, hãy bảo đảm rằng thứ tự hoặc phong cách mà bạn hiển thị dữ liệu có ý nghĩa đối với khán giả. Dữ liệu bạn sử dụng có thể là số, bảng chữ cái hoặc tuần tự.
Khi có một số biểu đồ trong một trang thông tin, hãy sắp xếp thứ tự chính xác và mối quan hệ giữa các dữ liệu là rõ ràng. Điều này sẽ giúp người đọc sẽ không bị nhầm lẫn khi lướt qua từ biểu đồ này sang biểu đồ khác.
b) Chọn loại biểu đồ phù hợp
Biểu đồ chính là phương tiện trình bày dữ liệu một cách sinh động nhất. Việc truyền tải thông điệp của dữ liệu là phải chọn loại biểu đồ phù hợp với thông điệp đó. Có 4 loại thông điệp truyền tải theo biểu đồ có thể lựa chọn bao gồm:
- So sánh: Biểu đồ để so sánh là lựa chọn tốt nhất nếu chúng ta muốn so sánh các số liệu theo các đơn vị/ tổ chức dữ liệu khác nhau. Ví dụ là số lượng hồ sơ thủ tục hành chính đã được giải quyết giữa hai cơ quan. Biểu đồ này cũng có thể sử dụng để làm nổi bật xu hướng theo thời gian như sự thay đổi nhiệt độ theo thời gian.
- Các loại biểu đồ thông dụng để so sánh có thể sử dụng bao gồm: biểu đồ thanh, biểu đồ cột, biểu đồ đường và bảng.
- Mối quan hệ: để thể hiện mối quan hệ hoặc sự tương quan giữa hai nay nhiền biến, biểu đồ mối quan hệ là phù hợp. Ví dụ biểu đồ thể hiện mối quan hệ giữa tỉ lệ sinh và tỉ lệ chết ở các tỉnh thành khác nhau. Các loại biểu đồ phù hợp để thể hiện mối quan hệ này là: biểu đồ phân tán (Scatter chart) và biểu đồ bong bóng (bubble chart).
- Tổ hợp: Biểu đồ tổ hợp thể hiện cấu trúc tổng thể, sự phân bố các thành phần trong mối quan hệ tổng thể. Ví dụ: tỉ lệ đóng góp vào GDP của các ngành kinh tế. Các biểu đồ thường được sử dụng bao gồm: Biểu đồ hình tròn (Pie chart); biểu đồ thác nước (Waterfall chart) và biểu đồ xếp chồng (Stacked chart types).
- Sự phân bổ: Loại biểu đồ này thể hiện sự phân bổ theo thời gian để chỉ ra xu hướng thay đổi. Các loại biểu đồ thường sử dụng là biểu đồ tần suất (Histogram); Biểu đồ phân tán (Scatter chart) và biểu đồ vùng 3D (3D area chart).
c) Xem xét bối cảnh và ý nghĩa của dữ liệu để trình diễn
Trực quan hóa dữ liệu là cung cấp giá trị, ngữ nghĩa cho người xem. Trình diễn dữ liệu cần xác định một tập thông tin được hiển thị trực quan, dễ dàng nhận biết, dễ hiểu. Để thực hiện điều này, cần lưu ý những điểm sau:
- Chỉ bao gồm dữ liệu cần thiết;
- Cần đặt một tiêu đề cho biểu đồ rõ ràng, gợi rõ nội dung;
- Chia tỉ lệ biểu đồ phù hợp, các khoảng bằng nhau trên mỗi trục;
- Các nhãn của biểu đồ thể hiện rõ ràng, dễ đọc, dễ hiểu;
- Sắp xếp dữ liệu hợp lý để dễ dàng so sánh nhanh chóng;
- Sắp xếp dữ liệu tạo nên một câu chuyện thay vì chỉ đưa ra các con số nổi bật;
- Bổ sung chỉ dẫn nguồn để tăng độ tin cậy.
d) Thiết kế biểu đồ, trình diễn biểu đồ hài hòa
Việc thiết kế biểu đồ hài hòa, phù hợp sẽ mang lại hiệu ứng cao. Nội dung cần phải hấp dẫn về mặt hình ảnh, nhưng bạn nên tránh có quá nhiều màu sắc, phông chữ, bố cục và điểm nhấn. Tổng thể giữ đơn giản là tốt nhất.
- Chọn phông chữ cho tiêu đề, nhãn của trục, chú giải biểu đồ dễ đọc. Điều này rất quan trọng để bảo đảm rằng người xem nhận được thông điệp rõ ràng.
- Tránh các bảng màu hỗn hợp hoặc màu cầu vồng. =Thay vào đó, hãy chọn một tông cho biểu đồ hoặc thêm một tông khác nếu cần làm nổi bật dữ liệu. Màu sắc tươi sáng thu hút quan tâm nhanh hơn nên được sử dụng để thu hút sự chú ý vào một phần cụ thể của biểu đồ.
- Thêm nhãn dữ liệu trực tiếp vào các đường hoặc thanh, đặc biệt nếu nó giúp biểu đồ dễ đọc hơn.
- Không nên lạm dụng đường lưới. Chỉ sử dụng chúng nếu chúng thực sự tạo điều kiện cho việc đọc biểu đồ.
- Nên sử dụng biểu tượng, icon để đại diện cho các tổ chức, các thành phần của dữ liệu để dễ nắm bắt.
đ) Lựa chọn màu sắc cho biểu đồ phù hợp
Màu sắc là một đặc tính quan trọng trong trực quan hóa dữ liệu, vì có thể truyền đạt hiệu quả thông tin quan trọng về dữ liệu thông qua việc sử dụng các kết hợp màu sắc khác nhau. Dữ liệu phân loại cần được thể hiện tốt nhất bằng một màu riêng biệt cho từng danh mục, trong khi dữ liệu tuần tự có thể được sắp xếp thông qua các sắc thái khác nhau của một màu.
Một số khuyến nghị cân nhắc khi sử dụng màu sắc để trình bày dữ liệu:
- Các giá trị quan trọng nhất cần có phương án màu sắc làm cho nổi bật;
- Không nên sử dụng quá nhiều màu. Nếu nhiều hơn bảy màu được sử dụng trong một bản đồ, hãy cân nhắc sử dụng một bản đồ khác hoặc nhóm các danh mục lại với nhau;
- Các biến giống nhau, hãy xem xét việc sử dụng cùng một màu;
- Màu sắc sử dụng nên phù hợp với ý nghĩa của dữ liệu. Ví dụ như độ đậm nhạt của màu thể hiện giá trị hay tỉ lệ phần trăm cao hay thấp của dữ liệu;
- Cân nhắc sử dụng các màu sắc khác nhau có xung đột hay bổ sung cho nhau hay không;
- Sử dụng màu sắc trực quan;
- Áp dụng giá trị thấp ở màu sáng và giá trị cao ở màu tối;
- Không nên sử dụng bảng màu chuyển tiếp (gradient) cho các giá trị rời rạc;
- Đối với màu chuyển tiếp (gradient), hãy thử sử dụng hai màu khác nhau;
- Hãy thử sử dụng các gradient màu phân kỳ;
- Có tính đến trường hợp người khuyết tật mù màu có thể phân biệt được các số liệu.
e) Chọn nền tảng, công cụ trực quan hóa
Có rất nhiều công cụ sử dụng để trực quan hóa dữ liệu. Đơn giản nhất có thể sử dụng Microsoft Excel để tạo dựng biểu đồ trên bảng tính. Một số phần mềm chuyên dùng để tạo biểu đồ như Infogram. Đối với các nền tảng quản lý dữ liệu có thể sử dụng các Tableau, Plotty…
Như vậy, chúng tôi đã giới thiệu tổng quan về vai trò và kinh nghiệm tốt nhất để triển khai biểu diễn dữ liệu. Hiện nay, các trung tâm IOC ở các bộ, ngành, địa phương đang triển khai mạnh. Trong đó, trình diễn dữ liệu là phần trung tâm của các trung tâm IOC để cung cấp thông tin chỉ đạo điều hành và ra quyết định. Hy vọng, với các nội dung cung cấp qua bài báo này có thể giúp cải tiến và triển khai trình diễn dữ liệu ở IOC tốt hơn, góp phần vào từng bước vững chắc cho chuyển đổi số.
Khánh Nguyễn
Tài liệu tham khảo:
https://infogram.com/blog/data-visualization-best-practices/
https://research.lib.buffalo.edu/dataviz/best-practices
https://www.lucidchart.com/blog/data-visualization-best-practices
https://www.toptal.com/designers/data-visualization/data-visualization-best-practices