Scatter Plot là gì? Tìm hiểu từ A-Z về biểu đồ phân tán

Bởi Nguyễn Linh
0 Nhận xét

Giữa hai trường dữ liệu mà bạn thu thập được trông dường như chẳng liên quan đến nhau. Nhưng bất ngờ rằng chúng lại có mối liên hệ mà bạn không hay biết. Biểu đồ phân tán (Scatter Plots) sẽ cho bạn thấy mối liên hệ đó. Cùng Smart Data tìm hiểu về biểu đồ phân tán và các ưu – nhược điểm của chúng trong bài viết dưới đây!

Tìm hiểu chung về biểu đồ phân tán – Scatter Plot

Biểu đồ phân tán là dạng biểu đồ thể hiện tương quan giữa hai biến trên hệ tọa độ. Trong đó, trục Oy là biến phụ thuộc, trục Ox là biến độc lập. Dữ liệu thu thập được sẽ hiển thị trên biểu đồ bằng các dấu chấm tại các điểm tương ứng. 

Xem demo biểu đồ phân tán tại đây!

Scatter Plot được sử dụng khi Data Analyst muốn so sánh mối quan hệ, tìm hiểu tương quan giữa hai biến định lượng (có thể đo lường được).  Biểu đồ này rất hữu ích để tìm hiểu cách một biến này ảnh hưởng đến biến khác. Điều này giúp bạn đưa ra quyết định chính xác hơn, hoặc tìm hiểu sâu hơn về dữ liệu.

Ngoài lĩnh vực Data Analyst, một số ngành nghề khác cũng có thể sử dụng biểu đồ phân tán để kiểm tra mối quan hệ giữa hai biến không liên quan. Ví dụ như: 

  • Nhà kinh tế học: Xác định xu hướng tương quan giữa một sự kiện với tình hình hiện tại của nền kinh tế.
  • Marketer – nghiên cứu thị trường: Xem xét tương quan giữa các yếu tố. Ví dụ như tuổi tác, giới tính, nghề nghiệp với thói quen mua hàng của người tiêu dùng. Biểu đồ phân tán hữu ích để ứng dụng trong Data-driven marketing.
  • Cục điều tra dân số: Rút ra kết luận về mối quan hệ giữa các khía cạnh như tuổi tác, trình độ học vấn, vị trí địa lý và thu nhập.

3 khía cạnh khi đọc biểu đồ phân tán

Để phân tích tương quan, cần phải xem xét ít nhất 3 yếu tố quan trọng trong mối liên hệ giữa các biến “S – T – D”:

S – Strength: Độ mạnh và yếu của tương quan. Được thể hiện qua hệ số tương quan, ký hiệu là “r”. Giá trị của “r” sẽ thể hiện độ mạnh – yếu, dạng tương quan, phương hướng của mối tương quan giữa hai biến x – y. 

T – Type: Dạng tương quan (tuyến tính hay phi tuyến tính)

D – Direction: Hướng của tương quan, bao gồm tương quan thuận, tương quan nghịch hoặc không tương quan.

Và 3 khía cạnh “S – T – D” cũng là cơ sở để phân loại các tương quan trong Scatter Plot.

5 loại tương quan trong biểu đồ phân tán

Phân loại theo hướng tương quan

Tương quan thuận (r > 0): Nếu một biến tăng tương đương với một biến khác thì đó thường là mối tương quan thuận (giá trị y tăng khi giá trị x tăng). Ví dụ như: mối liên hệ giữa tuổi tác và thu nhập của một người dân. Khi thu thập của họ tăng lên cùng với độ tuổi thì đó là tương quan thuận.

Tương quan nghịch (r < 0): Tương quan nghịch xảy ra khi một biến tăng trong khi giá trị của biến kia lại giảm (giá trị y giảm khi giá trị x tăng). Ví dụ: các điểm dữ liệu có thể cho thấy rằng một người càng ngủ ít mỗi đêm thì ban ngày họ lại càng cảm thấy mệt mỏi.

Phân loại theo hướng tương quan có 2 loại: Tương quan thuận và tương quan nghịch
Phân loại theo hướng tương quan có 2 loại: Tương quan thuận và tương quan nghịch

Phân loại theo mức độ tương quan

Tương quan mạnh (r gần bằng ±1). Các điểm phân tán tập trung gần nhau. Chỉ duy nhất biểu đồ có tương quan mạnh là bạn có thể vẽ một đường thẳng (trendline) đi qua các điểm.

Tương quan yếu. Các điểm phân tán nằm rải rác và ngẫu nhiên. Chúng không tập trung vào một khu vực và không theo một cấu trúc cụ thể. Điều đó thể hiện mối quan hệ giữa hai biến x và y trên biểu đồ là không rõ ràng. 

Không có mối tương quan (r = 0). Nếu bạn phân tích và không thấy có mối quan hệ rõ ràng giữa hai biến thì chúng không có mối tương quan với nhau. Ví dụ: Thói quen ăn uống và trình độ học vấn của một người. Trên biểu đồ, nó thể hiện bằng việc các điểm dữ liệu thường phân bố đều. Chúng không có sự tập trung hoặc mẫu rõ ràng. Biểu đồ không xuất hiện sự biến động nào. 

Phân loại biểu đồ phân tán theo mức độ tương quan có 3 loại: Tương quan mạnh, tương quan yếu và không có tương quan
Phân loại biểu đồ phân tán theo mức độ tương quan có 3 loại: Tương quan mạnh, tương quan yếu và không có tương quan

Ưu và nhược điểm của biểu đồ phân tán

Ưu điểm của biểu đồ phân tán

Xác định mối tương quan. Scatter Plot cho phép Data Analyst so sánh hai biến dường như không liên quan và xác định mối quan hệ giữa chúng.

Phát hiện xu hướng và biến đổi. Scatter plot giúp bạn dễ dàng nhận biết xu hướng và biến đổi trong dữ liệu. Bằng cách nhìn vào biểu đồ, bạn có thể xác định xem có sự thay đổi đột ngột hoặc mức độ biến đổi nào đó trong dữ liệu không.

Phát hiện outliers. Biểu đồ phân tán cho phép Data Analyst dễ dàng phát hiện các giá trị ngoại lệ (outliers). Những điểm dữ liệu xuất hiện rất xa so với phân phối chung có thể được nhận biết một cách rõ ràng trên biểu đồ.

Biểu diễn phi tuyến tính. Nhiều biểu đồ thống kê chỉ cho phép bạn ghi và giải thích dữ liệu tuyến tính. Tuy nhiên với biểu đồ phân tán, bạn có thể hiển thị các điểm dữ liệu cong hoặc không đều.

Dễ đọc với Fresher. Scatter Plot sử dụng các dấu chấm để trực quan dữ liệu. Vì vậy chúng khá dễ đọc. Nếu bạn là người mới bắt đầu, bạn có thể vẽ một đường thẳng ở giữa biểu đồ để hình dung rõ hơn về mối tương quan dương hoặc âm.

Đọc thêm: Tổng hợp 26 loại biểu đồ Data Analyst giúp so sánh trực quan dễ dàng

Nhược điểm của Scatter Plot

Hạn chế khi phân tích. Scatter Plot chỉ cho phép bạn phân tích 2 biến cùng một lúc. Điều này sẽ trở thành hạn chế khi bạn muốn phân tích sâu về một chủ thể nhất định. Nếu muốn xem xét tương quan giữa nhiều biến, bạn cần sử dụng biểu đồ khác như biểu đồ đám mây.

Không phù hợp với tập dữ liệu lớn. Việc biểu diễn quá nhiều dữ liệu có thể khiến biểu đồ phân tán trở nên lộn xộn, khó hiểu. Điều này sẽ khó để thấy được sự tương quan rõ ràng giữa các điểm dữ liệu.

Có thể bị che khuất thông tin. Khi có quá nhiều điểm dữ liệu, một số điểm có thể bị che khuất bởi các điểm khác. Điều này làm cho việc phân tích và hiểu mối quan hệ trở nên khó khăn hơn.

Không xác định được tương quan chắc chắn. Scatter Plot chỉ cho thấy mối quan hệ giữa hai biến, nhưng không thể xác định sự tương quan chắc chắn hoặc nguyên nhân – hậu quả. 

Lỗi vẽ đồ thị. Để vẽ biểu đồ phân tán, bạn có thể sử dụng các công cụ như Power BI hoặc Excel. Bạn chọn Scatter Plot và nhập các trường thông tin mà 1 data point thể hiện. Việc nhập dữ liệu thủ công đôi khi có thể dẫn đến lỗi.

Kết luận về biểu đồ phân tán

Việc tìm hiểu về cách thể hiện biểu đồ phân tán cũng như các ưu, nhược điểm của chúng sẽ giúp Data Analyst vận dụng loại biểu đồ này dễ dàng hơn. Bạn sẽ tránh mắc sai lầm khi đọc, phân tích dữ liệu nếu đã biết được các điểm hạn chế của Scatter Plot. Từ đó sẽ đưa ra quyết định đúng đắn hơn dựa trên dữ liệu. 

Bạn muốn học cách làm biểu đồ phân tán cũng như dashboard tự động hóa? Bạn muốn học phân tích dữ liệu ứng dụng trong công việc từ số 0 để phục vụ công việc làm báo cáo? Đăng ký HỌC THỬ MIỄN PHÍ khóa Practical Data Analyst tại đây: https://tableau.edu.vn/khoa-hoc-data-analyst-fundamental/

Bài viết liên quan

Để lại nhận xét

Copyright @2022 – Bản quyền thuộc Học viện dữ lệu Smart Data