Trong bài viết đầu tiên của series “Hướng dẫn thi chứng chỉ Google Data Analytics” chia sẻ kiến thức chương trình chứng chỉ Google Data Analytics lần này, chúng ta sẽ làm quen với data bias, hay còn gọi là thiên kiến dữ liệu, giúp bạn có những góc nhìn đa chiều hơn và ngày càng hoàn thiện tư duy phân tích để đưa ra những quyết định đúng đắn dựa trên dữ liệu.
Tìm hiểu về thiên kiến dữ liệu
Vì sao Data Analyst cầ hiểu về thiên kiến dữ liệu?
Với vai trò của một Data Analyst, bạn có một nhiệm vụ rất quan trọng là: đảm bảo kết quả phân tích là công bằng, khách quan. Tuy nhiên, không phải lúc nào kết quả cũng khách quan. Nguyên nhân là bởi chúng ta vẫn có thể bị tác động bởi thiên kiến cá nhân trong quá trình quyết định các trường dữ liệu sẽ thu thập, hay đánh giá thiếu toàn diện về vấn đề,…
Vì vậy là một Data Analyst, bạn đặc biệt cần lưu ý tới thiên kiến dữ liệu để:
- Hiểu được những cái “bẫy” tư duy thường gặp khi phân tích do thiên lệch gây ra. Từ đó DA sẽ có được góc nhìn đa chiều về một bức tranh toàn diện của vấn đề cần phân tích (chủ đề này bạn sẽ được học ở Course 2).
- Giúp rèn luyện tư duy phản biện cho mỗi quyết định đưa ra. “Liệu quyết định này có đang dựa trên thiên kiến cá nhân hay thực tế khách quan?”. Khi đặt câu hỏi nhằm loại trừ thiên kiến khi ra quyết định, bạn có thể giảm thiểu sai sót khi đưa ra kết luận (chủ đề này bạn sẽ được học ở Course 2).
- Kiến thức về các loại thiên kiến giúp DA lên kế hoạch và thực hiện các hành động trong giai đoạn chuẩn bị dữ liệu nhằm giảm thiểu thiên lệch. Ví dụ như xác định mẫu cho nghiên cứu, ẩn danh thông tin để đảm bảo công bằng,… (chủ đề này bạn sẽ được học tại Course 3).
Smart Data sẽ cùng bạn lần lượt đi qua các tình huống thực tế ở dưới đây để có cái nhìn sâu sắc hơn về thiên kiến và các yếu tố ảnh hưởng gây nên những thiên kiến đó.
Thiên kiến dữ liệu trong bài thi chứng chỉ Google Data Analytics
Các câu hỏi về thiên kiến dữ liệu là 1 trong số ít các nội dung được đề cập đến ở 2 course liên tiếp trong chứng chỉ, gồm:
- Course 2: Ask Questions to Make Data-Driven Decisions
- Course 3: Prepare Data for Exploration.
Xuất hiện trong bài thi dưới 2 dạng:
- Câu hỏi tự luận: Yêu cầu chỉ ra và phân tích thiên kiến trong các tình huống được đưa ra.
- Câu hỏi trắc nghiệm: Về kiến thức lý thuyết cuối module và cuối course.
Các yếu tố gây nên thiên kiến
Ảnh hưởng của yếu tố hệ thống
Tình huống: Công ty A nổi tiếng như một câu lạc bộ dành cho nam giới và có rất ít nữ nhân viên. Công ty A muốn biết nhân viên nào đang làm việc hiệu quả. Vì vậy họ bắt đầu thu thập dữ liệu về hiệu suất của nhân viên và văn hóa công ty. Dữ liệu cho thấy nam giới là những người duy nhất thành công ở công ty này. Từ đó họ kết luận rằng nên tuyển thêm các nhân viên nam.
Phân tích: Đó không phải là một kết luận khách quan vì một vài lý do.
Đầu tiên, kết luận không xem xét tất cả các dữ liệu có sẵn về văn hóa công ty. Vì vậy vẽ ra một bức tranh chưa hoàn chỉnh.
Thứ hai, các yếu tố xung quanh khác ảnh hưởng đến dữ liệu chưa được tính đến. Hay nói cách khác, kết luận không xem xét khó khăn mà những người thuộc giới tính khác gặp phải khi cố gắng thích ứng trong môi trường làm việc chủ yếu là nam giới. Nếu công ty chỉ nhìn vào kết luận này, họ sẽ bỏ qua và không thừa nhận ảnh hưởng xấu từ văn hóa doanh nghiệp. Vì vậy họ sẽ không hiểu nguyên nhân một số nhân sự nhất định lại không có được kết quả tốt trong cuộc khảo sát.
Đó là lý do tại sao điều quan trọng một Data Analyst phải ghi nhớ là sự công bằng khi phân tích dữ liệu. Kết luận rằng chỉ có nam giới thành công ở công ty này là đúng. TUY NHIÊN kết luận này bỏ qua các yếu tố mang tính hệ thống khác đang góp phần dẫn tới vấn đề này.
Giải pháp: Để đưa ra kết luận công bằng ở đây, Data Analyst có thể xem xét dữ liệu thu thập được và kết luận rằng văn hóa công ty đang cản trở một số nhân viên thành công và công ty cần giải quyết những vấn đề đó để nâng cao hiệu suất.
Ảnh hưởng của bối cảnh xã hội
Tình huống: Một công ty bất động sản cần tuyển trợ lý nhân sự. Trưởng phòng nhân sự gửi yêu cầu thực hiện phân tích trước khi quyết định kênh đăng thông tin tuyển dụng. Dựa trên hiểu biết cá nhân là phần lớn các chuyên gia nhân sự là phụ nữ, nhà phân tích xác thực suy nghĩ đó bằng một số nghiên cứu và đưa ra quyết định nhắm mục tiêu quảng cáo đến một trường đại học dành cho nữ.
Phân tích: Có phải ngay cả chúng ta khi nghĩ đến những chuyên viên hành chính nhân sự thì hình ảnh một nhân viên nữ sẽ nhanh chóng xuất hiện trong đầu. Đó là bởi phần lớn những người làm trong lĩnh vực nhân sự mà chúng ta biết trong thực tế đều là phụ nữ, và dần dần hình thành nên hình mẫu trong tư duy.
Trong tình huống trên, nhà phân tích đã xác thực suy nghĩ của mình bằng nghiên cứu, kết luận phần lớn các chuyên gia nhân sự là phụ nữ là đúng. TUY NHIÊN, quyết định nhắm mục tiêu quảng cáo đến một trường đại học dành cho nữ là chưa khách quan. Ở đây, bối cảnh xã hội đã ảnh hưởng đến tính đúng đắn của các quyết định dựa trên dữ liệu, làm mất đi cơ hội của những ứng viên là nam giới có năng lực phù hợp với vị trí trợ lý nhân sự.
Giải pháp: Với trường hợp này, thay vì quan tâm đến giới tính của ứng viên, nhà phân tích có thể làm tốt hơn bằng cách quan tâm đến các tiêu chí đặt ra về năng lực ứng viên và tìm kiếm nơi đăng thông tin tuyển dụng phù hợp với các tiêu chí này.
Ảnh hưởng của việc chọn mẫu
Tình huống 1: Một công ty ô tô đang thử nghiệm khả năng lái của mẫu xe tự lái với bài kiểm tra đầu tiên trên nhiều loại đường khác nhau. Đó là: đường đua, đường mòn và đường đất. Các nhà nghiên cứu chỉ tiến hành thử nghiệm vào thời gian ban ngày và thu thập hai loại dữ liệu: (1) dữ liệu cảm biến từ ô tô trong quá trình lái xe, (2) dữ liệu video về các lần lái xe từ camera trên ô tô.
Sau khi xem xét dữ liệu từ các thử nghiệm ban đầu, kết quả cho thấy xe tự động mới đáp ứng các tiêu chuẩn về hiệu suất trên từng tuyến đường. Do đó, chiếc xe có thể tiến tới giai đoạn thử nghiệm tiếp theo với việc lái xe trong các điều kiện thời tiết khác nhau.
Phân tích: Bạn có nhận ra vấn đề trong quá trình thu thập dữ liệu ở trên không? Trong khi các nhà nghiên cứu thử nghiệm mẫu xe trên ba đường đua khác nhau, họ chỉ tiến hành thử nghiệm vào ban ngày. Nhưng điều kiện trên mỗi đường đua có thể rất khác nhau giữa ban ngày và ban đêm. Và điều này có thể làm thay đổi đáng kể kết quả. Việc chọn mẫu về thời gian thử nghiệm chưa toàn diện khiến cho các kết luận đưa ra bị sai lệch.
Giải pháp: Data Analyst nên khắc phục điều này bằng cách yêu cầu nhóm thử nghiệm bổ sung thử nghiệm vào ban đêm để có cái nhìn đầy đủ về cách mẫu xe hoạt động vào bất kỳ thời điểm nào trong ngày trên đường đua.
Tình huống 2: Để nâng cao hiệu quả của đội ngũ giảng viên, ban giám hiệu một trường trung học đã khuyến khích tất cả giáo viên tham gia một hội thảo với hình thức tự nguyện đăng ký thay vì bắt buộc tham gia. Trong số 43 giáo viên trong biên chế, có 19 người đã tham gia hội thảo.
Vào cuối năm học, ban giám hiệu đã thu thập dữ liệu về kết quả hoạt động của tất cả giáo viên trong đội ngũ nhân viên. Dữ liệu này được thu thập thông qua khảo sát sinh viên. Trong đó, học sinh được yêu cầu xếp hạng hiệu quả của mỗi giáo viên theo thang điểm từ 1 (rất kém) đến 6 (rất tốt).
Ban giám hiệu đã so sánh dữ liệu về những giáo viên tham dự hội thảo với dữ liệu về những giáo viên không tham dự. So sánh cho thấy giáo viên tham dự hội thảo có điểm trung bình là 4,95. Trong khi giáo viên không tham dự có điểm trung bình là 4,22. Từ đó kết luận rằng hội thảo đã thành công.
Phân tích: Có phải bạn cảm thấy dường như kết luận này có gì đó “sai sai”? Hãy áp dụng tư duy phản biện một chút để tìm ra vấn đề trong quá trình đi đến kết luận.
Liệu việc tham gia hội thảo có phải là nguyên nhân chính khiến các giáo viên tham gia được học sinh đánh giá cao hơn? Câu trả lời là không thể chắc chắn.
Thứ nhất, hội thảo có thể đã có hiệu quả, nhưng không thể loại trừ những lời giải thích khác về sự khác biệt trong xếp hạng. Ví dụ, các giáo viên tình nguyện tham gia hội thảo là những giáo viên giỏi hơn, năng động hơn. Nhóm giáo viên này sẽ được đánh giá cao hơn dù buổi hội thảo có hiệu quả hay không.
Thứ hai, điều đáng lưu ý ở đây là không có mối liên hệ trực tiếp nào giữa câu trả lời khảo sát của học sinh và việc tham dự hội thảo. Bởi câu trả lời của học sinh chỉ đánh giá hiệu quả của giáo viên chứ không trực tiếp đánh giá chất lượng của các nội dung đã đào tạo cho giáo viên trong hội thảo. Dường như ở đây xuất hiện xu hướng tìm kiếm thông tin để củng cố cho niềm tin vào sự thành công của hội thảo, thay vì có các phương pháp đúng đắn để đo lường.
Giải pháp: Nhà trường có thể khắc phục điều này bằng cách yêu cầu chọn ngẫu nhiên các giáo viên tham gia hội thảo để có một mẫu đầy đủ đại diện được cho tất cả giáo viên. Họ cũng có thể thu thập dữ liệu đo lường điều gì đó liên quan trực tiếp hơn đến việc tham dự hội thảo, chẳng hạn như sự thành công của một kỹ thuật mà giáo viên đã học được trong hội thảo đó.
Kết luận về thiên kiến dữ liệu
Chúng ta đã cùng đi qua các tình huống minh họa để hiểu được vai trò của sự công bằng trong việc đưa ra quyết định đúng đắn từ dữ liệu. Qua đó nắm được những điều cần lưu ý để tránh gây ra thiên kiến trong quá trình phân tích, bao gồm:
- Xem xét các yếu tố mang tính hệ thống hay bức tranh toàn cảnh tác động lên phân tích
- Xem xét bối cảnh xã hội, các định kiến xung quanh có thể ảnh hưởng đến phân tích
- Chọn mẫu theo cách ngẫu nhiên và bao hàm đầy đủ các nhóm để đảm bảo tính chính xác và khách quan
Dựa vào những hiểu biết ban đầu này, chúng ta sẽ tiếp tục đi sâu hơn để hệ thống lại nội dung về các loại thiên kiến dữ liệu ở bài viết sau.
Nếu bạn là newbie có thể tham khảo bài viết này để tìm hiểu lộ trình học DA trong 3 tháng kết hợp ôn luyện chứng chỉ Google Data Analytics Certificate của SmartData.
Nếu bạn thấy bài viết hay và hữu ích, bạn có thể tham gia các kênh sau của SmartData để nhận được nhiều hơn nữa: