Trong bài viết đầu tiên của series “Hướng dẫn thi chứng chỉ Google Data Analytics” chia sẻ kiến thức chương trình chứng chỉ Google Data Analytics lần này, chúng ta sẽ làm quen với data bias, hay còn gọi là thiên kiến dữ liệu, giúp bạn có những góc nhìn đa chiều hơn và ngày càng hoàn thiện tư duy phân tích để đưa ra những quyết định đúng đắn dựa trên dữ liệu.
Giới thiệu
Với vai trò của một nhà phân tích dữ liệu, bạn có một nhiệm vụ rất quan trọng là: đảm bảo kết quả phân tích là công bằng. Đến đây có thể bạn sẽ tự hỏi, dữ liệu được tập hợp dựa trên sự thật cơ mà, làm sao chúng có thể không công bằng? Trước tiên, sự công bằng ở đây nghĩa là đảm bảo rằng các phân tích của bạn không tạo ra hoặc củng cố các thiên kiến. Nói cách khác, nhà phân tích dữ liệu sẽ giúp tạo ra các hệ thống công bằng và toàn diện cho tất cả mọi người. Đây thực tế là một phần khó khăn về tính công bằng trong phân tích dữ liệu và cũng không có một định nghĩa tiêu chuẩn nào cho chúng. Vì vậy, chúng ta sẽ lần lượt đi qua các tình huống thực tế để có cái nhìn sâu sắc hơn về thiên kiến và các yếu tố ảnh hưởng gây nên những thiên kiến đó.
Ảnh hưởng của yếu tố hệ thống
Tình huống: Công ty A nổi tiếng như một câu lạc bộ dành cho nam giới và có rất ít nữ nhân viên. Công ty A muốn biết nhân viên nào đang làm tốt, vì vậy họ bắt đầu thu thập dữ liệu về hiệu suất của nhân viên và văn hóa công ty của chính họ. Dữ liệu cho thấy nam giới là những người duy nhất thành công ở công ty này và họ kết luận rằng nên tuyển thêm các nhân viên nam.
Phân tích: Đó không phải là một kết luận công bằng vì một vài lý do. Đầu tiên, kết luận không xem xét tất cả các dữ liệu có sẵn về văn hóa công ty, vì vậy vẽ ra một bức tranh chưa hoàn chỉnh. Thứ hai, các yếu tố xung quanh khác ảnh hưởng đến dữ liệu chưa được tính đến, hay nói cách khác, kết luận không xem xét khó khăn mà những người thuộc giới tính khác nhau gặp phải khi cố gắng thích ứng trong môi trường làm việc chủ yếu là nam giới. Nếu công ty chỉ nhìn vào kết luận này, họ sẽ bỏ qua và không thừa nhận ảnh hưởng xấu từ văn hóa doanh nghiệp và họ sẽ không hiểu nguyên nhân một số người nhất định lại thất bại trong đó. Đó là lý do tại sao điều quan trọng là phải ghi nhớ sự công bằng khi phân tích dữ liệu. Kết luận rằng chỉ có đàn ông thành công ở công ty này là đúng, nhưng nó bỏ qua các yếu tố mang tính hệ thống khác đang góp phần gây ra vấn đề này.
Giải pháp: Để đưa ra kết luận công bằng ở đây, nhà phân tích dữ liệu có thể xem xét dữ liệu thu thập được và kết luận rằng văn hóa công ty đang cản trở một số nhân viên thành công và công ty cần giải quyết những vấn đề đó để nâng cao hiệu suất.
Ảnh hưởng của bối cảnh xã hội
Tình huống: Một công ty bất động sản cần tuyển trợ lý nhân sự. Trưởng phòng nhân sự gửi yêu cầu thực hiện phân tích để quyết định nơi đăng thông tin tuyển dụng. Dựa trên hiểu biết cá nhân là phần lớn các chuyên gia nhân sự là phụ nữ, nhà phân tích dữ liệu xác thực phát hiện này bằng nghiên cứu và đưa ra quyết định nhắm mục tiêu quảng cáo đến một trường đại học cộng đồng dành cho nữ.
Phân tích: Có phải ngay cả chúng ta khi nghĩ đến những chuyên viên hành chính nhân sự thì hình ảnh một nữ nhân viên cũng sẽ xuất hiện trong tiềm thức, bởi phần lớn những người làm trong lĩnh vực nhân sự mà chúng ta biết trong thực tế xã hội đều là phụ nữ, và dần dần hình thành nên định kiến “nhân viên phụ trách nhân sự nên là nữ”. Trong tình huống trên, nhà phân tích đã xác thực phát hiện bằng nghiên cứu, kết luận phần lớn các chuyên gia nhân sự là phụ nữ là đúng nhưng quyết định nhắm mục tiêu quảng cáo đến một trường đại học dành cho nữ thật không công bằng. Ở đây, bối cảnh xã hội đã ảnh hưởng đến tính đúng đắn của các quyết định dựa trên dữ liệu, làm mất đi cơ hội cho những ứng viên là nam giới có năng lực phù hợp với vị trí trợ lý nhân sự.
Giải pháp: Với trường hợp này, thay vì quan tâm đến giới tính của ứng viên, nhà phân tích có thể làm tốt hơn bằng cách quan tâm đến các tiêu chí đặt ra về năng lực ứng viên và tìm kiếm nơi đăng thông tin tuyển dụng phù hợp với các tiêu chí này.
Ảnh hưởng của việc chọn mẫu
Tình huống 1: Một công ty ô tô đang thử nghiệm khả năng lái của mẫu xe tự lái với bài kiểm tra đầu tiên trên nhiều loại đường khác nhau—cụ thể là đường đua, đường mòn và đường đất. Các nhà nghiên cứu chỉ tiến hành thử nghiệm vào thời gian ban ngày và thu thập hai loại dữ liệu: dữ liệu cảm biến từ ô tô trong quá trình lái xe và dữ liệu video về các lần lái xe từ camera trên ô tô.
Sau khi xem xét dữ liệu từ các thử nghiệm ban đầu, kết quả cho thấy xe tự động mới đáp ứng các tiêu chuẩn về hiệu suất trên từng tuyến đường. Do đó, chiếc xe có thể tiến tới giai đoạn thử nghiệm tiếp theo với việc lái xe trong các điều kiện thời tiết khác nhau.
Phân tích: Bạn có nhận ra vấn đề trong quá trình thu thập dữ liệu ở trên không? Trong khi các nhà nghiên cứu thử nghiệm mẫu xe trên ba đường đua khác nhau, họ chỉ tiến hành thử nghiệm vào ban ngày. Nhưng điều kiện trên mỗi đường đua có thể rất khác nhau giữa ban ngày và ban đêm và điều này có thể làm thay đổi đáng kể kết quả. Việc chọn mẫu về thời gian thử nghiệm chưa toàn diện khiến cho các kết luận đưa ra bị sai lệch.
Giải pháp: Nhà phân tích dữ liệu nên khắc phục điều này bằng cách yêu cầu nhóm thử nghiệm bổ sung thử nghiệm vào ban đêm để có cái nhìn đầy đủ về cách mẫu xe hoạt động vào bất kỳ thời điểm nào trong ngày trên đường đua.
Hãy cùng khám phá thêm một trường hợp khác mà việc chọn mẫu có thể ảnh hưởng đến kết quả theo một cách khó nhận ra hơn nhé.
Tình huống 2: Để nâng cao hiệu quả của đội ngũ giảng viên, ban giám hiệu một trường trung học đã tạo cơ hội cho tất cả giáo viên tham gia một hội thảo với hình thức khuyến khích giáo viên tự nguyện đăng ký thay vì bắt buộc tham gia. Trong số 43 giáo viên trong biên chế, 19 người đã chọn tham gia hội thảo.
Vào cuối năm học, ban giám hiệu đã thu thập dữ liệu về kết quả hoạt động của tất cả giáo viên trong đội ngũ nhân viên. Dữ liệu này được thu thập thông qua khảo sát sinh viên. Trong đó, học sinh được yêu cầu xếp hạng hiệu quả của mỗi giáo viên theo thang điểm từ 1 (rất kém) đến 6 (rất tốt).
Ban giám hiệu đã so sánh dữ liệu về những giáo viên tham dự hội thảo với dữ liệu về những giáo viên không tham dự. So sánh cho thấy giáo viên tham dự hội thảo có điểm trung bình là 4,95, trong khi giáo viên không tham dự có điểm trung bình là 4,22. Từ đó kết luận rằng hội thảo đã thành công.
Phân tích: Có phải bạn cảm thấy dường như kết luận này có gì đó không đúng? Hãy áp dụng tư duy phản biện một chút để tìm ra vấn đề trong quá trình đi đến kết luận.
Liệu việc tham gia hội thảo có phải là nguyên nhân chính khiến các giáo viên tham gia được học sinh đánh giá cao hơn? Câu trả lời là không thể chắc chắn. Thứ nhất, hội thảo có thể đã có hiệu quả, nhưng không thể loại trừ những lời giải thích khác về sự khác biệt trong xếp hạng. Ví dụ, các giáo viên tình nguyện tham gia hội thảo là những giáo viên giỏi hơn, năng động hơn. Nhóm giáo viên này sẽ được đánh giá cao hơn dù buổi hội thảo có hiệu quả hay không.
Thứ hai, điều đáng lưu ý ở đây là không có mối liên hệ trực tiếp nào giữa câu trả lời khảo sát của học sinh và việc tham dự hội thảo, bởi câu trả lời của học sinh chỉ đánh giá hiệu quả của giáo viên chứ không trực tiếp đánh giá chất lượng của các nội dung đã đào tạo cho giáo viên trong hội thảo, dường như ở đây xuất hiện xu hướng tìm kiếm thông tin để củng cố cho niềm tin vào sự thành công của hội thảo, thay vì có các phương pháp đúng đắn để đo lường.
Giải pháp: Nhà phân tích dữ liệu có thể khắc phục điều này bằng cách yêu cầu chọn ngẫu nhiên các giáo viên tham gia hội thảo để có một mẫu đầy đủ đại diện được cho tất cả giáo viên. Họ cũng có thể thu thập dữ liệu đo lường điều gì đó liên quan trực tiếp hơn đến việc tham dự hội thảo, chẳng hạn như sự thành công của một kỹ thuật mà giáo viên đã học được trong hội thảo đó.
Kết luận
Chúng ta đã cùng đi qua các tình huống minh họa để hiểu được vai trò của sự công bằng trong việc đưa ra quyết định đúng đắn từ dữ liệu. Qua đó nắm được những điều cần lưu ý để tránh gây ra thiên kiến trong quá trình phân tích, bao gồm:
- Xem xét các yếu tố mang tính hệ thống hay bức tranh toàn cảnh tác động lên phân tích
- Xem xét bối cảnh xã hội, các định kiến xung quanh có thể ảnh hưởng đến phân tích
- Chọn mẫu theo cách ngẫu nhiên và bao hàm đầy đủ các nhóm để đảm bảo tính chính xác và khách quan
Dựa vào những hiểu biết ban đầu này, chúng ta sẽ tiếp tục đi sâu hơn để hệ thống lại nội dung về các loại thiên kiến dữ liệu ở bài viết sau.
Nếu bạn là newbie có thể tham khảo bài viết này để tìm hiểu lộ trình học DA trong 3 tháng kết hợp ôn luyện chứng chỉ Google Data Analytics Certificate của SmartData.
Nếu bạn thấy bài viết hay và hữu ích, bạn có thể tham gia các kênh sau của SmartData để nhận được nhiều hơn nữa: