Làm sạch dữ liệu là một bước quan trọng trong quá trình phân tích dữ liệu. Dữ liệu không sạch có thể dẫn đến kết quả phân tích không chính xác. Để làm sạch dữ liệu trong Power Query, bạn có thể sử dụng nhiều hàm chức năng, trong đó có một số hàm liên quan đến việc làm sạch dữ liệu được gọi là các hàm “Clean”.
Giới thiệu các hàm Clean phổ biến
- Clean: Loại bỏ các ký tự không in được từ một văn bản, giúp làm sạch dữ liệu từ các ký tự đặc biệt không mong muốn, ví dụ như dấu cách, xuống dòng,..
- Trim: Loại bỏ khoảng trắng không mong muốn ở đầu và cuối chuỗi. Điều này thường được sử dụng để làm sạch các giá trị dạng văn bản.
- Capitalize Each Word: Chuyển đổi mọi từ trong một chuỗi thành chữ cái đầu tiên viết hoa và phần còn lại là chữ thường, giúp làm sạch dữ liệu về mặt hình thức.
- Upper và Lower: chuyển đổi tất cả các ký tự trong chuỗi thành chữ cái in hoa (Upper) hoặc in thường (Lower).
- Add Prefix/ Add Suffix: Thêm tiền tố (prefix) hoặc hậu tố (suffix) vào các giá trị trong một cột dữ liệu.
Cách áp dụng các hàm Clean
Cách sử dụng Clean
Để sử dụng hàm này, bạn chọn vào 1 cột dữ liệu -> chọn tab Transform -> chọn Format -> Clean
Ví dụ mình có bảng dữ liệu mẫu, như các bạn thấy tên “Nguyễn Văn Anh” đang thừa dấu xuống dòng ở đầu, giữa và cuối của tên. Với lỗi này, mình có thể dùng hàm clean để loại bỏ ký tự xuống dòng dư thừa.
Cách sử dụng hàm Trim
Để sử dụng hàm này, bạn chọn vào 1 cột dữ liệu -> chọn tab Transform -> chọn Format -> Trim
Với tập dữ liệu mẫu như trên, khi mình dùng Trim thì nó chỉ loại bỏ những khoảng trắng đầu và cuối của chuỗi. Trong khi clean loại bỏ tất cả ký tự thừa ở đầu, cuối và giữa chuỗi. Đây là sự khác biệt giữa Trim và Clean.
Cách sử dụng hàm Upper và Lower
Để sử dụng hàm này, bạn chọn vào 1 cột dữ liệu -> chọn tab Transform -> chọn Format -> chọn lowercase hoặc UPPERCASE
Ví dụ mình dùng uppercase và lowercase với cột “Họ và tên”
Cách sử dụng hàm Add Prefix/ Add Suffix
Để sử dụng hàm này, bạn chọn vào 1 cột dữ liệu -> chọn tab Transform -> chọn Format -> chọn Add Prefix ( thêm vào trước ) hoặc Add Suffix ( thêm vào sau ), nhập chuỗi ký tự bạn muốn thêm -> OK
Giả sử mình muốn thêm chuỗi ” – Nhân viên” vào sau cột họ và tên, đây là kết quả, tất cả các dòng trong cột Họ và tên đều được thêm chuỗi ” – Nhân viên” vào sau. Với hàm Add Prefix thì làm tương tự.
Cách sử dụng hàm Capitalize Each Word
Để sử dụng hàm này, bạn chọn vào 1 cột dữ liệu -> chọn tab Transform -> chọn Format -> chọn Capitalize Each Word
Giả sử mình UPPERCASE toàn bộ dữ liệu cột Họ và tên, sau đó mình lại muốn chỉ viết hoa chữ cái đầu mỗi từ thì làm như các bước trên là xong, và đây là kết quả
Lợi ích của việc biến đổi dữ liệu
- Tăng độ chính xác của phân tích dữ liệu: Dữ liệu sạch sẽ giúp đảm bảo rằng các phân tích của bạn dựa trên thông tin chính xác. Giúp bạn đưa ra các quyết định tốt hơn dựa trên dữ liệu.
- Hiệu Quả Hóa Phân Tích: Dữ liệu sạch làm cho quá trình phân tích dữ liệu trở nên hiệu quả hơn. Bạn có thể tập trung vào việc nắm bắt dữ liệu cốt lõi mà không phải lo lắng về các vấn đề liên quan đến chất lượng dữ liệu.
- Giảm Rủi Ro: Làm sạch dữ liệu giảm rủi ro liên quan đến việc dựa vào dữ liệu không chính xác hoặc không đầy đủ khi đưa ra quyết định.
- Tối Ưu Hóa Hiệu Suất: Dữ liệu sạch giúp tối ưu hóa hiệu suất của các truy vấn và báo cáo. Bạn có thể giảm thiểu thời gian xử lý dữ liệu và tăng tốc quá trình làm việc.
Kết luận
Bài viết trên SmartData đã giới thiệu với các bạn cách làm sạch dữ liệu với các hàm Clean trong Power Query. Nếu bạn thấy bài viết hay và hữu ích, bạn có thể tham gia các kênh sau của SmartData để nhận được nhiều thông tin hơn nữa: