Chuẩn hóa dữ liệu là quá trình quan trọng để đảm bảo dữ liệu của bạn sạch sẽ và chính xác. Việc này giúp bạn tạo các báo cáo và phân tích chính xác và đáng tin cậy hơn. Một số phương pháp phổ biến là Fill Down/Up và Replace Values.
Giới thiệu
- Fill Down/Up: điền giá trị từ các hàng bên trên vào các hàng bên dưới hoặc điền giá trị từ các hàng bên dưới lên các hàng bên trên. Ví dụ bạn có 1 bảng dữ liệu gồm 2 cột: “Tên” và “Lớp”. Nếu có 1 số hàng thiếu dữ liệu cho cột “Lớp”, bạn có thể sử dụng Fill Down để điền giá trị từ hàng bên trên cho các cột thiếu. Tương tự với phương pháp Fill Up để điền giá trị từ hàng bên dưới cho các cột thiếu.
- Replace Values: Phương pháp này được sử dụng để thay thế giá trị hiện có bằng giá trị mới. Ví dụ với bảng dữ liệu phía trên, nếu bạn muốn thay thế tất cả giá trị 2 thành 3 trong cột “Lớp”, bạn có thể sử dụng phương pháp Replace Values.
Xem thêm tại video sau:
Cách áp dụng trong Power Query
Fill Down
Để sử dụng phương pháp này, đầu tiên chọn cột dữ liệu bạn muốn điền giá trị -> Trên tab “Transform” -> chọn “Fill” -> chọn “Down” hoặc chuột phải vào cột muốn điền giá trị -> chọn “Fill” -> chọn “Down”
Ví dụ: Ta có 1 bảng dữ liệu gồm “Tên” và “Lớp” nhưng cột “Lớp” có 1 vài giá trị NULL như sau:
Bạn muốn điền các cột lớp với “Fill Down” thì toàn bộ giá trị NULL sẽ điền theo giá trị phía trên gần nhất với nó, như bạn Nguyễn Văn A và Nguyễn Văn C sẽ theo lớp của bạn Nguyễn Văn B
Fill Up
Tương tự như “Fill Up”, nhưng toàn bộ giá trị NULL sẽ điền theo giá trị phía dưới gần nhất với nó. Như bạn thấy 2 hàng cuối không có hàng nào phía dưới gần nhất nên giá trị vẫn là NULL
Replace Values
Để sử dụng phương pháp này, bạn chọn cột muốn thay giá trị -> chọn tab “Transform” -> chọn “Replace Values” -> Nhập giá trị bị thay thế vào ô “Value to find” và giá trị sẽ thay thế vào “Replace with” -> OK
Ví dụ: Vẫn bảng dữ liệu trên, bạn muốn thay thế toàn bộ giá trị 2 trong cột “Lớp” thành giá trị 4:
Lợi ích của việc chuẩn hóa dữ liệu
Chuẩn hóa dữ liệu trong Power BI có nhiều lợi ích quan trọng, đặc biệt khi bạn làm việc với dữ liệu từ nhiều nguồn khác nhau hoặc dữ liệu không được hoàn hảo. Một số lợi ích quan trọng của việc chuẩn hóa dữ liệu:
- Tạo báo cáo hiệu quả: Dữ liệu chuẩn hóa giúp tạo ra báo cáo mạnh mẽ, dễ đọc và dễ hiểu, làm cho thông tin trở nên rõ ràng và dễ dàng truy cập.
- Tăng hiệu suất: Chuẩn hóa dữ liệu giúp cải thiện hiệu suất tải dữ liệu và thực hiện các thao tác biến đổi. Dữ liệu chuẩn hóa tải nhanh hơn và phản ánh dữ liệu thay đổi một cách hiệu quả.
- Tiết kiệm thời gian: Chuẩn hóa dữ liệu giúp bạn tiết kiệm thời gian trong việc tìm và sửa lỗi dữ liệu, giúp tăng năng suất làm việc
- Dễ quản lý và duy trì: Dữ liệu được chuẩn hóa dễ quản lý và duy trì hơn. Có thể hiểu cấu trúc dữ liệu của mình và dễ dàng thực hiện các thay đổi cần thiết.
Kết luận
Bài viết trên SmartData đã giới thiệu với các bạn các cách chuẩn hóa dữ liệu trong Power Query. Nếu bạn thấy bài viết hay và hữu ích, bạn có thể tham gia các kênh sau của SmartData để nhận được nhiều thông tin hơn nữa: