Giới thiệu Merge Queries
Merge Queries cho phép bạn kết hợp (hoặc gộp) hai bảng dữ liệu dựa trên một hoặc nhiều cột chung. Giả sử mình có bảng SALES gồm các dòng là thông tin các đơn hàng, với mỗi đơn hàng sẽ từ 1 quốc gia. Vì trùng lặp khá nhiều quốc gia trong bảng SALES nên mình đã tách ra 1 bảng liên quan đến quốc gia là DIM_COUNTRY. Mình muốn merge 2 bảng SALES và DIM_COUNTRY lại dựa trên cột “Country” và “Region” của 2 bảng để tạo ra 1 bảng mới không có 2 cột “Country” và “Region” mà thay vào đó là ID của bảng DIM_COUNTRY để. Thì chức năng Merge Query sẽ giúp mình vấn đề này.
Cách kết hợp nhiều bảng với Merge Queries
Sau đây là cách kết hợp 2 bảng lại với nhau dựa trên các cột thông tin chung. Mình dùng lại ví dụ mô tả ở đầu bài.
Đầu tiên bạn chọn vào 1 trong 2 bảng muốn merge -> “Home” -> Merge Queries -> Merge Queries as New để tạo ra bảng merge mới
Khi đó, sẽ hiện ra màn hình merge. Đầu tiên, hộp chọn thứ nhất bạn chọn 1 trong 2 bảng muốn merge, hộp chọn thứ 2 chọn bảng còn lại. Sau đó chọn điều kiện merge dựa trên những cột nào, ở đây mình chọn cột “Country” và “Region” ở 2 bảng. Chú ý thứ tự chọn 2 cột ở 2 bảng phải giống nhau, ví dụ mình chọn “Country” là cột đầu tiên muốn merge và “Region” là cột thứ 2 muốn merge thì ở cả 2 bảng bạn phải chọn đúng thứ tự đó.
Tiếp theo đến options chọn loại Join, ở đây có các loại như:
- Left Outer: Lấy toàn bộ row bảng 1 và những row bảng 2 có khóa tồn tại trong bảng 1. Khóa ở đây là giá trị các cột đã chọn ở bước trước, như ví dụ là cặp giá trị “Country” và “Region”
- Right Outer: Ngược lại với Left Outer, sẽ lấy toàn bộ row bảng 2 và những row bảng 1 có khóa tồn tại trong bảng 1.
- Full Outer: Lấy toàn bộ kết quả của 2 bảng.
- Inner: Chỉ lấy giá trị key vừa ở bảng 1 và bảng 2.
Sau khi merge thì sẽ tạo ra 1 bảng mới chứa toàn bộ cột của bảng “SALES” và thêm 1 cột liên kết với bảng “DIM_COUNTRY”.
Đến đây thì bạn có thể làm thêm bước nữa để thay thế cột DIM_COUNTRY thành cột chỉ chứa CountryID bằng cách: click vào biểu tượng bên cạnh tên cột “DIM_COUNTRY”, chỉ chọn CountryID. Đồng thời xóa cột “Region” và “Country” của bảng mới này vì mình đã liên kết nó theo “CountryID” để bảng DIM_COUNTRY rồi.
Như vậy là bạn đã thành công merge bảng DIM_COUNTRY và bảng SALES để dữ liệu ngắn gọn, không bị trùng lặp nhiều giá trị quốc gia.
Lưu ý khi dùng Merge Queries
- Chọn đúng cột kết hợp: Đảm bảo chọn cột kết hợp đúng giữa hai bảng. Cột này sẽ xác định quy tắc kết hợp dữ liệu giữa chúng.
- Kiểm tra loại kết hợp: Hiểu rõ các loại kết hợp như Inner Join, Left Outer, Right Outer, và Full Join. Lựa chọn loại kết hợp phù hợp với nhu cầu phân tích.
- Kiểm tra dữ liệu trùng lặp: Đảm bảo không có dữ liệu trùng lặp trong cột kết hợp để tránh kết quả không chính xác.
- Kiểm tra lại kết quả: Luôn kiểm tra lại kết quả cuối cùng của bảng kết quả để đảm bảo rằng quá trình kết hợp đã diễn ra đúng đắn và không có sự mất mát thông tin quan trọng.
Kết luận
Bài viết trên SmartData đã giới thiệu với các bạn cách sử dụng Merge Queries để kết hợp bảng trong Power Query. Nếu bạn thấy bài viết hay và hữu ích, bạn có thể tham gia các kênh sau của SmartData để nhận được nhiều thông tin hơn nữa: