Trong quá trình tiền xử lý dữ liệu, có 3 thao tác cơ bản trong Power Query để làm sạch và chuẩn hóa dữ liệu là: Filter (Lọc), Sort (Sắp xếp), và Remove Duplicates (Loại bỏ các hàng trùng lặp).
- Filter : Lọc dữ liệu trên những tiêu chí nhất định.
- Sort : Sắp xếp dữ liệu tăng dần hoặc giảm dần.
- Remove Duplicates: Loại bỏ các hàng trùng lặp dữ liệu.
Chúng là những công cụ quan trọng để biến đổi dữ liệu một cách hiệu quả và đảm bảo rằng bạn chỉ làm việc với thông tin quan trọng và cần thiết. Hãy cùng đi vào cách áp dụng và ví dụ mỗi thao tác.
Cách áp dụng và ví dụ
Giả sử mình đang có bảng dữ liệu gồm Tên và Lớp của các bạn học sinh như sau
Bây giờ mình muốn sắp xếp lại dữ liệu theo tên ABC, lọc theo các điều kiện như : Lớp phải lớn hơn 2, lớp nhỏ hơn 3, từ lớp 2 đến lớp 4,… và ngoài ra còn loại bỏ những bạn trùng tên và trùng lớp.
Dùng sort để sắp xếp dữ liệu
Trong Power Query, chọn cột muốn sắp xếp -> click vào mũi tên trỏ xuống cạnh tên cột -> Sort Ascending ( Sắp xếp tăng dần ) hoặc Sort Descending ( Sắp xếp giảm dần ).
Ví dụ sắp xếp dữ liệu theo cột Tên theo vần ABC. Chọn cột Tên -> Click vào mũi tên bên cạnh cột Tên -> Chọn Sort Ascending. Như vậy là dữ liệu đã được sắp xếp theo cột tên tăng dần.
Hoặc có thể sắp xếp theo thứ tự lớp giảm dần bằng cách: Chọn cột Lớp -> Click vào mũi tên bên cạnh cột Lớp ->Chọn Sort Descending. Như vậy là dữ liệu đã được sắp xếp theo cột lớp giảm dần
Dùng filter để lọc dữ liệu
Trong Power Query, ta có thể lọc bằng tính năng Auto Filter bằng cách: chọn cột muốn lọc sau đó -> click vào mũi tên trỏ xuống cạnh tên cột -> bỏ chọn tích Select All -> chọn bất kỳ các giá trị nào bạn muốn hiển thị.
Tuy nhiên với dữ liệu lớn, ta không thể chọn cụ thể giá trị thì có thể lọc theo điều kiện cụ thể bằng cách chọn Text Filters ( với kiểu dữ liệu cột là Text) hoặc Number Filters ( với kiểu dữ liệu số ) hoặc Date Filters ( với kiểu dữ liệu ngày ) hoặc Logical Filters ( với kiểu dữ liệu logical ). Ví dụ với Number Filters ta có điều kiện lọc như: Equals ( bằng ), Greater Than ( Lớn hơn ), Between ( Khoảng giữa 2 số ),… hoặc với Text Filters có Equals( Bằng ), Begins With ( Bắt đầu với ký tự hoặc chuỗi ký tự ), Ends With ( Kết thúc với ký tự hoặc chuỗi ký tự ), Contains ( chứa ký tự hoặc chuỗi ký tự ),…
Ví dụ mình muốn lọc bảng dữ liệu trên theo tên bắt đầu bằng chuỗi “Nguyễn Văn” và Lớp phải lớn hơn hoặc bằng 2. Có thể làm như sau:
Lọc theo tên bắt đầu bằng chuỗi “Nguyễn Văn”: Chọn Text Filters -> Begins With -> điền chuỗi “Nguyễn Văn”
Lọc theo lớp lớn hơn hoặc bằng 2: Chọn Number Filters -> Greater Than or Equal to -> điền 2
Dùng Remove Duplicates để loại bỏ hàng trùng lặp
Trong Power Query, khi bạn muốn loại bỏ các dòng trùng lặp dựa trên giá trị của 1 hoặc nhiều cột cụ thể, bạn có thể làm bằng cách sau: chọn cột bạn muốn loại bỏ dữ liệu trùng lặp -> chọn tab Home -> Remove Rows -> Remove Duplicates.
Ví dụ trong bảng trên, ta có thể loại bỏ những học sinh cùng lớp bằng thao tác: Chọn cột “Lớp” -> chọn tab Home -> Remove Rows -> Remove Duplicates. Bảng chỉ còn những giá trị tương ứng với lớp 2,3,4,5.
Những lưu ý quan trọng
- Cẩn thận khi Remove duplicates: Dữ liệu trùng lặp có thể không phải thực sự trùng lặp. Ví dụ: 2 hàng có thể có cùng giá trị cho một số cột, nhưng khác nhau về các cột khác. Trong trường hợp này, bạn đã vô tình loại bỏ hàng dữ liệu quan trọng. Để đảm bảo loại bỏ dữ liệu thực sự trùng lặp. Ví dụ như trường hợp trên mình đã vô tình loại bỏ các bạn học sinh cùng lớp. Bạn nên chọn tất cả các cột trước khi loại bỏ.
- Trước khi sử dụng Sort và Filter, cần đảm bảo dữ liệu các cột đã được đưa về đúng kiểu dữ liệu, tránh việc kiểu dữ liệu cột là Text nhưng lại muốn so sánh Greater Than như số.
- Nếu đang sắp xếp dữ liệu giảm dần, đảm bảo rằng bạn hiểu rõ ý nghĩa dữ liệu vì sắp xếp giảm dần có thể làm dữ liệu khó hiểu hơn.
Kết luận
Bài viết trên SmartData đã giới thiệu với các bạn các thao tác cơ bản trong Power Query. Nếu bạn thấy bài viết hay và hữu ích, bạn có thể tham gia các kênh sau của SmartData để nhận được nhiều thông tin hơn nữa: