Trong bài viết này, SmartData sẽ hướng dẫn các bạn khởi tạo dữ liệu trên Google BigQuery.
Khởi tạo dữ liệu trong BigQuery
Hãy thêm một số dữ liệu vào BigQuery để xem nó hoạt động như thế nào. Bấm vào dự án bạn muốn, sau đó nhấp vào dấu 3 chấm và chọn Create Dataset.
Gán ID tập dữ liệu – bạn có thể nhập các chữ cái và số. Nếu cần, bạn có thể chọn Vị trí dữ liệu cũng như thời hạn hết hạn của bảng (tối đa 60 ngày) và mã hóa. Sau đó, nhấp vào Create Dataset.
Một tập dữ liệu mới hiện đã được tạo. Bạn có thể tìm thấy nó bằng cách nhấp vào nút Mở rộng bên cạnh tên dự án của bạn:
Bước tiếp theo là tạo một bảng trong tập dữ liệu. Đây là nút để nhấp vào:
Bạn có một vài lựa chọn ở đây:
- Tạo một bảng trống và điền nó theo cách thủ công
- Tải lên bảng từ thiết bị của bạn ở một trong các định dạng được hỗ trợ (được giải thích trong phần tiếp theo)
- Nhập bảng từ Google Cloud Storage hoặc Google Drive (tùy chọn này cho phép bạn nhập Google Trang tính)
- Nhập bảng từ các một Cloud khác
Các định dạng tệp bạn có thể nhập vào BigQuery
Bạn có thể dễ dàng tải dữ liệu dạng bảng của mình vào BigQuery theo các định dạng sau:
- CSV
- JSONL (dòng JSON)
- Euro
- Parquet
- ORC
- Google Trang tính (chỉ dành cho Google Drive)
- Sao lưu kho dữ liệu đám mây (chỉ dành cho Google Cloud Storage)
Lưu ý: Bạn không thể nhập tệp Excel trực tiếp vào BigQuery. Để thực hiện việc này, bạn cần phải chuyển đổi tệp Excel sang CSV hoặc chuyển đổi Excel sang Google Trang tính rồi tải tệp đó vào BigQuery. Trong hướng dẫn BigQuery này, chúng tôi sẽ không tập trung vào các trường hợp Excel.
Tải dữ liệu CSV lên BigQuery
Sau khi nhấp vào nút Create Table , bạn cần hoàn thành các bước sau:
- Chọn nguồn – Upload
- Chọn tệp – nhấp vào Browse và chọn tệp CSV từ thiết bị của bạn
- Định dạng tệp – chọn CSV, nhưng thông thường, hệ thống sẽ tự động phát hiện định dạng tệp
- Tên bảng – nhập tên bảng
- Chọn hộp kiểm Auto detect
- Nhấp vào Create table
Ngoài ra, bạn có thể xác định cài đặt phân vùng (để chia bảng của mình thành các phân đoạn nhỏ hơn), cài đặt cụm (để sắp xếp dữ liệu dựa trên nội dung của các cột được chỉ định), cũng như định cấu hình Tùy chọn nâng cao . Bảng của bạn được tải lên BigQuery trông như thế này:
Lưu ý: Tính năng xem trước bảng hiển thị bản xem trước của các bảng được lưu trữ bên trong BigQuery. Ví dụ: khi bạn tải CSV lên, nó sẽ được lưu trong BigQuery – bạn sẽ thấy bản xem trước. Tuy nhiên, khi bạn lấy dữ liệu từ Google Trang tính, đó là kết nối theo thời gian thực vì BigQuery quét Google Trang tính mỗi khi bạn truy vấn dữ liệu đó. Trong trường hợp này, bạn sẽ không có bản xem trước.
Nhập dữ liệu từ Google Trang tính vào BigQuery theo cách thủ công
Hầu hết các bạn có thể muốn tìm hiểu thêm về cách nhập bảng từ Google Trang tính vào BigQuery. Quy trình làm việc rất giống nhau, nhưng có một vài sửa đổi. Nhấp vào nút Create Table và:
- Chọn nguồn – Drive
- Chọn Drive URI – chèn URL của bảng tính Google Trang tính của bạn
- Định dạng tệp – chọn Google Trang tính
- Phạm vi trang tính – chỉ định trang tính và phạm vi dữ liệu cần nhập. Nếu bạn để trống trường này, BigQuery sẽ truy xuất dữ liệu từ trang đầu tiên trong bảng tính của bạn.
- Tên bảng – nhập tên bảng
- Đánh dấu vào hộp kiểm Auto detect
- Nhấp vào Create Table
Bạn có thể quan tâm đến việc thiết lập các tùy chọn Nâng cao vì chúng cho phép bạn:
- Bỏ qua các hàng có giá trị cột không khớp với lược đồ.
- Bỏ qua một số hàng cụ thể từ đầu.
- Cho phép bao gồm các dòng mới có trong phần dữ liệu được trích dẫn.
- Cho phép chấp nhận các hàng thiếu cột tùy chọn ở cuối.
- Chọn giải pháp quản lý khóa mã hóa.
Sau khi bạn nhấp vào Tạo bảng , trang tính được chỉ định từ bảng tính của bạn sẽ được nhập vào BigQuery. Dưới đây là thông tin chi tiết (bản xem trước bảng không khả dụng để nhập Google Trang tính):
Nếu bạn thấy bài viết hay và hữu ích, bạn có thể tham gia các kênh sau của SmartData để nhận được nhiều thông tin hơn nữa: