Tích hợp và quản lý dữ liệu là những khía cạnh thiết yếu của hoạt động kinh doanh hiện đại. Airbyte, một nền tảng tích hợp dữ liệu nguồn mở, đơn giản hóa quá trình thu thập, chuyển đổi và tải dữ liệu từ nhiều nguồn khác nhau đến đích đến mà bạn mong muốn. Trong phần 1 của series hướng dẫn sử dụng airbyte SmartData sẽ hướng dẫn bạn những kiến thức cơ bản về thiết lập và sử dụng Airbyte, khiến nó trở nên lý tưởng cho những người mới bước vào thế giới tích hợp dữ liệu.
Giới thiệu về Airbyte
Airbyte là gì?
Airbyte là một nền tảng nguồn mở được thiết kế để hợp lý hóa các tác vụ tích hợp dữ liệu. Nó cho phép bạn trích xuất dữ liệu từ nhiều nguồn khác nhau, chuyển đổi dữ liệu sang định dạng phù hợp và tải dữ liệu đó vào các điểm đến ưa thích của bạn, chẳng hạn như cơ sở dữ liệu, kho dữ liệu hoặc lưu trữ đám mây.
Tại sao nên sử dụng Airbyte?
Airbyte đơn giản hóa các quy trình tích hợp dữ liệu phức tạp. Nó cung cấp giao diện thân thiện với người dùng, hỗ trợ nhiều nguồn và đích khác nhau, đồng thời tự động đồng bộ hóa dữ liệu, giảm bớt nỗ lực thủ công cần thiết cho việc quản lý dữ liệu.
Các tính năng chính
- Giao diện trực quan: Giao diện thân thiện với người dùng của Airbyte giúp người dùng ở mọi cấp độ kỹ thuật có thể truy cập được.
- Kết nối linh hoạt: Kết nối với nhiều nguồn khác nhau (ví dụ: cơ sở dữ liệu, API, tệp) và đích đến (ví dụ: lưu trữ đám mây, kho dữ liệu).
- Trình kết nối dựng sẵn: Airbyte cung cấp thư viện ngày càng tăng các trình kết nối dựng sẵn, giúp việc tích hợp với các công cụ phổ biến trở nên đơn giản.
- Đồng bộ hóa tự động: Lên lịch đồng bộ hóa dữ liệu để đảm bảo dữ liệu của bạn luôn được cập nhật.
- Mã nguồn mở: Bản chất nguồn mở của Airbyte khuyến khích cộng đồng hợp tác và cải tiến liên tục.
Điều kiện tiên quyết
Công cụ bắt buộc
- Trình duyệt web: Để truy cập vào giao diện Airbyte.
- Docker: Bạn cần phải cài đặt Docker để cài đặt Airbyte
- Cài đặt Airbyte: Tùy theo lựa chọn của bạn, hãy thiết lập Airbyte cục bộ hoặc thông qua Airbyte Cloud.
Cài đặt Airbyte
Thiết lập Airbyte cục bộ
- Tải xuống và cài đặt Docker
- Thưc hiện các command sau:
git clone --depth=1 https://github.com/airbytehq/airbyte.git cd airbyte bash run-ab-platform.sh
- Theo cài đặt trong tệp docker-compose.yaml , giao diện người dùng Airbyte sẽ bắt đầu chạy trong trình duyệt mặc định của bạn ở cổng 8000 và bạn sẽ có thể truy cập máy chủ web bằng tên người dùng
airbyte
và mật khẩu thông tin xác thực mặc địnhpassword
Tạo kết nối đầu tiên của bạn
Giải thích nguồn và đích
- Nguồn: Trước tiên bạn cần điều hướng đến
Sources
tab trên thanh bên trái. Trong ví dụ giới thiệu này, chúng tôi sẽ lấy dữ liệu từ API bên ngoài, trong trường hợp này là PokeAPI , API này sẽ lấy thông tin về một Pokémon được chỉ định.
Một trong những tính năng thú vị nhất của máy chủ web là khi chọn một trong các nguồn được xác định trước, bảng bên phải sẽ hiển thị một số thông tin hữu ích về nguồn đó và cách bắt đầu:
Trong trường hợp của trình kết nối này, Source name
trường được điền theo mặc định và bạn sẽ chỉ cần nhập Pokemon name
trường bắt buộc của mình và chỉ cần nhấp vào nút Kiểm tra và Lưu .
- Đích: Bước tiếp theo để thiết lập kết nối đầu tiên sẽ lấy dữ liệu giả từ API là thiết lập vị trí mục tiêu nơi bạn muốn lưu trữ dữ liệu. Đối với hướng dẫn mẫu này, tôi sẽ sử dụng một nhóm trong tài khoản AWS của mình, bạn có thể tạo nhóm của riêng mình cho mục đích này bằng cách chạy trong dòng lệnh đoạn mã này (đối với điều này, tất nhiên bạn sẽ cần phải định cấu hình cục bộ AWS CLI của mình ):
Ngoài ra, bạn sẽ cần cung cấp Khóa truy cập AWS và Khóa truy cập bảo mật, khóa này có thể được tạo trên trang Thông tin xác thực bảo mật người dùng IAM trong tài khoản AWS của bạn.
Sau khi kết nối được kiểm tra và xác thực trong giao diện người dùng Airbyte, bạn có thể tiến hành bước tiếp theo là thiết lập Kết nối của mình .
- Thiết lập kết nối : Để tạo kết nối, chúng ta có thể chọn luồng dữ liệu nào chúng ta muốn sao chép. Bạn cũng có thể chọn chế độ Đồng bộ hóa, đây là cách dữ liệu sẽ được sao chép từ nguồn tới đích. Bản sao này sẽ chạy ở tần suất được chỉ định, có thể là Thủ công, Cron, Cứ sau 1, 2, 3, 6 đến 24 giờ. Loại sao chép có thể được đặt thành ghi đè hoặc nối thêm, trong menu Kích hoạt luồng bạn muốn đồng bộ hóa .
Chạy đồng bộ hóa dữ liệu đầu tiên của bạn
Hiểu đồng bộ hóa
Đồng bộ hóa thể hiện hoạt động truyền dữ liệu từ nguồn đến đích, bạn sẽ có quyền truy cập vào các cài đặt đó và khi đã đặt kết nối đầu tiên, bạn sẽ có thể xem danh sách dài các đồng bộ hóa được thực hiện theo tần suất bạn có thiết lập chúng ở bước trước.
Menu Status sẽ hiển thị trạng thái hiện tại của công việc đồng bộ hóa của bạn, nếu một số đồng bộ hóa không thành công tại một thời điểm nào đó, bạn có thể nhấp vào nút “Đồng bộ hóa ngay bây giờ” và kiểm tra nhật ký để khắc phục sự cố
Trong Menu Replication hiển thị các cài đặt bạn đã thực hiện trước đó, như được hiển thị trong “Chế độ đồng bộ hóa” Dữ liệu luôn bị ghi đè trong mỗi lần đồng bộ hóa
Trong tab Job History, bạn có thể hình dung lần đồng bộ hóa cuối cùng được thực hiện thành công và nhật ký tương ứng của lần đồng bộ hóa đó, bằng cách nhấp vào dấu 3 chấm, sau đó Xem nhật ký
Ở đó, bạn có thể tìm thấy các tác vụ do Airbyte thực hiện trong hậu trường của mỗi Đồng bộ hóa, bao gồm ánh xạ tới thư mục đích, nằm trong nhóm S3 Random-users-71823/sample_data và thư mục /pokemon , được tạo bằng tệp 2023_08_21_1692662056903_0. jsonl
Sau đó, nếu bạn kiểm tra nhóm S3 bạn đã tạo, bạn sẽ thấy đường dẫn giống như tệp được tạo trong quy trình Airbyte
Kết luận
Bạn đã thực hiện những bước đầu tiên với Airbyte. Bây giờ bạn đã hiểu cơ bản về việc thiết lập kết nối, chạy đồng bộ hóa và giám sát quá trình. Tìm hiểu sâu hơn về các tính năng của Airbyte và khám phá tài nguyên cộng đồng của Airbyte để có các kỹ thuật tích hợp dữ liệu nâng cao hơn.
Nếu bạn thích thú với chủ đề này có thể tìm đọc các phần tiếp theo của series Hướng dẫn sử dụng Airbyte tại đây
Nếu bạn thấy bài viết hay và hữu ích, bạn có thể tham gia các kênh sau của SmartData để nhận được nhiều thông tin hơn nữa: