Pentaho-phần 2: Pentaho là gì? Cài đặt pentaho.

Bởi Kiên Smart Data
0 Nhận xét

Pentaho là một công cụ cùng với một bộ công cụ chịu trách nhiệm về các quá trình trích xuất, chuyển đổi và tải được biết đến nhiều nhất là các quy trình ETL.Tích hợp dữ liệu Pentaho và Bộ Pentaho BI: Trước khi giới thiệu PDI, hãy nói về Pentaho BI Suite. Chương trình đào tạo Pentaho của Intellipaat cho phép bạn nắm vững Business Intelligence Suite, một tập hợp các ứng dụng phần mềm nhằm tạo và cung cấp các giải pháp cho việc ra quyết định.

Các chức năng chính của Pentaho là:

  • Phân tích: Đây là công cụ được thư viện JPivot và máy chủ Mondrain OLAP cung cấp để bạn có thể điều hướng và khám phá một cách liền mạch. Đây là một phân tích đa chiều.
  • Báo cáo: Với tính năng này, bạn có thể lấy các nguồn dữ liệu khác nhau và tạo, thiết kế và phân phối các báo cáo chuyên sâu dưới mọi hình thức mà bạn thích PDF, HTML và các dạng khác. JFreeReport là công cụ tạo báo cáo Pentaho. Bạn cũng có thể lấy Báo cáo BIRT hoặc Jasper được tạo bằng thư viện báo cáo khác và tích hợp chúng để tạo báo cáo.
  • Khai thác dữ liệu: Đây là quá trình xem xét dữ liệu có sẵn trong cơ sở dữ liệu hiện có và đưa ra những hiểu biết mới từ dữ liệu đó. Bạn có thể triển khai nhiều thuật toán khác nhau để phân tích trong khai thác dữ liệu.
  • Trang tổng quan: Trang tổng quan là công cụ được sử dụng để tạo và làm việc với các chỉ số hiệu suất. Nhờ tính chất trực quan của trang tổng quan, bạn sẽ tạo được các biểu đồ, báo cáo, biểu đồ và các hình ảnh trực quan hóa dữ liệu khác một cách xuất sắc.
  • Tích hợp dữ liệu: Tích hợp dữ liệu là quá trình tích hợp dữ liệu từ nhiều nguồn và tạo ra đề xuất giá trị hợp nhất từ ​​dữ liệu đó. Dữ liệu này có thể ở dạng cơ sở dữ liệu, tệp, ứng dụng, v.v.

Bạn có thể sử dụng từng tính năng này một cách riêng lẻ hoặc sử dụng nó theo cách tổng hợp. Bạn có thể chạy các tính năng báo cáo, phân tích và sử dụng công cụ Pentaho làm nền tảng Business Intelligence hợp nhất. Công cụ Pentaho cung cấp một số dịch vụ rất quan trọng như lập lịch, xác thực, dịch vụ web và các dịch vụ khác.

Pentaho Data Integration:

Công cụ Pentaho mới nhất tiếp nối phiên bản trước của phiên bản Pentaho và tất cả điều này được tạo ra như một công cụ cộng đồng. Công cụ tích hợp dữ liệu Pentaho là một công cụ kinh doanh thông minh được tạo ra từ Pentaho Kettle.

Dọn dẹp dữ liệu:

Quy trình làm sạch dữ liệu có nghĩa là bạn tách dữ liệu hữu ích khỏi dữ liệu không sử dụng được. Bạn có thể thực hiện việc này bằng cách xem liệu dữ liệu có đáp ứng các quy tắc được xác định trước hay không, tìm kiếm mẫu, xu hướng, đặt giá trị gần đúng cho dữ liệu bị thiếu, xóa thông tin không có, chuẩn hóa dữ liệu không nằm trong phạm vi tối thiểu và các giá trị tối đa. Vì vậy, với Pentaho Kettle, tất cả những điều này đều có thể thực hiện được nhờ vào số lượng lớn các phép biến đổi và xác thực có sẵn.
Hãy xem bài viết sâu sắc này của SiliconAngle, trong đó nói về cách Pentaho đang tăng cường sức nóng cho Hadoop và Spark.

Cài đặt Pentaho Data Integation

Bước 1: Tải xuống PDI-CE tuỳ thuộc theo phiên bản từ trang chủ của Hitachi Vantara

Sau khi nhập đầy đủ các thông tin mà nhà sản xuất yêu cầu, ta thực hiện tải xuống phiên bản Pentaho Data Integation mong muốn

Ở đây ta sẽ chọn tải phiên bản pdi-ce.zip

Bước 2: Tải xuống và cài đặt Java

Tải xuống Java SE Development Kit 8 từ trang web chính thức . Vì PDI được xây dựng bằng Java như một ngôn ngữ lập trình ở back-end. Tải xuống phiên bản như trong hình ảnh bên dưới. Bạn sẽ được Oracle nhắc đăng ký với thông tin cơ bản.

Bước 3: Giải nén tệp pdi-ce.zip trong một thư mục thiết lập.

Bạn nên lưu trữ nó trong ổ đĩa không phải C (Vì kích thước của tệp lớn hơn 1GB). Tốt nhất nên tạo một thư mục “application” trong ổ đĩa “D” và lưu trữ tất cả các ứng dụng của bên thứ ba trong cùng một thư mục. Hãy cùng đi với cách tiếp cận ở đây. Không có tệp thực thi (.exe) mà chúng tôi cần chạy để cài đặt PDI, chỉ là trích xuất tệp .zip.

Bước 4: Khởi chạy PDI

Nếu hệ thống của bạn là Windows, hãy nhập lệnh sau:
Spoon.bat
Nếu bạn có Unix hoặc Linux thì gõ lệnh sau:
Spoon.sh
1. Bạn sẽ thấy hộp thoại kết nối kho lưu trữ ngay khi Spoon khởi động. Điều này sẽ yêu cầu dữ liệu kết nối kho lưu trữ. Bạn phải bấm vào nút Không có kho lưu trữ. Bạn sẽ nhận được thông tin trong ngày trong một cửa sổ nhỏ. Bạn có thể đóng cửa sổ này sau khi đọc.
2. Bạn sẽ thấy một cửa sổ chào mừng có một số liên kết quan trọng
3. Bạn có thể đóng cửa sổ rồi mở lại sau từ menu chính
4. Từ menu Chỉnh sửa, bạn có thể nhấp vào các tùy chọn trong đó cửa sổ xuất hiện để thay đổi đặc điểm hình ảnh
5. Chọn cửa sổ tab Look Feel.
6. Thay đổi cài đặt Grid size và Preferred Language 

7. Chọn OK

8. Khởi động lại Spoon để áp dụng các thay đổi. Bạn sẽ không thấy hộp thoại kho lưu trữ hoặc cửa sổ chào mừng.

Tổng Kết

Bài viết trên đã cung cấp cho các bạn một góc nhìn tổng quan về công cụ Pentaho. Nếu bạn quan tâm đến series này có thể theo dõi thêm tại đây.

Nếu bạn là newbie có thể tham khảo bài viết này để tìm hiểu lộ trình học DA trong 3 tháng của SmartData.

Bài viết liên quan

Để lại nhận xét

Copyright @2022 – Bản quyền thuộc Học viện dữ lệu Smart Data