Bài viết này SmartData xin giới thiệu với các bạn một số nguồn dataset mẫu cho newbie DA. Đây là các nguồn dữ liệu hoàn toàn miễn phí hỗ trợ các bạn DA trong quá trình hoc tập, thực hành liên quan đến truy vấn dữ liệu, làm các dashboard và phân tích dữ liệu
datahub.io
Đứng đầu danh sách là datahub.io. Đây là website chứa hàng nghìn các tập dataset từ các ngành tài chính, ngân hàng cho đến tăng trưởng dân số, giá tiền điện tử v.v..
Giao diện của website khá đơn giản, bạn có thể dễ dàng tìm kiếm thông tin về loại dataset mà mình đang mong muốn. Với các tập kết quả trả về người sử dụng sẽ biết được số lượng dataset, ý nghĩa của tệp dataset, kích thước của tệp dataset và thời gian cập nhật nguồn dataset.
Website có hỗ trợ 2 loại tài khoản: Miễn phí và trả phí.
Tuy nhiên nếu bạn là newbiew thì account miễn phí là quá đủ để bạn học tập và trải nghiệm.
Kaggle.com
Kaggle là một kho chia sẻ dữ liệu tập trung, dữ liệu được public bởi nhiều cá nhân. Với Kaggle bạn có thể tìm thấy khoảng gần 50k nguồn dataset mẫu cho newbie DA
Kaggle mới thành lập năm 2022, tuy nhiên cộng đồng của Kaggle hiện tại đã lên tới hơn 11.3 triệu người cho thấy tiềm năng của lĩnh vực DA đang ngày càng gia tăng
Data.Gov
Data.Gov được thành lập từ năm 2009 được quản lý bởi “U.S General Service Administration”
Tại đây, bạn sẽ tìm thấy dữ liệu, công cụ và tài nguyên để tiến hành nghiên cứu, phát triển các ứng dụng web và di động, thiết kế trực quan hóa dữ liệu, v.v.
Hiện tại website đã có khoảng ~300k tập dataset với đầy đủ các định dạng: CSV, RDF, JSON, XML.
Như vậy trong bài viết này, SmartData đã giới thiệu với các bạn 3 nguồn dataset miễn phí và cực kì hữu ích cho những bạn newbie đang học tập và làm quen với nghề DA. Với phần 2 SmartData sẽ tiếp tục giới thiệu đến các bạn một số nguồn dataset hữu ích khác.
Nếu bạn là newbie có thể tham khảo bài viết này để tìm hiểu lộ trình học DA trong 6 tháng của SmartData