Tự học Data Analyst từ 6 tháng theo lộ trình của SmartData

Bởi Thực SmartData
0 Nhận xét

Dành cho các bạn newbie mới toanh trong nghề Data Analyst. Bài viết này xin chia sẻ cho các bạn lộ trình tự học Data Analyst dựa trên sự tổng hợp trải nghiệm của rất nhiều học viên đã từng theo học Data Analyst tại SmartData.

Hiểu đúng về Data Analyst trước khi tự học Data Analyst

Khi tìm hiểu trên mạng có thể bạn sẽ bị ngỡ ngàng bởi có rất nhiều thuật ngữ xoay quanh nghề về dữ liệu này. Ví dụ: DE (Data Engineer), DA (Data Analyst), BI (Business Intelligence), DS (Data Science). Smart Data đã có một bài viết phân biệt các thuật ngữ này, các bạn có thể đọc thêm tại link này!

Vậy Data Analyst là gì?

Data Analyst được biết đến là các chuyên viên phân tích dữ liệu. Nhiệm vụ của Data Analyst sẽ khác nhau, tùy từng doanh nghiệp tuyển dụng yêu cầu. Nhưng nhiệm vụ chung của DA là tổng hợp, sắp xếp và biến đổi dữ liệu thành những thông tin có ích. Những thông tin đó được biểu diễn dưới dạng biểu đồ, báo cáo. Từ đó doanh nghiệp có thể có sở cứ để đưa ra các quyết định chính xác liên quan đến kế hoạch kinh doanh, định hướng phát triển v.v…

Data Analyst giống như các bậc thầy về “biểu đồ học” vậy. Họ có thể biến những con số khô khăn, biến hàng triệu record trong cơ sở dữ liệu, hay đơn giản hóa một file dữ liệu excel hàng nghìn dòng thành những thứ mà ai đọc cũng hiểu.

Trước khi đi đến phần kế tiếp, SmartData muốn đặt ra cho các bạn một câu hỏi. Câu hỏi này SmartData đã từng đặt ra cho rất nhiều bạn fresher mới bước chân vào nghề khi muốn tự học Data Analyst.

“Các bạn có đam mê với dữ liệu không?”

Nếu đam mê thật sự thì SmartData tin bạn sẽ đạt được mục tiêu và sớm thành công trong nghề.

Mất bao lâu cho một người bạn trái ngành tự học Data Analyst?

Câu trả lời sẽ là còn tùy vào năng lực bản thân. Nhưng vẫn có một con số cho các bạn đỡ bỡ ngỡ: 6 tháng – 1 năm. Nếu bạn học ĐÚNG CÁCH

Tại sao lại từ 6 tháng – 1 năm? Nếu các bạn tìm kiếm nhanh trên Google thì có rất nhiều bài viết đề cập đến mốc thời gian mà
để cho một tờ giấy trắng bị bôi đen ít mực. Có thể là 3 tháng, 4 tháng thậm chí là 2 tháng. 6 tháng – 1 năm là con số chuẩn xác và hợp lý. Mốc thời gian đó dựa trên kinh nghiệm mentor của các giảng viên trong SmartData cho nhiều bạn fresher. Quan trọng là nó được tổng hợp dựa trên “dữ liệu giảng dạy của SmartData“.

Nếu tự học Data Analyst đúng cách, Non-IT chỉ cần 6 tháng - 1 năm là có thể apply vào các doanh nghiệp
Nếu tự học Data Analyst đúng cách, Non-IT chỉ cần 6 tháng – 1 năm là có thể apply vào các doanh nghiệp

Các kĩ năng then chốt của một Data Analyst bạn cần biết khi tự học Data Analyst

Vai trò của DA là hỗ trợ hoặc trực tiếp đưa ra insight từ các con số. Từ đó giúp cho các phòng ban, thậm chí là C-level có cơ sở đưa ra các quyết định then chốt. Để làm được điều này đòi hỏi DA phải có các kĩ năng cần thiết. Mục đích để tham gia một số giai đoạn trong vòng đời của một project phân tích dữ liệu như sau:

Khi tự học Data Analyst, bạn cần phải biết được một DA bắt buộc cần phải có những kỹ năng cơ bản nào
Khi tự học Data Analyst, bạn cần phải biết được một DA bắt buộc cần phải có những kỹ năng cơ bản nào

Giai đoạn 1: Xác định rõ mục tiêu (Define the Goal)

Hiểu được rõ doanh nghiệp cần gì. Hoặc thực tế hơn chút “sếp bạn cần gì” là một trong các bước quan trọng nhất để đảm bảo thành công của dự án. Nếu xác định sai ngay từ đầu thì mọi nỗ lực của bạn đều vô ích. Trước khi nghĩ đến việc làm gì với dữ liệu. Bạn hãy đặt các câu hỏi để làm rõ mục tiêu của project mà bạn định làm. Sau khi đã rõ mục tiêu, hãy lên plan xác định từng mốc giai đoạn cần làm gì. KPI đo lường trong các giai đoạn đó như nào.

Tuy rằng việc lập kế hoạch nhiều khi không khả quan do còn nhiều yếu tố tác động. Tuy nhiên hãy cố gắng hình dung ra các thứ bạn cần làm trước tiên. Mục đích để tránh bỡ ngỡ và có sự thay đổi kịp thời nếu vấp phải.

Kĩ năng của DA cần thiét ở giai đoạn này:

  • Tư duy phản biện: Bạn có thể ngó qua video này để có một cái nhìn tổng quan hơn về tư duy phản biện.
  • Khả năng lập kế hoạch và duy trì công việc theo kế hoạch.
  • Kĩ năng giao tiếp để làm việc với các phòng ban, đối tác, các tác nhân khác hoặc với chính sếp của bạn.

Giai đoạn 2: Thu thập dữ liệu (Get the Data)

Sau khi xác định rõ mục tiêu cụ thể và rõ ràng. Trong giai đoạn tiếp theo công việc của một Data Analyst là xác định các nguồn dữ liệu cần được thu thập.

Công việc thu thập dữ liệu

Công việc này không hề dễ dàng. Dữ liệu mà một DA cần không phải lúc nào cũng hoàn hảo. Dữ liệu có thể đến từ nhiều nguồn. Ví dụ: File excel, file text, hoặc dữ liệu kinh doanh của công ty nằm trong các loại cơ sở dữ liệu có cấu trúc hoặc phi cấu trúc v.v… Trong giai đoạn này DA có thể kết hợp với các DE – Data Engineer. DE là các nhân sự có kĩ năng tốt về ngôn ngữ lập trình, cơ sở dữ liệu v.v… Mục đích để tạo ra các mô hình thu thập và biến đổi dữ liệu để tập hợp dữ liệu từ nhiều nguồn về một nguồn phục vụ cho các giai đoạn kế tiếp

Tuy nhiên ở một số tổ chức không được đầu tư quá nhiều về hạ tầng cũng như nguồn lực cho việc xử lý dữ liệu. DA đôi khi phải “một mình một ngựa”.

Kỹ năng để thu thập dữ liệu

Kĩ năng DA cần ở giai đoạn này:

  • Hiểu được kiến thức cơ bản về cơ sở dữ liệu: Đây là một trong các “key concept” mà bất kì một DA nào từ fresher đến senior phải nắm được. Một số khái niệm bạn cần phải quan tâm như sau (Mình sẽ dùng một số thuật ngữ chuyên ngành của database để các bạn có thể research được chuẩn hơn):
    • Relation Database, Schema, Table, Constraints
    • Record / Row
    • Primary Key, Foreign key…
  • Kĩ năng truy vấn thông tin từ cơ sở dữ liệu bằng ngôn ngữ SQL. Các bạn có thể xem bộ SQL CheetSheat tại đây
    • Nắm được nó là gì và sự cần thiết của việc học SQL
    • Nắm được các câu truy vấn cơ bản trong SQL. Phục vụ việc lấy thông tin từ các bảng trong cơ sở dữ liệu
      • Select
      • Where
      • Group by / having
      • Inner join / Left join / Right join
    • Một số function cơ bản trong SQL sử dụng để tổng hợp dữ liệu như:
      • Min
      • Max
      • Sum
      • Count…
  • Có kĩ năng sử dụng một ngôn ngữ lập trình để có thể phục vụ việc lấy các loại dữ liệu phức tạp. Ở đây bạn có thể chọn Python. Python hỗ trợ rất tốt cho các DA với bộ thư viện phong phú và cú pháp khá đơn giản
    • Nắm được các cú pháp cơ bản của Python
    • Biết được cách xử lý các file dữ liệu trên python: File xlsx, file csv, file txt v.v.. và kiểu dữ liệu JSON
    • Biết cách thao tác Python với cơ sở dữ liệu

Giai đoạn 3: Làm sạch dữ liệu (Clean the Data)

Làm sạch dữ liệu là một trong các hoạt động tốn thời gian nhất, ít thú vị nhất và đòi hỏi khá nhiều “neuron thần kinh”. Làm sạch dữ liệu cơ bản là một quá trình loại bỏ các thông tin không chính xác, thừa. Hay những thông tin sai cấu trúc có khả năng gây sai lệch kết quả. Điều đó có thể dẫn đến các quyết định sai lầm.

Quy trình làm sạch dữ liệu

Một quy trình chuẩn của việc làm sạch dữ liệu có thể gồm các bước sau:

  • Kết hợp tập dữ liệu: Gộp các tập dữ liệu từ nhiều nguồn về một khu vực.
  • Loại bỏ các dữ liệu bị trùng lặp/ không liên quan đến mục đích thu thập: Trùng lặp dữ liệu khi hợp nhất từ nhiều nguồn là không tránh khỏi. Loại bỏ các dữ liệu trùng lặp là một điểm then chốt. Ví dụ: Bạn cần loại bỏ khách hàng mua hàng qua máy tính nếu muốn phân tích thói quen mua hàng qua mobile.
  • Fix các lỗi liên quan đến cấu trúc của dữ liệu: Dữ liệu có thể bị một số lỗi như chính tả, không đồng nhất khái niệm, hoa thường không chính xác. Ví dụ: Null, None, N/A có thể quy về việc một danh mục “Không tồn tại”.
  • Lọc bỏ các ngoại lệ: Loại bỏ tập dữ liệu không đúng mong muốn/ bất thường khi phân tích. Ví dụ: Lọc bỏ giá trị >2m trong bộ dữ liệu về chiều cao trung bình của nam giới ở Việt Nam.
  • Xử lý các dữ liệu bị thiếu: Đôi khi việc thiếu dữ liệu làm cho thuật toán không chạy được. Để khắc phục, bạn có thể xem xét một số phương án. Ví dụ như tự nhập các giá trị bị thiếu hoặc thay đổi các dữ liệu được sử dụng.
  • Xác thực dữ liệu: Bạn cần tự vấn: Dữ liệu kia đã có ý nghĩa chưa? Dữ liệu có cần bổ sung thêm gì không? Có thể tìm thấy insight trong dữ liệu chưa,…. Việc xác thực dữ liệu này cho phép bạn cơ sở đánh giá nguồn dữ liệu. Nó có thật sự mang lại giá trị trong các giai đoạn tiếp theo của project hay không.

Kỹ năng để làm sạch dữ liệu

Kĩ năng của DA cần thiết ở giai đoạn này:

  • Để làm tốt giai đoạn này, DA cần có kĩ năng sử dụng thành thạo ngôn ngữ lập trình Python. Hoặc một số ngôn ngữ khác tùy sở thích. Tuy nhiên SmartData vẫn suggest Python. Python hỗ trợ rất tốt trong việc làm sạch dữ liệu bằng các bộ thư viện sau:
    • Pandas
    • Numpy
  • Một bộ óc tỉnh tảo và sẵn sàng nhìn nhận vấn đề ở nhiều khía cạnh để khai phá dữ liệu.

Giai đoạn 4: Làm giàu dữ liệu (Enrich the data)

Làm giàu dữ liệu là việc làm cho dữ liệu của bạn trở nên có ý nghĩa hơn, có nhiều thông tin hơn. Bạn làm giàu dữ liệu bằng cách kết hợp các tập dữ liệu đã được clean ở giai đoạn trên để ra được các tập dữ liệu chuẩn hơn nữa.

Phục vụ cho giai đoạn này vẫn là các kĩ năng liên quan đến SQL và Python.

Giai đoạn 5: Trực quan hóa dữ liệu và tìm insight (Find Insights and visualize)

Sau khi đã có được một tập dữ liệu chuẩn đáp ứng được nhu cầu công việc. Việc tiếp theo của một DA là biến các con số khô khan hay hàng triệu bản ghi rối rắm trong cơ sở dữ liệu thành các biểu đồ trực quan. Mục đích nhằm phục vụ cho việc khai phá dữ liệu để tìm insight đáp ứng nhu cầu bài toán.

Với giai đoạn này, kĩ năng cần thiết nhất cần có của một DA là sử dụng thành thạo một BI Tool (Data visualization tool). Bạn có thể lựa chọn giữa Tableau hoặc PowerBI. Tuy nhiên Tableau đang ngày càng được ưu chuộng. Tableau dễ sử dụng và có cộng đồng đang ngày một lớn mạnh. Đồng thời, rất nhiều công ty đang sử dụng Tableau làm BI Tool chính.

  • Để hoàn thành giai đoạn này, bạn cần nắm chắc kiến thức về ý nghĩa của các loại biểu đồ. Xây dựng các dashboard sao cho thể hiện được tối đa ý nghĩa của dữ liệu.
  • Bạn có thể kết hợp thêm Python với sự hỗ trợ của các bộ thư viện phục vụ visualize data. Ví dụ như Matplotlib, Python Seaborn v.v…

Để tìm được insight của dữ liệu không có cách nào khác ngoài việc trau dồi mãnh liệt tri thức về DOMAIN ngành. Trau dồi kĩ năng giải quyết vấn đề. Để trau đồi kiến thức về DOMAIN ngành, bạn có thể học hỏi từ kinh nghiệm của người đi trước. Hoặc tham gia các hội nhóm về phân tích dữ liệu trong cùng lĩnh vực v.v….

Giai đoạn 6 + 7: Triển khai Machine Learning + Lặp lại quá trình (Deploy Machine learning + Iterate)

Hai giai đoạn này liên quan đến DS (Data Scientist) nhiều hơn nên mình sẽ không đề cập đến tại đây.

Tạm kết về tự học Data Analyst

Để tự học Data Analyst hiệu quả, ngoài khả năng tự học, bạn còn cần một tấm bản đồ rõ nét cho lộ trình tự học đó. Hy vọng bạn nhận được nhiều thông tin hữu ích từ những chia sẻ phía trên của SmartData. Và nếu bạn cần một mentor dẫn đường để nhanh chóng thành nghề Data Analyst. Kết nối với SmartData để được tư vấn lộ trình học từ mindset bởi chuyên gia 12 năm kinh nghiệm trong lĩnh vực Khoa học Dữ liệu.

Khóa học data analyst fundamental

Bài viết liên quan

Để lại nhận xét

Tableau.edu.vn

Copyright @2022 – Bản quyền thuộc Tableau.edu.vn