Tại sao việc phân tích dữ liệu lại quan trọng?
Phân tích dữ liệu giúp phát hiện các vấn đề (giá trị thiếu, giá trị ngoại lệ, sự không nhất quán) và những mẫu bất ngờ từ sớm — trước khi bạn xây dựng phân tích trên một nền tảng không hoàn hảo.
Trong bài học trước, chúng ta đã tìm hiểu cách đặt câu hỏi tốt hơn. Bây giờ, hãy xây dựng trên nền tảng đó. Trước khi có thể trả lời các câu hỏi về dữ liệu, bạn cần hiểu chính dữ liệu đó.
Có những cột nào? Chúng có ý nghĩa gì? Phạm vi giá trị là gì? Khoảng trống ở đâu?
Đây là giai đoạn khám phá dữ liệu - và đây là nơi AI giúp tăng tốc đáng kể quy trình làm việc của bạn.
Đối với bất kỳ tập dữ liệu mới nào, hãy hiểu:
Sử dụng AI để phân tích nhanh chóng một tập dữ liệu:
📍 Nơi dán: Mở ChatGPT (chat.openai.com), Claude (claude.ai) hoặc Gemini (gemini.google.com) và bắt đầu một cuộc trò chuyện mới.
📋 Cách sao chép prompt này: Nhấp vào bất kỳ đâu bên trong khối màu xám, nhấn Cmd+A rồi Cmd+C (Mac) hoặc Ctrl+A rồi Ctrl+C (Windows). Hoặc sử dụng biểu tượng sao chép xuất hiện.
Đây là tập dữ liệu của tôi (100 hàng đầu):
[Dán dữ liệu]
Hãy cung cấp hồ sơ dữ liệu:
1. CẤU TRÚC
- Số lượng cột và tên của chúng
- Mục đích rõ ràng của mỗi cột
2. LOẠI DỮ LIỆU
- Phân loại mỗi cột (số, phân loại, ngày tháng, ID)
- Đánh dấu bất kỳ cột nào có loại dữ liệu hỗn hợp
3. PHÂN TÍCH GIÁ TRỊ
- Đối với các cột số: giá trị nhỏ nhất, lớn nhất, trung bình ước tính
- Đối với các cột phân loại: giá trị duy nhất (tối đa 10)
- Đối với các cột ngày tháng: phạm vi được bao phủ
4. VẤN ĐỀ CHẤT LƯỢNG
- Các cột có giá trị bị thiếu và phần trăm ước tính
- Các giá trị ngoại lệ rõ ràng hoặc giá trị đáng ngờ
- Sự không nhất quán (định dạng, đặt tên)
5. QUAN SÁT BAN ĐẦU
- Bất cứ điều gì bất thường hoặc đáng chú ý
- Mối quan hệ tiềm năng giữa các cột✏️ Cách điền thông tin chi tiết của bạn: Thay thế mỗi [] và trình giữ chỗ trong ngoặc bằng các chi tiết cụ thể từ tình huống thực tế của bạn. Thông tin đầu vào mơ hồ sẽ tạo ra kết quả mơ hồ — hãy cụ thể hơn.
👀 Những gì bạn sẽ thấy: Trong vòng vài giây, AI sẽ trả về một phản hồi có cấu trúc dựa trên prompt ở trên. Hãy đọc kỹ và coi đó là bản nháp, không phải câu trả lời cuối cùng.
📌 Nên làm gì với kết quả: Lưu phản hồi vào file Notes. Chọn gợi ý có hiệu quả cao nhất và thực hiện nó trong tuần này — đừng cố gắng làm tất cả cùng một lúc.
⚠️ Nếu kết quả không ổn: Nếu các gợi ý có vẻ chung chung, hãy dán nội dung sau: "Hãy cụ thể hơn với ngữ cảnh thực tế của tôi. Bỏ qua những lời khuyên chung chung." Nếu nó bỏ qua các chi tiết quan trọng bạn đã cung cấp, hãy hỏi: "Bạn đã bỏ sót [X] trong ngữ cảnh của tôi — hãy thực hiện lại với điều đó làm ràng buộc chính."
Chỉ với một prompt, bạn có thể nhận được kết quả mà nếu làm thủ công có thể mất cả giờ đồng hồ.
✅ Kiểm tra nhanh: Câu hỏi phân tích này yêu cầu kết quả trên 5 khía cạnh trong một vòng. Tại sao phần có tiêu đề "QUAN SÁT BAN ĐẦU — bất cứ điều gì bất thường hoặc đáng chú ý" lại là phần có giá trị nhất, mặc dù nghe có vẻ mơ hồ nhất?
4 phần còn lại (Cấu trúc, Loại dữ liệu, Phân tích giá trị, Vấn đề chất lượng) tạo ra kết quả mang tính xác định — bất kỳ ai chạy cùng một prompt trên cùng một bộ dữ liệu đều sẽ nhận được câu trả lời gần như giống nhau. Phần 5 là nơi AI thực hiện việc đối sánh mẫu với hàng triệu tập dữ liệu mà nó đã thấy, đưa ra những quan sát mà con người có thể mất nhiều ngày mới nhận ra — "đây có vẻ là dữ liệu B2B SaaS", "mẫu ngày tháng cho thấy bản dùng thử 30 ngày", "định dạng ID khách hàng khớp với dữ liệu xuất từ Salesforce".
Đó là phần cho bạn biết loại tập dữ liệu này thực sự là gì, điều này sẽ định hình mọi câu hỏi phân tích tiếp theo. Nguyên tắc chung: Các kết quả đầu ra có giá trị nhất của AI thường là những kết quả mô tả đặc điểm hơn là liệt kê — hãy giữ chúng trong prompt template của bạn ngay cả khi chúng có vẻ ít cụ thể hơn so với các trường có cấu trúc.
Hãy học cách nhận biết nhanh chóng:
Những điều cần tìm: Ô trống, "N/A", "NULL", "#N/A", "0" được sử dụng làm trình giữ chỗ
Câu hỏi cần đặt ra:
Những điều cần tìm: Các giá trị nằm ngoài phạm vi bình thường
Câu hỏi cần đặt ra:
Những điều cần tìm: Các hàng giống hệt hoặc gần giống hệt nhau
Câu hỏi cần đặt ra:
Những điều cần chú ý:
Những điều cần chú ý:
✅ Kiểm tra nhanh: "Quá nhiều số tròn" được liệt kê là một mẫu đáng ngờ, nhưng một nhà phân tích mới có thể dễ dàng đọc điều đó và hỏi: "Dữ liệu thực tế đôi khi không phải là số tròn sao?" Tại sao tần suất của các số tròn (không phải sự hiện diện của chúng) lại là tín hiệu thực sự, và cụ thể việc làm tròn quá mức nói lên điều gì về cách dữ liệu đến tay bạn?
Dữ liệu thực tế hiếm khi là số tròn thống kê — doanh thu là 14.237,42 USD, chứ không phải 14.000 USD; số giao dịch là 117 chứ không phải 100; số lượng phản hồi khảo sát là 287 chứ không phải 300. Khi bạn thấy một cột mà hơn 40% giá trị là bội số của 100 hoặc 1.000, gần như chắc chắn đó là các ước tính do con người nhập vào chứ không phải là các phép đo được hệ thống ghi lại.
Điều đó có nghĩa là: Ai đó — một nhân viên bán hàng ghi lại quy mô giao dịch, một nhà phân tích làm tròn số cho một slide, một khách hàng nhập vào một biểu mẫu — đã nhập những con số đó từ trí nhớ hoặc ước lượng sơ bộ, chứ không phải từ một phép đo. Điều đó không làm cho dữ liệu không thể sử dụng được, nhưng nó cho bạn biết mức độ chính xác tối thiểu: Bạn không thể kết luận "doanh thu tăng chính xác 8,3%" từ dữ liệu mà một nửa số đầu vào được ước lượng bằng mắt thường đến hàng trăm gần nhất. Luôn kiểm tra mức độ phổ biến của số tròn trước khi báo cáo tỷ lệ phần trăm chính xác.
Khi bạn nhận được một tập dữ liệu mới, hãy nhanh chóng thực hiện quy trình này:
Phút 1-2: Nắm bắt những điều cơ bản
AI: "Tóm tắt tập dữ liệu này. Tập dữ liệu này gồm những cột nào, có bao nhiêu hàng và bao gồm khoảng thời gian nào?"
Phút 3-4: Kiểm tra chất lượng
AI: "Xác định bất kỳ vấn đề nào về chất lượng dữ liệu: giá trị thiếu, giá trị ngoại lệ, dữ liệu trùng lặp hoặc sự không nhất quán."
Phút 5: Tìm kiếm các mẫu ban đầu
AI: "Bạn nhận thấy những mẫu hoặc mối quan hệ nào trong dữ liệu này? Dữ liệu này có thể trả lời những câu hỏi nào?"
5 phút khám phá sẽ tiết kiệm hàng giờ làm việc với dữ liệu kém chất lượng.
Dữ liệu hiếm khi tồn tại độc lập. Hiểu các mối quan hệ rất quan trọng:
Hỏi AI:
Nhìn vào các cột này, những mối quan hệ nào có thể tồn tại?
- Cột nào có thể tương quan với nhau?
- Cột nào có thể được suy ra từ các cột khác?
- Những nhóm nào có ý nghĩa?
Hãy suy nghĩ về:
Đây là một tập dữ liệu mẫu. Phân tích dữ liệu bằng danh sách kiểm tra:
Date,Customer,Region,Product,Revenue,Units
2024-01-15,ACME Corp,North,Widget A,15000,100
2024-01-16,Beta Inc,South,Widget B,22500,150
2024-01-17,ACME Corp,North,Widget A,-500,
01/18/2024,Gamma LLC,East,Widget C,18000,120
2024-01-19,ACME Corp,north,widget a,16000,105
2024-01-20,Delta Co,West,Widget B,0,0
2024-01-21,ACME Corp,North,Widget A,15500,NULL
Vấn đề là gì Bạn có phát hiện ra vấn đề gì không?
Xem các vấn đề đã được xác định:
Tại sao việc phân tích dữ liệu lại quan trọng?
Phân tích dữ liệu giúp phát hiện các vấn đề (giá trị thiếu, giá trị ngoại lệ, sự không nhất quán) và những mẫu bất ngờ từ sớm — trước khi bạn xây dựng phân tích trên một nền tảng không hoàn hảo.
Việc đầu tiên bạn nên làm khi nhận được một bộ dữ liệu mới là gì?
Trước khi tiến hành bất kỳ phân tích nào, hãy hiểu rõ những gì bạn đang làm việc — cột, kiểu dữ liệu, phạm vi, giá trị thiếu, các vấn đề tiềm ẩn về chất lượng. Điều này giúp tránh lãng phí công sức vào dữ liệu bị lỗi.
Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây: