Khám phá dữ liệu nhanh chóng khi phân tích bằng AI

Giai đoạn khám phá

Trong bài học trước, chúng ta đã tìm hiểu cách đặt câu hỏi tốt hơn. Bây giờ, hãy xây dựng trên nền tảng đó. Trước khi có thể trả lời các câu hỏi về dữ liệu, bạn cần hiểu chính dữ liệu đó.

Có những cột nào? Chúng có ý nghĩa gì? Phạm vi giá trị là gì? Khoảng trống ở đâu?

Đây là giai đoạn khám phá dữ liệu - và đây là nơi AI giúp tăng tốc đáng kể quy trình làm việc của bạn.

Danh sách kiểm tra phân tích dữ liệu

Đối với bất kỳ tập dữ liệu mới nào, hãy hiểu:

1. Cấu trúc

  • Có bao nhiêu hàng (bản ghi)?
  • Có bao nhiêu cột (trường)?
  • Tên cột là gì?

2. Loại dữ liệu

  • Cột nào là số?
  • Cột nào là văn bản (phân loại)?
  • Cột nào là ngày tháng?
  • Cột nào là mã định danh?

3. Phạm vi giá trị

  • Giá trị tối thiểu/tối đa cho các cột số là gì?
  • Những giá trị duy nhất nào tồn tại trong các cột phân loại?
  • Phạm vi ngày tháng nào được bao phủ?

4. Vấn đề về chất lượng

  • Giá trị bị thiếu (cột nào, bao nhiêu)?
  • Giá trị trùng lặp? Lỗi rõ ràng hoặc dữ liệu ngoại lệ?
  • Định dạng không nhất quán?

5. Mối quan hệ

  • Các cột liên quan đến nhau như thế nào?
  • Có thể sử dụng công cụ nào để kết hợp dữ liệu này với dữ liệu khác?

Phân tích dữ liệu bằng AI

Sử dụng AI để phân tích nhanh chóng một tập dữ liệu:

📍 Nơi dán: Mở ChatGPT (chat.openai.com), Claude (claude.ai) hoặc Gemini (gemini.google.com) và bắt đầu một cuộc trò chuyện mới.

📋 Cách sao chép prompt này: Nhấp vào bất kỳ đâu bên trong khối màu xám, nhấn Cmd+A rồi Cmd+C (Mac) hoặc Ctrl+A rồi Ctrl+C (Windows). Hoặc sử dụng biểu tượng sao chép xuất hiện.

Đây là tập dữ liệu của tôi (100 hàng đầu):

[Dán dữ liệu]

Hãy cung cấp hồ sơ dữ liệu:

1. CẤU TRÚC
   - Số lượng cột và tên của chúng
   - Mục đích rõ ràng của mỗi cột

2. LOẠI DỮ LIỆU
   - Phân loại mỗi cột (số, phân loại, ngày tháng, ID)
   - Đánh dấu bất kỳ cột nào có loại dữ liệu hỗn hợp

3. PHÂN TÍCH GIÁ TRỊ
   - Đối với các cột số: giá trị nhỏ nhất, lớn nhất, trung bình ước tính
   - Đối với các cột phân loại: giá trị duy nhất (tối đa 10)
   - Đối với các cột ngày tháng: phạm vi được bao phủ

4. VẤN ĐỀ CHẤT LƯỢNG
   - Các cột có giá trị bị thiếu và phần trăm ước tính
   - Các giá trị ngoại lệ rõ ràng hoặc giá trị đáng ngờ
   - Sự không nhất quán (định dạng, đặt tên)

5. QUAN SÁT BAN ĐẦU
   - Bất cứ điều gì bất thường hoặc đáng chú ý
   - Mối quan hệ tiềm năng giữa các cột

✏️ ​​Cách điền thông tin chi tiết của bạn: Thay thế mỗi [] và trình giữ chỗ trong ngoặc bằng các chi tiết cụ thể từ tình huống thực tế của bạn. Thông tin đầu vào mơ hồ sẽ tạo ra kết quả mơ hồ — hãy cụ thể hơn.

👀 Những gì bạn sẽ thấy: Trong vòng vài giây, AI sẽ trả về một phản hồi có cấu trúc dựa trên prompt ở trên. Hãy đọc kỹ và coi đó là bản nháp, không phải câu trả lời cuối cùng.

📌 Nên làm gì với kết quả: Lưu phản hồi vào file Notes. Chọn gợi ý có hiệu quả cao nhất và thực hiện nó trong tuần này — đừng cố gắng làm tất cả cùng một lúc.

⚠️ Nếu kết quả không ổn: Nếu các gợi ý có vẻ chung chung, hãy dán nội dung sau: "Hãy cụ thể hơn với ngữ cảnh thực tế của tôi. Bỏ qua những lời khuyên chung chung." Nếu nó bỏ qua các chi tiết quan trọng bạn đã cung cấp, hãy hỏi: "Bạn đã bỏ sót [X] trong ngữ cảnh của tôi — hãy thực hiện lại với điều đó làm ràng buộc chính."

Chỉ với một prompt, bạn có thể nhận được kết quả mà nếu làm thủ công có thể mất cả giờ đồng hồ.

Kiểm tra nhanh: Câu hỏi phân tích này yêu cầu kết quả trên 5 khía cạnh trong một vòng. Tại sao phần có tiêu đề "QUAN SÁT BAN ĐẦU — bất cứ điều gì bất thường hoặc đáng chú ý" lại là phần có giá trị nhất, mặc dù nghe có vẻ mơ hồ nhất?

4 phần còn lại (Cấu trúc, Loại dữ liệu, Phân tích giá trị, Vấn đề chất lượng) tạo ra kết quả mang tính xác định — bất kỳ ai chạy cùng một prompt trên cùng một bộ dữ liệu đều sẽ nhận được câu trả lời gần như giống nhau. Phần 5 là nơi AI thực hiện việc đối sánh mẫu với hàng triệu tập dữ liệu mà nó đã thấy, đưa ra những quan sát mà con người có thể mất nhiều ngày mới nhận ra — "đây có vẻ là dữ liệu B2B SaaS", "mẫu ngày tháng cho thấy bản dùng thử 30 ngày", "định dạng ID khách hàng khớp với dữ liệu xuất từ ​​Salesforce".

Đó là phần cho bạn biết loại tập dữ liệu này thực sự là gì, điều này sẽ định hình mọi câu hỏi phân tích tiếp theo. Nguyên tắc chung: Các kết quả đầu ra có giá trị nhất của AI thường là những kết quả mô tả đặc điểm hơn là liệt kê — hãy giữ chúng trong prompt template của bạn ngay cả khi chúng có vẻ ít cụ thể hơn so với các trường có cấu trúc.

Các vấn đề thường gặp về chất lượng dữ liệu

Hãy học cách nhận biết nhanh chóng:

Giá trị thiếu

Những điều cần tìm: Ô trống, "N/A", "NULL", "#N/A", "0" được sử dụng làm trình giữ chỗ

Câu hỏi cần đặt ra:

  • Dữ liệu bị thiếu là ngẫu nhiên hay có hệ thống?
  • Chúng ta có nên loại bỏ các hàng này, điền vào chúng, hay điều tra lý do tại sao chúng bị thiếu?

Giá trị ngoại lệ

Những điều cần tìm: Các giá trị nằm ngoài phạm vi bình thường

Câu hỏi cần đặt ra:

  • Đây là lỗi dữ liệu hay là các trường hợp cực đoan hợp lệ?
  • Chúng có làm sai lệch giá trị trung bình và tổng số không?
  • Chúng có nên được xử lý riêng biệt không?

Giá trị trùng lặp

Những điều cần tìm: Các hàng giống hệt hoặc gần giống hệt nhau

Câu hỏi cần đặt ra:

  • Đây có phải là các bản sao thực sự hay là các mục lặp lại hợp lệ?
  • Điều gì làm cho một hàng là duy nhất?

Định dạng không nhất quán

Những điều cần chú ý:

  • Ngày tháng ở các định dạng khác nhau (01/15/2024 với 2024-01-15)
  • Sự khác biệt về văn bản (USA, US, United States)
  • Sự không nhất quán về số ($1,000 với 1000)

Các mẫu đáng ngờ

Những điều cần chú ý:

  • Quá nhiều số tròn (cho thấy đó là ước tính, không phải dữ liệu thực tế)
  • Sử dụng quá nhiều giá trị mặc định
  • Giá trị âm ở những nơi không mong đợi

Kiểm tra nhanh: "Quá nhiều số tròn" được liệt kê là một mẫu đáng ngờ, nhưng một nhà phân tích mới có thể dễ dàng đọc điều đó và hỏi: "Dữ liệu thực tế đôi khi không phải là số tròn sao?" Tại sao tần suất của các số tròn (không phải sự hiện diện của chúng) lại là tín hiệu thực sự, và cụ thể việc làm tròn quá mức nói lên điều gì về cách dữ liệu đến tay bạn?

Dữ liệu thực tế hiếm khi là số tròn thống kê — doanh thu là 14.237,42 USD, chứ không phải 14.000 USD; số giao dịch là 117 chứ không phải 100; số lượng phản hồi khảo sát là 287 chứ không phải 300. Khi bạn thấy một cột mà hơn 40% giá trị là bội số của 100 hoặc 1.000, gần như chắc chắn đó là các ước tính do con người nhập vào chứ không phải là các phép đo được hệ thống ghi lại.

Điều đó có nghĩa là: Ai đó — một nhân viên bán hàng ghi lại quy mô giao dịch, một nhà phân tích làm tròn số cho một slide, một khách hàng nhập vào một biểu mẫu — đã nhập những con số đó từ trí nhớ hoặc ước lượng sơ bộ, chứ không phải từ một phép đo. Điều đó không làm cho dữ liệu không thể sử dụng được, nhưng nó cho bạn biết mức độ chính xác tối thiểu: Bạn không thể kết luận "doanh thu tăng chính xác 8,3%" từ dữ liệu mà một nửa số đầu vào được ước lượng bằng mắt thường đến hàng trăm gần nhất. Luôn kiểm tra mức độ phổ biến của số tròn trước khi báo cáo tỷ lệ phần trăm chính xác.

Quy trình khám phá 5 phút

Khi bạn nhận được một tập dữ liệu mới, hãy nhanh chóng thực hiện quy trình này:

Phút 1-2: Nắm bắt những điều cơ bản

AI: "Tóm tắt tập dữ liệu này. Tập dữ liệu này gồm những cột nào, có bao nhiêu hàng và bao gồm khoảng thời gian nào?"

Phút 3-4: Kiểm tra chất lượng

AI: "Xác định bất kỳ vấn đề nào về chất lượng dữ liệu: giá trị thiếu, giá trị ngoại lệ, dữ liệu trùng lặp hoặc sự không nhất quán."

Phút 5: Tìm kiếm các mẫu ban đầu

AI: "Bạn nhận thấy những mẫu hoặc mối quan hệ nào trong dữ liệu này? Dữ liệu này có thể trả lời những câu hỏi nào?"

5 phút khám phá sẽ tiết kiệm hàng giờ làm việc với dữ liệu kém chất lượng.

Hiểu các mối quan hệ trong dữ liệu

Dữ liệu hiếm khi tồn tại độc lập. Hiểu các mối quan hệ rất quan trọng:

Trong tập dữ liệu

Hỏi AI:

Nhìn vào các cột này, những mối quan hệ nào có thể tồn tại?
- Cột nào có thể tương quan với nhau?
- Cột nào có thể được suy ra từ các cột khác?
- Những nhóm nào có ý nghĩa?

Với dữ liệu khác

Hãy suy nghĩ về:

  • Dữ liệu này có thể được kết hợp với dữ liệu nào?
  • Trường ID nào có thể liên kết với các tập dữ liệu khác?
  • Dữ liệu nào còn thiếu mà các dữ liệu khác có thể cung cấp?

Quy trình khám phá thực tiễn

Đối với dữ liệu bảng tính

  1. Mở và quét — Nắm bắt cấu trúc trực quan
  2. Lọc cột — Kiểm tra các giá trị duy nhất trong các cột chính
  3. Sắp xếp cột — Tìm giá trị nhỏ nhất/lớn nhất, phát hiện các giá trị ngoại lệ
  4. Sử ​​dụng AI — Phân tích để tìm ra các vấn đề bạn có thể bỏ sót

Đối với tập dữ liệu lớn

  1. Lấy mẫu trước — Làm việc với mẫu đại diện
  2. Phân tích mẫu — Hiểu cấu trúc và các vấn đề
  3. Xác thực các mẫu — Xác nhận các phát hiện trên toàn bộ tập dữ liệu
  4. Ghi lại các vấn đề — Ghi chú những gì cần làm sạch

Bài tập: Phân tích dữ liệu này

Đây là một tập dữ liệu mẫu. Phân tích dữ liệu bằng danh sách kiểm tra:

Date,Customer,Region,Product,Revenue,Units
2024-01-15,ACME Corp,North,Widget A,15000,100
2024-01-16,Beta Inc,South,Widget B,22500,150
2024-01-17,ACME Corp,North,Widget A,-500,
01/18/2024,Gamma LLC,East,Widget C,18000,120
2024-01-19,ACME Corp,north,widget a,16000,105
2024-01-20,Delta Co,West,Widget B,0,0
2024-01-21,ACME Corp,North,Widget A,15500,NULL

Vấn đề là gì Bạn có phát hiện ra vấn đề gì không?

Xem các vấn đề đã được xác định:

  1. Định dạng ngày tháng không nhất quán: "01/18/2024" với "2024-01-15"
  2. Doanh thu âm: -500 là bất thường — hoàn tiền? Lỗi?
  3. Thiếu đơn vị: Hàng 2 có đơn vị trống
  4. Không nhất quán chữ hoa chữ thường: "north" với "North", "widget a" với "Widget A"
  5. Giá trị bằng không: Revenue=0, Units=0 cho Delta Co — giao dịch đã đóng? Lỗi?
  6. Chuỗi rỗng: Văn bản "NULL" thay vì giá trị trống thực tế
  7. Cùng một khách hàng xuất hiện nhiều lần: ACME Corp xuất hiện 4 lần — dự kiến ​​hay trùng lặp?

Những điểm chính cần ghi nhớ

  • Luôn luôn phân tích dữ liệu trước khi xử lý — hiểu cấu trúc, loại, phạm vi và các vấn đề
  • Sử dụng AI để tăng tốc quá trình phân tích: một câu hỏi có thể tiết lộ những gì mất cả giờ để thực hiện thủ công
  • Lưu ý các vấn đề thường gặp: giá trị bị thiếu, giá trị ngoại lệ, dữ liệu trùng lặp, định dạng không nhất quán
  • Quy trình khám phá 5 phút giúp phát hiện sớm các vấn đề
  • Hiểu mối quan hệ trong tập dữ liệu và với các nguồn dữ liệu khác
  • Ghi lại các vấn đề đã tìm thấy — bạn sẽ cần điều này để làm sạch dữ liệu
  • Câu 1:

    Tại sao việc phân tích dữ liệu lại quan trọng?

    GIẢI THÍCH:

    Phân tích dữ liệu giúp phát hiện các vấn đề (giá trị thiếu, giá trị ngoại lệ, sự không nhất quán) và những mẫu bất ngờ từ sớm — trước khi bạn xây dựng phân tích trên một nền tảng không hoàn hảo.

  • Câu 2:

    Việc đầu tiên bạn nên làm khi nhận được một bộ dữ liệu mới là gì?

    GIẢI THÍCH:

    Trước khi tiến hành bất kỳ phân tích nào, hãy hiểu rõ những gì bạn đang làm việc — cột, kiểu dữ liệu, phạm vi, giá trị thiếu, các vấn đề tiềm ẩn về chất lượng. Điều này giúp tránh lãng phí công sức vào dữ liệu bị lỗi.

Thứ Ba, 02/06/2026 16:49
51 👨 33
Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!
Số điện thoại này đã được xác thực!
Bạn có thể dùng Sđt này đăng nhập tại đây!
Lỗi gửi SMS, liên hệ Admin
0 Bình luận
Sắp xếp theo
❖ AI cho Doanh nghiệp nhỏ