|
 Thuật ngữ VietnamBiz
Kiến thức Kinh tế

Dữ liệu lớn (Big data) là gì? Những khó khăn khi sử dụng dữ liệu lớn

16:17 | 25/09/2019
Chia sẻ
Dữ liệu lớn (tiếng Anh: Big data) là một thuật ngữ được sử dụng từ cuối những năm 1990, dùng để chỉ lượng dữ liệu khổng lồ được tạo ra bởi các công ty hoạt động ở các ngành nghề khác nhau, chính phủ, cá nhân và các thiết bị điện tử.
services-bigdata-bigdataplatform-header-2732x1536

Hình minh họa. Nguồn: nttdata.com

Dữ liệu lớn

Dữ liệu lớn trong tiếng Anh là Big data.

Dữ liệu lớn là một thuật ngữ được sử dụng từ cuối những năm 1990, dùng để chỉ lượng dữ liệu khổng lồ được tạo ra bởi các công ty hoạt động ở các ngành nghề khác nhau, chính phủ, cá nhân và các thiết bị điện tử.

Phân loại dữ liệu lớn

Dữ liệu lớn bao gồm dữ liệu truyền thốngdữ liệu phi truyền thống

Dữ liệu truyền thống bao gồm:

- Dữ liệu của công ty dưới dạng báo cáo hàng năm, hồ sơ theo qui định, số liệu bán hàng và thu nhập và các cuộc hội nghị bằng điện thoại (conference calls)

- Dữ liệu được tạo ra trên thị trường tài chính, bao gồm giá và khối lượng giao dịch

- Thống kê của chính phủ

Dữ liệu phi truyền thống bao gồm:

- Dữ liệu từ cá nhân: Bài đăng trên các mạng xã hội, các đánh giá trực tuyến, email và việc truy cập trang web

- Dữ liệu từ các doanh nghiệp: Hồ sơ ngân hàng và dữ liệu máy quét bán lẻ

- Dữ liệu từ các thiết bị điện tử: Dữ liệu được tạo ra từ nhiều loại thiết bị, bao gồm điện thoại thông minh, máy ảnh, micrô, đầu đọc nhận dạng tần số vô tuyến (RFID), cảm biến không dây và vệ tinh.

Khi Internet và các thiết bị nối mạng ngày càng phát triển, việc sử dụng các nguồn dữ liệu phi truyền thống đã tăng lên, bao gồm thông tin trên các mạng xã hội, email và các phương thức giao tiếp bằng văn bản, lưu lượng truy cập trang web, trang tin tức trực tuyến và các nguồn thông tin điện tử khác.

Đặc trưng của dữ liệu lớn

- Về khối lượng (Volume): Lượng dữ liệu được thu thập là rất lớn, lên tới hàng triệu, hàng tỉ đơn vị dữ liệu

- Về tốc độ (Velocity): Tốc độ truyền dữ liệu rất cao. Dữ liệu thời gian thực (real-time) hoặc gần thời gian thực (near-real-time) đã trở thành tiêu chuẩn trong nhiều lĩnh vực

- Về mức độ đa dạng (Variety): Dữ liệu được thu thập từ nhiều nguồn khác nhau và ở nhiều định dạng khác nhau, bao gồm dữ liệu có cấu trúc (ví dụ: bảng SQL, tệp CSV), dữ liệu bán cấu trúc (ví dụ: mã HTML) và dữ liệu phi cấu trúc (ví dụ: tin nhắn video)

Big

Đặc trưng của dữ liệu lớn

Khó khăn khi sử dụng dữ liệu lớn

Các khó khăn khi sử dụng dữ liệu lớn, bao gồm: Chất lượng, khối lượng và tính phù hợp của dữ liệu.

Các câu hỏi cần đặt ra khi sử dụng dữ liệu lớn:

1. Tập dữ liệu có sai số từ việc lựa chọn đối tượng (Selection bias), thiếu dữ liệu hoặc có dữ liệu ngoại lai (Data outliers) không?

2. Khối lượng dữ liệu thu thập có đủ hay không?

3. Dữ liệu có phù hợp cho việc phân tích hay không?

Trong hầu hết các trường hợp, dữ liệu phải được lấy từ nguồn ban đầu, sau đó làm sạch và sắp xếp trước khi phân tích. Quá trình này rất khó khăn đối với dữ liệu phi truyền thống do các đặc điểm phi cấu trúc của dữ liệu liên quan, thường mang tính định tính (ví dụ: Văn bản, ảnh và video) hơn là định lượng.

(Tài liệu tham khảo: Giáo trình CFA level I năm 2019)

Tuệ Thi