|
 Thuật ngữ VietnamBiz
Kiến thức Kinh tế

Dữ liệu lớn (Big data) là gì? Những khó khăn khi sử dụng dữ liệu lớn

16:17 | 25/09/2019
Chia sẻ
Dữ liệu lớn (tiếng Anh: Big data) là một thuật ngữ được sử dụng từ cuối những năm 1990, dùng để chỉ lượng dữ liệu khổng lồ được tạo ra bởi các công ty hoạt động ở các ngành nghề khác nhau, chính phủ, cá nhân và các thiết bị điện tử.
services-bigdata-bigdataplatform-header-2732x1536

Hình minh họa. Nguồn: nttdata.com

Dữ liệu lớn

Dữ liệu lớn trong tiếng Anh là Big data.

Dữ liệu lớn là một thuật ngữ được sử dụng từ cuối những năm 1990, dùng để chỉ lượng dữ liệu khổng lồ được tạo ra bởi các công ty hoạt động ở các ngành nghề khác nhau, chính phủ, cá nhân và các thiết bị điện tử.

Phân loại dữ liệu lớn

Dữ liệu lớn bao gồm dữ liệu truyền thốngdữ liệu phi truyền thống

Dữ liệu truyền thống bao gồm:

- Dữ liệu của công ty dưới dạng báo cáo hàng năm, hồ sơ theo qui định, số liệu bán hàng và thu nhập và các cuộc hội nghị bằng điện thoại (conference calls)

- Dữ liệu được tạo ra trên thị trường tài chính, bao gồm giá và khối lượng giao dịch

- Thống kê của chính phủ

Dữ liệu phi truyền thống bao gồm:

- Dữ liệu từ cá nhân: Bài đăng trên các mạng xã hội, các đánh giá trực tuyến, email và việc truy cập trang web

- Dữ liệu từ các doanh nghiệp: Hồ sơ ngân hàng và dữ liệu máy quét bán lẻ

- Dữ liệu từ các thiết bị điện tử: Dữ liệu được tạo ra từ nhiều loại thiết bị, bao gồm điện thoại thông minh, máy ảnh, micrô, đầu đọc nhận dạng tần số vô tuyến (RFID), cảm biến không dây và vệ tinh.

Khi Internet và các thiết bị nối mạng ngày càng phát triển, việc sử dụng các nguồn dữ liệu phi truyền thống đã tăng lên, bao gồm thông tin trên các mạng xã hội, email và các phương thức giao tiếp bằng văn bản, lưu lượng truy cập trang web, trang tin tức trực tuyến và các nguồn thông tin điện tử khác.

Đặc trưng của dữ liệu lớn

- Về khối lượng (Volume): Lượng dữ liệu được thu thập là rất lớn, lên tới hàng triệu, hàng tỉ đơn vị dữ liệu

- Về tốc độ (Velocity): Tốc độ truyền dữ liệu rất cao. Dữ liệu thời gian thực (real-time) hoặc gần thời gian thực (near-real-time) đã trở thành tiêu chuẩn trong nhiều lĩnh vực

- Về mức độ đa dạng (Variety): Dữ liệu được thu thập từ nhiều nguồn khác nhau và ở nhiều định dạng khác nhau, bao gồm dữ liệu có cấu trúc (ví dụ: bảng SQL, tệp CSV), dữ liệu bán cấu trúc (ví dụ: mã HTML) và dữ liệu phi cấu trúc (ví dụ: tin nhắn video)

Big

Đặc trưng của dữ liệu lớn

Khó khăn khi sử dụng dữ liệu lớn

Các khó khăn khi sử dụng dữ liệu lớn, bao gồm: Chất lượng, khối lượng và tính phù hợp của dữ liệu.

Các câu hỏi cần đặt ra khi sử dụng dữ liệu lớn:

1. Tập dữ liệu có sai số từ việc lựa chọn đối tượng (Selection bias), thiếu dữ liệu hoặc có dữ liệu ngoại lai (Data outliers) không?

2. Khối lượng dữ liệu thu thập có đủ hay không?

3. Dữ liệu có phù hợp cho việc phân tích hay không?

Trong hầu hết các trường hợp, dữ liệu phải được lấy từ nguồn ban đầu, sau đó làm sạch và sắp xếp trước khi phân tích. Quá trình này rất khó khăn đối với dữ liệu phi truyền thống do các đặc điểm phi cấu trúc của dữ liệu liên quan, thường mang tính định tính (ví dụ: Văn bản, ảnh và video) hơn là định lượng.

(Tài liệu tham khảo: Giáo trình CFA level I năm 2019)


Diễn đàn Đầu tư Việt Nam 2026 - Summer Summit

Thời gian: 11/06/2026
Địa điểm: L7 West Lake Hanoi by Lotte Hotels, Ballroom tầng 4, 683 Lạc Long Quân, Tây Hồ, Hà Nội

Vietnam Investment Forum 2026 - Summer Summit quy tụ đại diện cơ quan quản lý, lãnh đạo ngân hàng, công ty chứng khoán, quỹ đầu tư, giám đốc phân tích và các chuyên gia kinh tế độc lập, tập trung vào bức tranh vĩ mô, AI & Big Data và chiến lược tìm kiếm Alpha trong nửa cuối năm 2026.

Ba phiên thảo luận chính:

Phiên thảo luận 1: Vĩ mô 2026 - Việt Nam trước các cú sốc từ bên ngoài và cơ hội từ bên trong
Phiên thảo luận 2: AI & Big Data - Từ lợi thế ra quyết định đến thế hệ sản phẩm đầu tư mới
Phiên thảo luận 3: Cơ hội tìm kiếm Alpha trên thị trường chứng khoán và các kênh tài sản phổ biến

Tìm hiểu chương trình tại VIF 2026 Summer Summit.

Tham gia khảo sát "Dự báo của bạn về nửa cuối năm 2026" để có cơ hội nhận vé mời đặc biệt từ Ban Tổ chức.

Tuệ Thi