Thung lũng Silicon đang phát cuồng về một mô hình AI 'Made in China'
Trung Quốc đang bắt kịp phương Tây
Theo một bảng xếp hạng nổi tiếng, các mô hình AI của công ty công nghệ Trung Quốc DeepSeek gần đây đã vươn lên top 10 toàn cầu về hiệu suất.
Wall Street Journal đánh giá, diễn biến này cho thấy các lệnh hạn chế xuất khẩu của Mỹ đang gặp khó khăn trong việc ngăn chặn những tiến bộ công nghệ nhanh chóng của Trung Quốc.
Vào ngày 20/1, DeepSeek đã giới thiệu R1, một mô hình chuyên biệt được thiết kế để giải quyết các vấn đề phức tạp.
“DeepSeek R1 là một trong những đột phá đáng kinh ngạc và ấn tượng nhất mà tôi từng thấy”, ông Marc Andreessen, nhà đầu tư mạo hiểm từng cố vấn cho Tổng thống Mỹ Donald Trump, nhận xét trên mạng xã hội X.
Các chuyên gia cho biết công nghệ của DeepSeek vẫn còn kém OpenAI và Google. Song, DeepSeek vẫn là đối thủ cạnh tranh sát nút với các doanh nghiệp Mỹ dù sử dụng ít chip tiên tiến hơn. Trong một số trường hợp, DeepSeek còn bỏ qua các bước mà các nhà phát triển Mỹ coi là cần thiết.
DeepSeek tuyên bố chi phí đào tạo một trong các mô hình AI mới nhất của họ vào khoảng 5,6 triệu USD. Con số này thấp hơn hẳn chi phí 100 triệu USD đến 1 tỷ USD mà CEO Dario Amodei của công ty công nghệ Anthropic chia sẻ vào năm ngoái.
Ông Barrett Woodside, đồng sáng lập công ty phần cứng AI Positron, cho biết ông và các đồng nghiệp đã xôn xao về DeepSeek. “Chúng rất tuyệt”, ông khen ngợi các mô hình nguồn mở của DeepSeek.
Trước R1, DeepSeek đã công bố V3 - một mô hình AI hàng đầu khác - vào tháng 12 năm ngoái. Người dùng cho biết V3 từ chối trả lời các câu hỏi chính trị nhạy cảm về Trung Quốc và nhà lãnh đạo Tập Cận Bình.
DeepSeek khẳng định R1 và V3 đều hoạt động tốt hơn hoặc gần bằng các mô hình hàng đầu của phương Tây. Tính đến ngày 25/1, hai mô hình này đều trong top 10 trên Chatbot Arena, một nền tảng do các nhà nghiên cứu của Đại học California, Berkeley xây dựng để đánh giá hiệu suất của chatbot.
Một mô hình của Google Gemini đứng đầu, trong khi DeepSeek đánh bại Claude của Anthropic và Grok từ xAI của tỷ phú Elon Musk.
Quá trình phát triển của DeepSeek được dẫn dắt bởi nhà quản lý quỹ đầu cơ Trung Quốc Liang Wenfeng. Cho đến nay, ông Liang đã trở thành bộ mặt cho những nỗ lực phát triển AI của đất nước tỷ dân.
“Khi con người đưa ra quyết định đầu tư, đó là nghệ thuật và họ chỉ làm theo cảm tính. Khi các chương trình máy tính đưa ra quyết định, đó là khoa học và chúng ta cần một giải pháp tối ưu”, ông Liang phát biểu vào năm 2019.
Theo Wall Street Journal, ông Liang Wenfeng sinh năm 1985 tại tỉnh Quảng Đông. Sau đó, ông theo học Đại học Chiết Giang danh tiếng và theo đuổi chuyên ngành thị giác máy.
Vài năm sau khi tốt nghiệp, ông Liang thành lập High-Flyer cùng hai người bạn đại học vào năm 2015. Tiền thân của DeepSeek chính là đơn vị phát triển AI của High-Flyer.
Những thông tin khác về DeepSeek
Mặc dù mô hình flagship của DeepSeek miễn phí, công ty này đang tính phí đối với những người dùng kết nối ứng dụng của riêng họ với mô hình và hạ tầng điện toán của công ty.
Chẳng hạn, một doanh nghiệp sẽ phải trả tiền nếu họ muốn khai thác các mô hình của DeepSeek nhằm đưa ra câu trả lời AI cho các truy vấn của khách hàng.
Đầu năm ngoái, DeepSeek đã giảm mạnh giá của dịch vụ nói trên. Động thái này buộc ngành công nghiệp AI tại Trung Quốc phải bắt đầu một cuộc chiến về giá.
Ông Anthony Poo, đồng sáng lập startup sử dụng AI tạo sinh để dự đoán lợi nhuận tài chính, cho biết công ty ông đã chuyển từ mô hình Claude của Anthropic sang DeepSeek vào tháng 9 năm ngoái. Các thử nghiệm cho thấy DeepSeek hoạt động tương tự với chi phí chỉ bằng 1/4.
“Mô hình của OpenAI có hiệu suất tốt nhất, nhưng chúng tôi không muốn trả tiền cho những ứng dụng mà chúng tôi không cần”, ông Poo nói với Wall Street Journal.
Ở diễn biến khác, tại cuộc họp cùng Thủ tướng Trung Quốc Lý Cường hôm 20/1, ông Liang của DeepSeek lưu ý rằng trong khi doanh nghiệp nội địa đang nỗ lực để bắt kịp phương Tây, các hạn chế xuất khẩu chip tiên tiến của Mỹ vẫn là một nút thắt cổ chai.
Hồi năm 2019, High-Flyer bắt tay vào lắp ráp một cụm chip phục vụ cho mục đích nghiên cứu AI, một phần nhờ vào nguồn tiền từ hoạt động tài chính của công ty.
Sau đó, High-Flyer cho biết họ đã lắp ráp được một cụm chip lớn gồm khoảng 10.000 bộ xử lý đồ hoạ Nvidia. Cụm chip này có thể được sử dụng để đào tạo các mô hình ngôn ngữ lớn.
Chỉ một số ít công ty ở Trung Quốc có hạ tầng điện toán đủ mạnh để phát triển các mô hình như vậy vào cuối năm 2022, khi OpenAI ra mắt ChatGPT.
DeepSeek cho biết trong một báo cáo kỹ thuật mới đây rằng họ đã sử dụng một cụm gồm hơn 2.000 con chip Nvidia để đào tạo mô hình V3, thấp hơn con số hàng chục nghìn con chip cần để đào tạo các mô hình có quy mô tương tự.
Một số chuyên gia AI của Mỹ gần đây đặt câu hỏi rằng liệu High-Flyer và DeepSeek có đang tiếp cận sức mạnh điện toán vượt quá những gì họ đã công bố hay không.
Một số nhà nghiên cứu khác nhấn mạnh mô hình V3 thiếu một số khả năng nhất định mà các đối thủ được đào tạo tốn kém hơn đang có, chẳng hạn như nắm bắt đầy đủ bối cảnh của các cuộc trò chuyện kéo dài.
Đối với mô hình R1 công bố tuần trước, DeepSeek đã bỏ qua một quy trình được gọi là tinh chỉnh có giám sát (supervised fine-tuning). Ở quy trình này, các lập trình viên sẽ đưa vào mô hình kiến thức của các chuyên gia con người để giúp mô hình có khởi đầu thận lợi.
DeepSeek tuyên bố R1 - được thiết kế để giải các bài toán khó và thử thách tương tự - có thể so sánh với mô hình o1 của OpenAI dù công ty này đã bỏ qua quy trình tinh chỉnh có giám sát và chỉ tập trung vào học tăng cường (reinforcement learning).
Nhà khoa học Jim Fan của Nvidia khen ngợi báo cáo của DeepSeek là một bước đột phá. Vị chuyên gia cho biết trên X rằng nó khiến ông nhớ đến các chương trình AI tiên phong trước đó, bởi chúng đã thành thạo những trò chơi như cờ vua “từ đầu mà không cần bắt chước các đại kiện tướng con người trước tiên”.