Alibaba releases AI model it says surpasses DeepSeek
January 29, 202511:21 PM GMT+7
Bài được đưa lên Internet ngày: 29/01/2025
BẮC KINH, 29/01 (Theo Reuters) - Hôm thứ Tư, công ty công nghệ Trung Quốc Alibaba (9988.HK) đã phát hành phiên bản mới của mô hình trí tuệ nhân tạo Qwen 2.5 mà họ tuyên bố là vượt trội hơn so với DeepSeek-V3 vốn được đánh giá cao.
Thời điểm phát hành Qwen 2.5-Max bất thường, vào ngày đầu tiên của Tết Nguyên đán khi hầu hết người dân Trung Quốc nghỉ làm và ở bên gia đình, cho thấy áp lực mà công ty khởi nghiệp AI Trung Quốc DeepSeek phải chịu trong ba tuần qua không chỉ đối với các đối thủ nước ngoài mà còn đối với cả đối thủ trong nước.
"Qwen 2.5-Max vượt trội hơn ... hầu như trên mọi phương diện so với GPT-4o, DeepSeek-V3 và Llama-3.1-405B", đơn vị đám mây của Alibaba cho biết trong một thông báo được đăng trên tài khoản WeChat chính thức của mình, đề cập đến các mô hình AI nguồn mở tiên tiến nhất của OpenAI và Meta.
Việc phát hành trợ lý AI của DeepSeek vào ngày 10 tháng 1, được hỗ trợ bởi mô hình DeepSeek-V3, cũng như việc phát hành mô hình R1 vào ngày 20 tháng 1, đã gây sốc cho Thung lũng Silicon và khiến cổ phiếu công nghệ lao dốc, với chi phí phát triển và sử dụng được cho là thấp của công ty khởi nghiệp Trung Quốc này khiến các nhà đầu tư đặt câu hỏi về kế hoạch chi tiêu khổng lồ của các công ty AI hàng đầu tại Hoa Kỳ.
Nhưng thành công của DeepSeek cũng dẫn đến một cuộc chạy đua giữa các đối thủ cạnh tranh trong nước để nâng cấp các mô hình AI của riêng họ.
Hai ngày sau khi phát hành DeepSeek-R1, chủ sở hữu TikTok là ByteDance đã phát hành bản cập nhật cho mô hình AI hàng đầu của mình, được cho là vượt trội hơn o1 của OpenAI do Microsoft hậu thuẫn trong AIME, một bài kiểm tra chuẩn mực đo lường mức độ hiểu và phản hồi của các mô hình AI đối với các hướng dẫn phức tạp.
Điều này lặp lại tuyên bố của DeepSeek rằng mô hình R1 của họ đã cạnh tranh với o1 của OpenAI trên một số chuẩn mực hiệu suất.
Tiền thân của mô hình V3 của DeepSeek, DeepSeek-V2, đã gây ra một cuộc chiến giá thành mô hình AI ở Trung Quốc sau khi được phát hành vào tháng 5 năm ngoái.
Thực tế là DeepSeek-V2 là mã nguồn mở và rẻ chưa từng có, chỉ 1 nhân dân tệ (0,14 đô la) cho 1 triệu mã thông báo - hoặc các đơn vị dữ liệu được mô hình AI xử lý - đã khiến đơn vị đám mây của Alibaba tuyên bố giảm giá tới 97% cho một loạt các mô hình.
Các công ty công nghệ Trung Quốc khác cũng làm theo, bao gồm Baidu (9888.HK), công ty đã phát hành phiên bản tương đương đầu tiên của Trung Quốc với ChatGPT vào tháng 3 năm 2023 và công ty internet có giá trị nhất của đất nước này là Tencent (0700.HK).
Liang Wenfeng, người sáng lập bí ẩn của DeepSeek, cho biết trong một cuộc phỏng vấn hiếm hoi với hãng truyền thông Trung Quốc Waves vào tháng 7 rằng công ty khởi nghiệp này "không quan tâm" đến cuộc chiến giá cả và mục tiêu chính của họ là đạt được trí tuệ nhân tạo tổng quát - AGI (Artificial General Intelligence).
OpenAI định nghĩa AGI là các hệ thống tự động vượt qua con người trong hầu hết các nhiệm vụ có giá trị kinh tế.
Trong khi các công ty công nghệ lớn của Trung Quốc như Alibaba có hàng trăm nghìn nhân viên, DeepSeek hoạt động như một phòng thí nghiệm nghiên cứu, chủ yếu có nhân viên là những sinh viên mới tốt nghiệp và nghiên cứu sinh tiến sĩ từ các trường đại học hàng đầu Trung Quốc.
Liang cho biết trong cuộc phỏng vấn vào tháng 7 rằng ông tin rằng các công ty công nghệ lớn nhất Trung Quốc có thể không phù hợp với tương lai của ngành công nghiệp AI, đối lập với chi phí cao và cấu trúc theo chiều từ trên xuống (top-down) của họ so với hoạt động tinh gọn và phong cách quản lý lỏng lẻo của DeepSeek.
"Các mô hình nền tảng lớn đòi hỏi sự đổi mới liên tục, khả năng của các công ty công nghệ khổng lồ có giới hạn của chúng", ông nói.
Bản tin tóm tắt hàng ngày của Reuters cung cấp mọi tin tức bạn cần để bắt đầu ngày mới. Đăng ký tại đây.
Báo cáo của Eduardo Baptista; Biên tập bởi Christian Schmollinger
Tiêu chuẩn của chúng tôi: Nguyên tắc tin cậy của Thomson Reuters.
BEIJING, Jan 29 (Reuters) - Chinese tech company Alibaba (9988.HK) on Wednesday released a new version of its Qwen 2.5 artificial intelligence model that it claimed surpassed the highly-acclaimed DeepSeek-V3.
The unusual timing of the Qwen 2.5-Max's release, on the first day of the Lunar New Year when most Chinese people are off work and with their families, points to the pressure Chinese AI startup DeepSeek's meteoric rise in the past three weeks has placed on not just overseas rivals, but also its domestic competition.
"Qwen 2.5-Max outperforms ... almost across the board GPT-4o, DeepSeek-V3 and Llama-3.1-405B," Alibaba's cloud unit said in an announcement posted on its official WeChat account, referring to OpenAI and Meta's most advanced open-source AI models.
The Jan. 10 release of DeepSeek's AI assistant, powered by the DeepSeek-V3 model, as well as the Jan. 20 release of its R1 model, has shocked Silicon Valley and caused tech shares to plunge, with the Chinese startup's purportedly low development and usage costs prompting investors to question huge spending plans by leading AI firms in the United States.
But DeepSeek's success has also led to a scramble among its domestic competitors to upgrade their own AI models.
Two days after the release of DeepSeek-R1, TikTok owner ByteDance released an update to its flagship AI model, which it claimed outperformed Microsoft-backed OpenAI's o1 in AIME, a benchmark test that measures how well AI models understand and respond to complex instructions.
This echoed DeepSeek's claim that its R1 model rivalled OpenAI's o1 on several performance benchmarks.
The predecessor of DeepSeek's V3 model, DeepSeek-V2, triggered an AI model price war in China after it was released last May.
The fact that DeepSeek-V2 was open-source and unprecedentedly cheap, only 1 yuan ($0.14) per 1 million tokens - or units of data processed by the AI model - led to Alibaba's cloud unit announcing price cuts of up to 97% on a range of models.
Other Chinese tech companies followed suit, including Baidu (9888.HK) , which released China's first equivalent to ChatGPT in March 2023, and the country's most valuable internet company Tencent (0700.HK).
Liang Wenfeng, DeepSeek's enigmatic founder, said in a rare interview with Chinese media outlet Waves in July that the startup "did not care" about price wars and that achieving AGI (artificial general intelligence) was its main goal.
OpenAI defines AGI as autonomous systems that surpass humans in most economically valuable tasks.
While large Chinese tech companies like Alibaba have hundreds of thousands of employees, DeepSeek operates like a research lab, staffed mainly by young graduates and doctorate students from top Chinese universities.
Liang said in his July interview that he believed China's largest tech companies might not be well suited to the future of the AI industry, contrasting their high costs and top-down structures with DeepSeek's lean operation and loose management style.
"Large foundational models require continued innovation, tech giants' capabilities have their limits," he said.
The Reuters Daily Briefing newsletter provides all the news you need to start your day. Sign up here.
Reporting by Eduardo Baptista; Editing by Christian Schmollinger
Our Standards: The Thomson Reuters Trust Principles.
Dịch: Lê Trung Nghĩa
letrungnghia.foss@gmail.com
Không có nhận xét nào:
Đăng nhận xét
Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.