How DeepSeek
will upend the AI industry — and open it to competition
News Analysis; Jan 30, 20256 mins
Theo:
https://www.computerworld.com/article/3812701/how-deepseek-will-upend-the-ai-industry-and-open-it-to-competition.html
Bài được đưa lên Internet ngày:
30/01/2025
Các kỹ thuật tiết kiệm chi phí của
công ty khởi nghiệp Trung Quốc DeepSeek để đào tạo và
cung cấp các mô hình AI tạo sinh (genAI) có thể dân chủ
hóa toàn bộ ngành bằng cách hạ thấp rào cản lối vào
cho các công ty AI mới.
DeepSeek đã
tạo nên làn sóng trong tuần này khi
chatbot của công ty đã vượt qua lượt tải xuống ChatGPT
trên Apple và Google App Store. Tác
động của mô hình AI nguồn mở này nằm ở việc phù
hợp với hiệu suất của các mô hình hàng đầu của Hoa
Kỳ với chi phí chỉ bằng một phần nhỏ bằng cách sử
dụng tài nguyên tính toán và bộ nhớ hiệu quả hơn.
DeepSeek không chỉ là
"ChatGPT" của Trung Quốc; mà còn là một bước
tiến lớn cho AI toàn cầu bằng cách giúp việc xây dựng
mô hình rẻ hơn, nhanh hơn và dễ tiếp cận hơn, theo
Forrester Research. Mặc dù các mô hình ngôn ngữ lớn
(LLM) không phải là con đường duy nhất dẫn đến AI tiên
tiến, nhưng những đổi mới của DeepSeek nên được "tôn
vinh như một cột mốc cho sự tiến bộ của AI", công
ty nghiên cứu cho biết.
Hiệu quả của phương
pháp luận AI của DeepSeek có nghĩa là nó yêu cầu ít năng
lực tính toán hơn nhiều để chạy; điều đó có nghĩa
là nó cũng có thể ảnh hưởng đến ngành công nghiệp
chip, vốn đang tận dụng làn sóng mua phần cứng tăng tốc
GPU và AI của các công ty đang xây dựng các trung tâm dữ
liệu khổng lồ.
Ví dụ, Meta đang có kế hoạch chi 65 tỷ
đô la để xây dựng một trung tâm dữ liệu có
diện tích gần bằng Manhattan. Dự kiến sẽ đi vào
hoạt động vào cuối năm nay, trung tâm dữ liệu này sẽ
chứa 1,3 triệu GPU để cung cấp năng lượng cho công nghệ
AI được Facebook và các liên doanh khác của Meta sử dụng.
Rita Sallam, phó chủ tịch
phân tích nổi tiếng tại Gartner Research cho biết: "Chi
phí của nhà cung cấp hàng đầu hiện tại và các mô
hình định giá kết quả chuyển chi phí đổi mới và
phát triển, đào tạo và vận hành LLM cao đã khiến chỉ
những công ty lớn nhất, được tài trợ tốt nhất và
có nhiều tiền nhất mới có thể phát triển LLM".
Sallam cho biết chi phí
cao đã cản trở việc áp dụng GenAI, dẫn đến lợi
nhuận đầu tư âm cho nhiều trường hợp sử dụng của
tổ chức ở quy mô lớn. Điều đó, đến lượt
nó, đã kìm hãm sự đổi mới, ngay cả khi có trợ cấp
của nhà cung cấp. Bà cho biết cách
tiếp cận của DeepSeek cắt giảm chi phí phần cứng và
tính toán, cho phép các công ty nhỏ hơn cạnh tranh trong
quá trình phát triển LLM và thúc đẩy đổi mới GenAI
mới.
Bây giờ khi các kỹ
thuật của DeepSeek đã được biết đến, các nhà xây
dựng mô hình khác, bao gồm cả những người dẫn đầu,
sẽ nhanh chóng làm theo, giảm chi phí LLM trong ngắn hạn
đến trung hạn. Tuy nhiên, các bộ xử lý và bộ
tăng tốc mạnh mẽ vẫn sẽ thúc đẩy chi phí R&D và
tính toán cao cho các mô hình tiên tiến, sẽ được chuyển
cho những người áp dụng sớm. Sallam
lưu ý rằng việc giảm chi phí ban đầu đó sẽ thúc đẩy
việc áp dụng và đổi mới GenAI rộng rãi hơn.
Brendan Englot, giáo sư và chuyên gia AI tại
Viện Công nghệ Stevens ở
New Jersey, cho biết thực tế là các mô
hình của DeepSeek cũng là mã nguồn mở cũng sẽ giúp các
công ty khởi nghiệp AI khác dễ dàng cạnh tranh hơn với
các công ty công nghệ lớn. Englot, cũng là giám đốc
của Viện
Trí tuệ nhân tạo Stevens (SIAI), cho biết: "Công
nghệ của DeepSeek là một ví dụ tuyệt vời về cách các
công cụ mới mang tính đột phá và sáng tạo có thể
được xây dựng nhanh hơn với sự hỗ trợ của phần
mềm nguồn mở".
Sự xuất hiện của
DeepSeek đã làm giảm giá cổ phiếu của nhà cung cấp GPU
hàng đầu Nvidia, vì các nhà đầu tư nhận ra tác động
của các quy trình hiệu quả hơn đối với doanh số bán
bộ xử lý và bộ tăng tốc AI.
"DeepThink" là
một tính năng trong chatbot AI DeepSeek tận dụng mô hình R1
để cung cấp khả năng suy luận nâng cao, sử dụng các
kỹ thuật tiên tiến để chia nhỏ các truy vấn phức tạp
thành các tác vụ nhỏ hơn, dễ quản lý hơn.
Nhờ những loại tối
ưu hóa đó, DeepThink (R1) chỉ tốn khoảng 5,5 triệu đô
la để đào tạo — ít hơn hàng chục triệu đô la so với
các mô hình tương tự. Mặc dù
điều này có thể làm giảm nhu cầu ngắn hạn đối với
Nvidia, nhưng chi phí thấp hơn có thể sẽ thúc đẩy nhiều
công ty khởi nghiệp và doanh nghiệp tạo ra các mô hình
hơn, thúc đẩy nhu cầu dài hạn, Forrester Research cho biết.
Và, trong khi chi phí đào tạo các mô hình
AI vừa giảm đáng kể với DeepThink, chi phí để hỗ trợ
suy luận vẫn sẽ đòi hỏi khả năng tính toán và lưu
trữ đáng kể, Forrester cho biết. "Sự thay đổi này
cho thấy các nhà cung cấp mô hình AI cốt lõi sẽ không
đủ, mở rộng hơn nữa thị trường AI", công ty cho
biết trong một lưu ý nghiên cứu. "Đừng khóc cho
Nvidia và các công ty siêu quy mô ngay bây giờ. Ngoài ra, có
thể có cơ hội để Intel giành lại vị thế của mình".
Englot đồng ý, nói rằng
hiện tại có rất nhiều sự cạnh tranh và đầu tư để
sản xuất phần mềm và phần cứng AI hữu ích, "và
điều đó có khả năng mang lại nhiều đột phá hơn nữa
trong tương lai rất gần".
Công nghệ cơ sở
DeepSeek không phải là công nghệ tiên phong. Ngược lại,
bài báo nghiên cứu mới công bố của công ty cho thấy mô
hình Llama
của Meta và Qwen
của Alibaba đóng vai trò quan trọng
trong việc phát triển DeepSeek-R1 và DeepSeek-R1-Zero — hai
mô hình đầu tiên của công ty, Englot lưu ý.
Trên thực tế, Englot không tin rằng bước
tiến của DeepSeek gây ra nhiều mối đe dọa cho ngành công
nghiệp bán dẫn như sự sụt giảm cổ phiếu trong tuần
này cho thấy. Các công cụ GenAI vẫn sẽ dựa vào GPU và
bước đột phá của DeepSeek chỉ cho thấy một số tính
toán có thể được thực hiện hiệu quả hơn.
"Nếu có bất kỳ điều gì, thì sự
tiến bộ này là tin tốt mà tất cả các nhà phát triển
công nghệ AI đều có thể tận dụng", Englot cho biết.
"Những gì chúng ta thấy vào đầu
tuần này chỉ là một dấu hiệu cho thấy cần ít phần
cứng máy tính hơn để đào tạo và triển khai một mô
hình ngôn ngữ mạnh mẽ hơn so với chúng ta đã nghĩ ban
đầu. Điều này có thể cho phép những người đổi
mới AI tiến lên phía trước và dành nhiều sự chú ý
hơn cho các nguồn lực cần thiết cho AI đa phương thức
và các ứng dụng tiên tiến ngoài các bot trò chuyện".
Những người khác đồng ý.
Mel Morris, Giám đốc
điều hành của công ty khởi nghiệp Corpora.ai,
cho biết khả năng chi trả và mô hình
nguồn mở của DeepSeek cho phép các nhà phát triển tùy
chỉnh và đổi mới một cách rẻ và tự do. Ông
cho biết nó cũng sẽ thách thức bối cảnh cạnh tranh và
thúc đẩy các công ty lớn như OpenAI — nhà phát triển
ChatGPT — thích ứng nhanh chóng.
Morris cho biết: “Ý
tưởng về sự cạnh tranh thúc đẩy đổi mới đặc biệt
có liên quan ở đây, vì sự hiện diện của DeepSeek có
khả năng thúc đẩy những tiến bộ nhanh hơn trong công
nghệ AI, dẫn đến các giải pháp hiệu quả và dễ tiếp
cận hơn để đáp ứng nhu cầu ngày càng tăng”.
“Ngoài ra, mô hình nguồn mở trao quyền
cho các nhà phát triển tinh chỉnh và thử nghiệm hệ
thống, thúc đẩy tính linh hoạt và đổi mới cao hơn”.
Forrester cảnh báo rằng, theo chính sách
bảo mật của mình, DeepSeek nêu rõ rằng họ có thể thu
thập “văn bản hoặc đầu vào âm thanh, lời nhắc, tệp
đã tải lên, phản hồi, lịch sử trò chuyện hoặc nội
dung khác của bạn” và sử dụng cho mục đích đào tạo.
Họ cũng nêu rõ rằng họ có thể chia sẻ thông tin này
với các cơ quan thực thi pháp luật [và] các cơ quan công
quyền theo quyết định của mình.
Những cảnh báo đó có thể gây lo ngại
cho các doanh nghiệp đã vội vàng áp dụng các công cụ
genAI nhưng lại lo ngại về quyền riêng tư dữ liệu, đặc
biệt là khi liên quan đến thông tin nhạy cảm của công
ty.
Forrester cho biết: “Hãy giáo dục và
thông báo cho nhân viên của bạn về hậu quả của việc
sử dụng công nghệ này và nhập thông tin cá nhân và
công ty vào đó”. “Đồng ý với các nhà lãnh đạo sản
phẩm về việc liệu các nhà phát triển có nên thử
nghiệm tính năng này hay không và liệu sản phẩm có nên
hỗ trợ việc triển khai tính năng này mà không cần các
yêu cầu về quyền riêng tư chặt chẽ hơn hay không.”
--------------------------
Lucas
Mearian
Phóng viên cao cấp
1. Theo
dõi Lucas Mearian trên X
Phóng viên cao cấp Lucas
Mearian đưa tin về AI trong doanh nghiệp, các vấn đề về
Tương lai của công việc, CNTT chăm sóc sức khỏe và
FinTech.
Chinese start-up
DeepSeek’s cost-saving techniques for training and delivering
generative AI (genAI) models could democratize the entire industry by
lowering entry barriers for new AI companies.
DeepSeek made
waves this week as its chatbot overtook ChatGPT downloads on the
Apple and Google App Stores. The open-source AI model’s impact lies
in matching leading US models’ performance at a fraction of the
cost by using compute and memory resources more efficiently.
DeepSeek is more
than China’s “ChatGPT”; it’s a major step forward for global
AI by making model building cheaper, faster, and more accessible,
according to Forrester Research. While large
language models (LLMs) aren’t the only route to advanced AI,
DeepSeek’s innovations should be “celebrated as a milestone for
AI progress,” the research firm said.
The efficiencies
of DeepSeek’s AI methodology means it requires vastly less compute
capacity on which to run; that means it could also affect the chip
industry, which has been riding a wave of GPU and AI accelerator
hardware purchases by companies building out massive data centers.
For example,
Meta is planning to spend $65 billion to build a data center with a
footprint that’s almost
as large as Manhattan. Expected to come online at the end of this
year, the data center would house 1.3 million GPUs to power AI tech
used by Facebook and other Meta ventures.
“Current
leading vendor costs and resulting pricing models that pass on the
high cost of innovation and developing, training and running LLMs
have resulted in only the largest most well-funded companies with the
deepest pockets being able to develop LLMs, said Rita Sallam, a
distinguished vice president analys at Gartner Research.
High costs have
hindered GenAI adoption, leading to negative returns on investments
for many organization’s use cases at scale, Sallam said. That, in
turn, has stifled innovation, even with vendor subsidies. DeepSeek’s
approach cuts hardware and computational costs, allowing smaller
companies to compete in LLM development and drive new GenAI
innovation, she said.
Now that
DeepSeek’s techniques are known, other model builders, including
leaders, will quickly follow, reducing LLM costs in the short to
mid-term. However, powerful processors and accelerators will still
drive high R&D and compute costs for advanced models, which will
be passed to early adopters. Those initial cost reductions will spark
broader GenAI adoption and innovation, Sallam noted.
Brendan Englot,
a professor and AI expert at Stevens
Institute of Technology in New Jersey, said the fact that
DeepSeek’s models are also open source will also help make it
easier for other AI start-ups to compete against large tech
companies. “DeepSeek’s technology provides an excellent example
of how disruptive and innovative new tools can be built faster with
the aid of open source software,” said Englot, who is also director
of the Stevens
Institute for Artificial Intelligence (SIAI).
DeepSeek’s
arrival on the scene tanked GPU-leading provider Nvidia’s stock, as
investors realized the impact the more efficient processes would have
on AI processor and accelerator sales.
“DeepThink”
a feature within the DeepSeek AI chatbot that leverages the R1 model
to provide enhanced reasoning capabilities, uses advanced techniques
to break down complex queries into smaller, manageable tasks.
Thanks to those
kinds of optimizations, DeepThink (R1) only cost about $5.5 million
to train — tens of millions of dollars less than similar models.
While this could reduce short-term demand for Nvidia, the lower cost
will likely drive more startups and enterprises to create models,
boosting demand long-term, Forrester Research said.
And, while the
costs to train AI models have just declined significantly with
DeepThink, the cost to support inferencing will still require
significant compute and storage, Forrester said. “This shift shows
that core AI model providers won’t be enough, further opening the
AI market,” the firm said in a research note. “Don’t cry for
Nvidia and the hyperscalers just yet. Also, there might be an
opportunity for Intel to claw its way back to relevance.”
Englot agreed,
saying there is a lot of competition and investment right now to
produce useful AI software and hardware, “and that is likely to
yield many more breakthroughs in the very near future.”
DeepSeek base
technology isn’t pioneering. On the contrary, the company’s
recently published research paper shows that Meta’s
Llama and Alibaba’s
Qwen models were key to developing DeepSeek-R1 and
DeepSeek-R1-Zero — its first two models, Englot noted.
In fact, Englot
doesn’t believe DeepSeek’s advance poses as much of a threat to
the semiconductor industry as this week’s stock slide suggests.
GenAI tools will still rely on GPUs, and DeepSeek’s breakthrough
just shows some computing can be done more efficiently.
“If anything,
this advancement is good news that all developers of AI technology
can take advantage of,” Englot said. “What we saw earlier this
week was just an indication that less computing hardware is needed to
train and deploy a powerful language model than we originally
assumed. This can permit AI innovators to forge ahead and devote more
attention to the resources needed for multi-modal AI and advanced
applications beyond chat-bots.”
Others agreed.
Mel Morris, CEO
of startup Corpora.ai,
said DeepSeek’s affordability and open-source model allows
developers to customize and innovate cheaply and freely. It will also
challenge the competitive landscape and push major players like
OpenAI — the developer of ChatGPT — to adapt quickly, he said.
“The idea that
competition drives innovation is particularly relevant here, as
DeepSeek’s presence is likely to spur faster advancements in AI
technology, leading to more efficient and accessible solutions to
meet the growing demand,” Morris said. “Additionally, the
open-source model empowers developers to fine-tune and experiment
with the system, fostering greater flexibility and innovation.”
Forrester
cautioned that, according to its privacy policy, DeepSeek explicitly
says it can collect “your text or audio input, prompt, uploaded
files, feedback, chat history, or other content” and use it for
training purposes. It also states it can share this information with
law enforcement agencies [and] public authorities at its discretion.
Those caveats
could be of concern to enterprises who have rushed to embrace genAI
tools but have been concerned about data privacy, especially when it
involves sensitive corporate information.
“Educate and
inform your employees on the ramifications of using this technology
and inputting personal and company information into it,” Forrester
said. “Align with product leaders on whether developers should be
experimenting with it and whether the product should support its
implementation without stricter privacy requirements.”
--------------------------
by Lucas
Mearian
Senior Reporter
Follow
Lucas Mearian on X
Senior Reporter
Lucas Mearian covers AI in the enterprise, Future of Work issues,
healthcare IT and FinTech.
Dịch: Lê Trung Nghĩa
letrungnghia.foss@gmail.com