Thứ Tư, 12 tháng 2, 2025

DeepSeek sẽ làm đảo lộn ngành công nghiệp AI như thế nào — và mở ra cơ hội cạnh tranh

Credit: Shutterstock/Rokas Tenys

How DeepSeek will upend the AI industry — and open it to competition

News Analysis; Jan 30, 20256 mins

Theo: https://www.computerworld.com/article/3812701/how-deepseek-will-upend-the-ai-industry-and-open-it-to-competition.html

Bài được đưa lên Internet ngày: 30/01/2025

Các kỹ thuật tiết kiệm chi phí của công ty khởi nghiệp Trung Quốc DeepSeek để đào tạo và cung cấp các mô hình AI tạo sinh (genAI) có thể dân chủ hóa toàn bộ ngành bằng cách hạ thấp rào cản lối vào cho các công ty AI mới.

DeepSeek đã tạo nên làn sóng trong tuần này khi chatbot của công ty đã vượt qua lượt tải xuống ChatGPT trên Apple và Google App Store. Tác động của mô hình AI nguồn mở này nằm ở việc phù hợp với hiệu suất của các mô hình hàng đầu của Hoa Kỳ với chi phí chỉ bằng một phần nhỏ bằng cách sử dụng tài nguyên tính toán và bộ nhớ hiệu quả hơn.

DeepSeek không chỉ là "ChatGPT" của Trung Quốc; mà còn là một bước tiến lớn cho AI toàn cầu bằng cách giúp việc xây dựng mô hình rẻ hơn, nhanh hơn và dễ tiếp cận hơn, theo Forrester Research. Mặc dù các mô hình ngôn ngữ lớn (LLM) không phải là con đường duy nhất dẫn đến AI tiên tiến, nhưng những đổi mới của DeepSeek nên được "tôn vinh như một cột mốc cho sự tiến bộ của AI", công ty nghiên cứu cho biết.

Hiệu quả của phương pháp luận AI của DeepSeek có nghĩa là nó yêu cầu ít năng lực tính toán hơn nhiều để chạy; điều đó có nghĩa là nó cũng có thể ảnh hưởng đến ngành công nghiệp chip, vốn đang tận dụng làn sóng mua phần cứng tăng tốc GPU và AI của các công ty đang xây dựng các trung tâm dữ liệu khổng lồ.

Ví dụ, Meta đang có kế hoạch chi 65 tỷ đô la để xây dựng một trung tâm dữ liệu có diện tích gần bằng Manhattan. Dự kiến sẽ đi vào hoạt động vào cuối năm nay, trung tâm dữ liệu này sẽ chứa 1,3 triệu GPU để cung cấp năng lượng cho công nghệ AI được Facebook và các liên doanh khác của Meta sử dụng.

Rita Sallam, phó chủ tịch phân tích nổi tiếng tại Gartner Research cho biết: "Chi phí của nhà cung cấp hàng đầu hiện tại và các mô hình định giá kết quả chuyển chi phí đổi mới và phát triển, đào tạo và vận hành LLM cao đã khiến chỉ những công ty lớn nhất, được tài trợ tốt nhất và có nhiều tiền nhất mới có thể phát triển LLM".

Sallam cho biết chi phí cao đã cản trở việc áp dụng GenAI, dẫn đến lợi nhuận đầu tư âm cho nhiều trường hợp sử dụng của tổ chức ở quy mô lớn. Điều đó, đến lượt nó, đã kìm hãm sự đổi mới, ngay cả khi có trợ cấp của nhà cung cấp. Bà cho biết cách tiếp cận của DeepSeek cắt giảm chi phí phần cứng và tính toán, cho phép các công ty nhỏ hơn cạnh tranh trong quá trình phát triển LLM và thúc đẩy đổi mới GenAI mới.

Bây giờ khi các kỹ thuật của DeepSeek đã được biết đến, các nhà xây dựng mô hình khác, bao gồm cả những người dẫn đầu, sẽ nhanh chóng làm theo, giảm chi phí LLM trong ngắn hạn đến trung hạn. Tuy nhiên, các bộ xử lý và bộ tăng tốc mạnh mẽ vẫn sẽ thúc đẩy chi phí R&D và tính toán cao cho các mô hình tiên tiến, sẽ được chuyển cho những người áp dụng sớm. Sallam lưu ý rằng việc giảm chi phí ban đầu đó sẽ thúc đẩy việc áp dụng và đổi mới GenAI rộng rãi hơn.

Brendan Englot, giáo sư và chuyên gia AI tại Viện Công nghệ Stevens ở New Jersey, cho biết thực tế là các mô hình của DeepSeek cũng là mã nguồn mở cũng sẽ giúp các công ty khởi nghiệp AI khác dễ dàng cạnh tranh hơn với các công ty công nghệ lớn. Englot, cũng là giám đốc của Viện Trí tuệ nhân tạo Stevens (SIAI), cho biết: "Công nghệ của DeepSeek là một ví dụ tuyệt vời về cách các công cụ mới mang tính đột phá và sáng tạo có thể được xây dựng nhanh hơn với sự hỗ trợ của phần mềm nguồn mở".

Sự xuất hiện của DeepSeek đã làm giảm giá cổ phiếu của nhà cung cấp GPU hàng đầu Nvidia, vì các nhà đầu tư nhận ra tác động của các quy trình hiệu quả hơn đối với doanh số bán bộ xử lý và bộ tăng tốc AI.

"DeepThink" là một tính năng trong chatbot AI DeepSeek tận dụng mô hình R1 để cung cấp khả năng suy luận nâng cao, sử dụng các kỹ thuật tiên tiến để chia nhỏ các truy vấn phức tạp thành các tác vụ nhỏ hơn, dễ quản lý hơn.

Nhờ những loại tối ưu hóa đó, DeepThink (R1) chỉ tốn khoảng 5,5 triệu đô la để đào tạo — ít hơn hàng chục triệu đô la so với các mô hình tương tự. Mặc dù điều này có thể làm giảm nhu cầu ngắn hạn đối với Nvidia, nhưng chi phí thấp hơn có thể sẽ thúc đẩy nhiều công ty khởi nghiệp và doanh nghiệp tạo ra các mô hình hơn, thúc đẩy nhu cầu dài hạn, Forrester Research cho biết.

Và, trong khi chi phí đào tạo các mô hình AI vừa giảm đáng kể với DeepThink, chi phí để hỗ trợ suy luận vẫn sẽ đòi hỏi khả năng tính toán và lưu trữ đáng kể, Forrester cho biết. "Sự thay đổi này cho thấy các nhà cung cấp mô hình AI cốt lõi sẽ không đủ, mở rộng hơn nữa thị trường AI", công ty cho biết trong một lưu ý nghiên cứu. "Đừng khóc cho Nvidia và các công ty siêu quy mô ngay bây giờ. Ngoài ra, có thể có cơ hội để Intel giành lại vị thế của mình".

Englot đồng ý, nói rằng hiện tại có rất nhiều sự cạnh tranh và đầu tư để sản xuất phần mềm và phần cứng AI hữu ích, "và điều đó có khả năng mang lại nhiều đột phá hơn nữa trong tương lai rất gần".

Công nghệ cơ sở DeepSeek không phải là công nghệ tiên phong. Ngược lại, bài báo nghiên cứu mới công bố của công ty cho thấy mô hình Llama của MetaQwen của Alibaba đóng vai trò quan trọng trong việc phát triển DeepSeek-R1 và DeepSeek-R1-Zero — hai mô hình đầu tiên của công ty, Englot lưu ý.

Trên thực tế, Englot không tin rằng bước tiến của DeepSeek gây ra nhiều mối đe dọa cho ngành công nghiệp bán dẫn như sự sụt giảm cổ phiếu trong tuần này cho thấy. Các công cụ GenAI vẫn sẽ dựa vào GPU và bước đột phá của DeepSeek chỉ cho thấy một số tính toán có thể được thực hiện hiệu quả hơn.

"Nếu có bất kỳ điều gì, thì sự tiến bộ này là tin tốt mà tất cả các nhà phát triển công nghệ AI đều có thể tận dụng", Englot cho biết. "Những gì chúng ta thấy vào đầu tuần này chỉ là một dấu hiệu cho thấy cần ít phần cứng máy tính hơn để đào tạo và triển khai một mô hình ngôn ngữ mạnh mẽ hơn so với chúng ta đã nghĩ ban đầu. Điều này có thể cho phép những người đổi mới AI tiến lên phía trước và dành nhiều sự chú ý hơn cho các nguồn lực cần thiết cho AI đa phương thức và các ứng dụng tiên tiến ngoài các bot trò chuyện".

Những người khác đồng ý.

Mel Morris, Giám đốc điều hành của công ty khởi nghiệp Corpora.ai, cho biết khả năng chi trả và mô hình nguồn mở của DeepSeek cho phép các nhà phát triển tùy chỉnh và đổi mới một cách rẻ và tự do. Ông cho biết nó cũng sẽ thách thức bối cảnh cạnh tranh và thúc đẩy các công ty lớn như OpenAI — nhà phát triển ChatGPT — thích ứng nhanh chóng.

Morris cho biết: “Ý tưởng về sự cạnh tranh thúc đẩy đổi mới đặc biệt có liên quan ở đây, vì sự hiện diện của DeepSeek có khả năng thúc đẩy những tiến bộ nhanh hơn trong công nghệ AI, dẫn đến các giải pháp hiệu quả và dễ tiếp cận hơn để đáp ứng nhu cầu ngày càng tăng”. “Ngoài ra, mô hình nguồn mở trao quyền cho các nhà phát triển tinh chỉnh và thử nghiệm hệ thống, thúc đẩy tính linh hoạt và đổi mới cao hơn”.

Forrester cảnh báo rằng, theo chính sách bảo mật của mình, DeepSeek nêu rõ rằng họ có thể thu thập “văn bản hoặc đầu vào âm thanh, lời nhắc, tệp đã tải lên, phản hồi, lịch sử trò chuyện hoặc nội dung khác của bạn” và sử dụng cho mục đích đào tạo. Họ cũng nêu rõ rằng họ có thể chia sẻ thông tin này với các cơ quan thực thi pháp luật [và] các cơ quan công quyền theo quyết định của mình.

Những cảnh báo đó có thể gây lo ngại cho các doanh nghiệp đã vội vàng áp dụng các công cụ genAI nhưng lại lo ngại về quyền riêng tư dữ liệu, đặc biệt là khi liên quan đến thông tin nhạy cảm của công ty.

Forrester cho biết: “Hãy giáo dục và thông báo cho nhân viên của bạn về hậu quả của việc sử dụng công nghệ này và nhập thông tin cá nhân và công ty vào đó”. “Đồng ý với các nhà lãnh đạo sản phẩm về việc liệu các nhà phát triển có nên thử nghiệm tính năng này hay không và liệu sản phẩm có nên hỗ trợ việc triển khai tính năng này mà không cần các yêu cầu về quyền riêng tư chặt chẽ hơn hay không.”

--------------------------


Lucas Mearian

Phóng viên cao cấp

1. Theo dõi Lucas Mearian trên X

Phóng viên cao cấp Lucas Mearian đưa tin về AI trong doanh nghiệp, các vấn đề về Tương lai của công việc, CNTT chăm sóc sức khỏe và FinTech.

Chinese start-up DeepSeek’s cost-saving techniques for training and delivering generative AI (genAI) models could democratize the entire industry by lowering entry barriers for new AI companies.

DeepSeek made waves this week as its chatbot overtook ChatGPT downloads on the Apple and Google App Stores. The open-source AI model’s impact lies in matching leading US models’ performance at a fraction of the cost by using compute and memory resources more efficiently.

DeepSeek is more than China’s “ChatGPT”; it’s a major step forward for global AI by making model building cheaper, faster, and more accessible, according to Forrester Research. While large language models (LLMs) aren’t the only route to advanced AI, DeepSeek’s innovations should be “celebrated as a milestone for AI progress,” the research firm said.

The efficiencies of DeepSeek’s AI methodology means it requires vastly less compute capacity on which to run; that means it could also affect the chip industry, which has been riding a wave of GPU and AI accelerator hardware purchases by companies building out massive data centers.

For example, Meta is planning to spend $65 billion to build a data center with a footprint that’s almost as large as Manhattan. Expected to come online at the end of this year, the data center would house 1.3 million GPUs to power AI tech used by Facebook and other Meta ventures.

“Current leading vendor costs and resulting pricing models that pass on the high cost of innovation and developing, training and running LLMs have resulted in only the largest most well-funded companies with the deepest pockets being able to develop LLMs, said Rita Sallam, a distinguished vice president analys at Gartner Research.

High costs have hindered GenAI adoption, leading to negative returns on investments for many organization’s use cases at scale, Sallam said. That, in turn, has stifled innovation, even with vendor subsidies. DeepSeek’s approach cuts hardware and computational costs, allowing smaller companies to compete in LLM development and drive new GenAI innovation, she said.

Now that DeepSeek’s techniques are known, other model builders, including leaders, will quickly follow, reducing LLM costs in the short to mid-term. However, powerful processors and accelerators will still drive high R&D and compute costs for advanced models, which will be passed to early adopters. Those initial cost reductions will spark broader GenAI adoption and innovation, Sallam noted.

Brendan Englot, a professor and AI expert at Stevens Institute of Technology in New Jersey, said the fact that DeepSeek’s models are also open source will also help make it easier for other AI start-ups to compete against large tech companies. “DeepSeek’s technology provides an excellent example of how disruptive and innovative new tools can be built faster with the aid of open source software,” said Englot, who is also director of the Stevens Institute for Artificial Intelligence (SIAI).

DeepSeek’s arrival on the scene tanked GPU-leading provider Nvidia’s stock, as investors realized the impact the more efficient processes would have on AI processor and accelerator sales.

“DeepThink” a feature within the DeepSeek AI chatbot that leverages the R1 model to provide enhanced reasoning capabilities, uses advanced techniques to break down complex queries into smaller, manageable tasks.

Thanks to those kinds of optimizations, DeepThink (R1) only cost about $5.5 million to train — tens of millions of dollars less than similar models. While this could reduce short-term demand for Nvidia, the lower cost will likely drive more startups and enterprises to create models, boosting demand long-term, Forrester Research said.

And, while the costs to train AI models have just declined significantly with DeepThink, the cost to support inferencing will still require significant compute and storage, Forrester said. “This shift shows that core AI model providers won’t be enough, further opening the AI market,” the firm said in a research note. “Don’t cry for Nvidia and the hyperscalers just yet. Also, there might be an opportunity for Intel to claw its way back to relevance.”

Englot agreed, saying there is a lot of competition and investment right now to produce useful AI software and hardware, “and that is likely to yield many more breakthroughs in the very near future.”

DeepSeek base technology isn’t pioneering. On the contrary, the company’s recently published research paper shows that Meta’s Llama and Alibaba’s Qwen models were key to developing DeepSeek-R1 and DeepSeek-R1-Zero — its first two models, Englot noted.

In fact, Englot doesn’t believe DeepSeek’s advance poses as much of a threat to the semiconductor industry as this week’s stock slide suggests. GenAI tools will still rely on GPUs, and DeepSeek’s breakthrough just shows some computing can be done more efficiently.

“If anything, this advancement is good news that all developers of AI technology can take advantage of,” Englot said. “What we saw earlier this week was just an indication that less computing hardware is needed to train and deploy a powerful language model than we originally assumed. This can permit AI innovators to forge ahead and devote more attention to the resources needed for multi-modal AI and advanced applications beyond chat-bots.”

Others agreed.

Mel Morris, CEO of startup Corpora.ai, said DeepSeek’s affordability and open-source model allows developers to customize and innovate cheaply and freely. It will also challenge the competitive landscape and push major players like OpenAI — the developer of ChatGPT — to adapt quickly, he said.

“The idea that competition drives innovation is particularly relevant here, as DeepSeek’s presence is likely to spur faster advancements in AI technology, leading to more efficient and accessible solutions to meet the growing demand,” Morris said. “Additionally, the open-source model empowers developers to fine-tune and experiment with the system, fostering greater flexibility and innovation.”

Forrester cautioned that, according to its privacy policy, DeepSeek explicitly says it can collect “your text or audio input, prompt, uploaded files, feedback, chat history, or other content” and use it for training purposes. It also states it can share this information with law enforcement agencies [and] public authorities at its discretion.

Those caveats could be of concern to enterprises who have rushed to embrace genAI tools but have been concerned about data privacy, especially when it involves sensitive corporate information.

“Educate and inform your employees on the ramifications of using this technology and inputting personal and company information into it,” Forrester said. “Align with product leaders on whether developers should be experimenting with it and whether the product should support its implementation without stricter privacy requirements.”

--------------------------

by Lucas Mearian

Senior Reporter

  1. Follow Lucas Mearian on X

Senior Reporter Lucas Mearian covers AI in the enterprise, Future of Work issues, healthcare IT and FinTech.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Không có nhận xét nào:

Đăng nhận xét

Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.