Thứ Tư, 19 tháng 2, 2025

‘Khung năng lực AI cho giáo viên’ - bản dịch sang tiếng Việt


Là bản dịch tài liệu do UNESCO xuất bản năm 2024, giấy phép CC BY-SA 3.0 IGO.

Khung năng lực AI cho giáo viên


Khung năng lực AI cho giáo viên - AI CFT (AI Competency Framework for Teachers) có mục đích khẳng định vai trò quan trọng của giáo viên trong việc đảm bảo áp dụng AI vào giáo dục một cách có đạo đức và hiệu quả. AI CFT cũng nhằm mục đích thông báo cho các nhà hoạch định chính sách, nhà cung cấp chương trình đào tạo giáo viên, nhân viên của các cơ sở đào tạo giáo viên, các lãnh đạo nhà trường và bản thân các giáo viên về sự phát triển năng động của các năng lực mà quá trình chuyển đổi giáo dục trong kỷ nguyên AI có thể đòi hỏi. Thông qua việc ra mắt AI CFT, UNESCO kêu gọi các quốc gia thành viên đẩy nhanh quá trình phát triển các khung năng lực AI quốc gia và cung cấp các chương trình đào tạo giáo viên để hỗ trợ việc học tập chuyên môn suốt đời.

Với bản chất của AI là một công nghệ đa năng có tiềm năng chuyển đổi đáng kể các mô hình kinh doanh trên nhiều lĩnh vực kinh tế và sự tiến bộ nhanh chóng theo cấp số nhân, rất có thể sự phát triển hơn nữa của AI và tác động của nó đối với giáo dục sẽ vượt xa các lần lặp lại của AI CFT. Trong khi đó, sự quan tâm ngày càng gia tăng đối với AI và các thử nghiệm về AI trong giáo dục sẽ tạo ra vô số cách tiếp cận để sử dụng AI trong giáo dục và đặc biệt là ứng dụng AI CFT. Để ứng phó với những thách thức này, UNESCO coi AI CFT là một 'khung chính' (Master Framework), thay vì là bản thiết kế mang tính quy định về kiến thức và kỹ năng AI. Nó được thiết kế để giúp định hình các khung quốc gia, cấp tiểu bang và/hoặc cơ sở có thể phản ánh những tiến bộ công nghệ theo thời gian và nhu cầu thay đổi trong các bối cảnh địa phương đa dạng và khác nhau. Do đó, UNESCO khuyến nghị rằng AI CFT có thể được sử dụng như một công cụ định hình bao quát và lộ trình mở đối với các nhà hoạch định chính sách và nhà phát triển các chương trình đào tạo để liên tục tinh chỉnh định nghĩa về năng lực AI và truyền cảm hứng cho các phương pháp phát triển năng lực sáng tạo.

Đây là phiên bản đầu tiên của khung năng lực AI cho giáo viên. Dự kiến sẽ được cập nhật dựa trên phương pháp tiếp cận có sự tham gia. Các bên liên quan tham gia vào quá trình phát triển chuyên môn của giáo viên được khuyến khích tham gia và chia sẻ kinh nghiệm của họ với các giảng viên đồng cấp và với UNESCO, nhằm mục đích đồng sáng tạo các phiên bản tiếp theo của khung này.

Tự do tải về bản dịch sang tiếng Việt của tài liệu có 73 trang tại địa chỉ: https://zenodo.org/records/14897590

Xem thêm:

Blogger: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Thứ Ba, 18 tháng 2, 2025

Dữ liệu để phân loại AI


A data for AI taxonomy

Tue Oct 15, 2024

Theo: https://theodi.org/news-and-events/blog/a-data-for-ai-taxonomy/

Bài được đưa lên Internet ngày: 15/10/2024

Chúng tôi đã phát triển sự phân loại dữ liệu có liên quan đến việc phát triển, sử dụng và giám sát các mô hình và hệ thống AI nền tảng.

Các hệ thống trí tuệ nhân tạo (AI) hiện đại được đặc trưng bởi các mô hình phạm vi rộng và tính linh hoạt cao, có khả năng sản sinh ra các kết quả đầu ra phong phú.

Nhận biết cả tiềm năng và rủi ro của các mô hình mới đó, Viện Dữ liệu Mở - ODI (Open Data Institute) đã bắt tay vào một chương trình công việc về AI lấy dữ liệu làm trung tâm (Data-centric AI), được thiết kế để mang lại một hệ sinh thái AI dựa trên các thực hành dữ liệu có trách nhiệm.

Như một phần của công việc này, chúng tôi đã bắt đầu phát triển sự phân loại dữ liệu có liên quan đến việc phát triển, sử dụng và giám sát các mô hình và hệ thống AI nền tảng. Đây là phản hồi cho cách dữ liệu được sử dụng để đào tạo các mô hình thường được mô tả như là một khối tĩnh, đơn lẻ và để chứng minh nhiều loại dữ liệu cần thiết để xây dựng, sử dụng và giám sát các hệ thống AI một cách an toàn và hiệu quả.

Cũng như việc sử dụng nó trong công việc của riêng chúng tôi, chúng tôi hy vọng phân loại này sẽ được những người khác sử dụng - đặc biệt các nhà nghiên cứu và các nhà hoạch định chính sách. Chúng tôi nghĩ nó sẽ bổ sung thêm sắc thái trong các cuộc tranh luận về dữ liệu cho AI, bao gồm ở những nơi quyền truy cập công bằng tới dữ liệu là rất cần thiết trong tương lai, liệu các nhà phát triển có thực sự sắp "hết dữ liệu" hay không và tập dữ liệu AI nào rất quan trọng đối với hệ sinh thái AI và do đó đòi hỏi sự quản lý đặc biệt chu đáo.

Dù được thiết kế để phản ánh dữ liệu có liên quan trong các mô hình lớn, nền tảng, chúng tôi nghi ngờ rằng phần lớn phân loại này cũng có thể áp dụng cho các mô hình nhỏ hơn và hẹp hơn.

Tải về phân loại (bản dịch sang tiếng Việt)

We've developed a taxonomy of the data involved in developing, using and monitoring foundation AI models and systems.

Modern artificial intelligence (AI) systems are characterised by models of large scale and high flexibility, capable of producing rich outputs.

Recognising both the potential and the risks of these new models, the Open Data Institute has embarked on a programme of work on data-centric AI, designed to bring about an AI ecosystem grounded in responsible data practices.

As part of this work, we set out to develop a taxonomy of the data involved in developing, using and monitoring foundation AI models and systems. It is a response to the way that the data used to train models is often described as if a static, singular blob, and to demonstrate the many types of data needed to build, use and monitor AI systems safely and effectively.

As well as using it in our own work, we hope for this taxonomy to be used by others - especially researchers and policymakers. We think it will add nuance in ongoing debates in data for AI, including where equitable access to data is badly needed going forward, whether developers are really about to ‘run out of data’, and which AI datasets are critical to the AI ecosystem and therefore require particularly thoughtful stewardship.

Although designed to reflect the data involved in large, foundation models, we suspect much of the taxonomy will also apply to smaller, narrower models too.

Download the taxonomy

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Thứ Hai, 17 tháng 2, 2025

‘Phân loại dữ liệu liên quan đến việc phát triển, sử dụng và giám sát các hệ thống AI (Dữ liệu phân loại AI)’ - bản dịch sang tiếng Việt


Là bản dịch sang tiếng Việt của tài liệu do Viện Dữ liệu Mở - ODI (Open Data Institute) xuất bản năm 2024.

ODI hy vọng phân loại này sẽ được những người khác sử dụng - đặc biệt các nhà nghiên cứu và các nhà hoạch định chính sách, chứ không chỉ dành cho các nhà phát triển các mô hình AI.

Tự do tải về bản dịch sang tiếng Việt của tài liệu có 7 trang tại địa chỉ: https://www.dropbox.com/scl/fi/g9rk3sxv0sgd8rlngg306/A_taxonomy_of_the_data_involved_in_developing_using_and_monitoring_AI_systems_Vi-18012025.pdf?rlkey=81i4gw8l2vdooyzipn7kxxrli&st=bhzf5if8&dl=0

Xem thêm:

Blogger: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Chủ Nhật, 16 tháng 2, 2025

“Chúng tôi không có hào nước”: Sự đổi mới đột phá của AI nguồn mở


We Have No Moat”: Open Source AI's Breakneck Innovation


Jim Zemlin, Executive Director at Linux Foundation

Published Feb 7, 2025

Theo: https://www.linkedin.com/pulse/we-have-moat-open-source-ais-breakneck-innovation-jim-zemlin-fsrwc

Bài được đưa lên Internet ngày: 07/02/2025

Vào tháng 5 năm 2023, một bản ghi nhớ từ một kỹ sư AI giấu tên của Google đã bị rò rỉ và nhanh chóng lan truyền trên các trang tin công nghệ, thu hút hàng nghìn bình luận trên Hacker News. Bản ghi nhớ có tiêu đề "Chúng tôi không có hào nước... Và OpenAI cũng vậy". Nội dung chính của bài đăng là thế này — hãy ngừng tập trung vào việc xây dựng mô hình khổng lồ tiếp theo và bắt đầu làm việc với cộng đồng nguồn mở vì cuối cùng họ sẽ đánh bại chúng ta. "Chúng tôi đã nhìn lại OpenAI rất nhiều. Ai sẽ vượt qua cột mốc tiếp theo? Động thái tiếp theo sẽ là gì? Nhưng sự thật khó chịu là chúng tôi không ở vị thế để giành chiến thắng trong cuộc chạy đua vũ trang này và OpenAI cũng vậy. Trong khi chúng tôi đang cãi vã, một phe phái thứ ba đã âm thầm ăn bữa trưa của chúng tôi. Tất nhiên, tôi đang nói về nguồn mở. Nói một cách đơn giản, họ đang vượt qua chúng tôi. Những thứ mà chúng tôi coi là "vấn đề mở lớn" đã được giải quyết và nằm trong tay mọi người ngày nay."

Bài đăng này ban đầu là để phản hồi về việc Meta phát hành các mô hình Llama có khả năng đầu tiên, nhanh chóng tạo ra nhiều nhánh được điều chỉnh cho vô số mục đích cụ thể. Vào thời điểm đó, các mô hình nguồn mở tương đương có xu hướng tụt hậu so với các mô hình nguồn đóng trên nhiều mặt trận và cần một số tháng để đạt được sự ngang bằng. Tuy nhiên, ngay cả khi đó, chữ viết tay đã ở trên tường. Ngày nay, trong thời đại của các mô hình AI tức thời và DeepSeek, lợi thế nhỏ về thời gian đưa ra thị trường đó đã thu hẹp lại còn 24 giờ. AI nguồn mở không chỉ đang chiến thắng mà còn phát triển nhanh đến mức Sam Altman đã công khai thừa nhận rằng ông có thể cần theo đuổi một chiến lược nguồn mở chặt chẽ hơn (Tôi để lịch cho bạn, Sam!).

Khi tôi viết vào tuần trước về DeepSeek và lý do tại sao AI nguồn mở sẽ chiến thắng trong cả ngắn hạn và dài hạn, tôi đã dự đoán rằng các phương pháp mà DeepSeek nêu bật sẽ dẫn đến làn sóng đổi mới nhanh chóng trong các mô hình AI. Ngay cả khi đó, các công ty đang nghiên cứu các phiên bản đáng tin cậy hơn và khả thi về mặt thương mại hơn của mô hình nền tảng R1 của DeepSeek khiến cổ phiếu lao dốc. Sau đó, OpenAI đã phát hành dịch vụ nghiên cứu nâng cao của riêng mình, Deep Research, vài ngày sau đó. Dịch vụ này kết hợp một LLM (có thể được chọn từ danh sách LLM hiện tại do OpenAI, 4o, o1, o3, v.v. cung cấp) và một “khung tác nhân” để hướng dẫn LLM cách sử dụng các công cụ như tìm kiếm trên web hoặc cách suy nghĩ thông qua việc sắp xếp quy trình của mình thành các bước hợp lý và sử dụng các công cụ như tìm kiếm trên web và sắp xếp các hành động của mình theo từng bước. Nó được thiết kế để thực hiện lý luận nâng cao, hoạt động như một nhà phân tích nghiên cứu và cung cấp các phân tích phức tạp về các dự án bao gồm hầu hết mọi chủ đề. Các chuyên gia AI như Ethan Mollick đã ca ngợi nó và nhiều người khác trực tuyến đang ca ngợi nó là công cụ tổng hợp tốt nhất mà họ từng thấy.

Một ngày sau, HuggingFace đã phát hành phiên bản nguồn mở của Deep Research, mặc dù chưa thể so sánh được nhưng khá gần. ( HuggingFace cũng đã đạt được tiến bộ trong việc tái tạo các phần còn thiếu của R1, chẳng hạn như tập dữ liệu và mã đào tạo). Deep Research chắc chắn đã được hưởng lợi từ dữ liệu, mô hình nền tảng và đào tạo của DeepSeek và đặc biệt là mô hình R1 của nó. Đó chính xác là lý do tại sao AI nguồn mở lại nhanh nhẹn và mạnh mẽ như vậy. (Hãy xem Nathan Lambert của AI2 nói gì về điều này). Không có hào nước theo thiết kế và nó làm nổi tất cả các con thuyền theo thiết kế. Trong khi đó, trong cộng đồng, năm đối thủ cạnh tranh Deep Research nguồn mở khác đã nổi lên (dzhng, assafelovic, nickscamara, jina-aimshumecảm ơn HuggingFace đã tìm ra chúng). Vào thời điểm bạn đọc bài viết này, rất có thể nhiều nhà phát triển AI đã công bố các phiên bản mới hơn và được cải tiến hơn. Khả năng sao chép nhanh chóng các khả năng khiến nhiều người ngạc nhiên, nhưng không phải tôi. Đổi mới nguồn mở đã diễn ra nhanh hơn đáng kể so với đổi mới nguồn đóng trong nhiều thập kỷ nay. Chúng ta đã chứng kiến ​​điều này tại Linux Foundation khi phần mềm nguồn mở đã thống trị thế giới phần mềm. Nói rõ hơn, phần mềm nguồn mở không tự làm được gì cả. Nó chỉ là mã nguồn. Các nhà phát triển giỏi nhất thế giới, đóng góp và cộng tác trong một mô hình đánh giá ngang hàng khoa học, mở đã tạo ra phần mềm tốt hơn mà nhiều nhà phát triển khác đã chọn sử dụng vì phần mềm nguồn mở tốt hơn các giải pháp thay thế. Điểm mấu chốt của tất cả những điều này là gì? AI nguồn mở đang tăng tốc. Khả năng của cộng đồng trong việc nhanh chóng bắt kịp bất kỳ sự phát triển mới nào là sự xác nhận rõ ràng về tốc độ và sức mạnh của AI nguồn mở, được thúc đẩy bởi bộ não của một cộng đồng tài năng khổng lồ và đang phát triển trên toàn thế giới. Hơn nữa, việc giữ bất kỳ cải tiến AI nào bị khóa trong một cái chai sẽ là một thách thức vô cùng lớn. Những tiến bộ trong quá trình chưng cất mô hình - một quá trình mà một mô hình lớn hơn, phức tạp hơn được sử dụng để đào tạo một phiên bản nhỏ hơn, hiệu quả hơn - cho phép các nhà nghiên cứu phân tích các hệ thống AI có sẵn công khai hiệu quả hơn. Thông qua quá trình chưng cất, những hiểu biết sâu sắc về đào tạo quan trọng có thể được trích xuất, giúp khả thi để phát triển các mô hình tương đương hoặc thậm chí hiệu quả hơn. Khả năng này không chỉ đẩy nhanh quá trình nghiên cứu và phát triển mà còn mở rộng hệ sinh thái đổi mới bằng cách cho phép một cộng đồng rộng lớn hơn thử nghiệm và cải thiện các mô hình hiện có. DeepSeek đã sử dụng quá trình chưng cất để tăng cường khả năng suy luận của loạt mô hình Qwen và LLama, thực sự tăng cường hiệu suất của chúng trong các tác vụ suy luận. Gần như đúng lúc, một bài báo được công bố từ các nhà nghiên cứu Stanford trình bày một cách đơn giản để chuyển đổi LLM mở thành mô hình lý luận, chỉ sử dụng 26 phút thời gian đào tạo và tốn 30 đô la (rõ ràng, chi phí của mô hình cơ sở cao hơn nhiều). Bí quyết bí mật là gì? Cung cấp cho nó 1.000 ví dụ lý luận có cấu trúc tốt và mở rộng quy trình suy nghĩ của nó. Sử dụng phương pháp đơn giản này (và hiện đã được công khai), họ đã có thể gần như đạt được hiệu suất của GPT o1 trong các bài toán khớp nối.

Vì các khả năng AI cơ bản đang tăng tốc rất nhanh trong mã nguồn mở, nên giá trị sẽ tăng lên và chảy đến các nhà cung cấp có thể cung cấp bảo mật, tính dễ sử dụng và trải nghiệm tốt nhất cho nhà phát triển và người tiêu dùng. Đây nên được coi là một chiến thắng tuyệt vời. Chỉ một năm trước, nhiều người trong lĩnh vực công nghệ lo sợ rằng thế giới đang phân chia thành những người giàu GPU và những người nghèo GPU — những người có quyền truy cập vào AI mạnh mẽ và những người không có. Chúng ta có thể thấy rằng đó là một điểm gây tranh cãi và điều đó rất quan trọng. Quyền truy cập dân chủ vào các khả năng AI trên khắp các quốc gia, các công ty ở mọi quy mô và các tổ chức phi chính phủ sẽ là nền tảng cơ bản cho sự đổi mới trong nhiều năm tới, trên nhiều lĩnh vực. Mở ra những chiến thắng trong các công nghệ thúc đẩy lợi ích chung. Luôn luôn. Hãy kéo cầu xuống vì thủy triều đang dâng.

In May 2023, a memo from an unnamed Google AI engineer leaked and quickly made the rounds of the tech newsophere, racking up thousands of comments on Hacker News. The memo was titled “ We Have No Moat…And Neither Does OpenAI”. The gist of the post was this — stop focusing on building the next giant model and start working with the open source community because they will beat us in the end.

“We’ve done a lot of looking over our shoulders at OpenAI. Who will cross the next milestone? What will the next move be? But the uncomfortable truth is we aren’t positioned to win this arms race and neither is OpenAI. While we’ve been squabbling, a third faction has been quietly eating our lunch. I’m talking, of course, about open source. Plainly put, they are lapping us. Things we consider “major open problems” are solved and in people’s hands today.“

This post was initially in response to the release of the first capable Llama models by Meta, which quickly yielded numerous offshoots tuned for myriad specific purposes. Back then, comparable open source models tended to lag closed source models on a variety of fronts, and required a number of months to reach parity. However, the handwriting was on the wall even then. Today, in the age of Instant AI models and DeepSeek, that slight time-to-market advantage has shrunk to 24 hours. Open source AI is not only winning but it’s moving so fast that Sam Altman has publicly admitted he may need to pursue a more rigorous open source strategy (My calendar is open for you, Sam!). 

When I wrote last week about DeepSeek and why open source AI will win both in the short and long run, I predicted that the methods DeepSeek highlighted would lead to a wave of rapid innovation in AI models. Even then, companies were working on more reliable and commercially viable versions of DeepSeek’s R1 foundational model which sent stocks into a nosedive. Then, OpenAI released its own advanced research offering, Deep Research, a few days later. This combined an LLM (which can be selected from the current list of LLMs provided by OpenAI, 4o, o1, o3, etc.) and an “agentic framework” to instruct the LLM how to use tools like web searches or how to think through organizing its process into logical steps and to use tools like web search and organize its actions in steps.

It was designed to perform advanced reasoning, function like a research analyst, and deliver complex analyses on projects covering almost any topic. AI experts like Ethan Mollick raved about it, and many others online are singing its praises as the best general agentic tool they have seen. 

A day later, HuggingFace released an open source version of Deep Research that, while not yet comparable, was pretty close. (HuggingFace has also made progress towards recreating R1’s missing pieces, such as dataset, and training code). Deep Research undoubtedly benefitted from the data, foundational model and training of DeepSeek and its R1 model in particular. Which is exactly why open source AI is so nimble and powerful. (Check out what Nathan Lambert of AI2 has to say about this).  There are no moats by design, and it floats all boats by design.

Meanwhile, in the community, five other open source Deep Research competitors emerged (dzhng, assafelovic, nickscamara, jina-ai and mshumer — h/t to HuggingFace for finding them). By the time you read this, it’s entirely likely more AI developers have published newer and improved versions.  The fast replication of capabilities surprised many, but not me. Open source innovation has moved significantly faster than closed source innovation for decades now. We’ve witnessed this at the Linux Foundation as open source software has eaten the software world. To be clear, the open source software didn’t do anything itself. It’s just source code. The world’s best developers, contributing and collaborating in an open, scientific peer review-esque model produced better software that many other developers chose to use because the open source software was just better than alternatives.  

The bottom line of all this? Open source AI is accelerating. The ability of the community to quickly match any new development is clear validation of the velocity and power of open source AI, driven by the brains of a massive and growing community of talent all over the world. What’s more, keeping any AI innovation locked in a bottle is going to be incredibly challenging. Advances in model distillation—a process by which a larger, complex model is used to train a smaller, more efficient version—enable researchers to dissect publicly available AI systems more effectively. Through distillation, key training insights can be extracted, making it feasible to develop comparable or even more efficient models. This capability not only accelerates research and development but also broadens the ecosystem of innovation by allowing a wider community to experiment with and improve upon existing models. DeepSeek used distillation to enhance the reasoning capabilities of the Qwen and LLama series of models, effectively supercharging their performance on reasoning tasks. 

Almost on cue, a paper dropped from Stanford researchers demonstrating a simple way to transform an open LLM into a reasoning model, using only 26 minutes of training time and costing $30 (obviously, the cost of the base model was a lot more). The secret trick? Feeding it 1,000 well-structured reasoning examples and extending its thinking process. Using this simple  (and now publicly known) method, they were able to nearly match the performance of GPT o1 on match problems. 

Because foundational AI capabilities are accelerating so quickly in open source, the value will move up the stack and flow to providers who can deliver the best security, ease of use, and developer and consumer experiences. This should be viewed as an amazing victory. Only a year ago, many in the technology realm were fearful that the world was bifurcating into GPU richies and GPU poors — those who had access to powerful AI and those who didn’t. We can already see that’s a moot point and that’s important. Democratic access to AI capabilities across countries, companies of all sizes and NGOs will be a fundamental building block of innovation for many years to come, across many fields. Open wins in technologies that drive a shared benefit. Always. Pull down that drawbridge because the tide is rising.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Thứ Năm, 13 tháng 2, 2025

Alibaba phát hành mô hình AI mà họ cho là vượt trội hơn DeepSeek


Alibaba releases AI model it says surpasses DeepSeek

By Eduardo Baptista

January 29, 202511:21 PM GMT+7

Theo: https://www.reuters.com/technology/artificial-intelligence/alibaba-releases-ai-model-it-claims-surpasses-deepseek-v3-2025-01-29/

Bài được đưa lên Internet ngày: 29/01/2025

BẮC KINH, 29/01 (Theo Reuters) - Hôm thứ Tư, công ty công nghệ Trung Quốc Alibaba (9988.HK) đã phát hành phiên bản mới của mô hình trí tuệ nhân tạo Qwen 2.5 mà họ tuyên bố là vượt trội hơn so với DeepSeek-V3 vốn được đánh giá cao.

Thời điểm phát hành Qwen 2.5-Max bất thường, vào ngày đầu tiên của Tết Nguyên đán khi hầu hết người dân Trung Quốc nghỉ làm và ở bên gia đình, cho thấy áp lực mà công ty khởi nghiệp AI Trung Quốc DeepSeek phải chịu trong ba tuần qua không chỉ đối với các đối thủ nước ngoài mà còn đối với cả đối thủ trong nước.

"Qwen 2.5-Max vượt trội hơn ... hầu như trên mọi phương diện so với GPT-4o, DeepSeek-V3 và Llama-3.1-405B", đơn vị đám mây của Alibaba cho biết trong một thông báo được đăng trên tài khoản WeChat chính thức của mình, đề cập đến các mô hình AI nguồn mở tiên tiến nhất của OpenAI và Meta.

Việc phát hành trợ lý AI của DeepSeek vào ngày 10 tháng 1, được hỗ trợ bởi mô hình DeepSeek-V3, cũng như việc phát hành mô hình R1 vào ngày 20 tháng 1, đã gây sốc cho Thung lũng Silicon và khiến cổ phiếu công nghệ lao dốc, với chi phí phát triển và sử dụng được cho là thấp của công ty khởi nghiệp Trung Quốc này khiến các nhà đầu tư đặt câu hỏi về kế hoạch chi tiêu khổng lồ của các công ty AI hàng đầu tại Hoa Kỳ.

Nhưng thành công của DeepSeek cũng dẫn đến một cuộc chạy đua giữa các đối thủ cạnh tranh trong nước để nâng cấp các mô hình AI của riêng họ.

Hai ngày sau khi phát hành DeepSeek-R1, chủ sở hữu TikTok là ByteDance đã phát hành bản cập nhật cho mô hình AI hàng đầu của mình, được cho là vượt trội hơn o1 của OpenAI do Microsoft hậu thuẫn trong AIME, một bài kiểm tra chuẩn mực đo lường mức độ hiểu và phản hồi của các mô hình AI đối với các hướng dẫn phức tạp.

Điều này lặp lại tuyên bố của DeepSeek rằng mô hình R1 của họ đã cạnh tranh với o1 của OpenAI trên một số chuẩn mực hiệu suất.

Tiền thân của mô hình V3 của DeepSeek, DeepSeek-V2, đã gây ra một cuộc chiến giá thành mô hình AI ở Trung Quốc sau khi được phát hành vào tháng 5 năm ngoái.

Thực tế là DeepSeek-V2 là mã nguồn mở và rẻ chưa từng có, chỉ 1 nhân dân tệ (0,14 đô la) cho 1 triệu mã thông báo - hoặc các đơn vị dữ liệu được mô hình AI xử lý - đã khiến đơn vị đám mây của Alibaba tuyên bố giảm giá tới 97% cho một loạt các mô hình.

Các công ty công nghệ Trung Quốc khác cũng làm theo, bao gồm Baidu (9888.HK), công ty đã phát hành phiên bản tương đương đầu tiên của Trung Quốc với ChatGPT vào tháng 3 năm 2023 và công ty internet có giá trị nhất của đất nước này là Tencent (0700.HK).

Liang Wenfeng, người sáng lập bí ẩn của DeepSeek, cho biết trong một cuộc phỏng vấn hiếm hoi với hãng truyền thông Trung Quốc Waves vào tháng 7 rằng công ty khởi nghiệp này "không quan tâm" đến cuộc chiến giá cả và mục tiêu chính của họ là đạt được trí tuệ nhân tạo tổng quát - AGI (Artificial General Intelligence).

OpenAI định nghĩa AGI là các hệ thống tự động vượt qua con người trong hầu hết các nhiệm vụ có giá trị kinh tế.

Trong khi các công ty công nghệ lớn của Trung Quốc như Alibaba có hàng trăm nghìn nhân viên, DeepSeek hoạt động như một phòng thí nghiệm nghiên cứu, chủ yếu có nhân viên là những sinh viên mới tốt nghiệp và nghiên cứu sinh tiến sĩ từ các trường đại học hàng đầu Trung Quốc.

Liang cho biết trong cuộc phỏng vấn vào tháng 7 rằng ông tin rằng các công ty công nghệ lớn nhất Trung Quốc có thể không phù hợp với tương lai của ngành công nghiệp AI, đối lập với chi phí cao và cấu trúc theo chiều từ trên xuống (top-down) của họ so với hoạt động tinh gọn và phong cách quản lý lỏng lẻo của DeepSeek.

"Các mô hình nền tảng lớn đòi hỏi sự đổi mới liên tục, khả năng của các công ty công nghệ khổng lồ có giới hạn của chúng", ông nói.

Bản tin tóm tắt hàng ngày của Reuters cung cấp mọi tin tức bạn cần để bắt đầu ngày mới. Đăng ký tại đây.

Báo cáo của Eduardo Baptista; Biên tập bởi Christian Schmollinger

Tiêu chuẩn của chúng tôi: Nguyên tắc tin cậy của Thomson Reuters.

BEIJING, Jan 29 (Reuters) - Chinese tech company Alibaba (9988.HK) on Wednesday released a new version of its Qwen 2.5 artificial intelligence model that it claimed surpassed the highly-acclaimed DeepSeek-V3.

The unusual timing of the Qwen 2.5-Max's release, on the first day of the Lunar New Year when most Chinese people are off work and with their families, points to the pressure Chinese AI startup DeepSeek's meteoric rise in the past three weeks has placed on not just overseas rivals, but also its domestic competition.

"Qwen 2.5-Max outperforms ... almost across the board GPT-4o, DeepSeek-V3 and Llama-3.1-405B," Alibaba's cloud unit said in an announcement posted on its official WeChat account, referring to OpenAI and Meta's most advanced open-source AI models.

The Jan. 10 release of DeepSeek's AI assistant, powered by the DeepSeek-V3 model, as well as the Jan. 20 release of its R1 model, has shocked Silicon Valley and caused tech shares to plunge, with the Chinese startup's purportedly low development and usage costs prompting investors to question huge spending plans by leading AI firms in the United States.

But DeepSeek's success has also led to a scramble among its domestic competitors to upgrade their own AI models.

Two days after the release of DeepSeek-R1, TikTok owner ByteDance released an update to its flagship AI model, which it claimed outperformed Microsoft-backed OpenAI's o1 in AIME, a benchmark test that measures how well AI models understand and respond to complex instructions.

This echoed DeepSeek's claim that its R1 model rivalled OpenAI's o1 on several performance benchmarks.

The predecessor of DeepSeek's V3 model, DeepSeek-V2, triggered an AI model price war in China after it was released last May.

The fact that DeepSeek-V2 was open-source and unprecedentedly cheap, only 1 yuan ($0.14) per 1 million tokens - or units of data processed by the AI model - led to Alibaba's cloud unit announcing price cuts of up to 97% on a range of models.

Other Chinese tech companies followed suit, including Baidu (9888.HK) , which released China's first equivalent to ChatGPT in March 2023, and the country's most valuable internet company Tencent (0700.HK).

Liang Wenfeng, DeepSeek's enigmatic founder, said in a rare interview with Chinese media outlet Waves in July that the startup "did not care" about price wars and that achieving AGI (artificial general intelligence) was its main goal.

OpenAI defines AGI as autonomous systems that surpass humans in most economically valuable tasks.

While large Chinese tech companies like Alibaba have hundreds of thousands of employees, DeepSeek operates like a research lab, staffed mainly by young graduates and doctorate students from top Chinese universities.

Liang said in his July interview that he believed China's largest tech companies might not be well suited to the future of the AI industry, contrasting their high costs and top-down structures with DeepSeek's lean operation and loose management style.

"Large foundational models require continued innovation, tech giants' capabilities have their limits," he said.

The Reuters Daily Briefing newsletter provides all the news you need to start your day. Sign up here.

Reporting by Eduardo Baptista; Editing by Christian Schmollinger

Our Standards: The Thomson Reuters Trust Principles.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Thứ Tư, 12 tháng 2, 2025

DeepSeek sẽ làm đảo lộn ngành công nghiệp AI như thế nào — và mở ra cơ hội cạnh tranh

Credit: Shutterstock/Rokas Tenys

How DeepSeek will upend the AI industry — and open it to competition

News Analysis; Jan 30, 20256 mins

Theo: https://www.computerworld.com/article/3812701/how-deepseek-will-upend-the-ai-industry-and-open-it-to-competition.html

Bài được đưa lên Internet ngày: 30/01/2025

Các kỹ thuật tiết kiệm chi phí của công ty khởi nghiệp Trung Quốc DeepSeek để đào tạo và cung cấp các mô hình AI tạo sinh (genAI) có thể dân chủ hóa toàn bộ ngành bằng cách hạ thấp rào cản lối vào cho các công ty AI mới.

DeepSeek đã tạo nên làn sóng trong tuần này khi chatbot của công ty đã vượt qua lượt tải xuống ChatGPT trên Apple và Google App Store. Tác động của mô hình AI nguồn mở này nằm ở việc phù hợp với hiệu suất của các mô hình hàng đầu của Hoa Kỳ với chi phí chỉ bằng một phần nhỏ bằng cách sử dụng tài nguyên tính toán và bộ nhớ hiệu quả hơn.

DeepSeek không chỉ là "ChatGPT" của Trung Quốc; mà còn là một bước tiến lớn cho AI toàn cầu bằng cách giúp việc xây dựng mô hình rẻ hơn, nhanh hơn và dễ tiếp cận hơn, theo Forrester Research. Mặc dù các mô hình ngôn ngữ lớn (LLM) không phải là con đường duy nhất dẫn đến AI tiên tiến, nhưng những đổi mới của DeepSeek nên được "tôn vinh như một cột mốc cho sự tiến bộ của AI", công ty nghiên cứu cho biết.

Hiệu quả của phương pháp luận AI của DeepSeek có nghĩa là nó yêu cầu ít năng lực tính toán hơn nhiều để chạy; điều đó có nghĩa là nó cũng có thể ảnh hưởng đến ngành công nghiệp chip, vốn đang tận dụng làn sóng mua phần cứng tăng tốc GPU và AI của các công ty đang xây dựng các trung tâm dữ liệu khổng lồ.

Ví dụ, Meta đang có kế hoạch chi 65 tỷ đô la để xây dựng một trung tâm dữ liệu có diện tích gần bằng Manhattan. Dự kiến sẽ đi vào hoạt động vào cuối năm nay, trung tâm dữ liệu này sẽ chứa 1,3 triệu GPU để cung cấp năng lượng cho công nghệ AI được Facebook và các liên doanh khác của Meta sử dụng.

Rita Sallam, phó chủ tịch phân tích nổi tiếng tại Gartner Research cho biết: "Chi phí của nhà cung cấp hàng đầu hiện tại và các mô hình định giá kết quả chuyển chi phí đổi mới và phát triển, đào tạo và vận hành LLM cao đã khiến chỉ những công ty lớn nhất, được tài trợ tốt nhất và có nhiều tiền nhất mới có thể phát triển LLM".

Sallam cho biết chi phí cao đã cản trở việc áp dụng GenAI, dẫn đến lợi nhuận đầu tư âm cho nhiều trường hợp sử dụng của tổ chức ở quy mô lớn. Điều đó, đến lượt nó, đã kìm hãm sự đổi mới, ngay cả khi có trợ cấp của nhà cung cấp. Bà cho biết cách tiếp cận của DeepSeek cắt giảm chi phí phần cứng và tính toán, cho phép các công ty nhỏ hơn cạnh tranh trong quá trình phát triển LLM và thúc đẩy đổi mới GenAI mới.

Bây giờ khi các kỹ thuật của DeepSeek đã được biết đến, các nhà xây dựng mô hình khác, bao gồm cả những người dẫn đầu, sẽ nhanh chóng làm theo, giảm chi phí LLM trong ngắn hạn đến trung hạn. Tuy nhiên, các bộ xử lý và bộ tăng tốc mạnh mẽ vẫn sẽ thúc đẩy chi phí R&D và tính toán cao cho các mô hình tiên tiến, sẽ được chuyển cho những người áp dụng sớm. Sallam lưu ý rằng việc giảm chi phí ban đầu đó sẽ thúc đẩy việc áp dụng và đổi mới GenAI rộng rãi hơn.

Brendan Englot, giáo sư và chuyên gia AI tại Viện Công nghệ Stevens ở New Jersey, cho biết thực tế là các mô hình của DeepSeek cũng là mã nguồn mở cũng sẽ giúp các công ty khởi nghiệp AI khác dễ dàng cạnh tranh hơn với các công ty công nghệ lớn. Englot, cũng là giám đốc của Viện Trí tuệ nhân tạo Stevens (SIAI), cho biết: "Công nghệ của DeepSeek là một ví dụ tuyệt vời về cách các công cụ mới mang tính đột phá và sáng tạo có thể được xây dựng nhanh hơn với sự hỗ trợ của phần mềm nguồn mở".

Sự xuất hiện của DeepSeek đã làm giảm giá cổ phiếu của nhà cung cấp GPU hàng đầu Nvidia, vì các nhà đầu tư nhận ra tác động của các quy trình hiệu quả hơn đối với doanh số bán bộ xử lý và bộ tăng tốc AI.

"DeepThink" là một tính năng trong chatbot AI DeepSeek tận dụng mô hình R1 để cung cấp khả năng suy luận nâng cao, sử dụng các kỹ thuật tiên tiến để chia nhỏ các truy vấn phức tạp thành các tác vụ nhỏ hơn, dễ quản lý hơn.

Nhờ những loại tối ưu hóa đó, DeepThink (R1) chỉ tốn khoảng 5,5 triệu đô la để đào tạo — ít hơn hàng chục triệu đô la so với các mô hình tương tự. Mặc dù điều này có thể làm giảm nhu cầu ngắn hạn đối với Nvidia, nhưng chi phí thấp hơn có thể sẽ thúc đẩy nhiều công ty khởi nghiệp và doanh nghiệp tạo ra các mô hình hơn, thúc đẩy nhu cầu dài hạn, Forrester Research cho biết.

Và, trong khi chi phí đào tạo các mô hình AI vừa giảm đáng kể với DeepThink, chi phí để hỗ trợ suy luận vẫn sẽ đòi hỏi khả năng tính toán và lưu trữ đáng kể, Forrester cho biết. "Sự thay đổi này cho thấy các nhà cung cấp mô hình AI cốt lõi sẽ không đủ, mở rộng hơn nữa thị trường AI", công ty cho biết trong một lưu ý nghiên cứu. "Đừng khóc cho Nvidia và các công ty siêu quy mô ngay bây giờ. Ngoài ra, có thể có cơ hội để Intel giành lại vị thế của mình".

Englot đồng ý, nói rằng hiện tại có rất nhiều sự cạnh tranh và đầu tư để sản xuất phần mềm và phần cứng AI hữu ích, "và điều đó có khả năng mang lại nhiều đột phá hơn nữa trong tương lai rất gần".

Công nghệ cơ sở DeepSeek không phải là công nghệ tiên phong. Ngược lại, bài báo nghiên cứu mới công bố của công ty cho thấy mô hình Llama của MetaQwen của Alibaba đóng vai trò quan trọng trong việc phát triển DeepSeek-R1 và DeepSeek-R1-Zero — hai mô hình đầu tiên của công ty, Englot lưu ý.

Trên thực tế, Englot không tin rằng bước tiến của DeepSeek gây ra nhiều mối đe dọa cho ngành công nghiệp bán dẫn như sự sụt giảm cổ phiếu trong tuần này cho thấy. Các công cụ GenAI vẫn sẽ dựa vào GPU và bước đột phá của DeepSeek chỉ cho thấy một số tính toán có thể được thực hiện hiệu quả hơn.

"Nếu có bất kỳ điều gì, thì sự tiến bộ này là tin tốt mà tất cả các nhà phát triển công nghệ AI đều có thể tận dụng", Englot cho biết. "Những gì chúng ta thấy vào đầu tuần này chỉ là một dấu hiệu cho thấy cần ít phần cứng máy tính hơn để đào tạo và triển khai một mô hình ngôn ngữ mạnh mẽ hơn so với chúng ta đã nghĩ ban đầu. Điều này có thể cho phép những người đổi mới AI tiến lên phía trước và dành nhiều sự chú ý hơn cho các nguồn lực cần thiết cho AI đa phương thức và các ứng dụng tiên tiến ngoài các bot trò chuyện".

Những người khác đồng ý.

Mel Morris, Giám đốc điều hành của công ty khởi nghiệp Corpora.ai, cho biết khả năng chi trả và mô hình nguồn mở của DeepSeek cho phép các nhà phát triển tùy chỉnh và đổi mới một cách rẻ và tự do. Ông cho biết nó cũng sẽ thách thức bối cảnh cạnh tranh và thúc đẩy các công ty lớn như OpenAI — nhà phát triển ChatGPT — thích ứng nhanh chóng.

Morris cho biết: “Ý tưởng về sự cạnh tranh thúc đẩy đổi mới đặc biệt có liên quan ở đây, vì sự hiện diện của DeepSeek có khả năng thúc đẩy những tiến bộ nhanh hơn trong công nghệ AI, dẫn đến các giải pháp hiệu quả và dễ tiếp cận hơn để đáp ứng nhu cầu ngày càng tăng”. “Ngoài ra, mô hình nguồn mở trao quyền cho các nhà phát triển tinh chỉnh và thử nghiệm hệ thống, thúc đẩy tính linh hoạt và đổi mới cao hơn”.

Forrester cảnh báo rằng, theo chính sách bảo mật của mình, DeepSeek nêu rõ rằng họ có thể thu thập “văn bản hoặc đầu vào âm thanh, lời nhắc, tệp đã tải lên, phản hồi, lịch sử trò chuyện hoặc nội dung khác của bạn” và sử dụng cho mục đích đào tạo. Họ cũng nêu rõ rằng họ có thể chia sẻ thông tin này với các cơ quan thực thi pháp luật [và] các cơ quan công quyền theo quyết định của mình.

Những cảnh báo đó có thể gây lo ngại cho các doanh nghiệp đã vội vàng áp dụng các công cụ genAI nhưng lại lo ngại về quyền riêng tư dữ liệu, đặc biệt là khi liên quan đến thông tin nhạy cảm của công ty.

Forrester cho biết: “Hãy giáo dục và thông báo cho nhân viên của bạn về hậu quả của việc sử dụng công nghệ này và nhập thông tin cá nhân và công ty vào đó”. “Đồng ý với các nhà lãnh đạo sản phẩm về việc liệu các nhà phát triển có nên thử nghiệm tính năng này hay không và liệu sản phẩm có nên hỗ trợ việc triển khai tính năng này mà không cần các yêu cầu về quyền riêng tư chặt chẽ hơn hay không.”

--------------------------


Lucas Mearian

Phóng viên cao cấp

1. Theo dõi Lucas Mearian trên X

Phóng viên cao cấp Lucas Mearian đưa tin về AI trong doanh nghiệp, các vấn đề về Tương lai của công việc, CNTT chăm sóc sức khỏe và FinTech.

Chinese start-up DeepSeek’s cost-saving techniques for training and delivering generative AI (genAI) models could democratize the entire industry by lowering entry barriers for new AI companies.

DeepSeek made waves this week as its chatbot overtook ChatGPT downloads on the Apple and Google App Stores. The open-source AI model’s impact lies in matching leading US models’ performance at a fraction of the cost by using compute and memory resources more efficiently.

DeepSeek is more than China’s “ChatGPT”; it’s a major step forward for global AI by making model building cheaper, faster, and more accessible, according to Forrester Research. While large language models (LLMs) aren’t the only route to advanced AI, DeepSeek’s innovations should be “celebrated as a milestone for AI progress,” the research firm said.

The efficiencies of DeepSeek’s AI methodology means it requires vastly less compute capacity on which to run; that means it could also affect the chip industry, which has been riding a wave of GPU and AI accelerator hardware purchases by companies building out massive data centers.

For example, Meta is planning to spend $65 billion to build a data center with a footprint that’s almost as large as Manhattan. Expected to come online at the end of this year, the data center would house 1.3 million GPUs to power AI tech used by Facebook and other Meta ventures.

“Current leading vendor costs and resulting pricing models that pass on the high cost of innovation and developing, training and running LLMs have resulted in only the largest most well-funded companies with the deepest pockets being able to develop LLMs, said Rita Sallam, a distinguished vice president analys at Gartner Research.

High costs have hindered GenAI adoption, leading to negative returns on investments for many organization’s use cases at scale, Sallam said. That, in turn, has stifled innovation, even with vendor subsidies. DeepSeek’s approach cuts hardware and computational costs, allowing smaller companies to compete in LLM development and drive new GenAI innovation, she said.

Now that DeepSeek’s techniques are known, other model builders, including leaders, will quickly follow, reducing LLM costs in the short to mid-term. However, powerful processors and accelerators will still drive high R&D and compute costs for advanced models, which will be passed to early adopters. Those initial cost reductions will spark broader GenAI adoption and innovation, Sallam noted.

Brendan Englot, a professor and AI expert at Stevens Institute of Technology in New Jersey, said the fact that DeepSeek’s models are also open source will also help make it easier for other AI start-ups to compete against large tech companies. “DeepSeek’s technology provides an excellent example of how disruptive and innovative new tools can be built faster with the aid of open source software,” said Englot, who is also director of the Stevens Institute for Artificial Intelligence (SIAI).

DeepSeek’s arrival on the scene tanked GPU-leading provider Nvidia’s stock, as investors realized the impact the more efficient processes would have on AI processor and accelerator sales.

“DeepThink” a feature within the DeepSeek AI chatbot that leverages the R1 model to provide enhanced reasoning capabilities, uses advanced techniques to break down complex queries into smaller, manageable tasks.

Thanks to those kinds of optimizations, DeepThink (R1) only cost about $5.5 million to train — tens of millions of dollars less than similar models. While this could reduce short-term demand for Nvidia, the lower cost will likely drive more startups and enterprises to create models, boosting demand long-term, Forrester Research said.

And, while the costs to train AI models have just declined significantly with DeepThink, the cost to support inferencing will still require significant compute and storage, Forrester said. “This shift shows that core AI model providers won’t be enough, further opening the AI market,” the firm said in a research note. “Don’t cry for Nvidia and the hyperscalers just yet. Also, there might be an opportunity for Intel to claw its way back to relevance.”

Englot agreed, saying there is a lot of competition and investment right now to produce useful AI software and hardware, “and that is likely to yield many more breakthroughs in the very near future.”

DeepSeek base technology isn’t pioneering. On the contrary, the company’s recently published research paper shows that Meta’s Llama and Alibaba’s Qwen models were key to developing DeepSeek-R1 and DeepSeek-R1-Zero — its first two models, Englot noted.

In fact, Englot doesn’t believe DeepSeek’s advance poses as much of a threat to the semiconductor industry as this week’s stock slide suggests. GenAI tools will still rely on GPUs, and DeepSeek’s breakthrough just shows some computing can be done more efficiently.

“If anything, this advancement is good news that all developers of AI technology can take advantage of,” Englot said. “What we saw earlier this week was just an indication that less computing hardware is needed to train and deploy a powerful language model than we originally assumed. This can permit AI innovators to forge ahead and devote more attention to the resources needed for multi-modal AI and advanced applications beyond chat-bots.”

Others agreed.

Mel Morris, CEO of startup Corpora.ai, said DeepSeek’s affordability and open-source model allows developers to customize and innovate cheaply and freely. It will also challenge the competitive landscape and push major players like OpenAI — the developer of ChatGPT — to adapt quickly, he said.

“The idea that competition drives innovation is particularly relevant here, as DeepSeek’s presence is likely to spur faster advancements in AI technology, leading to more efficient and accessible solutions to meet the growing demand,” Morris said. “Additionally, the open-source model empowers developers to fine-tune and experiment with the system, fostering greater flexibility and innovation.”

Forrester cautioned that, according to its privacy policy, DeepSeek explicitly says it can collect “your text or audio input, prompt, uploaded files, feedback, chat history, or other content” and use it for training purposes. It also states it can share this information with law enforcement agencies [and] public authorities at its discretion.

Those caveats could be of concern to enterprises who have rushed to embrace genAI tools but have been concerned about data privacy, especially when it involves sensitive corporate information.

“Educate and inform your employees on the ramifications of using this technology and inputting personal and company information into it,” Forrester said. “Align with product leaders on whether developers should be experimenting with it and whether the product should support its implementation without stricter privacy requirements.”

--------------------------

by Lucas Mearian

Senior Reporter

  1. Follow Lucas Mearian on X

Senior Reporter Lucas Mearian covers AI in the enterprise, Future of Work issues, healthcare IT and FinTech.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Thứ Ba, 11 tháng 2, 2025

DeepSeek chứng minh: Nguồn mở là bí quyết thống trị thị trường công nghệ (và Phố Wall đã sai)


DeepSeek Proves It: Open Source is the Secret to Dominating Tech Markets (and Wall Street has it wrong)


Jim Zemlin
, Giám đốc Điều hành tại Quỹ Linux Foundation

Theo: https://www.linkedin.com/pulse/deepseek-proves-open-source-secret-dominating-tech-markets-jim-zemlin-f1lic/

Bài được đưa lên Internet ngày: 28/01/2025

Tôi hiếm khi viết blog hoặc đăng bài trên mạng xã hội nhưng tôi viết bản tin riêng hàng tuần cho nhân viên và ban quản trị của chúng tôi và trong vài tuần liên tiếp đã viết về DeepSeek. Điều tôi không cân nhắc là phản ứng của báo chí và thị trường trong tuần này. Những người tốt như Ben Thompson, Pat Gellisnger, Tomasz Tunguz đều đã bình luận. Với việc cổ phiếu AI bị đánh tơi tả và những lo ngại nghiêm trọng nổi lên về tác động của mô hình R1 của DeepSeek đối với tương lai của AI, rõ ràng là nỗi sợ hãi về DeepSeek đã chạm sâu đến dây thần kinh. Phản ứng lớn đó xứng đáng được xem xét và giải thích.

Ngắn gọn, những gì thị trường phản ứng là khả năng của DeepSeek trong việc xây dựng một mô hình có thể sánh ngang với mô hình lý luận o1 tinh vi của OpenAI và mô hình Sonnet của Anthropic với chi phí chỉ bằng một phần nhỏ của việc tính toán. Có vẻ như DeepSeek đã thực hiện điều này bằng các kỹ thuật nổi tiếng. Không có đột phá thuật toán lớn nào, chỉ là kỹ thuật rất thông minh. Nhóm vừa quay lại với Nguyên tắc đầu tiên, đặt những câu hỏi cơ bản và xếp chồng các kỹ thuật hiện có theo những cách mới lạ để đạt được kết quả vượt trội bằng cách sử dụng Học tăng cường – RL (Reinforcement Learning) và nhiều giai đoạn tinh chỉnh khác nhau. Không có phép thuật nào ở đây — chỉ là sự xáo trộn rất thông minh các thẻ hiện có tạo ra kết quả tinh tế và hiệu quả hơn.

Một số nhà quan sát cáo buộc DeepSeek "ăn theo" công trình của những nhà sản xuất mô hình lớn khác như Meta (Llama) và AliBaba (Qwen). Tuy nhiên, quan điểm này phản ánh sự hiểu lầm về cách thức hoạt động của các hệ thống nguồn mở. Nguyên tắc cơ bản của đổi mới nguồn mở là kỳ vọng rằng những người khác sẽ xây dựng dựa trên công trình trước đó để thúc đẩy tiến trình.

Trong trường hợp của DeepSeek, họ đã chứng minh điều này bằng cách chắt lọc mô hình lý luận cơ bản của họ, DeepSeek-R1—một sự phát triển của mô hình DeepSeek-V3-Base nguồn mở trước đó của họ —và tinh chỉnh các mô hình nhỏ hơn từ loạt mô hình Llama 3 và Qwen 2.5 bằng cách sử dụng dữ liệu lý luận do mô hình cơ sở của họ tạo ra. Quá trình này làm nổi bật cách DeepSeek tận dụng các đổi mới mở hiện có, không chỉ sao chép mà còn chứng minh những cải tiến đáng kể về hiệu suất của mô hình ngôn ngữ nhỏ. Sau đó, DeepSeek đã phát hành lại các mô hình đó trở lại cộng đồng AI nguồn mở.

Đây là Điểm chính. Những gì mà tin tức và bình luận bỏ lỡ là cơ hội to lớn mà DeepSeek đã mở ra cho nguồn mở và rộng hơn là toàn bộ phong trào mở. Quá nhiều cuộc trò chuyện được định hình là Hoa Kỳ so với Trung Quốc và cuộc đua giành quyền tối cao về AI. Quá nhiều cuộc trò chuyện được định hình trên ý tưởng rằng DeepSeek đào tạo một mô hình mạnh mẽ trên một phần nhỏ của tính toán với một phần nhỏ chi phí có nghĩa là tất cả các công ty lớn chi nhiều tiền cho thiết bị và đào tạo NVIDIA sẽ bị cắt giảm.

Theo quan điểm (thiên vị) của tôi, đổi mới nguồn mở sẽ chiến thắng và điều này thực sự sẽ tốt cho tất cả mọi người — Trung Quốc, Hoa Kỳ, Big Tech, Chủ quyền kỹ thuật số châu Âu, NVIDIA, v.v. Một số nhà đầu tư mạo hiểm đặt cược vào các công ty khởi nghiệp AI ban đầu đã trở thành các tính năng bên trong các dịch vụ AI lớn hơn có thể bị xóa sổ, nhưng điều đó xảy ra trong bất kỳ giai đoạn chuyển đổi công nghệ nào. Điều mà DeepSeek chứng minh là chúng ta cần hàng nghìn con mắt nhìn vào vấn đề để đưa ra các giải pháp tốt hơn nhằm biến trí thông minh trở nên gần với miễn phí nhất có thể. Một nhóm nhỏ ở Trung Quốc đã xem xét lại một vấn đề và đưa ra một cách tiếp cận mới giúp giảm chi phí suy luận theo chuỗi suy nghĩ xuống 50 lần (nếu các bài đăng của DeepSeek là chính xác) và sau đó xuất bản một bài báo mô tả đầy đủ về quy trình của họ, cho phép cộng đồng được hưởng lợi từ những bài học kinh nghiệm của họ. Chúng ta cần NHIỀU hơn nữa tiến bộ này, chứ không phải ít hơn. Đây không phải là cuộc chạy đua vũ trang giữa Hoa Kỳ và Trung Quốc. Đây là cuộc đấu tranh giành thị trường mở giữa các lực lượng mở và các lực lượng đóng. Các chính phủ có thể nghĩ rằng họ có thể kiểm soát được điều này, nhưng lịch sử cho thấy công nghệ mở, một khi được phát hiện và đưa vào tay cộng đồng, thì giống như mưa. Bạn không thể tạm dừng hoặc ngăn chặn nó. Việc ngăn chặn sự phát triển khoa học một cách giả tạo chưa bao giờ có hiệu quả trong bất kỳ thời hạn dài nào và khoa học máy tính và AI cũng không ngoại lệ.

Vào tháng 3 năm 2013, thế giới nguồn mở đã giới thiệu một cách nhẹ nhàng, chuẩn hóa để đóng gói và chạy các ứng dụng với tất cả các phụ thuộc của chúng, đảm bảo tính nhất quán trên các môi trường khác nhau. Không giống như các máy ảo truyền thống, các container Docker sử dụng các môi trường biệt lập trên một hệ điều hành cơ bản duy nhất để thực hiện ảo hóa. Các container Docker nhanh hơn, khả chuyển hơn và hiệu quả hơn bằng cách chia sẻ hạt nhân của hệ thống máy chủ trong khi cô lập các quy trình. Docker đã tổ chức lại nhiều khả năng ảo hóa và container nguồn mở hiện có như cgroups, LXC, không gian tên, v.v. Việc tổ chức lại đó hoặc xáo trộn các thẻ hiện có đã thay đổi trò chơi. Máy ảo đã hoạt động tốt trong nhiều năm, nhưng các container Docker tốt hơn nhiều đối với nhiều tải công việc. Tính mở của sự thay đổi công nghệ đó đã giúp thúc đẩy làn sóng mới áp dụng điện toán bẩm sinh đám mây.

Một hiểu lầm cơ bản khác là DeepSeek sẽ yêu cầu ít đầu tư vào cơ sở hạ tầng AI hơn. Tuy nhiên, có một nhu cầu vô hạn đối với trí thông minh. Chúng ta thậm chí còn chưa khám phá hết bề mặt và đang ở giai đoạn đầu khai thác các ứng dụng hỗ trợ AI.

Những cải tiến gần đây hơn trong các mô hình AI đã chuyển mối liên hệ của lý luận từ các cải tiến trước khi đào tạo và sau khi đào tạo sang tính toán thời gian thử nghiệm hiện nay, cho phép các mô hình "lý luận" thông qua phản hồi của chúng (chuỗi suy nghĩ). Điều này không có nghĩa là chúng ta cần ít tính toán hơn. Trên thực tế, nó có nghĩa là chúng ta cần nhiều tính toán hơn, khi lớp suy luận hoạt động giống như bộ não con người hơn — luôn suy nghĩ, xem xét lại, giải quyết nhiều nhiệm vụ cùng một lúc và phát triển để đáp ứng nhu cầu về các hoạt động trí tuệ mới. Điều này giống như điện hơn — một loại hàng hóa. Làm cho nó rẻ hơn để có thể ứng dụng nhiều hơn (như VC Tomasz Tungus giải thích rõ ràng tại đây) và nhiều người sẽ sử dụng nó hơn.

Đối với nguồn mở, điều này mở ra một ranh giới mới to lớn. Nếu nguồn mở chiến thắng trong AI và trở thành mô hình đổi mới và phát triển thống trị, thì chúng ta có cơ hội định hình lại cách thế giới hoạt động ở cấp độ cơ bản. DeepSeek là một ví dụ về việc cung cấp lý luận sẵn sàng cho nhiều người dùng và ứng dụng hơn. AI nguồn mở có thể là con đường để cung cấp tính tương hợp và các tiêu chuẩn thực sự giữa các ứng dụng và ngăn xếp ứng dụng.

AI là siêu lớp (Meta-Layer) mà chúng ta có thể xây dựng kỳ vọng mới về tính tương hợp, một thực tế mới mà Satya Nadela đã ám chỉ khi ông phát biểu tại nhiều diễn đàn về cách AI có thể phá vỡ các ứng dụng Phần mềm như một Dịch vụ – SaaS (Software as a Service) bằng cách cho phép các tổ chức kết nối các phần phụ trợ và nguồn dữ liệu khác nhau với các máy (công cụ) AI. Nói cách khác, AI nguồn mở mang đến cho thế giới cơ hội viết lại các quy tắc có lợi cho bất kỳ điều gì mở, ở mọi nơi có thể. Trong thế giới này, quyền lực thuộc về cộng đồng và những người bảo trì.

Tất nhiên, có rất nhiều sắc thái xung quanh nguồn mở và cách thức hoạt động của nó. Nhưng qua lăng kính này, tôi tin rằng bài học của DeepSeek là về sự bùng nổ AI sắp tới và cách nó có thể mang lại lợi ích cho mọi người và thúc đẩy tiến bộ kinh tế và công nghệ vượt xa những gì thị trường nhận thức — nếu chúng ta giữ cho nó là mở.

Bạn không tin tôi sao? Linux hiện đã ba mươi bốn tuổi và một nhóm các nhà nghiên cứu tại Đại học Waterloo làm việc trong môi trường mở đã chứng minh, chỉ mới tuần trước, rằng "thay đổi 30 dòng mã trong Linux có thể cắt giảm mức sử dụng năng lượng tại một số trung tâm dữ liệu tới 30 phần trăm". Hãy đoán xem tất cả các khối lượng công việc AI đó chạy trên hệ điều hành nào?

Cuối cùng, tôi sẽ đưa ra một dự đoán nhỏ cho tất cả những người phản đối thiếu hiểu biết "con ngựa thành Troy". Một công ty hoặc phòng nghiên cứu khác sẽ có một mô hình tương tự sử dụng phương pháp này với tỷ lệ hiệu suất trên chi phí đáng kinh ngạc trong vài tuần tới. Hãy thoải mái đoán xem ai trong phần bình luận.

Jim Zemlin, Executive Director at Linux Foundation

January 28, 2025

I rarely blog or post on social media but I do write a private weekly newsletter for our staff and board and for a couple of weeks in a row have been writing about DeepSeek. What I didn’t consider is the reaction this week in the press and markets. Good folks like Ben Thompson, Pat Gellisnger, Tomasz Tunguz have all been commenting. With AI stocks getting pummeled and grave concerns surfacing about the impact of DeepSeek’s R1 model on the future of AI, it’s clear that fears of DeepSeek struck a deep nerve. That huge reaction merits both examination and explanation.

In short, what the markets reacted to was DeepSeek’s ability to build a model that rivaled OpenAI’s sophisticated o1 reasoning model and Anthropic’s Sonnet model for pennies on the dollar on a fraction of the compute. It also appears that DeepSeek did this using well-known techniques. There were no massive algorithmic breakthroughs, just very clever engineering. The team just went back to First Principles, asked basic questions and stacked up existing techniques in novel ways to achieve outsized results using Reinforcement Learning (RL) and various stages of fine-tuning. There’s no magic here — just a very smart reshuffling of the existing cards that produced a more refined and efficient result.

Some observers accused DeepSeek of “free riding” on work done by other large model makers like Meta (Llama) and AliBaba (Qwen). However, this perspective reflects a misunderstanding of how open-source systems function. The foundational principle of open-source innovation is the expectation that others will build upon prior work to drive progress. In the case of DeepSeek, they demonstrated this by distilling their base reasoning model, DeepSeek-R1—an evolution of their earlier open source DeepSeek-V3-Base model —and fine-tuning smaller models from the Llama 3 and Qwen 2.5 series of models using reasoning data generated by their base model. This process highlights how DeepSeek leveraged existing open innovations, not merely for replication, but to demonstrate significant improvements in small language model performance. DeepSeek then re-released those models back to the open source AI community.

Here’s the Big Takeaway. What the news and commentariat are missing is the massive opportunity that DeepSeek has opened for open source and, more broadly, the entire open movement. Too much of the conversation is framed as U.S. vs China and the race for AI supremacy. Too much of the conversation is framed on the idea that DeepSeek training a powerful model on a fraction of the compute for a fraction of the cost means all the large companies spending big bucks on NVIDIA gear and training will be undercut.

In my (biased) view, open source innovation will win and that this will actually be good for everyone — China, the U.S., Big Tech, European Digital Sovereignty, NVIDIA, and more. Some venture investors who bet on early AI startups that have become features inside of larger AI offerings might get wiped out, but that happens in any technology phase shift. What DeepSeek proves is that we need thousands of eyes on the problem to come up with better solutions to make intelligence as close to free as possible. A small team in China took a fresh look at a problem and came up with a novel approach that reduced the cost of chain-of-thought reasoning by 50x (if DeepSeek’s postings are accurate) and then published a paper fully describing their process, allowing the community to benefit from their learnings. We need MORE of this progress, not less. This is not an arm’s race between the U.S. and China. It is a struggle over open markets between the forces of open and the forces of closed. Governments may think they can control this, but history shows that open technology, once discovered and put in the hands of the community, is like rain. You can’t pause or stop it. Artificially halting scientific development has never worked in any long-run term, and computer science and AI are no different.

In March 2013, the open source world was introduced to a lightweight, standardized way to package and run applications with all their dependencies, ensuring consistency across different environments. Unlike traditional virtual machines, Docker containers used isolated environments on a single underlying operating system to do virtualization. Docker containers were faster, more portable, and more efficient by sharing the host system's kernel while isolating processes. Docker reorganized many existing open source virtualization and container capabilities like cgroups, LXC, namespaces and more. That reorganization, or shuffling of the then-existing cards, changed the game. Virtual machines had worked well for years, but Docker containers were far better for many workloads. The openness of that technology shift helped power a new wave of cloud-native computing adoption.

Another fundamental misunderstanding is that DeepSeek will require less AI infrastructure investment. Yet, there is a boundless appetite for intelligence. We haven’t even scratched the surface and are in the very early stages of tapping into AI-powered applications.

More recent improvements in AI models have shifted the nexus of reasoning from pre-training and post-training enhancements to now test-time compute, allowing models to “reason” through their responses (chain-of-thought). This doesn’t mean we need less compute. It actually means we need more compute, when the inference layer acts more like a human brain — always thinking, reconsidering, tackling multiple tasks at once, and evolving to fill the need for new intelligence activities. This is more like electricity — a commodity. Make it cheaper so more applications are possible (as VC Tomasz Tungus explains neatly here), and more people will use it.

For open source, this opens a massive new frontier. If open source wins in AI and becomes the dominant innovation and development model, then we have an opportunity to reshape the way the world works at fundamental levels. DeepSeek is one example of making reasoning available to a much wider array of users and applications. Open source AI could be a path to deliver true interoperability and standards between applications and application stacks.

AI is the meta-layer upon which we could build a new expectation for interoperability, a new reality that Satya Nadela hinted at when he spoke in multiple forums about how AI could disrupt SaaS apps by allowing organizations to hook up different back-ends and data sources to AI engines. In other words, open source AI gives the world a chance to rewrite the rules to favor open everything, everywhere possible. In this world, power goes to the community and the maintainers.

There is, of course, a lot of nuance around open source and how it works. But through this lens, I believe the lesson of DeepSeek is about the coming AI boom and how it can benefit everyone and drive economic and technological progress far exceeding what markets perceive — if we keep it open.

Don’t believe me? Linux is now thirty-four years old and a group of researchers at the University of Waterloo working in the open demonstrated, just last week, that “changing 30 lines of code in Linux could cut energy use at some data centers by up to 30 percent” Guess what OS all those AI workloads run on?

Finally, I will throw out a small prediction for all the “trojan horse” uninformed naysayers. Another firm or research lab will have a similar model using this method with amazing performance to cost ratio in the next few weeks. Feel free to guess who in the comments.

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com