The 50 Best
AI Tools for 2025 (Tried and Tested) - The best AI assistants
(chatbots)
Written by Ema
Lukan; Published on March 30, 2025
Theo: https://www.synthesia.io/post/ai-tools
Bài được đưa lên Internet ngày:
30/03/2025
1. ChatGPT
Video: Bắt
đầu sử dụng ngay ChatGPT
ChatGPT
liên tục đứng đầu bảng xếp
hạng LM Arena, vượt trội hơn các
mô hình khác về các chuẩn mực chính. Đây là ứng dụng
AI phổ biến nhất thế giới, với 200 triệu người dùng
tính đến tháng 10 năm 2024.
Tôi đã sử dụng ChatGPT rộng rãi cho việc
lên ý tưởng, nhiệm
vụ biên dịch, lập trình, tạo
tập lệnh AI, phân tích dữ liệu và quản lý các
nhiệm vụ nghiên cứu nặng. Mô hình 4o
mới là một bước tiến đáng kể - nó cực kỳ nhanh và
thông minh hơn nhiều so với bất kỳ phiên bản ChatGPT nào
trước đây.
Với khả năng đa phương
thức của ChatGPT, tôi có thể dán hình ảnh - như biểu
đồ hoặc đồ thị - và đặt câu hỏi về hình ảnh đó,
giúp việc diễn giải dữ liệu trực quan trở nên dễ
dàng hơn nhiều. Tôi đã cung cấp cho nó một hình
ảnh PNG của biểu đồ và nó đã phân tích biểu đồ,
cung cấp cho tôi một bảng dữ liệu thô (mà nó đọc từ
hình ảnh biểu đồ) và sau đó vẽ lại biểu đồ theo
màu sắc mà tôi thích - khá ấn tượng.
ChatGPT hiện có thể lưu
giữ ngữ cảnh theo thời gian, cá nhân hóa các phản hồi
dựa trên các cuộc trò chuyện trước đó. Ví dụ,
tôi đã sử dụng nó để tinh chỉnh các ý tưởng dự án
định kỳ mà không cần giải thích lại mọi chi tiết,
giúp tiết kiệm nhiều giờ công sức. Bạn có thể xem
lại và quản lý những gì nó ghi nhớ thông qua các điều
khiển của OpenAI, để đảm bảo nó không trở thành
Skynet
đối với bạn.
Tùy chọn tìm kiếm ChatGPT tích hợp (sẽ
nói thêm về điều này sau) giúp bạn dễ dàng hơn để
tìm thông tin có liên quan trực tiếp trong các cuộc trò
chuyện, giúp giảm ảo giác khi sử dụng RAG (Retrieval
Augmented Generation). RAG làm cơ sở cho
câu trả lời của AI bằng cách lấy thông tin từ các
nguồn dữ liệu bên ngoài.
Mặc dù nó vượt trội
trong các nhiệm vụ sáng tạo và mục đích chung, tôi
khuyên bạn nên khám phá các công cụ khác như Claude (xem
bên dưới) để lập trình. Không phải ChatGPT tệ trong
các nhiệm vụ lập trình, chỉ là Claude rất giỏi trong
các nhiệm vụ này.
ChatGPT o1
o1 là một mô hình lý luận nâng cao chuyên
dụng được xây dựng để giải quyết các vấn đề
phức tạp, lập trình và toán học.
Mặc dù tôi thấy 4o vượt trội về tính
sáng tạo và tính linh hoạt, nhưng o1 đã chứng minh được
tính hữu ích đáng kinh ngạc đối với các nhiệm vụ cụ
thể như lập trình, khắc phục sự cố kỹ thuật và
thậm chí giải các bài toán phức tạp mà các mô hình
khác gặp khó khăn. Tôi đã sử dụng nó để tạo các
tập lệnh shell, giải quyết các vấn đề bảng tính và
thậm chí giải các câu đố ô chữ bí ẩn, nơi độ
chính xác và chiều sâu logic của nó thực sự tỏa sáng.
Tuy nhiên, nó thiếu các khả năng và sự
tích hợp công cụ rộng hơn của 4o, vì vậy tôi coi nó
giống như một tùy chọn bổ sung cho các nhu cầu cụ thể
hơn là thay thế hoàn toàn cho các nhiệm vụ sáng tạo
hoặc mở rộng hơn.
Người vận hành (Operators)
Tháng 1/2025, ChatGPT đã giới thiệu "Người
vận hành" (Operators), các tác nhân AI có thể đặt
phòng khách sạn, đặt đồ ăn và mua sắm trực tuyến.
Chỉ dành cho người dùng chuyên nghiệp
- Pro (200 USD/tháng), chúng cho thấy tiềm năng thú vị
nhưng lại không thành công khi thực hiện.
Ví dụ, tôi đã yêu cầu Operators đặt
phòng khách sạn ở NYC. Nó bắt đầu mạnh mẽ, điều
hướng các bộ lọc và tìm kiếm TripAdvisor, nhưng cuối
cùng lại bị kẹt trong vòng lặp. Đặt bánh pizza cũng
tương tự như vậy—nó tùy chỉnh đơn hàng nhưng không
thể hoàn tất thanh toán. Mua sắm hoạt động tốt hơn;
nó tìm thấy một chiếc máy tính xách tay dưới 1.000 USD
trên Amazon nhưng yêu cầu tôi phải hoàn tất giao dịch
mua theo cách thủ công. Operators cho phép bạn kiểm soát
khi họ gặp sự cố, nhưng trình duyệt chậm thường
khiến việc tự mình thực hiện dễ dàng hơn.
Hiện tại, Operators giống như một công
cụ chứng minh khái niệm hơn là một công cụ thực tế.
Mặc dù ý tưởng tự động hóa các tác vụ lặp đi lặp
lại rất thú vị, nhưng nó cần được cải thiện về
tốc độ và độ tin cậy. Nếu bạn đã là người dùng
chuyên nghiệp - Pro, thì nó đáng để khám phá, nhưng vẫn
chưa phải là điều cần thiết.
Giá cả
OpenAI cung cấp một gói
miễn phí hiện cho phép bạn truy cập hạn chế vào GPT-4o
và quyền truy cập không giới hạn vào ChatGPT-4o mini. Gói
Plus cho phép bạn truy cập rộng hơn và có giá 20 USD/tháng
- Tôi nghĩ rằng đó là giá trị khá tốt. Họ cũng cung
cấp gói chuyên nghiệp - Pro với giá 200 USD/tháng cho phép
bạn truy cập ưu tiên vào các công cụ mới nhất của
họ.
2. Claude
Video: Claude
3.5 Sonnet để khơi dậy sự sáng tạo
Tôi đã sử dụng Claude
(cụ thể là mô hình Sonnet 3.5 của họ) cho
các tác vụ lập trình và nó nhanh chóng trở thành lựa
chọn hàng đầu của tôi để đánh giá mã lệnh.
Điều thực sự khiến Claude nổi bật là độ chính xác
của nó—nó dường như "hiểu" được các sắc
thái của lập trình tốt hơn các công cụ khác mà tôi đã
thử. Tôi đã sử dụng nó để phát hiện các vấn đề
tinh tế trong mã của mình và thậm chí động não để
tìm ra cách tốt hơn để cấu trúc các dự án. Anthropic
đang đào tạo các mô hình này về kiến thức lập trình
mới hơn và chuyên sâu hơn và nó cho thấy, đặc biệt là
khi giải quyết các khuôn khổ hiện đại hoặc khắc phục
các lỗi khó.
Một điều nữa tôi thích ở Claude là
cách nói chuyện rất dễ thương. Cảm giác như nó có
nhiều "linh hồn" hơn so với ChatGPT—giọng điệu
ấm áp hơn và các cuộc trò chuyện diễn ra trôi chảy
hơn. Cho dù tôi đang trao đổi ý tưởng hay giải quyết
một vấn đề phức tạp, thì việc tương tác với Claude
thực sự rất dễ chịu. Tôi đã đạt đến mức độ
tình cảm của Cô
ấy dành cho Claude, mà chúng tôi đang tiến triển.
Mặc dù vậy, tôi đã đạt đến giới
hạn phản hồi và tốc độ nhanh hơn một chút so với
mong muốn, điều này có thể gây phiền toái nếu tôi
đang tập trung vào một dự án. Nhưng
với mức giá 20 USD/tháng cho gói Pro, thì đây vẫn là một
mức giá tuyệt vời, đặc biệt nếu bạn đang tìm kiếm
một trợ lý AI thông minh, dễ gần và đặc biệt giỏi
trong các nhiệm vụ lập trình.
3. Gemini
Video: Google
– Chào
đón đến với kỷ nguyên Gemini
Gemini của
Google phù hợp hoàn hảo với hệ
sinh thái Google. Trên Android, nó giống như một phần
mở rộng tự nhiên của hệ thống hơn là một ứng dụng
riêng biệt và nếu bạn đã sử dụng Google Workspace, thì
nó cực kỳ tiện lợi. Cho dù tôi đang soạn thảo email,
tóm tắt bài viết hay hỏi những câu hỏi ngẫu nhiên, nó
đều cung cấp nhanh chóng và trôi chảy.
Tôi cũng thấy nó hữu ích theo những cách
không ngờ tới. Khi xem xét các tài liệu pháp lý, tôi sẽ
đọc qua lần đầu rồi yêu cầu Gemini kiểm tra lại xem
tôi có bỏ sót điều gì không. Một lần khác, tôi vật
lộn với bảng kích thước khó hiểu khi mua quần áo. Tôi
chụp ảnh nhãn mác, mô tả kích thước thông thường của
mình và để Gemini xử lý phần còn lại. Gợi ý rất
chính xác và cuối cùng tôi đã có được sản phẩm hoàn
toàn phù hợp!
Đối với các dự án
sáng tạo, khả năng hình ảnh của Gemini thực sự nổi
bật. Có lần tôi đã tải lên một hình ảnh mà
tôi thích và yêu cầu nó mô tả hình ảnh đó như một
lời nhắc cho trình tạo hình ảnh AI. Kết quả rất sáng
tạo và truyền cảm hứng, khiến nó trở thành một công
cụ thú vị để động não tìm ra những ý tưởng mới.
Khi tôi đang làm đề xuất dự án, Gemini
Advanced (Cao cấp) đã cung cấp các đề xuất tinh tế, phù
hợp, tạo cảm giác như một sự thúc đẩy năng suất
thực sự. Nó thậm chí còn giúp việc
viết quảng cáo dễ dàng hơn—tạo văn bản có ý nghĩa
cho các bản thiết kế mẫu trông bóng bẩy, thay vì sử
dụng chất độn chung chung như "Lorem Ipsum".
Tuy nhiên, nó không hoàn
hảo. Một điều khiến tôi thất vọng là khả năng lưu
giữ ngữ cảnh của nó. Khi sửa lại một bài viết,
tôi phải giải thích lại hướng dẫn một vài lần vì
nó sẽ quên những gì chúng tôi đã thảo luận. Tương tự
như vậy, khi tôi tải lên một tệp Excel, nhận được
bản tóm tắt và sau đó cập nhật dữ liệu, Gemini coi
tệp đã cập nhật là một tác vụ hoàn toàn mới thay vì
xây dựng dựa trên những gì chúng tôi đã thực hiện.
Một điểm yếu khác là hiệu suất của
nó đối với các tác vụ kỹ thuật. Mặc
dù nó rất tuyệt trong việc định dạng và gỡ lỗi mã
đơn giản, nhưng tôi thấy rằng đôi khi nó viết lại
JavaScript thành Python một cách không cần thiết. Đối
với nội dung chuyên biệt hoặc dày đặc hơn, như văn
bản pháp lý, khả năng phân tích của nó thiếu chiều
sâu so với những gì tôi mong đợi. Ngay cả phản hồi
của nó đối với một số truy vấn dựa trên hình ảnh
đôi khi cũng không chính xác, điều này thật đáng thất
vọng sau khi thấy tiềm năng sáng tạo của nó ở những
nơi khác.
Tuy nhiên, điểm mạnh
của Gemini lớn hơn nhiều so với những điểm yếu của
nó. Sự tích hợp chặt chẽ của nó với các công cụ
của Google khiến nó trở nên thiết thực đối với bất
kỳ ai đã tham gia hệ sinh thái của Google và khả năng xử
lý cả văn bản và hình ảnh khiến nó trở thành một
công cụ đa năng cho các dự án sáng tạo. Mặc dù
không phải là lựa chọn tốt nhất cho các tác vụ chuyên
sâu hoặc kỹ thuật cao, nhưng đây là trợ lý chắc chắn,
nhanh và dễ sử dụng cho các nhu cầu hàng ngày—và đối
với tôi, các tính năng nâng cao đã biến nó thành một
công cụ mà tôi tin tưởng.
Trong khi phiên bản Basic
miễn phí (sử dụng mô hình Flash 1.5) đáp ứng hầu hết
các nhu cầu thông thường, thì Gemini Advanced với giá
19,99 đô la/tháng bổ sung các mô hình 1.5 Pro và
Gemini-Exp-1206 mạnh mẽ hơn cho các tác vụ phức tạp như
lập trình, toán học và nghiên cứu chuyên sâu, bao gồm
phân tích văn bản lên đến 1.500 trang.
4. DeepSeek
DeepSeek
cũng đáng để thử. Họ cho phép bạn sử dụng miễn phí
các mô hình V3 và R1 mới trên trang web của họ, mặc dù
bạn vẫn phải trả phí để truy cập API (mặc dù rất
rẻ).
Tìm kiếm của DeepSeek có vẻ hấp dẫn và
"bám dính" hơn ngay cả sau một vài truy vấn. Tính
minh bạch của nó—thể hiện lý lẽ và công khai thừa
nhận những gì nó biết và những gì nó có thể không—tạo
dựng được mức độ tin tưởng đáng kể của người
dùng.
Vào tháng 1/2025, họ đã
ra mắt mô hình R1 của mình như một đối thủ cạnh
tranh với o1 của ChatGPT, nhanh chóng thu hút sự chú ý
trong cộng đồng AI vì vừa tiết kiệm chi phí vừa là
nguồn mở. Tôi đã thử nghiệm cả mô hình R1 và
V3 của họ.
Tôi đã yêu cầu cả
ChatGPT-o1 và DeepSeek-R1 phân tích các phần của bài thuyết
trình mà tôi đang thực hiện. R1 đã cung cấp một phân
tích toàn diện hơn, giải quyết các khía cạnh chính mà
o1 đã bỏ qua. Tôi cũng đã cùng nhau đưa ra ý tưởng và
một lần nữa, R1 đưa ra các đề xuất tốt hơn đáng kể
so với o1.
Đối với việc lập
trình, gần đây tôi dựa nhiều hơn vào DeepSeek (v3) vì
cách tiếp cận đơn giản của nó—nó đi thẳng vào vấn
đề với các đề xuất của mình. Ngược lại, Claude
(3.5 Sonnet) thường đi theo lộ trình chi tiết hơn, đề
xuất nhiều giải pháp và thiên về giải pháp phù hợp
nhất với các hoạt động kỹ thuật phần mềm vững
chắc. Cả hai công cụ đều tuyệt vời theo cách riêng
của chúng và tôi đã bắt đầu sử dụng chúng như nhau.
DeepSeek tuyệt vời vì tính hợp lý và
hiệu quả của nó, trong khi Claude vô cùng hữu ích khi
kiểm tra lại mã quan trọng và đảm bảo mọi thứ đều
đúng. Khi kết hợp với nhau, chúng tạo nên một đội
tuyệt vời.
Đối với việc viết, tôi không thích các
mô hình DeepSeek này. Tôi thấy đầu ra của nó nghe kém tự
nhiên hơn và thường nhàm chán và lặp đi lặp lại.
5. Grok
Grok 3 là một mô hình có khả năng xử lý
tốt hầu hết các tác vụ, nhưng theo kinh nghiệm của
tôi, nó không khác biệt đáng kể so với các LLM hàng đầu
khác.
Tôi đã thử nghiệm nó để động não,
hỗ trợ lập trình và các cuộc trò chuyện kéo dài và
mặc dù nó hoạt động đáng tin cậy, nhưng không có gì
thực sự nổi bật.
Nó thực hiện rất tốt việc duy trì bối
cảnh và tạo ra các phản hồi chi tiết, nhưng khi tôi so
sánh nó với ChatGPT và Claude, tôi nhận thấy các đề
xuất lập trình của nó không đúng. Một số giải pháp
đã được phát hiện, trong khi những giải pháp khác yêu
cầu chỉnh sửa nhiều, điều này không phổ biến với
trợ lý lập trình AI, nhưng dường như nó không có mức
độ nhất quán như các mô hình tốt nhất hiện có.
Điều làm cho Grok 3 trở
nên độc đáo là khả năng truy cập trực tiếp vào dữ
liệu Twitter theo thời gian thực, điều này có thể mang
lại lợi thế cho thông tin cập nhật, nhưng tôi không
thấy nó tốt hơn đáng kể ở các sự kiện hiện tại
so với các mô hình AI khác.
Nó cũng có ít hạn chế về nội dung hơn,
nghĩa là nó cởi mở hơn trong việc tạo ra các phản hồi
mà các LLM khác hoàn toàn từ chối. Mặc dù điều đó có
thể hấp dẫn một số người dùng, nhưng nó cũng gây ra
mối lo ngại, đặc biệt là khi tạo ra nội dung có tính
xúc phạm cao hoặc có vấn đề về mặt pháp lý.
Và sau đó là chi phí.
Không giống như các mô hình AI miễn phí khác, việc truy
cập Grok 3 yêu cầu đăng ký X Premium+ với giá 40
USD/tháng, khiến nó trở thành một trong những tùy chọn
đắt tiền hơn.
Mặc dù nó chắc chắn và hữu ích, nhưng
tôi không cảm thấy nó là một sản phẩm phải có so với
các mô hình hiện có, đặc biệt là khi xem xét đến rào
cản về giá thành.
Về
mục lục ………. Phần tiếp theo
1. ChatGPT
Video: Start
using ChatGPT Instantly
ChatGPT
consistently ranks at the top of the LM
Arena leaderboard, outperforming other models in key benchmarks.
It's the world's most popular AI application, with 200 million users
as of October 2024.
I’ve used
ChatGPT extensively for brainstorming ideas, translation
tasks, coding, AI
script generation, data analysis and managing research-heavy
tasks. The new 4o model is a significant leap forward—it’s
incredibly fast, and feels way smarter than any of the previous
versions of ChatGPT.
With ChatGPT's
multimodal capabilities I can paste in images—like a chart or
graph—and ask questions about it, making it much easier to
interpret visual data quickly. I fed it a PNG image of a chart and it
analysed the chart, gave me a table of the raw data (that it read
from the chart image) and then re-did the chart in my preferred
colors - pretty impressive.
ChatGPT can now
retain context over time, personalizing responses based on previous
conversations. For instance, I’ve used it to refine recurring
project ideas without re-explaining every detail, saving hours of
effort. You can review and manage what it remembers through OpenAI’s
controls, to make sure it doesn't go all Skynet
on you.
The integrated
ChatGPT search option (more on this later) makes it even easier to
find relevant information directly within conversations, which cuts
down on the hallucinations with the use of RAG (Retrieval Augmented
Generation). RAG grounds the AI's answer by retrieving information
from external data sources.
While it excels
in creative and general-purpose tasks, I’d recommend exploring
other tools like Claude (see below) for coding. It's not that ChatGPT
is bad at coding tasks, it's just that Claude is great at them.
ChatGPT o1
o1 is a
specialized advanced reasoning model built for complex
problem-solving, coding, and math.
While I find 4o
excels in creativity and versatility, o1 has proven incredibly useful
for specific tasks like coding, troubleshooting technical issues, and
even solving intricate math problems that other models struggled
with. I’ve used it to generate shell scripts, work through
spreadsheet problems, and even tackle cryptic crossword puzzles,
where its precision and logical depth really shine.
However, it
lacks the broader capabilities and tool integrations of 4o, so I see
it more as a complementary option for specific needs rather than a
full replacement for more creative or expansive tasks.
Operators
In January 2025,
ChatGPT introduced "Operators," AI agents that can book
hotels, order food, and shop online. Exclusive to Pro users
($200/month), they show exciting potential but are hit-or-miss in
execution.
For instance, I
asked the Operator to book a hotel in NYC. It started strong,
navigating filters and searching TripAdvisor, but eventually got
stuck in a loop. Ordering a pizza was similar—it customized the
order but couldn’t complete checkout.
Shopping worked
better; it found a laptop under $1,000 on Amazon but required me to
finish the purchase manually. Operators let you take control when
they get stuck, but the laggy browser often makes doing it yourself
easier.
Right now,
Operators feel more like a proof-of-concept than a practical tool.
While the idea of automating repetitive tasks is exciting, it needs
improvements in speed and reliability. If you’re already a Pro
user, it’s worth exploring, but not essential yet.
Pricing
OpenAI offer a
free tier which currently gives you limited access to GPT-4o and
unlimited access to ChatGPT-4o mini. The Plus plan gets you wider
access and costs $20/month - I think that's pretty good value for
money. They also offer a Pro plan for $200/month which gives you
priority access to their latest tools.
2.
Claude
Video: Claude
3.5 Sonnet for sparking creativity
I’ve been
using Claude (their
Sonnet 3.5 model to be specific), for coding tasks, and it’s
quickly becoming my go-to for code reviews. What really makes Claude
stand out is how precise it is—it seems to "get" the
nuances of programming better than other tools I’ve tried. I’ve
used it to spot subtle issues in my code and even brainstorm better
ways to structure projects. Anthropic are training these models on
more recent and specialized coding knowledge and it shows, especially
when tackling modern frameworks or troubleshooting tricky bugs.
Another thing I
love about Claude is how nice it is to talk to. It feels like it has
more "soul" compared to ChatGPT—the tone is warmer, and
conversations just flow better. Whether I’m bouncing around ideas
or working through a complicated issue, it’s genuinely pleasant to
interact with. I have quite reached Her
levels of affection for Claude, but we're getting there.
That said, I
have hit the response and rate limits a little faster than I’d
like, which can be a hassle if I’m deep into a project. But for
$20/month on the Pro plan, it’s still a great deal, especially if
you’re looking for an AI assistant that’s smart, approachable,
and particularly strong in coding tasks.
3.
Gemini
Video: Google
– Welcome to the Gemini era
Google’s
Gemini fits seamlessly into the Google ecosystem. On Android, it
feels like a natural extension of the system rather than a separate
app, and if you’re already using Google Workspace, it’s
incredibly convenient. Whether I was drafting emails, summarizing
articles, or asking it random questions, it delivered quickly and
smoothly.
I’ve found it
useful in unexpected ways too. When reviewing legal documents, I’d
do my initial read-through and then ask Gemini to double-check if I
missed anything. Another time, I struggled with a confusing sizing
chart while shopping for clothes. I snapped a picture of the label,
described my usual size, and let Gemini handle the rest. The
suggestion was spot-on, and I ended up with a perfect fit!
For creative
projects, Gemini’s image capabilities really shine. I once uploaded
an image I liked and asked it to describe it as a prompt for an AI
image generator. The results were creative and inspiring, making it a
fun tool for brainstorming new ideas.
When I was
working on a project proposal, Gemini Advanced provided nuanced,
tailored suggestions that felt like a genuine productivity boost. It
even made copywriting easier—generating meaningful text for design
mockups that felt polished, rather than using generic filler like
"Lorem Ipsum."
However, it’s
not perfect. One frustration I had was with its context retention.
When revising a piece of writing, I had to re-explain instructions a
few times because it would forget what we’d already discussed.
Similarly, when I uploaded an Excel file, got a summary, and later
updated the data, Gemini treated the updated file as a brand-new task
instead of building on what we’d already done.
Another weak
spot is its performance on technical tasks. While it’s great at
formatting and debugging simple code, I found that it sometimes
rewrote JavaScript as Python unnecessarily. For more specialized or
dense content, like legal texts, its analysis lacked depth compared
to what I was hoping for. Even its responses to some image-based
queries were occasionally inaccurate, which was a letdown after
seeing its creative potential elsewhere.
That said,
Gemini’s strengths outweigh its flaws. Its tight integration with
Google tools makes it practical for anyone already in the Google
ecosystem, and its ability to handle both text and images makes it a
versatile tool for creative projects. While it’s not the best
choice for highly technical or niche tasks, it’s a solid, fast, and
easy-to-use assistant for everyday needs—and for me, the advanced
features have made it a tool I’ve come to rely on.
While the free
Basic version (using the 1.5 Flash model) covers most casual needs,
the $19.99/month Gemini Advanced adds the more powerful 1.5 Pro and
Gemini-Exp-1206 models for complex tasks like coding, math, and deep
research, including analyzing texts up to 1,500 pages.
4.
DeepSeek
DeepSeek
is also worth checking out. They let you use their V3 and new R1
models for free on their site, although you still have to pay for API
access (it's very cheap though).
DeepSeek's
search feels more engaging and "sticky" even after just a
few queries. Its transparency—showing reasoning and openly
acknowledging what it knows and what it might not—builds a
significant level of user trust.
In January 2025,
they launched their R1 model as a competitor to ChatGPT's o1, quickly
gaining attention in the AI community for being both cost-effective
and open source. I've played around with both their R1 and V3 models.
I asked both
ChatGPT-o1 and DeepSeek-R1 to analyze sections of a presentation I’m
working on. R1 provided a more comprehensive analysis, addressing key
aspects that o1 overlooked. I also had both brainstorm ideas, and
once again, R1 delivered significantly better suggestions than o1.
For coding I’ve
been relying more on DeepSeek (v3) lately because of its
straightforward approach—it gets straight to the point with its
suggestions. Claude (3.5 Sonnet), by contrast, often takes a more
detailed route, proposing multiple solutions and leaning toward the
one that aligns best with solid software engineering practices. Both
tools are excellent in their own ways, and I’ve started using them
equally. DeepSeek is great for its affordability and efficiency,
while Claude is invaluable for double-checking critical code and
ensuring everything is on point. Together, they make a great team.
For writing, I'm
less keen on these DeepSeek models. I find its output less
natural-sounding and oftentimes boring and repetitive.
5.
Grok
Grok 3 is a
capable model that handles most tasks well, but in my experience, it
doesn’t feel significantly different from other top-tier LLMs.
I tested it for
brainstorming, coding assistance, and extended conversations, and
while it performed reliably, nothing about it truly stood out.
It does a decent
job at keeping context and generating detailed responses, but when I
compared it to ChatGPT and Claude, I found its coding suggestions to
be hit-or-miss. Some solutions were spot on, while others required
heavy corrections, which isn’t uncommon with AI coding assistants,
but it didn’t seem to have the same level of consistency as the
best models out there.
What does makes
Grok 3 unique is its direct access to real-time Twitter data, which
could give it an advantage for up-to-date information, but I didn’t
find it noticeably better at current events than other AI models.
It also has far
fewer content restrictions, meaning it’s more open to generating
responses that other LLMs outright refuse. While that might appeal to
some users, it also raises concerns, especially when it comes to
generating highly offensive or legally questionable content.
And then there’s
the cost. Unlike other free-tier AI models, accessing Grok 3 requires
an X Premium+ subscription at $40/month, which makes it one of the
more expensive options.
While it’s
solid and functional, I didn’t walk away feeling like it was a
must-have over existing models, especially considering the price
barrier.
Dịch: Lê Trung Nghĩa
letrungnghia.foss@gmail.com