Thứ Ba, 18 tháng 11, 2025

Hướng dẫn kỹ thuật lời nhắc. Kỹ thuật viết lời nhắc. Lời nhắc CoT Đa phương thức


Multimodal CoT Prompting

Theo: https://www.promptingguide.ai/techniques/multimodalcot

Zhang và cộng sự (2023) gần đây đã đề xuất một phương pháp gợi ý chuỗi tư duy - CoT (Chain-of-thought) đa phương thức. CoT truyền thống tập trung vào phương thức ngôn ngữ. Ngược lại, CoT đa phương thức kết hợp văn bản và hình ảnh vào một khuôn khổ hai giai đoạn. Bước đầu tiên liên quan đến việc tạo ra cơ sở lý luận dựa trên thông tin đa phương thức. Tiếp theo là giai đoạn thứ hai, suy luận câu trả lời, tận dụng các cơ sở lý luận mang tính thông tin được tạo ra.

Mô hình CoT đa phương thức (1B) vượt trội hơn GPT-3.5 trên tiêu chuẩn ScienceQA.


Image Source: Zhang et al. (2023)

Đọc thêm:

Về ‘Kỹ thuật viết lời nhắc’ ………. Phần trước ………. Phần tiếp theo

Zhang et al. (2023) recently proposed a multimodal chain-of-thought prompting approach. Traditional CoT focuses on the language modality. In contrast, Multimodal CoT incorporates text and vision into a two-stage framework. The first step involves rationale generation based on multimodal information. This is followed by the second phase, answer inference, which leverages the informative generated rationales.

The multimodal CoT model (1B) outperforms GPT-3.5 on the ScienceQA benchmark.

Further reading:

Dịch: Lê Trung Nghĩa

letrungnghia.foss@gmail.com

Không có nhận xét nào:

Đăng nhận xét

Lưu ý: Chỉ thành viên của blog này mới được đăng nhận xét.