So sánh Model AI 2026
So sánh GPT-5, Claude 4.7, Gemini 2.5, Llama 4, DeepSeek — context window, giá input/output, modality (text/vision/audio), thinking mode. Bảng cập nhật 2026-05.
| Model | Context | Output | Input $/1M | Output $/1M | Modality |
|---|---|---|---|---|---|
| Claude Opus 4.7 Anthropic⚡ thinking | 1M | 64K | $15 | $75 | 📝 👁 |
| Claude Sonnet 4.6 Anthropic⚡ thinking | 1M | 64K | $3 | $15 | 📝 👁 |
| Claude Haiku 4.5 Anthropic | 200K | 8K | $0.8 | $4 | 📝 👁 |
| GPT-5 OpenAI⚡ thinking | 400K | 16K | $5 | $20 | 📝 👁 🎙 |
| GPT-4o OpenAI | 128K | 16K | $2.5 | $10 | 📝 👁 🎙 |
| GPT-4o mini OpenAI | 128K | 16K | $0.15 | $0.6 | 📝 👁 |
| o3 OpenAI⚡ thinking | 200K | 100K | $10 | $40 | 📝 👁 |
| Gemini 2.5 Pro Google⚡ thinking | 2M | 64K | $1.25 | $10 | 📝 👁 🎙 🎥 |
| Gemini 2.5 Flash Google | 1M | 64K | $0.3 | $2.5 | 📝 👁 🎙 🎥 |
| Llama 3.3 70B Meta | 128K | 8K | $0.6 | $0.8 | 📝 |
| Llama 4 Maverick Meta | 256K | 8K | $0.27 | $0.85 | 📝 👁 |
| DeepSeek V3 DeepSeek | 128K | 8K | $0.27 | $1.1 | 📝 |
| DeepSeek R1 DeepSeek⚡ thinking | 128K | 32K | $0.55 | $2.19 | 📝 |
| Grok 3 xAI | 256K | 8K | $3 | $15 | 📝 👁 |
| Mistral Large 2 Mistral | 128K | 8K | $2 | $6 | 📝 |
| Qwen 2.5 72B Alibaba | 128K | 8K | $0.4 | $1.2 | 📝 👁 |
📝 = text · 👁 = vision · 🎙 = audio · 🎥 = video
Cách chọn model
- Bài toán đơn giản, throughput cao (phân loại, extract, chatbot FAQ): chọn model rẻ nhất — Haiku 4.5, GPT-4o mini, Gemini Flash, DeepSeek V3.
- Coding & reasoning phức tạp: Claude Opus 4.7 hoặc o3 (có thinking mode).
- Document dài (sách, codebase): Gemini 2.5 Pro (2M context) hoặc Claude (1M context).
- Multimodal native (audio + video): Gemini 2.5 — duy nhất xử lý cả 4 modality.
- Self-host / on-prem: Llama 4, DeepSeek (open weights, có thể chạy local).
- Tuân thủ EU/GDPR: Mistral (host EU).
Output đắt hơn input bao nhiêu lần?
Tỷ lệ output/input thường 4-5×. Nghĩa là nếu prompt 1000 token + response 1000 token, chi phí response chiếm ~80%. Mẹo tiết kiệm: yêu cầu model trả lời ngắn gọn (respond in <100 words).
Lưu ý về giá
Giá trong bảng là list price chính thức tính USD/1M token. Thực tế:
- Volume discount tự động (Tier 4-5 OpenAI, Enterprise Anthropic).
- Cache pricing rẻ hơn 50-90% nếu reuse prompt.
- Batch API rẻ 50% (delay tới 24h).
- Self-host Llama/DeepSeek qua DeepInfra/Together/Fireworks có thể rẻ hơn nữa.
Phù hợp với ai
Lập trình viên dùng ChatGPT/Claude/Gemini hằng ngày, AI engineer build RAG/agent, hoặc bất kỳ ai trả phí API LLM và muốn đo lường + so sánh nhanh.
Câu hỏi thường gặp
Dữ liệu paste vào tool có gửi đi đâu không?
Không. Tool chạy 100% trong trình duyệt, không có request HTTP nào tới server TopDev hay AI provider. Bạn có thể tắt mạng để kiểm chứng.
Tool có miễn phí mãi không?
Có. Tất cả công cụ trên TopDev đều miễn phí, không cần đăng ký, không giới hạn lượt dùng.
Công cụ liên quan
Xem tất cả công cụ →Đếm Token
Đếm token chính xác cho ChatGPT, Claude, Gemini, Llama. Tính chi phí input ngay.
Tính chi phí API
Estimate chi phí gọi API LLM theo tháng/năm. So sánh model nào tiết kiệm nhất.
Prompt Builder
Soạn prompt chuẩn 7 quy tắc. 6 template sẵn cho blog, email, code review...
MỚIMarkdown Preview
Render markdown realtime — paste output từ ChatGPT/Claude xem ngay. Hỗ trợ GFM, bảng, code.