⚡️ New
Pro/MiniMaxAI/MiniMax-M2.1
MiniMaxAI
¥8.4/ M Tokens
MiniMax-M2.1 是一个专为代理能力优化的开源大型语言模型,在编程、工具使用、指令遵循和长期规划方面表现出色。模型支持多语言软件开发和复杂的多步骤工作流执行,在 SWE-bench Verified 上达到 74.0 分,在多语言场景中超越 Claude Sonnet 4.5
对话
Tools
MoE
Coder
推理模型
230B
200K
Pro/moonshotai/Kimi-K2-Instruct-0905
moonshotai
¥16/ M Tokens
Kimi K2-Instruct-0905 是 Kimi K2 最新、最强大的版本。它是一款顶尖的混合专家(MoE)语言模型,拥有 1 万亿的总参数和 320 亿的激活参数。该模型的主要特性包括:增强的智能体编码智能,在公开基准测试和真实世界的编码智能体任务中表现出显著的性能提升;改进的前端编码体验,在前端编程的美观性和实用性方面均有进步
对话
Tools
MoE
1T
256K
⚡️
Pro/moonshotai/Kimi-K2-Thinking
moonshotai
¥16/ M Tokens
Kimi K2 Thinking 是最新、最强大的开源思考模型。从 Kimi K2 开始,我们将其构建为一个能够逐步推理并动态调用工具的思考代理。它通过大幅扩展多步推理深度,并在 200–300 次连续工具调用中保持稳定的工具使用,在 Humanity's Last Exam (HLE)、BrowseComp 及其他基准测试中树立了新的标杆。同时,K2 Thinking 是一款原生支持 INT4 量化的模型,拥有 256K 上下文窗口,实现了推理延迟和 GPU 显存占用的无损降低
对话
Tools
推理模型
MoE
1T
256K
⚡️ 0324
Pro/deepseek-ai/DeepSeek-V3
deepseek-ai
¥8/ M Tokens
新版 DeepSeek-V3 (DeepSeek-V3-0324)与之前的 DeepSeek-V3-1226 使用同样的 base 模型,仅改进了后训练方法。新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平,在数学、代码类相关评测集上取得了超过 GPT-4.5 的得分成绩。此外该模型在工具调用、角色扮演、问答闲聊等方面也得到了一定幅度的能力提升。
对话
FIM
Tools
MoE
671B
128K
⚡️ 0528
Pro/deepseek-ai/DeepSeek-R1
deepseek-ai
¥16/ M Tokens
DeepSeek-R1-0528 是一款强化学习(RL)驱动的推理模型,解决了模型中的重复性和可读性问题。在 RL 之前,DeepSeek-R1 引入了冷启动数据,进一步优化了推理性能。它在数学、代码和推理任务中与 OpenAI-o1 表现相当,并且通过精心设计的训练方法,提升了整体效果。
对话
FIM
Tools
推理模型
MoE
671B
160K
⚡️
Pro/deepseek-ai/DeepSeek-V3.1-Terminus
deepseek-ai
¥12/ M Tokens
DeepSeek-V3.1-Terminus 是由深度求索(DeepSeek)发布的 V3.1 模型的更新版本,定位为混合智能体大语言模型。此次更新在保持模型原有能力的基础上,专注于修复用户反馈的问题并提升稳定性。它显著改善了语言一致性,减少了中英文混用和异常字符的出现。模型集成了“思考模式”(Thinking Mode)和“非思考模式”(Non-thinking Mode),用户可通过聊天模板灵活切换以适应不同任务。作为一个重要的优化,V3.1-Terminus 增强了代码智能体(Code Agent)和搜索智能体(Search Agent)的性能,使其在工具调用和执行多步复杂任务方面更加可靠
对话
Tools
MoE
671B
160K
⚡️
Pro/deepseek-ai/DeepSeek-V3.2
deepseek-ai
¥3/ M Tokens
DeepSeek-V3.2 是一款兼具高计算效率与卓越推理和 Agent 性能的模型。其方法建立在三大关键技术突破之上:DeepSeek 稀疏注意力(DSA),一种高效的注意力机制,在保持模型性能的同时显著降低了计算复杂性,并特别针对长上下文场景进行了优化;可扩展的强化学习框架,通过该框架,模型性能可与 GPT-5 相媲美,其高算力版本在推理能力上可与 Gemini-3.0-Pro 匹敌;以及大规模 Agent 任务合成管线,旨在将推理能力整合到工具使用场景中,从而提高在复杂交互环境中的指令遵循和泛化能力。该模型在 2025 年国际数学奥林匹克(IMO)和国际信息学奥林匹克(IOI)中取得了金牌表现
对话
Tools
推理模型
MoE
671B
160K
⚡️
Pro/zai-org/GLM-4.7
zai
¥16/ M Tokens
GLM-4.7 是智谱新一代旗舰模型,总参数量 355B,激活参数量 32B,在通用对话、推理和智能体能力方面全面升级。GLM-4.7 增强了 Interleaved Thinking(交错思考),并引入了 Preserved Thinking(保留思考)和 Turn-level Thinking(轮级思考),使复杂任务更加稳定可控。在 agentic coding 和终端任务方面,GLM-4.7 在 SWE-bench 达到 73.8%,在 SWE-bench Multilingual 达到 66.7%,在 Terminal Bench 2.0 达到 41%。GLM-4.7 在"Vibe Coding"上也有显著提升,能生成更简洁现代的网页,以及布局和尺寸更精准的幻灯片
对话
Tools
MoE
推理模型
355B
200K
⚡️
moonshotai/Kimi-K2-Thinking
moonshotai
¥16/ M Tokens
Kimi K2 Thinking 是最新、最强大的开源思考模型。它通过大幅扩展多步推理深度,并在 200–300 次连续工具调用中保持稳定的工具使用,在 Humanity's Last Exam (HLE)、BrowseComp 及其他基准测试中树立了新的标杆。同时,K2 Thinking 是一款原生支持 INT4 量化的模型,拥有 256K 上下文窗口,实现了推理延迟和 GPU 显存占用的无损降低
对话
Tools
推理模型
MoE
1T
256K
⚡️
zai-org/GLM-4.6
zai
¥14/ M Tokens
与 GLM-4.5 相比,GLM-4.6 带来了多项关键改进。其上下文窗口从 128K 扩展到 200K tokens,使模型能够处理更复杂的智能体任务。模型在代码基准测试中取得了更高的分数,并在 Claude Code、Cline、Roo Code 和 Kilo Code 等应用中展现了更强的真实世界性能,包括在生成视觉效果精致的前端页面方面有所改进。GLM-4.6 在推理性能上表现出明显提升,并支持在推理过程中使用工具,从而带来了更强的综合能力。它在工具使用和基于搜索的智能体方面表现更强,并且能更有效地集成到智能体框架中。在写作方面,该模型在风格和可读性上更符合人类偏好,并在角色扮演场景中表现得更自然
对话
Tools
推理模型
MoE
Coder
335B
200K
Deprecatedzai-org/GLM-4.5
zai
¥14/ M Tokens
GLM-4.5 是一款专为智能体应用打造的基础模型,使用了混合专家(Mixture-of-Experts)架构。在工具调用、网页浏览、软件工程、前端编程领域进行了深度优化,支持无缝接入 Claude Code、Roo Code 等代码智能体中使用。GLM-4.5 采用混合推理模式,可以适应复杂推理和日常使用等多种应用场景
对话
Tools
推理模型
MoE
335B
128K
Qwen/Qwen3-8B
Qwen
免费
Qwen3-8B 是通义千问系列的最新大语言模型,拥有 8.2B 参数量。该模型独特地支持在思考模式(适用于复杂逻辑推理、数学和编程)和非思考模式(适用于高效的通用对话)之间无缝切换,显著增强了推理能力。模型在数学、代码生成和常识逻辑推理上表现优异,并在创意写作、角色扮演和多轮对话等方面展现出卓越的人类偏好对齐能力。此外,该模型支持 100 多种语言和方言,具备出色的多语言指令遵循和翻译能力
对话
Tools
推理模型
8B
128K
DeprecatedQwen/Qwen3-235B-A22B
Qwen
¥10/ M Tokens
Qwen3-235B-A22B 是通义千问系列的最新大语言模型,采用混合专家(MoE)架构,拥有 235B 总参数量和 22B 激活参数量。该模型独特地支持在思考模式(适用于复杂逻辑推理、数学和编程)和非思考模式(适用于高效的通用对话)之间无缝切换,显著增强了推理能力。模型在数学、代码生成和常识逻辑推理上表现优异,并在创意写作、角色扮演和多轮对话等方面展现出卓越的人类偏好对齐能力。此外,该模型支持 100 多种语言和方言,具备出色的多语言指令遵循和翻译能力
对话
Tools
推理模型
MoE
235B
128K
zai-org/GLM-4.6V
zai
¥3/ M Tokens
GLM-4.6V 在视觉理解精度上达到同参数规模 SOTA,并首次在模型架构中将 Function Call(工具调用)能力原生融入视觉模型,打通从「视觉感知」到「可执行行动(Action)」的链路,为真实业务场景中的多模态 Agent 提供统一的技术底座。视觉上下文窗口扩展至 128k,支持长视频流处理及高分辨率多图分析。
对话
Tools
视觉
推理模型
MoE
106B
128K
DeprecatedTeleAI/TeleMM
DianXin
¥1.33/ M Tokens
TeleMM多模态大模型是由中国电信自主研发的多模态理解大模型,能够处理文本、图像等多种模态输入,支持图像理解、图表分析等功能,为用户提供跨模态的理解服务。模型能够与用户进行多模态交互,准确理解输入内容,回答问题、协助创作,并高效提供多模态信息和灵感支持。在细粒度感知,逻辑推理等多模态任务上有出色表现
对话
视觉
32K
DeprecatedTeleAI/TeleChat2
DianXin
¥1.33/ M Tokens
TeleChat2大模型是由中国电信从0到1自主研发的生成式语义大模型,支持百科问答、代码生成、长文生成等功能,为用户提供对话咨询服务,能够与用户进行对话互动,回答问题,协助创作,高效便捷地帮助用户获取信息、知识和灵感。模型在幻觉问题、长文生成、逻辑理解等方面均有较出色表现。
对话
8K
MiniMaxAI/MiniMax-M2
MiniMaxAI
¥8.4/ M Tokens
MiniMax-M2 为智能体重新定义了效率。它是一款紧凑、快速且经济高效的 MoE 模型,拥有 2300 亿总参数和 100 亿激活参数,专为编码和智能体任务的顶级性能而打造,同时保持强大的通用智能。仅需 100 亿激活参数,MiniMax-M2 就能提供当今领先模型所期望的复杂端到端工具使用性能,但其外形尺寸更为精简,使得部署和扩展比以往任何时候都更容易
对话
Tools
MoE
Coder
推理模型
230B
200K
Qwen/Qwen3-VL-32B-Thinking
Qwen
¥10/ M Tokens
Qwen3-VL-Thinking 是 Qwen3-VL 系列中一个为复杂视觉推理任务特别优化的版本。该模型内置了“思考模式”(Thinking Mode),使其在回答问题前能够生成详细的中间推理步骤(Chain-of-Thought),从而显著增强其在需要多步逻辑、规划和深入分析的视觉问答及其他视觉语言任务上的表现。与 Instruct 版本一样,它支持百万像素级的高分辨率图像,并具备强大的通用视觉理解和多语言能力
对话
Tools
视觉
推理模型
32B
256K
Qwen/Qwen3-VL-32B-Instruct
Qwen
¥4/ M Tokens
Qwen3-VL 是 Qwen3 系列中的视觉语言模型,在多个视觉语言(VL)基准测试中取得了领先(SOTA)性能。该模型支持百万像素级别的高分辨率图像输入,并具备强大的通用视觉理解、多语言 OCR、细粒度视觉定位和视觉对话能力。作为 Qwen3 系列的一部分,它继承了强大的语言基础,能够理解和执行复杂的指令
对话
Tools
视觉
32B
256K
New
deepseek-ai/DeepSeek-V3.2
deepseek-ai
¥3/ M Tokens
DeepSeek-V3.2 是一款兼具高计算效率与卓越推理和 Agent 性能的模型。其方法建立在三大关键技术突破之上:DeepSeek 稀疏注意力(DSA),一种高效的注意力机制,在保持模型性能的同时显著降低了计算复杂性,并特别针对长上下文场景进行了优化;可扩展的强化学习框架,通过该框架,模型性能可与 GPT-5 相媲美,其高算力版本在推理能力上可与 Gemini-3.0-Pro 匹敌;以及大规模 Agent 任务合成管线,旨在将推理能力整合到工具使用场景中,从而提高在复杂交互环境中的指令遵循和泛化能力。该模型在 2025 年国际数学奥林匹克(IMO)和国际信息学奥林匹克(IOI)中取得了金牌表现
对话
Tools
推理模型
MoE
671B
160K
FunAudioLLM/CosyVoice2-0.5B
FunAudioLLM
¥50/ M UTF-8 bytes
CosyVoice 2 是一个基于大语言模型的流式语音合成模型,采用统一的流式/非流式框架设计。该模型通过有限标量量化(FSQ)来提升语音 token 的编码本利用率,简化了文本到语音的语言模型架构,并开发了支持不同合成场景的分块感知因果流匹配模型。在流式模式下,模型可实现 150ms 的超低延迟,同时保持与非流式模式几乎相同的合成质量。相比 1.0 版本,发音错误率降低了 30%-50%,MOS 评分从 5.4 提升至 5.53,并支持情感和方言的细粒度控制。支持中文(含方言:粤语、四川话、上海话、天津话等)、英文、日语、韩语,支持跨语言和混合语言场景
语音
TTS
多语言
0.5B
IndexTeam/IndexTTS-2
IndexTeam
¥50/ M UTF-8 bytes
IndexTTS2 是一款突破性的自回归(autoregressive)零样本(zero-shot)文本到语音(TTS)模型,专注于解决现有模型在语音时长精确控制上的难题,尤其适用于视频配音等需要严格音画同步的场景。它创新性地提出了一种通用的时长控制方法,支持精确指定生成 token 数量和自由生成两种模式。此外,IndexTTS2 成功实现了情感表达与说话人音色的解耦,允许用户通过风格提示(style prompt)和音色提示(timbre prompt)独立控制情感和音色。为提升高昂情感表达下的语音清晰度,该模型引入了 GPT 潜层表示(GPT latent representations),并设计了新颖的三阶段训练范式。同时,为了降低情感控制的门槛,模型通过微调 Qwen3 设计了基于自然语言描述的软指令机制,能有效引导生成所需的情感语音。实验结果表明,IndexTTS2 在多项基准测试中,其单词错误率、说话人相似度和情感保真度均优于当前最先进的(SOTA)零样本 TTS 模型
语音
TTS
fnlp/MOSS-TTSD-v0.5
openmoss
¥50/ M UTF-8 bytes
MOSS-TTSD(text to spoken dialogue)是一个开源的双语(支持中文和英文)口语对话合成模型。它可以将两位说话者之间的对话脚本转换为自然且富有表现力的对话语音。其主要亮点包括:生成表现力丰富、接近真人的对话语音;支持零样本(zero-shot)双人声音克隆;以及单次可生成长达 960 秒的长时程语音。该模型基于统一的语义-声学神经音频编解码器、一个预训练的大语言模型以及海量的语音数据构建而成,非常适合用于 AI 播客制作等场景
语音
TTS
多语言
2.05B
FunAudioLLM/SenseVoiceSmall
FunAudioLLM
免费
SenseVoice 是一个具有多种语音理解能力的语音基础模型,包括自动语音识别(ASR)、口语语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)。SenseVoice-Small 模型采用非自回归端到端框架,具有非常低的推理延迟。它支持 50 多种语言的多语言语音识别,在中文和粤语识别方面表现优于 Whisper 模型。此外,它还具有出色的情感识别和音频事件检测能力。该模型处理 10 秒音频仅需 70 毫秒,比 Whisper-Large 快 15 倍
语音
ASR
多语言
DeprecatedinclusionAI/Ling-1T
inclusionAI
¥16/ M Tokens
Ling-1T 是"灵 2.0"系列的首款旗舰级 non-thinking 模型,拥有 1 万亿总参数和每 token 约 500 亿个活动参数。基于灵 2.0 架构构建,Ling-1T 旨在突破高效推理和可扩展认知的极限。Ling-1T-base 在超过 20 万亿个高质量、推理密集的 token 上进行了预训练,支持高达 128K 的上下文长度,并在中段训练和后训练中采用了进化思维链(Evo-CoT)过程。这一训练课程极大地提升了模型的效率和推理深度,使 Ling-1T 能够在多个复杂推理基准上实现顶尖性能,平衡了准确性与效率
对话
Tools
MoE
1T
128K
DeprecatedinclusionAI/Ring-1T
inclusionAI
¥16/ M Tokens
Ring-1T 是一款由百灵(Bailing)团队发布的万亿参数规模的开源思想模型。它基于 Ling 2.0 架构和 Ling-1T-base 基础模型训练,总参数量达 1 万亿,激活参数量为 500 亿,并支持高达 128K 的上下文窗口。该模型通过大规模可验证奖励强化学习(RLVR)训练,并结合自研的 Icepop 强化学习稳定化方法和高效的 ASystem 强化学习系统,显著提升了模型的深度推理和自然语言推理能力。Ring-1T 在数学竞赛(如 IMO 2025)、代码生成(如 ICPC World Finals 2025)和逻辑推理等高难度推理基准上取得了领先的开源模型表现
对话
Tools
推理模型
MoE
1T
128K
deepseek-ai/DeepSeek-V3.1-Terminus
deepseek-ai
¥12/ M Tokens
DeepSeek-V3.1-Terminus 是由深度求索(DeepSeek)发布的 V3.1 模型的更新版本,定位为混合智能体大语言模型。此次更新在保持模型原有能力的基础上,专注于修复用户反馈的问题并提升稳定性。它显著改善了语言一致性,减少了中英文混用和异常字符的出现。模型集成了“思考模式”(Thinking Mode)和“非思考模式”(Non-thinking Mode),用户可通过聊天模板灵活切换以适应不同任务。作为一个重要的优化,V3.1-Terminus 增强了代码智能体(Code Agent)和搜索智能体(Search Agent)的性能,使其在工具调用和执行多步复杂任务方面更加可靠
对话
Tools
MoE
671B
160K
moonshotai/Kimi-K2-Instruct-0905
moonshotai
¥16/ M Tokens
Kimi K2-Instruct-0905 是 Kimi K2 最新、最强大的版本。它是一款顶尖的混合专家(MoE)语言模型,拥有 1 万亿的总参数和 320 亿的激活参数。该模型的主要特性包括:增强的智能体编码智能,在公开基准测试和真实世界的编码智能体任务中表现出显著的性能提升;改进的前端编码体验,在前端编程的美观性和实用性方面均有进步
对话
Tools
MoE
1T
256K
Kwaipilot/KAT-Dev
Kwaipilot
¥4/ M Tokens
KAT-Dev(32B)是一款专为软件工程任务设计的开源 32B 参数模型。在 SWE-Bench Verified 基准测试中,它取得了 62.4% 的解决率,在所有不同规模的开源模型中排名第五。该模型通过多个阶段进行优化,包括中间训练、监督微调(SFT)与强化微调(RFT),以及大规模智能体强化学习(RL)。该模型基于 Qwen3-32B,其训练过程通过增强工具使用、多轮交互和指令遵循等基础能力,为后续微调和强化学习阶段奠定基础。在微调阶段,模型不仅学习了八种精心策划的任务类型和编程场景,还创新性地引入了强化微调(RFT)阶段,利用人类工程师标注的“教师轨迹”进行指导。最后的智能体强化学习阶段通过多级前缀缓存、基于熵的轨迹修剪和高效架构解决了扩展性挑战
对话
Tools
Coder
32B
128K
Qwen/Qwen3-VL-8B-Instruct
Qwen
¥2/ M Tokens
Qwen3-VL-8B-Instruct 是 Qwen3 系列的视觉语言模型。它基于 Qwen3-8B-Instruct 模型开发,并经过大量图文数据的训练。该模型在通用视觉理解、以视觉为中心的对话以及图像中的多语言文本识别方面表现出强大的能力。Qwen3-VL 在细粒度识别、文本理解和多图像比较方面表现出色,并支持高达 1024x1024 分辨率的高清图像
对话
Tools
视觉
8B
256K
Qwen/Qwen3-VL-8B-Thinking
Qwen
¥5/ M Tokens
Qwen3-VL-8B-Thinking 是 Qwen3 系列的视觉语言模型,专为需要复杂推理的场景优化。它基于 Qwen3-8B-Instruct 模型,并支持“思考模式”(Thinking Mode)。在该模式下,模型会在给出最终答案前进行一步步的思考和推理,从而显著提升在复杂视觉问答、多步指令遵循和逻辑推理任务上的表现。该模型在通用视觉理解、图文对话和多语言文字识别方面同样表现出色,并支持高达 1024x1024 分辨率的高清图像
对话
Tools
视觉
推理模型
8B
256K
Qwen/Qwen3-VL-30B-A3B-Instruct
Qwen
¥2.8/ M Tokens
Qwen3-VL 是 Qwen 系列迄今为止最强大的视觉语言模型。该模型进行了全面升级,包括卓越的文本理解与生成、更深层次的视觉感知与推理、更长的上下文长度、增强的空间和视频动态理解,以及更强的智能体交互能力。作为基于混合专家(MoE)架构的指令微调(Instruct)版本,它专为灵活、按需部署而设计,具备强大的视觉智能体、视觉编码和视频理解能力,并原生支持 256K 上下文
对话
FIM
Tools
视觉
MoE
30B
256K
Qwen/Qwen3-VL-30B-A3B-Thinking
Qwen
¥2.8/ M Tokens
Qwen3-VL 是 Qwen 系列迄今为止最强大的视觉语言模型。该模型进行了全面升级,包括卓越的文本理解与生成、更深层次的视觉感知与推理、更长的上下文长度、增强的空间和视频动态理解,以及更强的智能体交互能力。这个推理增强的 “Thinking” 版本基于混合专家(MoE)架构构建,擅长执行操作 PC/移动设备图形用户界面、从图像生成代码以及在 STEM 领域进行高级多模态推理等任务。它原生支持 256K 上下文长度,并拥有支持 32 种语言的扩展 OCR 能力
对话
FIM
Tools
视觉
推理模型
MoE
30B
256K
限免
deepseek-ai/DeepSeek-OCR
deepseek-ai
免费
DeepSeek-OCR 是由深度求索(DeepSeek AI)推出的一个视觉语言模型,专注于光学字符识别(OCR)与“上下文光学压缩”。该模型旨在探索从图像中压缩上下文信息的边界,能够高效处理文档并将其转换为如 Markdown 等结构化文本格式
对话
视觉
OCR
3B
8K
Qwen/Qwen3-VL-235B-A22B-Instruct
Qwen
¥10/ M Tokens
Qwen3-VL-235B-A22B-Instruct 是一个拥有 2350 亿参数的混合专家(MoE)视觉语言模型,其中激活的参数量为 220 亿。它是 Qwen3-VL-235B-A22B 的指令微调版本,专为聊天应用进行了优化。Qwen3-VL 是一系列接受文本和图像输入的多模态模型,经过大量数据训练。它在理解和推理文本与图像方面表现出先进的能力
对话
FIM
Tools
视觉
MoE
多语言
235B
256K
Qwen/Qwen3-VL-235B-A22B-Thinking
Qwen
¥10/ M Tokens
Qwen3-VL 是通义千问系列迄今最强大的视觉语言模型。该系列在文本理解与生成、视觉感知与推理、上下文长度、空间关系和视频动态理解以及 AI Agent 交互方面均实现了全面升级。Qwen3-VL-235B-A22B-Thinking 是该系列的旗舰模型之一,为推理增强的“思考”版本,在数学、因果分析和逻辑推理等多个多模态推理基准测试中取得了业界顶尖(SOTA)的表现。该模型是一个混合专家(MoE)架构,总参数量为 235B,激活参数量为 22B。它原生支持 256K 的上下文长度,并可扩展至 100 万,能够处理整本教科书或数小时的视频内容。此外,该模型具备强大的视觉 Agent 能力,可以操作桌面及移动端图形界面(GUI)、将草图转换为代码,并支持 3D 接地,为复杂的空间推理和具身智能应用奠定了基础
对话
FIM
Tools
视觉
推理模型
MoE
多语言
235B
256K
Qwen/Qwen3-Omni-30B-A3B-Instruct
Qwen
¥2.8/ M Tokens
Qwen3-Omni-30B-A3B-Instruct 是阿里巴巴通义千问团队最新 Qwen3 系列中的一员。它是一个拥有 300 亿总参数和 30 亿激活参数的混合专家(MoE)模型,在保持强大性能的同时有效降低了推理成本。该模型在高质量、多来源、多语言的数据上进行了训练,在基础能力如多语言对话、代码、数学等方面表现出色
对话
FIM
Tools
视觉
全模态
MoE
30B
64K
Qwen/Qwen3-Omni-30B-A3B-Thinking
Qwen
¥2.8/ M Tokens
Qwen3-Omni-30B-A3B-Thinking 是 Qwen3-Omni 全模态模型中的核心“思考者”(Thinker)组件。它专门负责处理包括文本、音频、图像和视频在内的多模态输入,并执行复杂的思维链推理。作为推理的大脑,该模型将所有输入统一到通用的表征空间进行理解和分析,但其输出形式为文本。这一设计使其在解决需要深度思考和跨模态理解的复杂问题(如图像数学题解答)时表现卓越,是整个 Qwen3-Omni 架构实现强大认知能力的关键
对话
FIM
Tools
视觉
全模态
推理模型
MoE
Qwen/Qwen3-Omni-30B-A3B-Captioner
Qwen
¥2.8/ M Tokens
Qwen3-Omni-30B-A3B-Captioner 是阿里巴巴通义千问团队 Qwen3 系列中的一款视觉语言模型(VLM)。它专门用于生成高质量、详细且准确的图像描述。该模型基于 300 亿总参数的混合专家(MoE)架构,能够深入理解图像内容并将其转化为丰富的自然语言文本
对话
FIM
Tools
视觉
MoE
30B
128K
限免
tencent/Hunyuan-MT-7B
hunyuan
免费
混元翻译模型(Hunyuan Translation Model)由一个翻译模型 Hunyuan-MT-7B 和一个集成模型 Hunyuan-MT-Chimera 组成。Hunyuan-MT-7B 是一个拥有 70 亿参数的轻量级翻译模型,用于将源文本翻译成目标语言。该模型支持 33 种语言以及 5 种中国少数民族语言的互译。在 WMT25 国际机器翻译竞赛中,Hunyuan-MT-7B 在其参与的 31 个语言类别中获得了 30 个第一名,展现了其卓越的翻译能力。针对翻译场景,腾讯混元提出了一个从预训练到监督微调、再到翻译强化和集成强化的完整训练范式,使其在同等规模的模型中达到了业界领先的性能。该模型计算效率高、易于部署,适合多种应用场景
对话
7B
32K
0324
deepseek-ai/DeepSeek-V3
deepseek-ai
¥8/ M Tokens
新版 DeepSeek-V3 (DeepSeek-V3-0324)与之前的 DeepSeek-V3-1226 使用同样的 base 模型,仅改进了后训练方法。新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平,在数学、代码类相关评测集上取得了超过 GPT-4.5 的得分成绩。此外该模型在工具调用、角色扮演、问答闲聊等方面也得到了一定幅度的能力提升。
对话
FIM
Tools
MoE
671B
128K
0528
deepseek-ai/DeepSeek-R1
deepseek-ai
¥16/ M Tokens
DeepSeek-R1-0528 是一款强化学习(RL)驱动的推理模型,解决了模型中的重复性和可读性问题。在 RL 之前,DeepSeek-R1 引入了冷启动数据,进一步优化了推理性能。它在数学、代码和推理任务中与 OpenAI-o1 表现相当,并且通过精心设计的训练方法,提升了整体效果。
对话
FIM
Tools
推理模型
MoE
671B
160K
1210
deepseek-ai/DeepSeek-V2.5
deepseek-ai
¥1.33/ M Tokens
DeepSeek-V2.5-1210 是 DeepSeek-V2.5 的升级版本,在多个能力方面都有显著提升。在数学能力方面,其在 MATH-500 基准测试上的表现从 74.8% 提升至 82.8%;在编程方面,LiveCodebench 基准测试的准确率从 29.2% 提升至 34.38%。同时在写作和推理方面也有明显改进。模型支持函数调用、JSON 输出和填充式补全等多种功能
对话
FIM
Tools
MoE
236B
32K
Deprecateddeepseek-ai/DeepSeek-V3.1-0820
deepseek-ai
¥12/ M Tokens
DeepSeek-V3.1 是由深度求索(DeepSeek AI)发布的混合模式大语言模型,它在前代模型的基础上进行了多方面的重要升级。该模型的一大创新是集成了“思考模式”(Thinking Mode)和“非思考模式”(Non-thinking Mode)于一体,用户可以通过调整聊天模板灵活切换,以适应不同的任务需求。通过专门的训练后优化,V3.1 在工具调用和 Agent 任务方面的性能得到了显著增强,能够更好地支持外部搜索工具和执行多步复杂任务。该模型基于 DeepSeek-V3.1-Base 进行后训练,通过两阶段长文本扩展方法,大幅增加了训练数据量,使其在处理长文档和长篇代码方面表现更佳。作为一个开源模型,DeepSeek-V3.1 在编码、数学和推理等多个基准测试中展现了与顶尖闭源模型相媲美的能力,同时凭借其混合专家(MoE)架构,在保持巨大模型容量的同时,有效降低了推理成本
对话
FIM
Tools
推理模型
MoE
671B
160K
DeprecatedPro/deepseek-ai/DeepSeek-V3.1-0820
deepseek-ai
¥12/ M Tokens
DeepSeek-V3.1 是由深度求索(DeepSeek AI)发布的混合模式大语言模型,它在前代模型的基础上进行了多方面的重要升级。该模型的一大创新是集成了“思考模式”(Thinking Mode)和“非思考模式”(Non-thinking Mode)于一体,用户可以通过调整聊天模板灵活切换,以适应不同的任务需求。通过专门的训练后优化,V3.1 在工具调用和 Agent 任务方面的性能得到了显著增强,能够更好地支持外部搜索工具和执行多步复杂任务。该模型基于 DeepSeek-V3.1-Base 进行后训练,通过两阶段长文本扩展方法,大幅增加了训练数据量,使其在处理长文档和长篇代码方面表现更佳。作为一个开源模型,DeepSeek-V3.1 在编码、数学和推理等多个基准测试中展现了与顶尖闭源模型相媲美的能力,同时凭借其混合专家(MoE)架构,在保持巨大模型容量的同时,有效降低了推理成本
对话
FIM
Tools
推理模型
MoE
671B
160K
inclusionAI/Ring-flash-2.0
inclusionAI
¥4/ M Tokens
Ring-flash-2.0 是一个基于 Ling-flash-2.0-base 深度优化的高性能思考模型。它采用混合专家(MoE)架构,总参数量为 100B,但在每次推理中仅激活 6.1B 参数。该模型通过独创的 icepop 算法,解决了 MoE 大模型在强化学习(RL)训练中的不稳定性难题,使其复杂推理能力在长周期训练中得以持续提升。Ring-flash-2.0 在数学竞赛、代码生成和逻辑推理等多个高难度基准测试中取得了显著突破,其性能不仅超越了 40B 参数规模以下的顶尖稠密模型,还能媲美更大规模的开源 MoE 模型及闭源的高性能思考模型。尽管该模型专注于复杂推理,它在创意写作等任务上也表现出色。此外,得益于其高效的架构设计,Ring-flash-2.0 在提供强大性能的同时,也实现了高速推理,显著降低了思考模型在高并发场景下的部署成本
对话
推理模型
MoE
106B
A6B
128K
Qwen/Qwen-Image-Edit-2509
Qwen
¥0.3/ Image
Qwen-Image-Edit-2509 是通义千问团队于 2025 年 9 月发布的图像编辑模型,是 Qwen-Image-Edit 的月度迭代版本。此次更新主要包含三大改进:一是新增了多图编辑能力,支持“人+人”、“人+景”和“人+物”等多种组合,目前在 1 至 3 张输入图片时效果最佳;二是在单图输入时显著增强了一致性,包括更优的人脸身份保持、商品特征保持和文字编辑效果;三是原生支持 ControlNet,可利用深度图、边缘图和关键点图等进行更精细的控制
生图
多图编辑
图生图
20B
inclusionAI/Ling-flash-2.0
inclusionAI
¥4/ M Tokens
Ling-flash-2.0 是由蚂蚁集团百灵团队发布的 Ling 2.0 架构系列的第三款模型。它是一款混合专家(MoE)模型,总参数规模达到 1000 亿,但每个 token 仅激活 61 亿参数(非词向量激活 48 亿)。 作为一个轻量级配置的模型,Ling-flash-2.0 在多个权威评测中展现出媲美甚至超越 400 亿级别稠密(Dense)模型及更大规模 MoE 模型的性能。该模型旨在通过极致的架构设计与训练策略,在“大模型等于大参数”的共识下探索高效能的路径
对话
Tools
MoE
106B
A6B
128K
inclusionAI/Ling-mini-2.0
inclusionAI
¥2/ M Tokens
Ling-mini-2.0 是一款基于 MoE 架构 的小尺寸高性能大语言模型。它拥有 16B 总参数,但每个 token 仅激活 1.4B(non-embedding 789M),从而实现了极高的生成速度。得益于高效的 MoE 设计与大规模高质量训练数据,尽管激活参数仅为 1.4B,Ling-mini-2.0 依然在下游任务中展现出可媲美 10B 以下 dense LLM 及更大规模 MoE 模型的顶尖性能
对话
Tools
MoE
16B
128K
Qwen/Qwen3-Embedding-4B
Qwen
¥0.14/ M Tokens
Qwen3-Embedding-4B 是 Qwen3 嵌入模型系列的最新专有模型,专为文本嵌入和排序任务设计。该模型基于 Qwen3 系列的密集基础模型,具有 40 亿参数规模,支持长达 32K 的上下文长度,可生成最高 2560 维的嵌入向量。模型继承了基础模型卓越的多语言能力,支持超过 100 种语言,具备长文本理解和推理能力。在 MTEB 多语言排行榜上表现卓越(得分 69.45),在文本检索、代码检索、文本分类、文本聚类和双语挖掘等多项任务中表现出色。模型支持用户自定义输出维度(32 到 2560)和指令感知功能,可根据特定任务、语言或场景进行优化,在效率和效果之间达到良好平衡
嵌入
2560 维
32K
Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen
¥4/ M Tokens
Qwen3-Next-80B-A3B-Instruct 是由阿里巴巴通义千问团队发布的下一代基础模型。它基于全新的 Qwen3-Next 架构,旨在实现极致的训练和推理效率。该模型采用了创新的混合注意力机制(Gated DeltaNet 和 Gated Attention)、高稀疏度混合专家(MoE)结构以及多项训练稳定性优化。作为一个拥有 800 亿总参数的稀疏模型,它在推理时仅需激活约 30 亿参数,从而大幅降低了计算成本,并在处理超过 32K tokens 的长上下文任务时,推理吞吐量比 Qwen3-32B 模型高出 10 倍以上。此模型为指令微调版本,专为通用任务设计,不支持思维链(Thinking)模式。在性能上,它与通义千问的旗舰模型 Qwen3-235B 在部分基准测试中表现相当,尤其在超长上下文任务中展现出明显优势
对话
Tools
MoE
80B
256K
Qwen/Qwen-Image-Edit
Qwen
¥0.3/ Image
Qwen-Image-Edit 是由阿里巴巴通义千问团队发布的 Qwen-Image 的图像编辑版本。该模型基于 20B 参数的 Qwen-Image 模型进行深入训练,将其独特的文本渲染能力成功扩展至图像编辑领域,实现了对图片中文字的精准编辑。此外,Qwen-Image-Edit 采用了一种创新的架构,将输入图像同时送入 Qwen2.5-VL(用于视觉语义控制)和 VAE Encoder(用于视觉外观控制),从而兼具语义与外观的双重编辑能力。这意味着它不仅支持元素的添加、删除或修改等局部外观编辑,还支持如 IP 创作、风格迁移等需要保持语义一致性的高阶视觉语义编辑。模型在多个公开基准测试中展现了顶尖(SOTA)的性能,使其成为一个强大的图像编辑基础模型
生图
Qwen/Qwen3-Next-80B-A3B-Thinking
Qwen
¥4/ M Tokens
Qwen3-Next-80B-A3B-Thinking 是由阿里巴巴通义千问团队发布的、专为复杂推理任务设计的下一代基础模型。它基于创新的 Qwen3-Next 架构,该架构融合了混合注意力机制(Gated DeltaNet 与 Gated Attention)和高稀疏度混合专家(MoE)结构,旨在实现极致的训练与推理效率。作为一个总参数达 800 亿的稀疏模型,它在推理时仅激活约 30 亿参数,大幅降低了计算成本,在处理超过 32K tokens 的长上下文任务时,吞吐量比 Qwen3-32B 模型高出 10 倍以上。此“Thinking”版本专为执行数学证明、代码综合、逻辑分析和规划等高难度多步任务而优化,并默认以结构化的“思维链”形式输出推理过程。在性能上,它不仅超越了 Qwen3-32B-Thinking 等成本更高的模型,还在多个基准测试中优于 Gemini-2.5-Flash-Thinking
对话
Tools
推理模型
MoE
80B
256K
Qwen/Qwen-Image
Qwen
¥0.3/ Image
Qwen-Image 是由阿里巴巴通义千问团队发布的图像生成基础模型,拥有 200 亿参数。该模型在复杂的文本渲染和精确的图像编辑方面取得了显著进展,尤其擅长生成包含高保真度中英文文字的图像。Qwen-Image 不仅能够处理多行布局和段落级文本,还能在生成图像时保持排版的连贯性和上下文的和谐。除了卓越的文本渲染能力,该模型还支持广泛的艺术风格,从写实照片到动漫美学,能够灵活适应各种创作需求。同时,它也具备强大的图像编辑和理解能力,支持风格迁移、物体增删、细节增强、文本编辑乃至人体姿态操控等高级操作,旨在成为一个集语言、布局和图像于一体的综合性智能视觉创作与处理基础模型
生图
ByteDance-Seed/Seed-OSS-36B-Instruct
ByteDance
¥4/ M Tokens
Seed-OSS 是由字节跳动 Seed 团队开发的一系列开源大型语言模型,专为强大的长上下文处理、推理、智能体(agent)和通用能力而设计。该系列中的 Seed-OSS-36B-Instruct 是一个拥有 360 亿参数的指令微调模型,它原生支持超长上下文长度,使其能够一次性处理海量文档或复杂的代码库。该模型在推理、代码生成和智能体任务(如工具使用)方面进行了特别优化,同时保持了平衡且出色的通用能力。此模型的一大特色是“思考预算”(Thinking Budget)功能,允许用户根据需要灵活调整推理长度,从而在实际应用中有效提升推理效率
对话
Tools
36B
256K
Wan-AI/Wan2.2-I2V-A14B
Wan
¥2/ Video
Wan2.2-I2V-A14B 是由阿里巴巴旗下 AI 项目 Wan-AI 发布的、业界首批采用混合专家(MoE)架构的开源图像到视频(Image-to-Video)生成模型之一。该模型专注于将静态图像和文本提示结合,生成平滑、自然的动态视频序列。其核心创新在于 MoE 架构,通过一个高噪声专家处理视频前期的大致结构,一个低噪声专家精修后期的画面细节,从而在不增加推理成本的情况下提升了模型性能。与前代模型相比,Wan2.2 在更大规模的数据集上进行了训练,显著增强了对复杂运动、美学风格和语义的理解能力,能生成更稳定的视频,减少了不真实的镜头移动
视频
MoE
27B
zai-org/GLM-4.5V
zai
¥6/ M Tokens
GLM-4.5V 是由智谱 AI(Zhipu AI)发布的最新一代视觉语言模型(VLM)该模型基于拥有 106B 总参数和 12B 激活参数的旗舰文本模型 GLM-4.5-Air 构建,采用了混合专家(MoE)架构,旨在以更低的推理成本实现卓越性能 GLM-4.5V 在技术上延续了 GLM-4.1V-Thinking 的路线,并引入了三维旋转位置编码(3D-RoPE)等创新,显著增强了对三维空间关系的感知与推理能力。通过在预训练、监督微调和强化学习阶段的优化,该模型具备了处理图像、视频、长文档等多种视觉内容的能力,在 41 个公开的多模态基准测试中达到了同级别开源模型的顶尖水平此外,模型还新增了“思考模式”开关,允许用户在快速响应和深度推理之间灵活选择,以平衡效率与效果
对话
Tools
视觉
推理模型
MoE
106B
64K
Wan-AI/Wan2.2-T2V-A14B
Wan
¥2/ Video
Wan2.2-T2V-A14B 是由阿里巴巴发布的、业界首个采用混合专家(MoE)架构的开源视频生成模型。该模型专注于文本到视频(Text-to-Video)的生成任务,能够制作时长 5 秒、分辨率为 480P 或 720P 的视频。通过引入 MoE 架构,模型在保持推理成本几乎不变的情况下扩大了总容量;其包含一个处理早期阶段整体布局的高噪声专家,和一个精炼后期视频细节的低噪声专家。此外,Wan2.2 融入了精选的美学数据,对光照、构图、色彩等维度进行了细致标注,从而实现了对电影级风格更精准、可控的生成。与前代相比,该模型在更大数据集上进行了训练,显著增强了在运动、语义和美学等方面的泛化能力,能更好地处理复杂的动态效果
视频
MoE
27B
stepfun-ai/step3
stepfun-ai
¥10/ M Tokens
Step3 是由阶跃星辰(StepFun)发布的前沿多模态推理模型,它基于拥有 321B 总参数和 38B 激活参数的专家混合(MoE)架构构建。该模型采用端到端设计,旨在最小化解码成本,同时在视觉语言推理方面提供顶级性能。通过多矩阵分解注意力(MFA)和注意力-FFN 解耦(AFD)的协同设计,Step3 在旗舰级和低端加速器上都能保持卓越的效率。在预训练阶段,Step3 处理了超过 20T 的文本 token 和 4T 的图文混合 token,覆盖十多种语言。该模型在数学、代码及多模态等多个基准测试中均达到了开源模型的领先水平
对话
Tools
视觉
MoE
321B
64K
Qwen/Qwen3-Coder-480B-A35B-Instruct
Qwen
¥16/ M Tokens
Qwen3-Coder-480B-A35B-Instruct 是由阿里巴巴发布的、迄今为止最具代理(Agentic)能力的代码模型。它是一个拥有 4800 亿总参数和 350 亿激活参数的混合专家(MoE)模型,在效率和性能之间取得了平衡。该模型原生支持 256K(约 26 万) tokens 的上下文长度,并可通过 YaRN 等外推方法扩展至 100 万 tokens,使其能够处理大规模代码库和复杂的编程任务。Qwen3-Coder 专为代理式编码工作流设计,不仅能生成代码,还能与开发工具和环境自主交互,以解决复杂的编程问题。在多个编码和代理任务的基准测试中,该模型在开源模型中取得了顶尖水平,其性能可与 Claude Sonnet 4 等领先模型相媲美。此外,阿里还开源了配套的命令行工具 Qwen Code,以充分释放其强大的代理编程能力
对话
Tools
Coder
MoE
480B
256K
Qwen/Qwen3-Coder-30B-A3B-Instruct
Qwen
¥2.8/ M Tokens
Qwen3-Coder-30B-A3B-Instruct 是由阿里巴巴通义千问团队开发的 Qwen3 系列中的代码模型。作为一个经过精简优化的模型,它在保持高性能和高效率的同时,专注于提升代码处理能力。该模型在代理式编程(Agentic Coding)、自动化浏览器操作和工具调用等复杂任务上,于开源模型中表现出显著的性能优势。它原生支持 256K tokens 的长上下文,并可扩展至 1M tokens,从而能够更好地进行代码库级别的理解和处理。此外,该模型为 Qwen Code、CLINE 等平台提供了强大的代理编码支持,并设计了专门的函数调用格式
对话
FIM
Tools
Coder
MoE
30B
256K
Qwen/Qwen3-235B-A22B-Thinking-2507
Qwen
¥10/ M Tokens
Qwen3-235B-A22B-Thinking-2507 是由阿里巴巴通义千问团队开发的 Qwen3 系列大型语言模型中的一员,专注于高难度的复杂推理任务。该模型基于混合专家(MoE)架构,总参数量达 2350 亿,而在处理每个 token 时仅激活约 220 亿参数,从而在保持强大性能的同时提高了计算效率。作为一个专门的“思考”模型,它在逻辑推理、数学、科学、编程和学术基准测试等需要人类专业知识的任务上表现显著提升,达到了开源思考模型中的顶尖水平。此外,模型还增强了通用能力,如指令遵循、工具使用和文本生成,并原生支持 256K 的长上下文理解能力,非常适合用于需要深度推理和处理长文档的场景
对话
Tools
MoE
235B
256K
Qwen/Qwen3-235B-A22B-Instruct-2507
Qwen
¥10/ M Tokens
Qwen3-235B-A22B-Instruct-2507 是由阿里云通义千问团队开发的 Qwen3 系列中的一款旗舰级混合专家(MoE)大语言模型。该模型拥有 2350 亿总参数,每次推理激活 220 亿参数。它是作为 Qwen3-235B-A22B 非思考模式的更新版本发布的,专注于在指令遵循、逻辑推理、文本理解、数学、科学、编程及工具使用等通用能力上实现显著提升。此外,模型增强了对多语言长尾知识的覆盖,并能更好地对齐用户在主观和开放性任务上的偏好,以生成更有帮助和更高质量的文本。值得注意的是,该模型原生支持 256K(即 262,144 tokens)的超长上下文窗口,强化了其处理复杂长文本的能力。此版本仅支持非思考模式,不再生成 <think> 模块,旨在为直接问答、知识检索等任务提供更高效和精准的响应
对话
Tools
MoE
235B
256K
zai-org/GLM-4.5-Air
zai
¥6/ M Tokens
GLM-4.5-Air 是一款专为智能体应用打造的基础模型,使用了混合专家(Mixture-of-Experts)架构。在工具调用、网页浏览、软件工程、前端编程领域进行了深度优化,支持无缝接入 Claude Code、Roo Code 等代码智能体中使用。GLM-4.5 采用混合推理模式,可以适应复杂推理和日常使用等多种应用场景
对话
Tools
推理模型
MoE
106B
128K
Qwen/Qwen3-30B-A3B-Instruct-2507
Qwen
¥2.8/ M Tokens
Qwen3-30B-A3B-Instruct-2507 是 Qwen3-30B-A3B 非思考模式的更新版本。这是一个拥有 305 亿总参数和 33 亿激活参数的混合专家(MoE)模型。该模型在多个方面进行了关键增强,包括显著提升了指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用等通用能力。同时,它在多语言的长尾知识覆盖范围上取得了实质性进展,并能更好地与用户在主观和开放式任务中的偏好对齐,从而能够生成更有帮助的回复和更高质量的文本。此外,该模型的长文本理解能力也增强到了 256K。此模型仅支持非思考模式,其输出中不会生成 `<think></think>` 标签
对话
Tools
MoE
30B
256K
Deprecatedmoonshotai/Kimi-K2-Instruct-0711
moonshotai
¥16/ M Tokens
Kimi K2 是一款具备超强代码和 Agent 能力的 MoE 架构基础模型,总参数 1T,激活参数 32B。在通用知识推理、编程、数学、Agent 等主要类别的基准性能测试中,K2 模型的性能超过其他主流开源模型
对话
Tools
MoE
1T
128K
DeprecatedPro/moonshotai/Kimi-K2-Instruct-0711
moonshotai
¥16/ M Tokens
Kimi K2 是一款具备超强代码和 Agent 能力的 MoE 架构基础模型,总参数 1T,激活参数 32B。在通用知识推理、编程、数学、Agent 等主要类别的基准性能测试中,K2 模型的性能超过其他主流开源模型
对话
Tools
MoE
1T
128K
Pro/THUDM/GLM-4.1V-9B-Thinking
zai
¥1/ M Tokens
GLM-4.1V-9B-Thinking 是由智谱 AI 和清华大学 KEG 实验室联合发布的一款开源视觉语言模型(VLM),专为处理复杂的多模态认知任务而设计。该模型基于 GLM-4-9B-0414 基础模型,通过引入“思维链”(Chain-of-Thought)推理机制和采用强化学习策略,显著提升了其跨模态的推理能力和稳定性。作为一个 9B 参数规模的轻量级模型,它在部署效率和性能之间取得了平衡,在 28 项权威评测基准中,有 18 项的表现持平甚至超越了 72B 参数规模的 Qwen-2.5-VL-72B。该模型不仅在图文理解、数学科学推理、视频理解等任务上表现卓越,还支持高达 4K 分辨率的图像和任意宽高比输入
对话
视觉
9B
64K
Qwen/Qwen3-30B-A3B-Thinking-2507
Qwen
¥2.8/ M Tokens
Qwen3-30B-A3B-Thinking-2507 是由阿里巴巴通义千问团队发布的 Qwen3 系列的最新思考模型。作为一个拥有 305 亿总参数和 33 亿激活参数的混合专家(MoE)模型,它专注于提升复杂任务的处理能力。该模型在逻辑推理、数学、科学、编程和需要人类专业知识的学术基准测试上表现出显著的性能提升。同时,它在指令遵循、工具使用、文本生成和与人类偏好对齐等通用能力方面也得到了显著增强。模型原生支持 256K 的长上下文理解能力,并可扩展至 100 万 tokens。此版本专为“思考模式”设计,旨在通过详尽的逐步推理来解决高度复杂的任务,其 Agent 智能体能力也表现出色
对话
Tools
推理模型
MoE
30B
256K
THUDM/GLM-4.1V-9B-Thinking
zai
免费
GLM-4.1V-9B-Thinking 是由智谱 AI 和清华大学 KEG 实验室联合发布的一款开源视觉语言模型(VLM),专为处理复杂的多模态认知任务而设计。该模型基于 GLM-4-9B-0414 基础模型,通过引入“思维链”(Chain-of-Thought)推理机制和采用强化学习策略,显著提升了其跨模态的推理能力和稳定性。作为一个 9B 参数规模的轻量级模型,它在部署效率和性能之间取得了平衡,在 28 项权威评测基准中,有 18 项的表现持平甚至超越了 72B 参数规模的 Qwen-2.5-VL-72B。该模型不仅在图文理解、数学科学推理、视频理解等任务上表现卓越,还支持高达 4K 分辨率的图像和任意宽高比输入
对话
视觉
9B
64K
MiniMaxAI/MiniMax-M1-80k
MiniMaxAI
¥16/ M Tokens
MiniMax-M1 是开源权重的大规模混合注意力推理模型,拥有 4560 亿参数,每个 Token 可激活约 459 亿参数。模型原生支持 100 万 Token 的超长上下文,并通过闪电注意力机制,在 10 万 Token 的生成任务中相比 DeepSeek R1 节省 75% 的浮点运算量。同时,MiniMax-M1 采用 MoE(混合专家)架构,结合 CISPO 算法与混合注意力设计的高效强化学习训练,在长输入推理与真实软件工程场景中实现了业界领先的性能。
对话
推理模型
MoE
456B
128K
moonshotai/Kimi-Dev-72B
moonshotai
¥8/ M Tokens
Kimi-Dev-72B 是新一代开源编程大模型,在 SWE-bench Verified 上取得 60.4% 的领先成绩。通过大规模强化学习优化,能在真实 Docker 环境中自动修复代码,仅在通过完整测试集时获得奖励,从而保证解决方案的正确性和鲁棒性,更贴近真实软件开发标准
对话
推理模型
72B
128K
tencent/Hunyuan-A13B-Instruct
hunyuan
¥4/ M Tokens
Hunyuan-A13B-Instruct 参数量800 亿,激活 130 亿参数即可对标更大模型,支持“快思考/慢思考”混合推理;长文理解稳定;经 BFCL-v3 与 τ-Bench 验证,Agent 能力领先;结合 GQA 与多量化格式,实现高效推理。
对话
推理模型
MoE
80B
128K
baidu/ERNIE-4.5-300B-A47B
baidu
¥8/ M Tokens
ERNIE-4.5-300B-A47B 是由百度公司开发的一款基于混合专家(MoE)架构的大语言模型。该模型总参数量为 3000 亿,但在推理时每个 token 仅激活 470 亿参数,从而在保证强大性能的同时兼顾了计算效率。作为 ERNIE 4.5 系列的核心模型之一,在文本理解、生成、推理和编程等任务上展现出卓越的能力。该模型采用了一种创新的多模态异构 MoE 预训练方法,通过文本与视觉模态的联合训练,有效提升了模型的综合能力,尤其在指令遵循和世界知识记忆方面效果突出。百度已将该模型连同系列内其他模型一同开源,旨在推动 AI 技术的研发与应用
对话
MoE
300B
128K
Qwen/Qwen3-32B
Qwen
¥4/ M Tokens
Qwen3-32B 是通义千问系列的最新大语言模型,拥有 32.8B 参数量。该模型独特地支持在思考模式(适用于复杂逻辑推理、数学和编程)和非思考模式(适用于高效的通用对话)之间无缝切换,显著增强了推理能力。模型在数学、代码生成和常识逻辑推理上表现优异,并在创意写作、角色扮演和多轮对话等方面展现出卓越的人类偏好对齐能力。此外,该模型支持 100 多种语言和方言,具备出色的多语言指令遵循和翻译能力
对话
Tools
推理模型
32B
128K
Qwen/Qwen3-30B-A3B
Qwen
¥2.8/ M Tokens
Qwen3-30B-A3B 是通义千问系列的最新大语言模型,采用混合专家(MoE)架构,拥有 30.5B 总参数量和 3.3B 激活参数量。该模型独特地支持在思考模式(适用于复杂逻辑推理、数学和编程)和非思考模式(适用于高效的通用对话)之间无缝切换,显著增强了推理能力。模型在数学、代码生成和常识逻辑推理上表现优异,并在创意写作、角色扮演和多轮对话等方面展现出卓越的人类偏好对齐能力。此外,该模型支持 100 多种语言和方言,具备出色的多语言指令遵循和翻译能力
对话
Tools
推理模型
MoE
30B
128K
Tongyi-Zhiwen/QwenLong-L1-32B
Qwen
¥4/ M Tokens
QwenLong-L1-32B 是首个使用强化学习训练的长上下文大型推理模型(LRM),专门针对长文本推理任务进行优化。该模型通过渐进式上下文扩展的强化学习框架,实现了从短上下文到长上下文的稳定迁移。在七个长上下文文档问答基准测试中,QwenLong-L1-32B 超越了 OpenAI-o3-mini 和 Qwen3-235B-A22B 等旗舰模型,性能可媲美 Claude-3.7-Sonnet-Thinking。该模型特别擅长数学推理、逻辑推理和多跳推理等复杂任务
对话
FIM
推理模型
32B
128K
Qwen/Qwen3-Embedding-8B
Qwen
¥0.28/ M Tokens
Qwen3-Embedding-8B 是 Qwen3 嵌入模型系列的最新专有模型,专为文本嵌入和排序任务设计。该模型基于 Qwen3 系列的密集基础模型,具有 80 亿参数规模,支持长达 32K 的上下文长度,可生成最高 4096 维的嵌入向量。该模型继承了基础模型卓越的多语言能力,支持超过 100 种语言,具备长文本理解和推理能力。在 MTEB 多语言排行榜上排名第一(截至 2025 年 6 月 5 日,得分 70.58),在文本检索、代码检索、文本分类、文本聚类和双语挖掘等多项任务中表现出色。模型支持用户自定义输出维度(32 到 4096)和指令感知功能,可根据特定任务、语言或场景进行优化
嵌入
4096 维
32K
Qwen/Qwen3-Reranker-8B
Qwen
¥0.28/ M Tokens
Qwen3-Reranker-8B 是 Qwen3 系列中拥有 80 亿参数的文本重排模型。 它的设计目标是通过根据查询对文档的相关性进行精确重排,从而优化并提升搜索结果的质量。 该模型构建于强大的 Qwen3 基础模型之上,擅长理解长文本(支持 32k 上下文长度),并支持超过 100 种语言。 Qwen3-Reranker-8B 作为其灵活系列的一员,在多种文本和代码检索场景中展现了顶尖的性能
重排序
32K
Qwen/Qwen3-14B
Qwen
¥2/ M Tokens
Qwen3-14B 是通义千问系列的最新大语言模型,拥有 14.8B 参数量。该模型独特地支持在思考模式(适用于复杂逻辑推理、数学和编程)和非思考模式(适用于高效的通用对话)之间无缝切换,显著增强了推理能力。模型在数学、代码生成和常识逻辑推理上表现优异,并在创意写作、角色扮演和多轮对话等方面展现出卓越的人类偏好对齐能力。此外,该模型支持 100 多种语言和方言,具备出色的多语言指令遵循和翻译能力
对话
Tools
推理模型
14B
128K
Qwen/Qwen3-Embedding-0.6B
Qwen
¥0.07/ M Tokens
Qwen3-Embedding-0.6B 是 Qwen3 嵌入模型系列的最新专有模型,专为文本嵌入和排序任务设计。该模型基于 Qwen3 系列的密集基础模型,具有 6 亿参数规模,支持长达 32K 的上下文长度,可生成最高 1024 维的嵌入向量。模型继承了基础模型卓越的多语言能力,支持超过 100 种语言,具备长文本理解和推理能力。在 MTEB 多语言排行榜上表现优异(得分 64.33),在文本检索、代码检索、文本分类、文本聚类和双语挖掘等多项任务中表现出色。模型支持用户自定义输出维度(32 到 1024)和指令感知功能,可根据特定任务、语言或场景进行优化,为需要平衡效率和效果的应用场景提供理想选择
嵌入
1024 维
32K
Qwen/Qwen3-Reranker-0.6B
Qwen
¥0.07/ M Tokens
Qwen3-Reranker-0.6B 是一款来自 Qwen3 系列的文本重排模型。 它专为优化初始检索系统的结果而设计,其核心功能是根据给定查询对文档的相关性进行重新排序。 该模型拥有 6 亿参数和 32k 的上下文长度,并继承了其 Qwen3 基础模型强大的多语言(支持超过 100 种语言)、长文本理解及推理能力。评测结果显示,Qwen3-Reranker-0.6B 在 MTEB-R、CMTEB-R 和 MLDR 等多个文本检索基准测试中均取得了优异的性能
重排序
32K
Qwen/Qwen3-Reranker-4B
Qwen
¥0.14/ M Tokens
Qwen3-Reranker-4B 是一款功能强大的文本重排模型,源自 Qwen3 系列,拥有 40 亿参数。 该模型旨在通过根据查询对初始文档列表进行重新排序,从而显著提升搜索结果的相关性。 它继承了其 Qwen3 基础模型的核心优势,包括对长文本(上下文长度高达 32k)的卓越理解能力以及对超过 100 种语言的强大支持。 基准测试结果表明,Qwen3-Reranker-4B 模型在各种文本和代码检索评测中表现出色
重排序
32K
DeprecatedWan-AI/Wan2.1-I2V-14B-720P-Turbo
Wan
¥1.5/ Video
Wan2.1-I2V-14B-720P-Turbo 是 Wan2.1-I2V-14B-720P 模型的 TeaCache 加速版,单个视频生成时间压缩 30%。Wan2.1-I2V-14B-720P 是一个开源的高级图像到视频生成模型,是 Wan2.1 视频基础模型套件的一部分。该 14B 模型能够生成 720P 高清视频,经过数千轮人工评估,达到了先进性能水平。它采用扩散变换器架构,并通过创新的时空变分自编码器(VAE)、可扩展的训练策略和大规模数据构建来提升生成能力。该模型还能够理解和处理中、英文文本,为视频生成任务提供了强大支持
视频
14B
图生视频
DeprecatedWan-AI/Wan2.1-I2V-14B-720P
Wan
¥2/ Video
Wan2.1-I2V-14B-720P 是一个开源的高级图像到视频生成模型,是 Wan2.1 视频基础模型套件的一部分。该 14B 模型能够生成 720P 高清视频,经过数千轮人工评估,达到先进性能水平。它采用扩散变换器架构,并通过创新的时空变分自编码器(VAE)、可扩展的训练策略和大规模数据构建来提升生成能力。该模型还能够理解和处理中、英文文本,为视频生成任务提供了强大支持
视频
14B
图生视频
DeprecatedWan-AI/Wan2.1-T2V-14B-Turbo
Wan
¥1.5/ Video
Wan2.1-T2V-14B-T 是 Wan2.1-T2V-14B 模型的 TeaCache 加速版,单个视频生成时间压缩 30%。Wan2.1-T2V-14B 模型在开源和闭源模型中均创造了最先进的性能基准,能够生成具有显著动态效果的高质量视觉内容。它是唯一一个能够同时生成中英文文本的视频模型,并支持 480P 和 720P 分辨率的视频生成。模型采用扩散变换器架构,并通过创新的时空变分自编码器(VAE)、可扩展的训练策略和大规模数据构建来提升生成能力
视频
14B
DeprecatedWan-AI/Wan2.1-T2V-14B
Wan
¥2/ Video
Wan2.1-T2V-14B 是一个开源的高级文本到视频生成模型,该 14B 模型在开源和闭源模型中均创造了最先进的性能基准,能够生成具有显著动态效果的高质量视觉内容。它是唯一一个能够同时生成中英文文本的视频模型,并支持 480P 和 720P 分辨率的视频生成。模型采用扩散变换器架构,并通过创新的时空变分自编码器(VAE)、可扩展的训练策略和大规模数据构建来提升生成能力
视频
14B
Deprecatedtencent/HunyuanVideo-HD
hunyuan
¥2.8/ Video
HunyuanVideo 是腾讯推出的开源视频生成基础模型,拥有超过 130 亿参数,是目前最大的开源视频生成模型。该模型采用统一的图像和视频生成架构,集成了数据整理、图像-视频联合模型训练和高效基础设施等关键技术。模型使用多模态大语言模型作为文本编码器,通过 3D VAE 进行空间-时间压缩,并提供提示词重写功能。根据专业人工评估结果,HunyuanVideo 在文本对齐、运动质量和视觉质量等方面的表现优于现有最先进的模型
视频
13B
ascend-tribe/pangu-pro-moe
ascend-tribe
¥4/ M Tokens
Pangu-Pro-MoE 72B-A16B 是一款 720 亿参数、激活 160 亿参的稀疏大语言模型,它基于分组混合专家(MoGE)架构,它在专家选择阶段对专家进行分组,并约束 token 在每个组内激活等量专家,从而实现专家负载均衡,显著提升模型在昇腾平台的部署效率
对话
推理模型
MoE
72B
128k
Deprecateddeepseek-ai/DeepSeek-Coder-V2-Instruct
deepseek-ai
¥1.33/ M Tokens
DeepSeek-Coder-V2 是一个开源的混合专家(MoE)代码语言模型,在代码相关任务中达到了与 GPT4-Turbo 相当的性能。它是在 DeepSeek-V2 的中间检查点基础上,通过额外 6 万亿个 token 的预训练而来。该模型显著提升了编码和数学推理能力,同时保持了通用语言任务的性能。相比 DeepSeek-Coder-33B,它在各方面都有显著进步,支持的编程语言从 86 种扩展到 338 种,上下文长度从 16K 扩展到 128K。在标准基准评估中,DeepSeek-Coder-V2 在编码和数学基准测试中的表现超过了 GPT4-Turbo、Claude 3 Opus 和 Gemini 1.5 Pro 等闭源模型
对话
FIM
Coder
MoE
236B
32K
DeprecatedQwen/Qwen2-57B-A14B-Instruct
Qwen
¥1.26/ M Tokens
Qwen2-57B-A14B-Instruct 是 Qwen2 系列中的指令微调大语言模型,采用混合专家(Mixture-of-Experts)架构,总参数量为 57B,激活参数为 14B。该模型基于 Transformer 架构,使用了 SwiGLU 激活函数、注意力 QKV 偏置和组查询注意力等技术。它能够处理大规模输入。在语言理解、生成、多语言能力、编码、数学和推理等多个基准测试中,该模型表现出色,超越了大多数开源模型,并在某些任务上展现出与专有模型相当的竞争力
对话
MoE
57B
32K
Deprecateddeepseek-ai/DeepSeek-V2-Chat
deepseek-ai
¥1.33/ M Tokens
DeepSeek-V2 是一个强大、经济高效的混合专家(MoE)语言模型。它在 8.1 万亿个 token 的高质量语料库上进行了预训练,并通过监督微调(SFT)和强化学习(RL)进一步提升了模型能力。与 DeepSeek 67B 相比, DeepSeek-V2 在性能更强的同时,节省了 42.5% 的训练成本,减少了 93.3% 的 KV 缓存,并将最大生成吞吐量提高到了 5.76 倍。该模型支持 128k 的上下文长度,在标准基准测试和开放式生成评估中都表现出色
对话
MoE
236B
32K
DeprecatedTencent/Hunyuan-A52B-Instruct
hunyuan
¥21/ M Tokens
混元大模型(Hunyuan-Large)是业界最大的开源 Transformer 架构 MoE 模型,拥有 3890 亿总参数量和 520 亿激活参数量。该模型采用了高质量合成数据训练、KV 缓存压缩、专家特定学习率缩放等创新技术。在 MMLU、CMMLU、数学推理等多个基准测试中都展现出优异表现
对话
MoE
389B
32K
DeprecatedPro/deepseek-ai/DeepSeek-V3-1226
deepseek-ai
¥8/ M Tokens
DeepSeek-V3 是一款拥有 6710 亿参数的混合专家(MoE)语言模型,采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,结合无辅助损失的负载平衡策略,优化推理和训练效率。通过在 14.8 万亿高质量tokens上预训练,并进行监督微调和强化学习,DeepSeek-V3 在性能上超越其他开源模型,接近领先闭源模型。
对话
FIM
Tools
MoE
671B
64K
DeprecatedPro/deepseek-ai/DeepSeek-R1-0120
deepseek-ai
¥16/ M Tokens
DeepSeek-R1 是一款强化学习(RL)驱动的推理模型,解决了模型中的重复性和可读性问题。在 RL 之前,DeepSeek-R1 引入了冷启动数据,进一步优化了推理性能。它在数学、代码和推理任务中与 OpenAI-o1 表现相当,并且通过精心设计的训练方法,提升了整体效果。
对话
FIM
Tools
推理模型
MoE
671B
96K
deepseek-ai/deepseek-vl2
deepseek-ai
¥0.99/ M Tokens
DeepSeek-VL2 是一个基于 DeepSeekMoE-27B 开发的混合专家(MoE)视觉语言模型,采用稀疏激活的 MoE 架构,在仅激活 4.5B 参数的情况下实现了卓越性能。该模型在视觉问答、光学字符识别、文档/表格/图表理解和视觉定位等多个任务中表现优异,与现有的开源稠密模型和基于 MoE 的模型相比,在使用相同或更少的激活参数的情况下,实现了具有竞争力的或最先进的性能表现
对话
视觉
MoE
27B
4K
DeprecatedQwen/QwQ-32B-Preview
Qwen
¥1.26/ M Tokens
QwQ-32B-Preview是Qwen 最新的实验性研究模型,专注于提升AI推理能力。通过探索语言混合、递归推理等复杂机制,主要优势包括强大的推理分析能力、数学和编程能力。与此同时,也存在语言切换问题、推理循环、安全性考虑、其他能力方面的差异。
对话
32B
32K
Qwen/Qwen2.5-Coder-32B-Instruct
Qwen
¥1.26/ M Tokens
Qwen2.5-Coder-32B-Instruct 是基于 Qwen2.5 开发的代码特定大语言模型。该模型通过 5.5 万亿 tokens 的训练,在代码生成、代码推理和代码修复方面都取得了显著提升。它是当前最先进的开源代码语言模型,编码能力可与 GPT-4 相媲美。模型不仅增强了编码能力,还保持了在数学和通用能力方面的优势,并支持长文本处理
对话
FIM
Tools
Coder
32B
32K
DeprecatedQwen/Qwen2-1.5B-Instruct
Qwen
免费
Qwen2-1.5B-Instruct 是 Qwen2 系列中的指令微调大语言模型,参数规模为 1.5B。该模型基于 Transformer 架构,采用了 SwiGLU 激活函数、注意力 QKV 偏置和组查询注意力等技术。它在语言理解、生成、多语言能力、编码、数学和推理等多个基准测试中表现出色,超越了大多数开源模型。与 Qwen1.5-1.8B-Chat 相比,Qwen2-1.5B-Instruct 在 MMLU、HumanEval、GSM8K、C-Eval 和 IFEval 等测试中均显示出显著的性能提升,尽管参数量略少
对话
Free
1.5B
32K
DeprecatedPro/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
deepseek-ai
¥0.14/ M Tokens
DeepSeek-R1-Distill-Qwen-1.5B 是基于 Qwen2.5-Math-1.5B 通过知识蒸馏得到的模型。该模型使用 DeepSeek-R1 生成的 80 万个精选样本进行微调,在多个基准测试中展现出不错的性能。作为一个轻量级模型,在 MATH-500 上达到了 83.9% 的准确率,在 AIME 2024 上达到了 28.9% 的通过率,在 CodeForces 上获得了 954 的评分,显示出超出其参数规模的推理能力
对话
Tools
推理模型
1.5B
128K
Math
Deprecateddeepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
deepseek-ai
免费
DeepSeek-R1-Distill-Qwen-1.5B 是基于 Qwen2.5-Math-1.5B 通过知识蒸馏得到的模型。该模型使用 DeepSeek-R1 生成的 80 万个精选样本进行微调,在多个基准测试中展现出不错的性能。作为一个轻量级模型,在 MATH-500 上达到了 83.9% 的准确率,在 AIME 2024 上达到了 28.9% 的通过率,在 CodeForces 上获得了 954 的评分,显示出超出其参数规模的推理能力
对话
Tools
推理模型
1.5B
128K
Math
Deprecatedinternlm/internlm2_5-20b-chat
internlm
¥1/ M Tokens
InternLM2.5-20B-Chat 是一个开源的大规模对话模型,基于 InternLM2 架构开发。该模型拥有 200 亿参数,在数学推理方面表现出色,超越了同量级的 Llama3 和 Gemma2-27B 模型。InternLM2.5-20B-Chat 在工具调用能力方面有显著提升,支持从上百个网页收集信息进行分析推理,并具备更强的指令理解、工具选择和结果反思能力。它适用于构建复杂智能体,可进行多轮工具调用以完成复杂任务
对话
Tools
20B
32K
DeprecatedTHUDM/chatglm3-6b
zai
免费
ChatGLM3-6B 是 ChatGLM 系列的开源模型,由智谱 AI 开发。该模型保留了前代模型的优秀特性,如对话流畅和部署门槛低,同时引入了新的特性。它采用了更多样的训练数据、更充分的训练步数和更合理的训练策略,在 10B 以下的预训练模型中表现出色。ChatGLM3-6B 支持多轮对话、工具调用、代码执行和 Agent 任务等复杂场景。除对话模型外,还开源了基础模型 ChatGLM-6B-Base 和长文本对话模型 ChatGLM3-6B-32K。该模型对学术研究完全开放,在登记后也允许免费商业使用
对话
Free
6B
32K
DeprecatedPro/Qwen/Qwen2-VL-7B-Instruct
Qwen
¥0.35/ M Tokens
Qwen2-VL-7B-Instruct 是 Qwen-VL 模型的最新迭代版本,在视觉理解基准测试中达到了最先进的性能,包括 MathVista、DocVQA、RealWorldQA 和 MTVQA 等。Qwen2-VL 能够用于高质量的基于视频的问答、对话和内容创作,还具备复杂推理和决策能力,可以与移动设备、机器人等集成,基于视觉环境和文本指令进行自动操作。除了英语和中文,Qwen2-VL 现在还支持理解图像中不同语言的文本,包括大多数欧洲语言、日语、韩语、阿拉伯语和越南语等
对话
视觉
7B
32K
DeprecatedPro/Qwen/Qwen2-1.5B-Instruct
Qwen
¥0.14/ M Tokens
Qwen2-1.5B-Instruct 是 Qwen2 系列中的指令微调大语言模型,参数规模为 1.5B。该模型基于 Transformer 架构,采用了 SwiGLU 激活函数、注意力 QKV 偏置和组查询注意力等技术。它在语言理解、生成、多语言能力、编码、数学和推理等多个基准测试中表现出色,超越了大多数开源模型。与 Qwen1.5-1.8B-Chat 相比,Qwen2-1.5B-Instruct 在 MMLU、HumanEval、GSM8K、C-Eval 和 IFEval 等测试中均显示出显著的性能提升,尽管参数量略少
对话
1.5B
32K
deepseek-ai/DeepSeek-R1-0528-Qwen3-8B
deepseek-ai
免费
DeepSeek-R1-0528-Qwen3-8B 是通过从 DeepSeek-R1-0528 模型蒸馏思维链到 Qwen3 8B Base 获得的模型。该模型在开源模型中达到了最先进(SOTA)的性能,在 AIME 2024 测试中超越了 Qwen3 8B 10%,并达到了 Qwen3-235B-thinking 的性能水平。该模型在数学推理、编程和通用逻辑等多个基准测试中表现出色,其架构与 Qwen3-8B 相同,但共享 DeepSeek-R1-0528 的分词器配置
对话
推理模型
8B
128K
THUDM/GLM-Z1-Rumination-32B-0414
zai
¥4/ M Tokens
GLM-Z1-Rumination-32B-0414 是一个具有沉思能力的深度推理模型(与 OpenAI 的 Deep Research 对标)。与典型的深度思考模型不同,沉思模型采用更长时间的深度思考来解决更开放和复杂的问题(例如,撰写关于两个城市 AI 发展的比较分析及其未来发展计划)。该模型在深度思考过程中集成了搜索工具以处理复杂任务,并通过利用多种基于规则的奖励来指导和扩展端到端强化学习进行训练。Z1-Rumination 在研究风格的写作和复杂检索任务上显示出显著的改进。该模型支持“自主提出问题—搜索信息—构建分析—完成任务”的完整研究闭环,默认支持搜索、点击、打开和完成等函数调用功能,使其能够更好地处理需要外部信息的复杂问题
对话
32B
128K
推理模型
THUDM/GLM-Z1-9B-0414
zai
免费
GLM-Z1-9B-0414 是 GLM 系列的小型模型,仅有 90 亿参数,但保持了开源传统的同时展现出惊人的能力。尽管规模较小,该模型在数学推理和通用任务上仍表现出色,其总体性能在同等规模的开源模型中已处于领先水平。研究团队采用了与大模型相同的一系列技术进行训练,使其在资源受限的场景中能够实现效率与效果的绝佳平衡,为寻求轻量级部署的用户提供强大选择。特别是在资源受限的场景下,该模型可以很好地在效率与效果之间取得平衡,为需要轻量化部署的用户提供强有力的选择
对话
Tools
9B
128K
推理模型
THUDM/GLM-Z1-32B-0414
zai
¥4/ M Tokens
GLM-Z1-32B-0414 是一个具有深度思考能力的推理模型。该模型基于 GLM-4-32B-0414 通过冷启动和扩展强化学习开发,并在数学、代码和逻辑任务上进行了进一步训练。与基础模型相比,GLM-Z1-32B-0414 显著提升了数学能力和解决复杂任务的能力。在训练过程中,研究团队还引入了基于成对排序反馈的通用强化学习,进一步增强了模型的通用能力。虽然只有 32B 参数,但在部分任务上,其性能已能与拥有 671B 参数的 DeepSeek-R1 相媲美。通过在 AIME 24/25、LiveCodeBench、GPQA 等基准测试中的评估,该模型展现了较强的数理推理能力,能够支持解决更广泛复杂任务
对话
Tools
32B
128K
推理模型
Pro/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
deepseek-ai
¥0.35/ M Tokens
DeepSeek-R1-Distill-Qwen-7B 是基于 Qwen2.5-Math-7B 通过知识蒸馏得到的模型。该模型使用 DeepSeek-R1 生成的 80 万个精选样本进行微调,展现出优秀的推理能力。在多个基准测试中表现出色,其中在 MATH-500 上达到了 92.8% 的准确率,在 AIME 2024 上达到了 55.5% 的通过率,在 CodeForces 上获得了 1189 的评分,作为 7B 规模的模型展示了较强的数学和编程能力
对话
Tools
推理模型
7B
128K
Math
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
deepseek-ai
免费
DeepSeek-R1-Distill-Qwen-7B 是基于 Qwen2.5-Math-7B 通过知识蒸馏得到的模型。该模型使用 DeepSeek-R1 生成的 80 万个精选样本进行微调,展现出优秀的推理能力。在多个基准测试中表现出色,其中在 MATH-500 上达到了 92.8% 的准确率,在 AIME 2024 上达到了 55.5% 的通过率,在 CodeForces 上获得了 1189 的评分,作为 7B 规模的模型展示了较强的数学和编程能力
对话
Tools
推理模型
7B
128K
Math
deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
deepseek-ai
¥0.7/ M Tokens
DeepSeek-R1-Distill-Qwen-14B 是基于 Qwen2.5-14B 通过知识蒸馏得到的模型。该模型使用 DeepSeek-R1 生成的 80 万个精选样本进行微调,展现出优秀的推理能力。在多个基准测试中表现出色,其中在 MATH-500 上达到了 93.9% 的准确率,在 AIME 2024 上达到了 69.7% 的通过率,在 CodeForces 上获得了 1481 的评分,显示出在数学和编程领域的强大实力
对话
Tools
推理模型
14B
128K
deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
deepseek-ai
¥1.26/ M Tokens
DeepSeek-R1-Distill-Qwen-32B 是基于 Qwen2.5-32B 通过知识蒸馏得到的模型。该模型使用 DeepSeek-R1 生成的 80 万个精选样本进行微调,在数学、编程和推理等多个领域展现出卓越的性能。在 AIME 2024、MATH-500、GPQA Diamond 等多个基准测试中都取得了优异成绩,其中在 MATH-500 上达到了 94.3% 的准确率,展现出强大的数学推理能力
对话
Tools
推理模型
32B
128K
Qwen/QwQ-32B
Qwen
¥4/ M Tokens
QwQ 是 Qwen 系列的推理模型。与传统的指令调优模型相比,QwQ 具备思考和推理能力,能够在下游任务中实现显著增强的性能,尤其是在解决困难问题方面。QwQ-32B 是中型推理模型,能够在与最先进的推理模型(如 DeepSeek-R1、o1-mini)的对比中取得有竞争力的性能。该模型采用 RoPE、SwiGLU、RMSNorm 和 Attention QKV bias 等技术,具有 64 层网络结构和 40 个 Q 注意力头(GQA 架构中 KV 为 8 个)
对话
Tools
推理模型
32B
128K
Qwen/Qwen2.5-7B-Instruct
Qwen
免费
Qwen2.5-7B-Instruct 是阿里云发布的最新大语言模型系列之一。该 7B 模型在编码和数学等领域具有显著改进的能力。该模型还提供了多语言支持,覆盖超过 29 种语言,包括中文、英文等。模型在指令跟随、理解结构化数据以及生成结构化输出(尤其是 JSON)方面都有显著提升
对话
Tools
Free
7B
32K
Qwen/Qwen2.5-32B-Instruct
Qwen
¥1.26/ M Tokens
Qwen2.5-32B-Instruct 是阿里云发布的最新大语言模型系列之一。该 32B 模型在编码和数学等领域具有显著改进的能力。该模型还提供了多语言支持,覆盖超过 29 种语言,包括中文、英文等。模型在指令跟随、理解结构化数据以及生成结构化输出(尤其是 JSON)方面都有显著提升
对话
Tools
32B
32K
Qwen/Qwen2.5-72B-Instruct
Qwen
¥4.13/ M Tokens
Qwen2.5-72B-Instruct 是阿里云发布的最新大语言模型系列之一。该 72B 模型在编码和数学等领域具有显著改进的能力。该模型还提供了多语言支持,覆盖超过 29 种语言,包括中文、英文等。模型在指令跟随、理解结构化数据以及生成结构化输出(尤其是 JSON)方面都有显著提升
对话
Tools
72B
32K
DeprecatedVendor-A/Qwen/Qwen2-72B-Instruct
Qwen
¥1/ M Tokens
Qwen2-72B-Instruct 是 Qwen2 系列中的指令微调大语言模型,参数规模为 72B。该模型基于 Transformer 架构,采用了 SwiGLU 激活函数、注意力 QKV 偏置和组查询注意力等技术。它能够处理大规模输入。该模型在语言理解、生成、多语言能力、编码、数学和推理等多个基准测试中表现出色,超越了大多数开源模型,并在某些任务上展现出与专有模型相当的竞争力
对话
72B
32K
DeprecatedVendor-A/Qwen/Qwen2.5-72B-Instruct
Qwen
¥1/ M Tokens
Qwen2.5-72B-Instruct 是阿里云发布的最新大语言模型系列之一。该 72B 模型在编码和数学等领域具有显著改进的能力。该模型还提供了多语言支持,覆盖超过 29 种语言,包括中文、英文等。模型在指令跟随、理解结构化数据以及生成结构化输出(尤其是 JSON)方面都有显著提升
对话
Tools
72B
32K
Pro/Qwen/Qwen2.5-Coder-7B-Instruct
Qwen
¥0.35/ M Tokens
Qwen2.5-Coder-7B-Instruct 是阿里云发布的代码特定大语言模型系列的最新版本。该模型在 Qwen2.5 的基础上,通过 5.5 万亿个 tokens 的训练,显著提升了代码生成、推理和修复能力。它不仅增强了编码能力,还保持了数学和通用能力的优势。模型为代码智能体等实际应用提供了更全面的基础
对话
FIM
Coder
7B
32K
Qwen/Qwen2.5-Coder-7B-Instruct
Qwen
免费
Qwen2.5-Coder-7B-Instruct 是阿里云发布的代码特定大语言模型系列的最新版本。该模型在 Qwen2.5 的基础上,通过 5.5 万亿个 tokens 的训练,显著提升了代码生成、推理和修复能力。它不仅增强了编码能力,还保持了数学和通用能力的优势。模型为代码智能体等实际应用提供了更全面的基础
对话
FIM
Coder
7B
32K
Pro/Qwen/Qwen2.5-VL-7B-Instruct
Qwen
¥0.35/ M Tokens
Qwen2.5-VL 是 Qwen 系列的新成员,具备强大的视觉理解能力,能分析图像中的文本、图表和布局,并能理解长视频和捕捉事件,它可以进行推理、操作工具,支持多格式物体定位和生成结构化输出,优化了视频理解的动态分辨率与帧率训练,并提升了视觉编码器效率。
对话
视觉
7B
32K
Qwen/Qwen2.5-VL-72B-Instruct
Qwen
¥4.13/ M Tokens
Qwen2.5-VL 是 Qwen2.5 系列中的视觉语言模型。该模型在多方面有显著提升:具备更强的视觉理解能力,能够识别常见物体、分析文本、图表和布局;作为视觉代理能够推理并动态指导工具使用;支持理解超过 1 小时的长视频并捕捉关键事件;能够通过生成边界框或点准确定位图像中的物体;支持生成结构化输出,尤其适用于发票、表格等扫描数据。模型在多项基准测试中表现出色,包括图像、视频和代理任务评测
对话
视觉
72B
128K
Qwen/Qwen2.5-VL-32B-Instruct
Qwen
¥1.89/ M Tokens
Qwen2.5-VL-32B-Instruct 是通义千问团队推出的多模态大模型,是 Qwen2.5-VL 系列的一部分。该模型不仅精通识别常见物体,还能分析图像中的文本、图表、图标、图形和布局。它可作为视觉智能体,能够推理并动态操控工具,具备使用电脑和手机的能力。此外,这个模型可以精确定位图像中的对象,并为发票、表格等生成结构化输出。相比前代模型 Qwen2-VL,该版本在数学和问题解决能力方面通过强化学习得到了进一步提升,响应风格也更符合人类偏好
对话
视觉
32B
128K
THUDM/GLM-4-9B-0414
zai
免费
GLM-4-9B-0414 是 GLM 系列的小型模型,拥有 90 亿参数。该模型继承了 GLM-4-32B 系列的技术特点,但提供了更轻量级的部署选择。尽管规模较小,GLM-4-9B-0414 仍在代码生成、网页设计、SVG 图形生成和基于搜索的写作等任务上展现出色能力。该模型还支持函数调用功能,可以调用外部工具以扩展其能力范围。模型在资源受限的场景中表现出良好的效率与效果平衡,为需要在计算资源有限条件下部署 AI 模型的用户提供了强大选择。与其他同系列模型一样,GLM-4-9B-0414 也展示了在各种基准测试中的竞争性能力
对话
Tools
9B
32K
THUDM/GLM-4-32B-0414
zai
¥1.89/ M Tokens
GLM-4-32B-0414 是 GLM 系列的新一代开源模型,拥有 320 亿参数。该模型性能可与 OpenAI 的 GPT 系列和 DeepSeek 的 V3/R1 系列相媲美,并支持非常用户友好的本地部署功能。GLM-4-32B-Base-0414 是在 15T 高质量数据上预训练的,包括大量推理类型的合成数据,为后续的强化学习扩展奠定了基础。在后训练阶段,除了对话场景的人类偏好对齐外,研究团队还使用拒绝采样和强化学习等技术增强了模型在指令遵循、工程代码和函数调用方面的表现,加强了代理任务所需的原子能力。GLM-4-32B-0414 在工程代码、Artifact 生成、函数调用、基于搜索的问答和报告生成等领域取得了良好的成果,部分 Benchmark 指标已接近甚至超越 GPT-4o、DeepSeek-V3-0324(671B)等更大模型的水平
对话
Tools
32B
32K
Qwen/QVQ-72B-Preview
Qwen
¥9.9/ M Tokens
QVQ-72B-Preview 是由 Qwen 团队开发的专注于视觉推理能力的研究型模型。该模型在多项基准测试中表现突出,在 MMMU 测试中达到了 70.3% 的卓越成绩,在 MathVista 达到 71.4% 的优异表现,展现了其在多学科理解和数学视觉推理方面的卓越能力。作为专门针对视觉推理优化的模型,QVQ-72B-Preview 在复杂场景理解和解决视觉相关的数学问题方面具有独特优势
对话
视觉
72B
32K
Deprecatedtencent/HunyuanVideo
hunyuan
¥0.7/ Video
HunyuanVideo 是腾讯推出的开源视频生成基础模型,拥有超过 130 亿参数,是目前最大的开源视频生成模型。该模型采用统一的图像和视频生成架构,集成了数据整理、图像-视频联合模型训练和高效基础设施等关键技术。模型使用多模态大语言模型作为文本编码器,通过 3D VAE 进行空间-时间压缩,并提供提示词重写功能。根据专业人工评估结果,HunyuanVideo 在文本对齐、运动质量和视觉质量等方面的表现优于现有最先进的模型
视频
13B
Deprecated01-ai/Yi-1.5-6B-Chat
01-ai
免费
Yi-1.5-6B-Chat 是 Yi-1.5 系列的一个变体,属于开源聊天模型。Yi-1.5 是 Yi 的升级版本,在 500B 个高质量语料上进行了持续预训练,并在 3M 多样化的微调样本上进行了微调。相比于 Yi,Yi-1.5 在编码、数学、推理和指令遵循能力方面表现更强,同时保持了出色的语言理解、常识推理和阅读理解能力。该模型具有 4K、16K 和 32K 的上下文长度版本,预训练总量达到 3.6T 个 token
对话
Free
6B
4K
Deprecated01-ai/Yi-1.5-34B-Chat-16K
01-ai
¥1.26/ M Tokens
Yi-1.5-34B-Chat-16K 是 Yi-1.5 系列的一个变体,属于开源聊天模型。Yi-1.5 是 Yi 的升级版本,在 500B 个高质量语料上进行了持续预训练,并在 3M 多样化的微调样本上进行了微调。相比于 Yi,Yi-1.5 在编码、数学、推理和指令遵循能力方面表现更强,同时保持了出色的语言理解、常识推理和阅读理解能力。该模型在大多数基准测试中与更大的模型相当或表现更佳,具有 16K 的上下文长度
对话
34B
16K
Deprecated01-ai/Yi-1.5-9B-Chat-16K
01-ai
免费
Yi-1.5-9B-Chat-16K 是 Yi-1.5 系列的一个变体,属于开源聊天模型。Yi-1.5 是 Yi 的升级版本,在 500B 个高质量语料上进行了持续预训练,并在 3M 多样化的微调样本上进行了微调。相比于 Yi,Yi-1.5 在编码、数学、推理和指令遵循能力方面表现更强,同时保持了出色的语言理解、常识推理和阅读理解能力。该模型在同等规模的开源模型中表现最佳
对话
Free
9B
16K
Kwai-Kolors/Kolors
Kolors
免费
Kolors 是由快手 Kolors 团队开发的基于潜在扩散的大规模文本到图像生成模型。该模型通过数十亿文本-图像对的训练,在视觉质量、复杂语义准确性以及中英文字符渲染方面展现出显著优势。它不仅支持中英文输入,在理解和生成中文特定内容方面也表现出色
生图
图生图
netease-youdao/bce-embedding-base_v1
netease-youdao
免费
bce-embedding-base_v1 是由网易有道开发的双语和跨语言嵌入模型。该模型在中英文语义表示和检索任务中表现出色,尤其擅长跨语言场景。它是为检索增强生成(RAG)系统优化的,可以直接应用于教育、医疗、法律等多个领域。该模型不需要特定指令即可使用,能够高效地生成语义向量,为语义搜索和问答系统提供关键支持
嵌入
多语言
768 维
279M
512
BAAI/bge-m3
BAAI
免费
BGE-M3 是一个多功能、多语言、多粒度的文本嵌入模型。它支持三种常见的检索功能:密集检索、多向量检索和稀疏检索。该模型可以处理超过100种语言,并且能够处理从短句到长达8192个词元的长文档等不同粒度的输入。BGE-M3在多语言和跨语言检索任务中表现出色,在 MIRACL 和 MKQA 等基准测试中取得了领先结果。它还具有处理长文档检索的能力,在 MLDR 和 NarritiveQA 等数据集上展现了优秀性能
嵌入
多语言
1024 维
8K
netease-youdao/bce-reranker-base_v1
netease-youdao
免费
bce-reranker-base_v1 是网易有道开发的双语和跨语言重排序模型,支持中文、英文、日文和韩文。该模型在 RAG 系统中用于精确重排检索结果,可以提供有意义的相关性分数,有助于过滤低质量段落。它针对多种 RAG 任务进行了优化,包括翻译、摘要和问答等。该模型无需特定指令即可使用,具有广泛的领域适应性,已在有道的多个产品中得到验证
重排序
多语言
279M
512
BAAI/bge-reranker-v2-m3
BAAI
免费
BAAI/bge-reranker-v2-m3 是一个轻量级的多语言重排序模型。它基于 bge-m3 模型开发,具有强大的多语言能力,易于部署,并且推理速度快。该模型采用查询和文档作为输入,直接输出相似度分数,而不是嵌入向量。它适用于多语言场景,特别是在中文和英文处理方面表现出色
重排序
多语言
568M
8K
DeprecatedPro/01-ai/Yi-1.5-6B-Chat
01-ai
¥0.35/ M Tokens
Yi-1.5-6B-Chat 是 Yi-1.5 系列的一个变体,属于开源聊天模型。Yi-1.5 是 Yi 的升级版本,在 500B 个高质量语料上进行了持续预训练,并在 3M 多样化的微调样本上进行了微调。相比于 Yi,Yi-1.5 在编码、数学、推理和指令遵循能力方面表现更强,同时保持了出色的语言理解、常识推理和阅读理解能力。该模型具有 4K、16K 和 32K 的上下文长度版本,预训练总量达到 3.6T 个 token
对话
6B
4K
DeprecatedPro/01-ai/Yi-1.5-9B-Chat-16K
01-ai
¥0.42/ M Tokens
Yi-1.5-9B-Chat-16K 是 Yi-1.5 系列的一个变体,属于开源聊天模型。Yi-1.5 是 Yi 的升级版本,在 500B 个高质量语料上进行了持续预训练,并在 3M 多样化的微调样本上进行了微调。相比于 Yi,Yi-1.5 在编码、数学、推理和指令遵循能力方面表现更强,同时保持了出色的语言理解、常识推理和阅读理解能力。该模型在同等规模的开源模型中表现最佳
对话
9B
16K
DeprecatedQwen/Qwen1.5-14B-Chat
Qwen
¥0.7/ M Tokens
Qwen1.5-14B-Chat 是 Qwen2 的 beta 版本,是一个基于 Transformer 架构的 decoder-only 语言模型。该模型经过大规模数据预训练,并通过监督微调和直接偏好优化进行后训练。它采用了 SwiGLU 激活函数、注意力 QKV 偏置等技术,并改进了适用于多种自然语言和代码的分词器。该模型支持 32K 的上下文长度,无需使用 trust_remote_code
对话
14B
32K
DeprecatedQwen/Qwen1.5-110B-Chat
Qwen
¥4.13/ M Tokens
Qwen1.5-110B-Chat 是 Qwen2 的 beta 版本,是一个基于 Transformer 架构的 decoder-only 语言模型。该模型在大规模数据上进行了预训练,并通过监督微调和直接偏好优化进行了后训练。它采用了 SwiGLU 激活函数、注意力 QKV 偏置、组查询注意力等技术,并改进了适用于多种自然语言和代码的分词器。该 110B 模型支持 32K 的上下文长度,无需使用 trust_remote_code,并在对话模型方面显著提升了人类偏好性能
对话
110B
32K
DeprecatedQwen/Qwen1.5-7B-Chat
Qwen
免费
Qwen1.5-7B-Chat 是 Qwen2 的 beta 版本,是一个基于 Transformer 架构的 decoder-only 语言模型。该模型在大规模数据上进行了预训练,并通过监督微调和直接偏好优化进行了后训练。它采用了 SwiGLU 激活函数、注意力 QKV 偏置等技术,并改进了适用于多种自然语言和代码的分词器。该 7B 模型支持 32K 的上下文长度,无需使用 trust_remote_code,并在对话模型方面显著提升了人类偏好性能
对话
Free
7B
32K
DeprecatedQwen/Qwen1.5-32B-Chat
Qwen
¥1.26/ M Tokens
Qwen1.5-32B-Chat 是 Qwen2 的 beta 版本,是一个基于 Transformer 架构的 decoder-only 语言模型。该模型在大规模数据上进行了预训练,并通过监督微调和直接偏好优化进行了后训练。它采用了 SwiGLU 激活函数、注意力 QKV 偏置、组查询注意力等技术,并改进了适用于多种自然语言和代码的分词器。该 32B 模型支持 32K 的上下文长度,无需使用 trust_remote_code,并在对话模型方面显著提升了人类偏好性能
对话
32B
32K
DeprecatedPro/Qwen/Qwen1.5-7B-Chat
Qwen
¥0.35/ M Tokens
Qwen1.5-7B-Chat 是 Qwen2 的 beta 版本,是一个基于 Transformer 架构的 decoder-only 语言模型。该模型在大规模数据上进行了预训练,并通过监督微调和直接偏好优化进行了后训练。它采用了 SwiGLU 激活函数、注意力 QKV 偏置等技术,并改进了适用于多种自然语言和代码的分词器。该 7B 模型支持 32K 的上下文长度,无需使用 trust_remote_code,并在对话模型方面显著提升了人类偏好性能
对话
7B
32K
Qwen/Qwen2.5-72B-Instruct-128K
Qwen
¥4.13/ M Tokens
Qwen2.5-72B-Instruct 是阿里云发布的最新大语言模型系列之一。该 72B 模型在编码和数学等领域具有显著改进的能力。它支持长达 128K tokens 的上下文。该模型还提供了多语言支持,覆盖超过 29 种语言,包括中文、英文等。模型在指令跟随、理解结构化数据以及生成结构化输出(尤其是 JSON)方面都有显著提升
对话
Tools
72B
128K
DeprecatedQwen/Qwen2-72B-Instruct
Qwen
¥4.13/ M Tokens
Qwen2-72B-Instruct 是 Qwen2 系列中的指令微调大语言模型,参数规模为 72B。该模型基于 Transformer 架构,采用了 SwiGLU 激活函数、注意力 QKV 偏置和组查询注意力等技术。它能够处理大规模输入。该模型在语言理解、生成、多语言能力、编码、数学和推理等多个基准测试中表现出色,超越了大多数开源模型,并在某些任务上展现出与专有模型相当的竞争力
对话
72B
32K
DeprecatedQwen/Qwen2.5-Math-72B-Instruct
Qwen
¥4.13/ M Tokens
Qwen2.5-Math-72B 是阿里云发布的 Qwen2.5-Math 系列数学大语言模型之一。该模型支持使用思维链(CoT)和工具集成推理(TIR)方法解决中文和英文数学问题。相比前代 Qwen2-Math 系列,Qwen2.5-Math 系列在中英文数学基准测试中取得了显著的性能提升。该模型在处理精确计算、符号操作和算法操作方面表现出色,尤其适合解决复杂的数学和算法推理任务
对话
Math
72B
4K
Qwen/Qwen2.5-14B-Instruct
Qwen
¥0.7/ M Tokens
Qwen2.5-14B-Instruct 是阿里云发布的最新大语言模型系列之一。该 14B 模型在编码和数学等领域具有显著改进的能力。该模型还提供了多语言支持,覆盖超过 29 种语言,包括中文、英文等。模型在指令跟随、理解结构化数据以及生成结构化输出(尤其是 JSON)方面都有显著提升
对话
Tools
14B
32K
Pro/BAAI/bge-reranker-v2-m3
BAAI
¥0.07/ M Tokens
BAAI/bge-reranker-v2-m3 是一个轻量级的多语言重排序模型。它基于 bge-m3 模型开发,具有强大的多语言能力,易于部署,并且推理速度快。该模型采用查询和文档作为输入,直接输出相似度分数,而不是嵌入向量。它适用于多语言场景,特别是在中文和英文处理方面表现出色
重排序
多语言
568M
8K
DeprecatedPro/internlm/internlm2_5-7b-chat
internlm
¥0.35/ M Tokens
InternLM2.5-7B-Chat 是一个开源的对话模型,基于 InternLM2 架构开发。该 7B 参数规模的模型专注于对话生成任务,支持中英双语交互。模型采用了最新的训练技术,旨在提供流畅、智能的对话体验。InternLM2.5-7B-Chat 适用于各种对话应用场景,包括但不限于智能客服、个人助手等领域
对话
Tools
7B
32K
DeprecatedPro/THUDM/chatglm3-6b
zai
¥0.35/ M Tokens
ChatGLM3-6B 是 ChatGLM 系列的开源模型,由智谱 AI 开发。该模型保留了前代模型的优秀特性,如对话流畅和部署门槛低,同时引入了新的特性。它采用了更多样的训练数据、更充分的训练步数和更合理的训练策略,在 10B 以下的预训练模型中表现出色。ChatGLM3-6B 支持多轮对话、工具调用、代码执行和 Agent 任务等复杂场景。除对话模型外,还开源了基础模型 ChatGLM-6B-Base 和长文本对话模型 ChatGLM3-6B-32K。该模型对学术研究完全开放,在登记后也允许免费商业使用
对话
6B
32K
Pro/Qwen/Qwen2.5-7B-Instruct
Qwen
¥0.35/ M Tokens
Qwen2.5-7B-Instruct 是阿里云发布的最新大语言模型系列之一。该 7B 模型在编码和数学等领域具有显著改进的能力。该模型还提供了多语言支持,覆盖超过 29 种语言,包括中文、英文等。模型在指令跟随、理解结构化数据以及生成结构化输出(尤其是 JSON)方面都有显著提升
对话
Tools
7B
32K
internlm/internlm2_5-7b-chat
internlm
免费
InternLM2.5-7B-Chat 是一个开源的对话模型,基于 InternLM2 架构开发。该 7B 参数规模的模型专注于对话生成任务,支持中英双语交互。模型采用了最新的训练技术,旨在提供流畅、智能的对话体验。InternLM2.5-7B-Chat 适用于各种对话应用场景,包括但不限于智能客服、个人助手等领域
对话
Tools
Free
7B
32K
Qwen/Qwen2-VL-72B-Instruct
Qwen
¥4.13/ M Tokens
Qwen2-VL 是 Qwen-VL 模型的最新迭代版本,在视觉理解基准测试中达到了最先进的性能,包括 MathVista、DocVQA、RealWorldQA 和 MTVQA 等。Qwen2-VL 能够理解超过 20 分钟的视频,用于高质量的基于视频的问答、对话和内容创作。它还具备复杂推理和决策能力,可以与移动设备、机器人等集成,基于视觉环境和文本指令进行自动操作。除了英语和中文,Qwen2-VL 现在还支持理解图像中不同语言的文本,包括大多数欧洲语言、日语、韩语、阿拉伯语和越南语等
对话
视觉
72B
32K
Pro/BAAI/bge-m3
BAAI
¥0.07/ M Tokens
BGE-M3 是一个多功能、多语言、多粒度的文本嵌入模型。它支持三种常见的检索功能:密集检索、多向量检索和稀疏检索。该模型可以处理超过100种语言,并且能够处理从短句到长达8192个词元的长文档等不同粒度的输入。BGE-M3在多语言和跨语言检索任务中表现出色,在 MIRACL 和 MKQA 等基准测试中取得了领先结果。它还具有处理长文档检索的能力,在 MLDR 和 NarritiveQA 等数据集上展现了优秀性能
嵌入
多语言
1024 维
8K
DeprecatedQwen/Qwen2-Math-72B-Instruct
Qwen
¥4.13/ M Tokens
Qwen2-Math-72B-Instruct 是 Qwen2 数学系列中的指令微调大语言模型,参数规模为 72B。该模型专门针对数学和算术问题解决能力进行了优化,在数学推理方面表现出色,超越了开源模型甚至一些闭源模型(如 GPT4)的数学能力。它基于 Qwen2 系列构建,旨在解决需要复杂、多步逻辑推理的高级数学问题。该模型目前主要支持英语,双语(英语和中文)版本将很快发布
对话
Math
72B
4K
Pro/THUDM/glm-4-9b-chat
zai
¥0.6/ M Tokens
GLM-4-9B-Chat 是智谱 AI 推出的 GLM-4 系列预训练模型中的开源版本。该模型在语义、数学、推理、代码和知识等多个方面表现出色。除了支持多轮对话外,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理等高级功能。模型支持 26 种语言,包括中文、英文、日语、韩语和德语等。在多项基准测试中,GLM-4-9B-Chat 展现了优秀的性能,如 AlignBench-v2、MT-Bench、MMLU 和 C-Eval 等。该模型支持最大 128K 的上下文长度,适用于学术研究和商业应用
对话
Tools
9B
128K
THUDM/glm-4-9b-chat
zai
免费
GLM-4-9B-Chat 是智谱 AI 推出的 GLM-4 系列预训练模型中的开源版本。该模型在语义、数学、推理、代码和知识等多个方面表现出色。除了支持多轮对话外,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理等高级功能。模型支持 26 种语言,包括中文、英文、日语、韩语和德语等。在多项基准测试中,GLM-4-9B-Chat 展现了优秀的性能,如 AlignBench-v2、MT-Bench、MMLU 和 C-Eval 等。该模型支持最大 128K 的上下文长度,适用于学术研究和商业应用
对话
Tools
Free
9B
128K
Pro/Qwen/Qwen2-7B-Instruct
Qwen
¥0.35/ M Tokens
Qwen2-7B-Instruct 是 Qwen2 系列中的指令微调大语言模型,参数规模为 7B。该模型基于 Transformer 架构,采用了 SwiGLU 激活函数、注意力 QKV 偏置和组查询注意力等技术。它能够处理大规模输入。该模型在语言理解、生成、多语言能力、编码、数学和推理等多个基准测试中表现出色,超越了大多数开源模型,并在某些任务上展现出与专有模型相当的竞争力。Qwen2-7B-Instruct 在多项评测中均优于 Qwen1.5-7B-Chat,显示出显著的性能提升
对话
7B
32K
Qwen/Qwen2-7B-Instruct
Qwen
免费
Qwen2-7B-Instruct 是 Qwen2 系列中的指令微调大语言模型,参数规模为 7B。该模型基于 Transformer 架构,采用了 SwiGLU 激活函数、注意力 QKV 偏置和组查询注意力等技术。它能够处理大规模输入。该模型在语言理解、生成、多语言能力、编码、数学和推理等多个基准测试中表现出色,超越了大多数开源模型,并在某些任务上展现出与专有模型相当的竞争力。Qwen2-7B-Instruct 在多项评测中均优于 Qwen1.5-7B-Chat,显示出显著的性能提升
对话
Free
7B
32K
BAAI/bge-large-zh-v1.5
BAAI
免费
BAAI/bge-large-zh-v1.5 是一个大型中文文本嵌入模型,是 BGE (BAAI General Embedding) 系列的一部分。该模型在 C-MTEB 基准测试中表现出色,在 31 个数据集上的平均得分为 64.53,在检索、语义相似度、文本对分类等多个任务中都取得了优异成绩。它支持最大 512 个 token 的输入长度,适用于各种中文自然语言处理任务,如文本检索、语义相似度计算等
嵌入
中文
1024 维
335M
512
BAAI/bge-large-en-v1.5
BAAI
免费
BAAI/bge-large-en-v1.5 是一个大型英文文本嵌入模型,是 BGE (BAAI General Embedding) 系列的一部分。它在 MTEB 基准测试中取得了优异的表现,在 56 个数据集上的平均得分为 64.23,在检索、聚类、文本对分类等多个任务中表现出色。该模型支持最大 512 个 token 的输入长度,适用于各种自然语言处理任务,如文本检索、语义相似度计算等
嵌入
英文
1024 维
335M
512