现在的大语言模型已经分化出了不同的能力:

摘录一下:

1. 聊天能力 (Chat):即语言理解与生成能力,能看懂用户输入的内容并生成高质量的文字回复,以 GPT-4o 为代表。

2. 推理能力 (Reasoning):即逻辑推理能力,通常通过**链式思考(Chain of Thought,CoT)**提升,可以处理复杂的数学问题和编程任务,以 DeepSeek R1、o1 为代表。

3. Agent 能力 (Agent):即自主规划与执行任务,主动调用外部工具或资源,自动完成复杂目标任务,以 Claude 4系列、GPT-5 为代表,国内的 豆包Seed 1.6、DeepSeek V3、GLM 4.5、Kimi K2、Qwen-Coder 等模型也有不错表现。

这些能力有时会存在“冲突”。比如像 Gemini 2.5 Pro 代码能力和写作能力都很强,但 Agent 能力却一般,导致基于它之上的 Gemini CLI 表现平平;与之相对的 GPT-5、Claude 4 的 Agent 能力非常强大,但写作表现反而一般,尤其是 GPT-5,写出来的文章简直没法看。

我想未来的发展趋势还是向更通用、更均衡的方向发展,目前 GPT-5 就在尝试这个方向,但还不够成熟;GPT-6 或许可以实现这样的突破。接下来期待一下 Gemini 3.0 和 DeepSeek R2,希望能给我们带来一些惊喜。

圈主 管理员

热门评论
:
该帖子评论已关闭
图片审查中...
编辑答案: 我的回答: 最多上传一张图片和一个附件
x
x