摘录一下:
1. 聊天能力 (Chat):即语言理解与生成能力,能看懂用户输入的内容并生成高质量的文字回复,以 GPT-4o 为代表。
2. 推理能力 (Reasoning):即逻辑推理能力,通常通过**链式思考(Chain of Thought,CoT)**提升,可以处理复杂的数学问题和编程任务,以 DeepSeek R1、o1 为代表。
3. Agent 能力 (Agent):即自主规划与执行任务,主动调用外部工具或资源,自动完成复杂目标任务,以 Claude 4系列、GPT-5 为代表,国内的 豆包Seed 1.6、DeepSeek V3、GLM 4.5、Kimi K2、Qwen-Coder 等模型也有不错表现。
这些能力有时会存在“冲突”。比如像 Gemini 2.5 Pro 代码能力和写作能力都很强,但 Agent 能力却一般,导致基于它之上的 Gemini CLI 表现平平;与之相对的 GPT-5、Claude 4 的 Agent 能力非常强大,但写作表现反而一般,尤其是 GPT-5,写出来的文章简直没法看。
我想未来的发展趋势还是向更通用、更均衡的方向发展,目前 GPT-5 就在尝试这个方向,但还不够成熟;GPT-6 或许可以实现这样的突破。接下来期待一下 Gemini 3.0 和 DeepSeek R2,希望能给我们带来一些惊喜。