大模型与 Agent 使用体验

 2小时前     12  

文章目录

本文主要分享我使用大模型(LLM)和 Agent 工具的一些心得体验,可能存在不对之处,欢迎指正。

注:LLM 指大语言模型,比如 Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro、DeepSeek-V4-Pro 等,Agent 指工具,包括通用类的 OpenClaw、Hermes 和编程类的 Claude Code、Codex、OpenCode等。

零、前言

最早使用大模型应该是在 2022 年,当时用的应该是 GPT-3,让它解释一段汇编代码,它回答得很好,有震惊到我,感觉它是”真的懂“、”有逻辑“的,而且可以跨上下文进行交互。然后就一直以 Chatbot 形式使用。

直到今年,Agent 工具大火,我也尝试用 Agent 接入大模型来完成一些任务,到目前用了也有几个月了,最直观的感受就是 Chatbot 形式类似一个会思考的高级搜索引擎,它主要根据你的问题给你回答,你再基于它的回答进行某些操作,并将操作结果反馈给它,从而进行进一步的探索,在这个过程中通过“人+大模型”反馈迭代的形式解决问题或完成任务。而 Agent 形式类似一个不仅会思考还会使用工具的助理,它可以根据问题/任务自行完成分析、操作并根据操作结果进行进一步探索,相当于“Agent+大模型”反馈迭代,这极大减少了人的参与,提升了任务的处理效率。某种程度上相当于从“Human in the loop”进化成“Agent in the loop”。

一、模型 / Agent 产品

考虑到中转站存在注水/数据泄漏等问题,所以目前主要还是使用官方渠道的服务。当前我在用的产品主要有以下三个。

1、Claude Code (CLI) + DeepSeek V4 Pro

由于内外同时存在的限制,且 Anthropic 经常封号,所以难以直接使用它自家的模型,我是配置的 DeepSeek-V4-Pro 的 API。

整体体验还行,能用。基本上开箱即用(国内通过 npm 安装好 Claude Code,然后配置完 API 就可以直接使用了),不用额外折腾,更重要的是,DeepSeek 量大管饱,性价比很高。

大模型与 Agent 使用体验

2、Codex (CLI) + GPT-5.5

虽然同样存在内外限制,但是相对来说 OpenAI 封号几率较低(最近也有一些二次验证),所以 GPT 的可用性还是比较高。我是用 Apple ID 注册的 OpenAI 账号(将地址换到外区即可),然后通过购买礼品卡进行充值,目前订阅的是 20 美刀一月的 Plus 套餐。

整体体验很不错,好用。GPT-5.5 处理问题能力很强,就是比较容易达到限额,毕竟开的是 Plus,实际使用时 5 小时额度大概 1h 用完,1 周额度大概 5h 用完,当然了,有时候也会有重置额度的小惊喜。

大模型与 Agent 使用体验

3、Hermes + MiMo-V2.5-Pro

一开始是在服务器上通过 docker 部署的 OpenClaw,当时部署好后发现也没有什么特别的使用场景,就简单体验了下,做了一些测试后就基本闲置了。后面小米送了一个月的 Standard 套餐,刚好 Hermes 火起来了,就在服务器上重新部署了 Hermes,然后接入了微信 Clawbot,每天定时总结下联合早报的新闻。

整体体验一般,主要还是没有什么通用类 Agent 的需求,日常偏轻度使用。

大模型与 Agent 使用体验 大模型与 Agent 使用体验

二、项目实践

主要介绍下使用 Claude Code 和 Codex 在业余时间开发的几个小项目,这些项目的每一行代码、文档及git提交信息等都是 AI 写的,包括部署到服务器上也是 AI 完成的,项目整体而言完成度还算比较高,并且还在持续迭代中。

这些项目主要偏数据抓取、分析与可视化,后端均使用 Python。其中部分已开源,并且部署到服务器上了,感兴趣的朋友可以点开看一看。

1、全球资产看板

追踪全球指数、资产、ETF 与 QDII 主动基金,覆盖实时概览、区间收益、回撤风险和基金 T 日估算净值。

最开始是做的基金估值小助手,当时主要是想试下 Claude Code 配 DeepSeek-V4-Pro 进行编程的效果,后面慢慢迭代成了全球资产看板,架构也从纯前端加上了后端和数据库。

用 Claude Code(DeepSeek-V4-Pro) 完成了第一个版本,数据源都是它自己获取的,整体效果还行,基本功能都能实现,但是比较容易出 bug,需要多次修改,后面就换成 Codex(GPT-5.5) 了,Codex 配 GPT-5.5 整体体验好不少,虽然也会出 bug,但概率相对较低,大多数需求都是一次过。

在 AI Coding 的过程中,我发现 GPT-5.5 具有一定的“独立意识”,能够综合分析我的想法,并给出建议,而不是直接按照我说的去做,这一点我觉得很好,所以我也会有意识地让它先评估我的想法并给出建议,然后再做实现。其中一个对话如下所示。

大模型与 Agent 使用体验

项目效果图如下。

(1)、概览页,展示当天大盘涨跌情况,包括 A 股、美股、亚太市场、黄金等资产及热门 ETF;

大模型与 Agent 使用体验

(2)、概览页,展示 QDII 主动基金实时估值和 T-1 日净值及详情信息;

大模型与 Agent 使用体验

(3)、收益页,按序展示各类资产不同时间段涨跌情况

大模型与 Agent 使用体验

2、全国 70 城商品住宅价格指数

从国家统计局获取“70 个大中城市商品住宅销售价格变动情况”,用 Streamlit 做交互式可视化。

这个项目比较简单,完全使用 Codex(GPT-5.5) 完成的。先从国家统计局网站获取每月的“70个大中城市商品住宅销售价格变动情况”数据,然后使用一些可视化图表来呈现这些数据。可视化的效果还是很直观的,毕竟一图胜千言。

项目效果图如下。

(1)、2026 年 4 月二手住宅全部面积段环比涨跌情况;

大模型与 Agent 使用体验

(2)、从 2021 年到 2026 年二手住宅全部面积段环比涨跌情况,当前趋势一目了然:)

大模型与 Agent 使用体验

3、微博群聊分析

本地微博群聊消息看板,用于采集、归档和分析微博群聊消息。通过微博内部 API 直接拉取消息数据,存入数据库,并提供三层看板页面进行数据分析与消息检索。

  • Agent:Claude Code(DeepSeek-V4-Pro) + Codex(GPT-5.5)

  • 技术栈:Python(Flask + SQLite + jieba)

这个项目还是挺有意思的,根据微博群聊消息分析大家讨论的热门话题,并生成成员画像。一开始是用Codex(GPT-5.5)做的,但是 token 实在捉襟见肘,后面就全部使用 Claude Code(DeepSeek-V4-Pro) 进行迭代了。

该项目的核心在于分词,分词效果的好坏直接影响数据分析的质量。目前是采用 jieba + 自定义词典 + 停用词表进行分词,手动过滤了不少:),效果还算可以。

目前主要分析了活跃话题以及话题演变趋势(单个话题及聚合话题),其实可以做的点和挖掘的点还挺多,还在持续迭代优化中。

项目效果图如下。

(1)、数据概览、活跃成员、热点话题与话题详情,其中群号与成员昵称已匿名化处理;

大模型与 Agent 使用体验 大模型与 Agent 使用体验

(2)、话题演变趋势

大模型与 Agent 使用体验

(3)、聚合话题分布

大模型与 Agent 使用体验

(4)、简单成员画像

大模型与 Agent 使用体验

三、总结

1、大模型和 Agent 属于先进生产力,要积极拥抱,了解其基本原理并熟练掌握使用,且尽可能使用能力范围内能用到的最强的大模型,毕竟模型差点,人就要多做一点,实际上多做的可能远远不止一点:);

2、大模型不是万能的,存在局限性(如幻觉等),它本质上属于工具,最终应该由人完成决策并对结果负责;

3、大模型的上限或者说能发挥的最大价值,取决于它的使用者,如果使用者自身能力越强,那么能发挥它的作用/价值就越大。所以要注意自我水平的提升,持续学习;

4、国内使用国外的先进大模型同时存在内外两方面的限制(“混合双打”),目前通过 Claude Code 配置 DeepSeek V4 Pro、GLM-5.2 等国产大模型也是一个不错的选择(DeepSeek V4 Pro 量大管饱,GLM-5.2 很强,但可能抢不上)。另外如果愿意折腾的话,也推荐试下 Codex(GPT-5.5),体验会好不少。至于 Claude Opus 除了中转站外是很难用上了:)

5、大模型的一点使用经验分享:

  • 问题描述尽可能清晰,上下文信息给足,这样可以减少不必要交互,提升效率;

  • 描述想法后,先让大模型评估并给出建议,再考虑编码实现;

  • 设定好目标及测试用例,做好约束,每次修改后都要跑测试并检查是否满足约束;

  • 优化系统时,可以让大模型从专业的角度评估整个系统,并给出优化建议,包括技术架构、界面设计与交互、性能等方面。

6、大模型还在持续迭代变强,有幸见证它的发展。

四、参考

1、Claude Code Docs(官方教程)

2、AI Agent(智能体) 教程

3、Easy-Vibe 教程

4、Hello-Agents

5、零废话!一文讲透从0构建AI Agent(简单科普)

6、AI Agent Performance Leaderboard(排行榜)

7、Artificial Analysis Intelligence Index(排行榜)

版权声明:小傅 发表于 2小时前,共 3798 字。
转载请注明:大模型与 Agent 使用体验 | 太傅博客

暂无评论

暂无评论...