本文主要分享我使用大模型(LLM)和 Agent 工具的一些心得体验,可能存在不对之处,欢迎指正。
注:LLM 指大语言模型,比如 Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro、DeepSeek-V4-Pro 等,Agent 指工具,包括通用类的 OpenClaw、Hermes 和编程类的 Claude Code、Codex、OpenCode等。
零、前言
最早使用大模型应该是在 2022 年,当时用的应该是 GPT-3,让它解释一段汇编代码,它回答得很好,有震惊到我,感觉它是”真的懂“、”有逻辑“的,而且可以跨上下文进行交互。然后就一直以 Chatbot 形式使用。
直到今年,Agent 工具大火,我也尝试用 Agent 接入大模型来完成一些任务,到目前用了也有几个月了,最直观的感受就是 Chatbot 形式类似一个会思考的高级搜索引擎,它主要根据你的问题给你回答,你再基于它的回答进行某些操作,并将操作结果反馈给它,从而进行进一步的探索,在这个过程中通过“人+大模型”反馈迭代的形式解决问题或完成任务。而 Agent 形式类似一个不仅会思考还会使用工具的助理,它可以根据问题/任务自行完成分析、操作并根据操作结果进行进一步探索,相当于“Agent+大模型”反馈迭代,这极大减少了人的参与,提升了任务的处理效率。某种程度上相当于从“Human in the loop”进化成“Agent in the loop”。
一、模型 / Agent 产品
考虑到中转站存在注水/数据泄漏等问题,所以目前主要还是使用官方渠道的服务。当前我在用的产品主要有以下三个。
1、Claude Code (CLI) + DeepSeek V4 Pro
由于内外同时存在的限制,且 Anthropic 经常封号,所以难以直接使用它自家的模型,我是配置的 DeepSeek-V4-Pro 的 API。
整体体验还行,能用。基本上开箱即用(国内通过 npm 安装好 Claude Code,然后配置完 API 就可以直接使用了),不用额外折腾,更重要的是,DeepSeek 量大管饱,性价比很高。
2、Codex (CLI) + GPT-5.5
虽然同样存在内外限制,但是相对来说 OpenAI 封号几率较低(最近也有一些二次验证),所以 GPT 的可用性还是比较高。我是用 Apple ID 注册的 OpenAI 账号(将地址换到外区即可),然后通过购买礼品卡进行充值,目前订阅的是 20 美刀一月的 Plus 套餐。
整体体验很不错,好用。GPT-5.5 处理问题能力很强,就是比较容易达到限额,毕竟开的是 Plus,实际使用时 5 小时额度大概 1h 用完,1 周额度大概 5h 用完,当然了,有时候也会有重置额度的小惊喜。
3、Hermes + MiMo-V2.5-Pro
一开始是在服务器上通过 docker 部署的 OpenClaw,当时部署好后发现也没有什么特别的使用场景,就简单体验了下,做了一些测试后就基本闲置了。后面小米送了一个月的 Standard 套餐,刚好 Hermes 火起来了,就在服务器上重新部署了 Hermes,然后接入了微信 Clawbot,每天定时总结下联合早报的新闻。
整体体验一般,主要还是没有什么通用类 Agent 的需求,日常偏轻度使用。
二、项目实践
主要介绍下使用 Claude Code 和 Codex 在业余时间开发的几个小项目,这些项目的每一行代码、文档及git提交信息等都是 AI 写的,包括部署到服务器上也是 AI 完成的,项目整体而言完成度还算比较高,并且还在持续迭代中。
这些项目主要偏数据抓取、分析与可视化,后端均使用 Python。其中部分已开源,并且部署到服务器上了,感兴趣的朋友可以点开看一看。
1、全球资产看板
追踪全球指数、资产、ETF 与 QDII 主动基金,覆盖实时概览、区间收益、回撤风险和基金 T 日估算净值。
- Agent:Codex(GPT-5.5) + Claude Code(DeepSeek-V4-Pro)
-
技术栈:TypeScript(React) + Python(Flask + SQLite) + Vite
最开始是做的基金估值小助手,当时主要是想试下 Claude Code 配 DeepSeek-V4-Pro 进行编程的效果,后面慢慢迭代成了全球资产看板,架构也从纯前端加上了后端和数据库。
用 Claude Code(DeepSeek-V4-Pro) 完成了第一个版本,数据源都是它自己获取的,整体效果还行,基本功能都能实现,但是比较容易出 bug,需要多次修改,后面就换成 Codex(GPT-5.5) 了,Codex 配 GPT-5.5 整体体验好不少,虽然也会出 bug,但概率相对较低,大多数需求都是一次过。
在 AI Coding 的过程中,我发现 GPT-5.5 具有一定的“独立意识”,能够综合分析我的想法,并给出建议,而不是直接按照我说的去做,这一点我觉得很好,所以我也会有意识地让它先评估我的想法并给出建议,然后再做实现。其中一个对话如下所示。
项目效果图如下。
(1)、概览页,展示当天大盘涨跌情况,包括 A 股、美股、亚太市场、黄金等资产及热门 ETF;
(2)、概览页,展示 QDII 主动基金实时估值和 T-1 日净值及详情信息;
(3)、收益页,按序展示各类资产不同时间段涨跌情况
2、全国 70 城商品住宅价格指数
从国家统计局获取“70 个大中城市商品住宅销售价格变动情况”,用 Streamlit 做交互式可视化。
- Agent:Codex(GPT-5.5)
-
技术栈:Python(streamlit)
这个项目比较简单,完全使用 Codex(GPT-5.5) 完成的。先从国家统计局网站获取每月的“70个大中城市商品住宅销售价格变动情况”数据,然后使用一些可视化图表来呈现这些数据。可视化的效果还是很直观的,毕竟一图胜千言。
项目效果图如下。
(1)、2026 年 4 月二手住宅全部面积段环比涨跌情况;
(2)、从 2021 年到 2026 年二手住宅全部面积段环比涨跌情况,当前趋势一目了然:)
3、微博群聊分析
本地微博群聊消息看板,用于采集、归档和分析微博群聊消息。通过微博内部 API 直接拉取消息数据,存入数据库,并提供三层看板页面进行数据分析与消息检索。
- Agent:Claude Code(DeepSeek-V4-Pro) + Codex(GPT-5.5)
-
技术栈:Python(Flask + SQLite + jieba)
这个项目还是挺有意思的,根据微博群聊消息分析大家讨论的热门话题,并生成成员画像。一开始是用Codex(GPT-5.5)做的,但是 token 实在捉襟见肘,后面就全部使用 Claude Code(DeepSeek-V4-Pro) 进行迭代了。
该项目的核心在于分词,分词效果的好坏直接影响数据分析的质量。目前是采用 jieba + 自定义词典 + 停用词表进行分词,手动过滤了不少:),效果还算可以。
目前主要分析了活跃话题以及话题演变趋势(单个话题及聚合话题),其实可以做的点和挖掘的点还挺多,还在持续迭代优化中。
项目效果图如下。
(1)、数据概览、活跃成员、热点话题与话题详情,其中群号与成员昵称已匿名化处理;
(2)、话题演变趋势
(3)、聚合话题分布
(4)、简单成员画像
三、总结
1、大模型和 Agent 属于先进生产力,要积极拥抱,了解其基本原理并熟练掌握使用,且尽可能使用能力范围内能用到的最强的大模型,毕竟模型差点,人就要多做一点,实际上多做的可能远远不止一点:);
2、大模型不是万能的,存在局限性(如幻觉等),它本质上属于工具,最终应该由人完成决策并对结果负责;
3、大模型的上限或者说能发挥的最大价值,取决于它的使用者,如果使用者自身能力越强,那么能发挥它的作用/价值就越大。所以要注意自我水平的提升,持续学习;
4、国内使用国外的先进大模型同时存在内外两方面的限制(“混合双打”),目前通过 Claude Code 配置 DeepSeek V4 Pro、GLM-5.2 等国产大模型也是一个不错的选择(DeepSeek V4 Pro 量大管饱,GLM-5.2 很强,但可能抢不上)。另外如果愿意折腾的话,也推荐试下 Codex(GPT-5.5),体验会好不少。至于 Claude Opus 除了中转站外是很难用上了:)
5、大模型的一点使用经验分享:
- 问题描述尽可能清晰,上下文信息给足,这样可以减少不必要交互,提升效率;
-
描述想法后,先让大模型评估并给出建议,再考虑编码实现;
-
设定好目标及测试用例,做好约束,每次修改后都要跑测试并检查是否满足约束;
-
优化系统时,可以让大模型从专业的角度评估整个系统,并给出优化建议,包括技术架构、界面设计与交互、性能等方面。
6、大模型还在持续迭代变强,有幸见证它的发展。
四、参考
1、Claude Code Docs(官方教程)
5、零废话!一文讲透从0构建AI Agent(简单科普)
6、AI Agent Performance Leaderboard(排行榜)
7、Artificial Analysis Intelligence Index(排行榜)