发布于

1 主要使用

1.1 ChatGPT

UI设计简约好用：安卓端用起来都非常丝滑，整体设计简约而优美。最新更新的桌面版启动速度也正常了一些，总体也算是非常好用。唯一的不好用的伴随窗口这个功能，本来“ALT+SPACE”快捷键和状态栏点击图标都是打开的主窗口，十分好用也比较丝滑，自从那个CEO of Application上任之后，“ALT+SPACE”快捷键和状态栏点击图标就变成默认打开伴随窗口（类似于腾讯元宝的快捷助手）了。
傻瓜式对话：不需要进行模型选择，也不需要判断是否开启联网搜索，一切都由ChatGPT自行处理，打字之前不需要点击鼠标，基本实现傻瓜式地对话，大幅降低使用者的心理门槛，可以说是非常之友好。
输出内容可读性强：应该是内置系统提示词的功能吧，ChatGPT输出的内容结构化程度比较好，文字的节奏感也很强，标题、代码、加粗、图标、表格等等格式用得很溜，美观度和阅读流畅度很高，能够让用户快速找到想看的重点内容，读起来不会感觉费劲，不容易产生阅读疲惫感，因此能够让人更随意地进入相关话题和知识的探索之中。
有一定情绪价值：GPT4o之前因为过于谄媚引起了一些争议，GPT5上线后变得冷淡又有人不适应了，最终OpenAI调整了一下，不那么谄媚但也还算热情。在聊天过程中对于用户的追问，时不时来个“非常好”、“专业”、“关键”、“有价值”、“有道理”等，并顺便点个赞，情绪价值拉得满满的。没有人不喜欢被怕马屁，如果有，一定是拍的地方或者时机不对。虽然ChatGPT因为拟人化的风格引起了一些争议，但是如果真把AI搞成冰冷的机器人，那真的会少了很多趣味。当然，青少年特别版也是很有必要的。
理解能力强：在同一会话下的连续多轮对话中，基本没有出现过明显遗忘前面对话内容的情况，而且还能够很好地根据前文理解你当前这句话的意思，一个典型的表现就是用户可以随意地使用“这个”、“那个”指代前面双方已经交换过的信息，而不再需要浪费过多的时间去进行无谓的解释说明。这种超强地理解能力大幅降低了对用户写提示词的要求，沟通体感已经非常接近与聪明人聊天。
代码能力不错：虽然Claude编程方面风头更盛，但是ChatGPT感觉也还不错，基本可以解决我极少数的读写代码的场景，现在每周用它写的JavaScript代码汇总剪藏的新闻报道摘要也是比较丝滑。
尚可的对话推荐：ChatGPT每次对话结束后都会问要不要做个表做个图做个分析，虽然每次都问有点烦，但是说要的频率还是比较高的。
有长期记忆：ChatGPT的长期记忆，可能是因为没有用上PLUS版，目前感觉不算优秀但应该在持续发展中吧。
差强人意的深度研究：虽然之前的对比认为ChatGPT的深度研究胜过Gemini，但是多次试用下来，发现Gemini的深度研究材料更丰富一些。
不靠谱地画图水平：回答完问题经常喜欢老毛遂自荐问要不要画图，试了好几次，没有一次是画得好的。强调了好几次不要再推荐画图了，总算是记住了。

1.2 Gemini

UI体验不够顺畅：安卓端Gemini要借助Google App才能运行，启动的时候会卡一下，很不丝滑。关键是也没有Windows客户端，只能通过浏览器访问，没有快捷键可以随时启动非常不方便。
对话体验感有待提升：①需要选择使用Flash模型还是Pro模型，无形之中增加了不必要的决策门槛，有的时候真心不想用Pro，因为慢，有的时候Flash的答案又真心不行；②输出答案的结构化程度不如ChatGPT，可读性稍微差一点，如果对沟通内容不是那么感兴趣，有的时候就会看得很累；整体偏冷淡，虽然偶尔也会说些拍马屁的话，但拍得没有ChatGPT精准和热情。
理解能力强，专业水平高：理解能力不逊于ChatGPT，连续多轮对话也不虚，可以就一些专业问题进行深入探讨，能够给出算得上专业的回答。
“学习辅导”功能比较强大：Gemini辅导用户学习知识真的是非常合适，碰到感兴趣的话题根本停不下来，可以完全跟着用户的思路解答用户的问题，知道帮助用户理解相关概念和知识。不过目前用下来也有两个问题，一个是单次输出的知识密度太低，而各种引导性问题又太多，实在很影响效率。另一个是长时间聊下去好像确实会因为历史上下文过长造成模型降智，总体感觉下来还有很多打磨空间。
“深度研究”功能比较强大：多次使用体验下来，还是Gemini的深度研究最靠谱，而且还可以在生成的初版研究报告基础上提出修改意见让它持续修改，确实是很方便。
生图能力强：最近爆火的Nano Banana都不需要介绍了，P图功能确实是十分强大。
刚上线长期记忆：有就好。
谷歌全家桶融合体验：感觉潜力无限但是目前没有特别有用的地方，尤其是Gemini可以处理DOC文件但是无法处理md文件简直不敢相信。
感觉Gemini似乎快要赶上ChatGPT了。

1.3 Obsidian Copilot

笔记总结使用便捷：设置好prompt后，可以快捷调用ai总结提炼新闻报道和笔记，目前体验下来感觉阿里的Qwen模型确实算是比较好用的。
英文翻译使用便捷：设置好命令后，可以快捷翻译英文为中文，适合阅读英文笔记。
知识库问答有进步：更换为Qwen嵌入模型做知识库后，既顺利完成了索引，也没有之前豆包那么大的花费，而且对于当前笔记推荐的相关笔记的相关性明显提高了很多，知识库问答也能够基于笔记仓内容，质量有一定提升。

1.4 阿里百炼/通义

百炼平台还算好用：百炼平台可使用DeepSeek、Qwen（通义千问）、Kimi等模型，用户体验虽不如火山方舟，但是胜在免费额度较多，Qwen模型使用效果也不错，尤其是嵌入模型比之前尝试使用的豆包嵌入模型好太多了，已经成为Obsidian Copilot调用的主力模型。
Qwen国际评价高：国内大模型已发布，国内一众媒体一片吹捧，已经分不清好坏了。而国外媒体因为利益关系不深，被他们反复提到的Qwen反而可能是有些实力的。基于这样一个认知，即便之前已经因为糟糕的UI体验放弃使用通义（据通义自己介绍，通义是个大品牌，通义千问Qwen和通义万相都包括在内），但是最近随着百炼平台及其Qwen模型的使用渐入佳境，又开始捡回通义桌面端和安卓端了。
通义UI设计一般：安卓端通义整体没有太大亮点，整体上内容有点杂乱，不够清爽，而且还浏览器上下文菜单（长按网页文字后会弹出的菜单）中加了一个无用的菜单。桌面版通义应该是最近发布不久，界面非常原始粗糙，继续快速迭代更新改善。虽然UI设计虽然不好，但也算是补齐了多端体验，还是值得肯定的。
国内尚算丝滑的对话体验：不需要选择是否联网，输出内容结构化和情绪价值超过Gemini，在向ChatGPT靠齐，就是还需要选择不同对话模型有点纠结。
理解能力强：连续多轮对话简单体验后，暂时还没有发现什么太大的问题，能够持续结合当前对话的上下文，相对比较精准地理解清楚用户的意思，看得出来在向ChatGPT和Gemini靠齐。

1.5 腾讯元宝（DeepSeek）

产品UI近乎完美：无论是桌面端还是安卓端，腾讯元宝经过前面几个月的快速更新，UI设计个人看来已经接近完美，划词工具栏已经非常便捷好用，快捷键启停操作也非常丝滑，唯一的问题就是每天第一次启动都会坚持不懈地弹出选择混元模型的界面。
配不上UI的对话体验：联网选择方面，元宝已经推出了自动联网搜索功能，但感觉先找资料后思考，而不是边找资料边思考的方式，似乎还是有一些短板；模型选择上面，元宝因为引入了第三方模型，又是DeepSeek又是混元又是推理模型，总体上不利于选择困难症患者；输出内容可读性方面尚可。
长期潜力有限：个人感觉生成式AI产品的好坏还是取决于基座大模型技术水平的高低，应用层面的创新很难构建足够的护城河。腾讯过往的产品占了太多网络效应的便宜，通过超出竞争对手一点点的用户体验，就能够快速打败竞争对手，但是AI作为生产力工具，好坏全看技术水准，就目前混元的这个水平和投入度。至于说AI应用层面，个人感觉AI基础模型研发商可以比较容易地追平好的AI应用agent，所以纯做应用的AI产品研发必须永远快人一步，要快的话，可能创业公司比腾讯这样的大公司更有利，所以腾讯可能做AI的竞争力比较受限。

2 搭配使用

2.1 豆包/火山方舟

字节内部地位高：AI研发是个有钱人才能玩的游戏，国内目前看下来除了DeepSeek，就剩下阿里通义和字节豆包比较豪一点，短期看阿里通义声量更大，但长期看豆包在字节体系内的战略地位似乎比通义在阿里体系内的地位更高，可能豆包会更有潜力一些吧。
浏览器插件好用：翻译功能很好用，网页总结也尚可。
客户端一言难尽：安卓端的交互逻辑跟其他APP都不一样，用起来很混乱；桌面端内存占用过大；图标看起来有点像《七龙珠》人造人18号，感觉有点诡异。
方舟平台易用性强：可使用DeepSeek、Kimi、豆包等模型，还有模型微调、AI应用开发等功能，能够比较方便的查看开通模型、token使用量和费用等，用户体验较好。

2.2 Claude

差异化竞争优势凸显：Claude虽然是ChatGPT的追赶者，但是已经通过聚焦编程能力、AI安全、B端客户等方式实现了差异化定位并取得了相应的竞争优势在海外媒体报道中占据大量篇幅，在国内也因禁止中国企业使用而被许多人知晓，其开发公司Anthropic目前估值1830亿美元，可谓是炙手可热。
多端体验打通：Claude在桌面端、移动端、插件端都有布局，UI设计比较有个性，日常对话体验也还算可以，但是不如它的编程能力那么突出。

2.3 Grok

豪：世界首富马斯克的作品，出身就含着金钥匙，其开发公司xAI虽然最近有不少高管出走，有些动荡，但是有消息透露其最新估值已经达到2000亿美元，可谓是非常之豪气了。
放荡不羁爱自由：首个通用大模型厂商直接做AI伴侣的吧，然后还经常口出狂言，发表一些极端言论。目前没有桌面端，安卓端使用体验在不断提升，是一个值得关注的冉冉新星。

2.4 Kimi

客户端设计中规中矩：安卓端易用性一般，比元宝差不少，很通义差不多，好用过豆包；桌面端比较简陋，好像也不怎么更新。
日常问答体验中规中矩：连续多轮对话后，会明显感觉kimi的智商不够用了，还有很长的路要走啊，大模型是个烧钱的玩意，没有收入不知道还能坚持多久。

2.5 Perplexity

有AI自动生成的新闻，因为转换成了中文，刷起来不那么费劲。
反应速度比较快，回答问题简洁明了，不拖泥带水，比起ChatGPT更接近搜索的体验，但是也少了聊天的乐趣，深度研究也不够深度。
中文内容比较差，感觉都没法用，PRO都没用，可能跟国内大部分优质内容在封闭平台有关。

2.6 Gemini CLI/Qwen Code/Claude Code

笔记处理自动化程度高但是效果一般：用Claude Code自动化处理笔记文件的感觉确实很好，但是总结17篇新闻报道却直接干了800万token确实有点夸张，然后输出的内容完全不符合要求也是无奈了。

2.7 硅基流动

国内大模型API聚合平台，对个人用户友好，对Obsidian Copilot有优化，有大语言模型也有嵌入模型，配置简单好用。

2.8 欧陆词典插件

浏览器插件还可以，整段翻译不如豆包，但是查词方面还是比较优秀，有AI针对这段话上下文背景对单词解释。

3 保持关注

3.1 秘塔AI搜索

作为深度搜索和深度研究的一个备选，布置的深度研究任务，搜索资料比较多，但是筛选能力和整合能力似乎不强，抓不到最核心的要点。

3.2 文心一言

毕竟是老BAT，毕竟曾经“All in AI”过，毕竟用了十几年的“百度一下，你就知道”，瘦死的骆驼比马大，不怎么使用但是保持关注中。

3.3 智谱清言

试用过一次智谱沉思后差不多要放弃了，但是据说智谱精力在B端，保持关注。

3.4 腾讯元宝（混元）

虽然总是被强推，但是基本没用过，腾讯老想着通过生态应用摘果子，不想着创新。

3.5 长期未用

DeepSeek及其开放平台：DeepSeek未来似乎是要往基础模型提供商的方向发展了吧，2C业务不太做了还是怎么样，APP体验从年初到现在基本没啥变化，还是等新一代模型出来再看看。
即梦AI：用过几次即梦AI生成的图片，没有惊艳也没有槽点，有生图需求时使用
Cherry Studio：纯桌面客户端，本身并不提供大模型，但胜在全面和方便，包括api管理、多模型回答、联网搜索、知识库、快捷搜索框、划词工具栏、MCP、导出到Obsidian等。
Github Copilot：既能辅助看代码，也能排查代码运行的问题，一定程度降低了使用编程能力解决问题的门槛。目前直接ChatGPT生成代码或问代码也有一样的效果
OpenRouter：国外大模型API聚合平台，可以使用包括GPT、Claude、Gemini等模型的API服务，目前可以直接用官方的产品，基本没怎么用了，但是有个国外的token工厂，或许不知道什么时候就能用得上了。
华为云Modelarts：比腾讯云好一点，但是不同模型的API地址居然不一样也是没谁了，赠送token用完后如果没有什么改变可能就要放弃了
Notion AI：——
腾讯云大模型服务：没有清晰的模型市场，也很难找到模型使用量，产品的用户界面感觉比较混乱，故接近放弃。
NotebookLM：网上评价一直很高，但是用了没用出什么门道来，转播客暂时感觉没啥意义
Coze：用Coze给公众号接过DeepSeek
讯飞星火：感觉无亮点
Microsoft Copilot：感觉无亮点
夸克浏览器AI：做PPT也不太行
腾讯ima.copilot：为感受到明显亮点
纳米搜索：感觉不太行
Monica：——
Trae：——
WPS AI：开了WPS大会员，做了几个PPT，差评
WPS灵犀：不太好用

4 长期AGI趋势

目前大模型的基础能力发展节奏明显放缓，目前大多数吹嘘AI产品的标题党，要么是AI公司的市场推广，要么就是为了博眼球，GPT-5的发布已经很好地验证了这一点。目前来看，至少中短期内应该没有什么AGI到来的希望，更不用说ASI。

5 短期发展方向

虽然没有看到AGI的太大希望，但是AI作为一个产业的发展前景感觉还是比较光明的，从个人使用体验来看，使用AI最好的方式还是把AI当乙方/下属一样来咨询问题和安排任务。AI要想更好的完成人类交办的任务，还有几个需要重点提升的地方。

5.1 更低的门槛：统一模型、上下文工程

5.1.1 少让用户做选择

领导：只想要结果，不想做太多无用的技术性选择（决策）
用户：不同模型的不同区别不重要，是否需不需要联网不重要，重要的是能不能回答和解决问题。做选择做决策是一件很耗脑子的事情，如果一个AI产品还需要用户选择用什么模型，选择是否联网，无疑是增加了不必要的门槛
产品方向：统一模型，让系统做选择，用户只需要提问题。ChatGPT基本实现了这一目标，其他大模型厂商应该及时跟进。

5.1.2 弱化用户提示词的作用

领导：一个甲方/领导喜欢聪明的能快速领会自己意图的乙方/下属，而不想要一个需要自己绞尽脑汁组织语言才能与之交流的乙方/下属。最懒的领导提需求只想送出一个球，最厉害的下属只需要一个球就能领会领导的意图。（当然从管理者的角度不能这样看问题，但从下属的角度，就不能不这样考虑问题了。）

Pasted image 20250923223631 Pasted image 20250923223655

用户：如果用个AI还要让我学习提示词，那你最好确保我学会提示词之后再用AI能让我的工资涨个几千块，不然我都不知道学的意义在哪里。（同样的，从使用者的角度不能这样看问题的，但是从产品的角度，就不能不这样考虑问题了）
产品方向：提升模型的理解能力，优化上下文管理，淡化提示词的作用，如有必要，通过多轮沟通达到目的。

5.1.3 提供一定的情绪价值

领导：下属能干活固然最重要，但是又能干活又能拍对马屁的下属当然更好。领导也是成年人，成年人不想做选择，成年人都想要。
用户：太过谄媚很假，马屁拍太多也不真实，控制好拍马屁的次数，把握好拍马屁的时机，情绪价值拉满。
产品方向：模型不能太谄媚，但是也不能太冷淡，还是要热情一点比较好。每个人一定会有自己喜好的人设，找到那个人设，然后按那个人设拍马屁肯定不会错。

5.2 更优的记忆：上下文窗口、上下文工程

5.2.1 上下文窗口

由于大模型本身是无状态的，也就是说完全没有记忆，底层的大模型只能做一件事，你给他发一句/段话，他给你回一句/段话，然后他就与你相忘于江湖。
之所以我们能跟大模型进行连续对话，看起来它能记住前面的信息，只是因为聊天系统在后续的对话中，会把之前所有的历史聊天信息连同最新的一条信息一起发给大模型。
所以跟大模型聊天越往后聊，大模型每次接受的信息会越多，噪音信息也会越多，可能会出现降智的情况。
产品方向：更长的上下文当然更好，只要过长的上下文不会因为信息过载而降智就好。

5.2.2 上下文工程

不管上下文多大，肯定不会是无限的，在有限的上下文窗口下，如何给当前对话添加合适的上下文信息，就是上下文工程所要解决的问题了，上下文工程比提示词工程好的一个地方，就是把对用户使用AI的写提示词要求，部分转化为开发者应该解决的问题了，这是一个很好的方向。
因为，多轮持续对话，比一次性说清楚自己的意图，更符合人类信息交换的逻辑。比如，工作中的稍复杂一点的沟通，一方往往不可能一次性就讲清楚自己的观点和意图，往往需要双方来回沟通个几个来回，才能最终完成信息的相对无损交换。
其实这跟人的脑子多少有点像，一个人在当下这个时刻，是不可能想起一生中所经历的所有记忆，而他也不需要想起所有记忆，他只需要想起跟当下最有关的记忆就可以。

5.3 更少的幻觉

不懂就认，不要硬装：以大模型目前的智力水平，对于没有把握的事情如果能够做到说不知道不清楚，可用度应该会大扶提升。
但是目前来说，只能通过两个或多个大模型对一些重要的回答结果进行校验了。

5.4 更多元的内容：多模态

很多信息的传递和表达，文字在信息传递上具备无与伦比的优势，但也有一些信息，通过一副图片和一个视频的表达，能够更加的深入人心。比如我们想了解101在决策打锦州还是打长春时，国共双方在东北的兵力部署，可能还是看图比文字描述更方便。
所以一个模型能够直接在沟通中综合文字和图片甚至视频来表达自己的观点，或许会有更好的效果。
目前，ChatGPT在沟通中，频繁主动提议生成图片，但每次生成的图片都是都是一塌糊涂。

5.5 更低的成本

收益无法大幅提升的情况下，成本就成为重要的方向了。

兴之所志 2025-09-23