购买Manus AI积分 | 自主AI研究代理评测与定价

某个周二的上午 11:47，我在 Manus AI 里输入了一段文字。不是提问。不是创意写作的请求。而是一个任务——一个庞大的多步骤调研作业，通常需要一个初级分析师整整两个工作日才能完成。

那段提示词是："调研北美排名前 15 的 DTC（直接面向消费者）床垫品牌。对每个品牌，找到创立年份、当前估计营收、主要销售渠道（纯线上、零售门店或混合）、床垫价格区间、核心差异化卖点、最近一轮融资（如有风投背景）、以及至少两个评价平台的客户满意度评分。将所有数据整理成一张结构化表格。然后写一篇 1500 字的市场分析，总结趋势，找出增长最快的三个品牌，并为一家中型睡眠配件公司推荐潜在合作机会。"

我按下回车。Manus 确认了任务，在执行面板中把它分解成可见的子步骤，然后开始工作。我看着它打开浏览器标签页、访问公司网站、从 Crunchbase 拉取数据、扫描 Trustpilot 和 BBB 评价、开始填充表格——全程不需要我任何额外输入。

然后我去吃午饭了。

68 分钟后我回来，一份填好的表格和一份结构完整的市场分析文档已经在我的 Manus 工作区里等着了。表格有 15 行、8 列，数据都附了来源 URL，我能找到的事实错误只有两个（一个过时的营收数字，一个张冠李戴的创立年份）。分析报告条理清晰，引用了表格中的具体数据点，包含三条合理的合作建议，都有支撑逻辑。

这篇文章讲的是 Manus AI 到底是什么、为什么它和 ChatGPT 有本质区别、哪些方面真的好用、哪些方面拉胯。我已经用了六周，跑了调研、数据整理和工作流自动化任务。以下是完整的、不加修饰的真实体验。

01 Manus AI 和 ChatGPT 的核心区别

关于 Manus 最重要的一点你必须理解：它不是聊天机器人。ChatGPT、Claude、Gemini——这些都是对话式 AI 系统。你问，它答。再问，再答。交互模式是乒乓球：人类提问，AI 回答，人类再问，AI 再答。

Manus 是自主智能体（autonomous agent）。你给它一个任务——不是问题，是任务——它独立执行那个任务，通常耗时几分钟到几小时，使用的工具套件远超文本生成。

Manus 到底能做什么

浏览网页：Manus 打开真实的浏览器会话，访问网站、阅读页面内容、点击链接、填写表单、提取数据。这不是模拟搜索——是真正的网页浏览，能渲染 JavaScript 和动态内容。
执行代码：Manus 可以编写并运行 Python 脚本、处理数据、生成图表、进行计算。如果你的任务需要数据转换、统计分析或文件格式转换，Manus 用编程搞定。
管理文件：Manus 在工作区中创建、读取、编辑和组织文件。表格、文档、代码文件、数据导出——它像一个有文件系统访问权限的虚拟助手一样管理这些。
链式执行多步骤：这是核心差异化能力。Manus 把复杂任务分解为顺序步骤，执行每个步骤，把前一步的输出作为下一步的输入，并处理分支逻辑（如果第 3 步失败，尝试备选方案 B）。

换个方式理解：ChatGPT 是你可以提问的聪明同事。Manus 是你可以委派任务的初级员工。前者需要你持续参与，后者在你做别的事情时自己干活。

"我用了两年 ChatGPT，每天都用。Manus 是第一个真正减少了我待办清单的 AI 工具，而不是只让待办清单上的每件事做得快一点。"

—— r/artificial 上早期用户讨论中的一段感受。

02 我交给 Manus 的真实任务（附诚实评分）

六周内我在 Manus 上跑了大约 30 个任务，从简单到野心勃勃的都有。以下是有代表性的样本，配上透明的质量评估。

任务 1：竞品分析（床垫调研）

开头已经描述过。47 个隐含子步骤。耗时：68 分钟。质量：8/10。120 多个数据点中有 2 个事实错误，对于网页抓取的数据来说这是很强的准确率。市场分析写得中规中矩——不算出彩，没有资深分析师那种洞察力，但条理清楚、有数据支撑、作为初稿真的能用。我花了大约 30 分钟核实和修改，对比从零开始的 12-16 小时。

任务 2：定价数据汇编

任务："访问这 25 家 SaaS 公司的网站[附列表]，找到他们中间层级套餐的当前定价，记录是否提供年付折扣，汇编成一张包含公司名称、套餐名称、月价、年价和定价页 URL 的表格。"

耗时：41 分钟。质量：9/10。这是 Manus 的最佳状态——从已知来源进行结构化的、重复性的数据提取。25 条中 23 条完全准确。两家公司最近更改了定价页，让 Manus 产生了困惑（一家把定价藏在了"联系销售"后面，另一家用了计算器式定价模型）。Manus 把这两条标记为"无法确认"而不是瞎猜，这是正确的行为。

任务 3：内容调研与大纲

任务："调研财富 100 强公司目前的远程办公政策。找到至少 10 家有公开政策声明的公司，分类（完全远程、混合、回办公室），找到最近的政策公告日期，并为一篇 3000 字的趋势分析文章创建详细大纲。"

耗时：53 分钟。质量：7/10。调研很扎实——Manus 找到了 14 家公司的相关新闻稿、新闻报道和公司博客文章。分类准确。但文章大纲很模板化——读起来像任何 AI 生成的内容大纲，带着"混合办公的崛起"、"这对雇主意味着什么"之类可以预见的标题。它提供了有用的调研基础，但缺少让内容真正有趣的编辑视角和切入角度。我用了它的调研，大纲完全重写了。

任务 4：数据处理脚本

任务："我有一个 5000 行的客户反馈 CSV 文件。清洗数据（去重、统一日期格式、修复编码问题），对反馈文本列进行情感分析，添加情感评分列，并导出为 CSV 和带可视化的汇总报告。"

耗时：22 分钟。质量：8.5/10。数据清洗很彻底。情感分析用的是标准库（TextBlob）而不是更精密的模型，这意味着微妙的反馈有时会被分类错——尤其是反讽几乎每次都被误判为正面。但输出很干净，可视化图表可读性好，汇总统计准确。对于本来需要我写 2-3 小时 Python 脚本的快速分析来说，22 分钟令人惊叹。

任务 5：复杂多源综合分析（翻车现场）

任务："调研美国、欧盟、英国和中国在医疗 AI 领域的监管格局。对每个司法管辖区，总结现行法规、待审立法、2024-2025 年的执法行动和主要监管机构。然后创建对比矩阵，并为一款假设的 AI 诊断工具进入这四个市场编写风险评估。"

耗时：2 小时 15 分钟。质量：5/10。这个任务暴露了 Manus 的天花板。网络调研很广——它访问了几十个政府网站、监管数据库和法律分析文章。但综合分析只是表层的。监管的细微差异（比如欧盟 AI 法案的高风险分类和中国算法推荐监管之间的区别）被压扁成了泛泛的总结。对比矩阵做了但缺乏合规顾问能提供的分析深度。风险评估含糊不清，每个结论都在打太极。作为起点它确实省了时间。作为交付物，它需要大量专业修改。

03 积分系统：Manus 的定价逻辑

Manus 采用积分制。每个任务根据复杂度、执行时间和使用的工具消耗积分。这和 ChatGPT 的固定订阅模式有本质区别，对你如何使用平台有重大影响。

简单任务（快速网络查询、短文本生成）：积分消耗低。每任务成本和一次 ChatGPT 查询差不多。
中等任务（结构化调研、数据汇编、代码执行）：积分消耗适中。这是 Manus 性价比最高的区间——需要你几小时的任务在几分钟内完成，积分成本远低于你的时薪。
复杂任务（多小时调研、大量网页浏览、大文件处理）：积分消耗高。这类任务可能快速烧完积分，而质量不一定和成本成正比。我的监管调研任务消耗的积分大约是床垫调研的 5 倍，但质量明显更低。

实际含义：Manus 对中等复杂度、有明确成功标准的结构化任务最具性价比。如果你能用具体的语言精确描述你想要什么，Manus 会高效交付。如果你的任务模糊、开放式、或者需要深层领域专业知识，积分会在探索中被消耗，输出可能不值那个成本。

积分费用会浮动，Manus 自上线以来调整过定价。当前方案包括新用户的免费额度（足够跑 3-5 个中等任务来评估平台）和付费积分包。对于常规用户来说，月度开销通常在 20-100 美元之间，取决于任务量和复杂度。

04 Manus vs. Auto-GPT vs. Devin：智能体竞争格局

Manus 不是唯一的自主 AI 智能体。把它放到大背景里看看。

Auto-GPT（开源）

Auto-GPT 是 2023 年初爆火的初代自主 AI 智能体。开源、自托管、作为概念验证在技术上很惊艳。但实际使用中，Auto-GPT 有严重的可靠性问题——经常卡在循环里、做出莫名其妙的工具调用决策、需要主动监控以防 API 费用失控。对于喜欢折腾的开发者来说很有趣；对于想委派任务然后抽身的人来说不靠谱。Manus 本质上就是 Auto-GPT 当初承诺的东西，但具备了生产级的可靠性。

Devin（Cognition AI）

Devin 定位为"AI 软件工程师"——专门针对编程任务。它能自主规划、编写、调试和部署代码。Devin 的编码能力比 Manus 更深（理解复杂代码库、能浏览仓库、处理多文件编程任务），但聚焦面很窄。如果你的任务不是软件开发，Devin 不是对的工具。Manus 是通才；Devin 是专才。

带插件/Actions 的 ChatGPT

OpenAI 一直在通过插件、GPTs 和更新的"actions"框架给 ChatGPT 添加自主能力。ChatGPT 现在可以浏览网页、执行代码、链接一些操作。但它本质上仍然是对话式的——执行一个步骤，汇报结果，等你的输入。它不会把一个 47 步的任务分解成子任务然后全部独立执行。"带工具的 ChatGPT"和"作为自主智能体的 Manus"之间的差距，就像电钻和数控机床的差距——基本功能相同，自动化程度天差地别。

诚实总结：Manus 占据了一个独特的位置——一个可靠到真正能用于实际工作的通用自主智能体。它在任何单一能力上都不是最强的（ChatGPT 写得更好、Devin 编码更强、专业爬虫工具提取数据更可靠），但它是唯一一个把所有这些能力链接成自主多步骤执行、且质量可接受的工具。

05 Product Hunt 的病毒式传播意味着什么

Manus AI 在 Product Hunt 上的发布是近年来最引人注目的之一。演示视频——展示 Manus 自主完成复杂调研任务、从网页数据构建表格、生成分析报告——戳中了大家的神经。评论区是真正的兴奋和健康怀疑的混合。

兴奋来自范式转变。多年来，AI 工具一直是关于增强——让人类更快地完成他们已经在做的任务。Manus 代表的是委派——把任务交给 AI，收到完成的交付物。这是和技术之间一种心理上完全不同的关系，Product Hunt 的受众（主要是创始人、独立开发者和早期采用者）立刻理解了这个含义。

怀疑集中在三个点上，我现在可以从经验出发来回应：

"演示是不是精心挑选的？"部分是。演示任务确实特别适合 Manus 的强项（结构化调研、数据汇编）。真实使用中包括 Manus 表现不佳的任务，正如我的监管调研例子所示。但核心能力是真实的——它确实能自主执行多步骤任务，对于正确的任务类型确实能交付可用的结果。
"这和直接用 ChatGPT 有什么区别？"六周之后，我可以明确地说：对于正确的任务，区别是巨大的。ChatGPT 需要我持续参与。Manus 只需要我在开始（定义任务）和结束（质量审核）时参与。中间——实际工作发生的地方——是自主的。对于一个 90 分钟的任务，那就是我白赚回来的 90 分钟。
"准确度怎么样？"不稳定。Manus 的准确度和任务结构强相关。高度结构化的任务（从 Y 来源提取 X 数据，编译成 Z 格式）达到 85-95% 准确率。结构差的任务（分析这个宽泛话题，综合多元视角）达到 50-70% 准确率，需要大量编辑。理解这个区别是有效使用 Manus 的关键。

Reddit 的 r/artificial 上关于 Manus 的帖子值得一读，用户体验差异很大。最满意的用户是那些学会了写极其具体的任务提示词的人。最不满意的是那些期望通用智能的人——期望它能处理模糊性、做出判断、在没有详细指令的情况下产出专家级分析。

06 诚实的局限性

六周的日常使用让我对 Manus 的边界有了清晰的认知。

没有实时判断力。Manus 按计划执行。当它遇到意外情况（网站需要登录、数据源格式改了、搜索查询返回无关结果），它要么跳过该步骤，要么标记出来，要么尝试一个不一定管用的变通方案。它不会像人类研究员那样做出实时判断——调整策略、识别不可靠的来源、或者意识到原始任务设定就是错的。
综合分析中的幻觉。虽然 Manus 的数据提取通常准确（它在读真实的网页），但它的综合和分析层可能引入编造的关联或无依据的结论。即使底层数据准确，也要始终核查 Manus 输出的分析部分。
积分消耗不可预测。看起来差不多的任务可能因为网页浏览复杂度、重试次数和代码执行时间的不同而消耗差距很大的积分量。在你跑够足够多的任务形成直觉之前，预算要保守。
会话间没有记忆。每个任务都是独立的。Manus 不记得你的偏好、你的公司背景或之前任务的结果。每个任务提示词都需要自包含所有相关上下文。这是常规用户工作流中最大的摩擦点。
网站访问限制。有些网站屏蔽自动化浏览、需要验证码、或者对类似机器人的用户代理返回不同内容。Manus 能应对很多这类挑战但不是万无一失的。付费墙内容、需要登录的网站和重度依赖 JavaScript 的页面有时会导致失败。
速度差异极大。简单任务 5-10 分钟完成。复杂任务可能需要 2 小时以上。在开始之前没有可靠的方法估计完成时间，这让你很难围绕 Manus 来规划时间敏感的交付物。

07 如何获得最佳结果：任务设计原则

跑了 30 个任务后，我总结了一套写 Manus 提示词的框架，能稳定产出好结果。

01 对输出要求具体到变态 ——不要说"调研竞品"。要说"创建一张表格，列包括公司名称、成立年份、总部位置、员工数、年营收、主要产品和定价模式。包含 15 家公司。每个数据点附来源 URL。"
02 定义成功标准 ——告诉 Manus "完成"长什么样。"最终交付物应为一个 CSV 文件和一份 1000 字的总结文档。"模糊的终点导致模糊的产出。
03 提供格式示例 ——如果你想要特定的表格布局或文档结构，明确描述或提供模板参考。
04 尽可能指定数据来源 ——"在 Crunchbase 查融资数据，在 LinkedIn 查员工数，在公司自己的定价页面查套餐详情"给 Manus 一条可靠的调研路径，而不是泛泛搜索。
05 把超大任务拆成小块 ——与其一个巨大的提示词，不如考虑跑三个连续的聚焦任务。有针对性的任务通常比庞大的任务质量-积分比更高。
06 始终预留审核时间 ——Manus 是初稿机器，不是终稿机器。把你省下的时间中的 20-30% 预算给质量审核和修正。

08 谁真正能从 Manus 受益

不是所有人都需要自主 AI 智能体。以下是真正能获得价值的人群。

独立创始人和独立开发者：你一个人干五个人的活。Manus 让你把调研、数据汇编和分析任务委派出去，这些任务否则会吞掉一整天。积分成本几乎总是比雇自由职业者做同等工作便宜。
咨询师和分析师：从调研到交付物的流水线是 Manus 的甜蜜区。客户调研、市场规模估算、竞品分析、为演示文稿收集数据——这些结构化任务能产出 Manus 最好的输出。
需要调研支撑的内容创作者：如果你的内容依赖数据、统计和有来源的事实，Manus 可以在你专注写作时搭建你的调研基础。调研是起点而非成品，但它能大幅加速"我需要了解市面上有什么"这个阶段。
小团队负责人：与其把重复性调研分配给初级团队成员（可能花两天还会漏东西），不如用 Manus 做第一遍，让团队成员专注于分析、优化和战略思考。

应该跳过 Manus 的人：工作主要是创意型的（写作、设计、创意构思），需要实时协作的（Manus 是异步工作的），以及任务需要深层领域专业知识且无法从公开网络来源中提取的人。

10 最后的话：那个永远不睡觉的初级分析师

Manus AI 不是通用人工智能。它不会取代资深分析师、经验丰富的咨询师或领域专家。它目前能可靠做到的——在生产环境中——相当于一个胜任的初级分析师，以机器速度工作，从不休息，全天 24 小时待命。

这个初级分析师有盲点。他有时会搞错事实。他产出的东西需要编辑。他擅长结构化任务，需要判断力的任务只能给个中等水平。他便宜、快、不知疲倦——但没有智慧。

对于正确的任务，Manus 是变革性的。不是那种令人窒息的、技术乌托邦式的变革。而是实用的、"我刚把一天里的三个小时赚回来了"式的变革。文章开头的床垫调研任务本来会吞掉我整个周二下午。结果我去吃了午饭，回来花 30 分钟审核，然后转去做真正需要我动脑子的工作。

那不是魔法。那只是杠杆。而对于正在被调研、数据工作和重复分析任务淹没的人来说，这是目前最实用的那种杠杆。

四十七个步骤。六十八分钟。两个错误。一顿非常愉快的午餐。

47个调研步骤，零人工看管——Manus AI全自动交付了什么