01 Manus AI 声称是世界首个通用 AI Agent——MIT Technology Review 前往一探究竟
Manus AI 在 2025 年初推出时,以通常只有消费级应用才有的速度在互联网上传播,而非企业 AI 工具。MIT Technology Review 是最早获得实际试用权的可信媒体之一,他们的评估在具体可衡量的方面既表示赞赏也持怀疑态度。
"自从通用 AI agent Manus 上周推出以来,它在网上像野火一样传播。不仅仅是在中国——它由总部位于武汉的创业公司 Butterfly Effect 开发。" — MIT Technology Review
Manus 不是聊天机器人。它不是坐在文本框里等你提问。你给它一个高层目标——"给我建一个作品集网站"、"创建 CRM 市场的竞争分析"、"做一个可玩的浏览器游戏"——它自己想出所有中间步骤。它将目标分解为子任务,分配给不同的内部 agent,并自主执行。底层模型是 Anthropic 的 Claude 3.5 Sonnet 和阿里巴巴 Qwen 的微调版本的组合,通过多 agent 架构进行编排。
这种热度吸引了严肃的关注。Twitter 联合创始人 Jack Dorsey 和 Hugging Face 产品负责人 Victor Mustar 是赞赏其能力的知名人士之一。Discord 频道超过了 186,000 名成员。但 MIT Technology Review 指出了一个核心问题:
"很少有人有机会使用它。目前,等待名单上只有不到 1% 的用户收到了邀请码。" — MIT Technology Review
这造成了典型的炒作不对称:谈论 Manus 的人大多只看过演示,而非深度使用过它。真正深度使用过的人有一个更复杂的故事要讲——涉及积分耗尽、未完成的任务,以及需要大量人工清理的输出。
技术本身是真实的。Manus 在 GAIA 基准测试(通用 AI 助手)上得分具有竞争力,该测试衡量 agent 自主完成真实世界任务的能力。它使用的多 agent 架构在技术上很精密——不是单一模型假装自主,而是多个专业化 agent 通过编排层协调。问题不在于技术,而在于经济性、打磨程度,以及演示条件和日常使用之间的差距。
02 Manus 实际能构建什么——真实输出示例及其局限性
标题能力是真实的:Manus 可以从单个提示构建功能性的东西。一位用户记录了它用大约一小时从单个提示创建了一个可玩的"Google CEO Simulator"游戏。另一位在 30 分钟内构建了一个功能性的 Linktree 风格个人主页。它可以编写简单的浏览器游戏、生成可用的网页、创建图像、编写研究报告和制作演示文稿。
一位用户在 Medium 上记录了他们的亲身体验:
"用大约 1 小时从单个提示创建了一个可玩的'Google CEO Simulator'游戏。在 30 分钟内构建了功能性的 Linktree 风格个人主页。" — Luluyan, Medium
对于一个零代码、零配置的起点,这些输出令人印象深刻。你用自然语言描述你想要什么,30-60 分钟后你就有了一个可以工作的东西。对于原型制作、概念验证演示、"我需要在明天的会议上展示点什么",这确实有用。
但"功能可用"和"可投入生产"之间的质量差距是 Manus 持续短板所在:
"质量参差不齐。输出通常缺乏打磨。生成的网页可能有疯狂的配色方案,或者代码可能有开发者仍然需要修复的小 bug。" — NinjaTech AI 对比分析
Manus 处理得好的任务有共同特征:它们是自包含的,有明确的成功标准,不需要深度领域知识,输出格式是明确定义的。简单游戏、作品集网站、市场分析报告、数据编译任务——这些是 Manus 的最佳场景。
它处理得不好的任务:任何需要打磨的、在边缘情况下的稳定性、与现有系统的集成,或特定领域准确性的工作。生成的代码有 bug。设计是通用的。研究报告宽泛而非深入。对于专业交付物,你会花时间修复 Manus 产出的东西——有时比从头开始构建花的时间还多。
"作为 beta 产品,据报道它容易崩溃和服务器过载。它是一个封闭系统。你无法轻松将其连接到你现有的业务软件。" — NinjaTech AI 对比分析
封闭系统的限制很显著。Manus 在自己的沙箱中运行。它无法访问你公司的内部数据库、API、设计系统或知识库。每个输出都是从通用知识生成的,这意味着它无法学习你的品牌声音、代码惯例或业务上下文。对于有成熟系统的公司,这使 Manus 对全新原型有用,但不适用于扩展现有产品。
一位用户在 Medium 上记录了尝试将 Manus 用于真实业务交付物的经历:
"Manus 可以编写简单游戏、生成可用的网页、创建图像和进行深度研究。但输出通常需要大量清理才能交付给客户。" — Luluyan, Medium
用户报告中的模式一致:Manus 擅长生成新事物的初稿,而在优化、集成或维护现有事物方面苦苦挣扎。这是多 agent 架构的基本特性——它们可以快速启动新工作,但缺乏在约束条件下工作所需的深度上下文。人类开发者理解你的设计系统、命名惯例、部署管道。Manus 每次都从零开始。
稳定性问题加剧了质量担忧。用户报告高峰使用时服务器过载、任务执行中途停滞,以及偶尔完全失败——agent 开始一个任务却什么也没产出。对于一个收费 $39-$199/月的产品,运营可靠性应该是基本保障——而根据大多数评价,它还没有达到这个水平。
03 积分系统——$199/月如何在一个下午内消失
Manus 的定价乍看合理,但实际并非如此。积分系统是许多用户经济上崩溃的地方,社区中的挫败感是明显的。
截至 2025 年底的定价层级:
Free:$0/月。1,000 初始积分加上每天 300 积分。1 个并发任务。这听起来很慷慨,直到你了解积分实际能买什么。
Basic:$19/月。1,900 积分(加上限时优惠期间的 1,900 推广积分)。2 个并发任务。
Plus (Starter):$39/月。3,900 积分(加上 3,900 推广积分)。3 个并发任务。
Pro:$199/月。19,900 积分(加上 19,900 推广积分)。10 个并发任务。
Team (Beta):$39/成员/月。每成员 3,900 积分。
问题不在于每个层级的价格——而在于积分消耗速率。agent 执行的每个操作都消耗积分。写一行代码、创建一张幻灯片、进行一次 API 调用、运行一次搜索查询。一个中等复杂的任务不是消耗 10 或 20 积分,而可能消耗数百。
"用户报告称,一个中等复杂的任务就可以消耗超过 900 积分。有些人甚至在第一次请求时就用完了 1,000 免费初始积分。" — eesel.ai 定价分析
再读一遍:一个任务 900 积分。免费层级给你 1,000 初始积分。一个请求——不是复杂的,而是中等复杂的——就能消耗你免费额度的 90%。期望用几个测试任务评估产品的用户发现自己在第一次尝试后就被锁定了。
三个具体的设计决策使积分系统特别令人沮丧:
执行前没有成本估算:Manus 不会在你开始前告诉你一个任务将花费多少积分。你描述你想要什么,按回车,只有在积分扣除后才发现成本。对于一个 $199/月的产品,这是异常缺乏透明度。
积分不结转:未使用的积分在月底过期。如果你在 Pro 上支付了 19,900 积分但只用了 5,000,剩余的 14,900 消失了。没有将未使用积分存入高使用量月份的选项。
任务中途停止:如果积分在任务过程中用完,工作就停止了。你得到未完成的输出,已消耗的积分不退。想象一份研究报告在第 3 页(共 10 页)时中断,或者一个网站构建生成了前端但从未连接后端。部分工作往往是无用的。
r/ManusOfficial 的 Reddit 社区有多个记录积分耗尽挫败感的帖子。用户报告输入他们认为是简单的任务,然后眼睁睁看着积分余额实时暴跌,无法暂停或取消。
用具体数字来说明积分经济:在 Free 层级(1,000 初始积分 + 每天 300),用户可能在积分耗尽前完成 1-2 个中等复杂的任务。在 Basic 层级($19/月,1,900 积分),你可能完成 2-4 个任务。在 Plus($39/月,3,900 积分),大约 4-8 个任务。在 Pro($199/月,19,900 积分),大约每月 20-40 个任务——如果任务平均消耗 500-1,000 积分的话。但方差巨大。一个简单的"给我做一个作品集页面"可能用 200 积分。一个"研究这个市场并给我做一份演示文稿"可能用 2,000。不可预测性是核心挫败感。
推广积分(作为限时优惠匹配月度额度)在初期将价值翻倍,但造成了误导性的第一印象。用户注册,获得双倍积分,有一个良好的体验,然后在第二个月推广积分到期、有效预算减半时遭遇打击。这是常见的 SaaS 入门模式,但当积分耗尽意味着未完成的工作且无恢复途径时,它特别痛苦。
与 ChatGPT Plus 的对比是鲜明的。ChatGPT Plus 花费 $20/月,可实际无限使用 GPT-4o,加上有速率限制的 o3、o4-mini、Deep Research 和所有其他功能。Manus 花费 $39-$199/月获得积分限制的访问,一个复杂任务就可能消耗你的月度额度。
"当你把它和 ChatGPT Plus 放在一起比较——后者大约 $20/月几乎无限使用——价值主张看起来很摇晃。" — Future AGI 分析
04 底层原理——多 Agent 架构为何既令人印象深刻又会失败
理解为什么 Manus 产出令人印象深刻的演示但在真实世界中结果不一致,需要理解其架构。Manus 不是一个单一的 AI 模型——它是一个多 agent 系统,多个 AI 模型独立操作任务的不同方面。
编排层接收你的高层目标并将其分解为子任务。不同的 agent 处理不同的子任务:一个 agent 可能研究主题,另一个设计视觉布局,另一个编写代码,另一个编译最终输出。agent 在沙箱环境中运行,该环境为它们提供工具——网页浏览器、代码执行器、文件系统——来完成工作。
驱动这些 agent 的模型是 Anthropic 的 Claude 3.5 Sonnet(用于复杂推理任务)和阿里巴巴 Qwen 的微调版本(用于效率敏感的操作)。这种多模型方法不是 Manus 独有的——它是 agentic AI 系统中的常见模式——但具体的组合和编排质量决定了真实世界的性能。
GAIA 基准测试(通用 AI 助手)是评估 Manus agent 能力的主要公开基准,它在其他 agent 系统中得分具有竞争力。但基准测试和生产使用以可预测的方式分歧:基准测试使用定义明确、有清晰成功标准的任务,而真实世界任务是模糊的,有隐含要求,需要与现有上下文集成。
多 agent 架构解释了优势和劣势。当子任务可以清晰分离——研究一个主题,然后写一份报告,然后格式化为网页——分工运作良好。每个 agent 处理它擅长的事情。但当子任务有依赖关系——设计必须匹配内容,代码必须实现设计,数据库 schema 必须支持功能——协调失败就会出现。代码 agent 不知道设计 agent 决定了什么。研究 agent 不知道代码 agent 能实现什么。
这就是为什么输出"通常缺乏打磨"。单个组件是合格的。组件之间的集成是质量下降的地方。生成的网页可能有结构良好的 HTML 但"疯狂的配色方案",因为设计 agent 和代码 agent 没有共享美学上下文。代码可能能运行但有"小 bug",因为测试 agent 没有预料到代码 agent 引入的边缘情况。
OpenAI 的 Codex agent、Claude Code 和 Cursor 的 Background Agents 等竞品采取了根本不同的架构:它们使用一个带工具的强大单一模型,而非多个专业化模型协调。单一模型方法牺牲了并行性以换取连贯性——一个模型理解整个上下文,因此集成质量本质上更高,但执行是顺序而非并行的。
05 Manus vs ChatGPT vs Devin vs Claude——没人愿意做的诚实对比
自主 AI agent 的竞争格局很拥挤,每个产品做出不同的权衡。重要的对比不是功能列表——而是当你给每个工具一个真实任务并评估输出时会发生什么。
Manus vs ChatGPT Plus($20/月):ChatGPT Plus 提供更可预测的成本。$20/月你获得无限 GPT-4o,有速率限制的 o3 和 o4-mini,Deep Research、Canvas、Projects、Memory、语音模式和图像生成。功能广度无可比拟。ChatGPT 缺少的是自主执行——它不会端到端构建东西而不需要你的参与。你必须引导每一步。Manus 的价值主张是自主性:给它一个目标然后走开。但 $39-$199/月的不可预测积分消耗的自主性对比 $20/月的可预测无限使用的引导交互,是一个 Manus 在账面上持续输掉的价值对比。
Manus vs Devin:Devin 来自 Cognition Labs,专门针对软件工程。它设置开发环境、编写代码、运行测试和调试。对于编码任务,Devin 的专注特化通常比 Manus 的通才方法产出更好的结果。Manus 更宽泛——它可以研究、设计、编码和展示——但在每个垂直方向上更浅。
Manus vs Claude Computer Use:Anthropic 的 Claude 现在可以使用电脑——点击按钮、填写表单、浏览网站。这赋予了它类似 Manus 的自主执行能力,但由一个更连贯的单一模型(Claude Opus 或 Sonnet)支持。权衡是:Claude 的电脑使用每个任务更慢更昂贵,但输出质量通常更一致,因为没有多 agent 协调会崩溃。
Manus vs Cursor/Codex Agents:对于编码的特定用例,Cursor 的 Background Agents($20/月 70-80% 一次性成功率)和 OpenAI 的 Codex(SWE-bench 分数约 80%)在代码质量和可靠性方面都优于 Manus。这些工具是为软件开发专门构建的,具有深度 IDE 集成、仓库理解和测试驱动工作流。Manus 可以编写代码,但它不是编码工具——它是一个碰巧将编码作为一种能力的通用 agent。
诚实评估是:Manus 的独特价值在于从单个提示跨多个领域(研究 + 设计 + 代码 + 展示)的端到端自主执行。没有其他工具如此无缝地做到这一点。但积分系统、质量不一致、封闭生态系统和成本不可预测性削弱了这个价值主张在持续专业使用中的意义。演示令人印象深刻。日常工作令人沮丧。
06 Manus 真正有意义的地方——值得花积分的任务
尽管有局限性,有些特定用例中 Manus 的自主执行模式确实提供了真正的价值——替代方案要么是雇佣自由职业者、花数小时自己做,要么是根本不做。
非技术创始人的快速原型:如果你有一个应用想法但没有编码能力,Manus 可以产出一个可用的原型——一个可点击的网站、一个简单的游戏、一个数据仪表板——你可以展示给潜在投资者、联合创始人或早期用户。原型不会是生产级质量,但它展示了概念。替代方案——雇佣开发者做一个周末原型——花费 $500-2,000。Manus 可以用一个月 Pro 的成本做一个粗糙版本。
竞争研究报告:让 Manus 研究你所在市场的竞争对手并产出包含定价、功能、定位和市场份额数据的结构化报告。agent 搜索网络、编译信息并生成格式化文档。输出需要事实核查——AI agent 会虚构数据点——但作为你验证和完善的初稿研究文档,它节省了数小时的手动研究。
活动或营销活动的一次性网页:着陆页、活动注册网站、作品集页面。这些是自包含的,有明确的要求,不需要与现有系统集成。Manus 可以端到端产出它们,对于"够用就好"标准的短期页面,质量是可接受的。
数据编译和展示:当你需要从多个网络来源收集信息并编译成演示文稿或报告时,多 agent 架构实际上运作良好。研究 agent 收集数据,同时格式化 agent 组织结构。输出是一个外观精致的文档,节省了大量手动编译时间。
应该避免给 Manus 的任务:任何需要生产级代码质量的、需要与现有技术栈集成的、需要特定领域准确性的(医疗、法律、金融内容),以及部分完成(由于积分耗尽)比根本不开始更糟的任何事情。
一个实用的积分管理策略:每个 Manus 任务都从一个明确范围的最小版本开始。不要说"给我构建一个完整的 CRM 应用",而是从"给我构建一个带有添加和删除功能的单页联系人列表"开始。评估输出和积分消耗。如果质量可接受且积分成本合理,逐步扩大范围。这防止了雄心勃勃的第一次请求带来的 900 积分惊喜。
另一个来自找到可持续使用方式的用户的策略:在 Manus 之外先做完研究和规划,然后仅用 Manus 执行。不要让 Manus "研究 CRM 市场并给我构建一份竞争分析演示文稿",而是自己用 ChatGPT 的 Deep Research(对研究任务更便宜且质量更高)做研究,然后给 Manus 一份详细规格:"使用这些数据[粘贴数据]构建一个 10 页演示文稿。第 1 页:标题页。第 2 页:包含这 4 个数据点的市场概览。第 3 页:比较这 5 家公司的竞争矩阵。"你的输入越具体,agent 采取的操作越少,消耗的积分也越少。当计划明确时 Manus 擅长执行——消耗积分不成比例的是探索和研究阶段,因为 agent 搜索、阅读、评估,并经常回溯。
并发任务限制对试图最大化吞吐量的用户很重要。在 Free 层级,你只有 1 个并发任务——在第一个任务完成前你无法启动第二个。Basic 获得 2 个,Plus 获得 3 个,Pro 获得 10 个。对于批量处理任务的高级用户(上午:排队 5 份研究报告;下午:排队 3 个网页构建),并发任务限制决定了你的积分额度多快转化为完成的工作。Pro 层级的 10 个并发任务配合 19,900 积分实现了一种工作流:你同时启动 10 个任务并在数小时内审查输出——但前提是每个任务的积分消耗保持合理。
07 替代方案组合——每个用例应该用什么替代 Manus
对于大多数专业人士,最佳方法不是将 Manus 用于所有事情,而是为每个任务类别组装正确的工具。以下是实用的替代方案组合:
研究和分析:ChatGPT Plus Deep Research($20/月)在研究能力上优于 Manus,同时成本更低且使用不受限。Deep Research 在 Humanity's Last Exam 上得分 26.60%,而最佳单一模型为 20.32%。它浏览网络、阅读多个来源并产出带引用的报告——与 Manus 做的事情相同,但质量更好且定价可预测。
代码生成:Cursor Pro($20/月)带 Background Agents 或 GitHub Copilot Pro($10/月)带 Coding Agent。两者都比 Manus 产出更高质量的代码,与你现有的开发环境集成,并支持迭代开发工作流。Cursor 在编码任务上 70-80% 的一次性成功率对比 Manus 不一致的输出质量,差距并不小。
网页和应用构建:Lovable.dev(起价 $25/月)专为全栈 Web 应用生成而构建。它包括 Supabase 数据库集成、Stripe 支付和一键部署。积分系统更透明,Web 应用的输出质量一致高于 Manus,因为它专门为这个确切的任务而设计。Bolt.new 和 Vercel 的 v0 也适用于不同范围——v0 用于组件,Bolt 用于快速原型,Lovable 用于完整 MVP。
设计和视觉资产:Lovart AI 或带 AI 功能的 Figma。Manus 可以生成视觉内容,但专用设计工具产出更高质量、更一致的结果,编辑能力也更强。
对于特定的"给它一个目标然后走开"的工作流:这是 Manus 真正的差异化优势。如果你特别需要从单个提示跨研究、设计和代码的自主端到端执行,无需中间引导,Manus 是唯一在消费级定价下提供这一点的工具。问题是这种特定的工作流是否值得积分的不确定性和质量的不一致性。对许多用户来说,答案是:偶尔可以,对于合适的任务。
对于想要跨多个平台实验 AI agent 能力的用户——ChatGPT Plus 用于研究、Cursor 用于编码、各种工具用于特化任务——acccup.com 等服务提供跨这些平台的账户访问,免去评估期间管理多个订阅和验证的摩擦。当你比较五种不同的 AI 工具来找到合适的组合时,账户配置的开销是一个真实的障碍,聚合访问可以解决这个问题。
08 诚实判定——何时使用 Manus,何时跳过,以及接下来会怎样
Manus AI 是一个真正雄心勃勃的产品。将目标分解为并行子任务、跨研究、设计和代码自主执行的多 agent 架构,是 AI 工具未来的工作方式。问题是 Manus 是未来的过早到来——积分经济惩罚探索、输出质量需要人工清理、封闭生态系统阻止与现有工作流的集成。
使用 Manus 的场景:你需要一个自包含事物的快速原型或概念验证。你是一个需要可用演示而替代方案是雇佣自由职业者的非技术人员。你需要将竞争研究编译成可展示的格式且有积分余量。你想在技术成熟之前体验自主 AI agent 的感觉。
跳过 Manus 的场景:你需要生产级质量的输出。你需要与现有系统集成。你对成本敏感——积分系统使预算编制不可能。你需要同一任务多次可靠完成——输出质量在不同运行之间有差异。你已经有 ChatGPT Plus(更好地覆盖研究用例)和 Cursor 或 Copilot(更好地覆盖编码用例),两者成本更低且定价更可预测。
Manus 商业模型中的根本矛盾在于:自主执行最有价值的任务——复杂的、多步骤的、跨领域的工作——恰恰是消耗最多积分和产出最不一致输出的任务。输出质量最高的任务——简单的、定义明确的、单领域的工作——是你可以用现有工具更便宜、更可预测地完成的任务。
接下来的发展是可预测的:主要 AI 实验室都在构建类似的自主 agent 能力。OpenAI 的 ChatGPT Agent Mode、Anthropic 的 Claude 电脑使用能力、Google 的 Gemini agent 功能——这些都在朝着 Manus 追求的相同目标收敛。当 GPT-5 或 Claude Opus 5 能以其当前聊天界面的质量和可靠性自主执行多步目标,且定价打包在 $20-40/月的订阅中时,基于积分的独立 agent 模型将变得不可持续。
Manus 的窗口就是现在。它是第一个面向消费者的通用 AI agent。这种体验值得拥有,但要睁大眼睛看清成本和局限性。明智地使用免费层级的 1,000 初始积分——尝试一个定义明确、范围适中的任务,评估输出质量和积分经济是否值得升级。对许多用户来说,答案将是:令人印象深刻的技术,但还不值得按月付费。这对于一个真正走在时代前沿但尚未准备好进入日常工作流的产品来说,是一个诚实的答案。