返回博客

Super Grok:唯一知道X上正在流行什么的AI——功能与限制

Victor Reese
Victor Reese
2 次更新 · 最近 Apr 09
更新记录
Apr 09 优化文章内容,提升阅读体验。
Apr 09 优化正文措辞与结构,提升可读性。
# Super Grok

01 唯一能知道 X 上实时热点的 AI——为什么这比跑分更重要

所有主流 AI——ChatGPT、Claude、Gemini——都能回答关于世界的问题。但如果你问它们"X 用户现在对 Grok 3 发布怎么看?"你得到的是一个回避:"我无法访问实时社交媒体数据。"Grok 不会回避。它直接用 X 的实时数据流回答,包括情感分析、热门话题和具体帖子引用。这不只是一个功能——这是一个没有竞争对手能复制的结构性优势,因为 xAI 是唯一一家能直接访问 X 实时数据流的 AI 公司。

Grok 3 于 2025 年 2 月 19 日发布,在 xAI 的 Colossus 超级计算集群上训练,计算量是前一代先进模型的 10 倍。它在 LMArena Chatbot Arena 排行榜上取得了 1402 的 Elo 评分(代号"chocolate"),在发布时登顶排名。数据处理速度提升 25%,准确率提高 15%,上下文窗口达到 100 万 token——是前代的 8 倍。

"Grok 3 的推理能力通过大规模强化学习进行了优化,使其能够思考数秒到数分钟,纠正错误、探索替代方案,并给出准确答案。" —— xAI 官方公告

但跑分虽然令人印象深刻,并不是让 Grok 独特的原因。让 Grok 独特的是 X 集成。当有人问"$TSLA 目前的市场情绪如何?"时,Grok 不是查金融 API——它实时阅读真实交易者和投资者在 X 上的帖子,综合共识与分歧,给出其他 AI 都无法提供的情感分析。这就是证明 SuperGrok 高价的核心功能。

"Grok 拥有独特的能力,能比大多数聊天机器人更快地获取实时事件和网络文化。" —— Fritz.ai

采用数据也支持这一点:61% 的 Grok 用户表示在非正式使用中更喜欢它的语气而非 ChatGPT。SuperGrok 用户平均每天发送 15-22 条提示,付费用户环比增长 25%。这些不只是跑分数据——它们反映了从其他 AI 无法提供的价值中获益的真实日常使用。

训练 Grok 3 的 Colossus 超级计算集群代表了有史以来最大规模的 AI 训练基础设施投资之一。凭借 10 倍于前代先进模型的计算量,xAI 能够以小规模训练无法实现的方式扩展推理的强化学习。这不仅仅是拥有更多 GPU——而是能够运行更长、更多样化的训练轨迹,从而产生更稳健的推理能力。93.3% 的 AIME 分数就是该计算投资的直接产出。

100 万 token 的上下文窗口(是前代 Grok 模型的 8 倍)值得关注,不仅仅是营销标题。实际来说,100 万 token 意味着你可以在一次对话中加载整个中等规模的代码库、一本完整的书或数月的金融数据。结合 LOFT 128K 基准测试 83.3% 的得分(超过 GPT-4o 的 78.0% 和 Claude 3.5 Sonnet 的 69.9%),Grok 3 展示了在实际利用长上下文时的强劲性能——而不仅仅是接受它。许多模型接受长输入但在处理时质量下降;Grok 3 的 LOFT 分数表明它在大规模处理时保持了推理质量。

02 Grok 3 跑分:AIME 93.3%、GPQA 84.6%——这些数字的实际含义

Grok 3 的基准测试性能与最佳可用模型具有竞争力,在数学推理和科学知识方面尤其突出。以下是完整的全貌。

非推理模式(标准 Grok 3 Beta):

AIME'24(数学竞赛):52.2%,对比 DeepSeek-V3 为 39.2%、GPT-4o 为 9.3%、Claude 3.5 Sonnet 为 16.0%。GPQA(研究生级专家推理):75.4%,对比 Gemini 2.0 为 64.7%、DeepSeek-V3 为 59.1%、Claude 3.5 Sonnet 为 65.0%。LiveCodeBench(编程):57.0%,对比 Gemini 2.0 为 36.0%、GPT-4o 为 32.3%。MMLU-Pro(综合知识):79.9%,对比 Gemini 2.0 为 79.1%。LOFT 128K(长上下文):83.3%,对比 GPT-4o 为 78.0%、Claude 3.5 Sonnet 为 69.9%。

Think 模式(启用推理):这是 Grok 3 真正出色的地方。在 AIME 2025 上使用 consensus@64 采样,Grok 3 得分 93.3%——该测试在测试前仅 7 天发布,排除了训练数据污染的任何可能。Think 模式下的 GPQA:84.6%。Think 模式下的 LiveCodeBench:79.4%。Grok 3 mini,即高性价比推理变体,在 AIME 2024 上得分 95.8%,在 LiveCodeBench 上得分 80.4%。

AIME 2025 的结果值得强调。AIME(美国数学邀请赛)的题目设计挑战顶尖的 2-5% 高中数学生。93.3% 的得分意味着 Think 模式下的 Grok 3 能解决大多数数学本科生都会挣扎的问题。这不是对训练数据的模式匹配——测试在 Grok 3 作答时是全新的。

GPQA 基准测试 84.6% 衡量的是物理、化学和生物领域的研究生级专家推理。作为参考,类似评估中的物理子项在可比模型的扩展推理下已达到 96.5%。这意味着 Grok 3 的 Think 模式在通常需要博士级理解才能正确回答的问题上接近专家水平的表现。

Grok 3 不那么占优势的地方:在编程基准测试中,它不如专门的编程模型如 Claude Opus 4.6(在 SWE-bench Verified 上以 79.4% 领先)或 GPT-5.3-Codex。Grok 3 的编程能力不错(标准模式下 LiveCodeBench 57.0%),但如果纯代码生成是你的主要用途,它不是最佳选择。它的优势在于推理、数学、长上下文处理,以及——独特地——通过 X 的实时信息获取。

Grok 3 mini 变体值得注重性价比的用户关注。在 AIME 2024 上 95.8%、LiveCodeBench 上 80.4%,Grok 3 mini 以显著更低的计算成本提供了堪比完整模型的推理性能。对于主要需要 Think 模式解决数学和科学问题的用户,Grok 3 mini 提供了近乎等效的能力。这个 mini 模型在快速分析任务上特别有效,因为此时完整模型的额外能力(更长上下文、更深知识库)并非必需。

一个值得注意的基准测试背景:MMLU-Pro 79.9% 使 Grok 3 基本上与 Gemini 2.0(79.1%)持平,并领先于 GPT-4o(72.6%)。MMLU-Pro 测试涵盖数十个知识领域——从历史和法律到物理和计算机科学。这个广泛的知识得分加上推理得分意味着 Grok 3 不是只有一招的选手。它在 AI 能力的全光谱上都有竞争力,在数学推理和长上下文任务上有特定优势。实时 X 集成是已经强大的基础模型上的点睛之笔。

03 SuperGrok $30 对比 SuperGrok Heavy $300:各层级的具体内容

Grok 的定价有三个消费者层级:Basic(免费)、SuperGrok($30/月)和 SuperGrok Heavy($300/月)。商业计划起价 $30/席位/月,Enterprise 为定制价格。

Basic(免费):仅限 Grok 3 的有限访问。有限的上下文记忆。包括 Aurora 图像生成模型、语音输入、任务和项目功能。这个层级对于日常使用确实可用——你可以向 Grok 询问 X 上的热门话题、获得基本的 AI 辅助并使用图像生成器。但模型访问受限且上下文记忆较短。

SuperGrok($30/月):128,000 token 上下文记忆。完整的 Grok 3 访问权限,外加增加的 Grok 4 访问。Imagine 图像模型(比 Aurora 更强大)。AI 伴侣(Ani 和 Valentine)。优先语音功能。DeepSearch 和 Think 模式访问。Fritz.ai 将这个层级描述为"大多数用户的最佳平衡点"。

SuperGrok Heavy($300/月):256,000 token 上下文记忆——SuperGrok 的两倍。完整的 Grok 4 和 Grok 4 Heavy 访问。无限 Grok 3。新功能的抢先体验。这是为需要最强模型(Grok 4 Heavy)和最长上下文窗口的高级用户准备的层级。

竞争定价背景很重要:ChatGPT Plus 为 $20/月,Claude Pro 为 $20/月(带 200K token 上下文),Gemini Advanced 为 $19.99/月。SuperGrok $30/月比直接竞争对手贵 50%。这个溢价买到的是没有竞争对手提供的实时 X 数据访问,以及有竞争力甚至优于对手的推理性能。

SuperGrok Heavy $300/月与 ChatGPT Pro($200/月)和 Claude Max 20x($200/月)竞争。比竞争对手高出 50-100% 的价格溢价需要通过更优的模型性能或独特的 X 集成来证明。对于工作依赖实时社交数据的用户——记者、社交媒体经理、市场研究员、政治分析师——仅 X 集成就可能足以证明这个价格。对于通用 AI 使用,仅凭能力来说这个溢价更难证明。

商业计划($30/席位/月)增加了分享工具、集中计费、用户分析,以及关键的——数据默认不用于模型训练。Enterprise 增加了无限用户、SSO、SCIM、基于角色的访问控制和自定义数据保留。对于需要大规模实时社交情报的组织,这些层级提供了个人 SuperGrok 账号无法满足的基础设施。

04 DeepSearch:xAI 的首个代理——以及它能找到而其他 AI 找不到的内容

xAI 将 DeepSearch 描述为"一个闪电般快速的 AI 代理,致力于在人类知识的全部语料中不懈地追寻真相。"这是 xAI 的第一个代理——一个不仅仅是响应提示,还能主动搜索、综合并推理矛盾信息以生成全面报告的系统。

"无论你需要获取最新的实时新闻、寻求关于社交困惑的建议,还是进行深入的科学研究,DeepSearch 都将带你远超浏览器搜索所能达到的深度。" —— xAI

DeepSearch 的运行方式与 Think 模式不同。Think 模式是内部推理——Grok 3 使用思维链更深入地思考问题。DeepSearch 是外部研究——Grok 3 主动搜索互联网、阅读来源、比较主张并生成综合报告。Think 模式就像数学家在脑中推导证明。DeepSearch 就像研究分析师从数十个来源收集数据并撰写简报。

"在 DeepSearch 模式下,Grok 3 的搜索引擎提供比 Think 模式更详细、更深入的互联网结果,探查更多来源。" —— TechTarget

X 集成放大了 DeepSearch 的独特能力。当 DeepSearch 调查一个主题时,它不仅仅搜索开放网络——它搜索 X 的实时数据流。问 DeepSearch"投资者对美联储最新利率决定怎么说?"它会综合金融新闻文章、博客帖子、分析师报告以及 X 上投资者的实时反应。没有其他 AI 搜索代理能够访问这种来源组合。

其他 AI 无法复制的具体 DeepSearch 用例:"如果我在 2011 年买了 $TSLA 会怎样?"——DeepSearch 综合历史市场数据、实时价格信息和 X 上的投资者情绪。"X 用户对 Grok 3 发布的反应如何?"——对数千条帖子进行实时意见挖掘和情感分析。"关于[突发新闻话题]目前的共识是什么?"——在事件发生数分钟内综合新闻报道和社交媒体反应。

DeepSearch 对 X Premium+ 订阅者和 SuperGrok 用户可用。实际价值完全取决于你的工作对当前实时信息的依赖程度。对于研究已有文献的学者,Claude 或 Gemini 的研究能力具有可比性。对于工作涉及时事、市场动态或公众意见的人来说,DeepSearch 的实时 X 访问是一个真正的差异化优势。

DeepSearch 的代理架构值得理解。与简单返回结果的搜索不同,DeepSearch 作为自主代理运行——它制定搜索查询、评估结果、识别理解中的缺口、重新制定查询以填补缺口,并反复迭代直到形成全面的认知。这种迭代方式意味着 DeepSearch 的结果随着问题复杂度的增加而改善。简单的事实查询从 DeepSearch 中获益不多。复杂的多方面研究问题——"基于最新数据和专家评论,商业房地产市场中正在出现哪些风险?"——才是 DeepSearch 产出单次搜索查询无法实现的结果的地方。

综合能力是将 DeepSearch 提升至典型 AI 搜索工具之上的关键。当它遇到矛盾信息——对同一股票的看涨和看跌分析师观点、对同一产品的正面和负面用户评价、对同一政策的矛盾专家意见——它不只是呈现双方观点。它推理矛盾所在、识别每个立场的最强证据,并生成一份有层次的报告,承认分歧的同时评估每个论点的相对强度。这比任何其他 AI 搜索目前能提供的更接近于一个熟练的研究分析师所产出的成果。

05 Think 模式:你可以真正检视的开放推理

Think 模式是 Grok 3 的扩展推理能力,通过 xAI 描述为"前所未有"规模的强化学习训练而成。当你按下 Think 按钮时,Grok 3 不只是生成回复——它进入一个刻意的推理过程,可以持续数秒到数分钟,考虑多种方法、通过回溯纠正错误、简化步骤后才得出答案。

与竞争对手的关键区别:Grok 的 Think 模式具有开放推理。你可以通过点击"Click to read my mind"检视完整的推理过程。这种透明度在大多数竞争性推理模型上不可用,它们只显示摘要思路或完全隐藏推理链。能够阅读 Grok 的实际思考过程——包括它探索后放弃的死胡同——既能洞察其推理质量,也能判断其结论的可靠性。

Think 模式的强化学习训练意味着它不只是思考更久——而是思考得更好。训练过程教会 Grok 3 优化问题解决策略、识别方法何时失败、回溯尝试替代方案,以及简化复杂的推理链。这与简单地生成更多 token 有本质区别。这就像一个会修改完善的学生和一个只是写更多内容的学生之间的差别。

何时使用 Think 模式而非标准 Grok 3:数学和逻辑问题、科学推理、涉及多个变量的复杂分析、调试困难代码,以及任何需要最高准确度的问题时使用 Think 模式。日常对话查询、快速事实查询、创意写作,以及速度比深度推理更重要的实时 X 分析时使用标准模式。

Think 模式的跑分提升是巨大的:AIME 从 52.2%(标准)升至 93.3%(Think)。GPQA 从 75.4% 升至 84.6%。LiveCodeBench 从 57.0% 升至 79.4%。这些不是渐进式改进——它们代表了根本不同质量级别的输出。对于受益于更深推理的任务,Think 模式本质上将 Grok 3 转变为不同层级的智能。

Think 模式对 X Premium+ 用户和所有 SuperGrok 订阅者可用。它每次查询消耗的使用容量比标准模式更多,因此启用 Think 时预期每次会话的总消息数会更少。对于复杂查询这个权衡是值得的,但对于简单问题则是浪费。

开放推理功能带来了意想不到的教育价值。通过阅读 Grok 在复杂问题上的思考过程,用户可以学到自己不会想到的问题解决方法。一个使用 Think 模式做热力学问题的物理学生不仅得到答案——还能看到 Grok 探索三种不同方法、在识别出两种方法的局限后放弃、并通过第三种方法逐步构建解决方案。这种透明的推理过程使 Grok 作为学习工具具有独特价值,而不仅仅是一个答案引擎。

Think 模式背后的强化学习训练也意味着 Grok 的推理恰好在思维链最重要的问题类型上有所提升:多步数学证明、带隐含约束的逻辑谜题、需要整合多个原理的科学问题,以及显而易见的答案是错误的需要更深分析的分析性问题。对于 STEM 领域、教育或分析角色的用户,Think 模式代表了标准模型回复无法匹敌的质的飞跃。

06 五个只有 Grok 能处理的实时 X 分析用例

1. 金融情感分析。"X 上的交易者现在对 $NVDA 的情绪如何?"Grok 阅读金融 X 账号的帖子,识别看涨/看跌信号,呈现具体论点,并提供情感分布。这是对冲基金花 Bloomberg Terminal 价格才能获得的实时市场情报——通过 $30/月的 SuperGrok 订阅即可获得。注意事项:X 情绪偏向散户交易者和科技投资者,机构情绪代表性不足。

2. 产品发布反馈监测。"开发者对新的 React 20 公告反应如何?"产品发布后数分钟内,Grok 就能综合开发者反应、识别最受好评的功能、呈现最常见的抱怨,并与之前的发布对比情绪。营销团队通常花 $500-2,000/月 雇社交聆听工具来实现这个能力。Grok 作为 $30 AI 订阅的附带功能就提供了。

3. 突发新闻核实。"[突发事件]发生了什么,可靠来源怎么说?"Grok 搜索开放网络和 X,交叉验证新闻机构的报道与目击者帖子,并综合出一条时间线。它能区分经过验证的报道和推测,因为它同时可以访问正式新闻层和同步进行的非正式社交评论。

4. 通过社交信号进行竞品分析。"过去 7 天用户对[竞品]怎么说?"Grok 从 X 上挖掘产品投诉、功能需求和比较。这种竞争情报传统上需要手动社交媒体监测或 Brandwatch、Sprout Social 等昂贵工具。数据不如专用工具那么结构化,但对于快速的竞争脉搏检查来说效果相当好。

5. 趋势萌芽期识别。"本周 X 上[行业]中有哪些新兴话题?"Grok 识别正在获得关注但尚未被主流意识到的对话。对于内容创作者、营销人员和记者来说,在趋势上领先 24-48 小时极具价值。Grok 直接访问 X 的互动数据意味着它能发现尚未被普通 X 用户可见的趋势算法推送出来的上升对话。

共同点:所有五个用例都依赖结构性地对 ChatGPT、Claude 和 Gemini 不可用的实时社交数据。这些模型可以搜索网络,但无法搜索 X 的实时信息流。这不是暂时的能力差距——这是一个永久的结构性优势,存在的原因是 xAI 和 X 属于同一个所有者。再多的模型改进也不会让竞争对手获得 X 的数据流访问权限。

第六个不那么明显的用例值得一提:基于当前对话的内容创作。作家、营销人员和意见领袖使用 Grok 来了解他们的受众当前在讨论什么,然后再创作内容。"本周 X 上[行业]中哪些话题的互动最高,哪些角度被忽视了?"提供了一份基于实时受众行为的内容简报。这比任何关键词研究工具都快且更及时,因为它反映的是人们今天实际在说什么,而不是上个月搜索了什么。

所有基于 X 用例的局限性:数据质量取决于 X 的用户群。对于 X 有活跃且知识丰富的社区的话题(科技、金融、政治、媒体、体育),实时分析效果出色。对于 X 参与度较低的话题(地方政务、小众爱好、某些行业),数据不具代表性。了解 X 覆盖哪些话题对于从 Grok 的独特能力中获取价值至关重要。

07 Grok 做不到什么:诚实的局限性与 X 数据偏差问题

Grok 的优势也造成了相应的盲点,这对于做出明智的购买决策很重要。

X 数据偏差。Grok 的实时优势依赖 X 作为数据来源,而 X 存在显著的人口统计偏差。X 偏向男性、科技导向、政治参与度高且以美国为中心。X 上的情感分析不代表一般人群——它代表的是 X 的用户群。如果你在为面向 50 岁以上女性的消费品分析市场情绪,X 数据是一个差劲的替代指标。如果你在分析开发者对新框架的反应,X 数据非常好。了解你的用例。

编程不是它最强的领域。LiveCodeBench 标准模式 57.0%、Think 模式 79.4%,Grok 3 在编程上胜任但不是顶级。Claude Opus 4.6 以 79.4% 领先 SWE-bench Verified,GPT-5.3-Codex 等专门的编程模型在实际软件工程任务上超越 Grok。如果编程是你的主要 AI 用途,Claude 或 Copilot 是更好的选择。Grok 是一个具备编程能力的推理和实时信息工具,而非编程工具。

价格溢价。SuperGrok $30/月比 ChatGPT Plus、Claude Pro 或 Gemini Advanced 贵 50%。SuperGrok Heavy $300/月比 ChatGPT Pro 或 Claude Max 贵 50%。除非你积极使用 X 集成或特别需要 Grok 的推理模型,否则你在为一个你不使用的能力支付溢价。价值主张对于那些专门因为实时社交数据访问而使用 Grok 的用户最强。

无生态系统集成。ChatGPT 集成 Microsoft 365。Gemini 集成 Google Workspace。Claude 通过 Bedrock 集成 AWS 并拥有强大的开发者工具链(Claude Code、GitHub Actions)。Grok 集成 X。如果你的工作流程在 Microsoft 或 Google 的生态系统中,Grok 不像各自的 AI 助手那样能嵌入。Grok 是一个独立工具,而非平台功能。

新生模型的局限。Grok 3 是 xAI 的第三代模型。Claude 已经到了第四代并有多次迭代。GPT 已经到了第五代。Anthropic 和 OpenAI 更快的开发速度,加上更大的研究团队和更长的历史记录,意味着 Grok 面临持续跟上模型改进的挑战。Grok 4 系列据报道正在开发中,但 xAI 较小的团队意味着更新周期可能更慢。

隐私考虑。Grok 的 X 集成意味着你关于 X 内容的查询通过 xAI 的系统处理,而这些系统与 X 的基础设施相连。商业计划默认将数据排除在模型训练之外,但个人 SuperGrok 计划没有明确做出这一保证。如果你使用 X 数据向 Grok 查询敏感的竞争情报,需要理解数据处理的影响。

08 谁该订阅:SuperGrok 与竞品的决策框架

如果以下情况适用,订阅 SuperGrok($30/月):你的工作涉及监控 X 上的实时公众对话。你需要社交情感分析作为日常工作流程的一部分。你是追踪趋势的记者、社交媒体经理、市场研究员、政治分析师或内容创作者。你想要任何 AI 中最强的数学推理(Think 模式下 AIME 2025 93.3%)。你看重可以检视的透明推理链。你偏好更随性、直接的沟通风格(61% 的用户偏好 Grok 的语气而非 ChatGPT)。

如果以下情况适用,订阅 SuperGrok Heavy($300/月):你需要最高能力的模型(Grok 4 Heavy)处理复杂推理任务。你处理需要 256K token 上下文的超长文档。你是需要无限 Grok 3 访问和前沿 Grok 4 能力的高级用户。你想要新功能的抢先体验。

如果以下情况适用,继续使用 ChatGPT Plus($20/月):你主要需要通用 AI 助手。你使用 Microsoft 365 集成。你想要最大的插件/GPTs 生态系统。你不需要实时 X 数据。

如果以下情况适用,继续使用 Claude Pro($20/月):编程是你的主要 AI 用途。你需要最长的可用上下文窗口(标准 200K,测试版 1M)。你想要 Projects 和 Artifacts 来组织工作流。你看重 Claude Code 用于终端开发。

如果以下情况适用,继续使用 Gemini Advanced($19.99/月):你生活在 Google 的生态系统中(Gmail、Docs、Sheets)。你需要最大的文档处理上下文窗口(1M token,2M 即将推出)。你想要带 Google Search 集成的 Deep Research。你是学生(可获得免费访问)。

对于正在探索跨多平台高级 AI 订阅——Grok、ChatGPT、Claude、Gemini 和专业工具——的用户,acccup.com 提供优质数字账号和订阅的访问,通常比单独订阅各服务更优惠。如果你想在决定订阅哪个之前测试多个 AI 平台,这尤其相关。

最终评估:Grok 不是每项任务的最佳 AI。它不是最好的编程工具(Claude 胜出)。不是最好的文档处理工具(Gemini 在上下文长度上胜出)。不是与生产力工作流集成最好的(ChatGPT/Gemini 胜出)。但它是唯一能告诉你世界此刻在说什么的 AI,对于越来越多工作依赖实时社交情报的知识工作者来说,这种能力值得付出溢价。$30/月的问题很简单:你需要知道 X 今天在讨论什么吗?如果是,没有其他选择能与之匹敌。