2026-06-10

Grok Imagine 1.5 的价格信号：视频生成开始像后端服务计费

xAI 给 Grok Imagine 1.5 Preview 标出输入图收费、分辨率分层的每秒输出价格和 60 RPM 限额，这比单条 demo 更重要：视频生成进入可预算、可限流、可接入采购流程的 API 形态。

概述

xAI 在 2026 年 6 月 3 日发布 grok-imagine-video-1.5-preview，官方发布页强调它是 image-to-video 模型，可通过 xAI API preview 使用；模型文档则把它放进更具体的开发者语境：模型名、alias、价格、限额和可用区域都已经列出来。我的判断是，价格信息本身就是这次发布的核心信号之一。一个视频模型只展示样片，仍停留在创意工具叙事；一旦按输出秒数写进 API 文档，它就开始接受工程团队最现实的审视：一次调用多少钱、限额在哪里、能不能进入自动化预算。

官方文档给出的 pricing 更细：输入图像收费 $0.01，输出视频按分辨率和秒数计费，480p 是 $0.08/second，720p 是 $0.14/second；rate limits 是每分钟 60 次请求，可用区域是 us-east-1、eu-west-1、us-west-2。这些数字看起来不如生成效果刺激，但对 builder 更有决策价值。视频生成过去常被包装成灵感型体验，真正落地时却会撞上批量成本、失败重试、素材托管、队列管理和采购审批。xAI 这次把模型放在 API 和价格表里，等于把这些问题提前摆上桌面。

这篇不讨论它是否已经强过 Sora 或 Veo，因为官方没有给可复现的横向质量基准。更值得讨论的是：当视频生成以每秒输出计费，它会推动团队把“能不能生成漂亮片段”的问题，改写成“这段视频在产品流程里是否值得生成”。这个变化更冷，也更接近真实商业化。

发生了什么

grok-imagine-video-1.5-preview 的官方发布页确认了几个关键事实：它把单张静帧变成视频，输入是一张起始图和描述运动的 prompt；模型会处理 camera moves、atmosphere、physics，并尽量忠于源图；生成片段最高可到 720p；提示词可以描述 camera move、pacing 和 sound design；示例代码用 client.video.generate(...)，其中包含 image_url、duration=10、resolution="720p"，最后通过 response.url 取结果。

模型文档补上了商业化和运维侧事实：grok-imagine-video-1.5-preview 的 alias 是 grok-imagine-video-1.5-2026-05-30，modality 是 image -> video，输入图像另计费，输出视频按 480p/720p 分层计费，每分钟请求上限是 60，可用区域覆盖 us-east-1、eu-west-1、us-west-2。这些字段说明 xAI 已经把它当作 API 产品条目来管理，而不只是发布页里的模型展示。

这里最需要谨慎的是价格解释。$0.08/second 只是 480p 输出侧价格，不是完整账单；720p 是 $0.14/second，输入图像还有 $0.01。发布页示例里出现 duration=10，但官方没有在发布页公布时长上限，也没有把失败请求、存储保留、队列优先级或 preview 后的价格稳定性写成长期承诺。负责的用法是把这些数字当作目前可见的建模参数，而不是把完整生产成本说死。

为何重要

第一层重要性是预算颗粒度变了。文本模型按 token 计费，图像模型按张计费，视频如果按输出秒数计费，就把“生成长度”直接变成成本控制旋钮。builder 不再只关心画面质量，还会开始问：某个用户动作是否必须生成视频，是否可以先出静帧，是否只在高价值场景触发，是否需要把视频时长限制写进业务逻辑。价格单位改变产品设计，这比发布一个更亮眼的 demo 更有长期影响。

第二层重要性是批量生产会更快露出边界。过去很多团队谈生成式视频，默认把它想成“多生成一些素材”。API 化后，批量意味着队列、重试、缓存、审核、失败率和预算报警都要一起设计。每分钟 60 次请求不是一个坏信号，它反而把 preview 阶段的吞吐边界说清楚了。清楚的限制让工程团队能做评估，不清楚的无限承诺才最危险。

第三层重要性是采购语言开始成型。企业和 SaaS 团队很难采购“一个好玩的创意按钮”，但可以采购一个有模型名、价格、限额、区域和 API key 的后端服务。xAI 已经在同一开发者体系里提供模型、控制台、文档和 SDK，视频能力进入这套体系后，内部评审会从“有没有用户喜欢”转向“能不能作为生产链路的一个节点被治理”。这对视频模型的商业化，比社交媒体上的样片传播更关键。

对建设者的影响

如果你在评估 Grok Imagine 1.5，先不要从“生成效果是否惊艳”开始，而要从成本模型开始。一个实用评估表至少要有四列：触发条件、目标时长、失败重试策略、是否缓存。官方给出的每秒价格使这张表可以被填起来；官方给出的 60 RPM 使你不能假设所有请求都能同步完成。这个评估动作会筛掉很多伪需求，也会暴露真正适合视频生成的场景。

更具体地说，API 形态会鼓励三类用法。第一类是高价值、低频的资产生成，例如产品首图动效、活动主视觉短片、游戏或课程里的关键片段。第二类是半自动工作流，例如设计师先挑静帧，系统再根据模板生成若干镜头。第三类是有明确预算上限的批处理，例如只对通过审核的素材生成视频，而不是对所有素材盲目生成。我的判断是，早期最稳的用法会集中在前两类，因为它们能接受人工挑选和预算控制。

架构上，image_url 这个参数也值得单独看。它意味着源图需要先被托管在可访问位置，视频生成服务只是链路中的后一步。你需要对象存储、权限策略、过期 URL、任务队列、结果 URL 落库，以及失败后是否复用同一张图的策略。把这些准备好，Grok Imagine 1.5 才像一个后端能力；忽略这些，它就只是另一个容易失控的生成按钮。

该忽略什么

首先该忽略单条样片带来的错觉。视频模型的 demo 天然会挑最适合的图、最顺的 prompt 和最能遮住缺陷的镜头节奏；API 成本却会在每一次失败重试、每一次改 prompt、每一次用户误触里累计。判断一个可编程视频模型，应该把样片放在最后一屏，把成本、吞吐和工作流适配放在第一屏。

其次该忽略“便宜或贵”的空泛判断。480p $0.08/second、720p $0.14/second 加输入图收费，不能说明它适合所有场景，也不能说明它不适合生产。真正的问题是视频在你的产品里是否能创造高于调用成本的价值，以及你有没有办法限制无效调用。对于低转化的批量内容，这个价格会让成本边界很快显形；对于高价值的产品演示或品牌资产，它可能反而足够清楚、足够可控。

还要忽略未出现在官方源里的附加承诺。发布页说 prompt 可以描述 sound design，但这不等同于官方承诺完整音频管线；文档写了 output per second，但没有把完整生产账单的所有组成项列成长期 SLA。preview 阶段最理性的姿态是小规模接入、记录真实失败率和返工率，再决定是否扩大使用。

技术要点

grok-imagine-video-1.5-preview 当前最清晰的技术-商业组合是：image -> video、API 调用、image_url 输入、response.url 输出、最高 720p、输入图像 $0.01、480p 输出 $0.08/second、720p 输出 $0.14/second、60 RPM、三处区域可用。它给 builder 的不是一个完整答案，而是一组足够开始建模的约束。

我的最终判断是：Grok Imagine 1.5 的价格页让视频生成从“体验评测”进入“系统设计评测”。这对 xAI 是一次务实的分发选择，对 builder 则是一次提醒：如果视频生成要成为产品能力，预算、限流和工作流设计必须和画面质量同等重要。

来源

Grok Imagine 1.5 Preview / official
Grok Imagine Video 1.5 Preview model docs / official
Grok Imagine Video 1.5 Pricing on ImagineArt and xAI / blog