Grok Imagine 1.5 的价格信号:视频生成开始像后端服务计费

xAI 给 Grok Imagine 1.5 Preview 标出输入图收费、分辨率分层的每秒输出价格和 60 RPM 限额,这比单条 demo 更重要:视频生成进入可预算、可限流、可接入采购流程的 API 形态。

Grok Imagine 1.5 的价格信号:视频生成开始像后端服务计费
图 / Unsplash

概述

xAI 在 2026 年 6 月 3 日发布 grok-imagine-video-1.5-preview,官方发布页强调它是 image-to-video 模型,可通过 xAI API preview 使用;模型文档则把它放进更具体的开发者语境:模型名、alias、价格、限额和可用区域都已经列出来。我的判断是,价格信息本身就是这次发布的核心信号之一。一个视频模型只展示样片,仍停留在创意工具叙事;一旦按输出秒数写进 API 文档,它就开始接受工程团队最现实的审视:一次调用多少钱、限额在哪里、能不能进入自动化预算。

官方文档给出的 pricing 更细:输入图像收费 $0.01,输出视频按分辨率和秒数计费,480p$0.08/second720p$0.14/second;rate limits 是每分钟 60 次请求,可用区域是 us-east-1eu-west-1us-west-2。这些数字看起来不如生成效果刺激,但对 builder 更有决策价值。视频生成过去常被包装成灵感型体验,真正落地时却会撞上批量成本、失败重试、素材托管、队列管理和采购审批。xAI 这次把模型放在 API 和价格表里,等于把这些问题提前摆上桌面。

这篇不讨论它是否已经强过 Sora 或 Veo,因为官方没有给可复现的横向质量基准。更值得讨论的是:当视频生成以每秒输出计费,它会推动团队把“能不能生成漂亮片段”的问题,改写成“这段视频在产品流程里是否值得生成”。这个变化更冷,也更接近真实商业化。

发生了什么

grok-imagine-video-1.5-preview 的官方发布页确认了几个关键事实:它把单张静帧变成视频,输入是一张起始图和描述运动的 prompt;模型会处理 camera moves、atmosphere、physics,并尽量忠于源图;生成片段最高可到 720p;提示词可以描述 camera move、pacing 和 sound design;示例代码用 client.video.generate(...),其中包含 image_urlduration=10resolution="720p",最后通过 response.url 取结果。

模型文档补上了商业化和运维侧事实:grok-imagine-video-1.5-preview 的 alias 是 grok-imagine-video-1.5-2026-05-30,modality 是 image -> video,输入图像另计费,输出视频按 480p/720p 分层计费,每分钟请求上限是 60,可用区域覆盖 us-east-1eu-west-1us-west-2。这些字段说明 xAI 已经把它当作 API 产品条目来管理,而不只是发布页里的模型展示。

这里最需要谨慎的是价格解释。$0.08/second 只是 480p 输出侧价格,不是完整账单;720p 是 $0.14/second,输入图像还有 $0.01。发布页示例里出现 duration=10,但官方没有在发布页公布时长上限,也没有把失败请求、存储保留、队列优先级或 preview 后的价格稳定性写成长期承诺。负责的用法是把这些数字当作目前可见的建模参数,而不是把完整生产成本说死。

为何重要

第一层重要性是预算颗粒度变了。文本模型按 token 计费,图像模型按张计费,视频如果按输出秒数计费,就把“生成长度”直接变成成本控制旋钮。builder 不再只关心画面质量,还会开始问:某个用户动作是否必须生成视频,是否可以先出静帧,是否只在高价值场景触发,是否需要把视频时长限制写进业务逻辑。价格单位改变产品设计,这比发布一个更亮眼的 demo 更有长期影响。

第二层重要性是批量生产会更快露出边界。过去很多团队谈生成式视频,默认把它想成“多生成一些素材”。API 化后,批量意味着队列、重试、缓存、审核、失败率和预算报警都要一起设计。每分钟 60 次请求不是一个坏信号,它反而把 preview 阶段的吞吐边界说清楚了。清楚的限制让工程团队能做评估,不清楚的无限承诺才最危险。

第三层重要性是采购语言开始成型。企业和 SaaS 团队很难采购“一个好玩的创意按钮”,但可以采购一个有模型名、价格、限额、区域和 API key 的后端服务。xAI 已经在同一开发者体系里提供模型、控制台、文档和 SDK,视频能力进入这套体系后,内部评审会从“有没有用户喜欢”转向“能不能作为生产链路的一个节点被治理”。这对视频模型的商业化,比社交媒体上的样片传播更关键。

对建设者的影响

如果你在评估 Grok Imagine 1.5,先不要从“生成效果是否惊艳”开始,而要从成本模型开始。一个实用评估表至少要有四列:触发条件、目标时长、失败重试策略、是否缓存。官方给出的每秒价格使这张表可以被填起来;官方给出的 60 RPM 使你不能假设所有请求都能同步完成。这个评估动作会筛掉很多伪需求,也会暴露真正适合视频生成的场景。

更具体地说,API 形态会鼓励三类用法。第一类是高价值、低频的资产生成,例如产品首图动效、活动主视觉短片、游戏或课程里的关键片段。第二类是半自动工作流,例如设计师先挑静帧,系统再根据模板生成若干镜头。第三类是有明确预算上限的批处理,例如只对通过审核的素材生成视频,而不是对所有素材盲目生成。我的判断是,早期最稳的用法会集中在前两类,因为它们能接受人工挑选和预算控制。

架构上,image_url 这个参数也值得单独看。它意味着源图需要先被托管在可访问位置,视频生成服务只是链路中的后一步。你需要对象存储、权限策略、过期 URL、任务队列、结果 URL 落库,以及失败后是否复用同一张图的策略。把这些准备好,Grok Imagine 1.5 才像一个后端能力;忽略这些,它就只是另一个容易失控的生成按钮。

该忽略什么

首先该忽略单条样片带来的错觉。视频模型的 demo 天然会挑最适合的图、最顺的 prompt 和最能遮住缺陷的镜头节奏;API 成本却会在每一次失败重试、每一次改 prompt、每一次用户误触里累计。判断一个可编程视频模型,应该把样片放在最后一屏,把成本、吞吐和工作流适配放在第一屏。

其次该忽略“便宜或贵”的空泛判断。480p $0.08/second720p $0.14/second 加输入图收费,不能说明它适合所有场景,也不能说明它不适合生产。真正的问题是视频在你的产品里是否能创造高于调用成本的价值,以及你有没有办法限制无效调用。对于低转化的批量内容,这个价格会让成本边界很快显形;对于高价值的产品演示或品牌资产,它可能反而足够清楚、足够可控。

还要忽略未出现在官方源里的附加承诺。发布页说 prompt 可以描述 sound design,但这不等同于官方承诺完整音频管线;文档写了 output per second,但没有把完整生产账单的所有组成项列成长期 SLA。preview 阶段最理性的姿态是小规模接入、记录真实失败率和返工率,再决定是否扩大使用。

技术要点

grok-imagine-video-1.5-preview 当前最清晰的技术-商业组合是:image -> video、API 调用、image_url 输入、response.url 输出、最高 720p、输入图像 $0.01、480p 输出 $0.08/second、720p 输出 $0.14/second、60 RPM、三处区域可用。它给 builder 的不是一个完整答案,而是一组足够开始建模的约束。

我的最终判断是:Grok Imagine 1.5 的价格页让视频生成从“体验评测”进入“系统设计评测”。这对 xAI 是一次务实的分发选择,对 builder 则是一次提醒:如果视频生成要成为产品能力,预算、限流和工作流设计必须和画面质量同等重要。

来源

  1. Grok Imagine 1.5 Preview / official
  2. Grok Imagine Video 1.5 Preview model docs / official
  3. Grok Imagine Video 1.5 Pricing on ImagineArt and xAI / blog