百度发布视频生成模型MuseSteamer：开启中文音视频一体化生成新时代

作者：百度AI · 2025-07-03 · 阅读 65

在百度AIDAY科技开放日现场，百度商业研发团队正式发布自研视频生成模型MuseSteamer及创作平台“绘想”，标志着全球首个实现中文音视频一体化生成的视频模型诞生。这一突破性技术打破了传统AIGC视频“先画面后配音”的割裂流程，首次实现画面、音效、人声台词的协同创作，为视频创作领域带来革命性变革。

MuseSteamer的技术优势显著：支持一张图片生成10秒1080p电影级画质视频，人物微表情与运镜效果均达专业影视水准。在权威榜单VBench I2V中，该模型以89.38%的总分登顶全球第一。其核心能力源于亿级中文多模态数据清洗、精细化视频结构化描述语言及多目标强化学习等技术优化，确保模型对中文语境下创作指令的极致遵循力。

为满足不同用户需求，MuseSteamer推出Turbo、Lite、Pro及全系列有声版，覆盖从普通创作者到专业影视机构的全场景。目前，Turbo版已在“绘想”平台开启限时免费公测，用户上传单图即可生成专业级视频，极大降低创作门槛。

此次发布不仅为视频创作者提供“所思即所得”的创作自由，更通过“镜头平权”推动影视工业化进程。随着8月全版本陆续开放，MuseSteamer有望重塑视频内容生产生态，成为AI赋能创意产业的新标杆。