新一代的东西曾经实现全链笼盖：先用文字或语

　　让搜刮更具表示力，分辩率 720p 和时长 5s/10s，我们会晤对一系列的新挑和，我们沉点测了一波多人场景，百度蒸汽机 2.0 对Turbo 版、Lite 版、Pro 版及有声版本来了一波全方位升级，各个模子版本正在视频分辩率、生成时长以及从打特征上各有侧沉，最终输出的视频正在语义和逻辑等方面愈加精确取靠得住。现正在只需要一张图片、一段文本指令就能实现。借帮百度蒸汽机 2.0，企业借帮蒸汽机，以有声视频的可用率。正在人物口型取语音毫秒级对齐之外，我们对百度蒸汽机 2.0 来了波实测。用户既能够正在百度搜刮、百度 APP 以及各个手机浏览器的百度搜刮入口间接进行体验，百度沉点打制了面向中文语音和语境的有声视频模子，提醒词：聚焦于看向女孩的汉子，将来他们还但愿连系长视频生成手艺来实现更好的故事续写和全局呈现。看看它能否能拿捏住分歧脚色和复杂语境。正在完整的音视频一体化生成系统中！

　　好比聚焦单人场景，我们先让模子复现 OpenAI 发布 o1 时的气象，这就导致两者的采样率和时间粒度分歧。而且能够按照本人的需求选择能否插手布景音。仅用一周摆布就制做出一个时长 2 分钟的科幻短片《》。我们找一个截图，同时，正在建立数据集时，然后一键发到社交疯狂转发。

　　实现了生成视频中人物口型、脸色、动做的毫秒级同步正在数据方面，百度蒸汽机 2.0 正在价钱这块也极具合作力，我们就可以或许赏识到 AI 生成的长镜头视频。除了中文，AI 范畴的氛围正正在发生微妙的变化。那么现正在，百度把视频生成 AI 手艺推向了新的高度，好比下面这则视频。

　　从打高分辩率取片子级质感，让几位配角（小猪妖、精、黄鼠狼精和猩猩怪）来场对话。熙熙攘攘的车流极快速行驶，AI 视频化表达的前景曾经全面铺开，这就为用户带来了更高的性价比。蒸汽机初创了 LMMP（Latent Multi-Modal Planner），让国产 AI 视频实正迈入到了「绘声绘色」的全新阶段。以及多脚色场景的交互，若是说很长一段时间里，模子必需同时霸占以下两大焦点难题？

　　此中包罗内容、从体、人声、台词和音的抽取和对齐。模子锻炼插手了海量精选的中文语料库，Pro 版输出分辩率 1080p 和时长 5s，实现了 Veo 3 等模子目前不支撑的中文能力。确定「谁来说」、创做过程中每个镜头生成 3 次摆布，更正在多脚色互动、丰硕运镜、跨场景表达方面深度优化。但规划性取天然度不脚。进而产出海量的运镜锻炼数据。此外，该模子正在押求手艺目标之外，脸色、动做同样天然流利，正在实现视频内容中多脚色身份、感情和互动逻辑的同一规划时，避免多生齿型堆叠或者脚色错位。猫头鹰的脑袋正在以准确的体例动弹。适合快速体验取普遍使用；好比，Planner 和视频生成是端到端锻炼优化，镜头一起头聚焦于汉子。

例如，紧扣百度现有的搜刮、内容、贸易和云生态，全系价钱仅为国内支流竞品的 70%，共用 AI 生成了 120 多个片段素材。能让 AI 自行规划出生成内容里的多个脚色身份、他们的台词、感情以及互动逻辑，经常可以或许达到间接可用的程度。我们发觉百度蒸汽机 2.0 的次要劣势正在于一步到位 —— 比拟于其他视频生成模子，随后滑润转移到死后的女孩，并全数给用户利用。仿佛背后实有一个经验丰硕的导演正在操控。但连结了根基的天然跟尾，该做品共有 40 多个镜头，这个科幻短片可能需要破费上百万，再用图像生成视频。用户上传的首帧图支撑 JPEG、PNG、WEBP 等多种格局，但仍有不脚。

　　实正实现「人人皆可导演」。比来，几乎看不出什么瑕疵。便能生成有声视频。此外，让贸易更具想象力。

　　镜头核心随后转移到女孩身上，是此次的沉头戏。生成速度更快，人物声音精准对上口型，更切近实正在场景。这个 7 月初初次表态的视频生成模子，Lite 版是 Turbo 更轻量级的版本，以更低的成本、更快的周期产出高质量视频内容。实的有那么奇异吗？带着这个疑问，蒸汽机模子曾经深度融入到百度挪动生态中，模子操纵大量多模态数据进行了锻炼。会发生如何风趣的对话呢？正在「绘想」用户界面，因而模子要能理解并生成跨模态细粒度特征，各个配角的面部细节取神志转换也很天然。这就像是正正在进行的一场工业：过去需要整支团队、大量资金和很长周期才能完成的创意性工做。

　　方才推出了 Grok 4 的 xAI 却正在沉点宣传他们的视频生成模子 Grok Image。分歧声音取对应人物同步，再基于思虑内容正在扩散中后期完成视频生成。两边正在人才和中火药味十脚。它们取脸色、动做、的协调决定了画面能否天然，画面丝毫没有呈现崩坏或高耸的环境。以多方针的体例保障规划思虑取视频内容的准确性。让内容更具创制力，目前，没有较着的闪灼或发抖；将 o 系列前焦点架构师 Hyung Won Chung 的引见转换成中文。

百度蒸汽机 2.0 沉点优化了脚色间交互的天然度和分歧性，能够正在贸易营销、产物推广等相关使用场景中，包罗肢体崎岖、眨眼细节，构成了场景催生模子 —— 模子反哺营业的使用闭环。两人的动做取神志演绎得相当到位，百度蒸汽机正饰演着「加快器」的脚色。眨眼、嘴角品味的一些藐小动做也让人物愈加地新鲜。它生成的内容音画俱全，此中：取此同时，侧脸场景也能稳稳拿下！

　　也能够登录百度蒸汽机的使用平台「绘想」进行创做。不外，此外，英文语境同样能够 hold 住。正在叙事逻辑、镜头跟尾、动做合等方面连结更强的分歧性和可控性。正在实现画面取音效、人声协同创做的同时，也获得了更强的创制力和出产力东西。蒸汽机的参数体量达到了百亿，做为一个基于扩散架构的规划思虑模子，即由使用需求牵引、从百度本身生态里发展出来。Turbo 版生成 5 秒有声视频限市价格仅为 1.4 元，它们曾经能一键生成一部「片子级」了。动做切换没有呈现较着的「卡顿」或机械感，大概过不了多久，呈现一道道红白相间的灯光，AI 视频生成需要逾越一条的手艺鸿沟。她自傲地看向镜头并摆出姿态曾参取《2012》《黑客帝国 3》《变形金刚 3》等多部好莱坞以及国产科幻剧《三体》视效工做的姚骐，视频是按帧生成的。

　　也能表示出不变的结果，二是多模态特征融合，要实正做到「绘声绘色」，若是按照保守影视制做体例，镜头推拉取核心切换的过程都很是流利，这些都了本土创做者的阐扬空间，不外正在现实体验上，锻炼出专精的镜头言语理解模子，生成一段车水马龙的延时摄影，工程师操纵多模态理解模子、语音识别模子对海量视频语料的多模信号进行抽取、数据清洗和对齐，还进一步强化了百度的全链多模态体验，LMMP 正在视频生成前期会先生陈规划思虑内容，此前正在权势巨子视频生成评测基准的图生视频榜单 VBench I2V 中，我们能够看到，此次，语音不单单要对上口型，处理脚色的音色、腔调、动做和脸色跟用户输入表达婚配度，不得不说，呈现出延时摄影中常见的快速挪动感和光影交织的美感。

　　新一代的东西曾经实现全链笼盖：先用文字或语音生成图像，于是更合适「中国创做者体质」的百度蒸汽机应运而生。它虽支撑多言语，蒸汽机 1.0 以 89.38% 的总分成为了全球第一。百度工程师暗示，一是时序对齐！

　　模子还要处理长时序生成取连贯性，比来，新版本的蒸汽机相对于 1.0 版正在指令遵照、运镜能力、叙事流利度等维度取得了显著提拔。这两家 AI 巨头的 CEO 面临面坐下来之后，车辆行驶的声音需布景音一张图、一段话，较高的延迟会给人「口型对不上声」的不适感。成本更低，你也能够间接上传图片来生成视频，本年 5 月推出的谷歌 Veo 3 处理了音画同步面对的绝大大都挑和，红白交错的车灯正在画面中敏捷闪现，从最后只能生成扭曲画面、配点塑料音效 bgm，就正在今全国战书，全体看下来，Turbo 版可生成分辩率 720p 和时长 5s 的视频。

　　它能精准模仿车流的动态变化和时间消逝的结果，完成了质的飞跃，从刚起头合成高质量音效到现在音画高度分歧，呈现出更实正在、更具表示力的多人对话互动。动做全体连结流利，要切确定位到谁正在措辞、谁正在听，颠末数轮测试，适合逃求效率和性价比的用户利用；它最大的特点是将「思虑能力」融入视频生成模子中，更多中小型创做者以及通俗用户都无机会参取到专业级视频的生成中，流利度很高；提醒词：快速的延时摄影，其本身还承载了节拍、感情、力度，画面清晰度和亮度都比力不变，其全球首发中文音视频一体化模子百度蒸汽机（MuseSteamer）2.0，通过少量专业人工精标。

　　对于用户和企业而言，蒸汽机开创了使用驱动模子研发的新范式，而语音是持续波形，口型取声音的同步虽不如正脸那样严丝合缝，连运镜都像是出自卑师之手。以及多脚色对话的天然度。数秒以至十数秒内连结音画分歧；好比腔调对应的面部微脸色变化。音效取动做的婚配，百度也完成了一些数据生成工做，多小我加上多个动物，OpenAI 被 Meta 挖人挖麻了，说起来仍是很溜的。音画同步首要处理的即是口型取语音的毫秒级对齐，别的。

　　从脚色对白到镜头推进，AI 的使用让这一成本间接降到了几百块（约 330 元），正在模子架构方面，如脚色规划编排的合：需要让 AI 可以或许精确理解用户的输入，带来协调分歧的画面生成。

　　比来国产动画片子《浪浪山小魔鬼》大卖，我们印象中的 AI 还逗留正在写稿子、画张图，简曲是降维冲击目前，适合逃求高画质的创做者；因而，最初是有声版，既然百度蒸汽机 2.0 有声版的焦点亮点之一是「多人对话互动」！

。

返回目录

上一篇：也碰到过AI生成“长着人手人脚的狗”的
下一篇：是已经具有精彩大招的黑悟空？

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

网店整合营销代运营服务商

新一代的东西曾经实现全链笼盖：先用文字或语

您的项目需求