在2024年度中国游戏产业年会上,巨人网络重磅发布了“千影 QianYing”有声游戏生成大模型,标志着游戏与人工智能深度融合的新纪元。这一创新不仅有助于提升游戏开发效率,还将为玩家带来更加沉浸式的体验。
“千影 QianYing”包含两个核心大模型:游戏视频生成大模型YingGame和视频配音大模型YingSound,突破性地实现了有声可交互游戏视频的生成。
面向开放世界游戏,无需游戏引擎
YingGame是一个面向开放世界游戏的视频生成大模型,由巨人网络AI Lab与清华大学SATLab联合研发,首次实现角色多样动作的交互控制,可自定义游戏角色,同时具备更好的游戏物理仿真特性。
结合自研视频配音大模型YingSound,能够根据画面生成与之匹配的复杂音效,实现有声游戏视频生成。
通过一系列的技术层面创新,融合跨模态特征、细粒度角色表征、运动增强与多阶段训练策略,以及构建了高效、高质量的游戏视频训练数据生产管线,使得生成的游戏内容具备可交互能力,能够理解用户的输入交互(如鼠标、键盘按键等),控制角色的多种动作,自定义角色外观与精细的主体控制,实现复杂运动与动作连续性等特性。
让AI游戏进入有声时代
YingSound是由巨人网络AI Lab、西北工业大学ASLP Lab和浙江大学联合研发的视频配音大模型(Video-to-Audio Model,V2A),拥有超强的时间对齐、视频语义理解能力,端到端为各类视频生成多种类型的高精细度音效,涵盖真实场景视频、动漫视频与游戏视频等,具备多样化应用场景泛化能力。
YingSound支持从视频或视频文本结合的方式生成高保真音效,设计了多个创新的技术架构并结合强化学习,有效提升少样本场景下的生成质量,实现精确的跨模态对齐效果。
在生成效果、时间对齐及视频语义理解等主客观测评上,YingSound均达到业界领先水平。
今年初,巨人网络董事长史玉柱提出,公司在探索打造一个AI游戏孵化平台,旨在降低游戏开发的门槛,让没有编程、开发背景的游戏爱好者也能实现自己的创意,让普通人也能开发游戏。
这一愿景预示着游戏行业的一个重大转变,即从专业开发者到广大玩家的参与,这将极大地丰富游戏内容和形式,创作永远没有瓶颈,为游戏市场带来新的活力和创意。
史玉柱还曾在去年 4 月表示,在游戏研发阶段,在美术上、程序上,AI 作为一个辅助工具,可以提高效率,节约点人力,让一个人能干几个人的活。但史玉柱觉得“游戏 + AI”的真正精华不在这儿,真正精华是在游戏策划。
史玉柱称,作为游戏策划,以往如果想找到好的数值,就要不断地去摸索;但是 AI 上了,它能很迅速给你找到最佳数值,绝对比人工感觉还准,又快又准。
“千影 QianYing”有声游戏生成大模型的发布,不仅为游戏开发者提供了强大的工具,也为游戏玩家带来了前所未有的沉浸式体验。
随着AI技术的不断进步,未来的游戏创作将变得更加平易近人。通过简单的文字描述,普通人也能创造出属于自己的游戏,游戏创作的门槛将大大降低。巨人网络在探索AI游戏孵化平台的同时,也在不断推动这一领域的发展。