浏览小程序
剧供需小程序

扫码进入剧供需小程序
找合作更方便

短剧行业的未来可能性:生成式AI席卷,提效120%
作者:剧供需
发布时间:2024年10月16日

生产力提升120%

翻译、换脸、配音

  生成式AI价值几何? 

AI大神现身说法

生成式AI是短剧的未来?


北京时间10月8日,从事AI研究的科学家约翰·J·霍普菲尔德(John J. Hopfield)和杰弗里·E·辛顿(Geoffrey E. Hinton)被授予2024年诺贝尔物理学奖,表彰他们通过人工神经网络实现机器学习的基础性发现和发明,让各领域对AI的聚焦走到了台前。


实际上,AI赋能的广泛应用正在各行各业悄悄发生,诸如AI换脸、配音、辅助创作等都在短剧行业有了实际应用。此前有企业的短剧负责人在接受短剧自习室采访中表示,“我们的AI技术,如翻译和换脸技术,已经应用到了短剧的本地化和内容制作中。这些技术显著提升了短剧投放和测试的效率,帮助我们更快、更高效地进行内容调整和优化。”


为了帮助更多行业从业者理解AI的应用和趋势,10月10日,亚马逊云科技举办了新媒体•新娱乐媒体与娱乐行业云上Tech嘉年华第一期活动,以“智能剪辑师”为锚点,与广大行业伙伴在线上完成了一场关于智能剪辑师生成式AI重塑视频制作流程的探讨,展现了智能剪辑师解决方案的创新价值和实践。


本期活动邀请的嘉宾包括亚马逊云科技大中华区行业解决方案架构师团队总监白鹤、亚马逊云科技泛娱乐与广告行业首席架构师明琦、KreadoAI运营负责人罗燕,共赴一场深度对话。


  AI助力媒体娱乐公司完成数字化转型  


“我们可以看到各行业都存在着通用的,或者说持续有相应诉求且(诉求)越来越强烈的业务,而这样的视频剪辑和生成诉求面临着大量挑战。”


亚马逊云科技大中华区行业解决方案架构师团队总监白鹤分维度介绍了基于视频理解的视频剪辑和生成业务场景——


短剧出海:需要制作适用于不同文化、不同种族、不同区域背景用户审美喜好的短剧内容,可能用到AI手段进行换脸、配音、换字幕,以快速生成视频;需要通过各种角度对相关剧集进行切片,以完成在社交媒体的首次和二次投放。


以长视频为主的流媒体或版权媒体平台:需要基于对入库的数字媒体资产内容的理解,进行相应的编目和标签,从而支持快速的定位检索、二次创作,包括切片、拆条、组合;需要通过多语种翻译、配音等剪辑工作,以投放不同海外区域。


网文出海:需要将小说章节生成一个动画或连续视频,以吸引用户欣赏内容,为相应APP引流。


社交直播:需要MCN机构或主播自己快速制作短视频内容进行相应的宣传、引流和投放,比如精彩回顾、高光时刻,以作为直播间内的垫片或投放素材。


其他:演讲长视频的搬运解读和翻译;电影综艺等内容分镜粗剪......

这些需求都伴随着挑战,比如大量人工和较长时间的投入,效率低下;长期人工投入制约了相关人员的创造力和想象力,难以带给用户新鲜体验等。


根据亚马逊云科技的观察和行业数据显示,要把一个20分钟的中视频拆解成能真正用于投放的短视频,大概需要专业剪辑人员花费大半天的时间来完成粗剪。


可以说,基于视频理解基础上的AI剪辑和生成落地迫在眉睫,是众多想靠数字化转型实现相应突破的企业都要面对的共性问题。


为此,亚马逊云科技针对这些问题所构建了一个基于智能理解的视频剪辑和生成技术资产,并提供了相应的能力——


一是AI视频理解的能力:从语义的角度、画面的角度进行场景检测、事件检测、物体识别、动作识别等一系列的视频内容理解;从视频内容中提取相应的总结及原数据,可以用于二次创作和在媒资库中快速定位;在音频转入后,对字幕进行相应的自然语言理解。


二是AI视频剪辑的能力:包括对视频进行集锦剪辑、高光时刻发现、拆条拼接等的能力。


三是多模态生产视频的能力:以网文应用为例,在对长文本章节的理解基础上进行分镜角色描画,生产出保持角色一致性的长文本章节相应视频内容。


此前,IT市场研究和咨询公司IDC发布《IDC MarketScape:全球云计算和以应用为中心的市场供应商评估》报告,亚马逊云科技位列"领导者"类别。IDC指出:“持续创新一直是亚马逊云科技Marketplace快速推出新功能和新特性的标志,以满足不断变化的客户需求。


展开来看,亚马逊云科技能够提供超过200大类的云服务,包括但不限于计算、存储、数据库、人工智能等;亚马逊云科技本身拥有庞大且成功的业务版图,包括流媒体、影视制作、社交媒体、智能语音助手等领域;亚马逊云科技拥有覆盖全球的基础设施,可以支持包括200多个国家地区开展相应业务;亚马逊云科技拥有媒体娱乐行业提供咨询和服务方案、引领行业安全合规的丰富实践,服务了奈飞、F1、17 live等客户。

“我们可以看到从去年开始,生成式AI的技术不断创新和突破,使我们能够在一定程度上、在一定范围内,生成更逼真、更生动的连续视频内容,对于多模态内容进行更准确的理解。”白鹤如此表示。


02    AI如何参与智能化视频剪辑与生成? 


亚马逊云科技泛娱乐与广告行业首席架构师明琦带来了,基于视频理解的智能化视频剪辑与生成的行业资产业务逻辑、技术架构和应用案例相关分享。


这套技术资产和解决方案指南可以分为两部分,第一部分是基于视频理解的视频剪辑,第二部分是基于长文本理解的视频生成。基于此形成的三大功能模块能实现:视频总结、片段和集锦的制作、字幕提取和翻译、多语言配音等视频理解操作;基于片段信息的拆条、去水印、去logo等视频剪辑操作;多国形象换脸、多国语言对口型、序列图转视频、生成数字人等特效操作。


其核心是多维度的视频理解——首先分析总体内容,包括标题、出场角色、字幕、场景片段等;再详细分析每一个片段,比如片段时间、角色旁白、台词、动作位置、相关主线等。


明琦表示,“综合来讲,我们这个方案指南是基于对原始视频的一个充分和深入理解,再进行视频的二次加工的这样一个流程。


主要流程:

1、逻辑处理:获取输入的视频内容(获取语音并转文字;抽取视频帧)——通过多模态逐帧理解和多内容综合理解,形成视频原始数据并存储——二次处理视频数据并分发到各个功能模块(比如根据原始数据,抽取对应的精彩时刻数据及对应的时间,二次处理后把这些片段组合成精彩时刻视频)

2、物理操作:对视频进行真实切割及合成,即视频剪辑工作。

明琦介绍道,这套技术资产的技术架构主要由亚马逊云科技的无服务器服务组成,本身包含API以及视频理解模块、视频切条模块、翻译模块及其他特效模块。“这个技术架构的构成和刚才的逻辑架构基本可以做到一一对应。”


此外,明琦还带来了基于文本理解的生成系列图和短视频的方案指南(story to image)分享。


这一套行业技术资产的逻辑相当于视频理解的逆过程,也是由全自动的多模块组成,都是基于无服务,支持弹性扩展:


• 文本理解模块:通过对输入的长文本进行分段处理,再生成视频相关的元素。

• “导演”模块:提取原始数据中包括人物、字幕、台词、场景等综合元素,并转化成场景提示词,把整体变成一个可执行的剧本。

• 视频和图像生成模块:把上述剧本包含的内容拍摄出来,即将以上的角色关系、台词字幕等生成一系列分镜图片,再把图片变成视频片段,同时把台词和配音生成语音文件。

• 视频合成模块:相当于一个剪辑团队,合成视频和语音,再加上转场特效,最后输出视频。

这样的一个技术逻辑并不只停留在理论,有不少公司已经参与了实践。


网剧企业常常会碰到制作成本高、周期长、精度不足等问题,有企业借助亚马逊云科技的AI技术方案自主选择配音语言和角色形象,将30分钟的视频内容总结为两分钟左右的视频,后台处理只花了几分钟时间。“这种解决方案很适用于网剧、短剧、连续剧类视频进行预告片以及浓缩视频的分发和宣传。”


AI技术还可以用来解决网剧企业大量手动做字幕的工作,可以固化成模板,提升长期生成同类视频的效率。


需要在海外分发多语言纪录片的头部媒体公司,则面临着投入巨大人力、长周期跟不上运营节奏的问题,同时翻译和二次创作的质量难有一个统一标准。他们选择把亚马逊的AI技术方案作为底层能力,通过API调用的方式建设起一个完整的视频编辑综合平台和工具链,大幅提高创作效率。


目前,有头部网文企业将这样的AI技术方案用于伴读视频的生成,已经能够做到精确拆分文章场景,保证人物、风格与文章情节相符并保持一致性,达到高效上线的目的。有媒体数字企业则利用这套长文本生成系列图和视频方案,进行提示词和模型的调优及工作流的嵌入,做到快速分镜,实现输入一段小说文本生成短视频的效果,生产率能提高十几倍到几十倍。


明琦总结了这套技术资产的诸多优势,包括支持灵活配置,可以匹配不同用户在不同场景下的需求;利用了先进的大模型,且支持通过简单配置来适配不同的或更先进的大模型;支持对视频、文本进行多模态理解,能够实现多维度处理;具有极高安全性所有的操作都在客户的一个VPC内,不会用于公共模型训练;具有弹性特质方案完全基于无服务,有效解决开发和容量问题;具有扩展性,与亚马逊云科技遍布全球的网络以及计算节点无缝连接,可以节省带宽成本。

03    生成式AI如何赋能视频创作? 


一点天下旗下的生成式AI产品KreadoAl的运营负责人罗燕开篇明义:“在AI的驱使下,生成式AI正在重新定义视频创作的流程。”


罗燕通过分享KreadoAl的真人数字视频生成解决方案如何帮助企业生成视频,阐述了生成式AI如何赋能视频创作及其为内容创作带来的革命性变化。“生成式AI技术可以帮助企业快速生成多语言真人出境,符合本地特色的高质量数字人短视频内容。从而帮助企业更好地进入这些(海外)市场,抢占增长先机。”


传统的视频内容生产流程存在着许多瓶颈,比如制作成本高、投放效率低、试错成本高等各种问题,真人素材的获取、外模的拍摄、脚本的编写等环节会耗费大量的时间和资金。为此,KreadoAl提供了一整套全链路的解决方案,从AI数字生成到AI文案撰写,再到多语种音频和视频的生成,高效生产视频内容。


• 降本:生成式AI的视频生成技术,如无需线下拍摄的AI数字人。

• 提效:多语言的支持技术,如AI生成脚本和AI配音,简化多语言创作流程;AI剪辑和内容分析功能,可以快速完成视频制作。

• 增收:数据驱动的精准营销。

根据罗燕介绍,KreadoAl支持140多个国家的语言,拥有超过1200种适用于不同行业、不同场景和语言的音色,提供400余种不同年龄肤色职业的数字人形象,还有包括教育培训、营销广告、客户服务支持等细分行业的视频模板,支持一键输入产品关键词生成本地化营销文案等。


也就是说,在生成式AI时代,用户只需要关键词,就能生成文案或脚本,再选择数字形象,搭配AI生成的营销文案和音色,6到8分钟就可以生成一条数字人口播测试,实现当天制作当天测试,高效迭代内容。


“通过我们的人物唇形融合、语音音色克隆、TTS智能配音、AI换脸等技术,用户能够以1%的成本来实现90%+的真人视频效果呈现,大幅降低营销成本的支出。”

此外,KreadoAl还提供通过真人绿幕拍摄素材克隆出数字人的形象和声音的服务。


欧洲华语新媒体NOVOLOULAN每天都有大量的短视频制作需求,但传统的视频制作面临着内容制作周期长、拍摄不稳定、模特及设备成本高昂等问题。他们选择通过定制数字人形象和声音的方式来生产AI视频,整个视频制作时长缩短80%,每天可以制作至少50条产品,生产力提升120%。

不仅如此,AI数字人技术还广泛应用于电商行业,比如利用AI模特试穿服装来降低营销成本、提高消费转化;应用于企业希望借助直播进行数字化转型的过程,比如上汽大众斯柯达的AI数字人主播能够7x24进行产品讲解,通过AI大模型来智能互动且实时回复用户问题,提供专业的购车的建议,单场直播观看人数超过2500人,留资卡片转化率达到6.5%。


目前,KreadoAl服务的行业客户涵盖了科技、传媒、金融、教育、零售、法律等多个领域,注册用户超过100万,服务遍及200多个国家。同时,利用KreadoAl制作的数字人短视频,在YouTube、TikTok、抖音、B站等平台播放量突破1000万。


罗燕表示,生成式AI作为一种革命性技术,正在改变视频创作的各个方面。它不仅可以降低成本,提升创作效率,也为创作者开拓了更广阔的创作空间。


至此,亚马逊云科技举办的「新媒体•新娱乐」媒体与娱乐行业云上Tech嘉年华第一期活动顺利结束。此次活动为行业伙伴展现了当前AI技术的应用进展,让生成式AI时代的蓝图更加具象化,让大众看到生成式AI与各行业融合的巨大潜力。


相信在未来,短剧行业也将实践出更多生成式AI应用的可能性。


猜你喜欢

————免责声明————

合作之前建议签订合同,剧供需作为信息共享平台,无法对信息的真实性及准确性做出判断,不承担任何财产损失和法律责任,若您不同意该提示,请关闭网页且不要在本站拓展任何合作,否则造成的任何损失由您个人承担;

©2023 剧供需
辽ICP备2022006816号
辽宁巴游网络科技有限公司
官方客服
请关注官方微信
了解更多