2024-05-16 12:42:52|已浏览:292次
阿里云在海外爆火的视频生成论文,现在终于有应用了 5死31伤!货车隧道内起火,民警尿湿衣服捂口鼻……,
下面给大家讲解“阿里云在海外爆火的视频生成论文,现在终于有应用了 5死31伤!货车隧道内起火,民警尿湿衣服捂口鼻……”的知识,本站信息仅供大家参考哦!
温馨提示:本文章素材来自网络收集整理和聚合(内容观点不代表本站的立场),本站只是一个免费信息分享网站,文章仅供阅读参考用途,如有侵权请联系邮箱:196594267@qq.com 核对后马上删除,谢谢!
阿里云在海外爆火的视频生成论文,现在终于有应用了 5死31伤!货车隧道内起火,民警尿湿衣服捂口鼻……,
阿里云在海外爆火的视频生成论文,现在终于有应用了 现在的大模型应用,越来越卷了。 前一阵,阿里云的通义千问 App 上线了个视频生成的新功能,只需要一张照片,就能生成自定义的舞蹈视频。 根据官方的介绍,这个功能不仅能生成视频,而且面部表情、衣着打扮以及背景等等,也保留了照片原来的特征。 最主要的是,没什么门槛,在手机上下个 App 就能玩。 所以功能上线不久,就在网上掀起了一大波试用风潮,堪称整活大赏。 从兵马俑跳科目三,到科目三席卷三国,还有不少粉丝用自家爱豆的照片 “ 恶搞 ”,短短几天时间各种鬼畜视频层出不穷。 甚至,#兵马俑跳科目三# 的词条,在微博上已经有了千万级别的热度。 “ 科目三火到考古圈 ”、“ 还没学会科目三的不用卷了,下一个通义千问 App 就行 ”、“ 这个世界越来越疯狂了,AI好牛 ”,网络上诸如此类的评论不绝于耳。 趁着热度,知危编辑部也在第一时间下载了最新版的通义千问 App,上手试了试这个新功能。 打开通义千问 App,视频生成功能的入口并没有直接出现在首页的功能模块里,而是需要在对话框里输入 “ 全民舞王 ” 或者 “ 通义舞王 ” 等关键词,再跳转到体验页面。 该功能里面有包括科目三、DJ 慢摇、鬼步舞还有秧歌在内的 12 种舞蹈模板,随机选择舞种再上传一张全身照就行。 当然,如果自己不想上传照片,官方也有默认图片模板可供选择,整个流程操作起来没什么难度。 只不过需要注意的是,在上传照片的时候,照片的分辨率要大于 500 × 500,而且需要正面站立的全身照,不能有遮挡,如果侧身站或者背景过于复杂,可能会影响最后生成的效果。 我们先是拿最近火爆全网的科目三来试了试。 上传一张马斯克的全身照,再等待十分钟左右,一个马斯克跳科目三的视频就新鲜出炉了。 舞蹈动作流畅,包括西装、鞋子在内,也跟原来的照片没什么两样,甚至动起来的老马连眨眼睛都很自然。 虽然跳舞过程中手部有些小瑕疵,但并不影响整体的视觉效果。 随后,我们又用扎克伯格试了划桨舞。 原图 可以看看照片和视频之间的对比,虽然原照片小扎并没有双臂垂直站立,但视频里手臂部分的还原度很高,就连衣服上的褶皱变化都能模拟出来。 之前老马和小扎一直 “ 约架 ” 不成,这次斗舞就当是看个乐呵了。 而除了能让真人跳舞以外,我们发现动漫人物同样也可以整活。 比如,让迪迦奥特曼扭东北秧歌。 还有鸣人跳爱心表白舞。 章鱼哥摆着臭脸,跳兔子舞。 甚至于,雕像也动起来。 就比如,唐代仕女俑再加上 DJ 慢摇的组合。 还有手办鬼步舞。 体验下来,我们觉得这个让照片跳舞的新功能可玩性还是挺高的,而且生成效果同样可圈可点。 但不可否认的是,最后生成的视频并非没有瑕疵,包括背景、脸部和手部,会出现不同程度的抖动或者轻微变形。 不过,这也是视频生成的通病了。 一直以来,视频生成都存在着生成困难、生成时间长还有生成效果不一致的情况,特别是如何保持人物形象一致和动作流畅,更是学界和业界都在攻克的难题。 如果从体验的整体效果来看,这次通义千问上线的视频生成功能已经有了非常大的突破。 而这背后,多亏了阿里研究团队自研的 Animate Anyone 视频生成模型。 正如前文的体验,这个模型可以只通过一张图像,就无缝生成动画视频。 通常,视频生成需要具备一致性、可控性和连续性三要素,也就是视频高度还原图片的细节、姿势动作需要精准可控,还有动作和动作之间连贯不卡壳。 在一致性上,Animate Anyone 引入了 ReferenceNet,这是一种特征提取网络。 简单来理解,用这个就可以提取图像里的一些外观特征,从而使视频高度还原人物形象、面部表情还有服装上的细节。 与此同时,从评测结果来看,Animate Anyone 的性能也要优于国内外的同类模型。 所以,这次全民舞王应用在国内能火起来,也算是在情理之中。 不过,更早些时候,这个模型其实就已率先在海外火起来了。 一个月前,阿里通义实验室团队在 arXiv 上发了一篇关于 Animate Anyone 模型的论文。 很快,这篇论文就在推特和 YouTube 等海外社交媒体平台上,引起了巨大反响。 光是推特上的一篇帖子,就有五千多万的浏览量。 YouTube 上,Animate Anyone 的相关视频播放量轻松破十万。 在 GitHub 上,短短几天时间内也收获了上万颗星。 只不过,当时的 Animate Anyone 对外还只是停留在论文阶段,不少网友都表示要蹲一蹲体验入口。 所以,阿里的团队也趁热打铁在通义千问 App 上推出了这个功能,让国内的用户先体验了一把。 从结果来看,确实也激起了不小的水花。 事实上,从去年下半年开始,在视频生成领域的各种大模型应用可以用百花齐放来形容。 比如,Runway 用画笔涂一涂,图片就能变视频;Pika1.0 免费开放试用;Stability AI 顺势入局图生视频领域,推出 Stable Video Diffusion。