日期: 2025-03-08
作者: 乐虎体育直播jrs
上个月初,文言君说过,阿里达摩院正在研制类ChatGPT的对话机器人,其时已开放给公司内职工测验。
就在昨日,阿里达摩院低沉地在魔搭社区(ModelScope)放出了“文本生成视频大模型”。魔搭,是达摩院在上一年11月推出的开源模型渠道。
依据官方介绍,现在这个模型,由文本特征提取、文本特征到视频隐空间分散模型、视频隐空间到视频视觉空间这3个子网络组成,全体模型参数约17亿。支撑英文输入。分散模型选用Unet3D结构,经过从纯高斯噪声视频中,迭代去噪的进程,完成视频生成的功用。
文言君方才试了一把。输入提示词:A panda eating bamboo on a rock,等了差不多77秒,收到一段2秒钟的视频。 感受一下~
假如换成中文:一只大熊猫坐在岩石上吃竹子,出来的成果便是一只类似于猫咪的小动物。公然,现在还不支撑中文。
从试玩的成果来看,现在能生成的视频长度多在2-4秒,生成等候时刻从20多秒到1分多钟不等。
达摩院的这个发布,也在国内外的交际渠道上招引了一波尝鲜的网友。由于玩的人太多,有微博网友说,连刷20次都没挤进去。
别的,今日清晨,总部在纽约的人工智能草创公司Runway也发布了一种从文本到视频转化的AI模型Gen-2。
上个月,这家曾参加创立Stable Diffusion的公司推出过模型Gen-1,能经过文本提示或参阅图画指定的风格,将现有视频转化为新视频。
从命名上就能看出,Gen-2是Gen-1的升级版,能从零开端产出视频。现在,咱们只能够看到Runway共享出来的一些演示片段。依据该公司的说法,未来几周会供给广泛拜访试用。
早在上一年,谷歌和Meta都展现了各安闲文本转视频上的测验,使用AI生成泰迪熊洗碗和在湖上泛舟等视频。但这两家公司都没有宣告将有关技能推进到研讨阶段以外的方案。
文本生成视频,最理想的作用便是用户给出提示词,体系主动生成任何风格的对应视频。
不过,从现在此类模型生成视频的等待时刻,画面的实在度、清晰度以及长度等各方面来看,间隔产出令人满意的视频还有很大间隔。
事实上,与图画修改比较,视频修改是一个更有挑战性的范畴。扎克伯格此前就在推特上说过,AI模型能从生成静态像素,发展到猜测每个像素跟着时刻推移产生的改变,这在技能上已经是一个打破。
当然了,或许用不了多久,AI就会处理现存的这些缺点。将来,哪怕彻底不明白视频制造的人,也能上手做视频,且可能是批量产出。
特别声明:以上内容(如有图片或视频亦包含在内)为自媒体渠道“网易号”用户上传并发布,本渠道仅供给信息存储服务。
东北雨姐闪现五台山!穿5000元外套,走路霸气,多人伴随阵仗大
杨毅馋哭!美国杨毅获ESPN5年1亿超级顶薪,比绝大多数NBA球员都高
要对泽连斯基“下手”?美方密会乌反对派!泽连斯基:要参加北约、欧盟!特朗普最新表态,欧盟26国发声!普京:俄不会向任何人屈从
北控加时险胜浙江:余嘉豪25+24 里勒46+8+8约克48+10+11+10三分
15分大逆转!深圳男篮险胜江苏,贺希宁30+9周鹏19+4,威姆斯万能
《编码物候》展览开幕 北京年代美术馆以科学艺术解读数字与生物交错的世界节律
西部数据退出SSD商场 将要点转向硬盘 SanDisk 接收NAND事务
苹果发布新款MacBook Air:新增天蓝色+M4芯片 价格7999元起