新闻详情

让段子手失业?AI的野心不止于此

幽默感不只是一种与思想开展相联系的心情体会,其本质也是一种创造力。因此,无论是段子或是梗图都是构思性劳动作用的出现。曾有预言指出,构思性作业是最难以被AI替代的作业。但随着AI大模型的不断开展与迭代,这种固有形象好像将很快被打破。

从根据形式和结构的纯文本式的笑料,到根据图画了解和要素提取的吐槽,AI到处开释的幽默感背面是多模态大模型点滴进阶的缩影。但替代纯文本创造的段子手,绝不是AI的中心竞争力和终究方针。

未来,AI不只能写段子,大概率还能讲会演。即使暂时无法替代真人进行现场扮演,但假以时日,生成真人脱口秀扮演的视频将不成问题,而这关于花重金约请喜剧大咖进行专场直播和录制的奈飞来说绝不是个好消息。当带着审视目光的观众终究一个个被AI戳中笑穴时,喜剧从业者们脸上的表情也必定耐人寻味。

“行活”水准的吐槽文本

幽默感通常被界说为关于一事物的诙谐、诙谐或不合逻辑的了解和表达力,这需求人类具有情感、经历和文化背景等要素的归纳作用。

正如许多脱口秀艺人的前期生计都是从仿照长辈开端,在对语义的了解和仿照的基础上,AI现已能输出彻底贴合不同喜剧大师风格的段子。

例如,在GPT-4对人类笑话段子的了解测验中发现,其能正确解析英语、西班牙语、日语等言语中的谐音梗,能看懂双语梗和原创梗。

经过对不同艺人的多个经典单口喜剧专场的文本练习,GPT-4能够精准仿照乔治卡林、路易CK、Joan Rivers、Kevin Hart、Chris Rock等单口喜剧艺人的风格进行脱口秀文本创造,其创造思路、用语习气与其仿照方针高度神似,经专业人士认证现已能到达通畅平稳的喜剧工业流水线水平。与相同水准的脱口秀编剧比较,GPT-4的优势还在于其能够高密度批量安稳输出,并按需求不断修正。

这意味着,若将GPT-4外接语音帮手,用户将轻松取得足不出户即可收听业界中等水平的原创脱口秀专场的体会。

除了“文生文”,看图说话也是AIGC的看家本领之一。

最近,一款由网友制造的“meme梗图生成器”风行外网。用户上传顺手拍照的相片,程序将自动识别图片并配上戏弄文字,并一键生成梗图,其挖苦而不失幽默的风格令很多初度测验的用户骑虎难下。令人惊叹的是,即使针对同一场景进行屡次拍照上传,生成器也会敬业地给出彻底不同但相同辛辣有质感的吐槽案牍。

“图生文”模型的尖端功用展示

GPT-4是由OpenAI悉心研制的大模型GPT-3.5的迭代版,其在自然言语处理方面的高度优化使其可用于从故事脚本、人物创造到游戏内容创造的一切范畴。OpenAI论文显现,GPT-4现已能够了解图画中的逻辑和其间的幽默感。

而前文中另一个展示AI幽默感的东西——梗图生成器则是集成了GPT-3.5的文字生成才能和另一个视觉言语练习模型BLIP图画识别才能的作用(终究出现的作用是用户上传的原图叠加AI生成的吐槽文字)。

2022年,Saleforce亚洲研讨院的高档研讨科学家Junnan Li提出了BLIP(Bootstrapping Language-Image Pre-training)模型,与传统的视觉言语预练习(vision-language pre-training)模型比较,BLIP模型一致了视觉言语的了解和生成,能够掩盖规划更广的下流使命。

BLIP根据编码器和解码器的多模态混合,能够与三个视觉言语方针一起进行预练习,即图画-文本比照学习、图画-文本匹配和图画-条件言语建模。经过对噪声图画和文本比照学习,BLIP模型能够在各种下流使命上取得了安稳的功用改善,包含图画-文本检索、图画标题、视觉问答、视觉推理和视觉对话。

本年1月,Junnan Li发布了新模型BLIP-2,现在代码已开源,在Github上已取得3.5k星。BLIP-2包含了图画编码器和大型言语模型(LLM)的解码器,并附加了可将视觉转换到言语的Q-Former,其运用的通用预练习结构能够恣意对接自己的言语模型。

论文显现,在零样本图画-文本生成、视觉问答、图画-文本检索、图画字幕使命等多项视觉言语使命的评价中,BLIP-2都完成了SOTA(研讨使命中现在最好的功用和表现)。BLIP-2已具有图画信息检索、现实推理以及敞开性生成问题等才能,而上文中的梗图生成器就是模型关于用户上传的图片进行上述使命处理的才能表现。

多模态大模型的下一站

当下,多模态大模型已在全球遍地开花。多模态预练习模型已开端向多模态通用生成模型改变,并有了一些开端的探究。除了上文中的GPT-4和BLIP-2以外,微软的Kosmos-1、谷歌的Flamingo、PaLM-E都是典型的多模态通用生成模型。

以上模型尽管可进行图画、文字等多模态输入,但其只能进行通用的言语生成。在此基础上,微软的VALL-E主打高质量的文本转语音。而“文生视频”则被视为多模态大模型的下一站,海内外多家科技公司已开端向视觉生成范畴建议冲击。

Meta的Make-A-Video能够把文字生成视频,也能够将静态图片生成接连图片并连接成一段视频;谷歌的两款文生视频产品中,Imagen Video主打高分辨率的高清视频片段,Phenaki根据新编解码器C-ViViT应战有故事有长度的视频;曾参加奥斯卡获奖影片《瞬间全宇宙》特效制造的创业公司Runway发布的 Gen-1 模型可经过使用文本提示或许参阅图画所指定的恣意风格,将现有视频转换为新视频……

国内,百度的文心大模型开端供给文字生成视频功用、阿里达摩院的 “文本生成视频大模型”也在开源模型渠道低沉对外测验。

但整体而言,现有的文生视频模型作用还不太抱负。因此,业界仍遍及等待OpenAI视觉生成才能的展示。当时,GPT-4的多模态才能仅限于图片处理,而GPT-5的视频处理才能则会将多模态的才能提升到或许挨近人类的程度。

据预测,最快在本年6-7月,GPT-5的功用将连续敞开。除了更巨大的参数规划、更精准强悍的言语了解才能,GPT-5最具革新性的功用之一就是对包含音频和视频在内的多模态处理才能。未来,GPT-5创建和生成的内容将包括文字、音频、3D模型和视频。

值得注意的是,在树立各种多模态大模型的过程中,经过生成指令微调使之与人类对齐是一大燃眉之急,不然模型将发生较多有害信息,下降其可用性。树立多模态大模型的含义在于不同让模态数据之间彼此辅佐与促进,使AI更好地感知和了解人类的情感和言语,进步其安全性与可靠性,然后更好地与人类进行交互和协作。

返回资讯列表