人工智能热潮

人工智能热潮（英語：AI boom）又称人工智能之春（英語：AI spring^[1]），指人工智能领域的快速发展时期。该热潮开始于2016年或2017年的OpenAI公司，生成式人工智能为此次热潮的重要组成部分。^[2]OpenAI推出的生成式人工智能系统，如2018年推出的各类GPT以及2021年推出的DALL-E，皆对此次发展起到了推波助澜的作用。^[3]^[4]^[5]

由于大型语言模型在2022年得到了提升，基于这一模型的聊天机器人得以成为现实。与此同时，文本到图像生成模型所绘图片与手工绘图相比已经到了可以以假乱真的地步^[6]，而语音合成技术亦可成功的模仿人类讲话。^[7]

自2022年底至2023年间，随着科技巨擘在市场上站稳脚跟，数十个新AI网站和AI聊天机器人上线，导致AI工具的普及率空前增加。^[8]对于这一AI热潮，民众对此的反应可谓褒贬不一。有的人认为AI有助于开发人类潜力，为人类谋福祉。但有的人则认为AI会导致大量失业，并指出了目前的AI技术所存在诸多缺陷。^[9]^[10]^[11]^[12]

语言模型

GPT-3是OpenAI于2020年发布的大型语言模型，该模型可以生成高质量的类人文本，其品质几可乱真。^[13]随后OpenAI又发布了GPT-3.5版本，该版本被用于ChatGPT，因其能对多个领域的问题给出清晰回答而广受关注。^[14]随后OpenAI又于2023年4月发布了GPT-4模型，目前该模型已被用于Microsoft Bing搜索引擎。^[15]^[16]除了OpenAI以外，还有其他多个公司皆发布了自己的语言模型，如谷歌发布的LaMDA模型以及Meta发布的LLaMA模型。

文本到图像生成模型

OpenAI发布的DALL-E为首批受广泛关注的文本到图像生成模型之一，该模型发布于2021年1月。^[17]随后能够生成更为逼真图像的DALL-E 2于2022年4月发布，^[18]而其开源替代版本Stable Diffusion则发布于2022年8月。^[19]

继文本到图像生成模型之后，又涌现了多个受语言模型驱动的文本到视频生成模型，如DAMO、^[20] Make-A-Video、^[21]Imagen Video^[22]以及Phenaki^[23]，这些模型可通过文本或文本/图像提示自动生成视频。^[24]

语音合成

15.ai是首批开放使用的语言合成软件，该产品发布于2020年3月，能够让人们通过输入音频媒体的方式产生对其声音的模仿。^[25]^[26]随后ElevenLabs推出了一个允许公众上传其声音的网站，用于语音合成。不过由于该软件能够让用户模仿知名人士的声音并利用此发布假声名，ElevenLabs受到了各界谴责。^[27]除此之外，这一技术引发了民众对其应用于深度伪造的担忧。^[28]在有人利用语音合成技术对德雷克与威肯的声音进行音乐创作后，不少民众对该技术的合法性及道德提出了质疑。^[29]

参考文献

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

Search

人工智能热潮

目录

语言模型

文本到图像生成模型

语音合成

参考文献