啊!ChatGPT 最近很火呀,你们说的 AGI、AIGC、AI Agent、Prompt、LLM ... 到底是什么意思啊?还有 Midjourney、Lensa、Sora、DALL-E、Llama、GPTs ... 又是什么鬼?

# 名词解释

  • AI(Artificial Intelligence,人工智能):是研究和开发用于模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的一门新技术科学。它的目标是让机器具备类似人类的智能,能够感知、理解、学习、思考、决策等。人工智能是智能学科的重要组成部分,旨在生产出一种能以人类智能相似的方式做出反应的智能机器。
  • AGI(Artificial General Intelligence,通用人工智能):是人工智能发展的一个更高级阶段。它指的是机器能够像人类一样具备全面的智能能力,包括认知、情感、自我意识等方面。AGI 能够解决未曾预见的问题,并在不同环境中灵活适应。相比于特定领域的人工智能,AGI 能够理解和自主处理各种复杂任务,具有更广泛的认知能力。
  • AIGC(AI Generated Content,人工智能生成内容):是 AI 的一个应用领域。它指通过 AI 技术自动生成各种形式的内容,如文本、图像、音频、视频等创意作品。AIGC 涵盖了人工智能、计算机图形学和深度学习等领域技术的综合平台,目的是实现更加高效、智能化的图像识别和处理,提升人机交互的用户体验。在游戏、虚拟现实、智能安防等领域,AIGC 都有广泛的应用。
  • 生成式人工智能(Generative AI,生成式 AI):是深度学习的一个子集,其中 AI 系统可以根据所学知识生成独特而真实的内容。生成式人工智能模型使用海量数据集进行训练,这使它们能够使用自然类似于人类创作的文本、音频或视觉效果来响应人类查询。例如,来自 AI21 Labs、Anthropic、Cohere 和 Meta 的 LLM 是生成式人工智能算法,组织可以使用这些算法来解决复杂的任务。
  • ChatGPT:OpenAI 创建的对话式聊天机器人,使用强调来回对话的语言模型。截至目前,可以免费试用。
  • GPT(Generative Pre-Trained Transformer):这是一种使用深度学习生成类人文本的 AI 模型,由 OpenAI 创建。其中,“生成” 是指其生成文本的能力;“预训练” 是指使用一个机器学习任务的模型来训练另一个,类似于人类在学习新事物时如何利用现有知识(在这种情况下,GPT 涉及对大量文本进行预训练);“Transformer” 是一种神经网络,可以全面了解数据序列所有部分(如句子中的单词)之间的关系。它被视为人工智能的一项突破,因为它比以前的方法更能理解上下文和细微差别。
  • GPT-3:OpenAI 创建的第三代语言模型。它构成了过去两年推出的大量使用 OpenAI 的 API 的 AI 编写工具的基础。(ChatGPT 使用改进版本,称为 GPT-3.5,而 GPT-4 正在开发中。)
  • OpenAI:GPT-3、ChatGPT 和 DALL-E 背后的人工智能研究公司。它最初是一个非营利组织,但现在经营着一家雇佣大部分员工的 “利润上限” 公司。值得注意的是,Elon Musk 是联合创始人,但于 2018 年辞去了 OpenAI 董事会的职务。
  • Prompt:是一种基于自然语言处理的交互方式,它通过机器对自然语言的解析,实现用户与机器之间的沟通。可以理解为是一段给定的文本或语句,用于启动和引导机器学习模型生成特定类型、主题或格式的输出。在自然语言处理领域中,Prompt 通常由一个问题或任务描述组成,例如 “给我写一篇有关人工智能的文章”、“翻译这个英文句子到法语” 等等。在图像识别领域中,Prompt 则可以是一个图片描述、标签或分类信息。
  • AI Agent(人工智能代理):一种能够自主理解、规划决策、执行复杂任务的智能体。
  • NLP(Natural Language Processing,自然语言处理):是 AI 的一个分支,它允许计算机系统理解和生成人类语言。NLP 系统使用计算语言学和机器学习技术将语言数据转换为称为标记的简单表示,并理解它们的上下文关系。
  • LLM(Large Language Model,大语言模型):是基于大量数据进行预训练的超大型深度学习模型,可以执行各种自然语言处理(NLP)任务。大型语言模型会使用多个转换器模型,并使用海量数据集进行训练,因此规模非常庞大。
  • GPTs:即 GPT Store,是 OpenAI 推出的一个应用商店平台,里面提供了各种各样的 GPT 智能应用。自 2023 年 11 月开放 GPTs 以来,短短两个月,用户已创建多达 300 万个 GPTs,涉及办公、设计、生活、教育、科研、编程等各个领域。
  • 机器学习:人工智能的一个子领域,这是教计算机通过数据和算法识别模式的实践。它与传统编程的不同之处在于,计算机不需要明确编码来解决每一个潜在场景。
  • 神经网络:一种机器学习模型,模仿人脑中的神经元,使用节点网络通过算法处理数据。这允许计算机在许多不同的数据点之间建立联系,并在响应查询时了解哪些是最重要的。
  • 深度学习:是一门 AI 学科,专注于训练具有多个隐藏层的神经网络,以从原始数据中提取和理解复杂的关系。AI 专家使用深度学习来构建能够理解文本、音频、图像、视频和其他信息类型的系统。ChatGPT 和 Stable Diffusion 等 AI 工具是使用深度学习技术的应用示例。
  • 语言建模:一种确定句子中单词顺序的技术,基于这些单词有意义的概率。
  • 扩散模型:一种根据文本提示创建图像的方法。它的工作原理是向一组训练图像添加随机噪声,然后学习如何去除噪声以构建所需图像。
  • DALL-E:OpenAI 的文本转图像工具,它使用 GPT-3 来解释用户的请求。最新版本 DALL-E2 于 7 月推出,提供比原始版本更清晰、更准确的图像。它在公开测试版中可用,用户最多可以免费创建 50 张图像。
  • Stable Diffusion:由 Stability AI 创建的开源文本到图像应用程序。正式版安装过程繁琐,并通过命令行运行,但第三方开发人员使用开源代码为台式机和网络创建了更易访问的版本。
  • Imagen:另一种使用扩散模型的文本到图像工具,由谷歌创建。该公司选择暂时不发布其代码或公开展示它,理由是它有可能创建不适当的内容。
  • Midjourney:一个创建自己的文本到图像系统的独立实验室,目前仅提供受邀测试版。
  • Dreambooth:一种由谷歌开发的深度学习模型,可以微调通过扩散创建的图像。它最著名的用例是能够根据现有照片生成特定人物的新照片 —— 无论好坏。尽管 Google 本身并未发布 Dreambooth 供公众使用,但其实现已作为开源项目发布。
  • Lensa:Prisma Labs 于 2018 年首次推出的适用于 iOS 和 Android 的图像编辑应用程序。由于新的 “魔法头像” 功能,它在最近几周走红,其效果类似于 Stable Diffusion 和 Dreambooth。它因创造过度性感的图像(尤其是女性图像)以及意外的裸体而受到批评。
  • Sora:是 OpenAI 开发的一个能以文本描述生成视频的人工智能模型,可以从文本提示创建真实的视频。
  • LLaMA(Large Language Model Meta AI,大语言模型元 AI):是 Meta AI 公司于 2023 年 2 月发布的大型语言模型,也是目前为止效果最好的开源 LLM 之一。Llama 这个单词本身是指美洲大羊驼,所以社区也将这个系列的模型昵称为羊驼系模型。LLaMA 按照参数量的大小分为四个型号:LLaMA-7B、LLaMA-13B、LLaMA-30B 与 LLaMA-65B。这里的 B 是 billion 的缩写,指代模型的参数规模。故最小的模型 7B 包含 70 亿个参数,而最大的一款 65B 则包含 650 亿个参数。
  • 多模态模型:是指能够处理和融合多种不同类型数据的模型。这些数据可以包括文本、图像、音频、视频等不同模态的数据。多模态模型在许多应用领域中都发挥着重要作用,例如自然语言处理(NLP)、计算机视觉(CV)、音频处理、健康医疗等等。在多模态模型中,不同模态的数据被融合在一起,以便同时处理和分析它们。

# References

更新于

请我喝[茶]~( ̄▽ ̄)~*

Rudy Lo 微信支付

微信支付

Rudy Lo 支付宝

支付宝

Rudy Lo 贝宝

贝宝