生成式人工智能浅论

首页 > 资讯 > > 内容

生成式人工智能浅论

发表时间：2023-08-03 10:23:43 来源：51CTO.COM

【资料图】

生成式人工智能由来已久。一些资料显示，它早在 20 世纪 50 年代就已出现。其他资料则指出，最早的初级聊天机器人出现在 20 世纪 60 年代。无论真正的起源点是什么，我们都认为，与过去一年中出现的大量研究论文、应用、新闻报道、博客文章和对话相比，这些都只是历史时间轴上的小石子，尤其是随着生成式人工智能在计算机视觉模型（图像和视频的深度学习，包括稳定扩散、Midjourney 和 DALL-E）和大型语言模型（文本和语言的深度学习，包括 GPT-3、GPT-4 和本文标题中提到的杰出范例）的出现。

生成式人工智能（Generative AI）是人工智能（AI）的一个领域，其重点是训练和部署能够生成新的原创内容的系统，例如从某类内容的历史训练实例中创建新颖的文本、图像、音乐或视频。虽然这可以应用于结构化数据（如数据表、时间序列和数据库），但当它应用于非结构化数据（图像和文本）时，更具有开创性和全球新闻价值。与依赖于预定义规则和模式的传统人工智能模型不同，生成式人工智能模型能够通过学习大量先前的数据产生新颖的输出结果。生成式人工智能的核心是机器学习（ML）和统计学的概念。(当然，统计学习和机器学习已经密切相关）。

关于生成式人工智能中出现的 ML 的具体方面，ML 的一个子集被称为无监督学习，用于学习给定数据集中重复出现的模式和结构。然后，这些模式就会成为 "具有统计超能力的积木"（请原谅我的夸张），然后可以将其组合成逻辑上有意义、统计上可行的分组，生成与训练数据（文本或图像）非常相似的新内容（通常是令人印象深刻的新内容）。这一过程属于无监督学习，因为它的目的不是对已知模式进行分类、标记或复制（监督学习），而是在非结构化数据中发现复杂模式（有点像独立分量分析 ICA 的一般形式，与主分量分析 PCA 相似，但并不相同）。ICA 用于信号处理（如盲源分离或 "鸡尾酒会问题"），它是一种计算方法，用于识别复杂信号并将其分离为一组独立的加法子分量。

关于在生成式人工智能中出现的统计学方面，我们会遇到许多作为马尔可夫模型和贝叶斯学习基础的关键统计学概念（因此，生成式人工智能起源于 20 世纪 50 年代）。为这些方法提供支持的条件概率的历史可以追溯到更久远的年代，其中最著名的当然是托马斯-贝叶斯（Thomas Bayes）牧师（贝叶斯定理发表于 1763 年）。生成式人工智能利用条件概率对极其复杂和庞大的多元数据进行处理，计算出这些构件（无监督 ML 学习到的模式和结构）最有可能的组合，以响应用户的查询（即用户提示）。

因此，生成式人工智能构建新颖输出能力的 "秘诀 "由三个基本结构组成：(1) 储存所有可能成分的仓库（即训练数据中的 ML 学习模式和结构）；(2) 用户的意图（即用户查询中提供的大量个性化请求的菜单选项，用户查询是指明用户需要的提示类别）；(3) 配方（即计算成分组合和顺序的统计模型，将生成在统计上最有可能满足用户查询的输出）。

为了在这里增加一点色彩，查询的“上下文”从根本上说也很重要，但我希望生成式人工智能的“个性化”部分已经体现在指明用户意图的提示中了。要获得最佳（信息量最大、最令人满意、最个性化）的响应，很大程度上取决于在良好的提示工程中提供良好的上下文，而这正在成为“未来工作”的一项新工作技能。

在写这篇文章时，我决定用 ChatGPT 来实例化我的食物隐喻。于是，我向 ChatGPT 提出了一个问题：“给我一个使用夏威夷当地水果和香料的派的食谱”。下面是回复：“Kirk Borne 向 ChatGPT 询问夏威夷派的食谱”（具体食谱此文略）。我要结束这篇博客，现在就去做一个派。

虽然这一切如此诱人，令人兴奋、令人振奋，而且具有爆炸性的变革意义，但我们也必须接受教育。更准确的说，在企业高管和其他领导者因为害怕落后于竞争对手和其他市场而出现“FOMO”现象，说 “马上给我一些生成式人工智能”之前，需要为任何此类部署在企业内取得成功和富有成效奠定基础。配方中有哪些关键成分？这里有三个：

数据素养：人们需要了解数据以及数据如何提供业务洞察力和价值；企业中存在哪些类型的数据；这些数据存放在哪里；谁在使用这些数据；数据用于哪些业务目的；访问和使用这些数据有哪些道德（管理或法律）要求；以及这些数据最终是否足以用于训练生成式人工智能（大型语言或视觉模型）？数据质量：还用说吗？好吧，我来说：GIGO “垃圾进，垃圾出！”在黑盒子 ML 模型中，尤其是那些消耗大量数据的模型（如深度学习、人工智能和生成式人工智能），脏数据的危害更大。如果数据不干净，模型的可解释性就毫无意义，模型的可信度也会丧失。数据/ML 工程基础架构：在数据科学家的笔记本电脑上运行的探索性 ML 模型与在整个业务中运行的已部署、已验证、已管理和全企业范围的模型之间存在着巨大的差异，企业对后者下了很大的赌注并产生了极大的依赖。基础设施必须为人工智能做好准备，其中包括网络、存储和计算基础设施。如果没有这种弹性基础，在董事会上运行首席执行官笔记本电脑上的 ML 模型可能比在最糟糕的时候出现的生成式人工智能“演示恶魔”更好。

原文标题：I bet you think this article is about ChatGPT

原文作者：Kirk Borne

标签：

微信扫一扫：分享

生成式人工智能浅论

生成式人工智能浅论

聚焦小盘成长投资价值，鹏华1000ETF增强8月14日正式发行

8月2日基金净值：交银主题优选混合A最新净值2.0282，跌0.42%

让患者及时用上放心平价药（一线调研·关注集采落地（下））

芭比被日本大规模抵制，拿蘑菇云和爆炸梗炒作，华纳兄弟道歉

七颗大豆种下科研梦想

休闲食品板块8月2日跌0.44%，黑芝麻领跌，主力资金净流出1.16亿元

鹏华信用债6个月持有期债券C基金8月3日发行，拟任基金经理李政、王志飞

金银河：上半年净利同比增213%

启明星辰(002439.SZ)申请向特定对象发行股票获深交所审核通过

小学科学三年级上册《一杯水的观察》教学设计

中央气象台8月2日18时继续发布暴雨蓝色预警

郑州市区是哪几个区2023

100-95，山东男篮惊险取胜，小将狂砍16分，青岛投手19分！

中国国家男子足球队原主教练李铁被提起公诉

周冬雨时尚造型：成熟自信惊艳众人

基督教赞美诗歌曲愿将我的心给你（基督教赞美诗歌曲）

玄天神剑好玩吗 玄天之剑好玩吗

品行的意思是（品行的意思）

新力金融8月2日快速上涨

曹格演唱会2020（曹格新专辑出来没）

大闹天宫思维导图简笔画 大闹天宫思维导图

盛讯达：8月1日融资买入251.25万元，融资融券余额1.53亿元

长安悦翔真实口碑_长安悦翔车怎么样

七年级上册免费网课数学软件有哪些

永辉超市（601933）8月2日10点6分触及涨停板

沃尔夫：罗伊斯辞去队长后能更专注自己 拜仁签凯恩对德甲有益

俄称连续挫败乌方针对莫斯科的无人机袭击

超级跑车怎么画（超级跑车排行榜）

中金：PX产能扩张尾声 有望进入新一轮高景气周期

成品油价格持续飙升 近20家新能源车企上调售价

广西百色宣布解除“不进不出”管控措施

2月15日零时起 苏州市关闭15个高速公路入口

“95后”羌族货运员的春运：为中欧班列尽一份力

养牛场里的“春节时光”

广西靖西市两地调整为中风险地区

苏州市多地调整为中风险地区

云南2月14日新增无症状感染者6例

实体书店为什么接二连三遭遇危机？生存之道在哪

卜卦、占星、看手相…… 为什么有的年轻人总想算一卦

一言不合放火烧家 任性女子被判刑

新疆阿克苏地区库车市发生3.4级地震 震源深度7千米

应急管理部：1月全国接报生产安全事故死亡超1100人

江苏省省长：苏州市要把疫情防控作为头等大事、第一要务

广西新增确诊病例降至1例 百色市有序解除管控

玄天神剑好玩吗玄天之剑好玩吗

大闹天宫思维导图简笔画大闹天宫思维导图

沃尔夫：罗伊斯辞去队长后能更专注自己拜仁签凯恩对德甲有益

中金：PX产能扩张尾声有望进入新一轮高景气周期

成品油价格持续飙升近20家新能源车企上调售价

2月15日零时起苏州市关闭15个高速公路入口

一言不合放火烧家任性女子被判刑

新疆阿克苏地区库车市发生3.4级地震震源深度7千米

广西新增确诊病例降至1例百色市有序解除管控