AI深度学习:自然语言处理(NLP)
在线工具推荐:三维数字孪生场景工具 - GLTF/GLB在线编辑器 - Three.js AI自动纹理化开发 - YOLO 虚幻合成数据生成器 - 3D模型在线转换 - 3D模型预览图生成服务
介绍
自然语言处理(NLP)是人工智能 (AI) 最热门的领域之一,这要归功于撰写连贯文章的文本生成器、欺骗人们认为自己有知觉的聊天机器人以及文本到图像程序等应用程序,它可以生成任何您可以描述的逼真的图像。近年来,计算机理解人类语言、编程语言,甚至类似于语言的生物和化学序列(如DNA和蛋白质结构)的能力发生了革命。最新的人工智能模型正在解锁这些领域,以分析输入文本的含义并生成有意义的、富有表现力的输出。
什么是自然语言处理 (NLP)
自然语言处理 (NLP) 是构建机器的学科,这些机器可以按照编写、说出和组织的方式操纵人类语言或类似于人类语言的数据。它从计算语言学演变而来,计算语言学使用计算机科学来理解语言的原理,但NLP不是开发理论框架,而是一门工程学科,旨在构建技术来完成有用的任务。NLP可以分为两个重叠的子领域:自然语言理解(NLU),专注于语义分析或确定文本的预期含义,以及自然语言生成(NLG),专注于机器生成文本。NLP与语音识别是分开的,但通常与语音识别结合使用,语音识别旨在将口语解析为单词,将声音转换为文本,反之亦然。
为什么自然语言处理 (NLP) 很重要?
NLP是日常生活中不可或缺的一部分,随着语言技术应用于零售(例如,客户服务聊天机器人)和医学(解释或总结电子健康记录)等不同领域,NLP变得越来越重要。亚马逊的Alexa和苹果的Siri等对话代理利用NLP来倾听用户的查询并找到答案。最复杂的此类代理 - 例如最近开放用于商业应用的GPT-3 - 可以生成有关各种主题的复杂散文以及能够进行连贯对话的强大聊天机器人。谷歌使用NLP来改善其搜索引擎结果,Facebook等社交网络使用它来检测和过滤仇恨言论。
NLP变得越来越复杂,但仍有许多工作要做。当前的系统容易出现偏见和不连贯性,并且偶尔会表现不规律。尽管面临挑战,但机器学习工程师有很多机会以对正常运作的社会越来越重要的方式应用 NLP。
自然语言处理 (NLP) 的用途是什么?
NLP 用于各种与语言相关的任务,包括回答问题、以各种方式对文本进行分类以及与用户交谈。
以下是 NLP 可以解决的 11 个任务:
- 情感分析是对文本的情感意图进行分类的过程。通常,情绪分类模型的输入是一段文本,输出是所表达的情绪是积极的、消极的或中性的概率。通常,此概率基于手动生成的特征、单词 n-gram、TF-IDF 特征,或使用深度学习模型来捕获顺序的长期和短期依赖关系。情绪分析用于对各种在线平台上的客户评论进行分类,以及用于利基应用程序,例如在在线评论中识别精神疾病的迹象。
- 毒性分类是情感分析的一个分支,其目的不仅是对敌对意图进行分类,而且还对特定类别进行分类,例如威胁、侮辱、淫秽和对某些身份的仇恨。这种模型的输入是文本,输出通常是每类毒性的概率。毒性分类模型可用于通过沉默冒犯性评论、检测仇恨言论或扫描文档以查找诽谤来调节和改善在线对话。
- 机器翻译可自动执行不同语言之间的翻译。此类模型的输入是指定源语言的文本,输出是指定目标语言的文本。谷歌翻译也许是最著名的主流应用程序。这些模型用于改善Facebook或Skype等社交媒体平台上人与人之间的交流。有效的机器翻译方法可以区分具有相似含义的单词。一些系统还执行语言识别;也就是说,将文本分类为一种语言或另一种语言。
- 命名实体识别旨在将一段文本中的实体提取到预定义的类别中,例如人名、组织、位置和数量。此类模型的输入通常是文本,输出是各种命名实体及其开始和结束位置。命名实体识别在总结新闻文章和打击虚假信息等应用中非常有用。例如,下面是命名实体识别模型可以提供的功能:
- 垃圾邮件检测是 NLP 中普遍存在的二元分类问题,其目的是将电子邮件分类为垃圾邮件或不垃圾邮件。垃圾邮件检测器将电子邮件文本以及各种其他潜台词(如标题和发件人姓名)作为输入。它们旨在输出邮件是垃圾邮件的可能性。像Gmail这样的电子邮件提供商使用这种模型,通过检测未经请求和不需要的电子邮件并将其移动到指定的垃圾邮件文件夹来提供更好的用户体验。
- 语法纠错模型对语法规则进行编码,以更正文本中的语法。这主要被视为序列到序列的任务,其中模型以不合语法的句子作为输入和正确的句子作为输出进行训练。像Grammarly这样的在线语法检查器和像Microsoft Word这样的文字处理系统使用这样的系统来为客户提供更好的写作体验。学校也使用它们对学生的论文进行评分。
- 主题建模是一种无监督的文本挖掘任务,它采用文档语料库并发现该语料库中的抽象主题。主题模型的输入是文档的集合,输出是主题列表,用于定义每个主题的单词以及文档中每个主题的分配比例。潜在狄利克雷分配(LDA)是最流行的主题建模技术之一,它尝试将文档视为主题集合,将主题视为单词集合。主题建模正在商业上使用,以帮助律师在法律文件中找到证据。
- 文本生成,更正式地称为自然语言生成 (NLG),生成类似于人类编写的文本。可以对此类模型进行微调,以生成不同类型和格式的文本,包括推文、博客甚至计算机代码。文本生成已使用马尔可夫过程,LSTM,BERT,GPT-2,LaMDA和其他方法执行。它对于自动完成和聊天机器人特别有用。
- 自动完成功能可以预测接下来会出现什么单词,并且在WhatsApp等聊天应用程序中使用了不同复杂性的自动完成系统。Google 使用自动填充功能来预测搜索查询。最著名的自动完成模型之一是 GPT-2,它已被用于撰写文章、歌词等等。
- 聊天机器人使对话的一方自动化,而人类对话者通常提供另一方。它们可以分为以下两类:
- 数据库查询:我们有一个问题和答案数据库,我们希望用户使用自然语言进行查询。
- 对话生成:这些聊天机器人可以模拟与人类伴侣的对话。有些人能够进行广泛的对话。一个引人注目的例子是谷歌的LaMDA,它为问题提供了如此人性化的答案,以至于它的一位开发人员确信它有感觉。
- 信息检索查找与查询最相关的文档。这是每个搜索和推荐系统都面临的问题。目标不是回答特定查询,而是从可能以数百万个编号的文档集合中检索与查询最相关的集合。文档检索系统主要执行两个过程:索引和匹配。在大多数现代系统中,索引是通过双塔网络由向量空间模型完成的,而匹配是使用相似性或距离得分完成的。谷歌最近将其搜索功能与处理文本、图像和视频数据的多模态信息检索模型集成在一起。
- 摘要是缩短文本以突出显示最相关信息的任务。Salesforce的研究人员开发了一个汇总器,该汇总器还可以评估事实一致性,以确保其输出准确。摘要分为两个方法类:
- 抽取式摘要侧重于从长文本中提取最重要的句子,并将其组合成摘要。通常,抽取式摘要对输入文本中的每个句子进行评分,然后选择多个句子来形成摘要。
- 抽象摘要通过释义产生摘要。这类似于编写包含原始文本中不存在的单词和句子的摘要。抽象摘要通常建模为序列到序列任务,其中输入是长格式文本,输出是摘要。
- 问答涉及用自然语言回答人类提出的问题。问答最着名的例子之一是沃森,它在2011年与人类冠军进行了电视游戏节目Jeopardy的比赛,并以相当大的优势获胜。通常,问答任务有两种形式:
- 多项选择:多项选择题问题由一个问题和一组可能的答案组成。学习任务是选择正确答案。
- 开放域:在开放域问答中,模型通常通过查询大量文本,以自然语言提供问题的答案,而不提供任何选项。
自然语言处理 (NLP) 如何工作?
NLP 模型通过查找语言组成部分之间的关系来工作,例如,在文本数据集中找到的字母、单词和句子。NLP 架构使用各种方法进行数据预处理、特征提取和建模。其中一些过程是:
- 数据预处理: 在模型处理特定任务的文本之前,通常需要对文本进行预处理,以提高模型性能或将单词和字符转换为模型可以理解的格式。以数据为中心的 AI 是一项不断发展的运动,优先考虑数据预处理。在此数据预处理中可以使用各种技术:
- 词干提取和词形还原:词干提取是使用启发式规则将单词转换为其基本形式的非正式过程。例如,“大学”、“大学”和“大学”可能都映射到基本大学。(这种方法的一个限制是,“宇宙”也可以映射到大学,即使宇宙和大学没有密切的语义关系。词形还原是一种更正式的查找词根的方法,通过使用字典中的词汇分析单词的形态。词干和词形还原由spaCy和NLTK等库提供。
- 句子分割将一大段文本分解为具有语言意义的句子单元。这在英语等语言中很明显,句子的结尾用句号标记,但它仍然不是微不足道的。句点可用于标记缩写以及终止句子,在这种情况下,句点应该是缩写标记本身的一部分。在语言中,这个过程变得更加复杂,例如古代汉语,这些语言没有标记句子结尾的分隔符。
- 停用词删除旨在删除不会为文本添加太多信息的最常见单词。例如,“the”、“a”、“an”等。
- 词汇分词将文本拆分为单个单词和单词片段。结果通常由单词索引和标记化文本组成,其中单词可以表示为数字标记,用于各种深度学习方法。指示语言模型忽略不重要标记的方法可以提高效率。
- 特征提取: 大多数传统的机器学习技术处理由词袋、TF-IDF 或通用特征工程(如文档长度、字极性和元数据)创建的特征——通常是描述与包含文档的语料库相关的文档的数字(例如,如果文本具有关联的标签或分数)。最近的技术包括Word2Vec,GLoVE以及在神经网络训练过程中学习特征。
- 词袋: 词袋计算每个单词或 n-gram(n 个单词的组合)在文档中出现的次数。例如,下面,Bag-of-Words 模型根据文档中每个单词中出现的word_index数创建数据集的数字表示形式。
- TF-IDF: 在词袋中,我们计算文档中每个单词或n-gram的出现次数。相比之下,对于TF-IDF,我们根据每个单词的重要性对其进行加权。为了评估一个词的重要性,我们考虑两件事:
- 学期频率: 文档中的单词有多重要?
TF(文档中的单词)= 该单词在文档中的出现次数 / 文档中的单词数
- 反向文档频率:该术语在整个语料库中有多重要?
IDF(语料库中的单词)=log(语料库中的文档数/包含该单词的文档数)
如果一个单词在文档中多次出现,则该单词很重要。但这会产生一个问题。像“a”和“the”这样的词经常出现。因此,他们的 TF 分数将始终很高。我们通过使用反向文档频率来解决此问题,如果单词很少见,则为高,如果单词在语料库中通用,则为低。术语的 TF-IDF 分数是 TF 和 IDF 的乘积。
- Word2Vec于2013年推出,使用香草神经网络从原始文本中学习高维单词嵌入。它有两种变体:Skip-Gram,其中我们尝试在给定目标单词的情况下预测周围的单词,以及连续词袋(CBOW),它试图从周围的单词中预测目标单词。在训练后丢弃最后一层后,这些模型将一个单词作为输入并输出一个单词嵌入,该嵌入可用作许多 NLP 任务的输入。来自 Word2Vec 捕获上下文的嵌入。如果特定单词出现在类似的上下文中,则它们的嵌入将是相似的。
- GLoVE类似于Word2Vec,因为它也学习词嵌入,但它通过使用矩阵分解技术而不是神经学习来实现。GLoVE 模型基于全局单词到单词共现计数构建矩阵。
- 建 模: 数据经过预处理后,被馈送到 NLP 架构中,该架构对数据进行建模以完成各种任务。
- 通过上述技术提取的数字特征可以根据手头的任务输入到各种模型中。例如,对于分类,可以将 TF-IDF 矢量化的输出提供给逻辑回归、朴素贝叶斯、决策树或梯度提升树。或者,对于命名实体识别,我们可以使用隐马尔可夫模型和 n-gram。
- 深度神经网络通常在不使用提取特征的情况下工作,尽管我们仍然可以使用 TF-IDF 或词袋特征作为输入。
- 语言模型:用非常基本的术语来说,语言模型的目标是在给定输入单词流时预测下一个单词。使用马尔可夫假设的概率模型就是一个例子:
P(Wn)=P(Wn|Wn−1)
深度学习也用于创建这样的语言模型。深度学习模型将单词嵌入作为输入,并在每个时间状态返回下一个单词的概率分布作为字典中每个单词的概率。预先训练的语言模型通过处理大型语料库(如维基百科)来学习特定语言的结构。然后可以针对特定任务对它们进行微调。例如,BERT已经针对从事实检查到撰写头条新闻的各种任务进行了微调。
顶级自然语言处理 (NLP) 技术
上面讨论的大多数NLP任务都可以通过十几种通用技术进行建模。将这些技术分为两类是有帮助的:传统的机器学习方法和深度学习方法。
传统的机器学习 NLP 技术:
- 逻辑回归是一种监督分类算法,旨在根据某些输入预测事件发生的概率。在 NLP 中,逻辑回归模型可用于解决情绪分析、垃圾邮件检测和毒性分类等问题。
- 朴素贝叶斯是一种监督分类算法,它使用以下贝叶斯公式查找条件概率分布 P(label | text):
P(标签 | 文本) = P(标签) x P(文本|标签) / P(文本)
并根据哪个联合分布具有最高概率进行预测。朴素贝叶斯模型中的天真假设是单个单词是独立的。因此:
P(text|label) = P(word_1|label)*P(word_2|label)*...P(word_n|标签)
在NLP中,这种统计方法可以应用于解决诸如垃圾邮件检测或查找软件代码中的错误等问题。
- 决策树是一类监督分类模型,它们根据不同的特征拆分数据集,以最大限度地提高这些拆分中的信息增益。
- 潜在狄利克雷分配(LDA)用于主题建模。LDA 尝试将文档视为主题集合,将主题视为单词集合。LDA是一种统计方法。它背后的直觉是,我们只能使用语料库中的一小部分单词来描述任何主题。
- 隐马尔可夫模型:马尔可夫模型是根据当前状态决定系统下一个状态的概率模型。例如,在NLP中,我们可能会根据前一个单词建议下一个单词。我们可以将其建模为马尔可夫模型,在那里我们可以找到从单词 1 到 word2 的转移概率,即 P(word1|word2)。然后我们可以使用这些转移概率的乘积来找到句子的概率。隐马尔可夫模型 (HMM) 是一种概率建模技术,它将隐状态引入马尔可夫模型。隐藏状态是不直接观察到的数据的属性。HMM 用于词性 (POS) 标记,其中句子的单词是观察到的状态,POS 标记是隐藏状态。HMM增加了一个称为发射概率的概念;给定隐藏状态的观测值概率。在前面的示例中,这是一个单词的概率,给定其 POS 标记。HMM假设这种概率可以逆转:给定一个句子,我们可以根据一个词具有某个词性标签的可能性以及特定词性标签跟随分配给前一个单词的词性标签的概率来计算每个单词的词性标签。在实践中,这是使用维特比算法解决的。
深度学习NLP技术:
- 卷积神经网络(CNN):使用CNN对文本进行分类的想法首先在Yoon Kim的论文“用于句子分类的卷积神经网络”中提出。中心直觉是将文档视为图像。但是,输入不是像素,而是表示为单词矩阵的句子或文档。
- 递归神经网络(RNN):许多使用深度学习的文本分类技术使用n元语法或窗口(CNN)在附近处理单词。他们可以将“纽约”视为一个单一实例。但是,它们无法捕获特定文本序列提供的上下文。他们不学习数据的顺序结构,其中每个单词都依赖于前一个单词或前一个句子中的一个单词。RNN 使用隐藏状态记住之前的信息,并将其连接到当前任务。被称为门控循环单元(GRU)和长短期记忆(LSTM)的架构是RNN的类型,旨在长时间记住信息。此外,双向 LSTM/GRU 在两个方向上保留上下文信息,这有助于文本分类。RNN也被用来生成数学证明并将人类的想法转化为文字。
- 自动编码器是深度学习编码器-解码器,近似于从X到X的映射,即输入=输出。他们首先将输入特征压缩为低维表示(有时称为潜在代码、潜在向量或潜在表示),并学习重建输入。表示向量可以用作单独模型的输入,因此该技术可用于降维。在许多其他领域的专家中,遗传学家已经应用自动编码器来发现与氨基酸序列中疾病相关的突变。
- 编码器-解码器序列到序列:编码器-解码器 seq2seq 架构是对专门用于翻译、摘要和类似任务的自动编码器的适应。编码器将文本中的信息封装到编码的向量中。与自动编码器不同,解码器的任务不是从编码向量重建输入,而是生成不同的所需输出,例如翻译或摘要。
- 变形金刚:变形金刚是2017年论文“注意力是你所需要的一切”(Vaswani,Shazeer,Parmar等)中首次描述的模型架构,放弃了重复,而是完全依赖于自我注意机制来绘制输入和输出之间的全局依赖关系。由于这种机制一次处理所有单词(而不是一次处理一个),因此与 RNN 相比,这降低了训练速度和推理成本,特别是因为它是可并行化的。近年来,变压器架构彻底改变了NLP,导致了包括BLOOM,Jurassic-X和Turing-NLG在内的模型。它还已成功应用于各种不同的视觉任务,包括制作3D图像。
六个重要的自然语言处理 (NLP) 模型
多年来,许多NLP模型在AI社区中掀起了波澜,有些甚至成为主流新闻的头条新闻。其中最著名的是聊天机器人和语言模型。以下是其中的一些:
- Eliza 是在 1960 年代中期开发的,试图解决图灵测试;也就是说,欺骗人们认为他们正在与另一个人而不是机器交谈。Eliza使用了模式匹配和一系列规则,而不对语言的上下文进行编码。
- Tay是微软于2016年推出的聊天机器人。它应该像青少年一样发推文,并从Twitter上与真实用户的对话中学习。该机器人采用了在推特上发表性别歧视和种族主义评论的用户的短语,微软不久后将其停用。Tay说明了“随机鹦鹉”论文提出的一些观点,特别是不偏向数据的危险。
- BERT和他的布偶朋友:许多NLP的深度学习模型都是以布偶角色命名的,包括ELMo,BERT,Big BIRD,ERNIE,Kermit,Grover,RoBERTa和Rosita。 这些模型中的大多数都擅长提供上下文嵌入和增强的知识表示。
- 生成预训练转换器 3 (GPT-3) 是一个 1750 亿个参数模型,可以根据输入提示以与人类相当的流畅程度编写原创散文。该模型基于变压器架构。以前的版本GPT-2是开源的。微软从其开发人员OpenAI那里获得了访问GPT-3底层模型的独家许可,但其他用户可以通过应用程序编程接口(API)与之交互。包括EleutherAI和Meta在内的几个组织已经发布了GPT-3的开源解释。
- 对话应用程序的语言模型(LaMDA)是由Google开发的对话聊天机器人。LaMDA是一个基于转换器的模型,通过对话而不是通常的Web文本进行训练。该系统旨在为对话提供明智和具体的回应。谷歌开发者布莱克·勒莫因(Blake Lemoine)开始相信LaMDA是有知觉的。Lemoine与AI就他的权利和人格进行了详细的对话。在其中一次对话中,人工智能改变了Lemoine对Isaac Asimov机器人第三定律的看法。Lemoine声称LaMDA是有知觉的,但许多观察家和评论员对这一想法提出异议。随后,谷歌因分发专有信息而将Lemoine置于行政休假,并最终解雇了他。
- 专家混合(教育部):虽然大多数深度学习模型使用相同的参数集来处理每个输入,但 MoE 模型旨在基于高效的路由算法为不同的输入提供不同的参数,以实现更高的性能。开关变压器是旨在降低通信和计算成本的MoE方法的一个例子。
用于自然语言处理 (NLP) 的编程语言、库和框架
许多语言和库都支持 NLP。以下是一些最有用的方法。
- Python是处理NLP任务最常用的编程语言。大多数用于深度学习的库和框架都是为 Python 编写的。以下是一些从业者可能会发现有用的:
- 自然语言工具包(NLTK)是最早用Python编写的NLP库之一。它为语料库和词汇资源(如WordNet)提供了易于使用的界面。它还提供了一套用于分类、标记、词干提取、解析和语义推理的文本处理库。
- spaCy是最通用的开源NLP库之一。它支持超过 66 种语言。spaCy还提供预先训练的词向量,并实现许多流行的模型,如BERT。spaCy 可用于构建生产就绪系统,用于命名实体识别、词性标记、依赖关系解析、句子分割、文本分类、词形还原、形态分析、实体链接等。
- 深度学习库: 流行的深度学习库包括TensorFlow和PyTorch,这使得创建具有自动微分等功能的模型变得更加容易。这些库是开发 NLP 模型的最常见工具。
- Hugging Face 提供开源实现和超过 135 个最先进模型的权重。存储库可以轻松自定义和训练模型。
- Gensim提供向量空间建模和主题建模算法。
- R:许多早期的NLP模型都是用R编写的,R仍然被数据科学家和统计学家广泛使用。R for NLP 中的库包括 TidyText、Weka、Word2Vec、SpaCyR、TensorFlow 和 PyTorch。
- 许多其他语言,包括JavaScript,Java和Julia都有实现NLP方法的库。
围绕自然语言处理(NLP)的争议
NLP一直是许多争议的中心。有些直接集中在模型及其输出上,另一些则集中在二阶关注点上,例如谁可以访问这些系统,以及训练它们如何影响自然世界。
- 随机鹦鹉: 艾米丽·本德、蒂姆尼特·格布鲁、安吉丽娜·麦克米兰-梅杰和玛格丽特·米切尔在 2021 年发表的一篇题为“关于随机鹦鹉的危险:语言模型能太大吗?”的论文研究了语言模型如何重复和放大其训练数据中发现的偏见。作者指出,从网络上抓取的大量未经策划的数据集必然会包含社会偏见和其他不良信息,而对其进行训练的模型将吸收这些缺陷。他们主张在管理和记录数据集时更加小心,在开发之前评估模型的潜在影响,并鼓励研究方向,而不是设计更大的架构来摄取更大的数据集。
- 连贯性与感知性:最近,一位负责评估LaMDA语言模型的谷歌工程师对其聊天输出的质量印象深刻,他认为它是有感知的。将类人智能归因于人工智能的谬误可以追溯到一些最早的NLP实验。
- 环境影响:大型语言模型在训练和推理过程中都需要大量精力。一项研究估计,训练单个大型语言模型在其使用寿命内排放的二氧化碳是单个汽车的五倍。另一项研究发现,模型在推理过程中消耗的能量甚至比训练还要多。至于解决方案,研究人员建议使用位于拥有大量可再生能源的国家的云服务器作为抵消这种影响的一种方法。
- 高成本忽略了非企业研究人员: 训练或部署大型语言模型所需的计算要求对于许多小公司来说过于昂贵。一些专家担心,这可能会阻止许多有能力的工程师为人工智能创新做出贡献。
- 黑盒子:当深度学习模型呈现输出时,很难或不可能知道它为什么生成该特定结果。虽然逻辑回归等传统模型使工程师能够检查对单个特征输出的影响,但自然语言处理中的神经网络方法本质上是黑匣子。这样的系统被称为“无法解释”,因为我们无法解释它们是如何得出输出的。实现可解释性的有效方法在银行业等领域尤其重要,监管机构希望确认自然语言处理系统不会歧视某些人群,以及执法部门,其中根据历史数据训练的模型可能会使对某些群体的历史偏见永久化。
“高跷上的废话”:作家加里·马库斯(Gary Marcus)批评基于深度学习的NLP生成复杂的语言,误导用户相信自然语言算法理解他们在说什么,并错误地认为他们能够进行比目前更复杂的推理。
如何开始自然语言处理 (NLP)
如果您刚刚起步,许多优秀的课程可以提供帮助。
课程机器学习专业化一套基础的三门课程,向初学者介绍学习算法的基础知识。先决条件包括高中数学和基本的编程技能查看课程课程深度学习专业化一套中级五门课程,帮助学习者获得构建和部署神经网络的实践经验,神经网络是当今最先进的 NLP 和其他类型的 AI 模型的核心技术。查看课程课程自然语言处理专业化一套中级四门课程,为学习者提供最相关和广泛使用的NLP模型背后的理论和应用。查看课程
如果你想了解更多关于NLP的信息,试着阅读研究论文。通读介绍本文中描述的模型和技术的论文。大多数很容易在 arxiv.org 上找到。您还可以查看以下资源:
- The Batch:每周时事通讯,告诉您 AI 中的重要内容。这是跟上深度学习发展的最佳方式。
- NLP新闻:谷歌研究科学家塞巴斯蒂安·鲁德(Sebastian Ruder)的时事通讯专注于NLP的新内容。
- 带有代码的论文:机器学习研究、任务、基准和数据集的 Web 存储库。
我们强烈建议学习在 Python 中实现基本算法(线性和逻辑回归、朴素贝叶斯、决策树和香草神经网络)。下一步是采用开源实现并将其适应新的数据集或任务。
结论
NLP 是 AI 中快速增长的研究领域之一,其应用程序涉及翻译、摘要、文本生成和情感分析等任务。企业使用 NLP 来支持越来越多的应用程序,包括内部应用程序(如检测保险欺诈、确定客户情绪和优化飞机维护)和面向客户的应用程序(如谷歌翻译)。
有抱负的NLP从业者可以从熟悉基本的AI技能开始:执行基础数学,用Python编码,并使用决策树,朴素贝叶斯和逻辑回归等算法。在线课程可以帮助您建立基础。当您进入专业主题时,它们还可以提供帮助。专攻NLP需要神经网络,PyTorch和TensorFlow等框架以及各种数据预处理技术的工作知识。变压器架构自2017年推出以来彻底改变了该领域,是一种特别重要的架构。
NLP是一门令人兴奋和有益的学科,并有可能以许多积极的方式深刻影响世界。不幸的是,NLP也是几个争议的焦点,理解它们也是成为一个负责任的从业者的一部分。例如,研究人员发现,模型会鹦鹉学舌地模仿训练数据中发现的偏见语言,无论它们是反事实的、种族主义的还是仇恨的。此外,复杂的语言模型可用于生成虚假信息。一个更广泛的担忧是,训练大型模型会产生大量的温室气体排放。