爱美容
当前位置: 首页 美容百科

文本分类及使用(什么是文本分类)

时间:2023-07-03 作者: 小编 阅读量: 1 栏目名: 美容百科

什么是文本分类文本分类是将文本分为一个或多个不同类别的过程了解如何开发文本分类深度学习算法每天‬分享‬最新‬软件‬开发‬,Devops,敏捷‬,测试‬以及‬项目‬管理‬最新‬,最热门‬的‬文章‬,每天‬花‬3分钟‬。

文本分类是将文本分为一个或多个不同类别的过程。了解如何开发文本分类深度学习算法

每天‬分享‬最新‬软件‬开发‬,Devops,敏捷‬,测试‬以及‬项目‬管理‬最新‬,最热门‬的‬文章‬,每天‬花‬3分钟‬学习‬何乐而不为‬,希望‬大家‬点赞‬,评论,加‬关注‬,你的‬支持‬是我‬最大‬的‬动力‬。

什么是文本分类?

文本分类是将文本分类为一个或多个不同的类,以便组织、结构化和过滤到任何参数的过程。例如,文本分类用于法律文件、医学研究和文件,或者像产品评论一样简单。数据比以往任何时候都更加重要; 企业正在投入大量资金,试图提取尽可能多的见解。

由于文本/文档数据比其他数据类型更加丰富,因此利用它们的新方法势在必行。由于数据本质上是非结构化的并且极其丰富,因此以易于理解的方式组织数据可以极大地提高数据的价值。将文本分类与机器学习结合起来,可以更快、更经济地自动构建相关文本。

我们将定义文本分类,它是如何工作的,它的一些最知名的算法,并提供数据集,可能有助于开始您的文本分类之旅。

为什么使用机器学习文本分类?
  • Scale: 比例:手工数据输入、分析和组织都是乏味而缓慢的。机器学习允许自动分析,可以应用到数据集,无论大小
  • Consistency: 一致性:人为错误是由于疲劳和对数据集中的材料脱敏造成的。由于算法的无偏性和一致性,机器学习增加了可扩展性,并大大提高了准确性
  • Speed: 速度:有时可能需要快速访问和组织数据。机器学习算法可以通过解析数据来以易于理解的方式传递信息
从6个通用步骤开始

一些基本的方法可以在一定程度上对不同的文本文档进行分类,但最常用的方法是机器学习。文本分类模型在部署之前要经历六个基本步骤。

1. 提供高质量的数据集

数据集是作为数据源使用的原始数据块,用于为我们的模型提供动力。在文本分类的情况下,使用了监督式学习算法,从而为我们的机器学习模型提供了带标签的数据。标记数据是为我们的算法预定义的数据,并附加了一个信息标签。

2. 数据的过滤和处理

由于机器学习模型只能理解数值,所以为了正确识别数据,必须对所提供的文本进行标记化和字嵌入。

令牌化是将文本文档拆分为更小的部分的过程,称为令牌令牌,令牌可以表示为整个单词、子单词或单个字符。例如,对工作进行更聪明的标记可以这样做:

  • Token Word: Smarter
  • Token Subword: Smart-er
  • Token Character: S-m-a-r-t-e-r

标记化非常重要,因为文本分类模型只能处理基于标记的层次上的数据,不能理解和处理完整的句子。我们的模型需要对给定的原始数据集进行进一步的处理,以便轻松地消化给定的数据。删除不必要的特性,过滤掉空值和无限值,等等。改组整个数据集将有助于防止在训练阶段出现任何偏差。

3. 将数据集分解为训练和测试数据集

我们希望在80% 的数据集上训练出数据,同时保留20% 的数据集来测试算法的准确性。

4. 训练算法

通过使用训练数据集运行我们的模型,该算法可以通过识别隐藏的模式和洞察力将提供的文本分为不同的类别。

5. 测试和检验模型的性能

接下来,使用步骤3中提到的测试数据集来测试模型的完整性。测试数据集将未标记,以便根据实际结果测试模型的准确性。为了准确地测试模型,测试数据集必须包含新的测试用例(与以前的训练数据集不同的数据) ,以避免过度拟合我们的模型。

6. 调整模型

通过调整模型的不同超参数来调整机器学习模型,而不会过度拟合或产生较高的方差。超参数是一个参数,其值控制模型的学习过程。现在可以部署了!

文本分类是如何工作的?词汇嵌入

在前面提到的过滤过程中,机器和深度学习算法只能理解数值,迫使我们在数据集上执行一些字嵌入技术。词语嵌入是将词语表示为真值向量,从而对给定词语的意义进行编码的过程。

  • Word2Vec: Google 开发的一种无监督嵌入方法。它利用神经网络从大型文本数据集中学习。顾名思义,Word2Vec 方法将每个单词转换为给定的向量
  • GloVe: :也被称为全局向量,是一个非监督式学习模型,用于获取单词的向量表示。与 Word2Vec 方法类似,GloVe 算法将单词映射到有意义的空间,其中单词之间的距离与语义相似度相关
  • TF-IDF: TF-IDF 是术语频率反向文档频率的缩写,它是一种单词嵌入算法,用于评估单词在给定文档中的重要程度。TF-IDF 为每个单词分配一个给定的分数,以表明它在一组文档中的重要性
文本分类算法

下面是三种最著名、最有效的文本分类算法。请记住,在每个方法中都嵌入了进一步的定义算法。

1. 线性支持向量机

线性支持向量机算法被认为是最好的文本分类算法之一,它将给定的数据点与其给定的特征进行绘图,然后绘制一条最适合的线,将数据分成不同的类别。

Logit模型

Logit模型是回归的一个子类别,主要集中在分类问题上。它使用决策边界、回归和距离来评估和分类数据集。

3. Naive Bayes

Naive Bayes算法根据所提供的特征对不同的对象进行分类。然后绘制群体边界,对群体分类进行外推,进一步求解和分类。

建立文本分类时应避免什么过度挤迫的训练资料

向算法提供低质量的数据将导致对未来的预测很差。然而,在机器学习实践者中,一个非常普遍的问题是向训练模型输入过于详细的数据集,其中包括不必要的特征。过度拥挤的数据与不相关的数据可能会导致模型性能的下降。在选择和组织数据集时,少即是多。

测试数据比率的错误训练将极大地影响模型的性能,并影响洗牌和过滤。有了精确的数据点,不会因为其他不必要的因素而产生偏差,训练模型将能更有效地执行。

在训练模型时,选择一个符合模型要求的数据集,过滤不必要的值,重新组合数据集,并测试最终模型的准确性。更简单的算法需要更少的计算时间和资源; 最好的模型是能够解决复杂问题的最简单的模型。

Overfitting and Underfitting

当训练达到一个高峰时,模型的准确性随着训练的继续而逐渐降低。这被称为过度拟合; 由于训练持续时间过长,模型开始学习意想不到的模式。在训练集上实现高精度时要小心,因为主要目标是开发精度植根于测试集的模型(模型以前没有见过的数据)。

另一方面,不适合是当培训模式仍然有改进的空间,尚未达到其最大潜力。训练不足的模型源于训练的时间长度或对数据集的过度规范化。这说明了拥有简明而精确的数据的重要性。

在训练模特时找到最佳位置是至关重要的。分割数据集80/20是一个很好的开始,但是调优参数可能是您的特定模型需要执行的最佳操作。

文本格式不正确

虽然在本文中没有重点提到,但是对于文本分类问题使用正确的文本格式将导致更好的结果。表示文本数据的一些方法包括 GloVe、 Word2Vec 和嵌入模型。

使用正确的文本格式将改进模型读取和解释数据集的方式,并反过来帮助它理解模式。

文本分类应用程序
  • Filtering Spam: 过滤垃圾邮件:通过搜索特定的关键字,电子邮件可以分为有用的或垃圾邮件
  • Categorizing Text: 分类文字:通过使用文本分类,应用程序可以通过对相关文本(如项目名称、描述等)进行分类,将不同的项目(文章、书籍等)分为不同的类别。使用这些技术可以改善体验,因为它使用户更容易在整个数据库中导航
  • Identifying Hate Speech: 识别仇恨言论:某些社交媒体公司使用文本分类来检测和禁止带有攻击性语气的评论或帖子,因为它们不允许在多人儿童游戏中打出任何形式的脏话并进行聊天
  • Marketing and Advertising: 营销与广告:公司可以通过了解用户对某些产品的反应来做出特定的更改以满足客户的需求。它还可以根据用户对类似产品的评论推荐某些产品。文本分类算法可以与推荐系统结合使用,推荐系统是另一种深度学习算法,许多在线网站使用它来获得重复业务
流行文本分类数据集

随着大量的标签和现成的使用数据集,您总是可以搜索完美的数据集,以符合您的模型的要求。

虽然在决定使用哪个数据集时可能会遇到一些问题,但在接下来的部分中,我们将推荐一些最知名的数据集,供公众使用。

  • IMDB Dataset
  • Amazon Reviews Dataset
  • Yelp Reviews Dataset
  • SMS Spam Collection
  • Opin Rank Review Dataset
  • Twitter US Airline Sentiment Dataset
  • Hate Speech and Offensive Language Dataset
  • Clickbait Dataset

像 Kaggle 这样的网站包含了涵盖所有主题的各种数据集。尝试在上面提到的两个数据集上运行您的模型,以便进行实践

机器学习中的文本分类

随着机器学习在过去的十年里产生了巨大的影响,各公司都在尝试各种可能的方法来利用机器学习来实现过程的自动化。评论、评论、帖子、文章、期刊和文档在文本中都具有无价的价值。随着文本分类在许多创造性的方法中被用来提取用户的见解和模式,公司可以在数据的支持下做出决定; 专业人员可以比以往更快地获得和学习有价值的信息。

    推荐阅读
  • 怎么样让眼睛变大的最有效的方法(5种方法让你的眼睛变大)

    使用时先轻刷一层睫毛膏,趁睫毛膏尚未干掉时,将增长纤维的刷头转出,并将刷头上的白色细致纤维轻轻以滚动方式附着每根睫毛的尖端部位。再重复刷上黑头睫毛膏,电眼效果max。

  • 双减带给老师的挑战和机遇(双减之后教师面临的)

    7月24日,中共中央办公厅、国务院办公厅印发了《关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见》。面对教师陡然增加的负担,教育部相关负责人回应,将继续督促指导各地将教师减负工作同优化教师资源配置、深化教育教学改革等有机结合起来,健全教师减负长效机制,推动教师减负工作取得实效。“双减”政策明确提出,要构建教育良好生态,有效缓解家长焦虑情绪,促进学生全面发展、健康成长。

  • 我的世界橡胶甘蔗怎么杂交 我的世界粘性甘蔗种子

    杂交前需要合成作物架,用4个木棍合成,摆放成左右两列,合成2个作物架,由于杂交的几率比较低,所以需要准备多点作物架。拿着作物架在,每两个种了甘蔗的耕地的中间,放上两个作物架,作物架成十字交叉,代表此时在进行杂交。进行一段长时间的等待,等待甘蔗长大,等待杂交成功,注意杂交的地方很容易长杂草,如果长了杂草请尽快打掉,否则整个耕地都会蔓延杂草,需要重新杂交。

  • 娃哈哈新媒体营销策划(第13届娃哈哈营销策划大赛重磅来袭)

    为了丰富大学生的课余生活,引导和培养大学生创新精神和实践能力,4月23日18时30分,第十三届娃哈哈全国大学生营销策划大赛启动仪式于南宁职业技术学院大礼堂顺利举行。娃哈哈营销大赛为大学生提供了一个广阔的实践平台,推动教育与实践相结合,使同学们的创新意识得到激发。在此预祝娃哈哈营销策划大赛取得圆满成功,也祝本次参赛的团队都能够在比赛中取得佳绩!

  • 狮鹫怎么驯服(方舟生存进化手游狮鹫驯服技巧攻略)

    接下来我们就一起去研究一下吧!狮鹫怎么驯服方舟生存进化中狮鹫是高傲的守护兽,想要驯服狮鹫并不容易,必须获得狮鹫的尊重,这并不算容易的事,下面就来介绍一下怎么驯服狮鹫的方法吧。第一种方法:人物等级85级以上,并且不是可以获得全部尊重的!比如85级的,可能只能获取低等级狮鹫的尊重!

  • tabata间歇性训练的方法(什么是Tabata锻炼)

    各种研究得出结论,Tabata锻炼对健康有很多好处。有时您可能会达到最大强度,这可能会因肌肉松懈而导致受伤每周最多进行3-4次Tabata训练。Tabata锻炼以多种方式改善健康。此外,心脏病患者在开始Tabata锻炼之前还应听取医生的建议。在没有科学证据的情况下,对原始Tabata版本的修改可能弊大于利。人们可能会选择Tabata只是为了减肥,这不是它的实际用途。与传统HIIT相比,Tabata的强度水平更高,恢复时间更短。

  • s10和s9有什么区别(s10和s9有什么区别瑞思迈)

    vivoS9电池容量4000mAh,配置33W闪充。vivo官方宣布vivoS10系列于2021年7月15日正式发布,该手机代言人有Lisa、蔡徐坤、刘昊然。2021年7月15日,vivo召开了S10系列发布会,会上发布了新一代自拍旗舰vivoS10系列,其vivoS10系列依然采用了前置4400万像素AF双摄设计,仍然支持105度超广角,还有前置微缝式双柔光灯。

  • 专业版微博怎么设置(其实很简单)

    接下来我们就一起去了解一下吧!专业版微博怎么设置需要认证过才能成为专业版。专业版微博是为企业和机构定制的微博。新浪微博企业版是我们为企业、机构用户量身打造的服务平台。它具有更丰富的个性化页面展示功能设置,更精准的数据分析服务,以及更高效的沟通管理后台。我们期待新浪微博企业版能够帮助企业更便捷地与目标用户进行互动沟通,提升营销效果转化,挖掘更多商业机会。

  • 变速箱油到底多久换一次呢(变速箱油多久更换一次)

    如果需要更换变速箱油,查看用户的保养手册上如果有明确的更换周期,按照规定换油。如果变速箱油是终身免维护的,也一样要引起重视,终身免维护并不意味着变速箱油一直不用换。其实变速箱油不像机油那么黑,相比于机油甚至更为干净一点。所以车主千万不要忽略变速箱油,如果过长时间不更换,也会对变速箱造成一定的损伤,而且一些汽车的变速箱比发动机还要昂贵,修一次可能得要好几万元。

  • 恐惧症会遗传吗 幽闭恐惧症会遗传吗

    恐惧症是发病率非常高的一种心理疾病,而有许多患者并没有得到有效的治疗。导致恐惧症的因素恐惧症是各种因素的共同作用。恐惧症的典型症状是恐怖发作,并伴有强烈的生理反应。尽管患者知道这种恐惧是不合理的,但是没法控制。研究表明,在100名患者中40名患者可以彻底治疗,基本上没有什么后遗症。所以一定要及早治疗,效果好,造成的危害也小。