当前位置: 主页>网站教程>html5教程> web文本数据清洗流程及实例（实例代码）

分享文章到：

web文本数据清洗流程及实例（实例代码）

发布时间：09/01 来源：未知浏览：关键词：

本篇文章给大家带来的内容是关于web文本数据清洗流程及实例（实例代码），有必然的参照价值，有需要的伴侣可以参照一下，但愿对你有所帮忙。

今天，超越80%的数据是非构造化的。文本数据预处置是数据剖析前的必经之路。大多数可用的文本数据本质上是高度非构造化和嘈杂的，需要更好的见解或创立更好的算法来处置数据。

我们知道，社交媒体数据是高度非构造化的，因其非正式的交流，存在包罗拼写错误、语法不好、俚语的使用、诸如URL、停用词、表达式等不必要内容。

一个典型的商业问题，假设你感乐趣的是：这是iPhone在粉丝中更受欢迎的特点。下面你已经提取了与iPhone相关的消耗者意见的一条推特：

下面临这条推特做文本预处置：

1、去除HTML 字符:

从Web获得的数据平常包括很多HTML实体，如lt；& gt；& &；它嵌入到原始数据中。因此，必需挣脱这些实体。一种办法是通过使用特定的正则表达式直接删除它们。另一种办法是使用恰当的包和模块（例如Python的HTMLPARSER），它可以将这些实体转换成标准的HTML标志。例如：& lt；转换为“<”，转换为“&”。

2、解码数据：

这是将信息从复杂符号转换为简便易懂字符的历程。文本数据大概会受到不一样情势的解码，如“拉丁语”、“UTF8”等。因此，为了更好地剖析，有必要保持完全的数据以标准的编码格局。UTF-8编码被广泛接受并引荐使用。

3、撇号查寻：为了不文本中的任何词义消歧，倡议在文章中保持恰当的构造，并遵照上下文无关文法的规则。当使用撇号时，消歧的时机增添。

For example “it’s is a contraction for it is or it has”.

所有撇号都应当转换成标准词典。可以使用所有大概的关键字的查寻表来消弭歧义。

4、停用词的去除：当数据剖析需要在字级上停止数据驱动时，应删除平常显现的单词（停用词）。通过创立的一个长长的休止词列表，或者可以使用预定义的说话特定的库。

5、删除标点符号：所有的标点符号应按照优先级来处置。例如：“，”，“，”，“？”“重要标点应当保存，而其他标点需要删除。

6、删除表达式：文本数据（平常是语音转录）大概包括人类的表达，如[笑]，[哭]，[不雅众暂停]。这些表达式平常与语音内容无关，因此需要删除。在这种状况下，简便正则表达式大概是有用的。

7、分裂的附加词：人在社交论坛中的生成文本数据，本质上是完全非正式的。大多数推文陪伴着多个附加词，例如RayyDay. PrimeCythOrth.等，这些实体可以用简便的规则和正则表达式分裂成它们的正常情势.

8、俚语查寻：一样，社交媒体包罗大多数俚语词汇。这些词应当转换成标准词来制作自在文本。像LUV这样的词将被转换成爱，Helo到Hello。撇号查寻的相似办法可以用来将俚语转换成标准词。网上有大量的信息源，它供给了所有大概的俚语的列表，可以用它们作为查寻字典来停止转换。

9、标准词：有时词的格局不准确。例如：“I looooveee you” 应为 “I love you”。简便的规则和正则表达式可以帮忙解决这些状况。

10、删除URL：应删除文本数据中的URL和超链接，如评论、评论和推文。

以上就是对web文本数据清洗流程及实例（实例代码）的全部介绍，假如您想理解更多有关HTML视频教程，请关注PHP中文网。

以上就是web文本数据清洗流程及实例（实例代码）的具体内容，更多请关注百分百源码网其它相关文章！

打赏

百分百源码网

感谢您的支持，我会继续努力的!

扫码支持

扫码打赏，你说多少就多少

支付宝

打开支付宝扫一扫，即可进行扫码打赏哦

百分百源码网建议打赏1～10元，土豪随意，感谢您的阅读！

上一篇：什么是伪类和伪元素？伪类和伪元素的区另外区别详解
下一篇：web前端没有项目经验怎么面试

相关文章

共有150人阅读，期待你的评论！发表评论

最新评论

本文标签

广告赞助

能出一分力是一分吧！

订阅获得更多模板

本文标签

广告赞助

订阅获得更多模板