百分百源码网-让建站变得如此简单! 登录 注册 签到领金币!

主页 | 如何升级VIP | TAG标签

当前位置: 主页>网站教程>html5教程> web文本数据清洗流程及实例 (实例代码)
分享文章到:

web文本数据清洗流程及实例 (实例代码)

发布时间:09/01 来源:未知 浏览: 关键词:
本篇文章给大家带来的内容是关于web文本数据清洗流程及实例 (实例代码),有必然的参照 价值,有需要的伴侣可以参照 一下,但愿对你有所帮忙。

今天,超越80%的数据是非构造化的。文本数据预处置是数据剖析前的必经之路。大多数可用的文本数据本质上是高度非构造化和嘈杂的,需要更好的见解或创立更好的算法来处置数据。

我们知道,社交媒体数据是高度非构造化的,因其非正式的交流,存在包罗拼写错误、语法不好、俚语的使用、诸如URL、停用词、表达式等不必要内容。

一个典型的商业问题,假设你感乐趣的是:这是iPhone在粉丝中更受欢迎的特点。下面你已经提取了与iPhone相关的消耗者意见的一条推特:

下面临这条推特做文本预处置:

1、去除HTML 字符:

从Web获得的数据平常包括很多HTML实体,如lt;& gt;& &;它嵌入到原始数据中。因此,必需挣脱这些实体。一种办法是通过使用特定的正则表达式直接删除它们。另一种办法是使用恰当的包和模块(例如Python的HTMLPARSER),它可以将这些实体转换成标准的HTML标志。例如:& lt;转换为“<”,转换为“&”。

1.png

2、解码数据:

这是将信息从复杂符号转换为简便易懂字符的历程。文本数据大概会受到不一样情势的解码,如“拉丁语”、“UTF8”等。因此,为了更好地剖析,有必要保持完全的数据以标准的编码格局。UTF-8编码被广泛接受并引荐使用。

2.png

3、撇号查寻:为了不文本中的任何词义消歧,倡议在文章中保持恰当的构造,并遵照上下文无关文法的规则。当使用撇号时,消歧的时机增添。

For example “it’s is a contraction for it is or it has”.

所有撇号都应当转换成标准词典。可以使用所有大概的关键字的查寻表来消弭歧义。

3.png

4、停用词的去除:当数据剖析需要在字级上停止数据驱动时,应删除平常显现的单词(停用词)。通过创立的一个长长的休止词列表,或者可以使用预定义的说话特定的库。

5、删除标点符号:所有的标点符号应按照优先级来处置。例如:“,”,“,”,“?”“重要标点应当保存,而其他标点需要删除。

6、删除表达式:文本数据(平常是语音转录)大概包括人类的表达,如[笑],[哭],[不雅众暂停]。这些表达式平常与语音内容无关,因此需要删除。在这种状况下,简便正则表达式大概是有用的。

7、分裂的附加词:人在社交论坛中的生成文本数据,本质上是完全非正式的。大多数推文陪伴着多个附加词,例如RayyDay. PrimeCythOrth.等,这些实体可以用简便的规则和正则表达式分裂成它们的正常情势.

8、俚语查寻:一样,社交媒体包罗大多数俚语词汇。这些词应当转换成标准词来制作自在文本。像LUV这样的词将被转换成爱,Helo到Hello。撇号查寻的相似办法可以用来将俚语转换成标准词。网上有大量的信息源,它供给了所有大概的俚语的列表,可以用它们作为查寻字典来停止转换。

9、标准词:有时词的格局不准确。例如:“I looooveee you” 应为 “I love you”。简便的规则和正则表达式可以帮忙解决这些状况。

10、删除URL:应删除文本数据中的URL和超链接,如评论、评论和推文。

以上就是对web文本数据清洗流程及实例 (实例代码)的全部介绍,假如您想理解更多有关HTML视频教程,请关注PHP中文网。

以上就是web文本数据清洗流程及实例 (实例代码)的具体内容,更多请关注百分百源码网其它相关文章!

打赏

打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,你说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

百分百源码网 建议打赏1~10元,土豪随意,感谢您的阅读!

共有150人阅读,期待你的评论!发表评论
昵称: 网址: 验证码: 点击我更换图片
最新评论

本文标签

广告赞助

能出一分力是一分吧!

订阅获得更多模板

本文标签

广告赞助

订阅获得更多模板