web文本数据清洗流程及实例 (实例代码)
今天,超越80%的数据是非构造化的。文本数据预处置是数据剖析前的必经之路。大多数可用的文本数据本质上是高度非构造化和嘈杂的,需要更好的见解或创立更好的算法来处置数据。
我们知道,社交媒体数据是高度非构造化的,因其非正式的交流,存在包罗拼写错误、语法不好、俚语的使用、诸如URL、停用词、表达式等不必要内容。
一个典型的商业问题,假设你感乐趣的是:这是iPhone在粉丝中更受欢迎的特点。下面你已经提取了与iPhone相关的消耗者意见的一条推特:
下面临这条推特做文本预处置:
1、去除HTML 字符:
从Web获得的数据平常包括很多HTML实体,如lt;& gt;& &;它嵌入到原始数据中。因此,必需挣脱这些实体。一种办法是通过使用特定的正则表达式直接删除它们。另一种办法是使用恰当的包和模块(例如Python的HTMLPARSER),它可以将这些实体转换成标准的HTML标志。例如:& lt;转换为“<”,转换为“&”。
2、解码数据:
这是将信息从复杂符号转换为简便易懂字符的历程。文本数据大概会受到不一样情势的解码,如“拉丁语”、“UTF8”等。因此,为了更好地剖析,有必要保持完全的数据以标准的编码格局。UTF-8编码被广泛接受并引荐使用。
3、撇号查寻:为了不文本中的任何词义消歧,倡议在文章中保持恰当的构造,并遵照上下文无关文法的规则。当使用撇号时,消歧的时机增添。
For example “it’s is a contraction for it is or it has”.
所有撇号都应当转换成标准词典。可以使用所有大概的关键字的查寻表来消弭歧义。
4、停用词的去除:当数据剖析需要在字级上停止数据驱动时,应删除平常显现的单词(停用词)。通过创立的一个长长的休止词列表,或者可以使用预定义的说话特定的库。
5、删除标点符号:所有的标点符号应按照优先级来处置。例如:“,”,“,”,“?”“重要标点应当保存,而其他标点需要删除。
6、删除表达式:文本数据(平常是语音转录)大概包括人类的表达,如[笑],[哭],[不雅众暂停]。这些表达式平常与语音内容无关,因此需要删除。在这种状况下,简便正则表达式大概是有用的。
7、分裂的附加词:人在社交论坛中的生成文本数据,本质上是完全非正式的。大多数推文陪伴着多个附加词,例如RayyDay. PrimeCythOrth.等,这些实体可以用简便的规则和正则表达式分裂成它们的正常情势.
8、俚语查寻:一样,社交媒体包罗大多数俚语词汇。这些词应当转换成标准词来制作自在文本。像LUV这样的词将被转换成爱,Helo到Hello。撇号查寻的相似办法可以用来将俚语转换成标准词。网上有大量的信息源,它供给了所有大概的俚语的列表,可以用它们作为查寻字典来停止转换。
9、标准词:有时词的格局不准确。例如:“I looooveee you” 应为 “I love you”。简便的规则和正则表达式可以帮忙解决这些状况。
10、删除URL:应删除文本数据中的URL和超链接,如评论、评论和推文。
以上就是对web文本数据清洗流程及实例 (实例代码)的全部介绍,假如您想理解更多有关HTML视频教程,请关注PHP中文网。
以上就是web文本数据清洗流程及实例 (实例代码)的具体内容,更多请关注百分百源码网其它相关文章!