A General Crawler Design Method for News Websites Based on GRU Neural Network
A neural network and design method technology, applied in the computer field, can solve the problems of website custom crawler, real-time control, labor and time consumption, etc., and achieve the effect of reducing the length of the text and reducing the noise.
- Summary
- Abstract
- Description
- Claims
- Application Information
AI Technical Summary
Problems solved by technology
Method used
Image
Examples
Embodiment Construction
[0051]本发明提供了一种基于GRU神经网络的新闻网站通用爬虫设计方法,基于GRU神经网络算法针对不同样式HTML页面提取其正文,然后构建全站爬取爬虫,爬取网页内容并使用设计的神经网络提取正文。
[0052]本发明一种基于GRU神经网络的新闻网站通用爬虫设计方法,包括以下步骤:
[0053]S1、对HTML页面内容进行预处理,依次进行HTML数据预处理,构建目标数据并标记字符,构建字符字典,HTML内容转换为数字向量,最后填充batch;
[0054]HTML数据预处理具体为:
[0055]去除一些无意义或者可能有噪音的标签,如、等;去除所有标签的属性;去掉标签内的纯空格内容如"”。
[0056]构建目标数据并标记字符具体为:
[0057]构建与样本长度相同的字符串,根据爬取的对应正文内容,将HTML内容中,对应的正文内容字符位置的字符值设为"1”,其余字符设为"2”,这样将整个提取任务转化为对单个字符级的三分类任务(还有一类为后面的填充字符)。
[0058]构建字符字典具体为:
[0059]对训练集的字符构建字符级字典,每个字符的value从0开始依次递增。字符字典默认包含四个特殊符号"{~}”、"{^}”、"{$}”和"{#}”,分别代表填充符号、开始符号、结束符号和未知词符号;再将key-value对反转获得反转字符字典。
[0060]HTML内容转换为数字向量具体为:
[0061]将每条样本数据(即HTML内容)中的每个字符和特殊字符,根据字符字典,转化为一条数字向量。
[0062]填充batch具体为:
[0063]由于数据是以mini-batch形式喂入神经网络的,而每条数据的长度都不同,因此需要先获得该batch中最长数据的长度,然后使用填充符号"{~}”对该batch中长度小于最长长度的数据填充至最长长度,并将一个batch中的数据按照真实长度从大到下排列。
[0064]S2、建立GRU神经网络,使用Cross Entropy作为其损失函数,Embedding层使用预训练的字符向量;
[0065]请参阅图2,GRU神经网络单元具体为:
[0066]GRU神经网络是RNN的改进方案,RNN是一种用于处理序列数据的神经网络,它能够捕捉并记录序列内数据间的依赖关系,RNN是通过隐状态传递之前的信息的:
[0067]ht=g(Wxt+Uht-1+b)
[0068]其中,xt为在时间t...
PUM
Abstract
Description
Claims
Application Information
- R&D Engineer
- R&D Manager
- IP Professional
- Industry Leading Data Capabilities
- Powerful AI technology
- Patent DNA Extraction
Browse by: Latest US Patents, China's latest patents, Technical Efficacy Thesaurus, Application Domain, Technology Topic, Popular Technical Reports.
© 2024 PatSnap. All rights reserved.Legal|Privacy policy|Modern Slavery Act Transparency Statement|Sitemap|About US| Contact US: help@patsnap.com