Internet information object positioning method based on webpage structure semantic meaning
An Internet information and positioning method technology, applied in the field of Internet information object positioning, can solve the problems of restricting the in-depth research and wide application of semantic technology, lack of theoretical basis for the integrity of semantic structure, inconvenient semantic concept scope, etc. Effect
- Summary
- Abstract
- Description
- Claims
- Application Information
AI Technical Summary
Problems solved by technology
Method used
Image
Examples
Embodiment Construction
[0044]基于本发明方法的一个实用例子是互联网药品监测系统(如图4所示)。
[0045]一、计算实例
[0046]互联网药品监测系统涉及的结构语义熵的计算实例,其DOM子树如图3所示。可以看出图3中的叶子节点(文本节点)已经进行了语义匹配,被分配了不同的语义角色,节点4是一个典型的详细信息聚集区域,而节点3则是一个干扰信息列表。根据图中给出的语义角色,可以计算节点4的结构语义熵值:
[0047]
[0048]而列表节点3的结构语义熵为:
[0049]。
[0050]二、核心算法描述
[0051]1、算法1:语义匹配
[0052]输入:DOM树D,属性集合L
[0053]输出:匹配完毕的匹配信息列表M
[0054]步骤:
[0055]1)历遍DOM树D中的每个节点N,与属性集合L中定义的每个属性P进行匹配;
[0056]2)如果匹配,则把匹配信息Ip(属性名)添加到匹配信息列表M中,然后在节点N中查找属性值,如果找到,则把匹配信息Iv(属性值)也添加到M中,否则在节点N的下一个文本节点中查找属性值。
[0057]2、算法2:计算节点结构语义熵
[0058]输入:节点N
[0059]输出:节点N的结构语义熵H
[0060]步骤:
[0061]1)计算节点N中包含的每种语义角色出现的概率:
[0062]p(x i )=语义角色xi在N中出现的次数 / N下的所有文本节点个数;
[0063]2)利用以下公式计算节点N的结构语义熵H:
[0064]
[0065]其中p(xi)由第一步计算得到,n为节点N下包含的语义角色的数量,I(xi)=logb(1 / p(xi))指信息量,p(xi)越小,那么有某个元素被标记为第i种语义角色这个事件信息量就越大,b在信息论里一般取2。
[0066]3、算法3:选择属性聚集区域节点并过滤干扰项
[0067]输入:经过按节点结构语义熵计算结果排序的节点列表L、结构语义熵值阈值HT
[0068]输出:经过过滤的节点列表L
[0069]步骤:
[0070]1)给定结构语义熵值阈值HT,若节点N的结构语义熵值大于该阈值,则该节点可能成为属性聚集区域,否则,判定为非属性聚集区域,HT可根据情况进行调整;
[0071]2)把L中的所有节点标记为属性聚集区域节点;
[0072]3)历遍节点列表L中的节点Ni,如果节点Ni的结构语义熵值小于HT,则把节点Ni修改为非属性聚集区域节点;
[0073]4)历遍节...
PUM
Abstract
Description
Claims
Application Information
- R&D Engineer
- R&D Manager
- IP Professional
- Industry Leading Data Capabilities
- Powerful AI technology
- Patent DNA Extraction
Browse by: Latest US Patents, China's latest patents, Technical Efficacy Thesaurus, Application Domain, Technology Topic, Popular Technical Reports.
© 2024 PatSnap. All rights reserved.Legal|Privacy policy|Modern Slavery Act Transparency Statement|Sitemap|About US| Contact US: help@patsnap.com