毕业设计指导网:毕业设计范文、毕业答辩指导,免费毕业设计、计算机毕业论文参考资料下载服务。

技术团队主要成员为国内著名高校计算机专业导师。诚实守信,优质服务,是我们的宗旨!
当前位置:毕业设计指导网毕业论文频道计算机毕业论文

可扩展的高效链接提取模型的实现和验证

论文出自毕业设计指导网www.bysj120.cn,需要购买整套毕业论文或找不到您要的毕业设计请联系客服索取

      因特网中不同网页通过超文本链接协议(HTTP, HyperText Transfer Protocol)互相链接的结构构成一个有向图,其中以每个网页为顶点,网页之间的链接关系为有向边。网页搜集系统从其中一个顶点出发在图中进行遍历,每到达一个新的顶点便会将对应网页的内容抓取下来,并通过链接提取模块找到其中包含的新链接并提供给网页搜集系统。网页搜集系统便可以沿新的有向边继续上述的遍历过程了。整个过程可以是完全自动化的(只要提供一个起始的顶点,网页搜集系统就可以通过不断获取新链接自动地在因特网中进行遍历),然后索引器将搜集到的资源信息进行索引并存入数据库以备今后查询使用。
      本文总结了设计链接提取模块所要求的“容错性”、“正确性”、“全面性”、“高效性”和“可扩展性”等五个目标,并从这些角度去分析传统的链接提取方法的不足,并作为改进,提出了一种新的设计思路。
本文将链接提取的过程划分为信息提取,信息加工,信息分析以及信息储存四个过程来进行研究。信息的获取通过HTML文法分析方法从文档中得到初始URI(Uniform Resource Indetifier)数据;信息加工阶段通过运用URI解析算法对初始数据进行精练;然后在信息分析过程中进一步地筛选与过滤;最后将结果存储在一个双链表结构中。
       基于上述方法,本文实现了一个新的链接提取模型,并将该模型运用于北京大学天网WWW搜索引擎;在获得足够的实验数据之后,全面的比较了这种新的链接提取模式与传统方法在各项指标上的优劣。结果表明该模型有明显的优势。
 

Tags:模型

在线客服

  • 咨询QQ:
  • 407894958
  • 点击和客服QQ在线沟通
  • 点击和客服QQ在线沟通
  • 成品购买:
  • 定制咨询:
  • 点击和客服QQ在线沟通
  • 点击和客服QQ在线沟通
  • 如临时会话消息无法接收 请先加客服QQ好友咨询
    微信客服

计算机毕业设计,免费毕业论文,优秀毕业设计论文下载


120毕业设计指导网
地址:徐州市西安路41号
收缩
  • 计算机毕业设计定做咨询