网页质量评估办法

最近玩玩lucene搜索引擎,索引整改网页的内容,搜索出来的网页质量很差,想了想索引的时候只提取重要内容进行索引,搜索质量应该就会提高很多。还有一些速度比较慢的网页干脆就不索引了。于是想到了要如何评价一个网页质量。暂且想到以下内容,先记下来。

网页质量评估办法:

  1. 网页内容质量:

  2. 内容相关度:网页标题内容是否比较单一,标题涵盖内容太多则认为质量越差;网页内容是不是和标题相关;

  3. 关键内容页面比重:网页内容中和标题相关的内容占整个网页的比例,比例越高质量越高;

  4. 网页结构简单程度:网页不分左中右直接展示相关内容,则认为质量高;分左中右、上中下等多种结构的网页质量低;结构越复杂质量越低;

  5. 外部站点链接:外部站点链接越少质量越高;

  6. 网页加载速度: 速度越快,质量越高;

  7. 网页地址相对路径深度:相对路径深度越浅质量越高;

4.网页最近更新时间:最近更新时间越近质量越高(不适合动态网页);