百度搜索算法之网页质量

点击: 分类:百度算法

1.网站内容质量


1.1 飓风算法2.0——严厉打击恶劣采集行为


百度搜索于2017年7月4日发布飓风算法,严厉打击恶劣采集问题,并在2018年9月13日公布飓风算法升级为2.0版本。


飓风算法2.0主要打击以下四类恶劣采集行为:

1.存在大量从其他站点或公众号等内容生产方采集、搬运而来的内容,信息未经整合,排版混乱,文章可读性差,有明显采集痕迹,对用户无任何增益价值。

问题示例1:文章有明显采集痕迹 

图片


2.存在多段文章拼接的内容,文章逻辑性差,无法满足用户需求,阅读体验差。

问题示例2:文章内容拼接 

图片


3.站点内存在大量采集内容,网站自身的内容生产力极差。


4.站点内存在大量与本站主题无关的采集内容,领域专注度差,恶意获取流量。例如:科技网站采集大量娱乐八卦、社会新闻等情况。

问题示例3:学习类站点发布美食类内容 

图片


关于飓风算法的更多信息请参考: 


2018.9.20 【官方说法】飓风算法2.0解读 

2018.9.13 百度搜索将推出飓风算法2.0,严厉打击恶劣采集行为 

2017.7.4 百度推出飓风算法,严厉打击恶劣采集



1.2 飓风算法3.0——控制跨领域采集及站群问题

百度搜索在2019年8月对飓风算法进行升级,上线飓风算法3.0。

这次算法升级主要针对跨领域采集以及站群问题,将覆盖百度搜索下的PC站点、H5站点、智能小程序等内容。对于算法覆盖的站点/智能小程序,将会根据违规问题的恶劣程度,酌情限制搜索结果的展现。

以下详细说明飓风算法3.0的相关规则。

一. 跨领域采集: 

指站点/智能小程序为了获取更多流量,发布不属于站点/智能小程序领域范围的内容,通常这些内容采集自互联网,内容质量及相关性低、对搜索用户价值低。对于这样的行为搜索会判定该站点/智能小程序的领域专注度不足,会有不同程度的限制展现。

跨领域采集主要包括下面两类问题: 

第一类:主站或主页的内容/标题/关键词/摘要等信息显示该站有明确的领域或行业,但发布内容与该领域不相关,或相关性较低。 

问题示例:美食类智能小程序发布足球相关内容 

图片

第二类:站点/智能小程序没有明确的领域或行业,内容涉及多个领域或行业,领域模糊、领域专注度低。 

问题示例:智能小程序内容涉及多个领域 

图片

二. 站群问题: 

指批量构造多个站点/智能小程序,获取搜索流量的行为。站群中的站点/智能小程序大多质量低、资源稀缺性低、内容相似度高、甚至复用相同模板,难以满足搜索用户的需求。

问题示例:多个智能小程序复用同一模板,内容质量低、相似度高 

图片


关于飓风算法3.0的更多信息请参考: 

2019.8.8 飓风算法3.0即将上线,控制跨领域采集及站群问题 

2019.8.22 【官方说法】飓风算法3.0解读


1.3 细雨算法——针对B2B领域的受益行为


2018年6月,百度搜索发布细雨算法,针对B2B行业的网站受益问题进行规范和引导。


细雨算法主要针对以下问题:

1.页面标题作弊及误导,主要有下面四类:

(1)非公司官网,title中包含“官网”等字样,误导搜索用户认为是官网

问题示例4:

图片


(2)页面title中堆砌相近关键词;

问题示例5:

图片


(3)页面title中穿插火星文字或者特殊符号,影响正常阅读;

问题示例6:

图片


(4) 页面title中穿插受益方式。

问题示例7:

图片


2.页面正文内容中存在受益信息,主要包括以下三类问题:

(1)正文内容不完整,频繁穿插变形的受益方式。

具体是指:正文内容为无价值内容的拼接或者正文内容不完整,同时采用“英文字母”、“汉字谐音”、“特殊符合”、“全角符合”等方式代替联系方式,穿插在正文内容中。

举例:5992八⑧⑧⑧

举例:13800138000

问题示例8:

图片


(2)文章的配图图片中存在受益联系方式。

具体是指:图片中联系方式水印面积较大,严重损害浏览体验。

问题示例9: 

图片


(3)正文中商品或者服务信息内容为乱采集、拼接而成、排版混乱、用户从页面中无法获得商品或者服务信息。

问题示例10:

图片


关于细雨算法的更多信息请参考: 

2018.7.5 【官方说法】B2B领域细雨算法解读 

2018.6.28 百度搜索推出细雨算法 促进供求黄页类站点生态健康发展


1.4 细雨算法2.0——针对B2B领域违规低质内容

2019年11月,百度搜索发布细雨算法2.0,针对B2B行业的恶劣违规问题及低质内容。

细雨算法2.0主要针对以下问题:

一、恶劣违规内容:

1、页面内容恶劣采集。

如:拼接内容、纯采集内容、跨领域采集内容等。

问题示例:B2B领域小程序采集时事新闻


2、发布软文信息。

问题示例:利用小程序页面发布软文,页面标题是“垃圾车厂家哪家好“,内容是品牌软文,对用户产生误导

3、发布无法满足用户需求的空白页面,对用户完全无价值。

问题示例:该小程序页面为空白页面

4、商品信息有误。

如:商品详情、价格等与实际情况不符

问题示例:商品价格与实际情况不符


5、功能不可用。

如:交易、联系电话、查看详情等交互功能不可用等情况。

二、低质内容:

1、图片内容低质。

如:图片内容与文字描述不一致、图片嵌入电话号码、图片质量极低影响阅读体验等。

问题示例:图片中大量嵌入联系电话


2、页面内容低质。

如:页面中只有图片无有效信息,或信息提供不完善等情况。

问题示例:网站仅有图片作为展示,没有文字说明


关于细雨算法2.0的更多信息请参考:

2019.11.15 【官方说法】细雨算法2.0解读

2019.11.7 针对B2B领域低质内容,细雨算法即将升级


1.5 劲风算法——针对恶意构造聚合页问题

2020年2月,百度搜索发布劲风算法,针对恶意构造聚合页面内容来获取搜索排名的行为。

恶劣聚合页问题主要包括以下四种类型:

1、页面内容与站点本身所属领域不符,或站点无专注领域,多为采集拼凑内容。

问题示例1:站点内容领域分散

2、页面内容与标题及页面中标记的标签不符。

问题示例2:页面内容与标题不符

3、由网站搜索功能生成的静态搜索结果页。

问题示例3:静态搜索结果页

4、空短、无有效信息、失效的聚合页。

问题示例4:无有效信息的聚合页


关于劲风算法的更多信息请参考:

2020.3.5 【官方解读】劲风算法官方解读

2020.2.27 劲风算法即将上线


1.6 蓝天算法——严厉打击售卖软文、目录行为


2016年11月,百度搜索推出蓝天算法,持续打击新闻类站点售卖软文、目录的行为,还用户一片搜索蓝天。被“蓝天算法”所覆盖的站点将会被降低其在百度搜索系统中的评价。


问题示例11: 

图片


关于蓝天算法的更多信息请参考: 

2016.11.21 百度推出蓝天算法,严厉打击新闻类站点售卖目录



1.7 极光算法——倡导重视落地页时间规范


2018年5月底,百度搜索上线极光算法,旨在倡导资源方重视网站落地页时间规范。落地页时间因子是百度搜索判断网站收录、展示、排序结果的重要参考依据。


为了让用户获得更满意的搜索浏览体验,百度给予符合落地页时间因子要求且时效性较高的网页更多的收录、展现机会,同时减少不符合规定的网站的展现机会。


百度搜索落地页时间因子规范


一、前言


落地页时间因子是百度搜索判断网站收录、展示、排序结果的重要参考依据,百度搜索综合用户对落地页中关于时间因子的实际感受,发现目前PC端及移动端大量网站落地页存在页面时间标注不清、页面无时间等对用户浏览体验不友好行为。为了让搜索用户获得更满意的搜索浏览体验,我们将给予符合落地页时间因子要求、且时效性较高的网页更多的收录和展现机会,同时对不符合的网站减少展现机会。


为了让百度搜索的重要合作伙伴——优质站点免遭损失,百度搜索推出《百度搜索落地页时间因子规范》,开放对落地页时间因子的提取规范,满足搜索用户的浏览体验,同时避免站长造成损失,实现共赢。


二、时间因子提交格式:PC和移动端页面仅支持JSON-LD格式提交时间因子。




*可复制效果如下:

"pubDate": "2017-06-15T08:00:01",

"upDate": "2017-06-16T01:02:03",

"lrDate": "2017-06-17T09:10:11",


*注意:

1、此代码与熊掌号后台中页面改造所使用jsonld代码为同一套代码,如熊掌号页面改造中已注明时间,无需多次在页面中备注时间

2、若没有开通熊掌号,appid可选择“否


三、时间因子字段命名:


字段命名

字段说明

字段格式

Pubdate

内容发布时间

YYYY-MM-DDThh:mm:ss的日期时间(请注意日期与时间之前以“T”分隔)

Update

内容更新时间
1)如内容为首次创建,请填写与pubdate相同的时间;
2)如页面是问答、论坛类,请填写用户可看到的第一个回答对应的时间

lrDate

最新回复时间
1)如页面是问答、论坛类且有回复信息,请在此字段填写最新一条回复对应的时间


*要求:移动站要求同时提交熊掌号appid,提升时间因子可信度;PC端暂时不要求提交熊掌号appid。


四、页面提交时间因子规范:


根据不同的页面类型,用户需要参考的时间不同。以下根据不同的页面类型,建议优先提交不同的时间。


1、首页


包含主要网站首页(如新浪首页、网易首页)、分频道首页(如新浪体育频道)等。该类页面的特征是,具有多种内容,多种链接,内容更新较快,提供最新更新时间即可。


首页类型

页面样式举例

建议时间

网站首页

新浪首页网易首页企业官网
提供该列表所有内容中的最新更新时间(update)

分频道首页

新浪体育网易科技新浪NBA

 

2、列表页


该类页面与首页类似,也是具有多种内容,多个链接,页面整体更新较快,需要提供最新更新时间。专题页是一种特殊的列表页,一般是对同一事件的优质内容聚合页面,除更新时间外,专题页的发布时间也很重要。


列表页类型

页面样式举例

建议时间

小说/视频 封面页

斗破苍穹急诊科医生
提供该列表所有内容中的最新更新时间(update);
如果有发布时间,建议补充专题页发布时间(pubdate);
*更新时间(update)为必填时间

搜索/筛选结果页

58狗粮筛选京东s8筛选

贴吧/blog/直播等个人首页

直播个人首页吧首页

专题页

十九大专题


3、详情页


该类页面主要是内容型页面,包括文章详情页、视频播放页、小说章节内容详情页等,这类页面在发布后,大部分更新较少,用户主要关注发布时间。


问答、论坛等具有交互的详情页比较特殊,需要提供更多的内容,详见下表。


详情面类型

页面样式举例

建议时间

文章详情页

新闻文章菜谱介绍
优先提供内容的发布时间(pubdate)
如果内容有更新,需补充内容更新时间(update)
*发布时间(pubdate)为必填时间;时间精确到分钟级

视频播放页

急诊科医生

商品/产品/黄页/供求页

商品供求页

公司介绍页

公司介绍页面公司信息

问答详情页面

有问有答的详情页,如:百度知道知乎问答
提供问题发布时间(pubdate)
第一个用户可看到的回答时间(update)
最新回答时间(lrDate)
*三个时间都为必填时间

论坛详情页面

论坛帖子页,如,贴吧天涯
提供帖子发布时间(pubdate)
第一个用户可看到的回帖时间(update)
最新回帖时间(lrDate)
*三个时间都为必填时间


关于极光算法的更多信息请参考: 

2018.5.7 百度搜索落地页时间因子规范

2018.5.31 百度搜索上线极光算法 倡导重视落地页时间规范




本文版权归本站所有,未经允许,禁止转载本站内容。

相关内容

  1. 百度算法公布之后会打击所有触犯算法的网站吗
  2. 百度绿萝算法2.0及算法解读-针对软文发布及交易的算法
  3. 百度都上线了哪些算法
  4. 百度冰桶算法打击恶意广告
  5. 用户体验算法冰桶算法
  6. 百度闪电算法解读,网站速度及服务器稳定性对排名的影响
  7. 百度极光算法网站时间因子的重要性
  8. 飓风3.0同品牌多网站可能被打击
  9. 细雨算法打击低质量内容及恶劣采集
  10. 劲风算法打击题文不符及跨领域和恶劣聚合页面
  11. 百度直播公开课搜索算法全解读
  12. 百度搜索算法之友好的用户体验
  13. 百度搜索算法之排名的公平性,百度如何保证排名公平
  14. 百度搜索内容质量白皮书
  15. 百度搜索算法之网页质量
  16. 百度搜索算法之用户需求的满足
  17. 针对网站安全的搜索算法
  18. 落地页体验问题的搜索算法
  19. 石榴算法提升网页质量

上一篇: 百度搜索内容质量白皮书

下一篇: 百度搜索算法之用户需求的满足