摘要:即使目前通过SITE命令查询历史结果也显示这期间产生的页面依然没有被收录。11月底开始,大部分站点的历史收录量开始增加,期间百度可能存在调整。好消息是,从目前的收录查询数据来看,百度肯定也在积极的调整和改善。
从10月底到现在,很多站长都遇到了网站收录慢、收录少、甚至根本不收录的问题。 据百度站长平台官方反馈,收到的回复几乎都是相同的结果,让人感觉非常“无力”。
大家应该很熟悉这个百度官方的回复:
“您好,反馈页面已成功抓取,预计需要一周时间收录,请耐心等待,感谢您对百度的关注和支持!”
站长之家也一直在密切关注收录的事情。 同时,很多站长希望我们能聊聊百度没有收录的话题。
坦白讲,对于目前的百度收录问题,站长之家在咨询官方人员后并未得到明确答复,无法为站长朋友提供切实可行的解决方案。 不过,我们还是对当前的包容问题做了一些简单的数据分析和观察,与大家分享。
站长之家整理的数据来源需要强调和明确:
网站采集数据(最近60天)是根据百度网站命令查询得到的。 获取的采集数据与真实数据存在一定误差(百度官方提醒仅供参考)。
使用site命令并添加inurl命令来过滤一些数据。 尽量保证获取的数据值是查询日期生成的新页面,而不是旧页面的快照页面数据。
查询到的相关站点数据主要针对原始采集性能良好的子域或目录查询百度历史收录,不一定是整个站点采集数据。
由于site命令是查询站点的历史数据,因此查询到的日期对应的站点采集的数据并不是页面生成当天采集的数据。
查询站点不包括门户网站和平面媒体拥有的网站。 这主要是因为此类大型网站往往与百度有深度合作。 另外,它们比较权威,数据更新量大,即使被百度调整,也不太可能受到影响。 影响也能及时恢复,所以不计入。
根据以上数据查询方式和查询时间,我们得到了网站收录数据,该数据仅供趋势分析和窥探过去的参考,并不代表相关网站在百度的实际收录状况。
下面以站长之家的子站操作字段为例。 我们筛选了一些知名科技信息媒体和素材资源网站进行数据观察。
1、科技信息网站收录情况观察
根据部分知名科技媒体(cnbeta、IT之家、Donews、Techweb、快科技、36氪、微风网、鞭牛狮等)选取的数据可以看出,这些网站波动很大。 。
如上图所示,大部分站点近15天的历史采集量都不是特别大。 与网站每日更新量相比,普遍偏低。
当然,也有一些媒体网站的收录量并未受到太大影响。 虽然有所下降,但总体影响并不大。 以cnBeta为例(下图),近30天日均历史收录量基本稳定在150-200之间。(注:周末更新量较低,收录量相应减少,但也稳定在 60 到 100 之间)。
我们继续观察这些网站过去60天的日均历史收录状态,很明显,大多数网站收录状态都有一些共同的特征:
1、从10月25日到11月22日,很多网站的历史收录量下降到很低的水平,每天只有很少的条目收录。 虽然在查询旧数据时,百度SITE命令可能不准确,但不可否认的是,大多数站长都清晰地感觉到这段时间的收录量明显下降。
11月份,站长之家子网站生成的新页面数量也明显减少。 即使当前通过SITE命令查询历史结果,显示仍然不包括这段时间产生的页面。
2、11月23日起,大部分站点日均历史采集量明显增加,但尚未恢复正常。 这段时间,很多站长最深的感受就是采集量有限,采集时间比以前慢,有明显的滞后。 通常会有 1 到 2 周的收集延迟。
3、12月21日起,部分科技信息网站日均历史采集量明显增加,增幅较大。
我们以《驾驭中国》近60天日均历史收录情况为例。 从11月22日到12月17日,该网站的收录情况有所改善并开始增长。 内含物品数量从原来的几十件增加到了30件。关于条带。 截至 12 月 23 日,收录项目已超过 70 项,几乎翻了一番。
同样可以看到,TechWeb、donews等网站的收录量也从12月21日开始增加,并于23日达到近几天的峰值。 其中,Donews从几十家增加到300多家,TechWeb也从十几家增加到近200家。
但一些网站的收录状况并没有改善,始终维持在较低水平。
2、设计资源站采集观察
我们还观察了多个设计素材资源网站(钱网、我图网、洪动中国、泥图网、懒人画廊等),也发现近60天的日均历史收藏量大部分是一致的与技术信息网站。 有很大的相似之处。
1、10月25日至11月22日,日均历史收款量明显下降。
2、12月21日开始,部分资源站历史采集量明显增加,增幅较大。 从下图可以看出增幅,这里就不详细分析了。
3.观察总结
11月份历史采集数据显示,不少中小网站采集数据明显异常、减少或未收录。 原创性和更新量相对较高的网站也不能幸免。
从11月份到现在,许多原本索引良好的网站的索引时间出现了明显的滞后。 新生成的页面通常需要 1-2 周才能被索引。
从11月底开始,大部分网站的历史采集量开始增加,百度可能会在这期间做出调整。
12月21日之后,不少网站的采集量开始暴涨,并接近正常水平。 很可能是百度新一轮的调整改善了采集情况。
这里补充一下:异常采集期间,站长之家通过对部分网站的蜘蛛分析发现,百度蜘蛛对最新页面的抓取量明显下降,但对历史页面的抓取频率却没有出现明显下降。
尽管百度此前已明确表示将在年底对快排网站、聚合页面、垃圾内容进行打击,但我们的观察并不能直接得出近期异常采集与此有直接关系的结论。
好消息是,从目前收录的查询数据来看,百度肯定正在积极调整和改进。
2021年即将到来,随着新一波的改进,有些人已经站在了山顶,而另一些人还徘徊在山底。 他们只能拥抱在一起取暖。 2020年末的冬天查询百度历史收录,我们从来不“孤独”!