摘要:其实百度不仅不支持收录SPA单页面应用,同时也不支持收录静态页面中的AJAX异步数据。根据相关资料显示,目前还不支持收录SPA单页面应用、以及异步数据的搜索引擎,恐怕也只有我们国内了,而我们国内搜索引擎市场流量又几乎全被百度获得。
相信对于有过个人网站建设、SEO优化、应用开发经验的人来说,让网站被百度收录一直都是一个玄学问题。之所以这么玄学百度不收录淘宝链接吗,是因为你的网站或应用能否被收录,从来就没有一个官方的说法,也没有任何衡量标准。大家只能不断猜测百度等国内搜索引擎到底想干什么。长期这样下去,很容易让人神经紧张,产生偏执。相反,国外搜索引擎对你的网站很友好,几乎都应该收录,用户也能实实在在的搜索到。事实上,百度不仅不支持SPA单页应用的收录,也不支持静态页面AJAX异步数据的收录。
当然,百度不收录你网站的理由千万个,网上关于这方面的文章太多了,这篇文章我只想说说为什么百度坚决不支持收录SPA单页应用和AJAX异步数据?这个时代,在网站开发领域,是前后端分离的,说得更具体一点,在前端开发领域,vuejs、reactjs等先进好用的高级框架大行其道,尤其是用它们开发SPA单页应用,配合各种第三方组件库,让前端开发变得更加优雅,将用户的浏览体验提升了好几个层次,可以说开辟了一个新时代。
然而,虽然近五六年来 Vue、React 等框架技术的应用在全球新开发的网站中占据主导地位,但百度却对其一贯视而不见。据相关资料显示,目前还没有哪个搜索引擎不支持 SPA 单页应用和异步数据的收录。这样的搜索引擎恐怕也只有我们国内有,而我们国内搜索引擎市场的流量几乎全部被百度拿走。
SPA单页应用集合技术区别
简单来说就是因为百度的技术没有创新,还和很多年前一样有网页爬虫能力,只能爬取用比较老的技术开发的静态网页内容,百度爬取使用现代框架开发的网站应用时,也只能爬取一片空白。这和单页应用的结构有关,以前使用jquery或者后端模板引擎开发的页面,在发送给前端浏览器之前就已经拼凑好了整个网页,浏览器只负责简单的展示以及后续的简单逻辑处理。而在前后端分离开发的今天,使用vue或者react框架之后,网页中未解析的内容会先由后端http服务器(比如nginx)发送给前端浏览器,然后浏览器再使用更复杂的js逻辑代码来解析并展示网站页面的所有内容,同时还伴随着通过互联网获取后台接口数据并异步显示在网页上。正是网站应用的这种逻辑上的创新,才使得百度能够爬取如此先进的网站。 当几乎什么都抓不到的时候,就意味着无论你的网页内容有多好,也不可能被百度收录。所以,百度不仅收录不了SPA应用,而且如果你的静态网页中有需要通过AJAX异步获取的数据,同样也不会被收录。比如很多网页里的评论区,就是异步获取数据的典型例子。
如何让 SPA 单页应用被百度收录
有政策就有对策。为了让现代网页能够更好的被百度收录,vue、react都有相应的SSR框架,比如nuxtjs、nextjs,但是对现有项目的改动太大;也有web预渲染插件,可以把一些需要收录的网页提前静态化,但是对于大量的网页来说不太合适;或者我们自己利用各种API来打造一个SSR前端组件,如果检测到是搜索引擎的spider访问,那么就把所有的网页在服务器上组装起来,最后发送给搜索引擎,如果不是spider访问,就把正常的单页应用内容返回给用户。但是其实不管怎么处理才能被百度收录,这都是不符合互联网潮流的做法,是一种妥协的方式,就看可怜的国内网站开发运营人员愿不愿意妥协了。
百度为什么不更新其索引技术
按照上面的说法,不管你的网站是SPA应用,还是你的静态页面中包含需要通过网络接口异步获取的AJAX数据,百度都收录不了,因为百度根本不支持异步加载内容的收录,它只能收录那些一开始就完全组装好的HTML静态页面。那么至少五六年过去了,为什么百度还没有更新自己的收录技术,至少跟上国际水平呢?不好意思,也许百度的考虑和我们这些普通的互联网从业者完全不一样:
1、现在每个互联网公司都在打造自己的流量,抖音、今日头条、微信小程序、公众号、微博等。百度如果只是做搜索引擎是没有未来的,它也在努力打造自己的圈子,比如百家号、百度小程序、百度APP等等,它不想收录太多其他渠道入口的内容,其他渠道入口也未必愿意让百度收录这些内容。比如微信公众号、今日头条、淘宝抖音等很多其他渠道的内容百度都不收录,它们也不愿意让百度收录,这就进一步削弱了百度的流量和地位。所以百度这几年一直在想着怎么赚钱,怎么打造自己的品牌阵营,让所有新闻资讯、热点、产品等都从自己的渠道展示出来,逐渐弱化其他网站内容在百度的展示,所以收录技术没有更新。 对于百度来说意义不大,还把搜索引擎打造成了自己的小圈子。
2、互联网内容监管越来越严格,现在网页越发先进,内容和数据都是异步加载的,越不容易监管和管控,网页一旦收录,如果动态加载一些不良内容,可能会造成负面影响,导致网站背锅,所以最好不要收录。这相当于和各大自媒体平台的机器审核、人工审核机制类似,甚至更严格。
3、现在除了一些大型网站,其他小网站的内容都不能说是完全正规的,甚至涉及到一些灰色黑色行业,所以对个人网站、新域名、生僻域名、没有注册等一系列问题非常不友好,基本不收录百度不收录淘宝链接吗,就算收录也不给权重,属于无效收录,现在想找个出路非常困难。所以可笑的不是百度,而是我们这些互联网工作者,想通过互联网技术获得存在感,找到一些附加值,却发现这个红利已经被掠夺殆尽了。