上篇内容 继续聊聊SEO优化过程中的一些事情(问题猜测&方案)及优化前后的数据对比。

搜索引擎不收录内容?

自系统迭代上线后Google、Bing、Baidu等搜索引擎对社区的收录不太友好。索引数据慢慢消失… 随后开始进行优化处理。更多原因请参考上篇前后端分离的项目如何进行SEO优化(实践中)

系统架构介绍

流程

center.jpg

处理过程中的方案整理

1.0 根据搜索引擎的user—agent 进行Proxy

1.1 处理说明
使用njs进行服务端渲染 。( njs是nginScript的简称,是为了 NGINX 和 NGINX Plus 而开发的 JavaScript 实现,它被设计用于在服务器端处理请求。它通过融入 JavaScript 代码对 NGINX 的配置语法进行扩展,以便实现复杂的配置。)
1.2 处理后结果
结论:Google、Bing 收录量增加达到预期效果,Baidu 为0

图片留存:

Google: center.jpg

Bing: center.jpg

Baidu: center.jpg


2.0 使用PHP框架进行服务端渲染

2.1 问题分析
仅针对详情页做服务端渲染,从首页进入的爬虫流量可能无法获取内链地址。
2.2 处理说明
使用PHP框架进行服务端渲染,根据baidu的user-agent 进行转发(此方式仅限baidu蜘蛛使用)。
2.3 处理结果
结论:观测两周后数据为0。

3.0 域名可能存在某些限制

3.1 问题猜测
内容可能被算法命中,之后域名被标注为非原创内容?对抓取频次进行了限制?
3.2 观测爬虫流量日志
1,Baidu蜘蛛请求量一天为1次。

2,Google、Bing 请求一直在。

日志截图不方便公开
3.3 处理结果

结论:束手无策呀。


4.0 更换域名搭建PHP版(不使用Proxy,浏览器可访问)

4.1 测试域名1 hub.halobug.cn (测试环境服务器)
观测一周时间后、无任何收录。(2022-03-20左右收录了几条)

center.jpg

4.2 测试域名2 event.halobug.cn (金山云+独立IP)
观测一周时间后、内容被收录。收录量增加中。

center.jpg

4.3 处理结果
结论:event.halobug.cn 被收录,hub.halobug.cn 未被收录。

5.0 猜测 PHP 框架后猜测首页内容过多,源代码展示过多

5.1 问题猜测
减少PHP框架的首页渲染内容,删除简介和查看详情,仅保留标题
5.2 优化前页面源码

center.jpg

5.3 优化后页面源码

center.jpg

5.4 处理结果
结论:处理后的hub.halobug.cn 未被收录。event.halobug.cn(保持不变)

6.0 2022-03-17 新增搜索引擎toutiao

6.1 问题分析
2020年10月之后无任何收录情况。
6.2 问题处理
新增头条收录,注册头条站长平台添加站点并认证官网(认证中),主动提交sitemap*2,调整抓取频次为100000次。
6.3 处理结果
结论:验证中,目前无新增收录,2022-03-18观测nginx 日志有zhanzhang.toutiao.com的来源。

7.0 更换域名后重新搭建社区,部署方案与线上一致。

7.1 问题处理
更换域名ai-code.halobug.cn、重新搭建社区,使用金山云。继续验证
7.2 更换域名 ai-code.halobug.cn 后在搜索引擎认证并提交资源。
Google,toutiao,Baidu均提交sitemap且已认证。
7.3 处理结果
结论:验证中。

更大胆的猜测就不写了(太累了),问题还在验证。

目前就hub.baai.ac.cn的站点(提交sitemap,API提交,js主动提交)、百度统计(看seo排名较好的站点都配置了)我也加上了、哈哈哈哈,但是这些方式对百度收录毫无作用。也请教了很多SEO的专家也提了很多建议(内链,交换友情链接,使用Nuxt.js,SSR等)收益颇多,让我也进一步了解了SEO方面的相关知识,十分感谢各位老师的支持。

也浏览了很多关于SEO优化的文章,例如修改(H标签,关键词,页面优化,独立IP部署,减少重定向,robots等),都测试过 无任何效果。

但是从目前百度爬虫的请求量来分析,请求量为1次的频率,再多的方案可能也是无效的。

提个问题:如何提高百度爬虫的抓取频次呢?