接上篇内容 继续聊聊SEO优化过程中的一些事情(问题猜测&方案)及优化前后的数据对比。
搜索引擎不收录内容?
自系统迭代上线后Google、Bing、Baidu等搜索引擎对社区的收录不太友好。索引数据慢慢消失… 随后开始进行优化处理。更多原因请参考上篇前后端分离的项目如何进行SEO优化(实践中)
系统架构介绍
流程
处理过程中的方案整理
1.0 根据搜索引擎的user—agent 进行Proxy
1.1 处理说明
使用njs进行服务端渲染 。( njs是nginScript的简称,是为了 NGINX 和 NGINX Plus 而开发的 JavaScript 实现,它被设计用于在服务器端处理请求。它通过融入 JavaScript 代码对 NGINX 的配置语法进行扩展,以便实现复杂的配置。)
1.2 处理后结果
结论:Google、Bing 收录量增加达到预期效果,Baidu 为0
图片留存:
Google:
Bing:
Baidu:
2.0 使用PHP框架进行服务端渲染
2.1 问题分析
仅针对详情页做服务端渲染,从首页进入的爬虫流量可能无法获取内链地址。
2.2 处理说明
使用PHP框架进行服务端渲染,根据baidu的user-agent 进行转发(此方式仅限baidu蜘蛛使用)。
2.3 处理结果
结论:观测两周后数据为0。
3.0 域名可能存在某些限制
3.1 问题猜测
内容可能被算法命中,之后域名被标注为非原创内容?对抓取频次进行了限制?
3.2 观测爬虫流量日志
1,Baidu蜘蛛请求量一天为1次。
2,Google、Bing 请求一直在。
日志截图不方便公开
3.3 处理结果
结论:束手无策呀。
4.0 更换域名搭建PHP版(不使用Proxy,浏览器可访问)
4.1 测试域名1 hub.halobug.cn (测试环境服务器)
观测一周时间后、无任何收录。(2022-03-20左右收录了几条)
4.2 测试域名2 event.halobug.cn (金山云+独立IP)
观测一周时间后、内容被收录。收录量增加中。
4.3 处理结果
结论:event.halobug.cn 被收录,hub.halobug.cn 未被收录。
5.0 猜测 PHP 框架后猜测首页内容过多,源代码展示过多
5.1 问题猜测
减少PHP框架的首页渲染内容,删除简介和查看详情,仅保留标题
5.2 优化前页面源码
5.3 优化后页面源码
5.4 处理结果
结论:处理后的hub.halobug.cn 未被收录。event.halobug.cn(保持不变)
6.0 2022-03-17 新增搜索引擎toutiao
6.1 问题分析
2020年10月之后无任何收录情况。
6.2 问题处理
新增头条收录,注册头条站长平台添加站点并认证官网(认证中),主动提交sitemap*2,调整抓取频次为100000次。
6.3 处理结果
结论:验证中,目前无新增收录,2022-03-18观测nginx 日志有zhanzhang.toutiao.com的来源。
7.0 更换域名后重新搭建社区,部署方案与线上一致。
7.1 问题处理
更换域名ai-code.halobug.cn、重新搭建社区,使用金山云。继续验证
7.2 更换域名 ai-code.halobug.cn 后在搜索引擎认证并提交资源。
Google,toutiao,Baidu均提交sitemap且已认证。
7.3 处理结果
结论:验证中。
更大胆的猜测就不写了(太累了),问题还在验证。
目前就hub.baai.ac.cn的站点(提交sitemap,API提交,js主动提交)、百度统计(看seo排名较好的站点都配置了)我也加上了、哈哈哈哈,但是这些方式对百度收录毫无作用。也请教了很多SEO的专家也提了很多建议(内链,交换友情链接,使用Nuxt.js,SSR等)收益颇多,让我也进一步了解了SEO方面的相关知识,十分感谢各位老师的支持。
也浏览了很多关于SEO优化的文章,例如修改(H标签,关键词,页面优化,独立IP部署,减少重定向,robots等),都测试过 无任何效果。
但是从目前百度爬虫的请求量来分析,请求量为1次的频率,再多的方案可能也是无效的。
提个问题:如何提高百度爬虫的抓取频次呢?