日志文件分析器是一种 SEO 技术工具,可分析您的访问日志并提供有关 GoogleBot 如何抓取您网站的报告。访问日志由网络服务器保存,并保留网站上发生的来自机器人和人的所有活动的详细信息。此信息可帮助 SEO 跟踪技术问题并优化抓取预算。
手动分析日志文件很烦人。除非您在技术网站分析方面受过严格训练,否则这可能是一项艰巨的任务,会让您眼花缭乱、一头雾水。如果您想以最快的方式阅读访问日志并了解来自 Google 的机器人如何与您的网站互动,那么这款工具适合您。如果您与客户合作,您可以使用它来评估新客户的网站并建立技术路线图以重组和提高网站的可抓取性。
首先,确保您的日志文件未归档并且采用正确的 access.log 文件格式。然后,您只需将文件拖放到日志文件分析器页面上的表单中,即可将文件上传到该工具。请注意上传的最大文件大小为 1GB。正确的文件格式是“组合日志格式”,它使用以下结构:
% h % l % u % t \”% r \” %> s % b \”%{ Referer }i\” \”%{ User – agent }i\”
在哪里:
示例字符串:
66.249.64.222 – – [29/Jun/2018:13:43:07 +0100] “GET /samplepage.html HTTP/1.1” 200 2887 “-” “Mozilla/5.0(兼容;Googlebot/2.1;+http:/ /www.google.com/bot.html)”
日志文件分析器还支持以下日志文件格式:
上传所有文件后,单击“启动日志文件分析器”。在图表中,您将看到 Googlebot 的行为是如何随时间变化的。您可以使用表格上方的“所有 Google 机器人”过滤器进行过滤以仅显示桌面或移动机器人活动,并调整时间段。右侧的图表告诉您机器人与之交互的每种状态代码和文件类型的数量。
在下表中,您可以分析在时间范围内被机器人点击次数最多的所有路径。要更深入地查看此报告,您可以按状态代码、路径中的关键字或文件类型进行过滤。
使用此信息,您可以寻找响应状态的一致性以调查任何可用性问题。您还可以按内容类型调查机器人点击。这有助于您了解 Crawl Budget 的支出是否随时间发生变化。
文件类型过滤器包括:
如果您要处理多个网站,您可能需要分析来自不同来源的日志文件。如果是这种情况,您将必须删除所有以前上传的数据。为此,请使用屏幕右上角的“删除数据”按钮。
确认数据删除后,系统将带您回到初始屏幕,以便您上传新的日志文件。