您可通过构建一个完全可抓取的网站来利用您的内容赚取更多收入。为确保您的网站已做好充分准备,让我们能够顺利抓取内容,请考虑下列所有可能会影响抓取您网站的问题。
在 robots.txt 中向 Google 抓取工具授予访问权限
为确保我们可以抓取您的网站,请务必向 Google 抓取工具授予访问权限。
如果您修改了网站的 robots.txt
文件,使其禁止 Ad Manager 抓取工具将您的网页编入索引,那么我们将无法在这些网页上投放 Google 广告。请更新您的 robots.txt
文件,以授权我们的抓取工具访问您的网页。
从您的 robots.txt
文件中移除如下两行文字:
User-agent: Mediapartners-Google
Disallow: /
这样,我们的抓取工具就能将您网站的内容编入索引,并向您的网站投放 Google 广告了。
在我们的抓取工具再次尝试访问您的网站之前,您对您的 robots.txt 文件做出的任何更改可能都不会体现在我们的索引中。
让抓取工具可以访问需要登录才能访问的所有内容
如果您的网站包含需要登录才能访问的内容,请确保您已设置抓取工具登录信息。
如果您没有为我们的抓取工具提供登录信息,抓取工具可能会被重定向到登录页面,而这可能会导致您的网站被认定为“无内容”并因此而违反政策;另一种可能是,我们的抓取工具会收到 401(未获授权)或 407(需使用代理进行身份验证)错误,因而无法抓取内容。
“找不到网页”错误
如果发送给 Google 的网址指向网站上不存在(或不再存在)的网页,或者导致 404(“找不到网页”)错误,那么 Google 抓取工具将无法成功抓取任何内容。
替换网址
如果您替换广告代码中的网页网址,Google 抓取工具可能无法抓取请求广告的网页的内容,尤其是在被替换的网页网址格式错误的情况下。
一般来说,您在广告请求中发送给 Google 的网页网址应与您用于变现的网页的实际网址一致,才能确保 Google 依据正确的背景信息采取行动。
域名服务器问题
如果您的网域或子网域的域名服务器未将我们的抓取工具正确定向到您的内容,或者对请求的来源有任何限制,那么抓取工具可能无法找到您的内容。
损坏或重复的重定向
如果您的网站存在重定向,那么我们的抓取工具就有可能在重定向过程中遇到问题。例如,如果需要进行多次重定向但中间的重定向失败,或者 Cookie 等重要参数在重定向过程中丢失,都可能会降低抓取质量。
我们建议您:在包含广告代码的网页上尽量少使用重定向,并确保重定向实施正确。
网站托管方面的问题
有时,当 Google 抓取工具尝试访问网站内容时,网站的服务器却无法及时响应。发生这种情况可能是因为服务器出现故障、运行速度缓慢或请求数超载。
我们建议您确保自己的网站在可靠的服务器上托管或由可靠的服务提供商托管。
地理区域、网络或 IP 限制
有些网站可能会限制可访问其内容的地理区域或 IP 范围,或将内容放在受限的网络或 IP 范围(例如 127.0.0.1
)内。
如果这些限制导致 Google 抓取工具无法访问您的所有网页,请考虑解除这些限制或将您的内容设为可公开访问,以使您的网址可供抓取。
最新发布的内容
如果您发布了新网页,那么在您发出广告请求时 Google 抓取工具可能还未来得及抓取新网页的内容。例如,下列网站就会发布大量的新内容:新闻网站、包含用户生成内容的网站、包含庞大商品目录的网站、天气预报网站等。
通常情况下,在新网址上发出广告请求后,内容会在几分钟内被抓取。不过,在最初的几分钟内,由于您的内容尚未被抓取,您网站上的广告展示次数可能会较少。
使用网址参数或动态生成的网址路径的个性化网页
有些网站的网址中包含额外参数,用以表示当前登录的用户(例如包含 SessionID
参数)或可能唯一标识每次访问的其他信息。在这种情况下,即使内容相同,Google 抓取工具也可能会将该网址视为新网页。这可能会导致该网页上的第一个广告请求发出之后,经过几分钟时间该网页才会被抓取,同时还会增加抓取工具在服务器上的工作量。
如果网页上的内容没有变化,我们建议您从网址中移除这些参数,并以其他方式将这些信息发送至您的网络服务器。
采用比较简单的网址结构有助于您的网站被轻松抓取。
POST 数据
如果您的网站将 POST 数据与网址一起发送(例如,通过 POST 请求传递表单数据),那么您的网站可能会拒绝未随附 POST 数据的请求。请注意,由于 Google 抓取工具不会提供任何 POST 数据,因此这种设置可能会导致抓取工具无法访问您的网页。
如果网页内容取决于用户输入到表单中的数据,请考虑使用 GET 请求。