にしし ふぁくとりー:西村文宏 個人サイト

No.3132 - 今日のひとことログ

更新

■LOG No.3132

にししふぁくとりーHOMEに掲載している「今日のひとこと」の過去ログ(掲載履歴)です。 RSS

No.3132 〔873文字〕 📖

クローラーがrobots.txtを頻繁に読んでくれるのは(設定値がすぐに反映されそうで)嬉しいのだが、bingbotはなぜ1日に70回もrobots.txtを読んでいるのか。googlebotは1日に4回だった。平均を取ったわけではなく、ある特定の1日のサーバログを見ただけだが。robots.txt以外の全ページを含めたアクセス回数では、bingbotは10,785回、googlebotは3,958回だったので、bingbotは全クロールの0.65%をrobots.txtの読み込みに使っており、googlebotだと0.1%である。bingbotのアクセス頻度が高すぎるので、とりあえずrobots.txtに「User-agent: Bingbot、Crawl-delay: 30」の記述を加えてみた。1日に70回も読んでいるなら、約20分以内には制限を反映してくれるものと期待しているのだが。これでアクセス頻度が落ちなかったら、プログラム側で(何回かに1回の割合で)HTTPステータスコード429を返すようフィルタを作る必要がありそうだ。Bing Webmaster Toolにはクロール時間帯を調整する機能はあるのだが、総数を抑制する機能はないっぽい。なお、googlebotはrobots.txtx内に「Crawl-delay」を書いても読まない(解釈しない)らしい。そういえばGoogle側のドキュメントには、クロール頻度を調整したければHTTPステータスコード429を返せばそのうちGoogle側が学習してアクセス頻度を落とすとか何とか書いてあったような気がする。429ではなかったかもしれない。なお、ここのサイト(www.nishishi.com)の話ではない。ここのサイトは無駄なアクセスが多くても困らない(サーバの負荷さえ高くならなければ問題ない)のでログを調べていない。外部のWebサービスのAPIを利用してページを生成しているサイトでは、無駄なアクセスが多すぎると困るので、Botのアクセス頻度を調整する必要があるのだ。
2020年12月
12345
6789101112
13141516171819
20212223242526
2728293031
2021年1月
12
3456789
10111213141516
17181920212223
24252627282930
31
2021年2月
123456
78910111213
14151617181920
21222324252627
28

Powered by てがろぐ Ver 4.5.2

--- 当サイト内を検索 ---