お問い合わせ窓口

TOPWebマーケティング用語集 > クローラー(スパイダー)

クローラー(スパイダー)

クローラーとは、世界中のありとあらゆるWeb上の文書や画像などのファイルを周期的に取得するプログラムです。

クローラーによって収集されたデータがインデックス化され、これにより巨大な検索データベースが作成されます

これは「スパイダー」、「ボット(Bot)」、「ロボット」などとも呼ばれます。

これは主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用されます。

近年では電子メールアドレス収集業者などもクローラーを利用して、スパムの送信効率を上げています

一般にクローラーは、既知のHTML文書の新しいコピーを要求し、文書中に含まれるリンクをたどり別の文書を収集するという動作を繰り返します。

新しい文書を見つけた場合はデータベースに登録します。また、既知のファイルが存在しないことを検出した場合はデータベースから削除します。

Googleが持つクローラーには用途に応じて複数のクローラーがあります。

例えば通常のWeb検索には「Googlebot」、画像検索には「Googlebot-Image」、モバイル検索には「Googlebot-Mobile」といったように、様々なクローラーが存在します。

全文検索型サーチエンジンでは、Webページの内容をサーチエンジン側のデータベースに保存しておき、検索要求があった時にはそのデータベースを検索して結果をはじき出しています。

検索ロボットはこのデータベースの内容を充実させたり点検したりするプログラムで、まだデータベースに収録されていないWebページや、更新されたWebページを発見しては内容を回収し、結果をデータベースに反映させています。

検索ロボットがページを探し出す手段や、検索の対象とするファイルの種類はさまざまです。

検索ロボットによってはテキストファイルやPDFファイル、ExcelやWordなどで作成した文書ファイルも回収していきます。

このため、適切なアクセス権の設定等を怠ったために企業の機密文書が検索可能になってしまったという事故も見られます。

検索ロボットに回収されたくないファイルを指定する手段として、HTMLファイル内に検索を拒否することを明記した metaタグを記入したり、Webサーバーの公開ディレクトリ最上層にロボットの挙動を指定するファイルを配置したりするという手法があります。

しかし、検索ロボットによってはこのような指定を無視してファイルを回収していくため、機密性の高いファイルはアクセス権を制限するなどの手段で守る必要があります