スパイダー
スパイダーは、特定のサイト上の新しいリソース (URL) を自動的に発見するために使用されるツールです。 これは、スパイダーがどのように開始されるかによって決まる、シードと呼ばれる訪問するURLのリストから始まります。 次に、スパイダーはこれらのURLを訪問し、ページ内のハイパーリンクをすべて特定し、それらを訪問するURLのリストに追加します。このプロセスは、新しいリソースが見つかる限り再帰的に続行されます。
スパイダーは、スパイダー ダイアログを使用して設定および開始できます。
URLの処理中、スパイダーはリソースをフェッチするためのリクエストを行い、レスポンスを解析してハイパーリンクを特定します。 現在、レスポンスのタイプを処理する際には、以下の動作をします:
HTML
特定のタグを処理し、新しいリソースへのリンクを特定します:
- Base - 適切な処理
- A, Link, Area, Base - 'href' 属性
- Applet, Audio, Embed, Frame, IFrame, Input, Script, Img, Video - 'src' 属性
- Blockquote - 'cite' 属性
- Meta - 'http-equiv' の 'location', 'refresh', 'Content-Security-Policy'、'name' の 'msapplication-config'
- Applet - 'codebase', 'archive' 属性
- Img - 'longdesc', 'lowsrc', 'dynsrc', 'srcset' 属性
- Isindex - 'action' 属性
- Object - 'codebase', 'data' 属性
- Param - 'value' 属性
- Svg - 'image' および 'script' 要素の 'href' および 'xlink:href' 属性
- Table - 'background' 属性
- Video - 'poster' 属性
- Form - GET および POST メソッドの両方を持つフォームの適切な処理。 HTML 5.0 入力タイプを含め、フィールド値は有効に生成されます。ボタンの 'form', 'formaction', 'formmethod' 属性も尊重されます。
- Comments - オプション - スパイダー画面で指定されている場合、コメント内で見つかった有効なタグも解析されます。
- Import - 'implementation' 属性
- Inline string - 'p', 'title', 'li', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6', および 'blockquote' タグ
Robots.txt ファイル
オプション - スパイダー画面で設定されている場合、'Robots.txt' ファイルも解析し、指定されたルールを使用して新しいリソースを特定しようとします。 スパイダーは 'Robots.txt' ファイルで指定されたルールに従わないことに言及しておく必要があります。
sitemap.xml ファイル
オプション - スパイダー画面で設定されている場合、'sitemap.xml' ファイルも解析し、新しいリソースを特定しようとします。
SVN メタデータファイル
オプション - スパイダー画面で設定されている場合、スパイダーはSVNメタデータファイルも解析し、新しいリソースを特定しようとします。
Git メタデータファイル
オプション - スパイダー画面で設定されている場合、スパイダーはGitメタデータファイルも解析し、新しいリソースを特定しようとします。
.DS_Store ファイル
オプション - スパイダー画面で設定されている場合、スパイダーは .DS_Store ファイルも解析し、新しいリソースを特定しようとします。
OData Atom フォーマット
Atom フォーマットを使用したODataコンテンツが現在サポートされています。 含まれるすべてのリンク (相対または絶対) が処理されます。
SVG ファイル
SVG画像ファイルは、HREF属性を特定し、含まれるリンクを抽出/解決するために解析されます。
非HTML テキストレスポンス
テキストレスポンスは、URLパターンをスキャンしながら解析されます。
非テキストレスポンス
現在、スパイダーはこのタイプのリソースを処理しません。
その他の側面
- URLがすでに訪問されたかどうかを確認する際、パラメーターがどのように処理されるかに関する動作は、スパイダー オプション画面で設定できます。
- URLがすでに訪問されたかどうかを確認する際、無視される一般的なパラメーターがいくつかあります: jsessionid, phpsessid, aspsessionid, utm_*
- Cookieに関するスパイダーの動作は、スパイダーがどのように開始されるか、およびどのオプションが有効になっているかによって異なります。 詳細はスパイダー オプション画面を参照してください。
スパイダーはスパイダー オプション画面を使用して設定されます。
関連情報
公式ビデオ