オプション - スパイダー画面
この画面では、スパイダーのオプションを設定できます。
これらのオプションのほとんどを変更すると、実行中のスパイダーにも影響を与えることに注意してください。
クロールする最大階層
このパラメーターは、処理されるためにページが見つかる必要があるクロールプロセスにおける最大深度を定義します。 このレベルより深くで見つかったリソースは、スパイダーによってフェッチおよび解析されません。 値ゼロは無制限の深度を意味します。
深度はシードから開始して計算されます。したがって、スパイダーのスキャンが単一のURL (例: 手動で指定されたURL) のみで開始された場合、深度はそのURLから計算されます。 ただし、スキャンが複数のシード (例: 再帰と子ノードを持つサイトツリーノード) で開始された場合、定義された深度よりもいずれかのシードに対する相対深度が小さい場合にリソースが処理されます。
使用するスレッド数
スパイダーはマルチスレッドであり、これはクロールプロセスで使用されるワーカースレッドの最大数を定義する数値です。 このパラメーターを変更しても、進行中のクロールには影響しません。
最大実行時間
スパイダーが実行を許可される最大時間 (分単位) です。
ゼロ (既定値) は、スパイダーが可能なすべてのリンクを見つけるまで実行されることを意味します。
クロールする子ノードの最大数
このパラメーターは、ツリー内の各ノードでクロールされる子ノードの数を制限します。
これは、実際にはまったく同じコードであるが、データベースなどからの異なるデータを含む大量の「ページ」を持つデータ駆動型アプリケーションにとって有用です。
デフォルトではゼロに設定されており、これはクロールされる子ノードの数に制限が適用されないことを意味します。
最大解析サイズ
解析されるレスポンスが持つ可能性のある最大サイズをバイト単位で定義します。 これにより、スパイダーは大きなレスポンス/ファイルをスキップできます。 ゼロは無制限のサイズを意味します。
常にスコープ内のドメイン
スパイダーのスコープ内にあるドメイン、文字列リテラル、または正規表現を管理できます。 スパイダーの通常の動作は、スキャンが開始されたページと同じドメインで見つかったリソースへのリンクのみをたどることです。 ただし、このオプションを使用すると、クロールプロセス中に「スコープ内」と見なされる追加のドメインを定義できます。 これらのドメイン上のページは、スキャン中に処理されます。
クエリパラメーターの処理
クロール中に、スパイダーにはどのページがすでに訪問されたかをマークする内部メカニズムがあり、それらが再度処理されることはありません。 このチェックが行われる際、URIパラメーターの処理方法は、このオプションを使用して設定されます。 利用可能なオプションは3つあります:
- パラメーターを完全に無視する - www.example.org/?bar=456 が訪問された場合、www.example.org/?foo=123 は訪問されません。
- パラメーター名のみを考慮する (パラメーターの値を無視する) - www.example.org/?foo=123 が訪問された場合、www.example.org/?foo=456 は訪問されませんが、www.example.org/?bar=789 または www.example.org/?foo=456&bar=123 は訪問されます。
- パラメーター名と値の両方を考慮する - www.example.org/?123 が訪問された場合、異なるURI (例えば www.example.org/?foo=456 や www.example.org/?bar=abc を含む) はすべて訪問されます。
Referer ヘッダーを送信する
スパイダーのリクエストが「Referer」ヘッダーとともに送信されるかどうかを設定します。
Cookieを受け入れる
スパイダーによるスキャン中にCookieを受け入れるかどうかを設定します。 有効になっている場合、スパイダーはサーバーから受信したすべてのCookieを適切に処理し、それに応じて送り返します。
このオプションが無効になっている場合、スパイダーはリクエストにCookieを一切送信しません。 たとえば、これはスパイダーがスキャン全体を通して同じセッションを使用するかどうかを制御する場合があります。
Cookieを受け入れる場合、Cookieはスパイダーのスキャン間で共有されず、各スキャンは独自のCookieジャーを持ちます。
このオプションは優先度が低く、スパイダーはHTTPステータスに関連する他の (グローバルな) オプションを尊重します。 たとえば、ユーザーとしてスパイダーを実行する場合や、HTTPセッションがアクティブな場合など、グローバルHTTPステータスを使用するオプションが選択されている場合、このオプションは無視されます。
フォームを処理する
クロールプロセス中に、スパイダーがHTMLフォームに遭遇したときの動作がこのオプションによって定義されます。 無効になっている場合、HTMLフォームはまったく処理されません。 有効になっている場合、メソッドがHTTP GETとして定義されているHTMLフォームは、生成された値で送信されます。 メソッドがHTTP POSTとして定義されているフォームに遭遇したときの動作は、次のオプションで設定されます。
POSTフォーム
前の段落 (フォームの処理) で簡単に説明したように、このオプションは、フォームの処理が有効になっていて、POSTする必要があるHTMLフォームにスパイダーが遭遇したときの動作を設定します。
HTMLコメントを解析
このオプションは、リソースへのリンクを検索する際に、スパイダーがHTMLコメントも考慮するかどうかを定義します。 コメント化された有効なHTMLタグで見つかったリソースのみが処理されます。
'robots.txt'ファイルを解析
このオプションは、スパイダーがWebサイトで見つかった robots.txt ファイルもスパイダーし、リソースへのリンクを検索するかどうかを定義します。
このオプションは、スパイダーが robots.txt ファイルによって課されたルールに従うかどうかを定義するものではありません。
'sitemap.xml'ファイルを解析
このオプションは、スパイダーが sitemap.xml ファイルも考慮し、新しいリソースを特定しようとするかどうかを制御します。
SVNメタデータファイルを解析
このオプションは、スパイダーがSVNメタデータファイルも解析し、新しいリソースを特定しようとするかどうかを制御します。
Gitメタデータファイルを解析
このオプションは、スパイダーがGitメタデータファイルも解析し、新しいリソースを特定しようとするかどうかを制御します。
.DS_Storeファイルを解析
このオプションは、スパイダーが .DS_Store ファイルも解析し、新しいリソースを特定しようとするかどうかを制御します。
OData 固有のパラメータを処理
このオプションは、スパイダーがOData固有のパラメーター (すなわちリソース識別子) を検出し、それらを「クエリパラメーターの処理」オプションで定義されたルールに従って適切に処理しようとするかどうかを定義します。
ログアウト回避
スパイダーがログアウト関連のパス/機能を回避しようと試みるかどうかを設定します。既定値は false です。
無関係なパラメーター
見つかったURLまたは生成されたリクエストボディ (x-www-form-urlencoded) を正規化する際に、削除すべきパラメーターを管理できます。
以下の名前と一致するパラメーターは、自動的に無関係と見なされます:
- HTTPセッションオプションで定義されたセッション名
- Anti-CSRFトークンオプションで定義されたトークン名
関連情報