Webスクレイピング API
同期スクレイピング
scrape エンドポイントはブラウザセッションを実行し、JavaScript を実行して、1 回の同期リクエストでレンダリング済み HTML を返します。
POST
同期スクレイピング
はじめに
ベース URL
リクエスト例
レンダリングオプション
render オブジェクトは HTML 取得前のページ読み込み方法を制御します。すべてのフィールドは任意で、省略時はサーバーのデフォルト値が適用されます。
| フィールド | 型 | デフォルト | 説明 |
|---|---|---|---|
wait_until | String | domcontentloaded | ナビゲーション完了とみなすタイミング。高速な結果には domcontentloaded、初期 HTML 後に XHR/fetch でデータを読み込むページには networkidle。 |
timeout_ms | Integer | 60000 | ページ読み込みの最大待機時間(ミリ秒)。超過するとリクエストは失敗します。 |
post_load_wait_ms | Integer | 0 | wait_until 後、HTML 取得前の追加待機時間(ミリ秒)。アニメーション、lazy-load ウィジェット、networkidle 後のクライアント側レンダリングに有用。 |
ignore_https_errors | Boolean | false | true の場合、対象ページの TLS 証明書エラーを無視します。 |
リソースオプション
resources オブジェクトはスクレイピング中にブラウザが読み込むアセット種別を制御します。HTML のテキストと構造だけが必要な場合、重いリソースをブロックするとリクエストが高速化されます。
| 値 | ブロック対象 |
|---|---|
images | 画像(<img>、CSS 背景、画像として読み込まれる SVG アイコン) |
fonts | Web フォント |
media | 動画・音声ストリーム |
resources を省略した場合、デプロイメントでサーバー側デフォルトが設定されていない限り、リソース種別はブロックされません。
例 — 画像とフォントをスキップして高速化:
リクエストパラメータ
スクレイピング対象 URL。公開 HTTP または HTTPS URL である必要があります。localhost およびプライベート IP へのリクエストは SSRF 保護によりブロックされます。
固有の API キー。
複数のスクレイピングリクエスト間でブラウザ状態(Cookie、ローカルストレージ)を再利用するためのオプションのセッション ID。
ブラウザフィンガープリントプリセット。対応値:
desktop_en_us、desktop_ru_ru、mobile_en_us。ブラウザセッションのレンダリングオプション。
ナビゲーション完了とみなすタイミング。値:
domcontentloaded、networkidle。デフォルト: domcontentloaded。ページ読み込み待機の最大時間(ミリ秒)。デフォルト: 60000。
ページ読み込み後、コンテンツ取得前の追加待機時間(ミリ秒)。
true の場合、ターゲットページの TLS 証明書エラーを無視します。リソース読み込みの制御。
ブロックするリソースタイプ。対応値:
images、fonts、media。コンテンツ取得前に実行するブラウザアクションの順序付きリスト。各アクションは
type フィールドを持つオブジェクトです。アクションタイプ。対応値:
wait、wait_for、click、type、scroll。wait_for、click、type アクション用の CSS セレクタ。type アクションで入力するテキスト。scroll アクションのスクロール先(例: bottom)。wait アクションの待機時間(ミリ秒)。wait_for アクションのタイムアウト(ミリ秒)。ナビゲーション前に注入する Cookie。各 Cookie オブジェクトには
name と value が必要。オプション: domain、path。レスポンスパラメータ
API レスポンスは汎用的で軽量な JSON 形式で返されます。スクレイピングが正常に完了したかどうか。
レンダリング済みページ HTML。
最終 URL、HTTP ステータスコード、処理時間などのスクレイピングメタデータ。
ok が false の場合のエラー詳細。同期スクレイピング