はじめに
同期スクレイピング
scrape エンドポイントはブラウザセッションを実行し、1 回のリクエストでレンダリング済み HTML を返します — 低レイテンシの統合に最適です。非同期ジョブ
jobs エンドポイントはスクレイピングタスクをキューに入れ、ステータスと結果をポーリングできます — 大量処理や遅いページに最適です。REST アーキテクチャ
Web スクレイピング API は REST 原則に従い、予測可能なリソース指向 URL と標準 HTTP ステータスコードでシームレスな統合とエラー処理を実現します。HTTPS セキュリティ
すべての API 通信は TLS 1.2 以上で保護され、データの完全性とプライバシーを確保します。API バージョン
Web スクレイピング API はバージョン管理により後方互換性を維持し、現在 Version 1 で稼働しています。認証
API キーは Web スクレイピング API へのアクセスに必要な唯一の認証情報です。各 Cleariflow サービスには固有のキーが必要です。JSON ボディのapi_key にキーを含めて送信してください。
ベース URL
ページレンダリング
ページは実際のヘッドレスブラウザでレンダリングされます。コンテンツ返却前に JavaScript が完全に実行されます。組み込み SSRF 保護により localhost およびプライベート IP へのリクエストはブロックされます。レスポンスおよびエラーコード
リクエストが失敗した場合、API は構造化された JSON エラーレスポンスと特定のコード・説明を返し、効果的なトラブルシューティングを支援します。| コード | タイプ | 詳細 |
|---|---|---|
| 200 | OK | 期待どおりに処理されました。 |
| 202 | Accepted | 非同期ジョブが正常にキューに追加されました。 |
| 400 | Bad request | 不正なリクエスト — 無効な URL、ブロックされたターゲット、または不正なペイロード。 |
| 401 | Unauthorized | リクエストが受理されませんでした。通常は API キーの欠落または誤りが原因です。 |
| 422 | Quota reached | API クレジット不足のためリクエストが中止されました。(無料プラン) |
| 429 | Too many requests | 秒あたりのリクエスト上限に達しました。無料プランでは 1 秒あたり 1 リクエストに制限されます。 |
| 500 | Internal server error | サーバー側のエラーによりリクエストを完了できませんでした。 |