メインコンテンツへスキップ

はじめに

同期スクレイピング

scrape エンドポイントはブラウザセッションを実行し、1 回のリクエストでレンダリング済み HTML を返します — 低レイテンシの統合に最適です。

非同期ジョブ

jobs エンドポイントはスクレイピングタスクをキューに入れ、ステータスと結果をポーリングできます — 大量処理や遅いページに最適です。

REST アーキテクチャ

Web スクレイピング API は REST 原則に従い、予測可能なリソース指向 URL と標準 HTTP ステータスコードでシームレスな統合とエラー処理を実現します。

HTTPS セキュリティ

すべての API 通信は TLS 1.2 以上で保護され、データの完全性とプライバシーを確保します。

API バージョン

Web スクレイピング API はバージョン管理により後方互換性を維持し、現在 Version 1 で稼働しています。

認証

API キーは Web スクレイピング API へのアクセスに必要な唯一の認証情報です。各 Cleariflow サービスには固有のキーが必要です。JSON ボディの api_key にキーを含めて送信してください。

ベース URL

https://scrape.cleariflow.com

ページレンダリング

ページは実際のヘッドレスブラウザでレンダリングされます。コンテンツ返却前に JavaScript が完全に実行されます。組み込み SSRF 保護により localhost およびプライベート IP へのリクエストはブロックされます。

レスポンスおよびエラーコード

リクエストが失敗した場合、API は構造化された JSON エラーレスポンスと特定のコード・説明を返し、効果的なトラブルシューティングを支援します。
コードタイプ詳細
200OK期待どおりに処理されました。
202Accepted非同期ジョブが正常にキューに追加されました。
400Bad request不正なリクエスト — 無効な URL、ブロックされたターゲット、または不正なペイロード。
401Unauthorizedリクエストが受理されませんでした。通常は API キーの欠落または誤りが原因です。
422Quota reachedAPI クレジット不足のためリクエストが中止されました。(無料プラン)
429Too many requests秒あたりのリクエスト上限に達しました。無料プランでは 1 秒あたり 1 リクエストに制限されます。
500Internal server errorサーバー側のエラーによりリクエストを完了できませんでした。