Перейти до основного вмісту

Початок роботи

Синхронний скрейпінг

Ендпоінт scrape запускає сесію браузера та повертає відрендерений HTML в одному запиті — ідеально для інтеграцій з низькою затримкою.

Асинхронні завдання

Ендпоінти jobs ставлять скрейпінг у чергу та дозволяють опитувати статус і результати — ідеально для високого навантаження або повільних сторінок.

REST-архітектура

API веб-скрейпінгу дотримується принципів REST із передбачуваними URL, орієнтованими на ресурси, та стандартними HTTP-кодами стану для безперебійної інтеграції та обробки помилок.

Безпека HTTPS

Уся комунікація з API захищена TLS 1.2 або вище для забезпечення цілісності та конфіденційності даних.

Версії API

API веб-скрейпінгу підтримує зворотну сумісність через версіонування та наразі працює у Version 1.

Автентифікація

Ваш API-ключ — єдиний обліковий запис для доступу до API веб-скрейпінгу. Кожен сервіс Cleariflow потребує окремого ключа. Передавайте ключ у JSON-тілі як api_key.

Базовий URL

https://scrape.cleariflow.com

Рендеринг сторінок

Сторінки рендеряться в справжньому headless-браузері. JavaScript повністю виконується перед поверненням контенту. Вбудований SSRF-захист блокує запити до localhost та приватних IP-діапазонів.

Коди відповідей та помилок

У разі невдачі API повертає структуровані JSON-відповіді з конкретними кодами та описами для ефективного усунення несправностей.
КодТипДеталі
200OKУсе працювало як очікувалось.
202AcceptedАсинхронне завдання успішно поставлено в чергу.
400Bad requestНевірний запит — недійсний URL, заблокована ціль або некоректне тіло запиту.
401UnauthorizedЗапит не прийнято. Зазвичай через відсутній або невірний API-ключ.
422Quota reachedЗапит перервано через недостатньо API-кредитів. (Безкоштовні тарифи)
429Too many requestsДосягнуто ліміт запитів на секунду. На безкоштовних тарифах — 1 запит на секунду.
500Internal server errorЗапит не вдалося виконати через помилку на сервері.