GETAPI/Документация/Компьютерное зрение

Компьютерное зрение

Современные мультимодальные модели — GPT-4o, Claude Sonnet, Gemini 2.5 Pro — умеют анализировать изображения наравне с текстом. GETAPI поддерживает передачу изображений ссылкой и в виде base64.

Как это работает

В запросе можно передавать одновременно текст и изображения. Большинство моделей принимают одно или несколько изображений в одном пользовательском сообщении. Сервис передаёт их провайдеру без изменений; лимиты по размеру и формату совпадают с лимитами самого провайдера.

Передача через URL

curl https://api.getapi.ru/openai/v1/chat/completions \
  -H "Authorization: Bearer $GETAPI_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-4o",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "Что изображено на картинке?"},
        {"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}}
      ]
    }]
  }'

Передача base64

Если изображение хранится локально, закодируйте его в base64 и подставьте в data-URI:

curl https://api.getapi.ru/openai/v1/chat/completions \
  -H "Authorization: Bearer $GETAPI_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-4o-mini",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "Извлеки таблицу в Markdown."},
        {"type": "image_url", "image_url": {"url": "data:image/png;base64,<BASE64_STRING>"}}
      ]
    }]
  }'

Разные провайдеры

Провайдер	Формат	Подробнее
OpenAI	`image_url` в массиве content	openai/vision
Anthropic	`image` с `source.type` = url/base64	anthropic/vision
Google	`inline_data` или `file_data`	google/vision

Картинки тарифицируются по числу визуальных токенов, которое модель потратила на их обработку. Точные значения возвращаются в usage ответа и видны в журнале запросов в личном кабинете.

← Начало работы

Баланс →