GETAPIdocs
Войти
Создать аккаунт
GETAPI/Документация/Компьютерное зрение

Компьютерное зрение

Современные мультимодальные модели — GPT-4o, Claude Sonnet, Gemini 2.5 Pro — умеют анализировать изображения наравне с текстом. GETAPI поддерживает передачу изображений ссылкой и в виде base64.

Как это работает

В запросе можно передавать одновременно текст и изображения. Большинство моделей принимают одно или несколько изображений в одном пользовательском сообщении. Сервис передаёт их провайдеру без изменений; лимиты по размеру и формату совпадают с лимитами самого провайдера.

Передача через URL

curl https://api.getapi.ru/openai/v1/chat/completions \
  -H "Authorization: Bearer $GETAPI_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-4o",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "Что изображено на картинке?"},
        {"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}}
      ]
    }]
  }'

Передача base64

Если изображение хранится локально, закодируйте его в base64 и подставьте в data-URI:

curl https://api.getapi.ru/openai/v1/chat/completions \
  -H "Authorization: Bearer $GETAPI_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-4o-mini",
    "messages": [{
      "role": "user",
      "content": [
        {"type": "text", "text": "Извлеки таблицу в Markdown."},
        {"type": "image_url", "image_url": {"url": "data:image/png;base64,<BASE64_STRING>"}}
      ]
    }]
  }'

Разные провайдеры

ПровайдерФорматПодробнее
OpenAIimage_url в массиве contentopenai/vision
Anthropicimage с source.type = url/base64anthropic/vision
Googleinline_data или file_datagoogle/vision
i

Картинки тарифицируются по числу визуальных токенов, которое модель потратила на их обработку. Точные значения возвращаются в usage ответа и видны в журнале запросов в личном кабинете.

Назад
Начало работы
Далее
Баланс