Компьютерное зрение
Современные мультимодальные модели — GPT-4o, Claude Sonnet, Gemini 2.5 Pro — умеют анализировать изображения наравне с текстом. GETAPI поддерживает передачу изображений ссылкой и в виде base64.
Как это работает
В запросе можно передавать одновременно текст и изображения. Большинство моделей принимают одно или несколько изображений в одном пользовательском сообщении. Сервис передаёт их провайдеру без изменений; лимиты по размеру и формату совпадают с лимитами самого провайдера.
Передача через URL
curl https://api.getapi.ru/openai/v1/chat/completions \
-H "Authorization: Bearer $GETAPI_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-4o",
"messages": [{
"role": "user",
"content": [
{"type": "text", "text": "Что изображено на картинке?"},
{"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}}
]
}]
}'Передача base64
Если изображение хранится локально, закодируйте его в base64 и подставьте в data-URI:
curl https://api.getapi.ru/openai/v1/chat/completions \
-H "Authorization: Bearer $GETAPI_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-4o-mini",
"messages": [{
"role": "user",
"content": [
{"type": "text", "text": "Извлеки таблицу в Markdown."},
{"type": "image_url", "image_url": {"url": "data:image/png;base64,<BASE64_STRING>"}}
]
}]
}'Разные провайдеры
| Провайдер | Формат | Подробнее |
|---|---|---|
| OpenAI | image_url в массиве content | openai/vision |
| Anthropic | image с source.type = url/base64 | anthropic/vision |
inline_data или file_data | google/vision |
i
Картинки тарифицируются по числу визуальных токенов, которое модель потратила на их обработку. Точные значения возвращаются в usage ответа и видны в журнале запросов в личном кабинете.