Распознавание речи
Whisper и новый gpt-4o-transcribe переводят аудио в текст. Поддерживается русский и ещё 50+ языков, разделение на сегменты с тайм-кодами и режим «перевода» в английский.
Транскрибация
curl https://api.getapi.ru/openai/v1/audio/transcriptions \ -H "Authorization: Bearer $GETAPI_KEY" \ -F model="whisper-1" \ -F file=@call.mp3 \ -F response_format="verbose_json" \ -F language="ru"
Форматы ответа
json— только текст в полеtext.verbose_json— массив сегментов сstart,end, токенами.srt,vtt— готовые субтитры.text— голый текст.
Перевод аудио
Эндпоинт /audio/translations возвращает английский перевод любой исходной речи. Полезно для саммари иностранных интервью.
Ограничения
- Размер файла — до 25 МБ. Длинные записи режут через ffmpeg на сегменты по 5–10 минут.
- Поддерживаемые форматы: mp3, mp4, m4a, wav, webm, flac, ogg.
Подсказка модели
Передавайте в prompt словарь специфичных терминов или имён собственных — точность вырастет:
curl https://api.getapi.ru/openai/v1/audio/transcriptions \ -H "Authorization: Bearer $GETAPI_KEY" \ -F model="gpt-4o-transcribe" \ -F file=@call.mp3 \ -F language="ru" \ -F prompt="GETAPI, OpenAI, Anthropic, Кубернетис, Postgres, ClickHouse"