GETAPI/Документация/Распознавание речи

Распознавание речи

Whisper и новый gpt-4o-transcribe переводят аудио в текст. Поддерживается русский и ещё 50+ языков, разделение на сегменты с тайм-кодами и режим «перевода» в английский.

Транскрибация

curl https://api.getapi.ru/openai/v1/audio/transcriptions \
  -H "Authorization: Bearer $GETAPI_KEY" \
  -F model="whisper-1" \
  -F file=@call.mp3 \
  -F response_format="verbose_json" \
  -F language="ru"

Форматы ответа

json — только текст в поле text.
verbose_json — массив сегментов с start, end, токенами.
srt, vtt — готовые субтитры.
text — голый текст.

Перевод аудио

Эндпоинт /audio/translations возвращает английский перевод любой исходной речи. Полезно для саммари иностранных интервью.

Ограничения

Размер файла — до 25 МБ. Длинные записи режут через ffmpeg на сегменты по 5–10 минут.
Поддерживаемые форматы: mp3, mp4, m4a, wav, webm, flac, ogg.

Подсказка модели

Передавайте в prompt словарь специфичных терминов или имён собственных — точность вырастет:

curl https://api.getapi.ru/openai/v1/audio/transcriptions \
  -H "Authorization: Bearer $GETAPI_KEY" \
  -F model="gpt-4o-transcribe" \
  -F file=@call.mp3 \
  -F language="ru" \
  -F prompt="GETAPI, OpenAI, Anthropic, Кубернетис, Postgres, ClickHouse"

← Генерация видео (Sora)

Синтез речи →