GETAPIdocs
Войти
Создать аккаунт
GETAPI/Документация/Распознавание речи

Распознавание речи

Whisper и новый gpt-4o-transcribe переводят аудио в текст. Поддерживается русский и ещё 50+ языков, разделение на сегменты с тайм-кодами и режим «перевода» в английский.

Транскрибация

curl https://api.getapi.ru/openai/v1/audio/transcriptions \
  -H "Authorization: Bearer $GETAPI_KEY" \
  -F model="whisper-1" \
  -F file=@call.mp3 \
  -F response_format="verbose_json" \
  -F language="ru"

Форматы ответа

  • json — только текст в поле text.
  • verbose_json — массив сегментов с start, end, токенами.
  • srt, vtt — готовые субтитры.
  • text — голый текст.

Перевод аудио

Эндпоинт /audio/translations возвращает английский перевод любой исходной речи. Полезно для саммари иностранных интервью.

Ограничения

  • Размер файла — до 25 МБ. Длинные записи режут через ffmpeg на сегменты по 5–10 минут.
  • Поддерживаемые форматы: mp3, mp4, m4a, wav, webm, flac, ogg.

Подсказка модели

Передавайте в prompt словарь специфичных терминов или имён собственных — точность вырастет:

curl https://api.getapi.ru/openai/v1/audio/transcriptions \
  -H "Authorization: Bearer $GETAPI_KEY" \
  -F model="gpt-4o-transcribe" \
  -F file=@call.mp3 \
  -F language="ru" \
  -F prompt="GETAPI, OpenAI, Anthropic, Кубернетис, Postgres, ClickHouse"
Назад
Генерация видео (Sora)
Далее
Синтез речи