GETAPI/Документация/Синтез речи

Синтез речи

OpenAI TTS превращает текст в естественную речь на десятке голосов. Через GETAPI работает как обычный синхронный эндпоинт — ответом приходит аудиофайл в выбранном формате.

Запрос

curl https://api.getapi.ru/openai/v1/audio/speech \
  -H "Authorization: Bearer $GETAPI_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-4o-mini-tts",
    "voice": "nova",
    "input": "Здравствуйте! Это GETAPI — единый шлюз ко всем AI-моделям.",
    "response_format": "mp3"
  }' \
  --output hello.mp3

Голоса

alloy, echo — нейтральные универсальные.
onyx — глубокий мужской.
nova, shimmer — мягкие женские.
fable, sage, ash, verse, ballad, coral — характерные, для сторителлинга.

Форматы файла

mp3, opus, aac, flac, wav, pcm. PCM удобен для стриминга в реальном времени.

Инструкции стиля

В новых TTS-моделях можно передать поле instructions: «спокойно, шёпотом, с интонацией диктора» — и модель попытается это воспроизвести.

Тарификация TTS — по символам исходного текста, а не по итоговой длине аудио. Поэтому короткие промпты с большим перечислением могут стоить дешевле, чем кажется.

← Распознавание речи

Веб-поиск →