Mindlogic Logo
Docs

API

텍스트 음성 변환

요약

Gateway TTS API는 Google Gemini TTS 모델을 사용하여 텍스트를 자연스러운 음성 오디오로 변환합니다. 30가지 음성, 감정 표현을 위한 오디오 태그, 다화자 대화를 지원합니다. 응답은 직접 재생하거나 WAV 등 표준 오디오 포맷으로 변환할 수 있는 원시 PCM 오디오 데이터로 반환됩니다.
  • 공식 문서: Google 음성 생성 가이드
API지원 모델
gateway/audio/speechgemini-3.1-flash-tts-preview (권장)
gemini-2.5-flash-preview-tts

텍스트 음성 변환

POST
/v1/api/gateway/audio/speech
지정한 modelvoice를 사용하여 input 텍스트에서 음성 오디오를 생성합니다. 응답은 원시 PCM 오디오 바이트(24kHz, 16-bit, 모노)로 반환됩니다.
보다 자세한 사용법은 Google 음성 생성 가이드를 참고하세요.

요청 헤더

json

Authorization: Bearer {api-key}

파라미터

model
string
required
음성 생성에 사용할 TTS 모델의 이름입니다.
모델설명
gemini-3.1-flash-tts-preview오디오 태그를 지원하는 최신 모델. 권장.
gemini-2.5-flash-preview-tts이전 세대 TTS 모델.
input
string
required
음성으로 변환할 텍스트입니다. 최대 4,000자까지 지원합니다.
감정 표현을 위한 200개 이상의 오디오 태그를 지원합니다 (Gemini 3.1 전용). 예: [whispers], [shouting], [excited], [sighs], [laughs], [singing], [cheerful], [sad], [angry].
오디오 태그 사용 예시:
[cheerful] FactChat에 오신 것을 환영합니다! [excited] 오늘 보여드릴 놀라운 기능들이 있습니다.
voice
string
사용할 음성의 이름입니다. 기본값: "Aoede".
30가지 옵션은 아래 사용 가능한 음성 표를 참고하세요.
speakers
object
다화자 구성 객체로, 화자 이름을 음성 이름에 매핑합니다. 이 파라미터를 사용할 때는 input 텍스트를 각 줄에 화자이름: 대사 형식으로 작성합니다.
예시:

json

{
  "speakers": {
    "Joe": "Puck",
    "Jane": "Kore"
  },
  "input": "Joe: 안녕하세요! 오늘 어떠세요?\nJane: 좋아요, 물어봐 주셔서 감사합니다!"
}

사용 가능한 음성

음성성별
Zephyr여성밝은
Puck남성경쾌한
Charon남성정보 전달형
Kore여성단호한
Fenrir남성흥분된
Leda여성젊은
Orus남성단호한
Aoede여성산뜻한
Callirrhoe여성편안한
Autonoe여성밝은
Enceladus남성나직한
Iapetus남성맑은
Umbriel남성편안한
Algieba남성부드러운
Despina여성부드러운
Erinome여성맑은
Algenib남성거친
Rasalgethi남성정보 전달형
Laomedeia여성경쾌한
Achernar여성부드러운
Alnilam남성단호한
Schedar남성차분한
Gacrux여성성숙한
Pulcherrima여성적극적인
Achird남성친근한
Zubenelgenubi남성캐주얼한
Vindemiatrix여성온화한
Sadachbia남성활기찬
Sadaltager남성박식한
Sulafat여성따뜻한

오디오 태그 (Gemini 3.1 전용)

Gemini 3.1 Flash TTS는 생성된 음성의 표현력과 감정을 제어하는 200개 이상의 오디오 태그를 지원합니다. 입력 텍스트에 태그를 직접 삽입하여 모델의 발화 방식을 조절할 수 있습니다.
감정 태그: [cheerful], [sad], [angry], [excited], [surprised], [calm]
동작 태그: [whispers], [shouting], [sighs], [laughs], [singing], [gasps]
스타일 태그: [slowly], [quickly], [softly], [loudly]
오디오 태그는 gemini-3.1-flash-tts-preview 모델에서만 지원됩니다. gemini-2.5-flash-preview-tts 모델에서는 태그가 적용되지 않습니다.

다화자 (Multi-Speaker)

여러 화자의 음성을 생성하려면 speakers 파라미터를 사용하여 화자 이름을 음성에 매핑하고, input 텍스트를 각 줄에 화자이름: 대사 형식으로 작성합니다.

json

{
  "model": "gemini-3.1-flash-tts-preview",
  "speakers": {
    "면접관": "Charon",
    "게스트": "Leda"
  },
  "input": "면접관: 쇼에 오신 것을 환영합니다! 자기소개 부탁드립니다.\n게스트: 초대해 주셔서 감사합니다! 이 자리에 올 수 있어 기쁩니다."
}

응답

API는 다음 특성을 가진 원시 PCM 오디오 바이트를 반환합니다:
속성
Content-Typeaudio/pcm
샘플 레이트24,000 Hz
채널1 (모노)
비트 깊이16-bit
응답 헤더:
헤더설명
X-Input-Tokens소비된 입력 토큰 수
X-Output-Tokens소비된 출력 토큰 수
원시 PCM 데이터를 재생 가능한 WAV 파일로 변환하려면 위 파라미터로 표준 WAV 헤더를 추가하세요.

크레딧 비용

모델입력 비용출력 비용
gemini-3.1-flash-tts-preview10 크레딧 / 1만 토큰200 크레딧 / 1만 토큰
gemini-2.5-flash-preview-tts5 크레딧 / 1만 토큰100 크레딧 / 1만 토큰

마지막 수정 날짜: Apr 16, 2026