松泉, 바라보기, 인생글, 좋은글, 취미생활

유용, GPT-SoVITS, 현시점 오픈소스 TTS 중 가장 자연스럽고 강력한 성능을 자랑하는 도구

Songchoen 송천 2026. 4. 14. 07:26
728x90
반응형

#유용, GPT-SoVITS,  현시점 오픈소스 TTS 중 가장 자연스럽고 강력한 성능을 자랑하는 도구 

 

 

https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/ko/README.md

 

GPT-SoVITS/docs/ko/README.md at main · RVC-Boss/GPT-SoVITS

1 min voice data can also be used to train a good TTS model! (few shot voice cloning) - RVC-Boss/GPT-SoVITS

github.com

 

 

https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v2%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)

 

GPT‐SoVITS‐v2‐features (新特性)

1 min voice data can also be used to train a good TTS model! (few shot voice cloning) - RVC-Boss/GPT-SoVITS

github.com

 

 

 

 

GPT-SoVITS는 현시점 오픈소스 TTS 중 가장 자연스럽고 강력한 성능을 자랑하는 도구 중 하나입니다. 특히 한국어 지원이 매우 훌륭하고, 단 1분 내외의 목소리 샘플만으로도 해당 인물의 목소리를 거의 완벽하게 복제할 수 있다는 게 큰 장점이죠.

현재 2026년 기준으로 V3 버전까지 출시되어 성능이 더욱 향상되었습니다. 설치 및 ComfyUI 활용 방법을 정리해 드릴게요.


1. GPT-SoVITS 설치 방법 (독립 실행형)

목소리를 직접 학습(Fine-tuning)시키거나 정교하게 뽑아내려면 독립적인 WebUI를 설치하는 것이 가장 좋습니다.

A. 간편 설치 (Windows용)

  1. GitHub 저장소(RVC-Boss/GPT-SoVITS)의 Release 페이지에서 7z 또는 zip 형태의 **통합 팩(Prezip)**을 다운로드합니다.
  2. 압축을 풀고 go-webui.bat 파일을 실행하면 브라우저에서 제어창이 열립니다.
    • 참고: 사용 중이신 RTX A4500은 VRAM이 20GB로 넉넉하므로, V3 모델 학습(약 14GB 필요)도 무리 없이 가능합니다.

B. 수동 설치 (Git 사용)

만약 Python 환경을 직접 관리하고 싶다면 다음 과정을 따릅니다.

Bash
 
git clone https://github.com/RVC-Boss/GPT-SoVITS.git
cd GPT-SoVITS
pip install -r requirements.txt
# FFmpeg가 설치되어 있어야 합니다.

2. ComfyUI에서 사용하기

질문하신 대로 ComfyUI에서도 당연히 사용 가능합니다. ComfyUI-GPT_SoVITS라는 커스텀 노드를 설치하면 됩니다.

설치 방법

  1. ComfyUI Manager를 실행합니다.
  2. Custom Nodes Manager에서 **"GPT_SoVITS"**를 검색하여 설치합니다. (AIFSH 제작 노드가 가장 유명합니다.)
  3. 설치 후 ComfyUI를 재시작하면 노드 목록에 추가됩니다.

활용 워크플로우

  • 입력: 텍스트(Prompt)와 참조용 음성(Reference Audio, 약 5~10초)을 넣습니다.
  • 출력: 생성된 음성이 Audio 출력 노드로 나옵니다.
  • 장점: 영상 제작을 자동화할 때, 자막 텍스트를 그대로 TTS 노드에 연결하고 생성된 오디오를 비디오 생성 노드와 합쳐 "원클릭 영상 제작" 파이프라인을 구축할 수 있습니다.

3. 효과적인 사용 팁 (학습 vs 제로샷)

  • 제로샷(Zero-shot): 학습 없이 5~10초 샘플만 넣고 바로 뽑는 방식입니다. 빠르지만 억양이 가끔 튈 수 있습니다.
  • 파인튜닝(Fine-tuning): 특정 목소리를 1~30분 정도 학습시켜 전용 모델(.pth)을 만드는 방식입니다. 유튜버처럼 고정된 캐릭터의 목소리가 필요하다면 이 방식을 추천합니다.
  • 한국어 설정: 설정에서 언어를 ko 또는 Auto로 맞추면 한국어 특유의 자연스러운 끊어 읽기가 적용됩니다.

💡 전문가의 한 마디

사용 중이신 RTX A4500128GB RAM은 로컬에서 고성능 TTS와 이미지/비디오 생성을 동시에 돌리기에 아주 훌륭한 환경입니다. ComfyUI에서 Video Combined 노드와 함께 연동하시면, 대본 입력부터 성우 녹음, 영상 합성까지 한 번에 끝내는 자동화 워크플로우를 완벽하게 구현하실 수 있을 거예요.

혹시 설치 중에 특정 에러(예: CUDA 관련 또는 FFmpeg 미인식)가 발생하면 바로 말씀해 주세요! 직접 해결해 드릴 수 있습니다.

반응형