본문 바로가기
松泉, 바라보기, 인생글, 좋은글, 취미생활

뉴스, Seedance 3.0 — 1시간 이상 분량의 영화를 만드는 새로운 AI 비디오 생성기, Seedance 3.0 — NEW AI Video Generator Makes 1H+ Movies, by AI Mater Youtube

by Songchoen 송천 2026. 6. 7.
728x90
반응형

#뉴스, Seedance 3.0 — 1시간 이상 분량의 영화를 만드는 새로운 AI 비디오 생성기, Seedance 3.0 — NEW AI Video Generator Makes 1H+ Movies, by AI Mater Youtube

 

참고용, 의견입니다.

1시간짜리, 18분짜리 비디오가 한번에 만들어진다면...휴...

 

곧 그런 시대가 올것 같습니다.

 

 

 

 

🎬 1. 서론 및 배경 (00:07 ~ 01:56)

 

00:07 | 올해 초 디즈니가 바이트댄스(ByteDance)에 시정 요구서(Cease and Desist)를 보냈습니다. 400명의 현역 배우들이 의회에 보호를 요청하는 공개 서한에 서명한 가운데, 업계를 패닉에 빠뜨린 유출 정보가 공개되었습니다.

 

 

00:30 | 바로 씨댄스 3.0(SeeDance 3.0)에 대한 소문입니다. '내러티브 메모리 체인' 기술을 통해 18분짜리 영화를 한 번에 생성할 수 있으며, 현재 씨댄스 2.0 비용의 1/8 수준이라는 주장입니다. 구글의 Gemini Omni는 아직 준비 중인 것처럼 보입니다.

 

 

00:52 | 드라마 같은 소문을 걷어내고 팩트만 순서대로 정리해 보겠습니다. 2026년 2월 바이트댄스가 씨댄스 2.0을 출시했습니다. 직후 디즈니와 파라마운트 스카이댄스가 AI 비디오 출력물의 IP(지식재산권) 침해 우려로 시정 요구서를 보냈습니다. 400명의 배우가 노동 보호 서한에 서명했고, 두 명의 상원의원이 바이트댄스 CEO 량루보에게 모델 폐쇄를 요구하는 서한을 보냈습니다.

 

 

01:14 | 법적·정치적 문제를 떠나, 기존 거물들이 이토록 빠르게 반응했다는 것은 기술 측면에서 '진짜 무언가'가 일어나고 있음을 시그널링합니다. 바이트댄스는 1년도 채 되지 않아 씨댄스 1.0에서 2.0 미니(루머)까지 속도를 내고 있으며, 이는 기득권층을 두렵게 만들기에 충분합니다.

 

 

 

 

 

 

🛠️ 2. 씨댄스(SeeDance)의 기술적 강점 (01:56 ~ 03:03)

 

 

01:56 | 씨댄스는 약 1,500명의 연구원으로 구성된 바이트댄스의 'Seed 연구팀'이 제작했습니다. 수장은 과거 구글 펠로우이자 구글 딥마인드 부사장이었던 우용후이(Wu Yong Hui) 박사로, 구글에서 17년을 보낸 인물입니다. 이 랩이 구글, OpenAI와 경쟁할 수 있는 이유가 여기 있습니다.

 

 

 

02:19 | 기술적 차별점은 아키텍처에 있습니다. 씨댄스는 오디오와 비디오를 순차적이 아닌 병렬로 처리하는 듀얼 브랜치 확산 트랜스포머인 'MM DIT'를 사용합니다. 소라(Sora)나 초기 비오(VEO)가 영상을 먼저 만들고 오디오를 입히는 반면, 씨댄스는 처음부터 동시에 생성하므로 오디오 싱크가 훨씬 정확하고 싱글 패스로 작동하여 비용이 저렴합니다.

 

 

 

 

 

 

📊 3. 현재 AI 비디오 모델 시장 판도 (03:03 ~ 03:54)

 

 

03:03 | 유출이 아닌 검증된 데이터(Artificial Analysis 비디오 아레나) 기준, 씨댄스 2.0은 '오디오 포함 텍스트-비디오(T2V)' 부문 1위(Elo 1,214점), '오디오 포함 이미지-비디오(I2V)' 부문 1위(1,194점)입니다. 미국 툴들이 이를 직접 노출하지 않아 덜 알려졌을 뿐입니다.

 

 

03:34 | 단, 오디오가 없는 벤치마크에서는 알리바바 ATH 팀의 해피 호스 1.0(Happy Horse 1.0)이 1위입니다. (T2V 1,293점 / I2V 1,294점). 이 팀은 콰이쇼우에서 클링(Kling) 개발을 이끌었던 장디(Jiang Di)가 이끌고 있습니다. 즉, 현재 탑 2 비디오 모델은 모두 중국 랩이며, 소라(Sora)가 아닙니다. OpenAI의 소라 앱은 4월 26일에 셧다운되었고, API는 9월 24일에 일몰(sunset)됩니다.

 

 

 

 

 

 

🔍 4. 씨댄스 3.0 유출 정보 검증 (03:54 ~ 09:14)

💡 출처 분석: 이 루머는 2026년 2월 14일 중국의 @MokouCN(일부 정보에 따르면 류장 박사)이라는 계정의 단 하나의 포스트에서 시작되었습니다. 그러나 그는 씨댄스 논문 저자 명단에 없으며 바이트댄스 소속이 확인되지 않았습니다. 따라서 검증 프레임워크(유력함/가능성 있음/미검증)를 적용해 평가합니다.

 

 

 

04:42 | [가능성 있음] 1단어(싱글 템플릿) 프롬프트로 18분 생성: 바이트댄스의 장기 일관성(Long-form coherence) 연구 방향 및 듀얼 브랜치 아키텍처와 일치하므로 기술적 경로는 타당합니다.

 

 

05:32 | [가능성 있음] 내러티브 메모리 체인 (Narrative Memory Chain): 1분 때와 15분 때의 캐릭터, 조명, 배경 일관성을 유지하는 기능입니다. 명칭은 유출본에서 나왔지만, 바이트댄스가 MM DIT의 시간적 일관성(Temporal coherence)을 연구해 온 흐름과 일치합니다.

 

 

06:22 | [유력함(Credible)] MM DIT V2 아키텍처 업그레이드: 기술적으로 가장 지루한 주장이지만, 그만큼 가장 사실일 가능성이 높습니다. 주기적인 아키텍처 개선은 당연한 수순입니다.

 

 

 

06:46 | [가능성 있음] 씨댄스 2.0 대비 1/8 비용 절감: <데드풀과 울버린>의 작가 렛 리즈가 이 소식에 "우리(할리우드)는 끝난 것 같다"며 패닉에 빠졌습니다. 현재 씨댄스 2.0은 초당 약 14센트(화산엔진 기준)이며 서드파티는 5~20센트 수준입니다. 새 아키텍처로 8배 더 저렴해질 가능성은 있으나 아직 바이트댄스의 공식 확인은 없습니다.

 

 

 

07:32 | [가능성 있음] 네이티브 멀티샷 연출 및 실시간 프리뷰: 장면을 설명하면 모델이 스스로 샷 구조를 짜는 '무비 에이전트 레이어'입니다. 바이트댄스가 관련 특허를 출원한 바 있습니다. 해상도를 낮춘 실시간 프리뷰 역시 표준적인 추론 최적화 방식입니다.

 

 

07:50 | [미검증] 6월 출시일 루머: 바이트댄스는 현재 규제 준수 상황(3월 글로벌 출시 일시 중단, 4월 C2PA 워터마크 및 얼굴 인증 게이트 도입 후 재개) 중간에 있습니다. 미국 시장은 여전히 직접 출시에서 제외된 상태이므로, 신뢰도가 낮습니다. 6월은 2.1 및 2.0 미니 출시가 더 유력합니다.

 

 

 

08:34 | [미검증] 네이티브 4K 출력 및 할리우드급 퀄리티: 경쟁사 콰이쇼우의 클링 3.0이 4K 60FPS를 출시한 것은 맞지만, 씨댄스 3.0이 이를 뛰어넘는 할리우드 급이라는 주장은 오직 루머 소스 하나뿐입니다. 더 버지(The Verge)는 2.0 결과물을 여전히 프로덕션 대비 '슬롭(Slop, 조잡한 결과물)'이라 불렀습니다. 영상이 실제로 나올 때까지 기다려야 합니다.

 

 

 

 

 

 

📈 5. 모델별 가격 및 자사 서비스 홍보 (09:14 ~ 11:31)

 

 

09:14 | 리더보드는 실시간으로 변합니다. 씨댄스 2.0이 오디오 페어 부문 최고이며, 해피호스가 노오디오 최고, 클링 3.0이 4K 부문에서 강세입니다. 구글의 Gemini Omni Flash는 아직 리더보드에 없으며 가벼운 편집과 유튜브 쇼츠 배포에 집중하고 있습니다. 소라는 레이스에서 밀려났습니다.

 

 

 

10:24 | 가격의 경우 씨댄스 2.0은 초당 14센트, 서드파티는 5~20센트입니다. 해피호스와 클링도 비슷합니다. 구글 비오(VEO)는 상업용 티어의 경우 더 비쌉니다.

 

 

 

10:45 | 저희가 워크플로우를 위해 직접 만든 'AI Master Studio (aimaster.me)'를 소개합니다. 하나의 인터페이스에서 씨댄스 2.0, 비오, 클링 3.0을 워터마크 없이 교차 테스트할 수 있습니다. 씨댄스 3.0이 출시되면 며칠 내로 이곳에 연동할 예정입니다. 대기열 없이 즉시 사용 가능합니다.

 

 

 

 

 

 

💡 6. 실질적인 대응 가이드 및 미래 전망 (11:31 ~ 결론)

 

11:31 | 당장 이번 달에 해야 할 실명적인 행동: 3.0을 무작정 기다리기보다 6월 출시가 유력한 씨댄스 2.1과 2.0 미니(Mini)에 주목하는 것이 현명합니다. 2.1은 약 20%의 품질 향상이 있고, 2.0 미니는 초당 약 7.3센트로 품질은 높이면서 가격은 절반 가까이 낮출 것으로 보고됩니다.

 

 

 

12:22 | 현재 미국 사용자는 바이트댄스의 화산엔진(Volcano Engine) 직접 접근이 제한되므로 서드파티 애그리게이터(Fall, SegMind 등)나 저희 AI Master Studio를 쓰는 것이 가장 깔끔한 경로입니다. 캡컷(CapCut)은 브라질, 동남아 등 일부 지역에 씨댄스 기능을 롤아웃하기 시작했습니다.

 

 

 

13:04 | 지금 2.0에서 쓸 수 있는 프롬프트 팁: 3.0의 메모리 체인 기능이 나오기 전까지는 프롬프트에 [장면 설명], [캐릭터 설명], maintaining consistent appearance, [행동] 구조를 사용해 보세요. '외모 일관성 유지(maintaining consistent appearance)'라는 문구가 2.0에서 캐릭터를 고정하는 앵커 역할을 해줍니다.

 

 

 

14:08 | 18분 영화 생성이 가져올 워크플로우 수학: 평균 15분짜리 인디 단편 영화 제작비는 5만~20만 달러입니다. 중국 매체 보도에 따르면 숏폼 드라마 제작사들은 이미 씨댄스 2.0으로 70~90%의 비용을 절감하고 있습니다. 보수적으로 50%만 잡아도 프로젝트 승인 판도가 바뀝니다.

 

 

 

14:52 | 가장 먼저 압축(대체)될 부분은 순수 시각 노동인 스토리보드, 프리비즈(Pre-vis), B-롤(B-roll) 커버리지, 배경 샷 등입니다. 오리지널 각본, 인간 배우의 고유한 연기력, 감독의 크리에이티브한 비전, 그리고 IP 권리 정산이 필요한 영역은 쉽게 압축되지 않습니다. 이 구분을 명확히 해야 합니다.

 

 

 

15:34 | 유통(Distribution)의 이점: 바이트댄스의 잉잉(Yinying)과 캡컷은 전 세계 8억 명의 월간 활성 사용자(MAU)를 보유하고 있습니다. 씨댄스 3.0이 이 틱톡/캡컷 편집 레이어에 직접 탑재된다면, ChatGPT나 구글 워크스페이스와는 또 다른 엄청난 파급력을 가질 것입니다. 디즈니와 상원의원들이 빠르게 움직인 이유도 이 유통의 힘을 알고 있기 때문입니다.

 

 

 

 

16:14 (요약) | 루머 18 생성과 내러티브 메모리 체인은 '가능성 있음', MM DIT V2 '확정적', 6 출시일과 할리우드 퀄리티는 '미검증'입니다. 팩트는 씨댄스 2.0 현재 오디오 페어 모델 1위라는 점이며, 미국 시장은 서드파티를 통해 테스트해야 합니다. 다음 모델이 떨어지면 다시 찾아뵙겠습니다.

 

 

 


 

 

[번역] Seedance 3.0 — 1시간 이상 분량의 영화를 만드는 새로운 AI 비디오 생성기

 

올해 초 디즈니가 바이트댄스(ByteDance)에 제작 중단 요구(Cease and Desist) 서한을 보냈습니다. 현역 배우 400명은 의회에 보호 대책을 요구하는 공개 서한에 서명했죠. 그리고 이 모든 일의 한가운데에서 한 유출 정보가 공개되었습니다. 왜 모두가 패닉에 빠졌는지 그 이유를 정확히 설명해 주는 유출이었습니다.

 

바로 SeeDance 3.0입니다. '내러티브 메모리 체인(Narrative Memory Chain)'이라는 기능을 갖춘 18분짜리 영화 제작 에이전트로, 현재 SeeDance 2.0의 8분의 1 비용으로 구동된다고 합니다. 이 주장에 따르면 구글의 제미나이 옴니(Gemini Omni)는 아직 로딩 중인 것처럼 보일 지경입니다.

 

이 모든 것들이 보고된 주장들이며, 오늘 하나씩 평가해 볼 예정입니다. 하지만 먼저, 3.0의 과장 광고를 제쳐두고라도 왜 이 모델이 우리의 주목을 받을 가치가 있는지 그 이유를 보여드리겠습니다. 드라마 같은 자극적인 요소를 빼고, 실제로 일어난 일들을 시간 순서대로 정리해 드립니다.

 

2026년 2월, 바이트댄스는 SeeDance 2.0을 출시했습니다. 그 직후 디즈니와 파라마운트 스카이댄스(Paramount Skydance)는 AI 비디오 출력물의 IP(지식재산권) 문제를 이유로 제작 중단 요구 서한을 보냈습니다. 배우 400명은 노동권 보호를 요구하는 서한에 서명했고, 블랙번과 웰치 두 상원의원(공화당과 민주당 각 1명)은 바이트댄스의 CEO인 량루보(Liang Rubo)에게 직접 서한을 보내 이 모델의 서비스를 중단하라고 요구했습니다.

 

저는 이 자리에서 법적이거나 정치적인 문제를 따지려는 것이 아닙니다. 제가 말씀드리고 싶은 것은 이 현상이 무엇을 암시하느냐는 점입니다. 기존 산업의 거물들이 단 하나의 모델을 상대로 이토록 빠르게 움직인다는 것은, 기술적인 측면에서 무언가 진짜 엄청난 일이 일어나고 있다는 신호입니다. 그리고 무엇보다 이 출시 주기가 가장 명확한 증거입니다.

 

 

바이트댄스는 1년도 채 되지 않아 SeeDance 1.0에서 루머로 돌던 2.0 미니(mini) 버전까지 나아갔으며, 그 속도는 점점 더 빨라지고 있습니다. 이것은 천천히 반복 수정하는 회사의 걸음걸이가 아닙니다. 잃을 것이 많은 사람들을 두렵게 만들 만한 무언가가 분명히 빠르게 다가오고 있습니다.

 

그럼 이 모델의 실제 정체는 무엇이고, 유출된 내용이 무엇인지 살펴보겠습니다.

SeeDance는 바이트댄스의 비디오 생성 모델 라인업으로, 'Seed 연구 팀'이 구축했습니다. 이 팀은 약 1,500명의 연구원으로 구성되어 있으며, 과거 구글 펠로우(Fellow)이자 구글 딥마인드의 연구 부사장이었던 우융후이(Wu Yong Hui) 박사가 이끌고 있습니다. 그는 바이트댄스에 합류하기 전 구글에서 17년을 보냈습니다. 따라서 사람들이 왜 이 실험실이 구글이나 오픈AI와 경쟁할 수 있는지 물을 때, 그 답은 여기서부터 시작됩니다.

 

 

기술적인 차별점은 바로 아키텍처에 있습니다. SeeDance는 오디오와 비디오를 순차적으로 처리하는 것이 아니라 병렬로 처리하는 듀얼 브랜치 디퓨전 트랜스포머(Dual-branch Diffusion Transformer)인 MM DIT를 사용합니다. 사소한 디테일처럼 들릴 수 있지만, 실제 적용할 때는 매우 중요합니다. 소라(Sora)나 초기 베오(VEO) 디자인은 비디오를 먼저 생성한 다음 그 위에 오디오를 맞추려고 합니다. 반면 SeeDance는 처음부터 두 가지를 동시에 공동 생성(Co-generate)합니다. 이 때문에 오디오 싱크가 훨씬 더 정확하고, 초당 생성 비용이 더 낮아지는 큰 이유가 됩니다. 두 번 돌릴 과정을 한 번만 돌리기 때문입니다.

 

이제 SeeDance 2.0이 현재 실제로 어느 위치에 있는지 살펴보겠습니다. 이것은 유출이 아닌 검증된 데이터입니다. 'Artificial Analysis'의 비디오 아레나(비교 플랫폼)에서 SeeDance 2.0은 오디오가 포함된 텍스트-비디오(T2V) 부문에서 Elo 점수 1,214점으로 1위를 차지하고 있습니다. 오디오가 포함된 이미지-비디오(I2V) 부문에서도 1,194점으로 1위입니다. 아직 들어보지 못하셨다면, 대부분의 미국 도구들이 이를 직접 제공하지 않기 때문일 수 있습니다. 하지만 리더보드는 거짓말을 하지 않습니다.

 

단 한 가지 예외가 있습니다. 알리바바 ATH 팀의 해피 호스 1.0(Happy Horse 1.0)이 오디오가 없는 벤치마크를 리드하고 있습니다. 오디오 없는 T2V에서는 1,293점, I2V에서는 1,294점입니다. 이 팀은 이전에 콰이쇼우(Kuaishou)에서 클링(Kling) 개발을 이끌었던 장디(Jiang Di)가 이끌고 있습니다. 즉, 현재 상위 2개의 비디오 모델은 모두 중국 연구소 제품이며, 둘 다 소라(Sora)가 아닙니다. 소라의 앱은 4월 26일에 셧다운 되었고, API는 9월 24일에 서비스가 종료됩니다. 예측이 아니라 이미 일어난 사실입니다.

 

이것이 기본 기준점입니다. SeeDance 2.0은 오늘날 공개 리더보드에서 오디오가 쌍으로 결합된 비디오 모델 중 진정으로 세계 최고입니다.

 

이제 3.0 유출 정보가 실제로 무엇을 주장하고 있고, 제가 보기에 무엇이 진짜인지 살펴보겠습니다. 이 섹션의 모든 내용은 2026년 2월 14일 자 @MokouCN이라는 계정의 중국어 포스트라는 단 하나의 소스에서 나왔습니다. 이 계정은 가끔 '류장(Dr. Liu Zhang)' 박사라는 인물의 것으로 추정되기도 합니다.

 

더 진행하기 전에 이 점을 명확히 하고 싶습니다. 제가 SeeDance 2.0 및 1.5 Pro 논문의 저자 목록을 확인해 보았지만, 그 이름은 나타나지 않았습니다. 바이트댄스 소속으로 확인된 바가 없다는 뜻입니다. 이 주장은 서구권 트위터(X)에서 @VaserX, @Mark_K, @MarkGadala 등을 통해 바이럴을 탔지만, 추적해 보면 내부 접근 권한이 확인되지 않은 단 한 사람에게로 귀결됩니다. 그렇다고 이 주장들이 거짓이라는 뜻은 아닙니다. 그에 맞게 등급을 매겨보겠다는 의미입니다. 우리는 이전에 GPT-6 영상에서 사용했던 것과 동일한 프레임워크인 [확실함(Credible) / 가능성 있음(Possible) / 미검증(Unverified)]을 사용하겠습니다.

 

 

 

1. 단일 프롬프트로 18분 분량 생성 (등급: 가능성 있음)

유출 내용에 따르면 SeeDance 3.0은 단 하나의 프롬프트로 최대 18분의 일관된 비디오를 생성할 수 있다고 합니다. 저는 이것이 @MokouCN이 말했기 때문이 아니라, 바이트댄스가 그동안 발표해 온 연구 방향과 일치하기 때문에 '가능성 있음'으로 분류합니다. 장편의 일관성에 대한 그들의 연구와 듀얼 브랜치 아키텍처 모두 그 방향을 가리키고 있습니다. 이미 오디오 싱크를 완벽하게 잡아내는 팀이 15초짜리 클립에서 18분짜리 생성으로 가는 기술적 경로는 충분히 그럴듯합니다. 다만 검증되지 않은 단일 소스이므로 아직 '확정'이라고 부르지는 않겠습니다.

 

 

 

 

2. 내러티브 메모리 체인 (등급: 가능성 있음)

이 주장이 가장 많은 관심을 받았습니다. 내러티브 메모리 체인은 긴 출력물 전체에서 캐릭터와 환경을 일관되게 유지하는 아키텍처 기능으로 설명됩니다. 1분에 등장했던 캐릭터가 15분에도 똑같이 보이는 것이죠. 전체적으로 조명과 설정이 동일하게 유지됩니다. 이 문제는 AI 비디오 연구에서 매우 실제적이고 잘 문서화된 난제입니다. 바이트댄스가 발표한 MM DIT의 '시간적 일관성(Temporal Coherence)'에 관한 논문들을 보면 그들이 정확히 이 문제를 해결하기 위해 노력해 왔음을 알 수 있습니다. 이름은 유출된 정보에서 나온 것이지만, 기저에 깔린 문제와 이를 해결하려는 바이트댄스의 방향성은 모두 맞아떨어집니다. 하지만 이 특정한 브랜드 이름과 스펙은 어디에서도 확인되지 않았습니다.

 

 

 

3. MM DIT V2 아키텍처 업그레이드 (등급: 확실함)

유출 정보는 듀얼 브랜치 MM DIT의 2세대 버전을 언급합니다. 이것은 유출 내용 중 기술적으로 가장 지루한 주장인데, 역설적으로 그렇기 때문에 가장 사실일 가능성이 높습니다. 바이트댄스는 MM DIT에 대해 점진적으로 논문을 발표해 왔습니다. 2.0과 3.0 사이에 V2 버전이 반복 개발되는 것은 이 팀의 개발 속도를 고려할 때 정확히 예상할 수 있는 일입니다. 따라서 이것은 '확실함'으로 분류합니다.

 

 

 

 

4. 현재 SeeDance 2.0 비용의 8분의 1 (등급: 가능성 있음)

이것은 <데드풀과 울버린>의 공동 각본가인 렛 리스(Rhett Reese)를 패닉에 빠뜨린 헤드라인 숫자입니다. 그는 X에 *"이런 말 하긴 싫지만, 우리(할리우드)는 정말 끝난 것 같다"*라는 글을 올렸죠. 솔직히 그 반응도 이해가 갑니다. 하지만 제가 검증할 수 있는 수치를 정확히 말씀드리겠습니다. 현재 볼케이노 엔진(Volcano Engine)에서 SeeDance 2.0의 비용은 초당 약 1위안으로, 약 14센트(미화)입니다. Fall이나 Segmind 같은 서드파티 액세스를 통하면 초당 5~20센트 선입니다. 비용 궤적은 이미 저렴해지는 방향으로 움직이고 있습니다. 새로운 아키텍처로 추가적인 8배 비용 절감이 가능할까요? '가능성 있음'이지만, 바이트댄스 측 소스에서 이 숫자를 확인해 준 적은 없으므로 사실로 취급하진 않겠습니다.

 

 

 

5. 네이티브 멀티샷 디렉팅 및 실시간 프리뷰 (등급: 가능성 있음)

유출 정보는 빌트인 멀티샷 디렉터 모드, 즉 '무비 에이전트(Movie Agent)' 레이어를 설명합니다. 장면을 묘사하면 모델이 스스로 샷 구조를 짜내는 방식입니다. 바이트댄스는 이 분야에 특허를 출원한 바 있습니다. 다만 공개된 데모는 어디에도 없습니다. 그래서 '가능성 있음' 범위에 둡니다. 팀이 구축하고 있는 방향과 일치하지만, 아직 영수증(증거)을 제시할 수는 없습니다. 낮은 해상도에서의 실시간 프리뷰는 표준적인 추론 최적화 기법이므로 프로덕션 릴리스 시 충분히 그럴듯한 기능이지만, 이 역시 미확인 상태입니다.

 

 

 

6. 구체적인 6월 출시일 (등급: 미검증)

유출 정보는 3.0의 2026년 6월 출시 일정을 암시했습니다. 저는 이 말을 그대로 믿지 않습니다. 바이트댄스는 현재 실제적인 규제/준수(Compliance) 상황에 직면해 있습니다. 글로벌 출시는 3월에 중단되었다가 4월에 C2PA 워터마크와 얼굴 인증 게이트를 갖추고 다시 재개되었습니다. 미국 시장은 여전히 제외되어 있으며, 소속이 확인되지 않은 단일 소스에서 나온 구체적인 날짜에 이런 환경 속으로 주요 신규 모델이 출시된다는 것은 신뢰도가 꽤 낮은 신호입니다. 6월은 잠시 후 말씀드릴 2.1 및 2.0 미니 버전에 있어서는 중요할 수 있지만, 3.0이 6월에 떨어질 것이라 여기고 계획을 짜지는 않겠습니다.

 

 

 

7. 4K 네이티브 출력 및 할리우드 등급 품질 주장 (등급: 미검증)

콰이쇼우(Kuaishou)의 클링 3.0(Kling 3.0)은 지난 4월 23일에 네이티브 4K 60 FPS를 출시했습니다. 이에 대해서는 증거를 댈 수 있습니다. 하지만 SeeDance 3.0이 이를 능가하거나 대적하는 할리우드 등급의 품질을 가졌다는 주장은 전적으로 @MokouCN에게서만 나왔습니다. 데모도 없고 발표된 논문도 없습니다. 테크 매체 '더 버지(The Verge)'가 SeeDance 2.0의 출력물을 다루었을 때, 프로덕션 제작 기준에 비하면 그것들은 여전히 '슬롭(Slop, 조잡한 결과물)'이라고 불렀습니다. 제 말이 아니라 그들의 단어였습니다. 핵심은 이겁니다. '할리우드 등급'이라는 말은 마케팅 용어일 뿐이며, 현재로서는 확인되지 않은 단일 소스에 귀속되어 있습니다. 실제 영상을 기다려 보십시오.

 

유출 정보를 요약하자면, 3개의 주장은 '가능성 있음' 범위에 있고, 3개는 거리를 두고 지켜봐야 할 수준입니다. 발표 전의 미검증 단일 소스치고는 나쁜 비율은 아니지만, 이번 주에 여러분이 리트윗으로 보신 주장들의 절반은 아직 제가 무엇인가를 걸고 베팅할 만한 수준이 아니라는 뜻입니다.

 

실시간으로 숫자가 바뀌는 리더보드를 다시 보겠습니다. SeeDance 2.0은 오디오 결합 카테고리에서 정상을 차지하고 있습니다. 해피 호스 1.0은 오디오 없는 부문을 리드합니다. 클링 3.0은 4K 브래킷에서 강세를 보입니다. VEO 3.1은 여전히 탑 5 안에 있습니다. 지난 5월 19일 IO 2026에서 출시된 제미나이 옴니 플래시(Gemini Omni Flash)는 아직 Artificial Analysis 리더보드에 올라오지 않아 Elo 순위를 매길 수 없습니다. 구글은 원천적인 생성 품질보다는 대화형 편집과 유튜브 쇼츠 유통이라는 다른 제품 전략에 베팅하고 있습니다.

 

그리고 소라(Sora)의 앱은 4월 26일에 문을 닫았고 API는 9월 24일에 일몰을 맞이합니다. 오픈AI는 이 카테고리 전체를 촉발시킨 모델을 만들어 놓고는, 바이트댄스와 콰이쇼우가 2년도 채 안 되어 자신들을 추월해 출시하는 모습을 지켜만 보았습니다. 시장은 이동했고 리더보드가 이를 반영합니다.

 

가격 면에서 SeeDance 2.0은 볼케이노 엔진 직접 이용 시 초당 14센트, 제3자 애그리게이터를 통하면 5~20센트입니다. 해피 호스와 클링도 비슷한 범위에 있습니다. 구글 AI 스튜디오를 통한 VEO는 특히 상업용 티어의 경우 더 비쌉니다.

 

(잠시 곁가가지로 말씀드리면, 지금 당장 SeeDance 테스트해보고 싶으시다면 저희가 자체 프로덕션 워크플로우를 위해 구축한 'AI Master Studio' 있습니다. 저희 팀이 매일 채널과 클라이언트 프로젝트용 비디오를 생성하는 사용하는 도구입니다. SeeDance 2.0 VEO Kling 3.0 함께 단일 인터페이스 하에 통합되어 있으며, 모두 워터마크 없는 출력을 제공합니다. 대부분의 모델에 직접 접근하는 것보다 생성 비용이 저렴합니다.

 

프롬프트 하나로 모델 전반의 출력물을 나란히 받아보고 작동하는 것을 고르는 워크플로우입니다. 저희는 소프트웨어를 팔려고 도구를 만든 아니라, 탭을 번갈아 누르고 API 키를 관리하고 워터마크 있는 내보내기에 지쳐서 만들었습니다. 그저 비디오를 빨리 출력하고 싶었을 뿐입니다. SeeDance 3.0 출시되면 며칠 내로 스튜디오에 반영될 것입니다. 관심이 있으시다면 설명란의 링크(aimaster.me) 확인해 보세요.)

 

 

 

자, 다시 이번 주에 여러분이 실제로 해야 할 일로 돌아가 보겠습니다. 향후 단기적인 전망에 대한 제 솔직한 의견을 말씀드리겠습니다.

 

더 현명한 방법은 3.0을 기다리는 것이 아닙니다. 향후 30일 동안 더 중요한 스토리는 SeeDance 2.1과 2.0 미니(mini)입니다. 제가 일회성 트위터 유출보다 더 신뢰하는 두 소스는 '웨이브 스피드(Wave Speed)'와 '팬데일리(Pan Daily)'입니다. 두 매체 모두 바이트댄스의 제품 업데이트를 면밀히 추적합니다.

 

그들의 보고에 따르면 SeeDance 2.1은 2.0에 비해 약 20%의 품질 향상을 가져올 것이라고 합니다. 이는 의미 있는 개선입니다. 그리고 2.0 미니는 초당 약 7.3센트로 가격이 책정될 예정입니다. 이는 2.0 Fast보다 저렴하면서도 품질 면에서는 능가한다고 보고되었습니다. 둘 다 2026년 6월 출시 루머가 있습니다. 확정된 것은 아니지만, 3.0 유출보다는 훨씬 소스 출처가 좋습니다.

 

오늘날 실제로 어디서 액세스할 수 있을까요? 바이트댄스의 클라우드 플랫폼인 볼케이노 엔진(Volcano Engine)은 대부분의 시장에서 사용할 수 있지만, 계정을 설정하고 API 세팅을 직접 처리해야 합니다. Fall, SegMind, Evo link 같은 서드파티 애그리게이터들은 더 간단한 온보딩으로 SeeDance 2.0을 지원합니다.

 

캡컷(CapCut)은 지난 3월 26일부로 브라질, 인도네시아, 말레이시아, 멕시코, 필리핀, 태국, 베트남에서 SeeDance 기반의 생성 기능을 롤아웃하기 시작했습니다. 이 지역에 계신다면 캡컷 앱에 이미 기능이 있을 수 있습니다. 미국 시장은 여전히 직접적인 롤아웃에서 제외되어 있으므로, 미국에 계신다면 서드파티 액세스나 저희 AI Master Studio가 가장 깔끔한 경로입니다.

 

지금 당장 할 수 있는 구체적인 팁 하나를 드리겠습니다. 3.0을 기다리는 동안 2.0에서 캐릭터 일관성의 한계를 우회할 수 있는 프롬프트 구조를 테스트해 보는 것입니다. 구조는 다음과 같습니다.

 

 

 

 

[장면 묘사], [캐릭터 묘사], maintaining consistent appearance(일관된 외모 유지), [행동]

예를 들어, "sunlit rooftop cafe, Tokyo, early morning. A woman in a yellow linen jacket, dark shoulder-length hair, maintaining consistent appearance, pours coffee, and looks out of the skyline." (햇빛이 비치는 루프탑 카페, 도쿄, 이른 아침. 노란색 린넨 재킷을 입고 어깨까지 내려오는 어두운 머리를 여성이, 일관된 외모를 유지하며, 커피를 따르고 스카이라인을 바라본다.) 고 입력하는 것입니다.

 

이 "maintaining consistent appearance"라는 문구는 짧은 클립 안에서 모델이 캐릭터 레퍼런스를 고정하도록 닻 역할을 해줍니다. 내러티브 메모리 체인은 아니지만, 3.0이 이를 자동으로 만들어 줄 때까지 현재 2.0에서 유용하게 작동하는 방식입니다.

 

타이밍에 대한 전반적인 평결을 내리자면, 과장 광고를 선주문하지 마시고 이미 출시되어 작동하고 있는 것을 테스트하십시오. SeeDance 2.0은 현재 공개 리더보드에서 오디오가 결합된 비디오 모델 중 1위입니다. 루머가 아니라 실제 리더보드 순위입니다.

 

이 모든 것의 저변에 깔린 더 큰 질문을 던져보겠습니다. 단 하나의 프롬프트가 18분 분량의 일관된 내러티브를 생성하게 될 때, 실제로 무엇이 바뀔까요? 저는 워크플로우 수학(비용 계산) 데이터만 제공해 드리고 해석은 여러분께 맡기겠습니다.

 

평균적인 인디 단편 영화(15분 분량, 영화제 출품 수준)를 기준으로 잡으면, 스태프 규모와 프로덕션 범위에 따라 약 50,000달러에서 200,000달러(약 6,500만 원~2억 6천만 원)의 비용이 듭니다. 중국 테크 매체(CN Tech Post) 보고에 따르면, 볼케이노 엔진을 사용하는 숏폼 드라마 제작사들은 SeeDance 2.0을 통해 이미 70~90%의 비용 절감을 보고하고 있습니다. 보수적으로 잡아서 50%라고 해봅시다. 이 수치는 어떤 프로젝트에 푸른 신호등(제작 승인)을 켤 수 있는지를 바꾸는 숫자입니다.

 

프로덕션에서 가장 먼저 축소되는 부분은 순수한 시각적 노동으로 구동되는 영역들입니다. 대사가 없고, 배우의 연기가 필요 없는 영역들—스토리보딩, 사전 시각화(Pre-vis), B-롤(B-roll) 커버리지, 배경 및 익스태블리싱 샷(Establishing shots) 같은 것들은 이미 프로덕션에서 AI로 대체되고 있습니다. 루아이리 로빈슨(Ruairi Robinson)의 바이럴 영상인 '피트 vs 크루즈 루프탑 격투 클립'은 장편 영화가 아니라 사전 시각화(Pre-vis) 수준의 데모였습니다. 그것이 쐐기의 시작점입니다.

 

독창적인 글쓰기는 여전히 인간이 필요합니다. 특정한 배우의 존재감 자체가 상품이 되는 연기 영역도 마찬가지입니다. 그리고 진정한 창의적 비전을 가진 디렉팅(연출) 역시 압축되지 않습니다. 실제 인물이나 IP에 대한 권리 클리어런스(허가)가 필요한 모든 것도 마찬가지입니다. 디지털 환경에서 싸우는 마블 배우의 촬영분은 도시 스카이라인의 B-롤 샷처럼 쉽게 압축되지 않습니다.

 

이러한 구분은 2.0에서도 유효하며, 아마 3.0에서도 마찬가지일 것입니다. 할리우드에 이것이 좋은지 나쁜지 말씀드리려는 게 아닙니다. 어떤 부분이 먼저 움직이고 어떤 부분이 움직이지 않는지 그 사실을 말씀드리는 것입니다. 계산은 여러분이 직접 해보실 수 있을 것입니다.

 

유통(Distribution) 관점의 앵글도 순수한 팩트로서 주목할 가치가 있습니다. 잉잉(Yinying, 틱톡의 중국 내수용 형제 앱)과 캡컷의 월간 활성 사용자 수(MAU)를 합치면 8억 명이 넘습니다. 만약 SeeDance 3.0이 출시되고 바이트댄스가 이를 이 유통 레이어에 태운다면, 이 시장의 그 어떤 도구와도 다르게 퍼져나갈 것입니다.

 

오픈AI 뒤에는 ChatGPT 사용자 기반이 있고, 구글에는 워크스페이스와 유튜브가 결합되어 있습니다. 바이트댄스는 8억 MAU의 틱톡 편집 레이어를 쥐고 있습니다. 접근성의 차원이 다릅니다. 제작 중단 요구 서한과 상원의원의 서한이 날아든 이유도 부분적으로 여기에 있습니다. 기존 업계 거물들은 모델의 품질에 대해 논쟁이 오가는 와중에도, 이 유통의 수학 공식이 가진 위력을 정확히 이해하고 있는 것입니다.

 

마지막으로 제가 내린 결론을 20초 버전으로 요약해 드리겠습니다.

 

-@MokouCN의 유출 정보 중 가능성 있는 것: 18분 분량 생성 및 내러티브 메모리 체인. 방향성은 실제 연구와 일치하지만 소스는 미확인 상태.

 

-가장 확실한 것: MM DIT V2 업그레이드. 유출 내용 중 가장 지루한 주장이기에 역설적으로 가장 가능성이 높음.

 

-유보적 입장: 비용 8배 절감 및 멀티샷 디렉터 모드. 가능성은 있지만 커밋하기 전 확인이 필요함.

 

-믿지 않는 것: 6월 3.0 출시일 및 할리우드 등급 품질 주장. 이를 기준으로 계획을 짜지 말 것.

 

-검증된 사실: SeeDance 2.0은 현재 Artificial Analysis 리더보드 기준 오디오 결합 비디오 모델 중 1위입니다. 단기적으로 중요한 스토리는 6월에 있을 2.1 및 2.0 미니입니다. 미국 시장은 여전히 직접 액세스가 제외되어 있습니다. 소라(Sora)는 이 레이스에서 빠졌습니다. 해피 호스는 오디오 없는 순수 화질 면에서 리드하고 있습니다. 제미나이 옴니 플래시는 흥미롭지만 아직 벤치마크 전입니다.

 

 

오늘 당장 SeeDance 2.0을 테스트해보고 싶으시다면, 다른 비디오 도구인 VEO, 클링과 함께 하나의 인터페이스에서 워터마크 없이 통합 제공하는 'AI Master Studio'가 있습니다. 설명란의 링크(aimaster.me)를 확인해 주세요.

 

다음 모델이 떨어질 다시 찾아뵙겠습니다.

 

 


(130) Seedance 3.0 — NEW AI Video Generator Makes 1H+ Movies - YouTube
https://www.youtube.com/watch?v=P19XDsu8VPQ

 

 

 


(00:07) Disney sent ByteDance a cease and desist earlier this year. 400 working actors signed an open letter asking Congress for protection, and right in the middle of all that, a leak dropped, [music] and it explains exactly why everyone is panicking. SeeDance 3.0, an 18-minute movie agent, something called narrative memory chain, 1/8 the cost of today's SeeDance 2.

 

 


(00:30) 0, it claims Gemini Omni looks like it's still loading. Every one of those is a reported claim, and we're going to rate them today. But first, let me show you why this model is worth your attention even before the 3.0 hype. Here's what actually happened in order without the drama layer. In February 2026, ByteDance published SeeDance 2.0.

 

 


(00:52) Shortly after that, Disney and Paramount Skydance both sent cease and desist letters over IP concerns in AI video outputs. 400 actors signed a letter asking Congress for labor protections, and two senators, Blackburn and Welch, one Republican and one Democrat, wrote directly to ByteDance's CEO, Liang Rubo, demanding the model be shut down.

 

 


(01:14) I'm not here to weigh in on any of those legal or political questions. What I will tell you is what they signal. When you see that many incumbents move that fast in response to a single model, something real is happening on the technology side, and the release cadence is the clearest signal of all. ByteDance went from SeeDance 1.

 

 

 

(01:34) 0 to a rumored 2.0 mini in under a year, and the pace is accelerating. That's not a company iterating slowly. Something is clearly coming fast enough to scare people who have a lot to lose. Let's look at what this model actually is, >> [music] >> and what that leak says. SeeDance is ByteDance video generation model line built by the Seed research team.

 

 

 

(01:56) That team has roughly 1,500 researchers. It's led by Dr. Wu Yong Hui, previously a Google Fellow and VP of research at Google DeepMind. He spent 17 years at Google before ByteDance hired him. So, when people ask why this lab is competitive with Google and OpenAI, the answer starts there. The technical differentiator is the architecture.

 

 

 

(02:19) SeeDrones uses something called MM DIT, a dual-branch diffusion transformer that processes audio and video in parallel, not sequentially. That sounds like a detail, but it matters a lot in practice. Sora and early VEO designs generate video first and then try to fit audio on top. SeeDrones co-generates both from the start.

 

 

 

(02:40) That's why the audio sync is tighter, and it's a big reason the cost per second is lower. You're running one pass instead of two. Now, let's look at where SeeDrones 2.0 actually sits right now, because this is verified data, not a leak. On the Artificial Analysis video arena, SeeDrones 2.0 is ranked number one for text-to-video with audio with an L 0 of 1,214.

 

 

 

(03:03) It's also number one for image-to-video with audio at 1,194. If you haven't heard of it, that's partly because most US tools don't expose it directly. The leaderboard doesn't lie about that. There is one exception. Happy Horse 1.0 from Alibaba's ATH team leads the no audio benchmarks. 1,293 for T2V without audio, 1,294 for I2V.

 

 

(03:34) That team was led by Jiang D, who previously led Kling development at Kuaishou. So, the top two video models right now are both Chinese labs, and neither of them is Sora. Sora's app shut down on April 26th. The API sunsets on September 24th. That's not a prediction. That already happened. So, that's the baseline. SeeDrones 2.

 

 

(03:54) 0 is genuinely the best audio paired video model on the public leaderboard today. Now let's look at what the 3.0 leak is actually claiming and what I think is real. Everything in this section comes from a single source, a Chinese language post by an account called @MokouCN dated February 14th, 2026. The account is sometimes attributed to someone called Dr. Liu Zhang.

 

 

 

(04:18) I want to be clear about what that means before we go any further. I checked the SeeDance 2.0 and 1.5 pro paper author lists. That name does not appear. There is no verified ByteDance affiliation. The claim went viral on Western Twitter through @VaserX, @Mark_K, and @MarkGadala, but the chain traces back to one person with no confirmed inside access.

 

 

 

(04:42) That does not mean the claims are false. It means we rate them accordingly. I'm using the same framework we used in the GPT-6 video, credible, possible, unverified. Possible, 18-minute single prompt generation. The leak claims SeeDance 3.0 can generate up to 18 minutes of coherent video from a single prompt. I'd call this possible, not because @MokouCN said it, but because it lines up with ByteDance's published direction.

 

 

(05:09) Their work on long-form coherence and the dual branch architecture both point that way. The technical path from 15-second clips to 18-minute generation is plausible from a team that already nails audio sync. I'm just not calling it confirmed from a single unverified source. Possible, narrative memory chain. This is the claim that got the most attention.

 

 

 

(05:32) Narrative memory chain is described as an architectural feature that keeps characters and environments consistent across long outputs. The same character looks the same in minute 15 as in minute one. Same lighting, same setting throughout. That problem is real and well documented in AI video research. ByteDance's published work on temporal coherence in MM DID suggests they've been working on exactly this. The name comes from the leak.

 

 

(05:58) The underlying problem and ByteDance direction towards solving it both check out. But, the specific branded name and spec are not confirmed anywhere. Credible. MM DID V2 architecture upgrade. The leak references a second generation version of the dual branch MM DID. This is the most technically boring claim in the leak, which is probably why it's also the most likely to be true.

 

 

(06:22) ByteDance has published incrementally on MM DID. A V2 iteration between 2.0 and 3.0 is exactly what you'd expect from a team on this cadence. I call this one credible. Possible. 1/8 the cost of today's C DID 2.0. This is the headline number that made Rhett Reese panic. He co-wrote Deadpool and Wolverine, and he posted, "I hate to say it.

 

 

 

(06:46) It's likely over for us on X." And honestly, that reaction makes sense. But, I want to be precise about what I can verify. C DID 2.0 today on Volcano Engine costs roughly 1 yen per second, which is about 14 cents. Third-party access through Fall or Segmind runs from 5 to 20 cents per second. The cost trajectory is already moving toward cheaper.

 

 

 

(07:09) A further 8x reduction with a new architecture? It's possible, but I haven't seen a ByteDance source confirm that number, and I'm not treating it as fact. Possible. Native multi-shot directing and real-time preview. The leak describes a built-in multi-shot director mode, a movie agent layer. You describe a scene, and the model works out the shot structure itself.

 

 

(07:32) ByteDance has filed patents in this area. There is no public demo anywhere. That puts it in the possible range. It lines up with what the team is building, but I can't point to a receipt for it yet. Real-time preview at lower resolution is a standard inference optimization. That part is plausible for a production release, but also unconfirmed.

 

 

 

(07:50) Unverified specific June release date. The leak implied a June 2026 release window for 3.0. I'm not buying it as stated. Bytedance is in the middle of a real compliance situation. The global rollout was paused in March and reopened in April with C2PA watermarks and facial authentication gates.

 

 

 

(08:11) The US market is still excluded and major new model release into that environment on a specific date from a single unaffiliated source. That's a pretty weak signal. June matters for 2.1 and 2.0 mini. More on that in a moment, but I wouldn't plan around a 3.0 June drop. Unverified 4K native output and Hollywood-grade quality claims. Claim 3.

 

 

 

(08:34) 0 from Kuaishou launched native 4K at 60 FPS on April 23rd. I can point to receipts on that one. The claim that Seed end's 3.0 matches or exceeds that with Hollywood-grade quality comes entirely from @MokoCN. There is no demo and no published paper. The Verge, when they covered Seed end's 2.

 

 

 

(08:56) 0 outputs, called them still slop relative to pro production. That was their word, not mine. Here's the point. Hollywood-grade is a marketing phrase and right now it's attached to a single unverified source. Wait for footage. So, to summarize the leak, three claims in the possible range, three I'd hold at arm's length.

 

 

 

(09:14) That's not a bad ratio for pre-announcement from a single unverified source, but it means half the claims you've seen retweeted this week are not something I'd stake anything on yet. Here's the leaderboard in real time because the numbers shift. Seed end's 2.0 sits at the top of the audio-paired categories. Happy Horse 1.0 leads the now audio side. Claim 3.

 

 

 

(09:36) 0 is strong in the 4K bracket. VEO 3.1 is still in the top five. Gemini Omni flash launched May 19th at IO 2026. It's not yet on the artificial analysis leaderboard, so I can't rank it here by Elo. Google is betting on conversational editing and YouTube shorts distribution. A different product strategy than raw generation quality.

 

 

 

(10:01) Sora's app shut down on April 26th. The API sunsets on September 24th. Open AI built the model that launched this whole category and then watched ByteDance and Kuaishou ship past it in under two years. The market moved and the leaderboard reflects it. On pricing, SeaDance 2.0 runs 14 cents per second on volcano engine direct, 5 cents to 20 cents through third-party aggregators.

 

 

 

(10:24) Happy Horse and Kling are in a similar range. VEO through Google AI studio is higher, particularly for commercial tiers. Quick aside, if you want to test SeaDance right now, we built AI Master studio for our own production workflow first. It's the tool our team uses every day to generate video for this channel and our clients' projects. SeaDance 2.

 

 

 

 

(10:45) 0 is integrated alongside VEO and Kling 3.0, all under one interface with watermark free outputs. The cost per generation is lower than going direct on most models. The workflow is one prompt. You get side-by-side outputs across models and pick what works. We didn't build this to sell software. We built it because we were tired of juggling tabs, API keys, and watermarked exports.

 

 

 

(11:09) We just wanted to ship videos. When SeaDance 3.0 lands, it'll be in the studio within days. That's how we operate. So, if you want early access without the setup friction, the link is in the description. One link at aimaster.me. Access is open right now, no waitlist. All right, back to what you should actually do this week.

 

 

 

(11:31) Here's my honest take on the near-term picture. The smarter move right now 

is not waiting for 3.0. The more important story for the next 30 days is C Dance 2.1 and 2.0 mini. Two sources I trust more than one-off Twitter leaks are Wave Speed and Pan Daily. Both track ByteDance product updates closely. They're reporting C Dance 2.

 

 

 

(11:55) 1 will deliver roughly a 20% quality lift over 2.0. That is a meaningful improvement. And 2.0 mini is priced around 7.3 cents per second. That's cheaper than 2.0 fast while reportedly beating it on quality. Both are rumored for June 2026. Those are not confirmed, but they're better sourced than the 3.0 leak. Where can you actually get access today? Volcano Engine Direct is ByteDance's cloud platform.

 

 

 

(12:22) It's available in most markets, but you'll need to set up an account and handle the API setup yourself. Third-party aggregators like Fall, SegMind, and Evo link all support C Dance 2.0 with simpler onboarding. CapCut has started rolling out C Dance powered generation Brazil, Indonesia, Malaysia, Mexico, Philippines, Thailand, and Vietnam as of March 26th.

 

 

 

 

(12:44) If you're in one of those markets, you may already have it in your CapCut app. The US market is still excluded from the direct rollout. If you're in the US, third-party access or AI Master Studio is your cleanest path today. Here's one concrete thing you can do right now. I think testing a prompt structure on C Dance 2.

 

 

(13:04) 0 that works around the coherence limitation while you wait for 3.0. The structure is scene description, then a comma, then character description, then maintaining consistent appearance, then the action. Something like sunlit rooftop cafe, Tokyo, early morning. A woman in a yellow linen jacket, dark shoulder-length hair, maintaining consistent appearance, pours coffee, and looks out of the skyline.

 

 

 

(13:29) That phrase, "maintaining consistent appearance," anchors the model's character reference across a short clip. It's not narrative memory chain, but it works on 2.0 today while you wait for 3.0 to make it automatic. The overall verdict on timing, don't pre-order the hype. Test what's already shipping. SeeDance 2.

 

 

 

 

(13:50) 0 is the number one audio-paired video model on the public leaderboard right now. That's not a rumor, that's the leaderboard. Let me address the bigger question underneath all of this. What actually changes when one prompt generates 18 minutes of coherent narrative? I'm going to give you the workflow math and leave the interpretation to you.

 

 

 

(14:08) Take an average indie short film, 15 minutes festival quality. It costs somewhere between $50,000 and $200,000 depending on crew size and production scope. CN Tech Post reported that Volcano Engine clients, short drama producers, are already seeing 70 to 90% cost reductions with SeeDance 2.0. Let's be conservative and say 50%.

 

 

 

 

(14:32) That's still a number that changes who can greenlight a project. The parts of production that shrink first are the ones running on pure visual labor. No dialogue, no actors performing, storyboarding, pre-vis, b-roll coverage, establishing shots, these are already happening with AI in production right now. Ruairi Robinson's viral Pitt vs.

 

 

 

(14:52) Cruise rooftop fight clip wasn't a feature film. It was a pre-vis level demo. That's the wedge. Original writing still needs humans. Performance work where a specific actor's presence is the product, same. And directing with a real creative vision doesn't compress either. Add anything that needs rights clearance on real people or IP.

 

 

 

 

(15:14) A Marvel actor fighting a digital environment doesn't compress the same way a b-roll shot of a city skyline does. Those distinctions are real with 2.0 and probably with 3.0, too. I'm not telling you this is good or bad for Hollywood. I'm telling you these are the parts that move first and the ones that don't.

 

 

 

 

(15:34) You can do your own math from there. The distribution angle is worth noting as a pure fact. Yinying and CapCut combine have over 800 million monthly active users. If Seedance 3.0 ships and ByteDance routes it through that distribution layer, it spreads differently than anything else in this space.

 

 

 

 

(15:54) OpenAI has the ChatGPT user base behind it. Google has Workspace and YouTube combined. ByteDance has TikTok's editing layer at 800 million monthly active users. That's a different kind of reach. It's part of why both the cease and desist and the senator's letter happened. The incumbents understand the distribution math, even if the model quality is still debated.

 

 

 

(16:14) Let me give you the 20-second version of where I land on everything. From the At Moco CN Leak, the two that hold up as possible, 18-minute generation and narrative memory chain. The direction is real, the source isn't confirmed. The MMDI TV 2 upgrade is the most boring claim in the leak, which is exactly why I'd call it likely.

 

 

 

(16:38) The cost claim and multi-shot director mode are possible. I want to see confirmation before I commit to either. The June 3.0 release date and Hollywood-grade quality, I wouldn't plan around either of those. Here's the verified side. Seedance 2.0 is the number one audio-paired video model on artificial analysis right now. The near-term story is 2.1 and 2.

 

 

 

(17:00) 0 mini in June. The US market is still excluded from direct access. Sora is out of this race. Happy Horse leads on raw, no audio fidelity. Gemini Omni Flash is interesting, but not yet benchmarked. If you want to actually test Seedance 2.0 today, AI Master Studio has it integrated with other video tools like Vio and Klang under one interface, all watermark free.

 

 

 

 

(17:26) Link in the description at aimaster.me. I'll see you when next model drops.


 

 

#IT 인터넷 #영화 #영화 리뷰 #영상 제작 #AI (인공지능)

#씨댄스 #SeeDance #AI비디오 #AI영화 #바이트댄스 #ByteDance #소라 #Sora #클링 #Kling #해피호스 #영상제작AI #숏폼제작 #AI썸네일 #영상트렌드

반응형