화면 녹화에 AI 자막을 자동으로 추가하는 방법

화면 녹화에 자막이 중요한 이유

화면 녹화에 자막을 추가하는 것은 단순히 접근성 향상만을 위한 것이 아닙니다. 물론 그것만으로도 충분히 가치가 있지만, 자막은 콘텐츠의 품질을 여러 면에서 높여줍니다.

접근성. 자막은 청각 장애가 있는 시청자도 튜토리얼, 프레젠테이션, 데모 영상을 불편 없이 시청할 수 있게 해줍니다.

무음 시청. 많은 소셜 미디어 영상이 소리 없이 시청됩니다. 녹화에 나레이션이 포함되어 있다면, 자막을 통해 시청자가 소리를 끄고도 내용을 따라갈 수 있습니다.

이해도 향상. 텍스트가 음성을 보강해 주면 시청자의 정보 흡수에 도움이 됩니다. 특히 복잡한 기술 튜토리얼에서는 화면에 텍스트가 보이는 것이 큰 차이를 만들어냅니다.

검색 엔진 최적화(SEO). 검색 엔진은 오디오를 들을 수 없지만, 자막 텍스트는 색인할 수 있습니다. 전사된 콘텐츠는 영상이 검색 결과에 노출되는 데 도움을 줍니다.

문제는 수동 전사의 시간 비용입니다. 10분짜리 영상을 수동으로 전사하면 30분에서 60분 정도 소요됩니다. 이것이 바로 AI 기반 자막 생성이 필수적인 이유입니다.

AI 자막 생성의 원리

최신 AI 자막 도구는 음성 인식(STT, Speech-to-Text) 모델을 사용하여 음성을 타임스탬프가 포함된 텍스트로 변환합니다. 가장 널리 사용되는 모델은 OpenAI Whisper로, 68만 시간 분량의 다국어 오디오로 학습된 오픈 소스 신경망입니다.

Whisper로 자막을 생성하면 다음과 같은 과정이 진행됩니다.

오디오 추출 — 영상에서 오디오 트랙을 분리합니다
전처리 — 오디오를 Whisper가 처리할 수 있는 형식(16kHz 모노 WAV)으로 변환합니다
추론 — Whisper가 오디오를 30초 단위로 처리하여, 타임스탬프가 포함된 텍스트를 출력합니다
후처리 — 타임스탬프를 정렬하고, 자연스러운 문장 경계에서 구간을 분할합니다
출력 — 자막 파일(SRT, VTT) 또는 영상에 내장된 형태로 결과물이 생성됩니다

전 과정이 사용자의 CPU 또는 GPU에서 실행됩니다. 인터넷 연결이 필요 없으며, 오디오가 어디에도 업로드되지 않습니다.

정확도

Whisper의 정확도는 여러 요인에 따라 달라집니다.

마이크를 사용한 명확한 발화에서 가장 좋은 결과를 보입니다
배경 소음이 많을수록 정확도가 낮아지며, 더 많은 수정이 필요합니다
여러 명의 화자가 있는 경우 추가 검토가 필요할 수 있습니다
전문 용어는 수동 수정이 필요할 수 있습니다

화면 녹화 나레이션(일반적으로 마이크를 사용한 한 명의 화자)의 경우, Whisper는 상당히 만족스러운 결과를 보여줍니다. 10분 분량 기준으로 처음부터 전사하는 것이 아니라, 몇 단어 정도만 수정하면 되는 수준입니다.

방법 1: 온라인 AI 자막 서비스

Descript, Otter.ai, Rev 등의 서비스가 클라우드 기반의 자막 생성을 제공합니다.

사용 방법: 영상을 업로드 → 처리 대기 → 자막을 다운로드합니다.

장점:

별도 소프트웨어 설치가 필요 없음
협업 편집 기능을 제공하는 경우가 많음
일부 서비스는 높은 정확도를 위한 사람 검토 옵션 제공

단점:

오디오가 서비스 서버에 업로드됨 — 기밀 콘텐츠의 경우 개인정보 보호 측면에서 우려가 있음
구독제 가격 — 대부분의 서비스가 월별 요금을 부과
인터넷 연결 필수 — 오프라인 작업 불가
파일 크기 제한 — 대부분의 서비스가 업로드를 1~4GB로 제한
처리 시간 — 서버 부하에 따라 달라짐

온라인 서비스 사용이 적합한 경우:

이미 영상 편집 플랫폼 구독을 사용하고 있고, 클라우드 처리에 거부감이 없는 경우. 기밀 콘텐츠에는 적합하지 않습니다.

방법 2: FFmpeg + Whisper (명령줄)

기술에 익숙한 사용자라면 명령줄에서 Whisper를 직접 실행할 수 있습니다.

설치:

pip install openai-whisper

자막 생성:

whisper recording.mp4 --model medium --output_format srt

장점:

무료 오픈 소스
모델 크기와 매개변수를 완전히 제어 가능
일괄 처리를 위한 스크립트 작성 가능

단점:

명령줄 전용 — 시각적 인터페이스 없음
미리보기 불가 — 영상과 자막의 동기화를 확인할 수 없음
수동 편집 필요 — 오류 수정에 별도 도구가 필요
번인 불가 — 자막을 영상에 삽입하려면 FFmpeg를 별도로 사용해야 함

명령줄 Whisper 사용이 적합한 경우:

터미널 사용에 익숙하고, 일괄 처리가 필요하거나, 자동화 파이프라인에 통합하고자 하는 경우.

방법 3: DalVideo (녹화 + 자막 + 편집을 하나로)

DalVideo는 Whisper를 녹화 및 편집 워크플로에 직접 통합합니다. 녹화본을 내보내고, 어딘가에 업로드하고, 자막을 다운로드하고, 편집기에 가져오는 번거로운 과정 없이 모든 것이 하나의 앱 안에서 이루어집니다.

자막 생성 방법:

DalVideo에서 화면을 녹화합니다 (또는 기존 녹화본을 엽니다)
편집기 도구 모음에서 자막 생성 버튼을 클릭합니다
Whisper가 처리하는 동안 기다립니다 (진행률 표시줄이 실시간 상태를 보여줍니다)
인라인으로 자막을 검토하고 편집합니다 — 자막을 클릭하면 텍스트를 수정하고 타이밍을 조절할 수 있습니다
자막을 삽입하여 내보내기하거나, 별도의 SRT 파일로 저장합니다

이 방식이 다른 이유:

모든 것이 로컬에서 처리됩니다. Whisper 모델이 사용자의 컴퓨터에서 실행됩니다. 오디오가 컴퓨터 밖으로 나가지 않습니다. 이는 업무 녹화, 고객 통화, 기밀 콘텐츠 등에 특히 중요합니다.

미리보기 동기화. 자막 목록에서 항목을 클릭하면 영상이 해당 타임스탬프로 이동합니다. 이를 통해 빠르게 오류를 확인하고 수정할 수 있습니다. 각 단어가 발화될 때 화면에 무엇이 표시되었는지 정확히 확인할 수 있습니다.

자막 타임라인. 편집기의 타임라인에 자막 칩이 색상 블록으로 표시됩니다. 각 자막이 어디에 나타나는지 시각적으로 확인하고, 드래그하여 타이밍을 조절할 수 있습니다.

번인 내보내기. 내보내기 시 자막을 영상 픽셀에 직접 삽입할 수 있습니다. 시청자 측에서 자막 파일을 지원할 필요가 없으며, 텍스트가 영상의 일부가 됩니다. 이는 자막 파일 지원이 제각각인 소셜 미디어에 매우 유용합니다.

가져오기/내보내기. 기존 SRT 파일을 가져오거나 DalVideo의 자막을 다른 도구에서 사용할 수 있도록 내보낼 수 있습니다.

성능:

처리 시간은 하드웨어에 따라 달라집니다. GPU 가속(CUDA)을 사용하면 CPU만으로 처리할 때보다 자막 생성 속도가 크게 향상됩니다.

AI 모델은 처음 사용 시 한 번만 다운로드(미디엄 모델 기준 약 1.5GB)하면 이후로는 오프라인에서 작동합니다.

효과적인 자막 작성 가이드

어떤 도구를 사용하든, 다음 가이드라인을 따르면 더 효과적인 자막을 만들 수 있습니다.

1. 한 줄의 길이를 짧게 유지하세요

한 줄에 최대 42자, 최대 2줄을 권장합니다. 텍스트가 길면 한눈에 읽기 어렵습니다.

2. 자연스러운 말의 흐름에 맞추세요

자막은 자연스러운 쉼 — 문장 끝, 쉼표, 절의 경계 — 에서 분할하세요. 구문 중간에서 끊지 않는 것이 중요합니다.

3. 표시 시간에 주의하세요

각 자막은 최소 1초, 최대 7초 동안 화면에 표시되어야 합니다. 평균적인 읽기 속도는 초당 약 3단어입니다.

4. AI 출력을 반드시 검토하세요

AI가 생성한 자막은 최종 결과물이 아닌 초안입니다. 항상 다음 사항을 검토하세요.

전문 용어 (Whisper가 특수한 분야의 단어를 잘못 표기할 수 있음)
동음이의어 (예: “하다”와 “하다” 등 동음어 표기 혼동)
화자 구분 (여러 사람이 대화하는 경우)
구두점과 띄어쓰기

5. 적절한 형식을 선택하세요

SRT — 가장 널리 지원되는 형식으로, 대부분의 환경에서 사용 가능
VTT — 웹 표준 형식으로, 스타일링 지원
번인(Burn-in) — 영상 픽셀에 직접 삽입, 플레이어 자막 지원 불필요

결론

수동 자막 작성은 많은 시간이 소요됩니다. AI는 검토하고 수정할 수 있는 초안을 생성해주어, 처음부터 전사하는 것보다 훨씬 빠르게 작업을 완료할 수 있게 해줍니다.

개인정보 보호가 중요하고 간결한 워크플로를 원한다면, DalVideo처럼 Whisper를 로컬에서 실행하는 도구를 사용하면 녹화본을 클라우드 서비스에 업로드할 필요가 없습니다. 녹화, 자막 생성, 편집, 내보내기까지 모두 하나의 앱에서, 사용자의 컴퓨터에서 완결됩니다.

DalVideo를 무료로 사용해 보세요 — AI 자막 기능은 무료 버전에서 아무런 제한 없이 사용할 수 있습니다.