다글로 (Daglo), Google Cloud Speech-to-Text, 네이버의 CLOVA Speech Recognition (CSR), lilys(릴리스) ai 등은 음성을 인식하여 텍스트로 변환하거나 요약 및 번역하는 기능을 제공하는 AI 서비스인데요. 주로 회의, 강의, 유튜브 영상을 빠르고 손쉽게 요약하기 위해 많이 사용합니다. 하지만 유료 구독을 하거나 사용량이 한정되어 있는데요. 오늘은 무료로 사용할 수 있는 OpenAI의 음성 인식 모델 Whisper(휘스퍼) 설치 방법을 알아보겠습니다.
1. Whisper 설치하기
Whisper는 음성 인식하여 텍스트로 변환해주는 기능을 하는데요. 서버에 접속하는 클로드, 챗gpt, 제미나이와 다르게 내 컴퓨터에 설치하여 사용할 수 있는 오픈소스입니다. 다양한 언어 모델 지원 및 언어를 식별하며 무료로 사용할 수 있는 장점이 있습니다. 휘스퍼는 Python 3.9.9와 PyTorch 1.10.1에서 구동하니 설치 전에 버전을 꼭 확인하시기 바랍니다.
1) Whisper 라이브러리 설치하기
Visual Studio Code(비주얼 스튜디오 코드)나 Cursor와 같은 “코드 에디터” 를 실행하여 휘스퍼 라이브러리를 설치합니다. 터미널에 아래 코드를 붙여넣고 실행하면 간단히 설치할 수 있습니다. 아래 그림은 VS Code(비주얼 스튜디오 코드)에서 실행한 모습입니다.
pip install -U openai-whisper

2) ffmpeg 설치하기
휘스퍼를 실행하기 위해 “ffmpeg” 와 “chocolatey”를 설치해야 하는데요. 아래 순서를 참고하여 설치를 진행하세요. “https://chocolatey.org/“이동하여 “install”을 선택하면 설치 방법이 자세히 설명되어 있으니 참고하세요.

< 설치 순서 >
① Window PowerShell을 관리자 권한으로 실행

② 파워쉘에 “Set-ExecutionPolicy AllSigned” 입력
③ 변경사항에 “y”를 입력
④ 다시 파워쉘에 “Get-ExecutionPolicy” 입력하고 “AllSigned” 확인

⑤ Chocolatey를 설치하기 위해 아래 명령을 파워쉘이 붙여넣고 실행합니다.
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
⑥ 파워쉘 아래 명령을 입력하여 “ffmpeg”를 설치합니다.
choco install ffmpeg
3) ffmpeg 설치가 안될 때
위 코드를 붙여넣었을 때 설치가 되지 않는다면, Choco.exe가 있는 파일 경로를 환경 변수를 편집하여 추가해야 합니다. 일반적으로 “C:\ProgramData\chocolatey\bin”에 있지만 시스템에 따라 위치가 다를 수 있으니 경로를 먼저 확인하세요.

<환경 변수 추가 순서>
찾기 >> 시스템 환경 변수 >> 시스템 속성에서 “환경 변수” 클릭 >> “Path” 더블 클릭 >> 환경 변수 편집에서 “새로 만들기” >> “C:\ProgramData\chocolatey\bin”를 입력 >> 확인 클릭 >> 파워쉘 다시 실행 후 ffmpeg를 설치하세요.

마치며
무료로 음성을 텍스트로 변환하는 OpenAI의 Whisper 설치 방법에 대해 알아보았는데요. 해당 모델은 무료이지만, 준수한 성능을 제공합니다. 오늘은 파이썬에서 구동할 수 있도록 Whisper 라이브러리 설치와 Power-shell을 이용한 ffmpeg, Choco를 설치하는 과정을 알아보았는데요. 다음 시간에는 휘스퍼를 활용하는 방법에 대해서 알아보겠습니다.