[ASR] Kaldi란?

728x90

Kaldi는 자동 음성 인식(ASR, Automatic Speech Recognition) 시스템을 개발하는 데 필요한 알고리즘, 모델, 툴을 제공하는 오픈소스 소프트웨어 툴킷이다.

Kaldi ASR

Kaldi's code lives at https://github.com/kaldi-asr/kaldi. To checkout (i.e. clone in the git terminology) the most recent changes, you can use this command git clone https://github.com/kaldi-asr/kaldi or follow the github link and click "Download in zip" o

kaldi-asr.org

Kaldi는 고성능, 유연성 높은 음성 인식 개발 도구로, 복잡한 ASR 시스템부터 최신 딥러닝 기반 모델까지 연구 및 산업 적용이 가능한 강력한 오픈소스 플랫폼이다.

Kaldi의 특징

최신 음성 인식 알고리즘 지원 : 딥러닝 기반, HMM-DNN 하이브리드, TDNN, LSTM, Transformer 등
Feature Extraction : MFCC, fbank, pitch 등 다양한 음향 특징 추출 지원
Training & Decoding : GMM, DNN, TDNN, LSTM 기반 모델의 학습 및 디코딩
음향 모델 (Acoustic Model) : 다양한 모델로 음성을 벡터화하여 인식 가능
언어 모델 (Language Model) : n-gram, RNNLM 연동 가능
그래프 기반 디코딩 (WFST) : Weighted Finite-State Transducer를 이용한 강력한 검색과 디코딩
멀티스피커/다국어 지원 : 다양한 언어 및 발화자에 대응 가능한 시스템 구축
End-to-End 시스템 연동 : 최근 Transformer, Attention 기반 모델도 연구 적용 가능

Kaldi의 구성 (Architecture)

구성 요소	역할
Feature Extraction	음성 신호 → 특성(MFCC, filterbank 등) 변환
Acoustic Model	음성 특징 → 음소(phoneme), 단어 확률 예측
Lexicon	발음 사전, 단어 → 발음으로 매핑
Language Model	문장 구성의 확률 모델 (n-gram, RNN 등)
Decoder	그래프(WFST) 기반으로 음성 데이터를 문장으로 변환

Kaldi의 학습 및 인식 파이프라인

[음성 데이터] → [Feature Extraction] → [Acoustic Model Training] 
                                        ↓
                                [Decoding Graph (WFST)] ← [Language Model + Lexicon]
                                        ↓
                                [Decoding (음성 → 텍스트)]

예시 워크플로우

데이터 준비 (Data preparation)
특징 추출 (Feature extraction)
음향 모델 학습 (Acoustic model training)
디코딩 그래프 준비 (Graph preparation)
디코딩 (Decoding)
결과 평가 (Evaluation)

Kaldi의 장점과 단점

장점	단점
매우 강력하고 유연한 음성 인식 시스템 개발 가능	복잡한 설정 및 높은 학습 난이도
다양한 최신 음향 모델과 디코더 지원	딥러닝/End-to-End 모델은 직접 구축 필요
연구 및 산업 모두 사용 가능	설치 및 빌드 복잡 (특히 C++ 라이브러리 의존)
다양한 언어, 멀티 스피커 지원	GUI 부족, 명령줄 중심

Kaldi 설치

Kaldi Github에서 프로젝트를 Clone한 후 환경을 설정해 준다.

사전 구축된 데이터셋 예제 (LibriSpeech, TED-LIUM 등) 제공
Python Wrapper (PyKaldi) 사용 시 Python에서도 활용 가능

GitHub - kaldi-asr/kaldi: kaldi-asr/kaldi is the official location of the Kaldi project.

kaldi-asr/kaldi is the official location of the Kaldi project. - kaldi-asr/kaldi

github.com

git clone https://github.com/kaldi-asr/kaldi.git
cd kaldi/tools
make
cd ../src
./configure
make -j $(nproc)

Kaldi 활용 예제

# LibriSpeech 데이터로 음성 인식 모델 학습 예제
cd kaldi/egs/librispeech/s5
./run.sh  # 전체 워크플로우 실행 (특징 추출, 학습, 디코딩, 평가)

Kaldi 기반 STT를 TCP로 구현하기 위해서는클라이언트가 TCP로 음성 스트림 전송
서버에서 Kaldi Online2 데코더를 통해 실시간 음성 인식 (STT) 수행
인식된 텍스트를 클라이언트로 TCP 응답