STT λͺ¨λΈμ ꡬμ±νκΈ° μν μμμΈ μΈμ΄λͺ¨λΈκ³Ό λ°μμ¬μ μ λν΄ μμ보μλ€.
νκ΅μ΄λ μμ΄μ μμ 체κ³, μ΄μ κ΅¬μ± λ±μ΄ λ¬λΌ λͺ¨λΈ μ μ©λ²λ λ€λ₯΄λ―λ‘ μ‘°κΈ λ 볡μ‘ν κ²½ν₯μ΄ μλ€.
λ°μμ¬μ (Lexicon)
λ¨μ΄(Word)λ₯Ό μμ(Phoneme)λ‘ λ§€ννλ ν(Table) μν λ‘, λ¨μ΄ μ¬μ μ΄μ λ°μ κ·μΉμ μ μνλ€.
Kaldiμμ μν₯λͺ¨λΈμ μμ λ 벨κΉμ§ νμ΅ λ° μΆλ ₯νκΈ° λλ¬Έμ λ¨μ΄ λ³νμ λ°μ ν κ΄κ³κ° μλ€.
κ°μ λ¨μ΄λΌλ μ¬λ¬ λ°μμ΄ μ‘΄μ¬ν μ μμΌλ―λ‘, ν λ¨μ΄μ μ¬λ¬ λ°μμ λ±λ‘ν μλ μλ€. (= multi-pronunciation)
κ΅¬μ± μμ
- μμ μ§ν© (phones.txt) : λ°μμ μ¬μ©ν μ 체 μμ 리μ€νΈ
- κΈ°λ³Έ λ¨μ΄ μΈμ <sil> (silence, 무μ), <unk> (unknown, μ μ μμ) λ± νΉμ ν ν°μ΄ νμμ΄λ€.
- νκ΅μ΄λ μμ(μμ, λͺ¨μ) λ¨μλ‘λ κ°λ₯νκ³ , μμ (μ΄μ±+μ€μ±+μ’ μ±) λ¨μλ‘λ κ°λ₯νλ€. μΌλ°μ μΌλ‘λ μμ λ¨μλ‘ κ΅¬μ±νλ κ²½μ°κ° λ§λ€. (μ²λ¦¬κ° λ¨μνκΈ° λλ¬Έ)
# μμ λ¨μ μμ
μλ
νμΈμ μ λ
ν μΈ μ
λ°κ°μ΅λλ€ λ° κ° μ΅ λ λ€
κ³ λ§μ΅λλ€ κ³ λ§ μ΅ λ λ€
μ¬λν΄μ μ¬ λ ν΄ μ
# μμ λ¨μ μμ
μλ
νμΈμ Κ a n n j Κ Ε h a s e j o
λ°κ°μ΅λλ€ p a n k a p s Ι― p n i d a
κ΅¬μΆ λ°©λ²
μκ·λͺ¨μΈ κ²½μ° μ¬λμ΄ μ§μ μμ±νλ μμμ μΌλ‘λ ꡬμ±μ΄ κ°λ₯νλ, μλμ κ°μ λ°©λ²μΌλ‘ μλ μμ±λ κ°λ₯νλ€.
- G2P λͺ¨λΈ (Grapheme-to-Phoneme) μ΄μ©
- ex) Phonetisaurus, Sequitur G2P λ±
- κΈ°μ‘΄ κ³΅κ° μ¬μ νμ©
- ex) CMU Pronouncing Dictionary λ± μ¬μ© ν κ°κ³΅
μ£Όμ μ¬ν
- λ°μμ¬μ (Lexicon)μ μλ λ¨μ΄λ OOV(Out-Of-Vocabulary)κ° λ°μ(ν΄λΉ λ¨μ΄λ₯Ό μ°Ύμ§ λͺ»ν΄ λ―ΈμΈμ)ν μ μλ€.
- Training, Text Corpusμ λ±μ₯νλ λͺ¨λ λ¨μ΄λ λ°μμ¬μ (Lexicon)μ λ°λμ μ‘΄μ¬ν΄μΌ νλ€.
- νΉμ λ¨μ΄(μ«μ, κΈ°νΈ λ±)λ λ°λ‘ λ°μμ μΆκ°ν΄μΌ νλ€.
μΈμ΄λͺ¨λΈ(LM)
νλ₯ μ κΈ°λ°μΌλ‘ λ¨μ΄ μνμ€μ μμ°μ€λ¬μμ νλ¨νμ¬, λμΌ λ°μμμ λ¬Έλ§₯μ λ μ ν©ν λ¨μ΄ μνμ€λ₯Ό μ ννλ€.
μν₯λͺ¨λΈμ μμλ₯Ό μ 곡νκ³ , Lexiconκ³Ό LMμ ν΅ν΄ λ¨μ΄μ λ¬Έμ₯μ μ‘°ν©ν μ΅μ’ λ¨μ΄ μνμ€λ₯Ό μμ±νλ€.
- ex) "I scream"κ³Ό "Ice cream"μ΄λΌλ λ°μμ΄ μ μ¬ν λ¬Έμ₯μ΄ μλ€λ©΄, λ¬Έλ§₯μ λ°λΌ μ ννκ² ν΄μμ μ λνλ€.
νμ΅ λ°©λ²
μΌλ°μ μΌλ‘ N-gram κΈ°λ°μ νλ₯ μΈμ΄λͺ¨λΈμ μ¬μ©νλ©°, λ³΄ν΅ ARPA ν¬λ§·(lm.arpa), FSTλ‘ λ³ννμ¬ μ¬μ©(G.fst)νλ€.
νμ΅ λ°μ΄ν°μ ν μ€νΈ μ½νΌμ€(λ¬Έμ₯ λͺ¨μ)λ‘ νμ΅λλ€.
- λμ©λ ν μ€νΈ μ½νΌμ€ μ€λΉ → N-gram λͺ¨λΈ νμ΅ (3, 4 λ§μ΄ μ¬μ©) → ARPA ν¬λ§·μΌλ‘ μ μ₯ → Kaldiμμ arpa2fst ν΄λ‘ FSTλ‘ λ³ν ν μ¬μ©
# ν
μ€νΈ μ½νΌμ€ μμ
μλ
νμΈμ λ°κ°μ΅λλ€
μ€λ λ μ¨κ° μ’λ€μ
μ»€νΌ ν μ μ£ΌμΈμ
νκ΅μ΄ μμ± μΈμμ νμ΅νκ³ μμ΅λλ€
νκ΅μ΄λ μ΄μ (λμ΄μ°κΈ° κΈ°μ€) κΈ°λ° LMμ΄ λ§μλ°, ννμ κΈ°λ° LM μ¬μ© μ λ μΈλ°ν λ¬Έλ§₯μ λ°μν μ μλ€. (mecab-ko, khaiii λ±μΌλ‘ λΆμ ν ννμ λ¨μ LMμ ꡬμ±νλ κ²)
- N-gram : λ¬Έμμ΄(Text) λ΄μμ μ°μλ Nκ°μ νλͺ©(Token)μ μνμ€. (= λ³΄ν΅ λ¨μ΄, μμ , μμ λ±)
- μ¦, Nκ°μ μ°μλ ν ν°μ΄ λ±μ₯ν νλ₯ μ νμ΅νμ¬ λ¬Έμ₯ λ΄μμ μ΄λ€ ν ν°μ΄ μ¬μ§ μμΈ‘νλ λ°©λ²μ΄λ€.
# μλ μμ λ¬Έμ₯μ΄ λ€μ΄μμ λ,
μλ
νμΈμ λ°κ°μ΅λλ€
# 1-gram (unigram) μ΄λΌλ©΄ 'λ¨μΌ λ¨μ΄ νλ₯ 'λ§
P(μλ
νμΈμ), P(λ°κ°μ΅λλ€)
# 2-gram (bigram) μ΄λΌλ©΄ 'λ¨μ΄μ νλ₯ 'μ
P(λ°κ°μ΅λλ€ | μλ
νμΈμ)
# 3-gram (trigram) μ΄λΌλ©΄ '3λ¨μ΄ μνμ€ νλ₯ '
# <s>λ λ¬Έμ₯ μμ κΈ°νΈμ
P(λ°κ°μ΅λλ€ | μλ
νμΈμ <s>)
# μ¦ 'μ΄μ N-1κ°μ λ¨μ΄κ° μ£Όμ΄μ‘μ λ νμ¬ λ¨μ΄κ° λ±μ₯ν νλ₯ '
P(w_n | w_{n-1}, w_{n-2}, ..., w_{n-N+1})
νκ΅μ΄μμμ N-gramμ μμ΄λ³΄λ€ μ‘°κΈ λ νΉλ³ν νΉμ§μ΄ μλλ°,
- λ¨μ΄ λ³νκ° λ§€μ° λ€μ(μ‘°μ¬, μ΄λ―Έμ λ³νμ λ°λΌ)νμ¬ ν¬μμ±μ΄ μ¦κ°νκ³
- ννμ λΆμ κΈ°λ° LMμ΄ μΌλ°μ μΌλ‘ μ±λ₯μ΄ μ°μνλ€.
- "ν©λλ€", "νμλ€", "νκ³ μμ΅λλ€"λ₯Ό λμΌν κΈ°λ³Έν "νλ€"λ‘ ν΅μΌν μ μκΈ° λλ¬Έ
# μ΄μ κΈ°λ° N-gram
μλ
νμΈμ λ°κ°μ΅λλ€
## 1-gram:
P(μλ
νμΈμ), P(λ°κ°μ΅λλ€)
## 2-gram:
P(λ°κ°μ΅λλ€ | μλ
νμΈμ)
# ννμ κΈ°λ° N-gram
μλ
/NNG ν/XSV μμ/EF λ°κ°/VA μ΅λλ€/EF
## 1-gram:
P(μλ
), P(ν), P(μμ), P(λ°κ°), P(μ΅λλ€)
## 2-gram:
P(ν | μλ
), P(μμ | ν), P(λ°κ° | μμ), P(μ΅λλ€ | λ°κ°)
μ€μμ± (μν )
λμΌν μμ± κ²°κ³Όμ λν΄ κ°μ₯ κ°λ₯μ± λμ λ¨μ΄μ΄μ μ ννκ³ , μν₯λͺ¨λΈμ μ€λ₯λ₯Ό 보μ(λ°μμ΄ λΉμ·ν λ¨μ΄λ₯Ό ꡬλΆνλ€κ±°λ)νλ λ± λ¬Έλ§₯ μ΄ν΄λ₯Ό ν΅ν΄ μΈμ μ νλ ν₯μμ λμμ΄ λκΈ° λλ¬Έμ μΈμ΄λͺ¨λΈμ μ€μνλ€.
λ°μ μ¬μ μ μμ λ¨μ,
μΈμ΄ λͺ¨λΈμ N-gram(μ΄μ λ¨μ)λ‘ κ΅¬μ±νλ κ² κ°μ₯ κ°νΈνκ³ κ΅¬μΆμ΄ μ©μ΄ν λ°©λ²μ΄λ
μμ κΈ°λ°μ λ°μ μ¬μ + ννμ κΈ°λ°μ μΈμ΄ λͺ¨λΈμ μ¬μ©νλ κ² νμ§ λ©΄μμ μ 리νλ€. (λμ΄λλ λμ)
'π€ AI' μΉ΄ν κ³ λ¦¬μ λ€λ₯Έ κΈ
[ASR] Kaldiλ? (0) | 2025.03.17 |
---|---|
A Survey of Embodied AI: From Simulators to Research Tasks λ Όλ¬Έ μ 리 - (2) (0) | 2022.07.13 |
A Survey of Embodied AI: From Simulators to Research Tasks λ Όλ¬Έ μ 리 - (1) (0) | 2022.07.12 |