๋ณธ ๊ธ์ ํด๋น ๋ ผ๋ฌธ์ ํด์ํ์ฌ ๊ด๋ จ ์ฐ๊ตฌ์ ๋์์ ๋ฐ๊ธฐ ์ํด ์์ฑํ ๊ธ๋ก, ์ค์ญ๊ณผ ์คํ์ ๋ฑ์ด ์กด์ฌํ ์ ์์ต๋๋ค. ๋ํ, ๊ฐ์ธ์ ์ธ ํด์์ด ํฌํจ๋์ด ์์ผ๋ฏ๋ก ๋ณด๋ค ์ ํํ ์ดํด๋ฅผ ์ํ์๋ ๊ฒฝ์ฐ ๋ณธ๋ฌธ์ ์ฐธ์กฐํด์ฃผ์๊ธฐ ๋ฐ๋๋๋ค.

A Survey of Embodied AI : ๋ ผ๋ฌธ ์ ๋ฆฌ (1)์์ ์์ฑํ ๋ด์ฉ์ ๋ท๋ถ๋ถ์ผ๋ก, Survey์ III Part ๋ด์ฉ์ ์ ๋ฆฌํ์๋ค.
III. Research in Embodied AI
์ด ์น์ ์์๋ ์ด์ ์น์ ์์ ์กฐ์ฌํ 9๊ฐ์ Simulator์ ์์กดํ๋ ๋ค์ํ Task์ ๋ํด ๋ ผ์ํ๋ค.
์ต๊ทผ Embodied AI ์ฐ๊ตฌ๊ฐ ์ฆ๊ฐํ๋ ๋ฐ์๋ ์ฌ๋ฌ ๊ฐ์ง ๋๊ธฐ๊ฐ ์๋ค. ์ธ์ง๊ณผํ๊ณผ ์ฌ๋ฆฌํ์ ๊ด์ ์์ ๊ตฌํ ๊ฐ์ค์, ์ง๋ฅ์ด ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ๊ณผ ๊ฐ๊ฐ ์ด๋ ํ๋์ ๊ฒฐ๊ณผ์์ ๋ฐ์ํ๋ค๋ ๊ฒ์ด๋ค. ์ง๊ด์ ์ผ๋ก, ์ธ๊ฐ์ ๋๋ถ๋ถ์ ๊ฒฝํ์ด ๋ฌด์์ํ๋๊ณ ์๋์ ์ธ(์ฆ, ์ธ๋ถ์ ์ผ๋ก ํ๋ ์ด์ ๋) "Internet AI" ํจ๋ฌ๋ค์์ ํตํด์๋ง ํ์ตํ์ง ์๋๋ค. ์ธ๊ฐ์ ๋ฅ๋์ ์ธ ์ง๊ฐ, ์์ง์, ์ํธ์์ฉ, ์์ฌ์ํต์ ํตํด ๋ฐฐ์ด๋ค. AI ๊ด์ ์์, Embodied AI์ ํ์ฌ Task๋ ๋งคํ ๋ฐ Navigation๊ณผ ๊ฐ์ ๋ก๋ด ๊ธฐ๋ฅ์ ์ํ ๋ณด์ด์ง ์๋ ํ๊ฒฝ์ ๋ํ ์ผ๋ฐํ์ ๊ด๋ จ๋ ํ์ต์ผ๋ก ์ธํ ๊ณ ์ ์ ๋ฐฉ๋ฒ์ ๋นํด ์ผ์ ๋ ธ์ด์ฆ์ ๋ํ ๊ฒฌ๊ณ ์ฑ์ด ํฅ์๋๋ค. ๋ํ, Embodied AI๋ ๊น์ด, ์ธ์ด, ์ค๋์ค์ ๊ฐ์ ๋ค์ํ ์์์ด ํ์ต ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ํตํด ์ฝ๊ฒ ํตํฉ ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ ์ ์ฐ์ฑ๊ณผ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฅํ๋ค.
Embodied AI Task์ 3๊ฐ์ง ์ฃผ์ ์ ํ์ Visual Exploration, Visual Navigation, Embodied QA์ด๋ค. Embodied AI์ ๊ธฐ์กด ๋ ผ๋ฌธ์ ๋๋ถ๋ถ ์ด Task์ ์ค์ ์ ๋๊ฑฐ๋ ๋ชจ๋์ ์ฌ์ฉํ์ฌ ์ค๋์ค-๋น์ฃผ์ผ Navigation๊ณผ ๊ฐ์ด ๋ณต์กํ ์์ ์ ๋ํ ๋ชจ๋ธ์ ๊ตฌ์ถํ๊ธฐ ๋๋ฌธ์ ๋ณธ ๋ ผ๋ฌธ์์๋ ์ด 3๊ฐ์ง Task์ ์ค์ ์ ๋ ๊ฒ์ด๋ค.
Task๋ Navigation์์ QA๋ก ์งํ๋ ์๋ก ๋ณต์ก์ฑ์ด ์ฆ๊ฐํ๋ค. Exploration์ ์์ํ ํ Navigation์ ๊ฑฐ์ณ ์ต์ข ์ ์ผ๋ก QA๋ฅผ ๊ตฌํํ๋ค. Task ๊ฐ๊ฐ์ ๋ค์ Task์ ํ ๋๋ฅผ ์ด๋ฃจ๊ณ ์์ผ๋ฉฐ, ๊ทธ๋ฆผ 5์ ๊ฐ์ด Embodied AI Task์ ํผ๋ผ๋ฏธ๋ ๊ตฌ์กฐ๋ฅผ ํ์ฑํ๊ณ ์์ผ๋ฉฐ ํด๋น ๋ถ์ผ์ ๋ํ ์์ฐ์ค๋ฌ์ด ๋ฐฉํฅ์ ์ ์ํ๋ค. ์ฐ๋ฆฌ๋ ๋ฐ์ดํฐ์ ์ ๋ํ ์์ฝ, ๋ฐฉ๋ฒ๋ก , ํ๊ฐ ์งํ๋ฅผ ์์์ผ๋ก ๊ฐ Task์ ๋ํ ์ค์ํ ์ธก๋ฉด์ ๊ฐ์กฐํ ๊ฒ์ด๋ฉฐ ์ธ๋ถ ์ ๋ณด๋ ํ III์์ ํ์ธํ ์ ์๋ค.
3๋ ๊ณผ์ VE, VN, EQA์ ์ต์ ์ ๊ทผ๋ฒ, ํ๊ฐ๋ฒ, ๋ฐ์ดํฐ์ ์ ๋ํด์ ๋ค๋ฃฌ๋ค.
- Visual Exploration
- Visual Navigation
- Embodied Question Answering
A. Visual Exploration
Visual Exploration์์ Agent๋ ์ผ๋ฐ์ ์ผ๋ก ์์ง์๊ณผ ์ธ์์ ํตํด 3D ํ๊ฒฝ์ ๋ํ ์ ๋ณด๋ฅผ ์์งํ์ฌ ์๊ฐ์ ํ์๊ณผ ๊ฐ์ด ๋ค์ด์คํธ๋ฆผ ์์ ์ ์ ์ฉํ ์ ์๋ ํ๊ฒฝ์ ๋ด๋ถ ๋ชจ๋ธ์ ์ ๋ฐ์ดํธํ๋ค. ๋ชฉํ๋ ์ด ์์ ์ ๊ฐ๋ฅํ ํจ์จ์ ์ผ๋ก ์ํํ๋ ๊ฒ์ด๋ค. (ex. ๊ฐ๋ฅํ ์ ์ ๋จ๊ณ๋ก)
๋ด๋ถ ๋ชจ๋ธ์ Topological graph map(์์ ๊ทธ๋ํ ๋งต), Semantic map(์๋ฏธ ๋งต), Occupancy map(์ ์ ๋งต), Spatial memory(๊ณต๊ฐ ๋ฉ๋ชจ๋ฆฌ)์ ๊ฐ์ ํ์์ด ๋ ์ ์๋ค. ์ด๋ฌํ ์ง๋ ๊ธฐ๋ฐ ์ํคํ ์ฒ๋ ๊ธฐํํ๊ณผ ์๋ฏธ๋ก ์ ํฌ์ฐฉํ ์ ์์ด ๋ฐ์์ ์ด๊ณ ๋ฐ๋ณต์ ์ธ ์ ๊ฒฝ๋ง ์ ์ฑ ์ ๋นํด ๋ ํจ์จ์ ์ธ ์ ์ฑ ํ์ต๊ณผ ๊ฒํ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Visual Exploration์ ์ผ๋ฐ์ ์ผ๋ก Visual Navigation ์์ ์ ์ ์ํ๋๊ฑฐ๋ ๋์์ ์ํ๋๋ค.
์ฒซ ๋ฒ์งธ ๊ฒฝ์ฐ, Visual Exploration์ ๋ค์ด์คํธ๋ฆผ ํ์ ์์ ์์ path-planning(๊ฒฝ๋ก ๊ณํ)์ ์ ์ฉํ ๋ด๋ถ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๊ตฌ์ถํ๋ค. Agent๋ ํญํด๋ฅผ ์์ํ๊ธฐ ์ ์ ํน์ ์์ฐ(ex. ์ ํ๋ ์์ ๋จ๊ณ) ๋ด์์ ์์ ๋กญ๊ฒ ํ๊ฒฝ์ ํ์ํ๋ค. ๋ ๋ฒ์งธ ๊ฒฝ์ฐ, Agent๋ ๋ณด์ด์ง ์๋ ํ ์คํธ ํ๊ฒฝ์ ํ์ํ๋ฉด์ ์ง๋๋ฅผ ๊ตฌ์ถํ์ฌ ๋ค์ด์คํธ๋ฆผ ์์ ๊ณผ ๋์ฑ ๊ธด๋ฐํ๊ฒ ํตํฉ๋๋ค.
์ด ์น์ ์์๋ ๊ธฐ์กด์ Visual Exploration Survey ๋ ผ๋ฌธ์ ๊ธฐ๋ฐ์ผ๋ก ๋ ์ต์ ์์ ๊ณผ ๋ฐฉํฅ์ ๊ธฐ์ ํ๋ค.
๊ณ ์ ์ Robotics์์ Exploration์ ์๋์ ๋๋ ๋ฅ๋์ ๋์ ์์น ๊ฒฐ์ ๋ฐ ๋งคํ(SLAM)์ ํตํด ํ๊ฒฝ์ ์ง๋๋ฅผ ๊ตฌ์ถํ๋ค. ์ด ์ง๋๋ ํ์ ์์ ์ ๋ํ ํ์งํ ๋ฐ ๊ฒฝ๋ก ๊ณํ์ ์ฌ์ฉ๋๋ค. SLAM์ ๋งค์ฐ ์ ์ฐ๊ตฌ๋์์ง๋ง ์์ ๊ธฐํํ์ ์ ๊ทผ๋ฒ์ ๊ฐ์ ์ด ํ์ํ๋ค. ์ผ์์ ์์กดํ๊ธฐ ๋๋ฌธ์ ํน์ ๋ ธ์ด์ฆ์ ์ทจ์ฝํ๊ธฐ ๋๋ฌธ์ด๋ค. ๋ฐ๋ฉด, RGB ๋ฐ ๊น์ด ์ผ์๋ฅผ ์ฌ์ฉํ๋ ํ์ต ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์์ ๋ ธ์ด์ฆ์ ๋ ๊ฐํ๋ค. ๋ํ ํ์ต ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์์ ํตํด ์ธ๊ณต Agent๋ ์๋ฏธ๋ก ์ ์ดํด(ex. Environment - Object Type)๋ฅผ ํตํฉํ๊ณ ์ด์ ์ ๋ณธ ํ๊ฒฝ์ ๋ํ ์ง์์ ์ผ๋ฐํํ์ฌ ์๋ก์ด ํ๊ฒฝ์ ๊ฐ๋ ํ์ง ์์ ๋ฐฉ์์ผ๋ก ์ดํดํ๋ ๋ฐ ๋์์ด ๋๋ค. ๋ฐ๋ผ์ ์ธ๊ฐ์ ๋ํ ์์กด์ ๊ฐ์์ํฌ ์ ์๋ค.
์ง๋ ํํ๋ก ํ๊ฒฝ์ ์ ์ฉํ ๋ด๋ถ ๋ชจ๋ธ์ ์์ฑํ๋ ๋ฐฉ๋ฒ์ ํ์ตํ๋ฉด Agent์ ์ฑ๋ฅ์ด ํฅ์๋ ์ ์๋ค. ์ง๋ฅํ ํ์ฌ๋ ๊ตฌ์กฐ ๋ก๋ด ๋ฐ ์ฌํด ํ์ฌ ๋ก๋ด๊ณผ ๊ฐ์ด Agent๊ฐ ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ๋์ ์ผ๋ก ์ ๊ฐ๋๋ ์๋ก์ด ํ๊ฒฝ์ ํ์ํด์ผ ํ๋ ๊ฒฝ์ฐ์๋ ์ ์ฉํ๊ฒ ์ฌ์ฉ๋ ์ ์๋ค.
Visual Exploration์ Visual Navigation ์ด์ ๋๋ ๋์์ ์ํ๋๋ค.
- VN ์ด์ ์ ์ํ๋๋ ๊ฒฝ์ฐ: ์ ์ฉํ path-planning์ ํ์ํ ๋ด๋ถ ๋ฉ๋ชจ๋ฆฌ๊ฐ ๋ฏธ๋ฆฌ ๋น๋๋จ. Navigate ์ ์๋ Agent๊ฐ ํ์ ๋ ์์ฐ ์์์ ์์ ๋กญ๊ฒ ์ด๋ํ ์ ์์
- VN๊ณผ ๋์์ ์ํ๋๋ ๊ฒฝ์ฐ: Agent๊ฐ ์ฒ์ ๋ณด๋ ํ ์คํธ ํ๊ฒฝ์ ํ์ฌํ ๋ ๋งต์ ๋น๋ํ์ฌ ๋ค์ ์์ ๊ณผ ๋์ฑ ํตํฉ๋จ
์ ํต์ Robotics ๋งต์ ๋น๋์ Exploration์ ์๋/๋ฅ๋์ ์ด๊ณ SLAM์ ํตํด์๋ง ์ด๋ฃจ์ด์ก๋ค.
- ์ผ์์ ์์กดํ๋ฏ๋ก ์ธก์ ์ ๋ํ ๋ ธ์ด์ฆ์ ๋ฏผ๊ฐํ๊ณ ๊ด๋ฒ์ํ ํ์ธ ํ๋์ด ํ์ํ๋ค.
- (↔) ํ์ต ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ(RGB or ๊น์ด ์ผ์)์ ๋ ธ์ด์ฆ์ ๋ ๊ฐ๋ ฅํ๊ณ , ์ธ๊ณต Agent๊ฐ ์๋ฏธ๋ก ์ ์ดํด๋ฅผ ํตํฉํ๊ณ ์ง์์ ์ผ๋ฐํํ๋ค. ์ธ๊ฐ์ ๋ํ ์์กด์ด ์ต์ํ๋์ด ํจ์จ์ ์ด๋ค.
๋ด๋ถ ๋ชจ๋ธ์ ์ ๊ตฌ์ฑํด์ผ Agent์ ์ฑ๋ฅ์ด ํฅ์๋๋ค.
- VE ๋ด๋ถ ๋ชจ๋ธ: Topological graph map(์์ ๊ทธ๋ํ ๋งต), Semantic map(์๋ฏธ ๋งต), Occupancy map(์ ์ ๋งต), Spatial memory(๊ณต๊ฐ ๋ฉ๋ชจ๋ฆฌ) ๋ฑ
1) Approaches
์ด ์น์ ์์ ์๊ฐ์ ํ๊ตฌ์ non-based ์ ๊ทผ๋ฒ์ ๋ถ๋ถ์ ์ผ๋ก ๊ด์ฐฐ๋ Markov ์์ฌ ๊ฒฐ์ ๊ณผ์ (POMDPs)์ผ๋ก ๊ณต์ํ๋๋ค. POMDP๋ ์ํ ๊ณต๊ฐ S, ์์ฉ ๊ณต๊ฐ A, ์ ์ด ๋ถํฌ T, ๋ณด์ ํจ์ R, ๊ด์ธก ๊ณต๊ฐ โฆ, ๊ด์ธก ๋ถํฌ O, ํ ์ธ ๊ณ์ y ∈ [0, 1]์ ๊ฐ๋ 7๊ฐ์ ํํ(S, A, T, R, โฆ, O, γ)๋ก ๋ํ๋ผ ์ ์๋ค. ์ผ๋ฐ์ ์ผ๋ก ์ด๋ฌํ ์ ๊ทผ๋ฒ์ POMDP์ ํน์ ๋ณด์ ํจ์๋ก ๊ฐ์ฃผ๋๋ค.
Baselines.
Visual Exploration์๋ ๋ช ๊ฐ์ง ๊ณตํต Baseline(๊ธฐ์ค์ )์ด ์๋ค. random-actions์ ๊ฒฝ์ฐ Agent๋ ๋ชจ๋ Action์ ๋ํ ๊ท ์ผํ ๋ถํฌ์์ ํ๋ณธ์ ์ถ์ถํ๋ค. forward-action์ ๊ฒฝ์ฐ ํญ์ ์๋ฐฉํฅ Action์ ์ ํํ๋ค. forward-action+์ ๊ฒฝ์ฐ Agent๋ ์๋ฐฉํฅ Action์ ์ ํํ์ง๋ง ์ถฉ๋ํ ๊ฒฝ์ฐ ์ผ์ชฝ์ผ๋ก ํ์ ํ๋ค. frontier-exploration์ ๊ฒฝ์ฐ ์ง๋๋ฅผ ์ฌ์ฉํ์ฌ ์์ ๊ณต๊ฐ๊ณผ ๋ฏธ๊ฐ์ฒ ๊ณต๊ฐ ์ฌ์ด์ ๊ฐ์ฅ์๋ฆฌ๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ๋ฐฉ๋ฌธํ๋ค.
Curiosity.
ํธ๊ธฐ์ฌ ์ ๊ทผ ๋ฐฉ์์์ Agent๋ ์์ธกํ๊ธฐ ์ด๋ ค์ด ์ํ๋ฅผ ๊ฐ๋๋ค. ์์ธก ์ค์ฐจ๋ ๊ฐํ ํ์ต์ ๋ณด์ ์ ํธ๋ก ์ฌ์ฉ๋๋ค. ์ด๋ ์ธ๋ถ ๋ณด์์ด ํฌ๋ฐํ ๊ฒฝ์ฐ์ ์ ์ตํ๋ฏ๋ก ํ๊ฒฝ์ผ๋ก๋ถํฐ์ ์ธ๋ถ ๋ณด์๋ณด๋ค๋ ๋ด์ฌ์ ๋ณด์๊ณผ ๋๊ธฐ ๋ถ์ฌ์ ์ด์ ์ ๋ง์ถ๋ค.
์ผ๋ฐ์ ์ผ๋ก ์์ค์ ์ต์ํํ๋ *forward-dynamics(์ ์ญํ) ๋ชจ๋ธ L(ˆst+1, st+1)์ด ์๋ค. ์ด ๊ฒฝ์ฐ, ˆst+1์ Agent๊ฐ st ์ํ์ผ ๋ at Action์ ์ทจํ ๊ฒฝ์ฐ ์์ธก๋๋ ๋ค์ ์ํ์ด๋ฉฐ st+1์ Agent๊ฐ ์ข ๋ฃ๋๋ ์ค์ ๋ค์ ์ํ์ด๋ค.
* forward-dynamics(์ ์ญํ): ๋ก๋ด์ ๋์ญํ ๋ชจ๋ธ ์ค ํ๋. ํ/ํ ํฌ๋ฅผ ๊ฐํ์ ๋ ๋ก๋ด์ ์์ง์ ๊ฒฐ๊ณผ(joint variable)
์ ์ฑ ์ต์ ํ๋ฅผ ์ํด Proximal Policy Optimization(PPO)๋ฅผ ์ฌ์ฉํ๋ ๊ฒ๊ณผ ๊ฐ์ Curiosity์ ๋ํ ์ค์ง์ ์ธ ๊ณ ๋ ค์ฌํญ์ด ์ต๊ทผ ์ฐ๊ตฌ์ ๋์ด๋์๋ค. Curiosity๋ ์ต๊ทผ ์ฐ๊ตฌ์์ Semantic map๊ณผ ๊ฐ์ ๋ ์ง๋ณด๋ ์ง๋๋ฅผ ์์ฑํ๋ ๋ฐ ์ฌ์ฉ๋์๋ค.
forward-dynamics ๋ชจ๋ธ์ ๋์ ์์ธก ์ค๋ฅ(์ฆ, ๋์ ๋ณด์)์ ๋ํด ํ๋ฅ ์ฑ์ ํ์ฉํ ์ ์๊ธฐ ๋๋ฌธ์ ํ๋ฅ ์ฑ์ Curiosity ์ ๊ทผ๋ฒ์ ์ฌ๊ฐํ ๋ฌธ์ ๋ฅผ ์ ๊ธฐํ๋ค. ์ด๋ "noisy-TV" ๋ฌธ์ ๋๋ Agent Actions ์คํ์ ๋ ธ์ด์ฆ์ ๊ฐ์ ์์ธ์ผ๋ก ์ธํด ๋ฐ์ํ ์ ์๋ค. ์ ์๋ ํด๊ฒฐ์ฑ ์ค ํ๋๋ Agent๊ฐ ์ด์ ์ํ st-1์์ ํ์ฌ ์ํ st๋ก ์ด๋ํ๊ธฐ ์ํด ์ทจํ Action์ ์ถ์ ํ๋ inverse-dynamics(์ญ์ญํ) ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๊ฒ์ผ๋ก Agent๊ฐ ํ๊ฒฝ์์ ์์ ์ ํ๋์ด ๋ฌด์์ ์ ์ดํ ์ ์๋์ง ์ดํดํ๋ ๋ฐ ๋์์ด ๋๋ค.
* inverse-dynamics(์ญ์ญํ): ๋ก๋ด์ ๋์ญํ ๋ชจ๋ธ ์ค ํ๋. ์ํ๋ motion์ ์ป๊ธฐ ์ํด ํ์ํ ํ/ํ ํฌ๋ฅผ ๊ตฌํ๋ ๊ฒ
์ด ๋ฐฉ๋ฒ์ ํ๊ฒฝ์ผ๋ก ํ์ฌ๊ธ ํ๋ฅ ์ฑ์ ํด๊ฒฐํ๋ ค๊ณ ์๋ํ์ง๋ง, Agent์ ํ๋์ผ๋ก ์ธํด ๋ฐ์ํ๋ ํ๋ฅ ์ฑ์ ํด๊ฒฐํ๋ ๋ฐ ์ถฉ๋ถํ์ง ์์ ์ ์๋ค. ํ ๊ฐ์ง ์๋ ์์ด์ ํธ๊ฐ ๋ฆฌ๋ชจ์ปจ์ ์ฌ์ฉํ์ฌ TV ์ฑ๋์ ์์๋ก ๋ณ๊ฒฝํด ์งํ ์์ด ๋ณด์์ ์ถ์ ํ ์ ์๋๋ก ํ๋ ๊ฒ์ด๋ค. ์ด (์ด๋ ค์ด) ๋ฌธ์ ๋ฅผ ๊ตฌ์ฒด์ ์ผ๋ก ํด๊ฒฐํ๊ธฐ ์ํด ์ต๊ทผ ๋ช ๊ฐ์ง ๋ฐฉ๋ฒ์ด ์ ์๋์๋ค.
์ฒซ ๋ฒ์งธ ๋ฐฉ๋ฒ์ธ Random Distillation network(๋๋ค ์ฆ๋ฅ ๋คํธ์ํฌ)๋ ๋ฌด์์๋ก ์ด๊ธฐํ๋ ์ ๊ฒฝ๋ง์ ์ถ๋ ฅ์ ์์ธกํ๋ ๊ฒ์ด๋ฉฐ, ๋ต์ ์ ๋ ฅ์ ๊ฒฐ์ ๋ก ์ ํจ์์ด๊ธฐ ๋๋ฌธ์ด๋ค. (Input์ ๋ฐ๋ผ Output์ด ์ ํด์ง๋?) ๋ ๋ฒ์งธ ๋ฐฉ๋ฒ์ Exploration by Disagreement(๋ถ์ผ์น์ ์ํ ํ์)์ผ๋ก, Agent๊ฐ forward-dynamics ๋ชจ๋ธ ์์๋ธ์ ์์ธก ์ฌ์ด์ ์ต๋ ๋ถ์ผ์น ๋๋ ๋ถ์ฐ์ ๊ฐ๋ ํ๋ ๊ณต๊ฐ์ ํ์ํ๋๋ก ์ฅ๋ ค๋๋ค. ๋ชจ๋ธ์ ํ๊ท ์ผ๋ก ์๋ ด๋๋ฉฐ, ์ด๋ ์์๋ธ์ ๋ถ์ฐ์ ์ค์ด๊ณ ํ๋ฅ ์ฑ ํธ๋ฉ์ ๊ฐํ๋ ๊ฒ์ ๋ฐฉ์งํ๋ค.
Coverage.
Coverage ์ ๊ทผ๋ฒ์์ Agent๋ ์ง์ ๊ด์ฐฐํ๋ ๋์์ ์์ ์ต๋ํํ๋ ค ํ๋ค. Agent๋ ์๊ธฐ์ค์ฌ์ ๊ด์ฐฐ์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ๋ฐฉํด ๊ฐ๋ฅํ 3D ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ํด์ผ ํ๋ค. ์ต๊ทผ ๋ฐฉ๋ฒ์ ๊ณ ์ ์ ๋ฐฉ๋ฒ๊ณผ ํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ๊ฒฐํฉ์ด๋ค. ๊ทธ๊ฒ์ end-to-end ์ ์ฑ ํ๋ จ๊ณผ ๊ด๋ จ๋ ๋์ ์ํ ๋ณต์ก์ฑ์ ํผํ๊ธฐ ์ํด ๊ณต๊ฐ ์ง๋๋ฅผ ์ ์งํ๋ ํ์ต๋ SLAM ๋ชจ๋๊ณผ ํจ๊ป ๋ถ์ path-planners๋ฅผ ์ฌ์ฉํ๋ค. ์ด ๋ฐฉ๋ฒ์๋ ์ค์ธ๊ณ์ Robotics์ ๋ํ ์ผ๋ฐ ๊ฐ๋ฅ์ฑ์ ๋ฌผ๋ฆฌ์ ํ์ค์ฑ์ ๊ฐ์ ํ๊ธฐ ์ํ ๋ ธ์ด์ฆ ๋ชจ๋ธ๋ ํฌํจ๋๋ค.
๋ ๋ค๋ฅธ ์ฐ๊ตฌ๋ ์ ์ฑ ๋คํธ์ํฌ์ ์ฅ๋ฉด ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํตํด ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์์ ์ฑํ๋ self-attention ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ๋ ์ฅ๋ฉด ๋ฉ๋ชจ๋ฆฌ ๋ณ์๊ธฐ์ด๋ค. ์ฅ๋ฉด ๋ฉ๋ชจ๋ฆฌ๋ ๋ง์ฃผ์น๋ ๋ชจ๋ ๊ด์ฐฐ์ ๋ด์ฅํ๊ณ ์ ์ฅํ์ฌ ์ ๋ ํธํฅ์ด ํ์ํ ์ง๋์ ๊ฐ์ ๋ฉ๋ชจ๋ฆฌ์ ๋นํด ๋ ํฐ ์ ์ฐ์ฑ๊ณผ ํ์ฅ์ฑ์ ์ ๊ณตํ๋ค.
Reconstruction.
Reconstrunction(์ฌ๊ตฌ์ฑ) ์ ๊ทผ๋ฒ์์ Agent๋ ๊ด์ฐฐ๋ ๋ณด๊ธฐ์์ ๋ค๋ฅธ ๋ณด๊ธฐ๋ฅผ ์ฌ์์ฑํ๋ค. ๊ณผ๊ฑฐ ์ฐ๊ตฌ๋ 360๋ ํ๋ ธ๋ผ๋ง์ CAD ๋ชจ๋ธ์ ํฝ์ ๋จ์ ์ฌ๊ตฌ์ฑ์ ์ด์ ์ ๋ง์ถ๊ณ ์์ผ๋ฉฐ, ์ด๋ ์ผ๋ฐ์ ์ผ๋ก ์ฌ๋์ด ์ฐ์ ์ฌ์ง์ ํ๋ ์ด์ ๋ ๋ฐ์ดํฐ ์ธํธ์ด๋ค. ์ต๊ทผ ์ฐ๊ตฌ๋ ์ด ์ ๊ทผ๋ฒ์ Embodied AI์ ์ ์ฉํ๋๋ฐ, ์ด๋ ๋ชจ๋ธ์ด Agent์ ์๊ธฐ์ค์ฌ์ ๊ด์ฐฐ๊ณผ ์์ฒด ์ผ์(์ฆ, ๋ฅ๋์ ์ธ์)์ ์ ์ด๋ก๋ถํฐ ์ฅ๋ฉด ์ฌ๊ตฌ์ฑ์ ์ํํด์ผ ํ๊ธฐ ๋๋ฌธ์ ๋ ๋ณต์กํ๋ค. ์ต๊ทผ ์ฐ๊ตฌ์์ Agent๋ ์๊ธฐ์ค์ฌ RGB-D ๊ด์ฐฐ์ ์ฌ์ฉํ์ฌ ๊ฐ์ ์์ญ์ ๋ฒ์ด๋ ์ ์ ์ํ๋ฅผ ์ฌ๊ตฌ์ฑํ๊ณ ์๊ฐ์ ๋ฐ๋ฅธ ์์ธก์ ์ง๊ณํ์ฌ ์ ํํ ์ ์ ์ง๋๋ฅผ ํ์ฑํ๋ค. ์ ์ ์์์ ์นด๋ฉ๋ผ ์์ ์๋ V*V ์ ์ ๊ตญ๋ถ ์์ญ์ ์๋ ๊ฐ ์ ์ด ํ์๋๊ณ ์ ์ ๋ ํ๋ฅ ์ ํ ๋นํ๋ ํฝ์ ๋จ์ ๋ถ๋ฅ ์์ ์ด๋ค. Coverage ์ ๊ทผ๋ฒ๊ณผ ๋น๊ตํ์ฌ ์ ์ ์ํ๋ฅผ ์์ธกํ๋ฉด Agent๊ฐ ์ง์ ๊ด์ฐฐํ ์ ์๋ ์์ญ์ ์ฒ๋ฆฌํ ์ ์๋ค.
๋ ๋ค๋ฅธ ์ต๊ทผ ์ฐ๊ตฌ๋ ํฝ์ ๋จ์(pixel-wise) ์ฌ๊ตฌ์ฑ๋ณด๋ค ์๋ฏธ๋ก ์ (semantic) ์ฌ๊ตฌ์ฑ์ ์ด์ ์ ๋ง์ถ๊ณ ์๋ค. Agent๋ ์ํ๋ง๋ ์ฟผ๋ฆฌ ์์น์ '๋ฌธ'๊ณผ ๊ฐ์ ์๋ฏธ๋ก ์ ๊ฐ๋ ์ด ์๋์ง๋ฅผ ์์ธกํ๋๋ก ์ค๊ณ๋์๋ค. K-ํ๊ท ์ ๊ทผ๋ฒ์ ์ฌ์ฉํ์ฌ ์ฟผ๋ฆฌ ์์น์ ๋ํ ์ฌ๊ตฌ์ฑ์ ํ๋ ๊ฐ๋ ์ ํน์ง ํํ์ ๊ฐ์ฅ ๊ฐ๊น์ด J ๊ตฐ์ง ์ค์ฌ์ด๋ค. Agent๋ ์ํ๋ง๋ ์ฟผ๋ฆฌ ๋ทฐ์ ๋ํ ์ค์ ์ฌ๊ตฌ์ฑ ๊ฐ๋ ์ ์์ธกํ๋ ๋ฐ ๋์์ด ๋๋ ๋ทฐ๋ฅผ ์ป๋ ๊ฒฝ์ฐ ๋ณด์์ ๋ฐ๋๋ค.
1) Approaches
non-baseline ์ ๊ทผ๋ฒ์ Markov ๊ฒฐ์ ํ๋ก์ธ์ค(POMDPs)๋ก ์ ํํ. → POMDP์ ๋ณด์ function.
Baselines.
- random-action: Agent Sample์ด ๋ชจ๋ Action์ ๋ํด ๊ท ์ผํ ๋ถํฌ
- forward-action: ์ ๋ฐฉ์ผ๋ก ๊ฐ๋ Action์ ์ ํ. forward-action+์์๋ ์ถฉ๋์ ์ขํ์
- frontier-exploration: Free Space์ ํํ๋์ง ์์ ๊ณต๊ฐ ์ฌ์ด์ Edge ๋ฐฉ๋ฌธ์ ๋ฐ๋ณต
Curiosity. (์์ธกํ๊ธฐ ํ๋ ์ํ๋ฅผ ํ์. ์์ธก๋ ์๋ฌ๋ ๊ฐํ ํ์ต์ ๋ณด์ Signal๋ก ์ฌ์ฉ. ์ธ๋ถ ํ๊ฒฝ์ผ๋ก๋ถํฐ์ ๋ณด์๋ณด๋ค๋ ๋ด์ฌ์ ๋ณด์์ ์ง์ค. ์ธ๋ถ ๋ณด์์ด ๊ฑฐ์ ์๋ ๊ฒฝ์ฐ ํ์ฉํ๋ฉด ์ข์) → PPO ๊ณ ๋ คํด์ผ ํจ.
- forward-dynamics: ํ/ํ ํฌ๋ฅผ ๊ฐํ์ ๋ ๋ก๋ด์ ์์ง์ ๊ฒฐ๊ณผ. ๋์ ์์ธก ์๋ฌ(ํฐ ๋ณด์)์ ํ๋ฅ ์ฑ์ ์ฌ์ฉํ๋ฏ๋ก ํฐ ๋ฌธ์ ๊ฐ ๋จ. (noisy-TV ๋ฌธ์ ๋ Action์ ๋
ธ์ด์ฆ ๋๋ฌธ์ ๋ฐ์)
- ˆst+1 : Agent๊ฐ st ์ํ์ผ ๋ at Action์ ์ทจํ ๊ฒฝ์ฐ ์์ธก๋๋ ๋ค์ ์ํ
- st+1 : ์ค์ ๋ค์ ์ํ
- inverse-dynamics: ์ํ๋ motion์ ์ป๊ธฐ ์ํ ํ/ํ ํฌ๋ฅผ ๊ตฌํ๊ธฐ. ์ด์ ์ํ์์ ํ์ฌ ์ํ๋ก ์ค๊ธฐ ์ํด Agent๊ฐ ์ทจํ ํ๋์ ์ถ์ ํ์ฌ ์ด๋ค ํ์๋ก ํ๊ฒฝ์ ํต์ ๊ฐ๋ฅํ์ง Agent๊ฐ ์ดํดํ ์ ์์. ํ๊ฒฝ ๋๋ฌธ์ ํ๋ฅ ์ฑ์ ๋ค๋ฃจ๋ ค๊ณ ํ๋๋ฐ Agent์ ํ์์ ์ํด ๊ฒฐ๊ณผ๊ฐ ๋ฐ์ํ๋ ํ๋ฅ ์ฑ์ ๋ค๋ฃจ๋ ๊ฒ์ ๋ถ์ถฉ๋ถํจ. (๋๋ค ๋ฆฌ๋ชจ์ปจ ์์ )
- ๋ ์ด๋ ค์ด ๋ฌธ์ ๋ค์ ํด๊ฒฐํ๊ธฐ ์ํด ์ต๊ทผ์ ์ ์๋ ๋ฐฉ๋ฒ๋ค
- Random Distillation Network: ๋๋คํ๊ฒ ์ด๊ธฐํ๋ ์ ๊ฒฝ๋ง์ ์ถ๋ ฅ์ ์์ธกํ๋ ๊ฒ. ์ ๊ฒฝ๋ง์ ์ ๋ ฅ์ ๋ํด Deterministicํ Function์ผ๋ก, ํ๋ฅ ์ ๊ฐ์ง๊ณ ๋๋คํ ํจ์๊ฐ ์๋
- Exploration by Disagreement: forward-dynamics ์์๋ธ ์์ธก ์ฌ์ด ์ต๋ ๋ถ์ผ์น ํน์ ๋ถ์ฐ์ ๊ฐ๋ ํ๋ ๊ณต๊ฐ์ ํ์ํ๋๋ก ์ฅ๋ ค๋๋ ๋ถ์ผ์น์ ์ํ ํ์. ๋ชจ๋ธ์ ํ๊ท ์ ์๋ ด. (์์๋ธ์ ๋ถ์ฐ์ ์ค์ด๊ณ ํ๋ฅ ์ฑ ํธ๋ฉ์ ๊ฐํ๋ ๊ฒ์ ์๋ฐฉ)
Coverage. (Agent๊ฐ ์ง์ ์ ์ผ๋ก ๊ด์ฐฐํ๋ Target์ ์๋ฅผ ์ต๋ํํ๋๋ก ๋ ธ๋ ฅ. ์๊ธฐ์ค์ฌ์ ๊ด์ฐฐ์ ํ๋ฏ๋ก 3D ์ฅ์ ๋ฌผ์ ๊ธฐ๋ฐํ์ฌ ํ์ํด์ผ ํจ)
- ๊ณ ์ ์ ๋ฐฉ๋ฒ + ํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ : ํ์ต๋ SLAM ๋ชจ๋๋ก ๊ฒฝ๋ก ํ๋๋๋ฅผ ๋ถ์. end-to-end ์ ์ฑ ์ ์๋ฐ๋ ๋์ ์ํ ๋ณต์ก์ฑ์ ํผํ๊ธฐ ์ํด ๊ณต๊ฐ ์ง๋๋ฅผ ์ ์ง. ์ค์ธ๊ณ์์ ๋ก๋ด์ ์ผ๋ฐํํ ์ ์๋๋ก ๋ฌผ๋ฆฌ์ ํ์ค์ฑ์ ๊ฐ์ ํ๊ธฐ ์ํด ๋ ธ์ด์ฆ ๋ชจ๋ธ์ ํฌํจ.
- Scene memory transformer: ์๊ธฐ ์ค์ฌ ๋งค์ปค๋์ฆ. ๋ง์ฃผ์น๋ ๋ชจ๋ ๊ด์ฐฐ์ ์ ์ฅํ์ฌ ์ ๋ ํธํฅ์ด ํ์ํ ์ง๋์ ๊ฐ์ ๋ฉ๋ชจ๋ฆฌ์ ๋นํด ๋ ํฐ ์ ์ฐ์ฑ๊ณผ ํ์ฅ์ฑ ์ ๊ณต.
Reconstruction. (๊ด์ฐฐํ ๋ทฐ๋ก๋ถํฐ ๋ค๋ฅธ ๋ทฐ๋ฅผ ์ฌ์์ฑ)
- ๊ณผ๊ฑฐ: 360๋ ํ๋ ธ๋ผ๋ง, CAD ๋ชจ๋ธ์ ํฝ์ ๋ณ ๋ณต์์ ์ง์ค → ์ฌ๋์ด ์ฐ์ ์ฌ์ง ๋ฐ์ดํฐ์ ์ด ์์ ๋จ (์ต๊ทผ์๋ ํฝ์ ๋ณ ๋ณต์๋ณด๋ค ์๋ฏธ๋ณ ๋ณต์์ ๋ ์ง์ค. ์๋ฏธ์ ๊ฐ๋ ์ด ์ํ๋ ์ฟผ๋ฆฌ ์ง์ญ์ ์กด์ฌํ๋์ง ์์ธกํ๋๋ก ์ค๊ณํจ)
- ํ์ฌ: Agent์ ์๊ธฐ์ค์ฌ์ RGB-D ๊ด์ฐฐ, ๊ฐ์ ์์ญ์ ๋ฒ์ด๋ ์ ์ ์ํ ์ฌ๊ตฌ์ฑ. ์ ํํ ์ฌ์ฉ ์ง๋๋ก๋ถํฐ ์๊ฐ์ ๋ฐ๋ฅธ ์์ธก์ ์ง๊ณํ์ฌ ์ ํํ ์ ์ ์ง๋ ํ์ฑ → Agent์ ์๊ธฐ์ค์ฌ์ ๊ด์ฐฐ๊ณผ ์ผ์์ ์ปจํธ๋กค๋ก๋ถํฐ ์ฅ๋ฉด ๋ณต์์ ์ํํ๋ฏ๋ก ๋ ๋ณต์ก
- Coverage ์ ๊ทผ๋ฒ๊ณผ ๋น๊ต: ์ ์ (์ฌ์ฉ) ์ํ๋ฅผ ์์ธกํ๋ ๊ฒ์ Agent๊ฐ ์ง์ ๊ด์ฐฐํ์ง ์๋ ์ง์ญ์ ๋ค๋ฃฐ ์ ์๊ฒ ํจ
- K-Means ์ ๊ทผ๋ฒ์ ์ฌ์ฉํ์ฌ ์ฟผ๋ฆฌ ์ง์ญ์ ๋ํด ์ง์ง ๋ณต์ํ๋ ๊ฒ์ ๊ฐ๋ ์ J๊ฐ์ ๊ฐ๊น์ด ํด๋ฌ์คํฐ ์ค์ฌ์ผ๋ก๋ถํฐ ํน์ง ํํ๊น์ง. Agent๋ ์ํ๋ ์ฟผ๋ฆฌ ์์ผ์์ ์์ธกํ์ฌ ์ง์ง ๋ณต์ํ์ฌ ๋ทฐ๋ฅผ ์ป์ผ๋ฉด ๋ณด์์ ๋ฐ๋๋ค.
2) Evaluation Metrics
๋ฐฉ๋ฌธํ ๋์์ ์(Amount of targets visited). ์์ญ, ํฅ๋ฏธ์๋ ๊ฐ์ฒด ๋ฑ ๋ค์ํ ์ ํ์ ๋์์ด ๊ณ ๋ ค๋๋ค. ๋ฐฉ๋ฌธ ์งํ ์์ญ์ m^2 ๋จ์์ ์ ๋ ๋ฒ์ ๋ฉด์ ๊ณผ ํ์ฅ์์ ํ์ํ ๋ฉด์ ์ ๋ฐฑ๋ถ์จ๊ณผ ๊ฐ์ด ๋ช ๊ฐ์ง ๋ณํ์ ๊ฐ๋๋ค.
Impact on downstream tasks.
Visual Exploration์ ์ฑ๋ฅ์ Visual Navigation๊ณผ ๊ฐ์ ๋ค์ด์คํธ๋ฆผ ์์ ์ ๋ฏธ์น๋ ์ํฅ์ ์ํด ์ธก์ ๋ ์ ์๋ค. ์ด ํ๊ฐ ์งํ์ ๋ฒ์ฃผ๋ ์ต๊ทผ ์ฐ๊ตฌ์์ ๋ ํํ ๋ณผ ์ ์๋ค. Visual Exploration์ ๊ฒฐ๊ณผ(์ฆ, ์ง๋)๋ฅผ ์ฌ์ฉํ๋ ๋ค์ด์คํธ๋ฆผ ์์ ์ ์๋ก๋ Image Navigation(์ด๋ฏธ์ง ํ์), Point Navigation(ํฌ์ธํธ ํ์), Object Navigation(๊ฐ์ฒด ํ์)์ด ์๋ค. ์ด๋ฌํ ํ์ ์์ ์ ๋ํ ๋ด์ฉ์ ์น์ III-B์์ ํ์ธํ ์ ์๋ค.
3) Datasets
Visual Exploration์ ์ํด ์ผ๋ถ ์ธ๊ธฐ ์๋ ๋ฐ์ดํฐ์ ์๋ Matterport3D, Gibson V1์ด ํฌํจ๋๋ค. Matterport3D์ Gibson V1์ ๋ ๋ค ๊น์ด/์๋ฏธ ๋ถํ ๊ณผ ๊ฐ์ด Embodied AI์ ์ ์ฉํ ์ ๋ณด๋ฅผ ๊ฐ์ง ์ฌ์ค์ ์ธ RGB ๋ฐ์ดํฐ์ ์ด๋ค.
Habitat-Sim Simulator๋ ๊ตฌ์ฑ ๊ฐ๋ฅํ Agent ๋ฐ ์ฌ๋ฌ ์ผ์์ ๊ฐ์ ์ถ๊ฐ ๊ธฐ๋ฅ์ ์ฌ์ฉํ์ฌ ๋ณธ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ ์ ์๋ค. Gibson V1์ iGibson์ ํ์ฑํ๊ธฐ ์ํด ์ํธ์์ฉ๊ณผ ํ์ค์ ์ธ ๋ก๋ด ์ ์ด์ ๊ฐ์ ๊ธฐ๋ฅ๋ค์ด ํฅ์๋์๋ค. ๊ทธ๋ฌ๋ ์น์ II์์ ์ธ๊ธ๋ ๊ฒ๊ณผ ๊ฐ์ ๋ ์ต๊ทผ์ 3D Simulator๋ ๋ชจ๋ RGB ๊ด์ฐฐ์ ์ ๊ณตํ๊ธฐ ๋๋ฌธ์ Visual Exploration์ ์ฌ์ฉ๋ ์ ์๋ค.
B. Visual Navigation
Visual Navigation์์ Agent๋ ์ธ๋ถ ์ฌ์ ๋ช ๋ น์ด๋ ์์ฐ์ด ๋ช ๋ น์ด ์๋ ์๋ ๋ชฉํ๋ฅผ ํฅํด 3D ํ๊ฒฝ์ ํ์ํ๋ค. ์ด ์์ ์ ์ํ ๋ชฉํ๋ฌผ๋ก๋ Points(์ ), Objects(๊ฐ์ฒด), Images(์ด๋ฏธ์ง), Areas(์์ญ) ๋ฑ ๋ค์ํ ์ข ๋ฅ๊ฐ ์๋ค. ์ฐ๋ฆฌ๋ ๊ฐ์ฅ ์ผ๋ฐ์ ์ด๊ณ ๊ทผ๋ณธ์ (๊ธฐ์ด์ , ํํ) ๋ชฉํ์ธ Point์ Object๋ฅผ VN์ ๋ชฉํ๋ฌผ๋ก ์ฌ์ฉํ ๊ฒ์ด๋ค. ์ด ๋ชฉํ๋ฌผ๋ค์ ์ง๊ฐ ์ ๋ ฅ, ์ธ์ด์ ๊ฐ์ ์ฌ์๊ณผ ๊ฒฐํฉ๋์ด VE, ๋น์ -์ธ์ด ํ์, EQA์ ๊ฐ์ด ๋ ๋ณต์กํ Visual Navigation์ Buildํ ์ ์๋ค. Point Navigation์์ Agent๋ ํน์ Point๋ก ์ด๋ํ๋ ๋์ Object Navigation์์ ํน์ ํด๋์ค์ Object๋ก ์ด๋ํ๋ ์์ ์ ์ํํ๋ค.
๊ณ ์ ์ ์ธ Navigation ์ ๊ทผ๋ฒ์ ๋๊ฐ localization(๊ตญ์ํ), mapping(๋งคํ), path-planning(๊ฒฝ๋ก ๊ณํ), locomotion(์ด๋)๊ณผ ๊ฐ์ด ์์์ ์ ํ์ ์์๋ก ๊ตฌ์ฑ๋๋ค. Embodied AI์ VN์ ์ด๋ฌํ Navigation ์์คํ ์ ๋ฐ์ดํฐ๋ก๋ถํฐ ํ์ตํ์ฌ ์์์ ์ ์ค์ฌ ์ง๋ฌธ-๋ต๋ณ๊ณผ ๊ฐ์ด ๋ฐ์ดํฐ ๊ธฐ๋ฐ ํ์ต ๋ฐฉ๋ฒ์ผ๋ก ์ฑ๋ฅ์ด ์ฐ์ํ ๋ค์ด์คํธ๋ฆผ ์์ ๊ณผ์ ํตํฉ์ ์ฉ์ดํ๊ฒ ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค. ๋ํ, ๋ ์ธ๊ณ์ ์ฅ์ ์ ๊ฒฐํฉํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ Hybrid ์ ๊ทผ๋ฒ๋ ์๋ค.
์์ ์น์ II์์ ์ธ๊ธํ ๋ฐ์ ๊ฐ์ด, ํ์ต ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ RGB, ๊น์ด ์ผ์๋ฅผ ์ฌ์ฉํ๊ณ ํ๊ฒฝ์ ๋ํ ์๋ฏธ๋ก ์ (semantic) ์ดํด๋ฅผ ํตํฉํ ์ ์๊ธฐ ๋๋ฌธ์ ์ผ์ ์ธก์ ๋ ธ์ด์ฆ์ ๋ ๊ฐ๋ ฅํ๋ค. ๋ํ, ๊ทธ๋ค์ Agent๊ฐ ์ด์ ์ ๋ณธ ํ๊ฒฝ์ ๋ํ ์ง์์ ์ผ๋ฐํํ ์ ์๋๋กํ์ฌ ๋น์ง๋ ๋ฐฉ์์ผ๋ก ์๋ก์ด ํ๊ฒฝ์ ์ดํดํ๋ ๋ฐ ๋์์ ์ฃผ์ด ์ธ๊ฐ์ ๋ ธ๋ ฅ์ ์ค์ผ ์ ์๋ค.
Visual Navigation : ์ธ๋ถ ๋ช ๋ น, ์์ฐ์ ๋ช ๋ น๊ณผ ๋ฌด๊ดํ ๋ชฉํ๋ฅผ ํ์.
- ๋ชฉํ๋ฌผ : Points(์ ), Objects(๊ฐ์ฒด), Images(์ด๋ฏธ์ง), Areas(์์ญ) ๋ฑ → Point, Object๋ Input, Language์ ๊ฒฐํฉ๋์ด ๋ ๋ณต์กํ VN ๊ตฌ์ถ ๊ฐ๋ฅ.
Classic Navigation Approaches(๊ณ ์ ์ ํ์๋ฒ): localization(๊ตญ์ํ), mapping(๋งคํ), path-planning(๊ฒฝ๋ก ๊ณํ), locomotion(์ด๋)๊ณผ ๊ฐ์ด ์์์ ํ์ ์์๋ก ๊ตฌ์ฑ. ์์์ ์ ์ค์ด๊ธฐ ์ํด ๋ฐ์ดํฐ๋ก๋ถํฐ ํ์ตํ๋ ๊ฒ์ ๋ชฉํ๋ก ํจ.
Learning-based Approaches(ํ์ต ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ): RGB/๊น์ด ์ผ์๋ฅผ ์ฌ์ฉํ๋ฏ๋ก ์ผ์ ๋ ธ์ด์ฆ ์ธก์ ์ ๋ ๊ฐํจ. ํ๊ฒฝ์ ๋ํ ์๋ฏธ๋ก ์ ์ดํด๋ฅผ ํตํฉ. Agent๊ฐ ์ด์ ์ ๋ณธ ํ๊ฒฝ์ ๋ํ ์ง์์ ์ผ๋ฐํํ์ฌ ์๋ก์ด ํ๊ฒฝ์ ๋น์ง๋ ๋ฐฉ์์ผ๋ก ์ดํด.
Hybrid Approach(ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ๋ฒ): ๋ ์ธ๊ณ์ ์ฅ์ ์ ๊ฒฐํฉํ๋ ๊ฒ์ ๋ชฉํ๋ก ํจ
์ต๊ทผ ๋ช ๋ ๋์ ์ฐ๊ตฌ์ ์ฆ๊ฐ์ ํจ๊ป Embodied AI์ ์ง์ ์ ๋ฒค์น๋งํนํ๊ณ ๊ฐ์ํํ๊ธฐ ์ํ ๊ธฐ์ด์ Point Navigation, Object Navigation Task์์ Visual Navigation์ ๋ํ Challenge๋ ์กฐ์ง(Organize)๋์๋ค. ๊ฐ์ฅ ์ฃผ๋ชฉํ ๋งํ Challenge๋ iGibson Sim2Real Challenge, Habitat Challenge, RoboTHOR Challenge์ด๋ค. ๊ฐ ์ฑ๋ฆฐ์ง์ ๋ํด ์ฐ๋ฆฌ๋ ์ด ๋ ผ๋ฌธ์ ์ต์ ์ธ 2020๋ ์ฑ๋ฆฐ์ง๋ฅผ ์ค๋ช ํ ๊ฒ์ด๋ค. ์ธ ์ฑ๋ฆฐ์ง ๋ชจ๋์์ Agent๋ ์๊ธฐ์ค์ฌ RGB-D ๊ด์ฐฐ๋ก ์ ํ๋๋ค.
iGibson Sim2Real Challenge 2020.
Point Navigation. 73๊ฐ์ ๊ณ ํ์ง Gibson 3D ์ฅ๋ฉด์ด ํ๋ จ์ ์ฌ์ฉ๋๋ฉฐ, ์ค์ ์ํํธ ์ฌ๊ฑด์ถ์ธ Castro ์ฅ๋ฉด์ ํ๋ จ, ๊ฐ๋ฐ, ํ ์คํธ์ ์ฌ์ฉ๋๋ค. ์ฌ๊ธฐ์๋ 3๊ฐ์ง ์๋๋ฆฌ์ค๊ฐ ์๋๋ฐ, ํ๊ฒฝ์ ์ฅ์ ๋ฌผ์ด ์๊ฑฐ๋, Agent๊ฐ ์ํธ์์ฉํ ์ ์๋ ์ฅ์ ๋ฌผ์ด ํฌํจ๋์ด ์๊ฑฐ๋, ๋ค๋ฅธ ์ด๋ํ๋ Agent๋ก ์ฑ์์ ธ ์๋ ๊ฒฝ์ฐ์ด๋ค.
Habitat Challenge 2020.
Point Navigation, Object Navigation. Gibson ๋ฐ์ดํฐ์ ๋ถํ ์ด ์๋ Gibson 3D ์ฅ๋ฉด์ Point Navigation Task์ ์ฌ์ฉ๋๋ฉฐ, ์๋ณธ ๋ฐ์ดํฐ์ ์ ์ํด ์ง์ ๋ 61/11/18 ํ๋ จ/๊ฒ์ฆ/ํ ์คํธ ํ์ฐ์ค ๋ถํ ์ด ์๋ 90๊ฐ์ Matterport3D ์ฅ๋ฉด์ Object Navigation Task์ ์ฌ์ฉ๋๋ค.
RoboTHOR Challenge 2020.
Point Navigation. ํ๋ จ๊ณผ ํ๊ฐ๋ 3๋จ๊ณ๋ก ๋๋๋ค. ์ฒซ ๋ฒ์งธ ๋จ๊ณ์์ Agent๋ 60๊ฐ์ ์๋ฎฌ๋ ์ด์ ๋ ์ํํธ์์ ๊ต์ก์ ๋ฐ๊ณ , ์ฑ๋ฅ์ 15๊ฐ์ ๋ค๋ฅธ ์๋ฎฌ๋ ์ด์ ๋ ์ํํธ์์ ๊ฒ์ฆ๋๋ค. ๋ ๋ฒ์งธ ๋จ๊ณ์์ Agent๋ ์ค์ธ๊ณ์ ๋ํ ์ผ๋ฐํ๋ฅผ ํ ์คํธํ๊ธฐ ์ํด 4๊ฐ์ ์๋ฎฌ๋ ์ด์ ๋ ์ํํธ์ ์ค์ ํ๊ฒฝ์์ ํ๊ฐ๋๋ค. ๋ง์ง๋ง ๋จ๊ณ์์ Agent๋ 10๊ฐ์ ์ค์ ์ํํธ์์ ํ๊ฐ๋๋ค.
์ด ์น์ ์์๋ ๊ธฐ์กด Visual Navigation Survey๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ ์ต๊ทผ์ ์ฐ๊ตฌ๋ฅผ ํฌํจํ๋ค.
1) Categories
Point Navigation.
์ต๊ทผ Visual Navigation ๋ฌธํ์์ ๊ธฐ์ด์ ์ด๊ณ ์ธ๊ธฐ ์๋ Task ์ค ํ๋์ด๋ค. Point Navigation์์ Agent๋ ํน์ ํฌ์ธํธ์์ ํน์ ๊ณ ์ (fixed) ๊ฑฐ๋ฆฌ ๋ด์ ์๋ ์์์ ์์น๋ก ์ด๋ํด์ผ ํ๋ค. ์ผ๋ฐ์ ์ผ๋ก Agent๋ ํ๊ฒฝ์์ ์์ (0, 0, 0) ์ด๊ธฐํ๋๋ฉฐ, ๊ณ ์ ๋ชฉํ์ ์ ์์ /์ด๊ธฐ ์์น๋ฅผ ๊ธฐ์ค์ผ๋ก 3D ์ขํ(x, y, z)๋ก ์ง์ ๋๋ค. Task๊ฐ ์ฑ๊ณต์ ์ผ๋ก ์๋ฃ๋๊ธฐ ์ํด์๋ ์ธ๊ณต Agent๊ฐ ์๊ฐ์ ์ธ์, ์ํผ์๋์ ๊ธฐ์ต ๊ตฌ์ฑ, ์ถ๋ก /๊ณํ ๋ฐ ํ์๊ณผ ๊ฐ์ ๋ค์ํ ๋ฒ์์ ๊ธฐ์ ์ธํธ(skillsets)๋ฅผ ๋ณด์ ํด์ผ ํ๋ค. Agent๋ ์ผ๋ฐ์ ์ผ๋ก ์์น ์ขํ์ ์ ๊ทผํ ์ ์๋ GPS์ ๋์นจ๋ฐ์ ๊ฐ์ถ๊ณ ์์ผ๋ฉฐ, ์๋ฌต์ ์ผ๋ก ๋ชฉํ ์์น์ ๋ํ ๋ฐฉํฅ์ ๊ฐ์ถ๊ณ ์๋ค. ๋์์ ์๋์ ๋ชฉํ ์ขํ๋ ์ ์ (์ํผ์๋ ์์์ ํ ๋ฒ๋ง ์ ๊ณต๋จ)์ด๊ฑฐ๋, ๋์ (๋ชจ๋ ์๊ฐ ๋จ๊ณ์์ ์ ๊ณต๋จ)์ผ ์ ์๋ค. ๋ ์ต๊ทผ์๋ ์ค๋ด ํ๊ฒฝ์์ ๋ถ์์ ํ ํ์งํ(imperfect localization)๋ก ์ธํด Habitat Challenge 2020์ GPS์ ๋์นจ๋ฐ์ด ์๋ RGBD ๊ธฐ๋ฐ ์จ๋ผ์ธ ํ์งํ์ ๋ ์ด๋ ค์ด ์์ ์ผ๋ก ์ด๋ํ๋ค.
Point Navigation์๋ ๋ง์ ํ์ต ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ด ์๋ค. ์ด๊ธฐ ์ฐ๊ตฌ ์ค ํ๋๋ ๊ฐ๊ฐ(sensory) ์ ๋ ฅ์ด ๋ค๋ฅธ ํ์ค์ ์ธ ์์จ ํ์ ์ค์ (์ง์ ์ค์ธก ์ง๋์ ์ง์ ์ค์ธก Agent์ ์์ธ๊ฐ ์๋ ๋ณด์ด์ง ์๋ ํ๊ฒฝ)์์ Point Navigation์ ๋ค๋ฃจ๊ธฐ ์ํด ent-to-end ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํ๋ ๊ฒ์ด๋ค. ๊ธฐ๋ณธ ํ์ ์๊ณ ๋ฆฌ์ฆ์ Direct Future Prediction(DFP. ์ง์ ๋ฏธ๋ ์์ธก)์ผ๋ก, ์ปฌ๋ฌ ์ด๋ฏธ์ง, ๊น์ด ๋งต, ๊ฐ์ฅ ์ต๊ทผ์ 4๊ฐ์ง ๊ด์ฐฐ๋ก๋ถํฐ์ ๋์๊ณผ ๊ฐ์ ๊ด๋ จ ์ ๋ ฅ์ด ์ ์ ํ ์ ๊ฒฝ๋ง(ex. ๊ฐ๊ฐ ์ ๋ ฅ์ ๋ํ ์ปจ๋ณผ๋ฃจ์ ๋คํธ์ํฌ)์ ์ํด ์ฒ๋ฆฌ๋๊ณ ์ฐ๊ฒฐ๋์ด 2-์คํธ๋ฆผ ๋คํธ์ํฌ์ ์ ๋ฌ๋๋ค. ์ถ๋ ฅ์ ๋ชจ๋ ๋์๊ณผ ๋ฏธ๋์ ์๊ฐ ๋จ๊ณ์ ๋ํ ๋ฏธ๋ ์ธก์ ์์ธก์ด๋ค.
๋ํ, ๋ฏธ๋ ์์ธก์ ์ค๊ฐ ์ง๋์ ๊ฐ์ ํํ์ ๋์ ํ์ฌ DFP์ ๋ธ๋๋ฐ์ค ์ ์ฑ ์ ๋ ํด์ํ ์ ์๋๋ก ํ๊ธฐ ์ํ Belief DFP๋ฅผ ์๊ฐํ๋ค. ์ด๊ฒ์ ์ ๊ฒฝ๋ง์ ์ฃผ์ ๋ฉ์ปค๋์ฆ๊ณผ ๊ฐํ ํ์ต์ ํ์ ํํ๊ณผ ๊ธฐ๋ฅ์์ ์๊ฐ์ ๋ฐ์๋ค. ์คํ์ ๋ฐ๋ฅด๋ฉด ๋๋ถ๋ถ์ ๊ฒฝ์ฐ์์ BDFP๊ฐ DFP๋ฅผ ๋ฅ๊ฐํ๋ฉฐ, ๊ณ ์ ์ ํ์๋ฒ์ ์ผ๋ฐ์ ์ผ๋ก RGB-D ์ ๋ ฅ์ ๋ฐ๋ ํ์ต ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ๋ณด๋ค ์ฑ๋ฅ์ด ๋ฐ์ด๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋ณด๋ค ๋ชจ๋ํ๋ ์ ๊ทผ ๋ฐฉ์์ ์ ๊ณตํ๋ค. Point Navigation์ ์ํด SplitNet์ ์ํคํ ์ฒ๋ ์๋ก ๋ค๋ฅธ ๋ณด์กฐ ์์ (ex. egomotion ์์ธก)๊ณผ ์ ์ฑ ์ ์ํ ํ๋์ ์๊ฐ์ encoder์ ์ฌ๋ฌ ๊ฐ์ decoder๋ก ๊ตฌ์ฑ๋๋ค. ์ด๋ฌํ decoder๋ ์๋ฏธ ์๋ ํํ์ ๋ฐฐ์ฐ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค. ๋์ผํ PPO ์๊ณ ๋ฆฌ์ฆ๊ณผ ํ๋ ๋ณต์ ํ๋ จ์ ํตํด SplitNet์ ์ด์ ์ ๋ณผ ์ ์์๋ ํ๊ฒฝ์์ ์ ์ฌํ end-to-end ๋ฐฉ๋ฒ์ ๋ฅ๊ฐํ ์ ์๋ค.
๋ ๋ค๋ฅธ ์ฐ๊ตฌ๋ ์ค๋ด ํ๊ฒฝ์์ simultaneous mapping(๋์ ๋งคํ) ๋ฐ target-driven navigation(๋์ ๊ธฐ๋ฐ ํ์)์ ์ํ ๋ชจ๋์ ์ํคํ ์ฒ๋ฅผ ์ ์ํ๋ค. ๋ณธ ์ฐ๊ตฌ์์ ์ ์๋ semantically-informed(์๋ฏธ๋ก ์ ์ ๋ณด) ๊ธฐ๋ฅ์ ๊ฐ์ถ 2.5D ๋ฉ๋ชจ๋ฆฌ์ Navigation ์ ์ฑ ์ ์ํ LSTM์ ํ๋ จ์ํค๊ธฐ ์ํด MapNet์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ค. ๊ทธ๋ค์ ์ด ๋ฐฉ๋ฒ์ด ์ด์ ์ ๋ณด์ด์ง ์์๋ ํ๊ฒฝ์์ ์ง๋ ์์ด ํ์ต๋ LSTM ์ ์ฑ ์ ๋ฅ๊ฐํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
2019๋ Habitat Challenge์ ๋์ ๊ณผ ํ์คํ๋ ํ๊ฐ, ๋ฐ์ดํฐ์ , ์ผ์ ์ค์ ์ผ๋ก ์ธํด ์ต๊ทผ์ ์ ๊ทผ ๋ฐฉ์์ Habitat Challenge 2019๋ก ํ๊ฐ๋์๋ค. ์ฒซ ๋ฒ์งธ ์์ ์ Habitat ๋ค์ ํ์์ ๋น๋กฏ๋์์ผ๋ฉฐ PPO ์๊ณ ๋ฆฌ์ฆ, actor-critic(๋ฐฐ์ฐ-๋นํ๊ฐ) ๋ชจ๋ธ ๊ตฌ์กฐ, ์๊ฐ์ ์ ๋ ฅ์ ์ํ ์๋ฒ ๋ฉ์ ์์ฐํ๊ธฐ ์ํด CNN์ ์ฌ์ฉํ๋ค. ํ์ ์ฐ๊ตฌ๋ ์๋ฎฌ๋ ์ด์ ์์ ๋ณด์ด์ง ์๋ ํ๊ฒฝ์์์ GPS, ๋์นจ๋ฐ, ๊ฑฐ๋ํ ํ์ต ๋จ๊ณ(Habitat์ ์ฒซ ๋ฒ์งธ 7500๋ง ๋จ๊ณ๋ก ์ด๋ฃจ์ด์ง PPO ์์ ๊ณผ ๋น๊ตํ์ฌ 25์ต ๋จ๊ณ)๋ฅผ ๊ฐ์ง Agent์ Point Navigation Task์ ๋ํด ๊ฑฐ์ ์๋ฒฝํ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค๋ '์กด์ฌ ์ฆ๋ช '์ ์ ๊ณตํ๋ค. ํนํ, ์ต์์ Agent ์ฑ๋ฅ์ ์ต๋จ ๊ฒฝ๋ก oracle์ 3-5% ์ด๋ด์ด๋ค. ๋ณธ ์ฐ๊ตฌ๋ ์์ ์ง์ฝ์ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ, ์ฆ Decentralized Distributed Proximal Policy Optimization(๋ถ์ฐํ PPO. DD-PPO)์์ ๋ถ์ฐ ๊ฐํ ํ์ต์ ์ ํฉํ ์ผ๋ฐํ๋ Advantage Estimation(์ด์ ์ถ์ ) ์๊ณ ๋ฆฌ์ฆ๊ณผ ํจ๊ป ์์ ๋ PPO๋ฅผ ์ฌ์ฉํ๋ค. ๋งค ์๊ฐ ๋จ๊ณ๋ง๋ค Agent๋ ์๊ธฐ์ค์ฌ์ ๊ด์ฐฐ(๊น์ด, RGB)์ ์์ ํ๊ณ CNN๊ณผ ํจ๊ป ์๋ฒ ๋ฉ์ ์ป์ ๋ค์ GPS์ ๋์นจ๋ฐ์ ์ฌ์ฉํ์ฌ ๋ชฉํ ์์น๋ฅผ ํ์ฌ ์์น์ ๋น๊ตํ์ฌ ์ ๋ฐ์ดํธํ๊ณ ์ต์ข ์ ์ผ๋ก ๋ค์ ๋์๊ณผ ๊ฐ ํจ์์ ์ถ์ ์น๋ฅผ ์ถ๋ ฅํ๋ค. ์คํ์ ์ค๋ซ๋์ Agent๊ฐ ์ง์์ ์ผ๋ก ๊ฐ์ ๋๊ณ ์์ผ๋ฉฐ, ๊ฒฐ๊ณผ๋ ์ต๋จ ๊ฒฝ๋ก oracle๊ณผ ๊ฑฐ์ ์ผ์นํ๋ค.
๋ค์ ์์ ์ ๋ณด์กฐ Task๋ฅผ ํตํด ์ํ ๋ฐ ์๊ฐ ํจ์จ์ฑ์ ์ฆ๊ฐ์ํด์ผ๋ก์จ ์์ ์ง์ฝ์ ์ธ ์์ ์ ๊ฐ์ ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค. ์ด์ ์์ ๊ณผ ๋์ผํ DD-PPO baseline ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ์ฌ ํ๋ ์กฐ๊ฑด๋ถ ๋์กฐ ์์ธก ์ฝ๋ฉ(CPC-A. actionconditional contrastive predictive coding), inverse-dynamics, ์๊ฐ ๊ฑฐ๋ฆฌ ์ถ์ (temporal distance estimation)์ 3๊ฐ์ง ๋ณด์กฐ ์์ ์ ์ถ๊ฐํ๋ค. ์ ์๋ค์ ํํ์ ๊ฒฐํฉํ๋ ๋ค์ํ ๋ฐฉ๋ฒ๋ค์ ์คํํ๋ค. 4,000๋ง ํ๋ ์์์ ๊ฐ์ฅ ์ฑ๋ฅ์ด ๋ฐ์ด๋ Agent๋ ์ด์ ์์ ๊ณผ ๋์ผํ ์ฑ๊ณผ๋ฅผ 5.5๋ฐฐ ๋ ๋น ๋ฅด๊ฒ ๋ฌ์ฑํ๊ณ ์ฑ๋ฅ๊น์ง ๊ฐ์ ํ๋ค. RGB์ RGBD ํธ๋ ๋ชจ๋์ ๋ํ Habitat Challenge 2019์ ์ฐ์น์๋ end-to-end ํ์ต ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ด ๊ณ์ฐ ๋น์ฉ์ด ๋ง์ด ๋ค๊ธฐ ๋๋ฌธ์ ๊ณ ์ ์ ์ ๊ทผ๋ฒ๊ณผ ํ์ต ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ ๋ชจ๋ ๊ฒฐํฉํ hybrid ์๋ฃจ์ ์ ์ ๊ณตํ๋ค. ์ด ์์ ์ ๋ชจ๋์ ํ์ต์ '๊ณ ์ ์ ํ์ ํ์ดํ๋ผ์ธ'์ ํตํฉํ์ฌ ์ ์์ค Navigation์์ ์ฅ์ ๋ฌผ ํํผ ๋ฐ ์ ์ด์ ๋ํ ์ง์์ ์๋ฌต์ ์ผ๋ก ํตํฉํ๋ค. ์ํคํ ์ฒ๋ ํ์ต๋ ์ ๊ฒฝ SLAM ๋ชจ๋, ๊ธ๋ก๋ฒ ์ ์ฑ , ๋ก์ปฌ ์ ์ฑ , ๋ถ์ path-planner๋ก ๊ตฌ์ฑ๋๋ค. ์ ๊ฒฝ SLAM ๋ชจ๋์ ๊ด์ฐฐ, ์ผ์๋ฅผ ์ด์ฉํ์ฌ ์ง๋์ Agent ํฌ์ฆ ์ถ์ ์น๋ฅผ ์์ธกํ๋ค. ๊ธ๋ก๋ฒ ์ ์ฑ ์ ํญ์ ๋ชฉํ ์ขํ๋ฅผ ์ฅ๊ธฐ ๋ชฉํ๋ก ์ถ๋ ฅํ๋ฉฐ, ์ด๋ ๋ถ์ path-planner๋ฅผ ์ฌ์ฉํ์ฌ ๋จ๊ธฐ ๋ชฉํ๋ก ๋ณํ๋๋ค. ๋ง์ง๋ง์ผ๋ก, ๋ก์ปฌ ์ ์ฑ ์ ์ด ๋จ๊ธฐ ๋ชฉํ๋ฅผ ํฅํด ๋์๊ฐ๋๋ก ํ๋ จ๋๋ค. ๋ชจ๋์ ์ค๊ณ ๋ฐ ๋ถ์ ๊ณํ ์ฌ์ฉ์ ๊ต์ก ์ค ๊ฒ์ ๊ณต๊ฐ์ ์ค์ด๋ ๋ฐ ํฐ ๋์์ด ๋๋ค.
Point Navigation
- Visual Navigation์์ ๊ฐ์ฅ ๊ธฐ์ด์ ์ด๊ณ ์ธ๊ธฐ ์๋ Task.
- Agent๋ ํน์ ํฌ์ธํธ์์ ํน์ ๊ณ ์ (fixed) ๊ฑฐ๋ฆฌ ๋ด์ ์์์ ์์น๋ก ์ด๋
- ์์ (0, 0, 0) ์ด๊ธฐํ. ๊ณ ์ ๋ชฉํ์ ์ ์์ ์ ๊ธฐ์ค์ผ๋ก 3D ์ขํ(x, y, z) ์ง์
- ์ธ๊ณต Agent๋ ๋ค์ํ ๋ฒ์์ skillsets์ ์ด์ฉํด Task๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์์์์ผ์ผ ํจ
- Agent๋ GPS, ๋์นจ๋ฐ, ๋ชฉํ ์์น์ ๋ํ ๋ฐฉํฅ์ฑ์ ๊ฐ์ง → ์ต๊ทผ์๋ GPS, ๋์นจ๋ฐ ์๋ RGBD ๊ธฐ๋ฐ ๋ ์ด๋ ค์ด Task๋ก ์ด๋ํ๋ ์ถ์ธ
- ๋์์ ์๋์ ๋ชฉํ ์ขํ๋ 2๊ฐ์ง๋ก ๊ตฌ์ฑ
- ์ ์ : ์ํผ์๋ ์์์ ํ ๋ฒ๋ง ์ ๊ณต๋จ
- ๋์ : ๋ชจ๋ ์๊ฐ ๋จ๊ณ์์ ์ ๊ณต๋จ
Point Navigation์ ํ์ต ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ
1) end-to-end ์ ๊ทผ ๋ฐฉ์ (๊ณ์ฐ ๋น์ฉ์ด ๋ง์ด ๋ฌ)
๊ฐ๊ฐ(sensory) ์ ๋ ฅ์ด ๋ค๋ฅธ ํ์ค์ ์์จ ํ์ ์ค์ ์์ Point Navigation์ ๋ค๋ฃจ๊ธฐ ์ํจ
- Direct Future Prediction(DFP. ์ง์ ๋ฏธ๋ ์์ธก): ๊ธฐ๋ณธ ํ์ ์๊ณ ๋ฆฌ์ฆ. ์ ๋ ฅ(๊ด์ฐฐ๋ก๋ถํฐ์ ๋์ ๋ฑ)์ด ์ ์ ํ ์ ๊ฒฝ๋ง์ ์ํด ์ฒ๋ฆฌ, ์ฐ๊ฒฐ๋์ด 2-์คํธ๋ฆผ ๋คํธ์ํฌ์ ์ ๋ฌ. (์ถ๋ ฅ์ ๋ฏธ๋ ์์ธก)
- Belief DFP(BDFP): ๋ฏธ๋ ์์ธก์ ์ค๊ฐ ์ง๋์ ๊ฐ์ ํํ์ ๋์ ํ์ฌ DFP ๋ธ๋๋ฐ์ค ์ ์ฑ ์ ๋ ๊ฐ์ ํจ. (DFP ๋ณด๋ค ๋ ์ข์ ์ฑ๋ฅ)
Point Navigation์ ๊ณ ์ ์ ์ ๊ทผ๋ฒ
์ผ๋ฐ์ ์ผ๋ก RGB-D ์ ๋ ฅ์ ๋ฐ๋ ํ์ต ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ๋ณด๋ค ์ฑ๋ฅ์ด ๋ฐ์ด๋๊ณ ๋ชจ๋ํ๋ ์ ๊ทผ ๋ฐฉ์์ ์ ๊ณตํ๋ค.
1) SplitNet์ ์ํคํ ์ฒ
์๋ก ๋ค๋ฅธ ๋ณด์กฐ ์์ ๊ณผ ์ ์ฑ ์ ์ํ (์๊ฐ์ ) 1๊ฐ์ ์ธ์ฝ๋, ์ฌ๋ฌ ๊ฐ์ ๋์ฝ๋๋ก ๊ตฌ์ฑ.
- ๋์ฝ๋์ ๋ชฉํ: ์๋ฏธ ์๋ ํํ์ ๋ฐฐ์ฐ๋ ๊ฒ
- ๋์ผํ PPO ์๊ณ ๋ฆฌ์ฆ, ํ๋ ๋ณต์ ํ๋ จ → ํ์๋์ง ์์ ํ๊ฒฝ์์ end-to-end๋ฅผ ๋ฅ๊ฐํจ
* SplitNet: ๋ถํ ์ธ์ ์ ๊ฒฝ ์ํคํ ์ฒ ๊ฒ์ ํ๋ ์์ํฌ
2) ๋ชจ๋์ ์ํคํ ์ฒ
์ค๋ด ํ๊ฒฝ์์ ๋์ ๋งคํ, ๋์ ๊ธฐ๋ฐ ํ์์ ์ํ ์ํคํ ์ฒ. ์๋ฏธ๋ก ์ ์ ๋ณด ๊ธฐ๋ฅ์ ๊ฐ์ถ๊ณ LSTM ํ๋ จ์ ์ํด MapNet์ ๊ธฐ๋ฐ์ผ๋ก ํจ (ํ์๋์ง ์์ ํ๊ฒฝ์์ ์ง๋ ์์ด ํ์ต๋ LSTM์ ๋ฅ๊ฐํจ)
Habitat Challenge, 2019.
์ฐ๊ตฌ 1)
- CNN์ ์ฌ์ฉ: PPO ์๊ณ ๋ฆฌ์ฆ, actor-critic(๋ฐฐ์ฐ-๋นํ๊ฐ) ๋ชจ๋ธ ๊ตฌ์กฐ, ์๊ฐ์ ์ ๋ ฅ์ ์ํ ์๋ฒ ๋ฉ ์์ฐ ์ํจ
์ฐ๊ตฌ 2)
- '์กด์ฌ ์ฆ๋ช ': ํ์๋์ง ์์ ํ๊ฒฝ์์์ GPS, ๋์นจ๋ฐ, ๊ฑฐ๋ํ ํ์ต ๋จ๊ณ๋ฅผ ๊ฐ์ง Agent์ ํฌ์ธํธ ํ์ Task์ ๋ํด ๊ฑฐ์ ์๋ฒฝํ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค.
- ๋งค ์๊ฐ ๋จ๊ณ๋ง๋ค Agent๋ ์๊ธฐ์ค์ฌ์ ๊ด์ฐฐ(RGB-D)๋ฅผ ์์ ํ๊ณ CNN๊ณผ ํจ๊ป ์๋ฒ ๋ฉ์ ์ป์ ๋ค์ GPS, ๋์นจ๋ฐ์ ์ฌ์ฉํ์ฌ ๋ชฉํ ์์น๋ฅผ ํ์ฌ ์์น์ ๋น๊ตํ์ฌ ์ ๋ฐ์ดํธํ๋ค.
- ์ต์ข ์ ์ผ๋ก ๋ค์ ๋์๊ณผ ์ถ์ ์น๋ฅผ ์ถ๋ ฅํ๋ค. → ๊ฒฐ๊ณผ๋ ์ต๋จ ๊ฒฝ๋ก oracle๊ณผ ๊ฑฐ์ ์ผ์นํจ
์ฐ๊ตฌ 3)
๋ชฉํ: ๋ณด์กฐ Task๋ฅผ ํตํด ์ํ๊ณผ ์๊ฐ์ ํจ์จ์ฑ์ ์ฆ๊ฐ์ํด → ์์ ์ง์ฝ์ ์์ ์ ๊ฐ์
DD-PPO baseline ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ์ฌ 3๊ฐ์ง ๋ณด์กฐ ์์ (CPC-A, inverse-dynamics, temporal distance estimation)์ ์ถ๊ฐํ๋ค. → 4,000๋ง ํ๋ ์์์ ์ด์ ์์ ๊ณผ ๋์ผํ ์ฑ๊ณผ๋ฅผ 5.5๋ฐฐ ๋ ๋น ๋ฅด๊ฒ ๋ฌ์ฑํ๊ณ ์ฑ๋ฅ ํฅ์
hybrid ์๋ฃจ์ (๊ณ ์ ์ ์ ๊ทผ๋ฒ + ํ์ต ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ) ์ํคํ ์ฒ → ๋ชจ๋์ ์ค๊ณ์ ๋ถ์ ๊ณํ ์ฌ์ฉ : ๊ฒ์ ๊ณต๊ฐ์ ์ค์ด๋ ๋ฐ ํฐ ๋์
- ์ ๊ฒฝ SLAM ๋ชจ๋: ๊ด์ฐฐ, ์ผ์๋ฅผ ์ด์ฉํ์ฌ ์ง๋์ Agent ํฌ์ฆ ์ถ์ ์น๋ฅผ ์์ธก
- ๊ธ๋ก๋ฒ ์ ์ฑ : ํญ์ ๋ชฉํ ์ขํ๋ฅผ ์ฅ๊ธฐ ๋ชฉํ๋ก ์ถ๋ ฅ
- ๋ถ์ path-planner: ๊ธ๋ก๋ฒ ์ ์ฑ ์ ์ฅ๊ธฐ ๋ชฉํ๋ฅผ ๋จ๊ธฐ ๋ชฉํ๋ก ๋ณํ
- ๋ก์ปฌ ์ ์ฑ : ๋จ๊ธฐ ๋ชฉํ๋ฅผ ํฅํด ๋์๊ฐ๋๋ก ํ๋ จ
Object Navigation.
Object Navigation์ ๊ฐ์ฅ ๊ฐ๋จํ ์์ ์ค ํ๋์ด์ง๋ง, Embodied AI์์ ๊ฐ์ฅ ์ด๋ ค์ด ์์ ์ด๊ธฐ๋ ํ๋ค. Object Navigation์ ํ์๋์ง ์์ ํ๊ฒฝ์์ ๋ ์ด๋ธ(label)์ ์ํด ์ง์ ๋ ๊ฐ์ฒด๋ก ํ์ํ๋ ๊ธฐ๋ณธ์ ์ธ ์์ด๋์ด์ ์ด์ ์ ๋ง์ถ๋ค. Agent๋ ์์์ ์์น์์ ์ด๊ธฐํ๋๋ฉฐ ํด๋น ํ๊ฒฝ์์ Object ๋ฒ์ฃผ์ ์ธ์คํด์ค๋ฅผ ์ฐพ๋ ์์ ์ ์ํํ๋ค. Object Navigation์ ์ผ๋ฐ์ ์ผ๋ก Point Navigation๋ณด๋ค ๋ณต์กํ๋ค. ์๋ํ๋ฉด ์๊ฐ์ ์ธ์์ด๋ ์ํผ์๋์ ๊ธฐ์ต ๊ตฌ์ฑ๊ณผ ๊ฐ์ด ๋ง์ ๋์ผํ skillsets๋ฟ๋ง ์๋๋ผ ์๋ฏธ๋ก ์ (semantic) ์ดํด๋ ํ์ํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ฌํ ์์๋ค์ด Object Navigation Task๋ฅผ ํจ์ฌ ๋ ์ด๋ ต๊ฒ ๋ง๋ค์ง๋ง ํด๊ฒฐํ ๊ฐ์น๊ฐ ์๋ค.
Object Navigation Task๋ ์ ์(adapting)์ ํตํด ์์ฐํ๊ฑฐ๋ ํ์ตํ ์ ์์ผ๋ฉฐ, ์ด๋ ์ง์ ์ ์ธ ๊ฐ๋ ์์ด ํ๊ฒฝ์์ ํ์ํ๋ ๊ฒ์ ์ผ๋ฐํํ๋ ๋ฐ ๋์์ด ๋๋ค. ์ด ์์ ์ Agent๊ฐ ํจ๊ณผ์ ์ธ ํ์์ ์ฅ๋ คํ๋ ๋ฐ ๋์์ด ๋๋ ์์ฒด ๊ฐ๋ ์ํธ์์ฉ ์์ค(self-supervised interaction loss)์ ํ์ตํจ์ ๋ฐ๋ผ ๋ฉํ ๊ฐํ ํ์ต ์ ๊ทผ๋ฒ(meta-reinforcement learning approach)์ ํตํด ์์ํ๋ค. Agent๊ฐ ์ถ๋ก ์ค์ ํ์ต ๋ชจ๋ธ์ ๋๊ฒฐํ๋ ๊ธฐ์กด์ Navigation ์ ๊ทผ ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ, Agent๋ ์์ฒด ๊ฐ๋ ๋ฐฉ์์ผ๋ก ์์ ์ ์ ์์ํค๊ณ ์ดํ์ ์ค์๋ฅผ ์กฐ์ ๋๋ ์์ ํ ์ ์๋ค. ์ด ์ ๊ทผ๋ฒ์ Agent๊ฐ ์๊ฐ(realizing)ํ๊ธฐ ์ ์ ๋๋ฌด ๋ง์ ์ค์๋ฅผ ํ์ง ์๋๋ก ๋ฐฉ์งํ๊ณ ํ์ํ ์์ ์ ํ๋ค. ๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ํ์ ๊ณํ์ ์คํํ๊ธฐ ์ ์ ๊ฐ์ฒด ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ตํ๋ ๊ฒ์ด๋ค. ์ด ์์ ์ ์ธ๋ถ์ ์ฌ์ ์ง์์ผ๋ก๋ถํฐ๊ฐ ์๋๋ผ, Visual Exploration ๋จ๊ณ์์ ๊ตฌ์ถ๋ ์ง์ ๊ทธ๋ํ์ธ ๊ฐ์ฒด ๊ด๊ณ ๊ทธ๋ํ(ORG)๋ก๋ถํฐ ๊ตฌํ(implements)๋๋ค. ์ด ๊ทธ๋ํ๋ ๋ฒ์ฃผ ๊ทผ์ ์ฑ ๋ฐ ๊ณต๊ฐ ์๊ด ๊ด๊ณ์ ๊ฐ์ ๊ฐ์ฒด ๊ด๊ณ์ฑ(object relationships)์ผ๋ก ๊ตฌ์ฑ๋๋ค.
Object Navigation
๊ฐ์ฅ ๊ฐ๋จํ ์์ ์ด์, ๊ฐ์ฅ ์ด๋ ค์ด ์์ . ํ์๋์ง ์์ ํ๊ฒฝ์์ label์ ์ํด ์ง์ ๋ ๊ฐ์ฒด๋ก ํ์ํ๋ ๊ธฐ๋ณธ์ ์์ด๋์ด์ ์ด์ .
- Agent: ์์์ ์์น์์ ์ด๊ธฐํ. ํด๋น ํ๊ฒฝ์์ Object ๋ฒ์ฃผ์ ์ธ์คํด์ค๋ฅผ ์ฐพ๋ ์์ ์ ์ํ
- Object Navigation์ Point Navigation๋ณด๋ค ๋ณต์กํจ: ๋ง์ skillsets์ ์๋ฏธ๋ก ์ ์ดํด๊ฐ ๋์์ ํ์ํ๊ธฐ ๋๋ฌธ
Object Navigation Task
์ ์(adapting)์ ํตํด ์์ฐํ๊ฑฐ๋ ํ์ต → ์ง์ ์ ์ธ ๊ฐ๋ ์์ด ํ๊ฒฝ์์ ํ์ํ ๊ฒ์ ์ผ๋ฐํ ๊ฐ๋ฅ
- ์์ฒด ๊ฐ๋ ์ํธ์์ฉ ์์ค(self-supervised interaction loss): Agent๊ฐ ์์ฒด ๊ฐ๋ ๋ฐฉ์์ผ๋ก ์์ ์ ์ ์์ํค๊ณ ์ดํ์ ์ค์๋ฅผ ์กฐ์ ํจ. Agent๊ฐ ์๊ฐํ๊ธฐ ์ ์ ๋๋ฌด ๋ง์ ์ค์๋ฅผ ํ์ง ์๋๋ก ๋ฐฉ์งํ๊ณ ์์ ๊ฐ๋ฅ → ๋ฉํ ๊ฐํ ํ์ต ์ ๊ทผ๋ฒ(meta-reinforcement learning approach)
- ํ์ ๊ณํ ์คํ ์ ๊ฐ์ฒด ๊ฐ ๊ด๊ณ ํ์ต: ์ธ๋ถ์ ์ฌ์ ์ง์์ด ์๋ Visual Exploration ๋จ๊ณ์ ๊ฐ์ฒด ๊ด๊ณ ๊ทธ๋ํ(ORG)๋ก๋ถํฐ ๊ตฌํ.
* ORG๋ ๋ฒ์ฃผ ๊ทผ์ ์ฑ ๋ฐ ๊ณต๊ฐ ์๊ด ๊ด๊ณ์ ๊ฐ์ ๊ฐ์ฒด ๊ด๊ณ์ฑ(object relationships)์ผ๋ก ๊ตฌ์ฑ
'๐ค AI' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
| [Cursor] ์น ๊ฐ๋ฐ์ ์ ์ฉํ MCP ์ ์ฉ ๋ฐฉ๋ฒ (Browser tools) (0) | 2025.09.24 |
|---|---|
| [STT/Kaldi] ๋ฐ์์ฌ์ (Lexicon), ์ธ์ด๋ชจ๋ธ(LM)์ด๋? (0) | 2025.06.11 |
| [ASR] Kaldi๋? (0) | 2025.03.17 |
| A Survey of Embodied AI: From Simulators to Research Tasks ๋ ผ๋ฌธ ์ ๋ฆฌ - (1) (0) | 2022.07.12 |