๋ณธ ๊ธ์ ํด๋น ๋ ผ๋ฌธ์ ํด์ํ์ฌ ๊ด๋ จ ์ฐ๊ตฌ์ ๋์์ ๋ฐ๊ธฐ ์ํด ์์ฑํ ๊ธ๋ก, ์ค์ญ๊ณผ ์คํ์ ๋ฑ์ด ์กด์ฌํ ์ ์์ต๋๋ค. ๋ํ, ๊ฐ์ธ์ ์ธ ํด์์ด ํฌํจ๋์ด ์์ผ๋ฏ๋ก ๋ณด๋ค ์ ํํ ์ดํด๋ฅผ ์ํ์๋ ๊ฒฝ์ฐ ๋ณธ๋ฌธ์ ์ฐธ์กฐํด์ฃผ์๊ธฐ ๋ฐ๋๋๋ค.
A Survey of Embodied AI: From Simulators to Research Tasks๋ Embodied AI ๋ถ์ผ์ Survey ๋ ผ๋ฌธ์ผ๋ก, Embodied AI ์๋ฎฌ๋ ์ดํฐ๋ค์ ๋น๊ตํ๊ณ ์ฐ๊ตฌ ๊ณผ์ ์ ๋ํด ์ค๋ช ํ๋ ๋ด์ฉ์ ๋ด๊ณ ์๋ค.
A Survey of Embodied AI: From Simulators to Research Tasks
There has been an emerging paradigm shift from the era of "internet AI" to "embodied AI", where AI algorithms and agents no longer learn from datasets of images, videos or text curated primarily from the internet. Instead, they learn through interactions w
arxiv.org
๋ ผ๋ฌธ์ ์ฝ๊ธฐ์ ์์, Embodied AI์ ๋ํด ๋๋ฆฌ ์ค๋ช ํ๊ณ ์์ผ๋ฏ๋ก Embodied AI๋ฅผ ์ดํดํ ๋ค ๋ ผ๋ฌธ์ ์ฝ๋ ๊ฒ์ด ์ข๋ค.
Embodied AI๋?
Simulator(3D Environment)์ Agent๋ฅผ ์์ฑํ์ฌ ์ฌ๋ฌ๊ฐ์ง Task๋ฅผ ์ํ์์ผ ํ์ตํ๋ ๊ฒ์ผ๋ก, ํ์ค ์ธ๊ณ์ ๋ก๋ด๊ณผ ๊ฐ์ ๊ธฐ๊ณ์ ์ ์ด(Sim2Real)ํ์ฌ ํน์ Task๋ฅผ ์ ์ํํ๋๋ก ํ๋ ๋ถ์ผ๋ฅผ ๋งํ๋ค. ํ๋ง๋๋ก ์๋ฎฌ๋ ์ด์ ์์ ์ธ๊ณต์ง๋ฅ ๋ก๋ด์ ๊ฐ๋ฐํ๋ ๊ฒ์ ๋งํ๋ค.
CVPR์์ Workshop์ด ์งํ๋๋ ๋ฑ, ๊ตญ์ ์ ์ผ๋ก ๊ด์ฌ์ด ๋์์ง๊ณ ์๋ Embodied AI๋ ๋ค์ํ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ๊ณผ ๋ฐ์ดํฐ์ ์ ์ ๊ณตํ๋ค. ์ด๋ฅผ ์ด์ฉํ๋ฉด ์๋ฎฌ๋ ์ด์ ๋ง์ผ๋ก ๊ณ ๋ํ๋ ์ธ๊ณต์ง๋ฅ์ ๊ฐ๋ฐํ ์ ์๋ค. ๋น์ฐํ ํ์ค ์ธ๊ณ์ ๋ก๋ด์ ๋ณธ ์ธ๊ณต์ง๋ฅ์ ํฌ์ ํ ์๋ ์๋ค.
Primary Terms
- Agent: Simulator์ ์ฃผ์ฒด๊ฐ ๋๋ ๋์(๋ก๋ด)
- Curation: ๋ฐ์ดํฐ ์ ๋ณ, ์์
- AI Framework: Embodied AI Simulator ์์์ Agent๊ฐ ํ๋ํ๊ธฐ ์ํ ๊ณต๊ฐ์ ์ด์ฒด
- Task: ์ฐ๊ตฌ ๊ณผ์
- Robotics: ๋ก๋ด ๊ณตํ. ๋ก๋ด์ ์ด์ฉํ์ฌ ๊ฐ๋ฐํ๋ ๋ชจ๋ ๊ฒ
- Sim2Real: Simulation to Real-World. ์๋ฎฌ๋ ์ด์ ์ ํ์ค ์ธ๊ฒ์ ๊ตฌํํ๋ ์ ์ด ํ์ต
- Real-World Counterparts: ์ค์ธ๊ณ์ Object๋ฅผ Simulation ์์ ๊ตฌํํ ๊ฒ
Abstract
"Internet AI" ์๋์์ "Embodied AI" ์๋๋ก ํจ๋ฌ๋ค์์ด ์ ํ๋์๋ค. AI ์๊ณ ๋ฆฌ์ฆ๊ณผ Agent๋ ๋ ์ด์ ์ธํฐ๋ท์์ ํ๋ ์ด์ ๋ ์ด๋ฏธ์ง, ๋น๋์ค, ํ ์คํธ ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ตํ์ง ์๋๋ค. ๋์ ์ธ๊ฐ๊ณผ ์ ์ฌํ ์๊ธฐ์ค์ฌ์ ์๊ฐ(์ธ์)์ ํตํด ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ํ์ตํ๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, ๋ค์ํ ์ฐ๊ตฌ ๊ณผ์ ์ ์ฌ์ฉ(์ง์)ํ๊ธฐ ์ํด Embodied AI Simulator์ ๋ํ ์์๊ฐ ํฌ๊ฒ ์ฆ๊ฐํ์๋ค. ์ด๋ ๊ฒ ๊ด์ฌ์ด ์ฆ๊ฐํ ๊ฒ์ ์ธ๊ณต์ง๋ฅ(AGI)์ ๋ฐ์ ์ ๋์์ด ๋์ง๋ง, ์ด ๋ถ์ผ์ ๋ํ ํ๋์ ์ด๊ณ ํฌ๊ด์ ์ธ Survey๋ ์์๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์๋ฎฌ๋ ์ดํฐ์์ ์ฐ๊ตฌ์ ์ด๋ฅด๊ธฐ๊น์ง์ Embodied AI ๋ถ์ผ์ ๋ํ Survey๋ฅผ ์ ๊ณตํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค. ์ ์๋ 7๊ฐ์ง ๊ธฐ๋ฅ์ผ๋ก 9๊ฐ์ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ํ๊ฐํจ์ผ๋ก์จ, Embodied AI ์ฐ๊ตฌ์ ์ฌ์ฉํ๊ธฐ ์ํ ์๋ฎฌ๋ ์ดํฐ๋ฅผ ๋์ดํ๊ณ ํ๊ณ๊น์ง ์๊ฐํ๋ค. ๋ํ ๋ณธ ๋ ผ๋ฌธ์ ์ต์ฒจ๋จ ์ ๊ทผ ๋ฐฉ์๊ณผ ํ๊ฐ ์งํ, ๋ฐ์ดํฐ์ ์ ํฌํจํ๋ 3๊ฐ์ง ์ฃผ์ ์ฐ๊ตฌ ๊ณผ์ ์ธ Visual Exploration, Visual Navigation, Embodied Question Answering(QA)๋ฅผ ์๊ฐํ๋ค. ๋ง์ง๋ง์ผ๋ก, ํ์ฅ ์กฐ์ฌ๋ฅผ ํตํด ๋๋ฌ๋ ์๋ก์ด ํต์ฐฐ๋ ฅ์ผ๋ก, Task๋ณ ์๋ฎฌ๋ ์ด์ ์ ํ์ ๋ํ ์ ์๊ณผ ํฅํ ๋ฐฉํฅ์ ๋ํ ๊ถ์ฅ ์ฌํญ์ ์ ๊ณตํ ๊ฒ์ด๋ค.
"Internet AI" ์๋์์ "Embodied AI" ์๋๋ก ํจ๋ฌ๋ค์์ ๋ณํ ๋ฐ์
- Internet AI: ์ด๋ฏธ์ง, ๋น๋์ค, ํ ์คํธ๋ก ํ์ต(์ ๋ฌธ์ ์ผ๋ก ๊ฐ๋ณ๋ ํฐ ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ ํ์ต)
- Embodied AI: ์ค์ ์๋ฎฌ๋ ์ด์ ์์ ํ์ต(์ธ๊ฐ์ฒ๋ผ ์๊ธฐ์ค์ฌ์ ๊ด์ ์ผ๋ก ํ๊ฒฝ๊ณผ ์ํธ์์ฉ)
9๊ฐ์ Embodied AI Simulator๋ 7๊ฐ์ 1์ฐจ ํน์ง, 3๊ฐ์ 2์ฐจ ํน์ง์ผ๋ก ํ๊ฐ๋๋ค.
Embodied AI์ 3๋ ๊ณผ์ ๋ Visual Exploration, Visual Navigation, Embodied Question Answering(QA)์ด๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ 3๊ฐ์ง ๊ณผ์ ์ ๋ํ ์ต์ ์ ๊ทผ๋ฒ๊ณผ ํ๊ฐ ๋ฐฉ๋ฒ, ๋ฐ์ดํฐ์ ์ ๋ํด ๋ค๋ฃจ๋ฉฐ ์๋ฎฌ๋ ์ดํฐ ์ ํ์ ๋์์ ์ค ๊ฒ์ด๋ค.
I. Introduction
์ต๊ทผ ๋ฅ๋ฌ๋, ๊ฐํ ํ์ต, ์ปดํจํฐ ๊ทธ๋ํฝ ๋ฐ Robotics์ ๋ฐ์ ์ผ๋ก ๋ฒ์ฉ AI ์์คํ ๊ฐ๋ฐ์ ๋ํ ๊ด์ฌ์ด ๋์์ง๊ณ ์๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, ์ธํฐ๋ท์์ ํ๋ ์ด์ ๋ ์ด๋ฏธ์ง, ๋น๋์ค, ํ ์คํธ ๋ฐ์ดํฐ์ ์์ ํ์ตํ๋ "Internet AI"์์ ์ธ๊ณต Agent๊ฐ ์ฃผ๋ณ ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ์ ํตํด ํ์ตํ๋ "Embodied AI"๋ก ์ ํ๋์๋ค. Embodied AI๋ Agent์ ํ๊ฒฝ์ ์ํธ์์ฉ์์ ์ง์ ํ ์ง๋ฅ์ด ๋์ฌ ์ ์๋ค๊ณ ๋ฏฟ๋๋ค. ๊ทธ๋ฌ๋ ํ์ฌ๊น์ง์ Embodied AI๋ ๋น์ , ์ธ์ด, ์ถ๋ก ๋ฑ ์ ํต์ ์ธ ์ง๋ฅ ๊ฐ๋ ์ ์ธ๊ณต์ ์ธ ๊ตฌํ์ ์ ๋ชฉํ์ฌ ๊ฐ์ ํ๊ฒฝ์์ AI ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ๋์์ ์ฃผ๋ ๊ฒ์ ๊ทธ์น๋ค.
Embodied AI์ ๋ํ ๊ด์ฌ์ด ๋์์ง๋ฉด์ ๋ฌผ๋ฆฌ์ ์ธ๊ณ๋ฅผ ์ถฉ์คํ ๋ณต์ ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ ์๋ฎฌ๋ ์ดํฐ๊ฐ ํฌ๊ฒ ๋ฐ์ ํ๋ค. ์ด๋ฌํ ์๋ฎฌ๋ ์ด์ ์ธ๊ณ๋ AI Framework๋ฅผ ์ค์ธ๊ณ์ ๋ฐฐํฌํ๊ธฐ ์ ํ๋ จํ๊ณ ํ ์คํธํ๋ ๊ฐ์ ํ ์คํธ ๋ฒ ๋ ์ญํ ์ ํ๋ค. ๋ํ, Embodied AI ์๋ฎฌ๋ ์ดํฐ๋ ๊ฐ์ ์ธ๊ณ์ ๋์ผํ ์ค์ ์ ๋ณต์ ํ๋ ๋ฐ ํ์ํ ๊ด๋ฒ์ํ ์์์ ์ ์ค์ฌ ์ค์ธ๊ณ์์ ์ง๋ฃจํ๊ฒ ์์งํด์ผ ํ๋ '์์ ๊ธฐ๋ฐ ๋ฐ์ดํฐ์ '์ ์์ง์ ์ฉ์ดํ๊ฒ ํ๋ค. Embodied AI ๋ถ์ผ์๋ ์ฌ๋ฌ ๋ ผ๋ฌธ์ด ์กด์ฌํ์์ง๋ง, 2009๋ ๊ฒฝ ์์๋ ํ๋ ๋ฅ๋ฌ๋ ์๋ ์ด์ ์ ๋ฐํ๋์๊ธฐ ๋๋ฌธ์ ๋๋ถ๋ถ ๊ตฌ์์ด๋ค. ์ฐ๋ฆฌ๊ฐ ์๋ ํ, Embodied Navigation ํ๊ฐ์ ๊ดํ Survey๋ ๋ณธ ๋ ผ๋ฌธ ํ๋ ๋ฟ์ด๋ค.
Embodied AI๋ ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ์ ํตํด ์ง๋ฅ์ ์ป๋๋ค. (ํ์ง๋ง ์์ง๊น์ง ๊ฐ๋ฐ๋ ๊ฒ์ผ๋ก๋ ๋ถ์กฑํจ)
Embodied AI์ ๋ํ ๊ด์ฌ ์ฆ๊ฐ๋ Simulator์ ๋ฐ์ ์ ๋ถ๋ฌ์๋ค. ํ์ค ์ธ๊ณ์ ์ ์ฉํ๊ธฐ ์ ์๋ฎฌ๋ ์ด์ ํ๋ ๊ณผ์ ์ ํตํด ๋น์ฉ์ ์ ๊ฐํ ์ ์๋ค.
Embodied AI์ ๋ํ Survey ๋ ผ๋ฌธ ๋ถ์กฑ์ ํด๊ฒฐํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ์๋ฎฌ๋ ์ดํฐ์์ ์ฐ๊ตฌ ๊ณผ์ ์ ์ด๋ฅด๊ธฐ๊น์ง์ Survey๋ฅผ ์์ฑํ์๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ง๋ 4๋ ๋์ ๊ฐ๋ฐ๋ 9๊ฐ์ Simulator(DeepMind Lab, AI2-TOR, CHALET, Virtual Home, VRKitchen, Habitat-Sim, iGibson, SAPIEN, ThreeDWorld)๋ฅผ ๋ค๋ฃฌ๋ค. ์ด Simulator๋ค์ ๊ฐํ ํ์ต Agent๋ฅผ ํ๋ จ์ํค๋ ๋ฐ๋ง ์ฌ์ฉ๋๋ Game Simulator์ ๋ฌ๋ฆฌ ๋ฒ์ฉ ์ง๋ฅ ์์ ์ ์ํด ์ค๊ณ๋์๋ค. ์ปดํจํฐ์์์ ์ค์ธ๊ณ์ ์ฌ์ค์ ์ธ ํํ์ ์ ๊ณตํ๋ฉฐ, ์ฃผ๋ก ํ๊ฒฝ์ ์ผ๋ถ ํํ์ ์ ์ฝ์ ๊ฐ๋ ๋ฐฉ ๋๋ ์ํํธ ํํ๋ฅผ ๊ฐ์ง๋ค. ๋ํ, ํ๊ฒฝ ๋ด์์ ์ ์ด ๋๋ ์กฐ์ ๊ฐ๋ฅํ ๋ฌผ๋ฆฌ ์์ง, Python API, ์ธ๊ณต Agent๋ฅผ ์ต์๋ก ๊ตฌ์ฑํ๋ค.
์๋ 9๊ฐ์ Simulator๋ ๋ฌผ๋ฆฌ ์์ง, Python API, ์ธ๊ณต Agent๋ฅผ ํฌํจํ๋ค. ๋ฒ์ฉ ์ง๋ฅ ์์ ์ ์ํด ์ค๊ณ๋ Simulator๋ค์ ์ฃผ๋ก ์ ์ฝ์ด ์๋ ๋ฐฉ ๋๋ ์ํํธ ํํ๋ฅผ ๊ตฌ์ฑํ๋ ๋ฐ์ ์ ํฉํ๋ค.
- DeepMind Lab
- AI2-THOR
- CHALET
- VirtualHome
- VRKitchen
- HabitatSim
- iGibson
- SAPIEN
- ThreeDWorld
Embodied AI Simulator๋ ์ผ๋ จ์ ์ ์ฌ์ ์ด๊ณ ๊ตฌ์ฒดํ๋ AI ์ฐ๊ตฌ ๊ณผ์ (Visual Exploration, Visual Navigation, Embodied QA)๋ฅผ ๋ณ์๋ค. ๋๋ถ๋ถ์ ๊ธฐ์กด ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ Task์ ์ด์ ์ ๋ง์ถ๊ฑฐ๋ ๋ชจ๋์ ์ฌ์ฉํ์ฌ ๋ณต์กํ ์์ ์ ๋ํ ๋ชจ๋ธ์ ๊ตฌ์ถํ๊ธฐ ๋๋ฌธ์ ์ฌ๊ธฐ์์๋ ์ด ์ธ ๊ฐ์ง Task์ ์ด์ ์ ๋ง์ถ ๊ฒ์ด๋ค. ์ด๊ฒ์ ๋ณต์ก์ฑ ์ฆ๊ฐ์๋ ์ฐ๊ด๋์ด ์๋ค. Visual Exploration์ Visual Navigation์์ ๋งค์ฐ ์ ์ฉํ ๊ตฌ์ฑ ์์์ด๋ฉฐ ํ์ค์ ์ธ ์ํฉ์ ์ฌ์ฉ๋๋ค. Embodied QA๋ ๋น์ ๋ฐ ์ธ์ด ํ์์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ๋ณต์กํ QA ๊ธฐ๋ฅ์ ์ถ๊ฐ๋ก ํฌํจํ๋ค. ์ธ์ด๋ ์ผ๋ฐ์ ์ธ ์์์ด๊ณ ์๊ฐ์ QA๋ AI์์ ์ธ๊ธฐ ์๋ ์์ ์ด๊ธฐ ๋๋ฌธ์ Embodied QA๋ Embodied AI์ ์์ฐ์ค๋ฌ์ด ๋ฐฉํฅ์ด๋ผ๊ณ ๋ณผ ์ ์๋ค. ๋ ผ์๋ 3๊ฐ์ง Task๋ ์ ์๋ 9๊ฐ์ Simulator ์ค ํ๋ ์ด์์์ ๊ตฌํ๋ ๊ฒ์ด๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ๋ฌผ๋ฆฌ์ ์ธ๊ณ์ Sim2Real๊ณผ Robotics๋ ๋ค๋ฃจ์ง ์๋๋ค.
Simulator๋ค์ CVPR์์ ๋งค๋ ์ด๋ฆฌ๋ Embodied AI Workshop์์ ๊ตฌํ์ ์ฌ์ฉ๋ Simulator๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ํ๋์๋ค.
์น์ I์์๋, ๋ณธ Survey์ ๊ฐ์ ๊ตฌ์กฐ๋ฅผ ๊ฐ๋ตํ ์ค๋ช ํ๋ค. ์น์ II์์๋, 9๊ฐ์ Simulator๋ฅผ ๋ฒค์น๋งํนํ์ฌ ํ์ค์ฑ, ํ์ฅ์ฑ, ๋ํ์ฑ ๋ฐ Embodied AI ์ฐ๊ตฌ์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ ์ดํดํ๋ค. ์น์ III์์๋, Embodied AI์ 3๊ฐ์ง Task์ธ Visual Exploration, Visual Navigation, Embodied Question Answering(QA)์ ์กฐ์ฌํ์ฌ ์ต์ฒจ๋จ ์ ๊ทผ ๋ฐฉ์, ํ๊ฐ, ๋ฐ์ดํฐ์ ์ ๋ค๋ฃฌ๋ค. ๋ง์ง๋ง์ผ๋ก ์น์ IV์์๋ Simulator, ๋ฐ์ดํฐ์ , ์ฐ๊ตฌ ๊ณผ์ ์ ๋ํ ๊ธฐ์กด ๊ณผ์ ๊ฐ์ ์ํธ ์ฐ๊ฒฐ์ ํ๋ฆฝํ ๊ฒ์ด๋ค.
๋ณธ Survey๋ Embodied AI์ ์ ํฅ ๋ถ์ผ๋ฅผ ํฌ๊ด์ ์ผ๋ก ์ดํด๋ณด๊ณ ํด๋น ๋ถ์ผ์ ์๋ก์ด ํต์ฐฐ๋ ฅ๊ณผ ๊ณผ์ ๋ฅผ ์ ์ํ๋ค. ๋ํ, AI ์ฐ๊ตฌ์๋ค์ด ๊ด์ฌ ์๋ Task๋ฅผ ์ํด ์ด์์ ์ธ Simulator๋ฅผ ์ ํํ๋ ๋ฐ ํ์ฉํ ์ ์๋๋ก ํ๋ค.
Survey์ ์ ์๋ 9๊ฐ์ Simulator๋ CVPR์์ ์ฌ์ฉ๋๋ ๊ฒ์ ๊ธฐ๋ฐ์ผ๋ก ์ ํํ์์ผ๋ฉฐ, 3๊ฐ์ง Task์ 1์ฐจ/2์ฐจ ํ๊ฐ ์ธํธ๋ฅผ ํตํด Embodied AI ์ฐ๊ตฌ ๋ถ์ผ์ Simulator๋ฅผ ์ฌ์ฉํ ๋ ์ด์์ ์ผ๋ก(์๋ง๊ฒ) ์ ํํ ์ ์๋๋ก ๋๋๋ค.
II. Simulators for Embodied AI
์ด ์น์ ์์๋ Embodied AI Simulator์ ๋ฐฐ๊ฒฝ์ ์ ์ํ๊ณ , ํน์ง์ ๋น๊ต ๋ฐ ๋ ผ์ํ๋ค.
A. Embodied AI Simulators
DeepMind Lab, AI2-THOR, SAPIEN, VirtualHome, VRKitchen, ThreeDWorld, CHALET, iGibson, Habitat-Sim 9๊ฐ์ Simulator์ ๋ฐฐ๊ฒฝ์ ์ ์ํ๋ค. ๊ฐ Simulator์ ๋ํ ์์ธํ ๋ด์ฉ์ ๋ณด์ถฉ ์๋ฃ๋ฅผ ์ฐธ์กฐํ์. ์ด ์น์ ์์๋ 7๊ฐ์ง ๊ธฐ์ ์ ํน์ง์ ๊ธฐ๋ฐ์ผ๋ก 9๊ฐ์ Simulator๋ฅผ ์ข ํฉ์ ์ผ๋ก ๋น๊ตํ๋ค. 7๊ฐ์ง ๊ธฐ์ ์ ํน์ง(Environment, Physics, Object Type, Object Property, Controller, Action, Multi-Agent)์ Simulator๋ฅผ ํ๊ฐํ๊ธฐ ์ํ ์ฃผ์ ํน์ง์ด๋ค. ์ด๊ฒ์ ํ๊ฒฝ, ์ํธ ์์ฉ, ๋ฌผ๋ฆฌ์ ์ธ๊ณ์ ์ํ๋ฅผ ์ ํํ๊ฒ ๋ณต์ ํ๋ ๋ฐ ํ์ํ ํ์ ์ธก๋ฉด์ ๋ค๋ฃจ๋ฏ๋ก Simulator๋ฅผ ํ๊ฐํ์ฌ ์ง๋ฅ์ ํ ์คํธํ๋ ๋ฐ ์ ํฉํ ํ ์คํธ ๋ฒ ๋๋ฅผ ์ ๊ณตํ๋ค.
1) Environment
Embodied AI Simulator ํ๊ฒฝ์ ๊ตฌ์ฑํ๋ ๋ฐฉ๋ฒ์ ํฌ๊ฒ Game-based์ World-based๋ก ๊ตฌ๋ถ๋๋ค.
๊ทธ๋ฆผ 1์ ์ฐธ์กฐํ๋ฉด, Game-based ์ฅ๋ฉด ๊ตฌ์ฑ ๋ฐฉ๋ฒ์ 3D ์์ฐ์ผ๋ก ๊ตฌ์ฑ๋๋ฉฐ, World-based ์ฅ๋ฉด ๊ตฌ์ฑ ๋ฐฉ๋ฒ์ ๊ฐ์ฒด์ ํ๊ฒฝ์ ์ค์ ์ค์บ์ผ๋ก ๊ตฌ์ฑ๋๋ค.
์์ 3D ์์ฐ์ผ๋ก ๊ตฌ์ฑ๋ 3D ํ๊ฒฝ์ ์ค์ ์ค์บ๋์ผ๋ก ๋ง๋ค์ด์ง ํ๊ฒฝ์ 3D Mesh์ ๋น๊ตํ ๋ ์ ์ธ๋ถํ๋ ๋ด์ฅ ๋ฌผ๋ฆฌ ๊ธฐ๋ฅ๊ณผ ๊ฐ์ฒด ํด๋์ค๋ฅผ ๊ฐ์ง๋ค. 3D ์์ฐ์ ๋ํ ๋ช ํํ ๊ฐ์ฒด ๋ถํ ์ ํตํด PartNet์์ ์ ๊ณตํ๋ 3D ๋ชจ๋ธ๊ณผ ๊ฐ์ด ์ด๋ ๊ฐ๋ฅํ Joint๋ฅผ ๊ฐ์ง ๊ด์ ํ ๊ฐ์ฒด๋ก ์ฝ๊ฒ ๋ชจ๋ธ๋งํ ์ ์๋ค. ๋์กฐ์ ์ผ๋ก, ํ๊ฒฝ๊ณผ ๊ฐ์ฒด์ ์ค์ ์ค์บ์ ์ค์ธ๊ณ์ ๋ํ ๋ ๋์ ์ถฉ์ค๋์ ๋ ์ ํํ ํํ์ ์ ๊ณตํ์ฌ Simulation์์ ์ค์ธ๊ณ๋ก Agent ์ฑ๋ฅ์ ๋ ์ ์ ๋ฌํ ์ ์๋ค. (Habitat-Sim, iGibson์ ์ ์ธํ ๋๋ถ๋ถ์ Simulator๊ฐ Game-based ๋ฐฉ๋ฒ์ผ๋ก ๊ตฌ์ฑ๋จ)
2) Physics
Simulator๋ ์ค์ ํ๊ฒฝ๋ฟ๋ง ์๋๋ผ ์ค์ ๋ฌผ๋ฆฌ ํน์ฑ์ ๋ชจ๋ธ๋งํ๋ Agent์ ๊ฐ์ฒด, ๊ฐ์ฒด์ ๊ฐ์ฒด ๊ฐ์ ํ์ค์ ์ธ ์ํธ์์ฉ๋ ๊ตฌ์ฑํด์ผ ํ๋ค. ์ฌ๊ธฐ์ ๋ฌผ๋ฆฌ์ ํน์ง์ Basic(์ผ๋ฐ) physics์ Advanced(๊ณ ๊ธ) physics๋ก ๊ตฌ๋ถ๋๋ค.
๊ทธ๋ฆผ 2์ ์ฐธ์กฐํ๋ฉด, Basic feature๋ก๋ collision(์ถฉ๋), rigid-body dynamics(๊ฐ์ฒด ์ญํ), gravity(์ค๋ ฅ) ๋ชจ๋ธ๋ง ๋ฑ์ด ์์ผ๋ฉฐ Advanced feature๋ก๋ cloth(์ฒ), fluid(์ ์ฒด), soft-body(์ฐ์ฒด ๋ฌผ๋ฆฌํ) ๋ฑ์ด ์๋ค.
๋๋ถ๋ถ์ Embodied AI Simulator๋ ๋ฌผ๋ฆฌ ์์ง์ด ๋ด์ฅ๋ Game-based๋ก ๊ตฌ์ฑ๋์ด ์๊ธฐ ๋๋ฌธ์ Basic physics feature๋ฅผ ๊ฐ์ถ๊ณ ์๋ค. ๋ฐ๋ฉด, ๋ณต์กํ ๋ฌผ๋ฆฌํ ํ๊ฒฝ์ด ์ธ๊ณต Agent์ ๊ฒฐ์ ์ ์ด๋ป๊ฒ ํ์ฑํ๋์ง ์ดํดํ๋์ง๊ฐ ๋ชฉํ์ธ ThreeDworld์ ๊ฐ์ Simulator์ ๊ฒฝ์ฐ, Advanced physics feature๋ฅผ ๊ฐ์ถ๊ณ ์๋ค.
๋ํํ ํ์ ๊ธฐ๋ฐ ์์ ์ ์ด์ฒจ์ ๋ง์ถ Simulator์ ๊ฒฝ์ฐ, ์ผ๋ฐ์ ์ผ๋ก Basic physics feature๋ก ์ถฉ๋ถํ๋ค.
3) Object Type
Simulator๋ฅผ ๋ง๋๋ ๋ฐ ์ฌ์ฉ๋๋ ๊ฐ์ฒด์๋ ๋ ๊ฐ์ง ์ฃผ์ ์์ค๊ฐ ์๋ค.
์ฒซ ๋ฒ์งธ Type(์ ํ)์ Matterport3D, Gibson๊ณผ ๊ฐ์ ๊ธฐ์กด ๊ฐ์ฒด ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ ํ์๋ Dataset-driven(๋ฐ์ดํฐ์ ๊ธฐ๋ฐ) ํ๊ฒฝ์ด๋ค. ๋ ๋ฒ์งธ Type(์ ํ)์ Unity 3D ๊ฒ์ ์์ฐ ์คํ ์ด์ ๊ฐ์ Net์์ Object๋ฅผ ๊ฐ์ ธ์ค๋ Asset-driven(์์ฐ ๊ธฐ๋ฐ) ํ๊ฒฝ์ด๋ค.
๋ ์์ค์ ์ฐจ์ด์ ์ ๊ฐ์ฒด ๋ฐ์ดํฐ์ ์ ์ง์ ๊ฐ๋ฅ์ฑ์ด๋ค. Dataset-driven ๊ฐ์ฒด๋ ๋๊ตฌ๋ ์จ๋ผ์ธ์ผ๋ก 3D ๊ฐ์ฒด ๋ชจ๋ธ์ ๊ธฐ์ฌํ ์ ์๋ Asset-driven ๊ฐ์ฒด๋ณด๋ค ์์ง ๋น์ฉ์ด ๋ ๋ง๋ค. ํ์ง๋ง, Dataset-driven ๊ฐ์ฒด๋ณด๋ค Asset-driven ๊ฐ์ฒด์์ 3D ๊ฐ์ฒด ๋ชจ๋ธ์ ํ์ง์ ๋ณด์ฅํ๋ ๊ฒ์ด ๋ ์ด๋ ต๋ค.
๊ฒํ ์ ๋ฐ๋ฅด๋ฉด, Game-based ๋ฐฉ์์ Simulator๋ ์์ฐ ์ ์ฅ์์์ ๊ฐ์ฒด ๋ฐ์ดํฐ์ ์ ์ป๊ธฐ ์ฌ์ด ๋ฐ๋ฉด, World-based ๋ฐฉ์์ Simulator๋ ๊ธฐ์กด 3D ๊ฐ์ฒด ๋ฐ์ดํฐ์ ์์ ์์์ ์ป๋๋ค.
4) Object Property
์ผ๋ถ Simulator๋ ์ถฉ๋๊ณผ ๊ฐ์ ๊ธฐ๋ณธ ์ํธ์์ฉ์ ๊ฐ์ง ๊ฐ์ฒด๋ง ์ฌ์ฉํ ์ ์๋ค. ๊ณ ๊ธ Simulator๋ ๋ค์ค ์ํ ๋ณ๊ฒฝ๊ณผ ๊ฐ์ด ๋ ์ธ๋ฐํ ์ํธ์์ฉ์ ๊ฐ์ง ๊ฐ์ฒด๋ฅผ ์ฌ์ฉํ ์ ์๋ค. ์๋ฅผ ๋ค์ด, ์ฌ๊ณผ๋ฅผ ์๊ฒ ์ฐ์์ ๋ ์ฌ๊ณผ ์กฐ๊ฐ์ผ๋ก ์ํ๋ฅผ ๋ฐ๋๊ฒ ํ๋ค.
๋ฐ๋ผ์, ์ฐ๋ฆฌ๋ ์ด๋ฌํ ์๋ก ๋ค๋ฅธ ์์ค์ ๊ฐ์ฒด ์ํธ์์ฉ์ Interact-able(์ํธ์์ฉ ๊ฐ๋ฅ)๊ณผ Multiple-state(๋ค์ค ์ํ) ๊ฐ์ฒด๋ฅผ ๊ฐ์ง Simulator๋ก ๋ถ๋ฅํ๋ค.
ํ I๋ฅผ ์ฐธ์กฐํ๋ฉด AI2-THOR, VRKitchen๊ณผ ๊ฐ์ ์ผ๋ถ Simulator๋ Multiple-state๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ์ฌ ์ค์ธ๊ณ์์ ๋์ํ ๋ ๋ฌผ์ฒด๊ฐ ์ด๋ป๊ฒ ๋ฐ์ํ๊ณ ์ํ๋ฅผ ๋ณํ์ํค๋์ง ์ดํดํ๋ ํ๋ซํผ์ ์ ๊ณตํ๋ค.
5) Controller
๊ทธ๋ฆผ 4๋ฅผ ์ฐธ์กฐํ๋ฉด, ์ฌ์ฉ์์ Simulator ๊ฐ์ Controller ์ธํฐํ์ด์ค๋ Direct Python API(์ง์ ํ์ด์ฌ API ์ปจํธ๋กค๋ฌ), Virtual Robot(๊ฐ์ ๋ก๋ด ์ปจํธ๋กค๋ฌ), Virtual Reality(๊ฐ์ ํ์ค ์ปจํธ๋กค๋ฌ)์ ์ด๋ฅด๊ธฐ๊น์ง ๋ค์ํ ์ ํ์ด ์กด์ฌํ๋ค.
Robotics๋ Universal Robot 5(UR5)๋ TurtleBot V2์ ๊ฐ์ ๊ธฐ์กด ์ค์ ๋ก๋ด์ ๊ฐ์ ์ํธ์์ฉ์ ํ์ฉํ๋ฉฐ, ROS ์ธํฐํ์ด์ค๋ฅผ ์ฌ์ฉํ์ฌ ์ง์ ์ ์ดํ ์ ์๋ค.
Virtual Reality Controoler ์ธํฐํ์ด์ค๋ ๋ณด๋ค ๋ชฐ์ ์ ์ธ HCI(์ธ๊ฐ๊ณผ ์ปดํจํฐ์ ์ํธ์์ฉ)๋ฅผ ์ ๊ณตํ๊ณ , Real-World Counterparts๋ฅผ ์ฌ์ฉํ์ฌ ๋ฐฐ์น๋ฅผ ์ฉ์ดํ๊ฒ ํ๋ค. ์๋ฅผ ๋ค์ด, ์ฃผ๋ก Visual Navigation์ ์ํด ์ค๊ณ๋ iGibson๊ณผ AI2-THOR์ ๊ฐ์ ์๋ฎฌ๋ ์ดํฐ๋ ๊ฐ๊ฐ Castro์ RoboTHOR์ ๊ฐ์ด Counterparts๋ฅผ ๋ง๋ค๊ธฐ ์ฝ๋๋ก Viretual Robot Controller๋ฅผ ๊ฐ์ง๋ค.
* iGibson, AI2-THOR์ ์ํ์ฌ์ ๋ก๋ด์ ๋ํ Virtual Robot Controller๋ฅผ ํ์ฌํ ์๋ฎฌ๋ ์ดํฐ์
6) Action
Embodied AI Simulator์์ ์ธ๊ณต Agent ํ๋ ๋ฅ๋ ฅ์ ๋ณต์ก์ฑ์๋ ์ฃผ์ ํ์ ๋ฅ๋ ฅ(primary navigation)๋ง ์ํํ ์ ์๋ ๊ฒ๋ถํฐ ๊ฐ์ ํ์ค ์ธํฐํ์ด์ค๋ฅผ ํตํด ๋ ๋์ ์์ค์ ์ธ๊ฐ-์ปดํจํฐ ๋์์ ์ํํ๋ ๊ฒ๊น์ง ์ฐจ์ด๊ฐ ์๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ์ด๋ค์ Navigation, Atomic Action, Human-Computer Interaction์ผ๋ก ๋ถ๋ฅํ๋ค.
Navigaton์ ๊ฐ์ฅ ๋ฎ์ ๊ณ์ธต์ด๋ฉฐ ๋ชจ๋ Embodied AI Simulator์์ ๊ณตํต์ ์ผ๋ก ๊ฐ์ง๋ ๊ธฐ๋ฅ์ด๋ค. ๊ฐ์ ํ๊ฒฝ์ ํ์ํ๋ Agent์ ๊ธฐ๋ฅ์ ์ํด ์ ์๋๋ค.
Atomic Action์ ์ธ๊ณต Agent์ ๊ด์ฌ ๋์์ ๋ํ ๊ธฐ๋ณธ์ ์ธ ์ด์ฐ ์กฐ์์ ์ํํ๋ ์๋จ์ ์ ๊ณตํ๋ฉฐ ๋๋ถ๋ถ์ Simulator์ ํ์ฌ๋์ด ์๋ค.
Human-Computer Interaction์ Virtual Reality Controller์ ๊ฒฐ๊ณผ๋ก, ๊ฐ์ Agent๋ฅผ ์ ์ดํ์ฌ ๊ฐ์ Agent๋ฅผ ์ค์๊ฐ์ผ๋ก ํ์ตํ๊ณ ๊ฐ์ ์ธ๊ณ์ ์ํธ์์ฉํ ์ ์๋๋ก ํ๋ค.
AI2-THOR, iGibson, HabitatSim๊ณผ ๊ฐ์ ๋๊ท๋ชจ ํ์ ๊ธฐ๋ฐ Simulator์ ๋๋ถ๋ถ์ Navigation, Atomic Action, ROS๋ฅผ ์ฌ์ฉํ๋ ๊ฒฝํฅ์ด ์์ผ๋ฉฐ ์ด๋ฅผ ํตํด ํฌ์ธํธ ํ์ ๋๋ ๊ฐ์ฒด ํ์๊ณผ ๊ฐ์ ์์ ์ ์ํํ๋ ๋์ ํ๊ฒฝ ๋ด ๋ฌผ์ฒด๋ฅผ ๋ ์ ์ ์ดํ๊ณ ์กฐ์ํ ์ ์๋ค.
๋ฐ๋ฉด, ThreeDWorld, VRKitchen๊ณผ ๊ฐ์ Simulator๋ ๋งค์ฐ ํ์ค์ ์ธ ๋ฌผ๋ฆฌ ๊ธฐ๋ฐ ์๋ฎฌ๋ ์ด์ ๊ณผ Muliple-state ๋ณํ๋ฅผ ์ ๊ณตํ๋๋ก ๊ตฌ์ฑ๋์๊ธฐ ๋๋ฌธ์ HCI ๋ฒ์ฃผ์ ์ํ๋ค. ๊ฐ์ ๊ฐ์ฒด์ ์ํธ์์ฉํ ๋์๋ ์ธ๊ฐ ์์ค์ ๋ฏผ์ฒฉ์ฑ์ด ํ์ํ๊ธฐ ๋๋ฌธ์ HCI์์๋ง ๊ฐ๋ฅํ๋ค.
7) Multi-Agent
ํ I๋ฅผ ์ฐธ์กฐํ๋ฉด, ๋ค์ค Agent ๊ฐํ ํ์ต์ ํฌํจํ๋ ์ฐ๊ตฌ๊ฐ ๋ถ์กฑํ๊ธฐ ๋๋ฌธ์ ์ผ๋ถ ์๋ฎฌ๋ ์ดํฐ(AI2-THOR, iGibson, ThreeDworld)์์๋ง ๋ค์ค Agent ์ค์ ์ ๊ฐ์ถ๊ณ ์๋ค.
์ผ๋ฐ์ ์ผ๋ก Simulator๋ ์ธ๊ณต Agent์ ์ ๋์ ์ด๊ฑฐ๋ ํ์ ํ๋ ํ๋ จ์ ์ฌ์ฉ๋๋ ๋ค์ค Agent๋ฅผ ๊ตฌ์ฑํ๋ ์ค์ง์ ๊ฐ์น๋ฅผ ๊ฐ๊ธฐ ์ ์ ๊ฐ์ฒด ์ฝํ ์ธ ๊ฐ ํ๋ถํด์ผ ํ๋ค. ์ด๋ฌํ ๋ค์ค Agent ์ง์ Simulator์ ๋ถ์กฑ์ผ๋ก ์ธํด Embodied AI Simulator์์ ๋ค์ค Agent ๊ธฐ๋ฅ์ ํ์ฉํ๋ ์ฐ๊ตฌ Task๊ฐ ์ค์ด๋ค์๋ค.
๋ค์ค Agent ์ค์ ์๋ ๋ ๊ฐ์ง๊ฐ ์๋ค. ์ฒซ ๋ฒ์งธ๋ ์ธ๊ณต Agent์ Simulation ์๋ฐํ ๊ฐ์ ์ํธ ์์ฉ์ ํ์ฉํ๋ ThreeDWorld์ Avatar-based ๋ฐฉ์์ด๋ค. ๋ ๋ฒ์งธ๋ AI2-THOR์ User-based ๋ฐฉ์์ผ๋ก, 2๊ฐ์ Agent๊ฐ ๊ฐ๊ฐ(์ด์ค) ํ์ต ๋คํธ์ํฌ ์ญํ ์ ๋งก๊ณ Simulation์์ ๋ค๋ฅธ ์ธ๊ณต Agent์ ์ํธ ์์ฉํ์ฌ ๊ณตํต Task๋ฅผ ๋ฌ์ฑํ๋ ๊ฒ์ด๋ค.
[ Simulator๋ฅผ ํ๊ฐํ๋ 7๊ฐ์ง 1์ฐจ ํ๊ฐ ์งํ ]
1) Environment
- Game-based: 3D ์์ฐ์ผ๋ก ๊ตฌ์ฑ. ๋ฌผ๋ฆฌ์ ํน์ง๊ณผ ๊ฐ์ฒด ๋ถํ ์ด ์ ๊ตฌํ๋์ด ์์ง์์ด ์๋ ๋ชจ๋ธ๋ง์ ์ ํฉ
- World-based: ํ์ค ์ธ๊ณ์ ์ค์บ. ํ์ค ์ธ๊ณ ๋ฐ์๋๊ฐ ๋์ผ๋ฉฐ Sim2Real์ ์ ์ฉ. ๋ง์ ์์์ด ํ์ํจ
2) Physics
- Basic features: ์ถฉ๋, ๊ฐ์ฒด ์ญํ, ์ค๋ ฅ ๋ชจ๋ธ๋ง. ๋๋ถ๋ถ ์ด ํน์ง์ผ๋ก ๊ตฌ์ฑ(Basic์ผ๋ก ์ถฉ๋ถํ๊ธฐ ๋๋ฌธ)
- Advanced features: ์ฒ, ์ ์ฒด, ์ฐ์ฒด ๋ฌผ๋ฆฌํ. ๋ณต์กํ ๋ฌผ๋ฆฌ ํ๊ฒฝ์ด ํ์ํ ๊ฒฝ์ฐ ์ฌ์ฉ
3) Object Type
- Dataset-driven: ๊ฐ์ฒด ์์ง์ด ์ด๋ ต๊ณ ๋น์ฉ์ด ๋์ง๋ง Quality๊ฐ ๋ณด์ฅ๋จ (๊ธฐ์กด 3D ๊ฐ์ฒด ๋ฐ์ดํฐ์ )
- Asset-driven: ๋๊ตฌ๋ ์ ๊ทผ ๊ฐ๋ฅํ์ฌ ์์ง์ด ์ฝ์ง๋ง Quality๊ฐ ๋ณด์ฅ๋์ง ์์ (Asset Store ์ด์ฉ)
4) Object Property
- Interact-able: ์ถฉ๋๊ณผ ๊ฐ์ ๋ฌผ์ฒด ๊ฐ์ ์ํธ์์ฉ๋ง ๊ฐ๋ฅ
- Multiple-state: ๋ฌผ์ฒด๊ฐ ์ด๋ป๊ฒ ๋ฐ์ํ๊ณ ์ํ๋ฅผ ๋ณํ์ํค๋์ง๊น์ง ๊ฐ๋ฅ
5) Controller
- Direct Python API
- Virtual Robot: ROS ์ธํฐํ์ด์ค์ฒ๋ผ ์ค์ธ๊ณ์ ๋ก๋ด(ํฐํ๋ด ๋ฑ)๊ณผ ์ํธ์์ฉ์ด ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- Virtual Reality: ๋ ๋ชฐ์ ์ ์ธ HCI๋ฅผ ์ ๊ณตํ์ฌ ์ค์ธ๊ณ ๋ฌผ๊ฑด๋ค์ ๋ฐฐ์นํ ์ ์๋ค.
6) Action
- Navigation: ๊ฐ์ฅ ํ์ ๋ ๋ฒจ. Embodied AI Simulator์ ํน์ง์ผ๋ก, ๊ฐ์ ๊ณต๊ฐ์ ํ์ํ๋ ๋ฅ๋ ฅ
- Atomic Action: ์ธ๊ณต Agent๊ฐ ๊ฐ์ฒด์ ๋ํ ๊ฐ๋จํ ํ๋๋ค์ ์ํ. ๋ง์ Simulator์์ ์ง์
- Human-Computer Interaction: ์ฌ๋์ด ๊ฐ์ Agent๊ฐ ํ์ตํ๊ณ ์ํธ์์ฉํ๋ ๊ฒ์ ์ค์๊ฐ์ผ๋ก ์ ์ด
7) Multi-Agent
- Avatar-based: ์ธ๊ณต Agent์ Simulation ์๋ฐํ๊ฐ ์ํธ์์ฉ. (ex. ThreeDWorld)
- User-based: 2๊ฐ์ ํ์ต ๋คํธ์ํฌ ์ญํ ์ด ์ฃผ์ด์ง ์๋ก ๋ค๋ฅธ ์ธ๊ณต Agent๊ฐ ์ํธ์์ฉ (ex. AI2-THOR)
B. Comparison of Embodied AI Simulators
Embodied AI์ ๋ํ Allen ์ธ๊ณต์ง๋ฅ ์ฐ๊ตฌ์์ ์ฐ๊ตฌ์ 7๊ฐ์ง ํน์ง์ ๋ฐํ์ผ๋ก Simulator๋ฅผ ์ํ 2์ฐจ ํ๊ฐ ์ธํธ๋ฅผ ์ ์ํ๋ค. 2์ฐจ ํ๊ฐ ์ธํธ๋ ํ I์ ํ์๋ ๊ฒ์ฒ๋ผ Realism(์ฌ์ค์ฑ), Scalability(ํ์ฅ์ฑ), Interactivity(์ํธ์์ฉ์ฑ) 3๊ฐ์ง ์ฃผ์ ๊ธฐ๋ฅ์ผ๋ก ๊ตฌ์ฑ๋๋ค.
3D ํ๊ฒฝ์ Realism์ ์๋ฎฌ๋ ์ดํฐ์ Environment์ Physics์ ๊ธฐ์ธํ๋ค. ํ๊ฒฝ์ ์ค์ธ๊ณ์ ๋ฌผ๋ฆฌ์ ์ธ๊ด์ ๋ชจ๋ธ๋งํ๋ ๋ฐ๋ฉด, ๋ฌผ๋ฆฌํ์ ์ค์ธ๊ณ ๋ด์ ๋ณต์กํ ๋ฌผ๋ฆฌ์ ํน์ฑ์ ๋ชจ๋ธ๋งํ๋ค.
3D ํ๊ฒฝ์ Scalability๋ Object Type์ ๊ธฐ์ธํ๋ค. Dataset-based ๊ฐ์ฒด์ ๋ํ ์ค์ธ๊ณ์ 3D ์ค์บ์ ๋ ์์งํ๊ฑฐ๋ Asset-based ๊ฐ์ฒด์ ๋ํ 3D ์์ฐ์ ๋ ๊ตฌ์ ํ์ฌ ํ์ฅ ๊ฐ๋ฅํ๋ค.
Interactivity๋ Object Property, Controller, Action, Multi-Agent์ ๊ธฐ์ธํ๋ค.
ํ I์ ๊ทธ๋ฆผ 6์ 7๊ฐ์ง ์ฃผ์ ํน์ง์ธ Embodied AI Simulator์ 2์ฐจ ํ๊ฐ ์ธํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก 3๊ฐ์ง 2์ฐจ ํน์ง์ ๋ชจ๋ ๋ณด์ ํ Simulator(AI2-THOR, iGibson, Habitat-Sim)๊ฐ ๋ ์ข์ ํ๊ฐ๋ฅผ ๋ฐ๊ณ ์์ผ๋ฉฐ Embodied AI Task์ ๋๋ฆฌ ์ฌ์ฉ๋๋ค.
Embodied AI Simulator์ ๋ํด ํฌ๊ด์ ์ด๊ณ ์ ๋์ ์ธ ๋น๊ต๋ฅผ ์ํํ์ฌ ๊ฐ Simulator์ Environment Configuration(ํ๊ฒฝ ๊ตฌ์ฑ)๊ณผ Technical Performance(๊ธฐ์ ์ฑ๋ฅ)์ ๋น๊ตํ๋ค. ํ๊ฒฝ ๊ตฌ์ฑ ๊ธฐ๋ฅ์ Simulator์ ์ ์์๊ฐ ์ ์ํ ์์ฉ ํ๋ก๊ทธ๋จ์ ๋ฐ๋ผ ํฌ๊ฒ ๋ฌ๋ผ์ง๋ฉฐ, ๊ธฐ์ ์ฑ๋ฅ์ ์ ์์ ์ฌ์ฉ๋๋ Simulation ์์ง์ ํฌ๊ฒ ์ํฅ์ ๋ฐ๋๋ค.
AI2-THOR์ ๋ค๋ฅธ Simulator์ ๋นํด ํ๊ฒฝ ๊ตฌ์ฑ์ด ๊ฐ์ฅ ํฌ๋ฉฐ, Habitat-Sim๊ณผ iGibson์ ๊ทธ๋ํฝ ๋ ๋๋ง ์ฑ๋ฅ์์ ์์ 2์๋ฅผ ์ฐจ์งํ๋ค. ํ II์ ์ ์๋ ์ ๋์ ์ฑ๋ฅ์ ๋ฒค์น๋งํฌ๋ ์ด 3๊ฐ์ง Simulator์ ์ฐ์์ฑ๊ณผ ๋ณต์ก์ฑ์ ์ถ๊ฐ๋ก ๋ณด์ฌ์ค๋ค.
Embodied AI Simulator์ ๋ํ ์ด๋ฌํ ๋น๊ต๋ ๋ณธ Survey๊ฐ ์ฐ๊ตฌ Task์ ์ด์์ ์ธ Simulator๋ฅผ ์ ํํ๋ ๋ฐ ๋์์ ์ฃผ๊ธฐ ์ํด ํ๋ฆฝํ 7๊ฐ์ง 1์ฐจ ํ๊ฐ ์งํ์ 3๊ฐ์ง 2์ฐจ ํ๊ฐ ์งํ์ ์ค์์ฑ์ ๋์ฑ ๊ฐํํ์๋ค.
[ Simulator๋ฅผ ํ๊ฐํ๋ 3๊ฐ์ง 2์ฐจ ํ๊ฐ ์งํ ]
1) Realism(์ฌ์ค์ฑ)
- Environment: ํ์ค ์ธ๊ณ์ ๋ฌผ๋ฆฌ์ ์ธ๊ด์ ๋ชจ๋ธ๋ง
- Physics: ํ์ค ์ธ๊ณ์ ๋ณต์กํ ๋ฌผ๋ฆฌ์ ์ฑ์ง์ ๋ชจ๋ธ๋ง
2) Scalability(ํ์ฅ์ฑ)
- Object Type: ์ค์ธ๊ณ 3D ์ค์บ ๋ฐ์ดํฐ์ ์ ๋ ์์งํ๊ฑฐ๋ 3D Asset์ ๊ตฌ์ ํ์ฌ ํ์ฅ
3) Interactivity(์ํธ์์ฉ์ฑ)
- Object Property, Controller, Action, Multi-Agent
→ ๋ณธ 3๊ฐ์ง ํน์ง์ ๋ชจ๋ ๊ฐ์ง Simultor๋ Embodied AI Task ์ํ์ ์ ์ฉํ๊ฒ ์ฌ์ฉํ ์ ์๋ค.
'๐ค AI' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[ASR] Kaldi๋? (0) | 2025.03.17 |
---|---|
A Survey of Embodied AI: From Simulators to Research Tasks ๋ ผ๋ฌธ ์ ๋ฆฌ - (2) (0) | 2022.07.13 |