A Survey of Embodied AI: From Simulators to Research Tasks ๋…ผ๋ฌธ ์ •๋ฆฌ - (2)

2022. 7. 13. 16:47ยท๐Ÿค– AI
728x90

๋ณธ ๊ธ€์€ ํ•ด๋‹น ๋…ผ๋ฌธ์„ ํ•ด์„ํ•˜์—ฌ ๊ด€๋ จ ์—ฐ๊ตฌ์— ๋„์›€์„ ๋ฐ›๊ธฐ ์œ„ํ•ด ์ž‘์„ฑํ•œ ๊ธ€๋กœ, ์˜ค์—ญ๊ณผ ์˜คํƒˆ์ž ๋“ฑ์ด ์กด์žฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ฐœ์ธ์ ์ธ ํ•ด์„์ด ํฌํ•จ๋˜์–ด ์žˆ์œผ๋ฏ€๋กœ ๋ณด๋‹ค ์ •ํ™•ํ•œ ์ดํ•ด๋ฅผ ์›ํ•˜์‹œ๋Š” ๊ฒฝ์šฐ ๋ณธ๋ฌธ์„ ์ฐธ์กฐํ•ด์ฃผ์‹œ๊ธฐ ๋ฐ”๋ž๋‹ˆ๋‹ค.

 

 

 

A Survey of Embodied AI : ๋…ผ๋ฌธ ์ •๋ฆฌ (1)์—์„œ ์ž‘์„ฑํ•œ ๋‚ด์šฉ์˜ ๋’ท๋ถ€๋ถ„์œผ๋กœ, Survey์˜ III Part ๋‚ด์šฉ์„ ์ •๋ฆฌํ•˜์˜€๋‹ค.

 


 

III. Research in Embodied AI

์ด ์„น์…˜์—์„œ๋Š” ์ด์ „ ์„น์…˜์—์„œ ์กฐ์‚ฌํ•œ 9๊ฐœ์˜ Simulator์— ์˜์กดํ•˜๋Š” ๋‹ค์–‘ํ•œ Task์— ๋Œ€ํ•ด ๋…ผ์˜ํ•œ๋‹ค.

์ตœ๊ทผ Embodied AI ์—ฐ๊ตฌ๊ฐ€ ์ฆ๊ฐ€ํ•˜๋Š” ๋ฐ์—๋Š” ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๋™๊ธฐ๊ฐ€ ์žˆ๋‹ค. ์ธ์ง€๊ณผํ•™๊ณผ ์‹ฌ๋ฆฌํ•™์˜ ๊ด€์ ์—์„œ ๊ตฌํ˜„ ๊ฐ€์„ค์€, ์ง€๋Šฅ์ด ํ™˜๊ฒฝ๊ณผ์˜ ์ƒํ˜ธ์ž‘์šฉ๊ณผ ๊ฐ๊ฐ ์šด๋™ ํ™œ๋™์˜ ๊ฒฐ๊ณผ์—์„œ ๋ฐœ์ƒํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์ง๊ด€์ ์œผ๋กœ, ์ธ๊ฐ„์€ ๋Œ€๋ถ€๋ถ„์˜ ๊ฒฝํ—˜์ด ๋ฌด์ž‘์œ„ํ™”๋˜๊ณ  ์ˆ˜๋™์ ์ธ(์ฆ‰, ์™ธ๋ถ€์ ์œผ๋กœ ํ๋ ˆ์ด์…˜๋œ) "Internet AI" ํŒจ๋Ÿฌ๋‹ค์ž„์„ ํ†ตํ•ด์„œ๋งŒ ํ•™์Šตํ•˜์ง€ ์•Š๋Š”๋‹ค. ์ธ๊ฐ„์€ ๋Šฅ๋™์ ์ธ ์ง€๊ฐ, ์›€์ง์ž„, ์ƒํ˜ธ์ž‘์šฉ, ์˜์‚ฌ์†Œํ†ต์„ ํ†ตํ•ด ๋ฐฐ์šด๋‹ค. AI ๊ด€์ ์—์„œ, Embodied AI์˜ ํ˜„์žฌ Task๋Š” ๋งคํ•‘ ๋ฐ Navigation๊ณผ ๊ฐ™์€ ๋กœ๋ด‡ ๊ธฐ๋Šฅ์„ ์œ„ํ•œ ๋ณด์ด์ง€ ์•Š๋Š” ํ™˜๊ฒฝ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™”์™€ ๊ด€๋ จ๋œ ํ•™์Šต์œผ๋กœ ์ธํ•œ ๊ณ ์ „์  ๋ฐฉ๋ฒ•์— ๋น„ํ•ด ์„ผ์„œ ๋…ธ์ด์ฆˆ์— ๋Œ€ํ•œ ๊ฒฌ๊ณ ์„ฑ์ด ํ–ฅ์ƒ๋œ๋‹ค. ๋˜ํ•œ, Embodied AI๋Š” ๊นŠ์ด, ์–ธ์–ด, ์˜ค๋””์˜ค์™€ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ์–‘์‹์ด ํ•™์Šต ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์„ ํ†ตํ•ด ์‰ฝ๊ฒŒ ํ†ตํ•ฉ ๊ฐ€๋Šฅํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์œ ์—ฐ์„ฑ๊ณผ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์žฅํ•œ๋‹ค.

Embodied AI Task์˜ 3๊ฐ€์ง€ ์ฃผ์š” ์œ ํ˜•์€ Visual Exploration, Visual Navigation, Embodied QA์ด๋‹ค. Embodied AI์˜ ๊ธฐ์กด ๋…ผ๋ฌธ์€ ๋Œ€๋ถ€๋ถ„ ์ด Task์— ์ค‘์ ์„ ๋‘๊ฑฐ๋‚˜ ๋ชจ๋“ˆ์„ ์‚ฌ์šฉํ•˜์—ฌ ์˜ค๋””์˜ค-๋น„์ฃผ์–ผ Navigation๊ณผ ๊ฐ™์ด ๋ณต์žกํ•œ ์ž‘์—…์— ๋Œ€ํ•œ ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋ณธ ๋…ผ๋ฌธ์—์„œ๋„ ์ด 3๊ฐ€์ง€ Task์— ์ค‘์ ์„ ๋‘˜ ๊ฒƒ์ด๋‹ค.

Task๋Š” Navigation์—์„œ QA๋กœ ์ง„ํ–‰๋ ์ˆ˜๋ก ๋ณต์žก์„ฑ์ด ์ฆ๊ฐ€ํ•œ๋‹ค. Exploration์„ ์‹œ์ž‘ํ•œ ํ›„ Navigation์„ ๊ฑฐ์ณ ์ตœ์ข…์ ์œผ๋กœ QA๋ฅผ ๊ตฌํ˜„ํ•œ๋‹ค. Task ๊ฐ๊ฐ์€ ๋‹ค์Œ Task์˜ ํ† ๋Œ€๋ฅผ ์ด๋ฃจ๊ณ  ์žˆ์œผ๋ฉฐ, ๊ทธ๋ฆผ 5์™€ ๊ฐ™์ด Embodied AI Task์˜ ํ”ผ๋ผ๋ฏธ๋“œ ๊ตฌ์กฐ๋ฅผ ํ˜•์„ฑํ•˜๊ณ  ์žˆ์œผ๋ฉฐ ํ•ด๋‹น ๋ถ„์•ผ์— ๋Œ€ํ•œ ์ž์—ฐ์Šค๋Ÿฌ์šด ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•œ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ ์š”์•ฝ, ๋ฐฉ๋ฒ•๋ก , ํ‰๊ฐ€ ์ง€ํ‘œ๋ฅผ ์‹œ์ž‘์œผ๋กœ ๊ฐ Task์— ๋Œ€ํ•œ ์ค‘์š”ํ•œ ์ธก๋ฉด์„ ๊ฐ•์กฐํ•  ๊ฒƒ์ด๋ฉฐ ์„ธ๋ถ€ ์ •๋ณด๋Š” ํ‘œ III์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค.

๋”๋ณด๊ธฐ

3๋Œ€ ๊ณผ์ œ VE, VN, EQA์˜ ์ตœ์‹  ์ ‘๊ทผ๋ฒ•, ํ‰๊ฐ€๋ฒ•, ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด์„œ ๋‹ค๋ฃฌ๋‹ค.

  1. Visual Exploration
  2. Visual Navigation
  3. Embodied Question Answering

 


 

A. Visual Exploration

Visual Exploration์—์„œ Agent๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ์›€์ง์ž„๊ณผ ์ธ์‹์„ ํ†ตํ•ด 3D ํ™˜๊ฒฝ์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ์ˆ˜์ง‘ํ•˜์—ฌ ์‹œ๊ฐ์  ํƒ์ƒ‰๊ณผ ๊ฐ™์ด ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์— ์œ ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ํ™˜๊ฒฝ์˜ ๋‚ด๋ถ€ ๋ชจ๋ธ์„ ์—…๋ฐ์ดํŠธํ•œ๋‹ค. ๋ชฉํ‘œ๋Š” ์ด ์ž‘์—…์„ ๊ฐ€๋Šฅํ•œ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. (ex. ๊ฐ€๋Šฅํ•œ ์ ์€ ๋‹จ๊ณ„๋กœ)

๋‚ด๋ถ€ ๋ชจ๋ธ์€ Topological graph map(์œ„์ƒ ๊ทธ๋ž˜ํ”„ ๋งต), Semantic map(์˜๋ฏธ ๋งต), Occupancy map(์ ์œ  ๋งต), Spatial memory(๊ณต๊ฐ„ ๋ฉ”๋ชจ๋ฆฌ)์™€ ๊ฐ™์€ ํ˜•์‹์ด ๋  ์ˆ˜ ์žˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ง€๋„ ๊ธฐ๋ฐ˜ ์•„ํ‚คํ…์ฒ˜๋Š” ๊ธฐํ•˜ํ•™๊ณผ ์˜๋ฏธ๋ก ์„ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ์–ด ๋ฐ˜์‘์ ์ด๊ณ  ๋ฐ˜๋ณต์ ์ธ ์‹ ๊ฒฝ๋ง ์ •์ฑ…์— ๋น„ํ•ด ๋” ํšจ์œจ์ ์ธ ์ •์ฑ… ํ•™์Šต๊ณผ ๊ฒŒํš์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค.

Visual Exploration์€ ์ผ๋ฐ˜์ ์œผ๋กœ Visual Navigation ์ž‘์—… ์ „์— ์ˆ˜ํ–‰๋˜๊ฑฐ๋‚˜ ๋™์‹œ์— ์ˆ˜ํ–‰๋œ๋‹ค.

์ฒซ ๋ฒˆ์งธ ๊ฒฝ์šฐ, Visual Exploration์€ ๋‹ค์šด์ŠคํŠธ๋ฆผ ํƒ์ƒ‰ ์ž‘์—…์—์„œ path-planning(๊ฒฝ๋กœ ๊ณ„ํš)์— ์œ ์šฉํ•œ ๋‚ด๋ถ€ ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ๊ตฌ์ถ•ํ•œ๋‹ค. Agent๋Š” ํ•ญํ•ด๋ฅผ ์‹œ์ž‘ํ•˜๊ธฐ ์ „์— ํŠน์ • ์˜ˆ์‚ฐ(ex. ์ œํ•œ๋œ ์ˆ˜์˜ ๋‹จ๊ณ„) ๋‚ด์—์„œ ์ž์œ ๋กญ๊ฒŒ ํ™˜๊ฒฝ์„ ํƒ์ƒ‰ํ•œ๋‹ค. ๋‘ ๋ฒˆ์งธ ๊ฒฝ์šฐ, Agent๋Š” ๋ณด์ด์ง€ ์•Š๋Š” ํ…Œ์ŠคํŠธ ํ™˜๊ฒฝ์„ ํƒ์ƒ‰ํ•˜๋ฉด์„œ ์ง€๋„๋ฅผ ๊ตฌ์ถ•ํ•˜์—ฌ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…๊ณผ ๋”์šฑ ๊ธด๋ฐ€ํ•˜๊ฒŒ ํ†ตํ•ฉ๋œ๋‹ค.

์ด ์„น์…˜์—์„œ๋Š” ๊ธฐ์กด์˜ Visual Exploration Survey ๋…ผ๋ฌธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋” ์ตœ์‹  ์ž‘์—…๊ณผ ๋ฐฉํ–ฅ์„ ๊ธฐ์ˆ ํ•œ๋‹ค.

๊ณ ์ „์  Robotics์—์„œ Exploration์€ ์ˆ˜๋™์  ๋˜๋Š” ๋Šฅ๋™์  ๋™์‹œ ์œ„์น˜ ๊ฒฐ์ • ๋ฐ ๋งคํ•‘(SLAM)์„ ํ†ตํ•ด ํ™˜๊ฒฝ์˜ ์ง€๋„๋ฅผ ๊ตฌ์ถ•ํ•œ๋‹ค. ์ด ์ง€๋„๋Š” ํƒ์ƒ‰ ์ž‘์—…์— ๋Œ€ํ•œ ํ˜„์ง€ํ™” ๋ฐ ๊ฒฝ๋กœ ๊ณ„ํš์— ์‚ฌ์šฉ๋œ๋‹ค. SLAM์€ ๋งค์šฐ ์ž˜ ์—ฐ๊ตฌ๋˜์—ˆ์ง€๋งŒ ์ˆœ์ˆ˜ ๊ธฐํ•˜ํ•™์  ์ ‘๊ทผ๋ฒ•์€ ๊ฐœ์„ ์ด ํ•„์š”ํ•˜๋‹ค. ์„ผ์„œ์— ์˜์กดํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํŠน์ • ๋…ธ์ด์ฆˆ์— ์ทจ์•ฝํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๋ฐ˜๋ฉด, RGB ๋ฐ ๊นŠ์ด ์„ผ์„œ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ํ•™์Šต ๊ธฐ๋ฐ˜ ์ ‘๊ทผ ๋ฐฉ์‹์€ ๋…ธ์ด์ฆˆ์— ๋” ๊ฐ•ํ•˜๋‹ค. ๋˜ํ•œ ํ•™์Šต ๊ธฐ๋ฐ˜ ์ ‘๊ทผ ๋ฐฉ์‹์„ ํ†ตํ•ด ์ธ๊ณต Agent๋Š” ์˜๋ฏธ๋ก ์  ์ดํ•ด(ex. Environment - Object Type)๋ฅผ ํ†ตํ•ฉํ•˜๊ณ  ์ด์ „์— ๋ณธ ํ™˜๊ฒฝ์— ๋Œ€ํ•œ ์ง€์‹์„ ์ผ๋ฐ˜ํ™”ํ•˜์—ฌ ์ƒˆ๋กœ์šด ํ™˜๊ฒฝ์„ ๊ฐ๋…ํ•˜์ง€ ์•Š์€ ๋ฐฉ์‹์œผ๋กœ ์ดํ•ดํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋œ๋‹ค. ๋”ฐ๋ผ์„œ ์ธ๊ฐ„์— ๋Œ€ํ•œ ์˜์กด์„ ๊ฐ์†Œ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.

์ง€๋„ ํ˜•ํƒœ๋กœ ํ™˜๊ฒฝ์˜ ์œ ์šฉํ•œ ๋‚ด๋ถ€ ๋ชจ๋ธ์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•˜๋ฉด Agent์˜ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋  ์ˆ˜ ์žˆ๋‹ค. ์ง€๋Šฅํ˜• ํƒ์‚ฌ๋Š” ๊ตฌ์กฐ ๋กœ๋ด‡ ๋ฐ ์‹ฌํ•ด ํƒ์‚ฌ ๋กœ๋ด‡๊ณผ ๊ฐ™์ด Agent๊ฐ€ ์‹œ๊ฐ„์ด ์ง€๋‚จ์— ๋”ฐ๋ผ ๋™์ ์œผ๋กœ ์ „๊ฐœ๋˜๋Š” ์ƒˆ๋กœ์šด ํ™˜๊ฒฝ์„ ํƒ์ƒ‰ํ•ด์•ผ ํ•˜๋Š” ๊ฒฝ์šฐ์—๋„ ์œ ์šฉํ•˜๊ฒŒ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค.

๋”๋ณด๊ธฐ

Visual Exploration์€ Visual Navigation ์ด์ „ ๋˜๋Š” ๋™์‹œ์— ์ˆ˜ํ–‰๋œ๋‹ค.

  • VN ์ด์ „์— ์ˆ˜ํ–‰๋˜๋Š” ๊ฒฝ์šฐ: ์œ ์šฉํ•œ path-planning์— ํ•„์š”ํ•œ ๋‚ด๋ถ€ ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ๋ฏธ๋ฆฌ ๋นŒ๋“œ๋จ. Navigate ์ „์—๋Š” Agent๊ฐ€ ํ•œ์ •๋œ ์˜ˆ์‚ฐ ์•ˆ์—์„œ ์ž์œ ๋กญ๊ฒŒ ์ด๋™ํ•  ์ˆ˜ ์žˆ์Œ
  • VN๊ณผ ๋™์‹œ์— ์ˆ˜ํ–‰๋˜๋Š” ๊ฒฝ์šฐ: Agent๊ฐ€ ์ฒ˜์Œ ๋ณด๋Š” ํ…Œ์ŠคํŠธ ํ™˜๊ฒฝ์„ ํƒ์‚ฌํ•  ๋•Œ ๋งต์„ ๋นŒ๋“œํ•˜์—ฌ ๋‹ค์Œ ์ž‘์—…๊ณผ ๋”์šฑ ํ†ตํ•ฉ๋จ

์ „ํ†ต์  Robotics ๋งต์˜ ๋นŒ๋“œ์— Exploration์€ ์ˆ˜๋™/๋Šฅ๋™์ ์ด๊ณ  SLAM์„ ํ†ตํ•ด์„œ๋งŒ ์ด๋ฃจ์–ด์กŒ๋‹ค.

  • ์„ผ์„œ์— ์˜์กดํ•˜๋ฏ€๋กœ ์ธก์ •์— ๋Œ€ํ•œ ๋…ธ์ด์ฆˆ์— ๋ฏผ๊ฐํ•˜๊ณ  ๊ด‘๋ฒ”์œ„ํ•œ ํŒŒ์ธ ํŠœ๋‹์ด ํ•„์š”ํ•˜๋‹ค.
  • (↔) ํ•™์Šต ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•(RGB or ๊นŠ์ด ์„ผ์„œ)์€ ๋…ธ์ด์ฆˆ์— ๋” ๊ฐ•๋ ฅํ•˜๊ณ , ์ธ๊ณต Agent๊ฐ€ ์˜๋ฏธ๋ก ์  ์ดํ•ด๋ฅผ ํ†ตํ•ฉํ•˜๊ณ  ์ง€์‹์„ ์ผ๋ฐ˜ํ™”ํ•œ๋‹ค. ์ธ๊ฐ„์— ๋Œ€ํ•œ ์˜์กด์ด ์ตœ์†Œํ™”๋˜์–ด ํšจ์œจ์ ์ด๋‹ค.

๋‚ด๋ถ€ ๋ชจ๋ธ์„ ์ž˜ ๊ตฌ์„ฑํ•ด์•ผ Agent์˜ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋œ๋‹ค.

  • VE ๋‚ด๋ถ€ ๋ชจ๋ธ: Topological graph map(์œ„์ƒ ๊ทธ๋ž˜ํ”„ ๋งต), Semantic map(์˜๋ฏธ ๋งต), Occupancy map(์ ์œ  ๋งต), Spatial memory(๊ณต๊ฐ„ ๋ฉ”๋ชจ๋ฆฌ) ๋“ฑ

 

1) Approaches

์ด ์„น์…˜์—์„œ ์‹œ๊ฐ์  ํƒ๊ตฌ์˜ non-based ์ ‘๊ทผ๋ฒ•์€ ๋ถ€๋ถ„์ ์œผ๋กœ ๊ด€์ฐฐ๋œ Markov ์˜์‚ฌ ๊ฒฐ์ • ๊ณผ์ •(POMDPs)์œผ๋กœ ๊ณต์‹ํ™”๋œ๋‹ค. POMDP๋Š” ์ƒํƒœ ๊ณต๊ฐ„ S, ์ž‘์šฉ ๊ณต๊ฐ„ A, ์ „์ด ๋ถ„ํฌ T, ๋ณด์ƒ ํ•จ์ˆ˜ R, ๊ด€์ธก ๊ณต๊ฐ„ โ„ฆ, ๊ด€์ธก ๋ถ„ํฌ O, ํ• ์ธ ๊ณ„์ˆ˜ y ∈ [0, 1]์„ ๊ฐ–๋Š” 7๊ฐœ์˜ ํŠœํ”Œ(S, A, T, R, โ„ฆ, O, γ)๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ์ด๋Ÿฌํ•œ ์ ‘๊ทผ๋ฒ•์€ POMDP์˜ ํŠน์ • ๋ณด์ƒ ํ•จ์ˆ˜๋กœ ๊ฐ„์ฃผ๋œ๋‹ค.

 

Baselines.

Visual Exploration์—๋Š” ๋ช‡ ๊ฐ€์ง€ ๊ณตํ†ต Baseline(๊ธฐ์ค€์„ )์ด ์žˆ๋‹ค. random-actions์˜ ๊ฒฝ์šฐ Agent๋Š” ๋ชจ๋“  Action์— ๋Œ€ํ•œ ๊ท ์ผํ•œ ๋ถ„ํฌ์—์„œ ํ‘œ๋ณธ์„ ์ถ”์ถœํ•œ๋‹ค. forward-action์˜ ๊ฒฝ์šฐ ํ•ญ์ƒ ์ˆœ๋ฐฉํ–ฅ Action์„ ์„ ํƒํ•œ๋‹ค. forward-action+์˜ ๊ฒฝ์šฐ Agent๋Š” ์ˆœ๋ฐฉํ–ฅ Action์„ ์„ ํƒํ•˜์ง€๋งŒ ์ถฉ๋Œํ•  ๊ฒฝ์šฐ ์™ผ์ชฝ์œผ๋กœ ํšŒ์ „ํ•œ๋‹ค. frontier-exploration์˜ ๊ฒฝ์šฐ ์ง€๋„๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ž์œ  ๊ณต๊ฐ„๊ณผ ๋ฏธ๊ฐœ์ฒ™ ๊ณต๊ฐ„ ์‚ฌ์ด์˜ ๊ฐ€์žฅ์ž๋ฆฌ๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ๋ฐฉ๋ฌธํ•œ๋‹ค.

 

Curiosity.

ํ˜ธ๊ธฐ์‹ฌ ์ ‘๊ทผ ๋ฐฉ์‹์—์„œ Agent๋Š” ์˜ˆ์ธกํ•˜๊ธฐ ์–ด๋ ค์šด ์ƒํƒœ๋ฅผ ๊ฐ–๋Š”๋‹ค. ์˜ˆ์ธก ์˜ค์ฐจ๋Š” ๊ฐ•ํ™” ํ•™์Šต์˜ ๋ณด์ƒ ์‹ ํ˜ธ๋กœ ์‚ฌ์šฉ๋œ๋‹ค. ์ด๋Š” ์™ธ๋ถ€ ๋ณด์ƒ์ด ํฌ๋ฐ•ํ•œ ๊ฒฝ์šฐ์— ์œ ์ตํ•˜๋ฏ€๋กœ ํ™˜๊ฒฝ์œผ๋กœ๋ถ€ํ„ฐ์˜ ์™ธ๋ถ€ ๋ณด์ƒ๋ณด๋‹ค๋Š” ๋‚ด์žฌ์  ๋ณด์ƒ๊ณผ ๋™๊ธฐ ๋ถ€์—ฌ์— ์ดˆ์ ์„ ๋งž์ถ˜๋‹ค.

์ผ๋ฐ˜์ ์œผ๋กœ ์†์‹ค์„ ์ตœ์†Œํ™”ํ•˜๋Š” *forward-dynamics(์ •์—ญํ•™) ๋ชจ๋ธ L(ˆst+1, st+1)์ด ์žˆ๋‹ค. ์ด ๊ฒฝ์šฐ, ˆst+1์€ Agent๊ฐ€ st ์ƒํƒœ์ผ ๋•Œ at Action์„ ์ทจํ•  ๊ฒฝ์šฐ ์˜ˆ์ธก๋˜๋Š” ๋‹ค์Œ ์ƒํƒœ์ด๋ฉฐ st+1์€ Agent๊ฐ€ ์ข…๋ฃŒ๋˜๋Š” ์‹ค์ œ ๋‹ค์Œ ์ƒํƒœ์ด๋‹ค.

* forward-dynamics(์ •์—ญํ•™): ๋กœ๋ด‡์˜ ๋™์—ญํ•™ ๋ชจ๋ธ ์ค‘ ํ•˜๋‚˜. ํž˜/ํ† ํฌ๋ฅผ ๊ฐ€ํ–ˆ์„ ๋•Œ ๋กœ๋ด‡์˜ ์›€์ง์ž„ ๊ฒฐ๊ณผ(joint variable)

์ •์ฑ… ์ตœ์ ํ™”๋ฅผ ์œ„ํ•ด Proximal Policy Optimization(PPO)๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์€ Curiosity์— ๋Œ€ํ•œ ์‹ค์งˆ์ ์ธ ๊ณ ๋ ค์‚ฌํ•ญ์ด ์ตœ๊ทผ ์—ฐ๊ตฌ์— ๋‚˜์—ด๋˜์—ˆ๋‹ค. Curiosity๋Š” ์ตœ๊ทผ ์—ฐ๊ตฌ์—์„œ Semantic map๊ณผ ๊ฐ™์€ ๋” ์ง„๋ณด๋œ ์ง€๋„๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜์—ˆ๋‹ค.

forward-dynamics ๋ชจ๋ธ์€ ๋†’์€ ์˜ˆ์ธก ์˜ค๋ฅ˜(์ฆ‰, ๋†’์€ ๋ณด์ƒ)์— ๋Œ€ํ•ด ํ™•๋ฅ ์„ฑ์„ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ํ™•๋ฅ ์„ฑ์€ Curiosity ์ ‘๊ทผ๋ฒ•์— ์‹ฌ๊ฐํ•œ ๋ฌธ์ œ๋ฅผ ์ œ๊ธฐํ•œ๋‹ค. ์ด๋Š” "noisy-TV" ๋ฌธ์ œ ๋˜๋Š” Agent Actions ์‹คํ–‰์‹œ ๋…ธ์ด์ฆˆ์™€ ๊ฐ™์€ ์š”์ธ์œผ๋กœ ์ธํ•ด ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋‹ค. ์ œ์•ˆ๋œ ํ•ด๊ฒฐ์ฑ… ์ค‘ ํ•˜๋‚˜๋Š” Agent๊ฐ€ ์ด์ „ ์ƒํƒœ st-1์—์„œ ํ˜„์žฌ ์ƒํƒœ st๋กœ ์ด๋™ํ•˜๊ธฐ ์œ„ํ•ด ์ทจํ•œ Action์„ ์ถ”์ •ํ•˜๋Š” inverse-dynamics(์—ญ์—ญํ•™) ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์œผ๋กœ Agent๊ฐ€ ํ™˜๊ฒฝ์—์„œ ์ž์‹ ์˜ ํ–‰๋™์ด ๋ฌด์—‡์„ ์ œ์–ดํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ์ดํ•ดํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋œ๋‹ค.

* inverse-dynamics(์—ญ์—ญํ•™): ๋กœ๋ด‡์˜ ๋™์—ญํ•™ ๋ชจ๋ธ ์ค‘ ํ•˜๋‚˜. ์›ํ•˜๋Š” motion์„ ์–ป๊ธฐ ์œ„ํ•ด ํ•„์š”ํ•œ ํž˜/ํ† ํฌ๋ฅผ ๊ตฌํ•˜๋Š” ๊ฒƒ

์ด ๋ฐฉ๋ฒ•์€ ํ™˜๊ฒฝ์œผ๋กœ ํ•˜์—ฌ๊ธˆ ํ™•๋ฅ ์„ฑ์„ ํ•ด๊ฒฐํ•˜๋ ค๊ณ  ์‹œ๋„ํ•˜์ง€๋งŒ, Agent์˜ ํ–‰๋™์œผ๋กœ ์ธํ•ด ๋ฐœ์ƒํ•˜๋Š” ํ™•๋ฅ ์„ฑ์„ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐ ์ถฉ๋ถ„ํ•˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ๋‹ค. ํ•œ ๊ฐ€์ง€ ์˜ˆ๋Š” ์—์ด์ „ํŠธ๊ฐ€ ๋ฆฌ๋ชจ์ปจ์„ ์‚ฌ์šฉํ•˜์—ฌ TV ์ฑ„๋„์„ ์ž„์˜๋กœ ๋ณ€๊ฒฝํ•ด ์ง„ํ–‰ ์—†์ด ๋ณด์ƒ์„ ์ถ•์ ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด (์–ด๋ ค์šด) ๋ฌธ์ œ๋ฅผ ๊ตฌ์ฒด์ ์œผ๋กœ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ตœ๊ทผ ๋ช‡ ๊ฐ€์ง€ ๋ฐฉ๋ฒ•์ด ์ œ์•ˆ๋˜์—ˆ๋‹ค.

์ฒซ ๋ฒˆ์งธ ๋ฐฉ๋ฒ•์ธ Random Distillation network(๋žœ๋ค ์ฆ๋ฅ˜ ๋„คํŠธ์›Œํฌ)๋Š” ๋ฌด์ž‘์œ„๋กœ ์ดˆ๊ธฐํ™”๋œ ์‹ ๊ฒฝ๋ง์˜ ์ถœ๋ ฅ์„ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ด๋ฉฐ, ๋‹ต์€ ์ž…๋ ฅ์˜ ๊ฒฐ์ •๋ก ์  ํ•จ์ˆ˜์ด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. (Input์— ๋”ฐ๋ผ Output์ด ์ •ํ•ด์ง€๋Š”?) ๋‘ ๋ฒˆ์งธ ๋ฐฉ๋ฒ•์€ Exploration by Disagreement(๋ถˆ์ผ์น˜์— ์˜ํ•œ ํƒ์ƒ‰)์œผ๋กœ, Agent๊ฐ€ forward-dynamics ๋ชจ๋ธ ์•™์ƒ๋ธ”์˜ ์˜ˆ์ธก ์‚ฌ์ด์— ์ตœ๋Œ€ ๋ถˆ์ผ์น˜ ๋˜๋Š” ๋ถ„์‚ฐ์„ ๊ฐ–๋Š” ํ–‰๋™ ๊ณต๊ฐ„์„ ํƒ์ƒ‰ํ•˜๋„๋ก ์žฅ๋ ค๋œ๋‹ค. ๋ชจ๋ธ์€ ํ‰๊ท ์œผ๋กœ ์ˆ˜๋ ด๋˜๋ฉฐ, ์ด๋Š” ์•™์ƒ๋ธ”์˜ ๋ถ„์‚ฐ์„ ์ค„์ด๊ณ  ํ™•๋ฅ ์„ฑ ํŠธ๋žฉ์— ๊ฐ‡ํžˆ๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•œ๋‹ค.

 

Coverage.

Coverage ์ ‘๊ทผ๋ฒ•์—์„œ Agent๋Š” ์ง์ ‘ ๊ด€์ฐฐํ•˜๋Š” ๋Œ€์ƒ์˜ ์–‘์„ ์ตœ๋Œ€ํ™”ํ•˜๋ ค ํ•œ๋‹ค. Agent๋Š” ์ž๊ธฐ์ค‘์‹ฌ์  ๊ด€์ฐฐ์„ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋ฐฉํ•ด ๊ฐ€๋Šฅํ•œ 3D ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํƒ์ƒ‰ํ•ด์•ผ ํ•œ๋‹ค. ์ตœ๊ทผ ๋ฐฉ๋ฒ•์€ ๊ณ ์ „์  ๋ฐฉ๋ฒ•๊ณผ ํ•™์Šต ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์˜ ๊ฒฐํ•ฉ์ด๋‹ค. ๊ทธ๊ฒƒ์€ end-to-end ์ •์ฑ… ํ›ˆ๋ จ๊ณผ ๊ด€๋ จ๋œ ๋†’์€ ์ƒ˜ํ”Œ ๋ณต์žก์„ฑ์„ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด ๊ณต๊ฐ„ ์ง€๋„๋ฅผ ์œ ์ง€ํ•˜๋Š” ํ•™์Šต๋œ SLAM ๋ชจ๋“ˆ๊ณผ ํ•จ๊ป˜ ๋ถ„์„ path-planners๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ์ด ๋ฐฉ๋ฒ•์—๋Š” ์‹ค์„ธ๊ณ„์˜ Robotics์— ๋Œ€ํ•œ ์ผ๋ฐ˜ ๊ฐ€๋Šฅ์„ฑ์˜ ๋ฌผ๋ฆฌ์  ํ˜„์‹ค์„ฑ์„ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•œ ๋…ธ์ด์ฆˆ ๋ชจ๋ธ๋„ ํฌํ•จ๋œ๋‹ค.

๋˜ ๋‹ค๋ฅธ ์—ฐ๊ตฌ๋Š” ์ •์ฑ… ๋„คํŠธ์›Œํฌ์˜ ์žฅ๋ฉด ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ํ†ตํ•ด ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์—์„œ ์ฑ„ํƒ๋œ self-attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์‚ฌ์šฉํ•˜๋Š” ์žฅ๋ฉด ๋ฉ”๋ชจ๋ฆฌ ๋ณ€์••๊ธฐ์ด๋‹ค. ์žฅ๋ฉด ๋ฉ”๋ชจ๋ฆฌ๋Š” ๋งˆ์ฃผ์น˜๋Š” ๋ชจ๋“  ๊ด€์ฐฐ์„ ๋‚ด์žฅํ•˜๊ณ  ์ €์žฅํ•˜์—ฌ ์œ ๋„ ํŽธํ–ฅ์ด ํ•„์š”ํ•œ ์ง€๋„์™€ ๊ฐ™์€ ๋ฉ”๋ชจ๋ฆฌ์— ๋น„ํ•ด ๋” ํฐ ์œ ์—ฐ์„ฑ๊ณผ ํ™•์žฅ์„ฑ์„ ์ œ๊ณตํ•œ๋‹ค.

 

Reconstruction.

Reconstrunction(์žฌ๊ตฌ์„ฑ) ์ ‘๊ทผ๋ฒ•์—์„œ Agent๋Š” ๊ด€์ฐฐ๋œ ๋ณด๊ธฐ์—์„œ ๋‹ค๋ฅธ ๋ณด๊ธฐ๋ฅผ ์žฌ์ƒ์„ฑํ•œ๋‹ค. ๊ณผ๊ฑฐ ์—ฐ๊ตฌ๋Š” 360๋„ ํŒŒ๋…ธ๋ผ๋งˆ์™€ CAD ๋ชจ๋ธ์˜ ํ”ฝ์…€ ๋‹จ์œ„ ์žฌ๊ตฌ์„ฑ์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์œผ๋ฉฐ, ์ด๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ๋žŒ์ด ์ฐ์€ ์‚ฌ์ง„์˜ ํ๋ ˆ์ด์…˜๋œ ๋ฐ์ดํ„ฐ ์„ธํŠธ์ด๋‹ค. ์ตœ๊ทผ ์—ฐ๊ตฌ๋Š” ์ด ์ ‘๊ทผ๋ฒ•์„ Embodied AI์— ์ ์šฉํ–ˆ๋Š”๋ฐ, ์ด๋Š” ๋ชจ๋ธ์ด Agent์˜ ์ž๊ธฐ์ค‘์‹ฌ์  ๊ด€์ฐฐ๊ณผ ์ž์ฒด ์„ผ์„œ(์ฆ‰, ๋Šฅ๋™์  ์ธ์‹)์˜ ์ œ์–ด๋กœ๋ถ€ํ„ฐ ์žฅ๋ฉด ์žฌ๊ตฌ์„ฑ์„ ์ˆ˜ํ–‰ํ•ด์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋” ๋ณต์žกํ•˜๋‹ค. ์ตœ๊ทผ ์—ฐ๊ตฌ์—์„œ Agent๋Š” ์ž๊ธฐ์ค‘์‹ฌ RGB-D ๊ด€์ฐฐ์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ€์‹œ ์˜์—ญ์„ ๋ฒ—์–ด๋‚œ ์ ์œ  ์ƒํƒœ๋ฅผ ์žฌ๊ตฌ์„ฑํ•˜๊ณ  ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ์˜ˆ์ธก์„ ์ง‘๊ณ„ํ•˜์—ฌ ์ •ํ™•ํ•œ ์ ์œ  ์ง€๋„๋ฅผ ํ˜•์„ฑํ•œ๋‹ค. ์ ์œ  ์˜ˆ์ƒ์€ ์นด๋ฉ”๋ผ ์•ž์— ์žˆ๋Š” V*V ์…€์˜ ๊ตญ๋ถ€ ์˜์—ญ์— ์žˆ๋Š” ๊ฐ ์…€์ด ํƒ์ƒ‰๋˜๊ณ  ์ ์œ ๋  ํ™•๋ฅ ์„ ํ• ๋‹นํ•˜๋Š” ํ”ฝ์…€ ๋‹จ์œ„ ๋ถ„๋ฅ˜ ์ž‘์—…์ด๋‹ค. Coverage ์ ‘๊ทผ๋ฒ•๊ณผ ๋น„๊ตํ•˜์—ฌ ์ ์œ  ์ƒํƒœ๋ฅผ ์˜ˆ์ธกํ•˜๋ฉด Agent๊ฐ€ ์ง์ ‘ ๊ด€์ฐฐํ•  ์ˆ˜ ์—†๋Š” ์˜์—ญ์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค.

๋˜ ๋‹ค๋ฅธ ์ตœ๊ทผ ์—ฐ๊ตฌ๋Š” ํ”ฝ์…€ ๋‹จ์œ„(pixel-wise) ์žฌ๊ตฌ์„ฑ๋ณด๋‹ค ์˜๋ฏธ๋ก ์ (semantic) ์žฌ๊ตฌ์„ฑ์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ๋‹ค. Agent๋Š” ์ƒ˜ํ”Œ๋ง๋œ ์ฟผ๋ฆฌ ์œ„์น˜์— '๋ฌธ'๊ณผ ๊ฐ™์€ ์˜๋ฏธ๋ก ์  ๊ฐœ๋…์ด ์žˆ๋Š”์ง€๋ฅผ ์˜ˆ์ธกํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ๋‹ค. K-ํ‰๊ท  ์ ‘๊ทผ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ์ฟผ๋ฆฌ ์œ„์น˜์— ๋Œ€ํ•œ ์žฌ๊ตฌ์„ฑ์„ ํ•˜๋Š” ๊ฐœ๋…์€ ํŠน์ง• ํ‘œํ˜„์— ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด J ๊ตฐ์ง‘ ์ค‘์‹ฌ์ด๋‹ค. Agent๋Š” ์ƒ˜ํ”Œ๋ง๋œ ์ฟผ๋ฆฌ ๋ทฐ์— ๋Œ€ํ•œ ์‹ค์ œ ์žฌ๊ตฌ์„ฑ ๊ฐœ๋…์„ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋˜๋Š” ๋ทฐ๋ฅผ ์–ป๋Š” ๊ฒฝ์šฐ ๋ณด์ƒ์„ ๋ฐ›๋Š”๋‹ค.

๋”๋ณด๊ธฐ

1) Approaches

non-baseline ์ ‘๊ทผ๋ฒ•์€ Markov ๊ฒฐ์ • ํ”„๋กœ์„ธ์Šค(POMDPs)๋กœ ์ •ํ˜•ํ™”. → POMDP์˜ ๋ณด์ƒ function.

 

Baselines.

  • random-action: Agent Sample์ด ๋ชจ๋“  Action์— ๋Œ€ํ•ด ๊ท ์ผํ•œ ๋ถ„ํฌ
  • forward-action: ์ „๋ฐฉ์œผ๋กœ ๊ฐ€๋Š” Action์„ ์„ ํƒ. forward-action+์—์„œ๋Š” ์ถฉ๋Œ์‹œ ์ขŒํšŒ์ „
  • frontier-exploration: Free Space์™€ ํƒํ—˜๋˜์ง€ ์•Š์€ ๊ณต๊ฐ„ ์‚ฌ์ด์˜ Edge ๋ฐฉ๋ฌธ์„ ๋ฐ˜๋ณต

Curiosity. (์˜ˆ์ธกํ•˜๊ธฐ ํž˜๋“  ์ƒํƒœ๋ฅผ ํƒ์ƒ‰. ์˜ˆ์ธก๋œ ์—๋Ÿฌ๋Š” ๊ฐ•ํ™” ํ•™์Šต์˜ ๋ณด์ƒ Signal๋กœ ์‚ฌ์šฉ. ์™ธ๋ถ€ ํ™˜๊ฒฝ์œผ๋กœ๋ถ€ํ„ฐ์˜ ๋ณด์ƒ๋ณด๋‹ค๋Š” ๋‚ด์žฌ์  ๋ณด์ƒ์— ์ง‘์ค‘. ์™ธ๋ถ€ ๋ณด์ƒ์ด ๊ฑฐ์˜ ์—†๋Š” ๊ฒฝ์šฐ ํ™œ์šฉํ•˜๋ฉด ์ข‹์Œ) → PPO ๊ณ ๋ คํ•ด์•ผ ํ•จ.

  • forward-dynamics: ํž˜/ํ† ํฌ๋ฅผ ๊ฐ€ํ–ˆ์„ ๋•Œ ๋กœ๋ด‡์˜ ์›€์ง์ž„ ๊ฒฐ๊ณผ. ๋†’์€ ์˜ˆ์ธก ์—๋Ÿฌ(ํฐ ๋ณด์ƒ)์˜ ํ™•๋ฅ ์„ฑ์„ ์‚ฌ์šฉํ•˜๋ฏ€๋กœ ํฐ ๋ฌธ์ œ๊ฐ€ ๋จ. (noisy-TV ๋ฌธ์ œ๋‚˜ Action์˜ ๋…ธ์ด์ฆˆ ๋•Œ๋ฌธ์— ๋ฐœ์ƒ)
    • ˆst+1 : Agent๊ฐ€ st ์ƒํƒœ์ผ ๋•Œ at Action์„ ์ทจํ•  ๊ฒฝ์šฐ ์˜ˆ์ธก๋˜๋Š” ๋‹ค์Œ ์ƒํƒœ
    • st+1 : ์‹ค์ œ ๋‹ค์Œ ์ƒํƒœ
  • inverse-dynamics: ์›ํ•˜๋Š” motion์„ ์–ป๊ธฐ ์œ„ํ•œ ํž˜/ํ† ํฌ๋ฅผ ๊ตฌํ•˜๊ธฐ. ์ด์ „ ์ƒํƒœ์—์„œ ํ˜„์žฌ ์ƒํƒœ๋กœ ์˜ค๊ธฐ ์œ„ํ•ด Agent๊ฐ€ ์ทจํ•œ ํ–‰๋™์„ ์ถ”์ •ํ•˜์—ฌ ์–ด๋–ค ํ–‰์œ„๋กœ ํ™˜๊ฒฝ์„ ํ†ต์ œ ๊ฐ€๋Šฅํ•œ์ง€ Agent๊ฐ€ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์Œ. ํ™˜๊ฒฝ ๋•Œ๋ฌธ์— ํ™•๋ฅ ์„ฑ์„ ๋‹ค๋ฃจ๋ ค๊ณ  ํ•˜๋Š”๋ฐ Agent์˜ ํ–‰์œ„์— ์˜ํ•ด ๊ฒฐ๊ณผ๊ฐ€ ๋ฐœ์ƒํ•˜๋Š” ํ™•๋ฅ ์„ฑ์„ ๋‹ค๋ฃจ๋Š” ๊ฒƒ์€ ๋ถˆ์ถฉ๋ถ„ํ•จ. (๋žœ๋ค ๋ฆฌ๋ชจ์ปจ ์˜ˆ์ œ)
  • ๋” ์–ด๋ ค์šด ๋ฌธ์ œ๋“ค์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ตœ๊ทผ์— ์ œ์‹œ๋œ ๋ฐฉ๋ฒ•๋“ค
    • Random Distillation Network: ๋žœ๋คํ•˜๊ฒŒ ์ดˆ๊ธฐํ™”๋œ ์‹ ๊ฒฝ๋ง์˜ ์ถœ๋ ฅ์„ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ. ์‹ ๊ฒฝ๋ง์€ ์ž…๋ ฅ์— ๋Œ€ํ•ด Deterministicํ•œ Function์œผ๋กœ, ํ™•๋ฅ ์„ ๊ฐ€์ง€๊ณ  ๋žœ๋คํ•œ ํ•จ์ˆ˜๊ฐ€ ์•„๋‹˜
    • Exploration by Disagreement: forward-dynamics ์•™์ƒ๋ธ” ์˜ˆ์ธก ์‚ฌ์ด ์ตœ๋Œ€ ๋ถˆ์ผ์น˜ ํ˜น์€ ๋ถ„์‚ฐ์„ ๊ฐ–๋Š” ํ–‰๋™ ๊ณต๊ฐ„์„ ํƒ์ƒ‰ํ•˜๋„๋ก ์žฅ๋ ค๋˜๋Š” ๋ถˆ์ผ์น˜์— ์˜ํ•œ ํƒ์ƒ‰. ๋ชจ๋ธ์€ ํ‰๊ท ์— ์ˆ˜๋ ด. (์•™์ƒ๋ธ”์˜ ๋ถ„์‚ฐ์„ ์ค„์ด๊ณ  ํ™•๋ฅ ์„ฑ ํŠธ๋žฉ์— ๊ฐ‡ํžˆ๋Š” ๊ฒƒ์„ ์˜ˆ๋ฐฉ)

Coverage. (Agent๊ฐ€ ์ง์ ‘์ ์œผ๋กœ ๊ด€์ฐฐํ•˜๋Š” Target์˜ ์ˆ˜๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋„๋ก ๋…ธ๋ ฅ. ์ž๊ธฐ์ค‘์‹ฌ์  ๊ด€์ฐฐ์„ ํ•˜๋ฏ€๋กœ 3D ์žฅ์• ๋ฌผ์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ ํƒ์ƒ‰ํ•ด์•ผ ํ•จ)

  • ๊ณ ์ „์  ๋ฐฉ๋ฒ• + ํ•™์Šต ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ• : ํ•™์Šต๋œ SLAM ๋ชจ๋“ˆ๋กœ ๊ฒฝ๋กœ ํ”Œ๋ž˜๋„ˆ๋ฅผ ๋ถ„์„. end-to-end ์ •์ฑ…์— ์ˆ˜๋ฐ˜๋œ ๋†’์€ ์ƒ˜ํ”Œ ๋ณต์žก์„ฑ์„ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด ๊ณต๊ฐ„ ์ง€๋„๋ฅผ ์œ ์ง€. ์‹ค์„ธ๊ณ„์—์„œ ๋กœ๋ด‡์„ ์ผ๋ฐ˜ํ™”ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋ฌผ๋ฆฌ์  ํ˜„์‹ค์„ฑ์„ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด ๋…ธ์ด์ฆˆ ๋ชจ๋ธ์„ ํฌํ•จ.
  • Scene memory transformer: ์ž๊ธฐ ์ค‘์‹ฌ ๋งค์ปค๋‹ˆ์ฆ˜. ๋งˆ์ฃผ์น˜๋Š” ๋ชจ๋“  ๊ด€์ฐฐ์„ ์ €์žฅํ•˜์—ฌ ์œ ๋„ ํŽธํ–ฅ์ด ํ•„์š”ํ•œ ์ง€๋„์™€ ๊ฐ™์€ ๋ฉ”๋ชจ๋ฆฌ์— ๋น„ํ•ด ๋” ํฐ ์œ ์—ฐ์„ฑ๊ณผ ํ™•์žฅ์„ฑ ์ œ๊ณต.

Reconstruction. (๊ด€์ฐฐํ•œ ๋ทฐ๋กœ๋ถ€ํ„ฐ ๋‹ค๋ฅธ ๋ทฐ๋ฅผ ์žฌ์ƒ์„ฑ)

  • ๊ณผ๊ฑฐ: 360๋„ ํŒŒ๋…ธ๋ผ๋งˆ, CAD ๋ชจ๋ธ์˜ ํ”ฝ์…€๋ณ„ ๋ณต์›์— ์ง‘์ค‘ → ์‚ฌ๋žŒ์ด ์ฐ์€ ์‚ฌ์ง„ ๋ฐ์ดํ„ฐ์…‹์ด ์—„์„ ๋จ (์ตœ๊ทผ์—๋Š” ํ”ฝ์…€๋ณ„ ๋ณต์›๋ณด๋‹ค ์˜๋ฏธ๋ณ„ ๋ณต์›์— ๋” ์ง‘์ค‘. ์˜๋ฏธ์  ๊ฐœ๋…์ด ์ƒ˜ํ”Œ๋œ ์ฟผ๋ฆฌ ์ง€์—ญ์— ์กด์žฌํ•˜๋Š”์ง€ ์˜ˆ์ธกํ•˜๋„๋ก ์„ค๊ณ„ํ•จ)
  • ํ˜„์žฌ: Agent์˜ ์ž๊ธฐ์ค‘์‹ฌ์  RGB-D ๊ด€์ฐฐ, ๊ฐ€์‹œ ์˜์—ญ์„ ๋ฒ—์–ด๋‚œ ์ ์œ  ์ƒํƒœ ์žฌ๊ตฌ์„ฑ. ์ •ํ™•ํ•œ ์‚ฌ์šฉ ์ง€๋„๋กœ๋ถ€ํ„ฐ ์‹œ๊ฐ„์— ๋”ฐ๋ฅธ ์˜ˆ์ธก์„ ์ง‘๊ณ„ํ•˜์—ฌ ์ •ํ™•ํ•œ ์ ์œ  ์ง€๋„ ํ˜•์„ฑ → Agent์˜ ์ž๊ธฐ์ค‘์‹ฌ์  ๊ด€์ฐฐ๊ณผ ์„ผ์„œ์˜ ์ปจํŠธ๋กค๋กœ๋ถ€ํ„ฐ ์žฅ๋ฉด ๋ณต์›์„ ์ˆ˜ํ–‰ํ•˜๋ฏ€๋กœ ๋” ๋ณต์žก
  • Coverage ์ ‘๊ทผ๋ฒ•๊ณผ ๋น„๊ต: ์ ์œ (์‚ฌ์šฉ) ์ƒํƒœ๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์€ Agent๊ฐ€ ์ง์ ‘ ๊ด€์ฐฐํ•˜์ง€ ์•Š๋Š” ์ง€์—ญ์„ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ๊ฒŒ ํ•จ
  • K-Means ์ ‘๊ทผ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ์ฟผ๋ฆฌ ์ง€์—ญ์— ๋Œ€ํ•ด ์ง„์งœ ๋ณต์›ํ•˜๋Š” ๊ฒƒ์˜ ๊ฐœ๋…์€ J๊ฐœ์˜ ๊ฐ€๊นŒ์šด ํด๋Ÿฌ์Šคํ„ฐ ์ค‘์‹ฌ์œผ๋กœ๋ถ€ํ„ฐ ํŠน์ง• ํ‘œํ˜„๊นŒ์ง€. Agent๋Š” ์ƒ˜ํ”Œ๋œ ์ฟผ๋ฆฌ ์‹œ์•ผ์—์„œ ์˜ˆ์ธกํ•˜์—ฌ ์ง„์งœ ๋ณต์›ํ•˜์—ฌ ๋ทฐ๋ฅผ ์–ป์œผ๋ฉด ๋ณด์ƒ์„ ๋ฐ›๋Š”๋‹ค.

 

 

2) Evaluation Metrics

๋ฐฉ๋ฌธํ•œ ๋Œ€์ƒ์˜ ์–‘(Amount of targets visited). ์˜์—ญ, ํฅ๋ฏธ์žˆ๋Š” ๊ฐ์ฒด ๋“ฑ ๋‹ค์–‘ํ•œ ์œ ํ˜•์˜ ๋Œ€์ƒ์ด ๊ณ ๋ ค๋œ๋‹ค. ๋ฐฉ๋ฌธ ์ง€ํ‘œ ์˜์—ญ์€ m^2 ๋‹จ์œ„์˜ ์ ˆ๋Œ€ ๋ฒ”์œ„ ๋ฉด์ ๊ณผ ํ˜„์žฅ์—์„œ ํƒ์ƒ‰ํ•œ ๋ฉด์ ์˜ ๋ฐฑ๋ถ„์œจ๊ณผ ๊ฐ™์ด ๋ช‡ ๊ฐ€์ง€ ๋ณ€ํ˜•์„ ๊ฐ–๋Š”๋‹ค.

 

Impact on downstream tasks.

Visual Exploration์˜ ์„ฑ๋Šฅ์€ Visual Navigation๊ณผ ๊ฐ™์€ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์— ์˜ํ•ด ์ธก์ •๋  ์ˆ˜ ์žˆ๋‹ค. ์ด ํ‰๊ฐ€ ์ง€ํ‘œ์˜ ๋ฒ”์ฃผ๋Š” ์ตœ๊ทผ ์—ฐ๊ตฌ์—์„œ ๋” ํ”ํžˆ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. Visual Exploration์˜ ๊ฒฐ๊ณผ(์ฆ‰, ์ง€๋„)๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์˜ ์˜ˆ๋กœ๋Š” Image Navigation(์ด๋ฏธ์ง€ ํƒ์ƒ‰), Point Navigation(ํฌ์ธํŠธ ํƒ์ƒ‰), Object Navigation(๊ฐ์ฒด ํƒ์ƒ‰)์ด ์žˆ๋‹ค. ์ด๋Ÿฌํ•œ ํƒ์ƒ‰ ์ž‘์—…์— ๋Œ€ํ•œ ๋‚ด์šฉ์€ ์„น์…˜ III-B์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

3) Datasets

Visual Exploration์„ ์œ„ํ•ด ์ผ๋ถ€ ์ธ๊ธฐ ์žˆ๋Š” ๋ฐ์ดํ„ฐ์…‹์—๋Š” Matterport3D, Gibson V1์ด ํฌํ•จ๋œ๋‹ค. Matterport3D์™€ Gibson V1์€ ๋‘˜ ๋‹ค ๊นŠ์ด/์˜๋ฏธ ๋ถ„ํ• ๊ณผ ๊ฐ™์ด Embodied AI์— ์œ ์šฉํ•œ ์ •๋ณด๋ฅผ ๊ฐ€์ง„ ์‚ฌ์‹ค์ ์ธ RGB ๋ฐ์ดํ„ฐ์…‹์ด๋‹ค.

Habitat-Sim Simulator๋Š” ๊ตฌ์„ฑ ๊ฐ€๋Šฅํ•œ Agent ๋ฐ ์—ฌ๋Ÿฌ ์„ผ์„œ์™€ ๊ฐ™์€ ์ถ”๊ฐ€ ๊ธฐ๋Šฅ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ณธ ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. Gibson V1์€ iGibson์„ ํ˜•์„ฑํ•˜๊ธฐ ์œ„ํ•ด ์ƒํ˜ธ์ž‘์šฉ๊ณผ ํ˜„์‹ค์ ์ธ ๋กœ๋ด‡ ์ œ์–ด์™€ ๊ฐ™์€ ๊ธฐ๋Šฅ๋“ค์ด ํ–ฅ์ƒ๋˜์—ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์„น์…˜ II์—์„œ ์–ธ๊ธ‰๋œ ๊ฒƒ๊ณผ ๊ฐ™์€ ๋” ์ตœ๊ทผ์˜ 3D Simulator๋Š” ๋ชจ๋‘ RGB ๊ด€์ฐฐ์„ ์ œ๊ณตํ•˜๊ธฐ ๋•Œ๋ฌธ์— Visual Exploration์— ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค.

 


 

B. Visual Navigation

Visual Navigation์—์„œ Agent๋Š” ์™ธ๋ถ€ ์‚ฌ์ „ ๋ช…๋ น์ด๋‚˜ ์ž์—ฐ์–ด ๋ช…๋ น์ด ์žˆ๋“  ์—†๋“  ๋ชฉํ‘œ๋ฅผ ํ–ฅํ•ด 3D ํ™˜๊ฒฝ์„ ํƒ์ƒ‰ํ•œ๋‹ค. ์ด ์ž‘์—…์„ ์œ„ํ•œ ๋ชฉํ‘œ๋ฌผ๋กœ๋Š” Points(์ ), Objects(๊ฐ์ฒด), Images(์ด๋ฏธ์ง€), Areas(์˜์—ญ) ๋“ฑ ๋‹ค์–‘ํ•œ ์ข…๋ฅ˜๊ฐ€ ์žˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๊ฐ€์žฅ ์ผ๋ฐ˜์ ์ด๊ณ  ๊ทผ๋ณธ์ (๊ธฐ์ดˆ์ , ํ”ํ•œ) ๋ชฉํ‘œ์ธ Point์™€ Object๋ฅผ VN์˜ ๋ชฉํ‘œ๋ฌผ๋กœ ์‚ฌ์šฉํ•  ๊ฒƒ์ด๋‹ค. ์ด ๋ชฉํ‘œ๋ฌผ๋“ค์€ ์ง€๊ฐ ์ž…๋ ฅ, ์–ธ์–ด์™€ ๊ฐ™์€ ์‚ฌ์–‘๊ณผ ๊ฒฐํ•ฉ๋˜์–ด VE, ๋น„์ „-์–ธ์–ด ํƒ์ƒ‰, EQA์™€ ๊ฐ™์ด ๋” ๋ณต์žกํ•œ Visual Navigation์„ Buildํ•  ์ˆ˜ ์žˆ๋‹ค. Point Navigation์—์„œ Agent๋Š” ํŠน์ • Point๋กœ ์ด๋™ํ•˜๋Š” ๋™์•ˆ Object Navigation์—์„œ ํŠน์ • ํด๋ž˜์Šค์˜ Object๋กœ ์ด๋™ํ•˜๋Š” ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.

๊ณ ์ „์ ์ธ Navigation ์ ‘๊ทผ๋ฒ•์€ ๋Œ€๊ฐœ localization(๊ตญ์†Œํ™”), mapping(๋งคํ•‘), path-planning(๊ฒฝ๋กœ ๊ณ„ํš), locomotion(์ด๋™)๊ณผ ๊ฐ™์ด ์ˆ˜์ž‘์—…์˜ ํ•˜์œ„ ์š”์†Œ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค. Embodied AI์˜ VN์€ ์ด๋Ÿฌํ•œ Navigation ์‹œ์Šคํ…œ์„ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ํ•™์Šตํ•˜์—ฌ ์ˆ˜์ž‘์—…์„ ์ค„์—ฌ ์งˆ๋ฌธ-๋‹ต๋ณ€๊ณผ ๊ฐ™์ด ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ํ•™์Šต ๋ฐฉ๋ฒ•์œผ๋กœ ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜ํ•œ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…๊ณผ์˜ ํ†ตํ•ฉ์„ ์šฉ์ดํ•˜๊ฒŒ ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค. ๋˜ํ•œ, ๋‘ ์„ธ๊ณ„์˜ ์žฅ์ ์„ ๊ฒฐํ•ฉํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•˜๋Š” Hybrid ์ ‘๊ทผ๋ฒ•๋„ ์žˆ๋‹ค.

์•ž์„œ ์„น์…˜ II์—์„œ ์–ธ๊ธ‰ํ•œ ๋ฐ”์™€ ๊ฐ™์ด, ํ•™์Šต ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์€ RGB, ๊นŠ์ด ์„ผ์„œ๋ฅผ ์‚ฌ์šฉํ•˜๊ณ  ํ™˜๊ฒฝ์— ๋Œ€ํ•œ ์˜๋ฏธ๋ก ์ (semantic) ์ดํ•ด๋ฅผ ํ†ตํ•ฉํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์„ผ์„œ ์ธก์ • ๋…ธ์ด์ฆˆ์— ๋” ๊ฐ•๋ ฅํ•˜๋‹ค. ๋˜ํ•œ, ๊ทธ๋“ค์€ Agent๊ฐ€ ์ด์ „์— ๋ณธ ํ™˜๊ฒฝ์— ๋Œ€ํ•œ ์ง€์‹์„ ์ผ๋ฐ˜ํ™”ํ•  ์ˆ˜ ์žˆ๋„๋กํ•˜์—ฌ ๋น„์ง€๋„ ๋ฐฉ์‹์œผ๋กœ ์ƒˆ๋กœ์šด ํ™˜๊ฒฝ์„ ์ดํ•ดํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ฃผ์–ด ์ธ๊ฐ„์˜ ๋…ธ๋ ฅ์„ ์ค„์ผ ์ˆ˜ ์žˆ๋‹ค.

๋”๋ณด๊ธฐ

Visual Navigation : ์™ธ๋ถ€ ๋ช…๋ น, ์ž์—ฐ์  ๋ช…๋ น๊ณผ ๋ฌด๊ด€ํžˆ ๋ชฉํ‘œ๋ฅผ ํƒ์ƒ‰.

  • ๋ชฉํ‘œ๋ฌผ : Points(์ ), Objects(๊ฐ์ฒด), Images(์ด๋ฏธ์ง€), Areas(์˜์—ญ) ๋“ฑ → Point, Object๋Š” Input, Language์™€ ๊ฒฐํ•ฉ๋˜์–ด ๋” ๋ณต์žกํ•œ VN ๊ตฌ์ถ• ๊ฐ€๋Šฅ.

Classic Navigation Approaches(๊ณ ์ „์  ํƒ์ƒ‰๋ฒ•): localization(๊ตญ์†Œํ™”), mapping(๋งคํ•‘), path-planning(๊ฒฝ๋กœ ๊ณ„ํš), locomotion(์ด๋™)๊ณผ ๊ฐ™์ด ์ˆ˜์ž‘์—… ํ•˜์œ„ ์š”์†Œ๋กœ ๊ตฌ์„ฑ. ์ˆ˜์ž‘์—…์„ ์ค„์ด๊ธฐ ์œ„ํ•ด ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•จ.

Learning-based Approaches(ํ•™์Šต ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•): RGB/๊นŠ์ด ์„ผ์„œ๋ฅผ ์‚ฌ์šฉํ•˜๋ฏ€๋กœ ์„ผ์„œ ๋…ธ์ด์ฆˆ ์ธก์ •์— ๋” ๊ฐ•ํ•จ. ํ™˜๊ฒฝ์— ๋Œ€ํ•œ ์˜๋ฏธ๋ก ์  ์ดํ•ด๋ฅผ ํ†ตํ•ฉ. Agent๊ฐ€ ์ด์ „์— ๋ณธ ํ™˜๊ฒฝ์— ๋Œ€ํ•œ ์ง€์‹์„ ์ผ๋ฐ˜ํ™”ํ•˜์—ฌ ์ƒˆ๋กœ์šด ํ™˜๊ฒฝ์„ ๋น„์ง€๋„ ๋ฐฉ์‹์œผ๋กœ ์ดํ•ด.

Hybrid Approach(ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ ‘๊ทผ๋ฒ•): ๋‘ ์„ธ๊ณ„์˜ ์žฅ์ ์„ ๊ฒฐํ•ฉํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•จ

์ตœ๊ทผ ๋ช‡ ๋…„ ๋™์•ˆ ์—ฐ๊ตฌ์˜ ์ฆ๊ฐ€์™€ ํ•จ๊ป˜ Embodied AI์˜ ์ง„์ „์„ ๋ฒค์น˜๋งˆํ‚นํ•˜๊ณ  ๊ฐ€์†ํ™”ํ•˜๊ธฐ ์œ„ํ•œ ๊ธฐ์ดˆ์  Point Navigation, Object Navigation Task์—์„œ Visual Navigation์— ๋Œ€ํ•œ Challenge๋„ ์กฐ์ง(Organize)๋˜์—ˆ๋‹ค. ๊ฐ€์žฅ ์ฃผ๋ชฉํ•  ๋งŒํ•œ Challenge๋Š” iGibson Sim2Real Challenge, Habitat Challenge, RoboTHOR Challenge์ด๋‹ค. ๊ฐ ์ฑŒ๋ฆฐ์ง€์— ๋Œ€ํ•ด ์šฐ๋ฆฌ๋Š” ์ด ๋…ผ๋ฌธ์˜ ์ตœ์‹ ์ธ 2020๋…„ ์ฑŒ๋ฆฐ์ง€๋ฅผ ์„ค๋ช…ํ•  ๊ฒƒ์ด๋‹ค. ์„ธ ์ฑŒ๋ฆฐ์ง€ ๋ชจ๋‘์—์„œ Agent๋Š” ์ž๊ธฐ์ค‘์‹ฌ RGB-D ๊ด€์ฐฐ๋กœ ์ œํ•œ๋œ๋‹ค.

 

iGibson Sim2Real Challenge 2020.

Point Navigation. 73๊ฐœ์˜ ๊ณ ํ’ˆ์งˆ Gibson 3D ์žฅ๋ฉด์ด ํ›ˆ๋ จ์— ์‚ฌ์šฉ๋˜๋ฉฐ, ์‹ค์ œ ์•„ํŒŒํŠธ ์žฌ๊ฑด์ถ•์ธ Castro ์žฅ๋ฉด์€ ํ›ˆ๋ จ, ๊ฐœ๋ฐœ, ํ…Œ์ŠคํŠธ์— ์‚ฌ์šฉ๋œ๋‹ค. ์—ฌ๊ธฐ์—๋Š” 3๊ฐ€์ง€ ์‹œ๋‚˜๋ฆฌ์˜ค๊ฐ€ ์žˆ๋Š”๋ฐ, ํ™˜๊ฒฝ์— ์žฅ์• ๋ฌผ์ด ์—†๊ฑฐ๋‚˜, Agent๊ฐ€ ์ƒํ˜ธ์ž‘์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์žฅ์• ๋ฌผ์ด ํฌํ•จ๋˜์–ด ์žˆ๊ฑฐ๋‚˜, ๋‹ค๋ฅธ ์ด๋™ํ•˜๋Š” Agent๋กœ ์ฑ„์›Œ์ ธ ์žˆ๋Š” ๊ฒฝ์šฐ์ด๋‹ค.

 

Habitat Challenge 2020.

Point Navigation, Object Navigation. Gibson ๋ฐ์ดํ„ฐ์…‹ ๋ถ„ํ• ์ด ์žˆ๋Š” Gibson 3D ์žฅ๋ฉด์€ Point Navigation Task์— ์‚ฌ์šฉ๋˜๋ฉฐ, ์›๋ณธ ๋ฐ์ดํ„ฐ์…‹์— ์˜ํ•ด ์ง€์ •๋œ 61/11/18 ํ›ˆ๋ จ/๊ฒ€์ฆ/ํ…Œ์ŠคํŠธ ํ•˜์šฐ์Šค ๋ถ„ํ• ์ด ์žˆ๋Š” 90๊ฐœ์˜ Matterport3D ์žฅ๋ฉด์€ Object Navigation Task์— ์‚ฌ์šฉ๋œ๋‹ค.

 

RoboTHOR Challenge 2020.

Point Navigation. ํ›ˆ๋ จ๊ณผ ํ‰๊ฐ€๋Š” 3๋‹จ๊ณ„๋กœ ๋‚˜๋‰œ๋‹ค. ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ Agent๋Š” 60๊ฐœ์˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜๋œ ์•„ํŒŒํŠธ์—์„œ ๊ต์œก์„ ๋ฐ›๊ณ , ์„ฑ๋Šฅ์€ 15๊ฐœ์˜ ๋‹ค๋ฅธ ์‹œ๋ฎฌ๋ ˆ์ด์…˜๋œ ์•„ํŒŒํŠธ์—์„œ ๊ฒ€์ฆ๋œ๋‹ค. ๋‘ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ Agent๋Š” ์‹ค์„ธ๊ณ„์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™”๋ฅผ ํ…Œ์ŠคํŠธํ•˜๊ธฐ ์œ„ํ•ด 4๊ฐœ์˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜๋œ ์•„ํŒŒํŠธ์™€ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ํ‰๊ฐ€๋œ๋‹ค. ๋งˆ์ง€๋ง‰ ๋‹จ๊ณ„์—์„œ Agent๋Š” 10๊ฐœ์˜ ์‹ค์ œ ์•„ํŒŒํŠธ์—์„œ ํ‰๊ฐ€๋œ๋‹ค.

 

 

์ด ์„น์…˜์—์„œ๋Š” ๊ธฐ์กด Visual Navigation Survey๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋” ์ตœ๊ทผ์˜ ์—ฐ๊ตฌ๋ฅผ ํฌํ•จํ•œ๋‹ค.

1) Categories

Point Navigation.

์ตœ๊ทผ Visual Navigation ๋ฌธํ—Œ์—์„œ ๊ธฐ์ดˆ์ ์ด๊ณ  ์ธ๊ธฐ ์žˆ๋Š” Task ์ค‘ ํ•˜๋‚˜์ด๋‹ค. Point Navigation์—์„œ Agent๋Š” ํŠน์ • ํฌ์ธํŠธ์—์„œ ํŠน์ • ๊ณ ์ •(fixed) ๊ฑฐ๋ฆฌ ๋‚ด์— ์žˆ๋Š” ์ž„์˜์˜ ์œ„์น˜๋กœ ์ด๋™ํ•ด์•ผ ํ•œ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ Agent๋Š” ํ™˜๊ฒฝ์—์„œ ์›์ (0, 0, 0) ์ดˆ๊ธฐํ™”๋˜๋ฉฐ, ๊ณ ์ • ๋ชฉํ‘œ์ ์€ ์›์ /์ดˆ๊ธฐ ์œ„์น˜๋ฅผ ๊ธฐ์ค€์œผ๋กœ 3D ์ขŒํ‘œ(x, y, z)๋กœ ์ง€์ •๋œ๋‹ค. Task๊ฐ€ ์„ฑ๊ณต์ ์œผ๋กœ ์™„๋ฃŒ๋˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ธ๊ณต Agent๊ฐ€ ์‹œ๊ฐ์  ์ธ์‹, ์—ํ”ผ์†Œ๋“œ์  ๊ธฐ์–ต ๊ตฌ์„ฑ, ์ถ”๋ก /๊ณ„ํš ๋ฐ ํƒ์ƒ‰๊ณผ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ๋ฒ”์œ„์˜ ๊ธฐ์ˆ  ์„ธํŠธ(skillsets)๋ฅผ ๋ณด์œ ํ•ด์•ผ ํ•œ๋‹ค. Agent๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ์œ„์น˜ ์ขŒํ‘œ์— ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ๋Š” GPS์™€ ๋‚˜์นจ๋ฐ˜์„ ๊ฐ–์ถ”๊ณ  ์žˆ์œผ๋ฉฐ, ์•”๋ฌต์ ์œผ๋กœ ๋ชฉํ‘œ ์œ„์น˜์— ๋Œ€ํ•œ ๋ฐฉํ–ฅ์„ ๊ฐ–์ถ”๊ณ  ์žˆ๋‹ค. ๋Œ€์ƒ์˜ ์ƒ๋Œ€์  ๋ชฉํ‘œ ์ขŒํ‘œ๋Š” ์ •์ (์—ํ”ผ์†Œ๋“œ ์‹œ์ž‘์‹œ ํ•œ ๋ฒˆ๋งŒ ์ œ๊ณต๋จ)์ด๊ฑฐ๋‚˜, ๋™์ (๋ชจ๋“  ์‹œ๊ฐ„ ๋‹จ๊ณ„์—์„œ ์ œ๊ณต๋จ)์ผ ์ˆ˜ ์žˆ๋‹ค. ๋” ์ตœ๊ทผ์—๋Š” ์‹ค๋‚ด ํ™˜๊ฒฝ์—์„œ ๋ถˆ์™„์ „ํ•œ ํ˜„์ง€ํ™”(imperfect localization)๋กœ ์ธํ•ด Habitat Challenge 2020์€ GPS์™€ ๋‚˜์นจ๋ฐ˜์ด ์—†๋Š” RGBD ๊ธฐ๋ฐ˜ ์˜จ๋ผ์ธ ํ˜„์ง€ํ™”์˜ ๋” ์–ด๋ ค์šด ์ž‘์—…์œผ๋กœ ์ด๋™ํ–ˆ๋‹ค.

 

Point Navigation์—๋Š” ๋งŽ์€ ํ•™์Šต ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์ด ์žˆ๋‹ค. ์ดˆ๊ธฐ ์—ฐ๊ตฌ ์ค‘ ํ•˜๋‚˜๋Š” ๊ฐ๊ฐ(sensory) ์ž…๋ ฅ์ด ๋‹ค๋ฅธ ํ˜„์‹ค์ ์ธ ์ž์œจ ํƒ์ƒ‰ ์„ค์ •(์ง€์ƒ ์‹ค์ธก ์ง€๋„์™€ ์ง€์ƒ ์‹ค์ธก Agent์˜ ์ž์„ธ๊ฐ€ ์—†๋Š” ๋ณด์ด์ง€ ์•Š๋Š” ํ™˜๊ฒฝ)์—์„œ Point Navigation์„ ๋‹ค๋ฃจ๊ธฐ ์œ„ํ•ด ent-to-end ์ ‘๊ทผ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๊ธฐ๋ณธ ํƒ์ƒ‰ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ Direct Future Prediction(DFP. ์ง์ ‘ ๋ฏธ๋ž˜ ์˜ˆ์ธก)์œผ๋กœ, ์ปฌ๋Ÿฌ ์ด๋ฏธ์ง€, ๊นŠ์ด ๋งต, ๊ฐ€์žฅ ์ตœ๊ทผ์˜ 4๊ฐ€์ง€ ๊ด€์ฐฐ๋กœ๋ถ€ํ„ฐ์˜ ๋™์ž‘๊ณผ ๊ฐ™์€ ๊ด€๋ จ ์ž…๋ ฅ์ด ์ ์ ˆํ•œ ์‹ ๊ฒฝ๋ง(ex. ๊ฐ๊ฐ ์ž…๋ ฅ์— ๋Œ€ํ•œ ์ปจ๋ณผ๋ฃจ์…˜ ๋„คํŠธ์›Œํฌ)์— ์˜ํ•ด ์ฒ˜๋ฆฌ๋˜๊ณ  ์—ฐ๊ฒฐ๋˜์–ด 2-์ŠคํŠธ๋ฆผ ๋„คํŠธ์›Œํฌ์— ์ „๋‹ฌ๋œ๋‹ค. ์ถœ๋ ฅ์€ ๋ชจ๋“  ๋™์ž‘๊ณผ ๋ฏธ๋ž˜์˜ ์‹œ๊ฐ„ ๋‹จ๊ณ„์— ๋Œ€ํ•œ ๋ฏธ๋ž˜ ์ธก์ • ์˜ˆ์ธก์ด๋‹ค.

 

๋˜ํ•œ, ๋ฏธ๋ž˜ ์˜ˆ์ธก์— ์ค‘๊ฐ„ ์ง€๋„์™€ ๊ฐ™์€ ํ‘œํ˜„์„ ๋„์ž…ํ•˜์—ฌ DFP์˜ ๋ธ”๋ž™๋ฐ•์Šค ์ •์ฑ…์„ ๋” ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๊ธฐ ์œ„ํ•œ Belief DFP๋ฅผ ์†Œ๊ฐœํ•œ๋‹ค. ์ด๊ฒƒ์€ ์‹ ๊ฒฝ๋ง์˜ ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜๊ณผ ๊ฐ•ํ™” ํ•™์Šต์˜ ํ›„์† ํ‘œํ˜„๊ณผ ๊ธฐ๋Šฅ์—์„œ ์˜๊ฐ์„ ๋ฐ›์•˜๋‹ค. ์‹คํ—˜์— ๋”ฐ๋ฅด๋ฉด ๋Œ€๋ถ€๋ถ„์˜ ๊ฒฝ์šฐ์—์„œ BDFP๊ฐ€ DFP๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ, ๊ณ ์ „์  ํƒ์ƒ‰๋ฒ•์€ ์ผ๋ฐ˜์ ์œผ๋กœ RGB-D ์ž…๋ ฅ์„ ๋ฐ›๋Š” ํ•™์Šต ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋›ฐ์–ด๋‚˜๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๋ณด๋‹ค ๋ชจ๋“ˆํ™”๋œ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ œ๊ณตํ•œ๋‹ค. Point Navigation์„ ์œ„ํ•ด SplitNet์˜ ์•„ํ‚คํ…์ฒ˜๋Š” ์„œ๋กœ ๋‹ค๋ฅธ ๋ณด์กฐ ์ž‘์—…(ex. egomotion ์˜ˆ์ธก)๊ณผ ์ •์ฑ…์„ ์œ„ํ•œ ํ•˜๋‚˜์˜ ์‹œ๊ฐ์  encoder์™€ ์—ฌ๋Ÿฌ ๊ฐœ์˜ decoder๋กœ ๊ตฌ์„ฑ๋œ๋‹ค. ์ด๋Ÿฌํ•œ decoder๋Š” ์˜๋ฏธ ์žˆ๋Š” ํ‘œํ˜„์„ ๋ฐฐ์šฐ๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค. ๋™์ผํ•œ PPO ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ํ–‰๋™ ๋ณต์ œ ํ›ˆ๋ จ์„ ํ†ตํ•ด SplitNet์€ ์ด์ „์— ๋ณผ ์ˆ˜ ์—†์—ˆ๋˜ ํ™˜๊ฒฝ์—์„œ ์œ ์‚ฌํ•œ end-to-end ๋ฐฉ๋ฒ•์„ ๋Šฅ๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

๋˜ ๋‹ค๋ฅธ ์—ฐ๊ตฌ๋Š” ์‹ค๋‚ด ํ™˜๊ฒฝ์—์„œ simultaneous mapping(๋™์‹œ ๋งคํ•‘) ๋ฐ target-driven navigation(๋Œ€์ƒ ๊ธฐ๋ฐ˜ ํƒ์ƒ‰)์„ ์œ„ํ•œ ๋ชจ๋“ˆ์‹ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ œ์‹œํ•œ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ ์ €์ž๋Š” semantically-informed(์˜๋ฏธ๋ก ์  ์ •๋ณด) ๊ธฐ๋Šฅ์„ ๊ฐ–์ถ˜ 2.5D ๋ฉ”๋ชจ๋ฆฌ์— Navigation ์ •์ฑ…์„ ์œ„ํ•œ LSTM์„ ํ›ˆ๋ จ์‹œํ‚ค๊ธฐ ์œ„ํ•ด MapNet์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ๋‹ค. ๊ทธ๋“ค์€ ์ด ๋ฐฉ๋ฒ•์ด ์ด์ „์— ๋ณด์ด์ง€ ์•Š์•˜๋˜ ํ™˜๊ฒฝ์—์„œ ์ง€๋„ ์—†์ด ํ•™์Šต๋œ LSTM ์ •์ฑ…์„ ๋Šฅ๊ฐ€ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค€๋‹ค.

 

2019๋…„ Habitat Challenge์˜ ๋„์ž…๊ณผ ํ‘œ์ค€ํ™”๋œ ํ‰๊ฐ€, ๋ฐ์ดํ„ฐ์…‹, ์„ผ์„œ ์„ค์ •์œผ๋กœ ์ธํ•ด ์ตœ๊ทผ์˜ ์ ‘๊ทผ ๋ฐฉ์‹์€ Habitat Challenge 2019๋กœ ํ‰๊ฐ€๋˜์—ˆ๋‹ค. ์ฒซ ๋ฒˆ์งธ ์ž‘์—…์€ Habitat ๋’ค์˜ ํŒ€์—์„œ ๋น„๋กฏ๋˜์—ˆ์œผ๋ฉฐ PPO ์•Œ๊ณ ๋ฆฌ์ฆ˜, actor-critic(๋ฐฐ์šฐ-๋น„ํ‰๊ฐ€) ๋ชจ๋ธ ๊ตฌ์กฐ, ์‹œ๊ฐ์  ์ž…๋ ฅ์„ ์œ„ํ•œ ์ž„๋ฒ ๋”ฉ์„ ์ƒ์‚ฐํ•˜๊ธฐ ์œ„ํ•ด CNN์„ ์‚ฌ์šฉํ•œ๋‹ค. ํ›„์† ์—ฐ๊ตฌ๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ๋ณด์ด์ง€ ์•Š๋Š” ํ™˜๊ฒฝ์—์„œ์˜ GPS, ๋‚˜์นจ๋ฐ˜, ๊ฑฐ๋Œ€ํ•œ ํ•™์Šต ๋‹จ๊ณ„(Habitat์˜ ์ฒซ ๋ฒˆ์งธ 7500๋งŒ ๋‹จ๊ณ„๋กœ ์ด๋ฃจ์–ด์ง„ PPO ์ž‘์—…๊ณผ ๋น„๊ตํ•˜์—ฌ 25์–ต ๋‹จ๊ณ„)๋ฅผ ๊ฐ€์ง„ Agent์˜ Point Navigation Task์— ๋Œ€ํ•ด ๊ฑฐ์˜ ์™„๋ฒฝํ•œ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค๋Š” '์กด์žฌ ์ฆ๋ช…'์„ ์ œ๊ณตํ•œ๋‹ค. ํŠนํžˆ, ์ตœ์ƒ์˜ Agent ์„ฑ๋Šฅ์€ ์ตœ๋‹จ ๊ฒฝ๋กœ oracle์˜ 3-5% ์ด๋‚ด์ด๋‹ค. ๋ณธ ์—ฐ๊ตฌ๋Š” ์ž์› ์ง‘์•ฝ์  ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ, ์ฆ‰ Decentralized Distributed Proximal Policy Optimization(๋ถ„์‚ฐํ˜• PPO. DD-PPO)์—์„œ ๋ถ„์‚ฐ ๊ฐ•ํ™” ํ•™์Šต์— ์ ํ•ฉํ•œ ์ผ๋ฐ˜ํ™”๋œ Advantage Estimation(์ด์  ์ถ”์ •) ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ํ•จ๊ป˜ ์ˆ˜์ •๋œ PPO๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ๋งค ์‹œ๊ฐ„ ๋‹จ๊ณ„๋งˆ๋‹ค Agent๋Š” ์ž๊ธฐ์ค‘์‹ฌ์  ๊ด€์ฐฐ(๊นŠ์ด, RGB)์„ ์ˆ˜์‹ ํ•˜๊ณ  CNN๊ณผ ํ•จ๊ป˜ ์ž„๋ฒ ๋”ฉ์„ ์–ป์€ ๋‹ค์Œ GPS์™€ ๋‚˜์นจ๋ฐ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ชฉํ‘œ ์œ„์น˜๋ฅผ ํ˜„์žฌ ์œ„์น˜์™€ ๋น„๊ตํ•˜์—ฌ ์—…๋ฐ์ดํŠธํ•˜๊ณ  ์ตœ์ข…์ ์œผ๋กœ ๋‹ค์Œ ๋™์ž‘๊ณผ ๊ฐ’ ํ•จ์ˆ˜์˜ ์ถ”์ •์น˜๋ฅผ ์ถœ๋ ฅํ•œ๋‹ค. ์‹คํ—˜์€ ์˜ค๋žซ๋™์•ˆ Agent๊ฐ€ ์ง€์†์ ์œผ๋กœ ๊ฐœ์„ ๋˜๊ณ  ์žˆ์œผ๋ฉฐ, ๊ฒฐ๊ณผ๋Š” ์ตœ๋‹จ ๊ฒฝ๋กœ oracle๊ณผ ๊ฑฐ์˜ ์ผ์น˜ํ•œ๋‹ค.

 

๋‹ค์Œ ์ž‘์—…์€ ๋ณด์กฐ Task๋ฅผ ํ†ตํ•ด ์ƒ˜ํ”Œ ๋ฐ ์‹œ๊ฐ„ ํšจ์œจ์„ฑ์„ ์ฆ๊ฐ€์‹œํ‚ด์œผ๋กœ์จ ์ž์› ์ง‘์•ฝ์ ์ธ ์ž‘์—…์„ ๊ฐœ์„ ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค. ์ด์ „ ์ž‘์—…๊ณผ ๋™์ผํ•œ DD-PPO baseline ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ–‰๋™ ์กฐ๊ฑด๋ถ€ ๋Œ€์กฐ ์˜ˆ์ธก ์ฝ”๋”ฉ(CPC-A. actionconditional contrastive predictive coding), inverse-dynamics, ์‹œ๊ฐ„ ๊ฑฐ๋ฆฌ ์ถ”์ •(temporal distance estimation)์˜ 3๊ฐ€์ง€ ๋ณด์กฐ ์ž‘์—…์„ ์ถ”๊ฐ€ํ•œ๋‹ค. ์ €์ž๋“ค์€ ํ‘œํ˜„์„ ๊ฒฐํ•ฉํ•˜๋Š” ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•๋“ค์„ ์‹คํ—˜ํ•œ๋‹ค. 4,000๋งŒ ํ”„๋ ˆ์ž„์—์„œ ๊ฐ€์žฅ ์„ฑ๋Šฅ์ด ๋›ฐ์–ด๋‚œ Agent๋Š” ์ด์ „ ์ž‘์—…๊ณผ ๋™์ผํ•œ ์„ฑ๊ณผ๋ฅผ 5.5๋ฐฐ ๋” ๋น ๋ฅด๊ฒŒ ๋‹ฌ์„ฑํ•˜๊ณ  ์„ฑ๋Šฅ๊นŒ์ง€ ๊ฐœ์„ ํ–ˆ๋‹ค. RGB์™€ RGBD ํŠธ๋ž™ ๋ชจ๋‘์— ๋Œ€ํ•œ Habitat Challenge 2019์˜ ์šฐ์Šน์ž๋Š” end-to-end ํ•™์Šต ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์ด ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋งŽ์ด ๋“ค๊ธฐ ๋•Œ๋ฌธ์— ๊ณ ์ „์  ์ ‘๊ทผ๋ฒ•๊ณผ ํ•™์Šต ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์„ ๋ชจ๋‘ ๊ฒฐํ•ฉํ•œ hybrid ์†”๋ฃจ์…˜์„ ์ œ๊ณตํ•œ๋‹ค. ์ด ์ž‘์—…์€ ๋ชจ๋“ˆ์‹ ํ•™์Šต์„ '๊ณ ์ „์  ํƒ์ƒ‰ ํŒŒ์ดํ”„๋ผ์ธ'์— ํ†ตํ•ฉํ•˜์—ฌ ์ €์ˆ˜์ค€ Navigation์—์„œ ์žฅ์• ๋ฌผ ํšŒํ”ผ ๋ฐ ์ œ์–ด์— ๋Œ€ํ•œ ์ง€์‹์„ ์•”๋ฌต์ ์œผ๋กœ ํ†ตํ•ฉํ•œ๋‹ค. ์•„ํ‚คํ…์ฒ˜๋Š” ํ•™์Šต๋œ ์‹ ๊ฒฝ SLAM ๋ชจ๋“ˆ, ๊ธ€๋กœ๋ฒŒ ์ •์ฑ…, ๋กœ์ปฌ ์ •์ฑ…, ๋ถ„์„ path-planner๋กœ ๊ตฌ์„ฑ๋œ๋‹ค. ์‹ ๊ฒฝ SLAM ๋ชจ๋“ˆ์€ ๊ด€์ฐฐ, ์„ผ์„œ๋ฅผ ์ด์šฉํ•˜์—ฌ ์ง€๋„์™€ Agent ํฌ์ฆˆ ์ถ”์ •์น˜๋ฅผ ์˜ˆ์ธกํ•œ๋‹ค. ๊ธ€๋กœ๋ฒŒ ์ •์ฑ…์€ ํ•ญ์ƒ ๋ชฉํ‘œ ์ขŒํ‘œ๋ฅผ ์žฅ๊ธฐ ๋ชฉํ‘œ๋กœ ์ถœ๋ ฅํ•˜๋ฉฐ, ์ด๋Š” ๋ถ„์„ path-planner๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋‹จ๊ธฐ ๋ชฉํ‘œ๋กœ ๋ณ€ํ™˜๋œ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ, ๋กœ์ปฌ ์ •์ฑ…์€ ์ด ๋‹จ๊ธฐ ๋ชฉํ‘œ๋ฅผ ํ–ฅํ•ด ๋‚˜์•„๊ฐ€๋„๋ก ํ›ˆ๋ จ๋œ๋‹ค. ๋ชจ๋“ˆ์‹ ์„ค๊ณ„ ๋ฐ ๋ถ„์„ ๊ณ„ํš ์‚ฌ์šฉ์€ ๊ต์œก ์ค‘ ๊ฒ€์ƒ‰ ๊ณต๊ฐ„์„ ์ค„์ด๋Š” ๋ฐ ํฐ ๋„์›€์ด ๋œ๋‹ค.

๋”๋ณด๊ธฐ

Point Navigation

  • Visual Navigation์—์„œ ๊ฐ€์žฅ ๊ธฐ์ดˆ์ ์ด๊ณ  ์ธ๊ธฐ ์žˆ๋Š” Task.
  • Agent๋Š” ํŠน์ • ํฌ์ธํŠธ์—์„œ ํŠน์ • ๊ณ ์ •(fixed) ๊ฑฐ๋ฆฌ ๋‚ด์˜ ์ž„์˜์˜ ์œ„์น˜๋กœ ์ด๋™
  • ์›์ (0, 0, 0) ์ดˆ๊ธฐํ™”. ๊ณ ์ • ๋ชฉํ‘œ์ ์€ ์›์ ์„ ๊ธฐ์ค€์œผ๋กœ 3D ์ขŒํ‘œ(x, y, z) ์ง€์ •
  • ์ธ๊ณต Agent๋Š” ๋‹ค์–‘ํ•œ ๋ฒ”์œ„์˜ skillsets์„ ์ด์šฉํ•ด Task๋ฅผ ์„ฑ๊ณต์ ์œผ๋กœ ์™„์ˆ˜์‹œ์ผœ์•ผ ํ•จ
  • Agent๋Š” GPS, ๋‚˜์นจ๋ฐ˜, ๋ชฉํ‘œ ์œ„์น˜์— ๋Œ€ํ•œ ๋ฐฉํ–ฅ์„ฑ์„ ๊ฐ€์ง → ์ตœ๊ทผ์—๋Š” GPS, ๋‚˜์นจ๋ฐ˜ ์—†๋Š” RGBD ๊ธฐ๋ฐ˜ ๋” ์–ด๋ ค์šด Task๋กœ ์ด๋™ํ•˜๋Š” ์ถ”์„ธ
  • ๋Œ€์ƒ์˜ ์ƒ๋Œ€์  ๋ชฉํ‘œ ์ขŒํ‘œ๋Š” 2๊ฐ€์ง€๋กœ ๊ตฌ์„ฑ
    • ์ •์ : ์—ํ”ผ์†Œ๋“œ ์‹œ์ž‘์‹œ ํ•œ ๋ฒˆ๋งŒ ์ œ๊ณต๋จ
    • ๋™์ : ๋ชจ๋“  ์‹œ๊ฐ„ ๋‹จ๊ณ„์—์„œ ์ œ๊ณต๋จ

 

Point Navigation์˜ ํ•™์Šต ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•

1) end-to-end ์ ‘๊ทผ ๋ฐฉ์‹ (๊ณ„์‚ฐ ๋น„์šฉ์ด ๋งŽ์ด ๋“ฌ)

๊ฐ๊ฐ(sensory) ์ž…๋ ฅ์ด ๋‹ค๋ฅธ ํ˜„์‹ค์  ์ž์œจ ํƒ์ƒ‰ ์„ค์ •์—์„œ Point Navigation์„ ๋‹ค๋ฃจ๊ธฐ ์œ„ํ•จ

  • Direct Future Prediction(DFP. ์ง์ ‘ ๋ฏธ๋ž˜ ์˜ˆ์ธก): ๊ธฐ๋ณธ ํƒ์ƒ‰ ์•Œ๊ณ ๋ฆฌ์ฆ˜. ์ž…๋ ฅ(๊ด€์ฐฐ๋กœ๋ถ€ํ„ฐ์˜ ๋™์ž‘ ๋“ฑ)์ด ์ ์ ˆํ•œ ์‹ ๊ฒฝ๋ง์— ์˜ํ•ด ์ฒ˜๋ฆฌ, ์—ฐ๊ฒฐ๋˜์–ด 2-์ŠคํŠธ๋ฆผ ๋„คํŠธ์›Œํฌ์— ์ „๋‹ฌ. (์ถœ๋ ฅ์€ ๋ฏธ๋ž˜ ์˜ˆ์ธก)
  • Belief DFP(BDFP): ๋ฏธ๋ž˜ ์˜ˆ์ธก์— ์ค‘๊ฐ„ ์ง€๋„์™€ ๊ฐ™์€ ํ‘œํ˜„์„ ๋„์ž…ํ•˜์—ฌ DFP ๋ธ”๋ž™๋ฐ•์Šค ์ •์ฑ…์„ ๋” ๊ฐœ์„ ํ•จ. (DFP ๋ณด๋‹ค ๋” ์ข‹์€ ์„ฑ๋Šฅ)

 

Point Navigation์˜ ๊ณ ์ „์  ์ ‘๊ทผ๋ฒ•

์ผ๋ฐ˜์ ์œผ๋กœ RGB-D ์ž…๋ ฅ์„ ๋ฐ›๋Š” ํ•™์Šต ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋›ฐ์–ด๋‚˜๊ณ  ๋ชจ๋“ˆํ™”๋œ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ œ๊ณตํ•œ๋‹ค.

1) SplitNet์˜ ์•„ํ‚คํ…์ฒ˜

์„œ๋กœ ๋‹ค๋ฅธ ๋ณด์กฐ ์ž‘์—…๊ณผ ์ •์ฑ…์„ ์œ„ํ•œ (์‹œ๊ฐ์ ) 1๊ฐœ์˜ ์ธ์ฝ”๋”, ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋””์ฝ”๋”๋กœ ๊ตฌ์„ฑ.

  • ๋””์ฝ”๋”์˜ ๋ชฉํ‘œ: ์˜๋ฏธ ์žˆ๋Š” ํ‘œํ˜„์„ ๋ฐฐ์šฐ๋Š” ๊ฒƒ
  • ๋™์ผํ•œ PPO ์•Œ๊ณ ๋ฆฌ์ฆ˜, ํ–‰๋™ ๋ณต์ œ ํ›ˆ๋ จ → ํƒ์ƒ‰๋˜์ง€ ์•Š์€ ํ™˜๊ฒฝ์—์„œ end-to-end๋ฅผ ๋Šฅ๊ฐ€ํ•จ

* SplitNet: ๋ถ„ํ•  ์ธ์‹ ์‹ ๊ฒฝ ์•„ํ‚คํ…์ฒ˜ ๊ฒ€์ƒ‰ ํ”„๋ ˆ์ž„์›Œํฌ

2) ๋ชจ๋“ˆ์‹ ์•„ํ‚คํ…์ฒ˜

์‹ค๋‚ด ํ™˜๊ฒฝ์—์„œ ๋™์‹œ ๋งคํ•‘, ๋Œ€์ƒ ๊ธฐ๋ฐ˜ ํƒ์ƒ‰์„ ์œ„ํ•œ ์•„ํ‚คํ…์ฒ˜. ์˜๋ฏธ๋ก ์  ์ •๋ณด ๊ธฐ๋Šฅ์„ ๊ฐ–์ถ”๊ณ  LSTM ํ›ˆ๋ จ์„ ์œ„ํ•ด MapNet์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•จ (ํƒ์ƒ‰๋˜์ง€ ์•Š์€ ํ™˜๊ฒฝ์—์„œ ์ง€๋„ ์—†์ด ํ•™์Šต๋œ LSTM์„ ๋Šฅ๊ฐ€ํ•จ)

 

 

Habitat Challenge, 2019.

์—ฐ๊ตฌ 1)

  • CNN์˜ ์‚ฌ์šฉ: PPO ์•Œ๊ณ ๋ฆฌ์ฆ˜, actor-critic(๋ฐฐ์šฐ-๋น„ํ‰๊ฐ€) ๋ชจ๋ธ ๊ตฌ์กฐ, ์‹œ๊ฐ์  ์ž…๋ ฅ์„ ์œ„ํ•œ ์ž„๋ฒ ๋”ฉ ์ƒ์‚ฐ ์œ„ํ•จ

์—ฐ๊ตฌ 2)

  • '์กด์žฌ ์ฆ๋ช…': ํƒ์ƒ‰๋˜์ง€ ์•Š์€ ํ™˜๊ฒฝ์—์„œ์˜ GPS, ๋‚˜์นจ๋ฐ˜, ๊ฑฐ๋Œ€ํ•œ ํ•™์Šต ๋‹จ๊ณ„๋ฅผ ๊ฐ€์ง„ Agent์˜ ํฌ์ธํŠธ ํƒ์ƒ‰ Task์— ๋Œ€ํ•ด ๊ฑฐ์˜ ์™„๋ฒฝํ•œ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.
  • ๋งค ์‹œ๊ฐ„ ๋‹จ๊ณ„๋งˆ๋‹ค Agent๋Š” ์ž๊ธฐ์ค‘์‹ฌ์  ๊ด€์ฐฐ(RGB-D)๋ฅผ ์ˆ˜์‹ ํ•˜๊ณ  CNN๊ณผ ํ•จ๊ป˜ ์ž„๋ฒ ๋”ฉ์„ ์–ป์€ ๋‹ค์Œ GPS, ๋‚˜์นจ๋ฐ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ชฉํ‘œ ์œ„์น˜๋ฅผ ํ˜„์žฌ ์œ„์น˜์™€ ๋น„๊ตํ•˜์—ฌ ์—…๋ฐ์ดํŠธํ•œ๋‹ค.
  • ์ตœ์ข…์ ์œผ๋กœ ๋‹ค์Œ ๋™์ž‘๊ณผ ์ถ”์ •์น˜๋ฅผ ์ถœ๋ ฅํ•œ๋‹ค. → ๊ฒฐ๊ณผ๋Š” ์ตœ๋‹จ ๊ฒฝ๋กœ oracle๊ณผ ๊ฑฐ์˜ ์ผ์น˜ํ•จ

์—ฐ๊ตฌ 3)

๋ชฉํ‘œ: ๋ณด์กฐ Task๋ฅผ ํ†ตํ•ด ์ƒ˜ํ”Œ๊ณผ ์‹œ๊ฐ„์˜ ํšจ์œจ์„ฑ์„ ์ฆ๊ฐ€์‹œํ‚ด → ์ž์› ์ง‘์•ฝ์  ์ž‘์—…์„ ๊ฐœ์„ 

DD-PPO baseline ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ 3๊ฐ€์ง€ ๋ณด์กฐ ์ž‘์—…(CPC-A, inverse-dynamics, temporal distance estimation)์„ ์ถ”๊ฐ€ํ•œ๋‹ค. → 4,000๋งŒ ํ”„๋ ˆ์ž„์—์„œ ์ด์ „ ์ž‘์—…๊ณผ ๋™์ผํ•œ ์„ฑ๊ณผ๋ฅผ 5.5๋ฐฐ ๋” ๋น ๋ฅด๊ฒŒ ๋‹ฌ์„ฑํ•˜๊ณ  ์„ฑ๋Šฅ ํ–ฅ์ƒ

hybrid ์†”๋ฃจ์…˜ (๊ณ ์ „์  ์ ‘๊ทผ๋ฒ• + ํ•™์Šต ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•) ์•„ํ‚คํ…์ฒ˜ → ๋ชจ๋“ˆ์‹ ์„ค๊ณ„์™€ ๋ถ„์„ ๊ณ„ํš ์‚ฌ์šฉ : ๊ฒ€์ƒ‰ ๊ณต๊ฐ„์„ ์ค„์ด๋Š” ๋ฐ ํฐ ๋„์›€

  • ์‹ ๊ฒฝ SLAM ๋ชจ๋“ˆ: ๊ด€์ฐฐ, ์„ผ์„œ๋ฅผ ์ด์šฉํ•˜์—ฌ ์ง€๋„์™€ Agent ํฌ์ฆˆ ์ถ”์ •์น˜๋ฅผ ์˜ˆ์ธก
  • ๊ธ€๋กœ๋ฒŒ ์ •์ฑ…: ํ•ญ์ƒ ๋ชฉํ‘œ ์ขŒํ‘œ๋ฅผ ์žฅ๊ธฐ ๋ชฉํ‘œ๋กœ ์ถœ๋ ฅ
  • ๋ถ„์„ path-planner: ๊ธ€๋กœ๋ฒŒ ์ •์ฑ…์˜ ์žฅ๊ธฐ ๋ชฉํ‘œ๋ฅผ ๋‹จ๊ธฐ ๋ชฉํ‘œ๋กœ ๋ณ€ํ™˜
  • ๋กœ์ปฌ ์ •์ฑ…: ๋‹จ๊ธฐ ๋ชฉํ‘œ๋ฅผ ํ–ฅํ•ด ๋‚˜์•„๊ฐ€๋„๋ก ํ›ˆ๋ จ

 

Object Navigation.

Object Navigation์€ ๊ฐ€์žฅ ๊ฐ„๋‹จํ•œ ์ž‘์—… ์ค‘ ํ•˜๋‚˜์ด์ง€๋งŒ, Embodied AI์—์„œ ๊ฐ€์žฅ ์–ด๋ ค์šด ์ž‘์—…์ด๊ธฐ๋„ ํ•˜๋‹ค. Object Navigation์€ ํƒ์ƒ‰๋˜์ง€ ์•Š์€ ํ™˜๊ฒฝ์—์„œ ๋ ˆ์ด๋ธ”(label)์— ์˜ํ•ด ์ง€์ •๋œ ๊ฐ์ฒด๋กœ ํƒ์ƒ‰ํ•˜๋Š” ๊ธฐ๋ณธ์ ์ธ ์•„์ด๋””์–ด์— ์ดˆ์ ์„ ๋งž์ถ˜๋‹ค. Agent๋Š” ์ž„์˜์˜ ์œ„์น˜์—์„œ ์ดˆ๊ธฐํ™”๋˜๋ฉฐ ํ•ด๋‹น ํ™˜๊ฒฝ์—์„œ Object ๋ฒ”์ฃผ์˜ ์ธ์Šคํ„ด์Šค๋ฅผ ์ฐพ๋Š” ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. Object Navigation์€ ์ผ๋ฐ˜์ ์œผ๋กœ Point Navigation๋ณด๋‹ค ๋ณต์žกํ•˜๋‹ค. ์™œ๋ƒํ•˜๋ฉด ์‹œ๊ฐ์  ์ธ์‹์ด๋‚˜ ์—ํ”ผ์†Œ๋“œ์  ๊ธฐ์–ต ๊ตฌ์„ฑ๊ณผ ๊ฐ™์ด ๋งŽ์€ ๋™์ผํ•œ skillsets๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์˜๋ฏธ๋ก ์ (semantic) ์ดํ•ด๋„ ํ•„์š”ํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์ด๋Ÿฌํ•œ ์š”์†Œ๋“ค์ด Object Navigation Task๋ฅผ ํ›จ์”ฌ ๋” ์–ด๋ ต๊ฒŒ ๋งŒ๋“ค์ง€๋งŒ ํ•ด๊ฒฐํ•  ๊ฐ€์น˜๊ฐ€ ์žˆ๋‹ค.

Object Navigation Task๋Š” ์ ์‘(adapting)์„ ํ†ตํ•ด ์‹œ์—ฐํ•˜๊ฑฐ๋‚˜ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” ์ง์ ‘์ ์ธ ๊ฐ๋… ์—†์ด ํ™˜๊ฒฝ์—์„œ ํƒ์ƒ‰ํ•˜๋Š” ๊ฒƒ์„ ์ผ๋ฐ˜ํ™”ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋œ๋‹ค. ์ด ์ž‘์—…์€ Agent๊ฐ€ ํšจ๊ณผ์ ์ธ ํƒ์ƒ‰์„ ์žฅ๋ คํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋˜๋Š” ์ž์ฒด ๊ฐ๋… ์ƒํ˜ธ์ž‘์šฉ ์†์‹ค(self-supervised interaction loss)์„ ํ•™์Šตํ•จ์— ๋”ฐ๋ผ ๋ฉ”ํƒ€ ๊ฐ•ํ™” ํ•™์Šต ์ ‘๊ทผ๋ฒ•(meta-reinforcement learning approach)์„ ํ†ตํ•ด ์™„์ˆ˜ํ•œ๋‹ค. Agent๊ฐ€ ์ถ”๋ก  ์ค‘์— ํ•™์Šต ๋ชจ๋ธ์„ ๋™๊ฒฐํ•˜๋Š” ๊ธฐ์กด์˜ Navigation ์ ‘๊ทผ ๋ฐฉ์‹๊ณผ ๋‹ฌ๋ฆฌ, Agent๋Š” ์ž์ฒด ๊ฐ๋… ๋ฐฉ์‹์œผ๋กœ ์ž์‹ ์„ ์ ์‘์‹œํ‚ค๊ณ  ์ดํ›„์˜ ์‹ค์ˆ˜๋ฅผ ์กฐ์ • ๋˜๋Š” ์ˆ˜์ •ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด ์ ‘๊ทผ๋ฒ•์€ Agent๊ฐ€ ์ž๊ฐ(realizing)ํ•˜๊ธฐ ์ „์— ๋„ˆ๋ฌด ๋งŽ์€ ์‹ค์ˆ˜๋ฅผ ํ•˜์ง€ ์•Š๋„๋ก ๋ฐฉ์ง€ํ•˜๊ณ  ํ•„์š”ํ•œ ์ˆ˜์ •์„ ํ•œ๋‹ค. ๋˜ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์€ ํƒ์ƒ‰ ๊ณ„ํš์„ ์‹คํ–‰ํ•˜๊ธฐ ์ „์— ๊ฐ์ฒด ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด ์ž‘์—…์€ ์™ธ๋ถ€์˜ ์‚ฌ์ „ ์ง€์‹์œผ๋กœ๋ถ€ํ„ฐ๊ฐ€ ์•„๋‹ˆ๋ผ, Visual Exploration ๋‹จ๊ณ„์—์„œ ๊ตฌ์ถ•๋œ ์ง€์‹ ๊ทธ๋ž˜ํ”„์ธ ๊ฐ์ฒด ๊ด€๊ณ„ ๊ทธ๋ž˜ํ”„(ORG)๋กœ๋ถ€ํ„ฐ ๊ตฌํ˜„(implements)๋œ๋‹ค. ์ด ๊ทธ๋ž˜ํ”„๋Š” ๋ฒ”์ฃผ ๊ทผ์ ‘์„ฑ ๋ฐ ๊ณต๊ฐ„ ์ƒ๊ด€ ๊ด€๊ณ„์™€ ๊ฐ™์€ ๊ฐ์ฒด ๊ด€๊ณ„์„ฑ(object relationships)์œผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค.

๋”๋ณด๊ธฐ

Object Navigation

๊ฐ€์žฅ ๊ฐ„๋‹จํ•œ ์ž‘์—…์ด์ž, ๊ฐ€์žฅ ์–ด๋ ค์šด ์ž‘์—…. ํƒ์ƒ‰๋˜์ง€ ์•Š์€ ํ™˜๊ฒฝ์—์„œ label์— ์˜ํ•ด ์ง€์ •๋œ ๊ฐ์ฒด๋กœ ํƒ์ƒ‰ํ•˜๋Š” ๊ธฐ๋ณธ์  ์•„์ด๋””์–ด์— ์ดˆ์ .

  • Agent: ์ž„์˜์˜ ์œ„์น˜์—์„œ ์ดˆ๊ธฐํ™”. ํ•ด๋‹น ํ™˜๊ฒฝ์—์„œ Object ๋ฒ”์ฃผ์˜ ์ธ์Šคํ„ด์Šค๋ฅผ ์ฐพ๋Š” ์ž‘์—…์„ ์ˆ˜ํ–‰
  • Object Navigation์€ Point Navigation๋ณด๋‹ค ๋ณต์žกํ•จ: ๋งŽ์€ skillsets์— ์˜๋ฏธ๋ก ์  ์ดํ•ด๊ฐ€ ๋™์‹œ์— ํ•„์š”ํ•˜๊ธฐ ๋•Œ๋ฌธ

Object Navigation Task

์ ์‘(adapting)์„ ํ†ตํ•ด ์‹œ์—ฐํ•˜๊ฑฐ๋‚˜ ํ•™์Šต → ์ง์ ‘์ ์ธ ๊ฐ๋… ์—†์ด ํ™˜๊ฒฝ์—์„œ ํƒ์ƒ‰ํ•œ ๊ฒƒ์„ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ

  • ์ž์ฒด ๊ฐ๋… ์ƒํ˜ธ์ž‘์šฉ ์†์‹ค(self-supervised interaction loss): Agent๊ฐ€ ์ž์ฒด ๊ฐ๋… ๋ฐฉ์‹์œผ๋กœ ์ž์‹ ์„ ์ ์‘์‹œํ‚ค๊ณ  ์ดํ›„์˜ ์‹ค์ˆ˜๋ฅผ ์กฐ์ •ํ•จ. Agent๊ฐ€ ์ž๊ฐํ•˜๊ธฐ ์ „์— ๋„ˆ๋ฌด ๋งŽ์€ ์‹ค์ˆ˜๋ฅผ ํ•˜์ง€ ์•Š๋„๋ก ๋ฐฉ์ง€ํ•˜๊ณ  ์ˆ˜์ • ๊ฐ€๋Šฅ → ๋ฉ”ํƒ€ ๊ฐ•ํ™” ํ•™์Šต ์ ‘๊ทผ๋ฒ•(meta-reinforcement learning approach)
  • ํƒ์ƒ‰ ๊ณ„ํš ์‹คํ–‰ ์ „ ๊ฐ์ฒด ๊ฐ„ ๊ด€๊ณ„ ํ•™์Šต: ์™ธ๋ถ€์˜ ์‚ฌ์ „ ์ง€์‹์ด ์•„๋‹Œ Visual Exploration ๋‹จ๊ณ„์˜ ๊ฐ์ฒด ๊ด€๊ณ„ ๊ทธ๋ž˜ํ”„(ORG)๋กœ๋ถ€ํ„ฐ ๊ตฌํ˜„.

* ORG๋Š” ๋ฒ”์ฃผ ๊ทผ์ ‘์„ฑ ๋ฐ ๊ณต๊ฐ„ ์ƒ๊ด€ ๊ด€๊ณ„์™€ ๊ฐ™์€ ๊ฐ์ฒด ๊ด€๊ณ„์„ฑ(object relationships)์œผ๋กœ ๊ตฌ์„ฑ

728x90
์ €์ž‘์žํ‘œ์‹œ (์ƒˆ์ฐฝ์—ด๋ฆผ)

'๐Ÿค– AI' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

[Cursor] ์›น ๊ฐœ๋ฐœ์— ์œ ์šฉํ•œ MCP ์ ์šฉ ๋ฐฉ๋ฒ• (Browser tools)  (0) 2025.09.24
[STT/Kaldi] ๋ฐœ์Œ์‚ฌ์ „(Lexicon), ์–ธ์–ด๋ชจ๋ธ(LM)์ด๋ž€?  (0) 2025.06.11
[ASR] Kaldi๋ž€?  (0) 2025.03.17
A Survey of Embodied AI: From Simulators to Research Tasks ๋…ผ๋ฌธ ์ •๋ฆฌ - (1)  (0) 2022.07.12
'๐Ÿค– AI' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€
  • [Cursor] ์›น ๊ฐœ๋ฐœ์— ์œ ์šฉํ•œ MCP ์ ์šฉ ๋ฐฉ๋ฒ• (Browser tools)
  • [STT/Kaldi] ๋ฐœ์Œ์‚ฌ์ „(Lexicon), ์–ธ์–ด๋ชจ๋ธ(LM)์ด๋ž€?
  • [ASR] Kaldi๋ž€?
  • A Survey of Embodied AI: From Simulators to Research Tasks ๋…ผ๋ฌธ ์ •๋ฆฌ - (1)
mxnxeonx
mxnxeonx
"์•„, ์ด๊ฑฐ ๋ญ์˜€๋”๋ผ"๋ฅผ ํ•˜์ง€ ์•Š๊ธฐ์œ„ํ•œ ์ผ๊ธฐ์žฅ.
  • mxnxeonx
    MJ's Development Diary
    mxnxeonx
  • ์ „์ฒด
    ์˜ค๋Š˜
    ์–ด์ œ
    • ๋ถ„๋ฅ˜ ์ „์ฒด๋ณด๊ธฐ (158)
      • ๐Ÿ’ป Language (43)
        • Java : ์ž๋ฐ” (18)
        • Python : ํŒŒ์ด์ฌ (9)
        • ROS : ๋กœ๋ด‡์‹œ์Šคํ…œ (9)
        • Android : ์•ˆ๋“œ๋กœ์ด๋“œ (4)
        • JavaScript : ์ž๋ฐ”์Šคํฌ๋ฆฝํŠธ (2)
      • ๐ŸŒ Environment (19)
        • IDE : ํ†ตํ•ฉ๊ฐœ๋ฐœํ™˜๊ฒฝ (9)
        • Virtual : ๊ฐ€์ƒํ™˜๊ฒฝ (10)
      • โš™ Framework (12)
        • Vue-๋ทฐ (3)
        • Spring-์Šคํ”„๋ง (7)
      • ๐Ÿ’พ DataBase (18)
      • ๐ŸŒŒ OS (36)
        • Linux-๋ฆฌ๋ˆ…์Šค (36)
      • ๐Ÿ’ฌ CI · CD (7)
        • Git : ๊นƒ (7)
      • ๐Ÿ“ƒ ETC (6)
      • ๐Ÿค– AI (5)
  • ๋งํฌ

    • GitHub
  • ์ธ๊ธฐ ๊ธ€

  • ์ตœ๊ทผ ๋Œ“๊ธ€

  • ์ตœ๊ทผ ๊ธ€

  • hELLOยท Designed By์ •์ƒ์šฐ.v4.10.3
mxnxeonx
A Survey of Embodied AI: From Simulators to Research Tasks ๋…ผ๋ฌธ ์ •๋ฆฌ - (2)
์ƒ๋‹จ์œผ๋กœ

ํ‹ฐ์Šคํ† ๋ฆฌํˆด๋ฐ”