A Survey of Embodied AI: From Simulators to Research Tasks 논문 정리 - (2)

728x90

본 글은 해당 논문을 해석하여 관련 연구에 도움을 받기 위해 작성한 글로, 오역과 오탈자 등이 존재할 수 있습니다. 또한, 개인적인 해석이 포함되어 있으므로 보다 정확한 이해를 원하시는 경우 본문을 참조해주시기 바랍니다.

A Survey of Embodied AI : 논문 정리 (1)에서 작성한 내용의 뒷부분으로, Survey의 III Part 내용을 정리하였다.

III. Research in Embodied AI

이 섹션에서는 이전 섹션에서 조사한 9개의 Simulator에 의존하는 다양한 Task에 대해 논의한다.

최근 Embodied AI 연구가 증가하는 데에는 여러 가지 동기가 있다. 인지과학과 심리학의 관점에서 구현 가설은, 지능이 환경과의 상호작용과 감각 운동 활동의 결과에서 발생한다는 것이다. 직관적으로, 인간은 대부분의 경험이 무작위화되고 수동적인(즉, 외부적으로 큐레이션된) "Internet AI" 패러다임을 통해서만 학습하지 않는다. 인간은 능동적인 지각, 움직임, 상호작용, 의사소통을 통해 배운다. AI 관점에서, Embodied AI의 현재 Task는 매핑 및 Navigation과 같은 로봇 기능을 위한 보이지 않는 환경에 대한 일반화와 관련된 학습으로 인한 고전적 방법에 비해 센서 노이즈에 대한 견고성이 향상된다. 또한, Embodied AI는 깊이, 언어, 오디오와 같은 다양한 양식이 학습 기반 접근법을 통해 쉽게 통합 가능하기 때문에 유연성과 더 나은 성능을 보장한다.

Embodied AI Task의 3가지 주요 유형은 Visual Exploration, Visual Navigation, Embodied QA이다. Embodied AI의 기존 논문은 대부분 이 Task에 중점을 두거나 모듈을 사용하여 오디오-비주얼 Navigation과 같이 복잡한 작업에 대한 모델을 구축하기 때문에 본 논문에서도 이 3가지 Task에 중점을 둘 것이다.

Task는 Navigation에서 QA로 진행될수록 복잡성이 증가한다. Exploration을 시작한 후 Navigation을 거쳐 최종적으로 QA를 구현한다. Task 각각은 다음 Task의 토대를 이루고 있으며, 그림 5와 같이 Embodied AI Task의 피라미드 구조를 형성하고 있으며 해당 분야에 대한 자연스러운 방향을 제시한다. 우리는 데이터셋에 대한 요약, 방법론, 평가 지표를 시작으로 각 Task에 대한 중요한 측면을 강조할 것이며 세부 정보는 표 III에서 확인할 수 있다.

3대 과제 VE, VN, EQA의 최신 접근법, 평가법, 데이터셋에 대해서 다룬다.

Visual Exploration
Visual Navigation
Embodied Question Answering

A. Visual Exploration

Visual Exploration에서 Agent는 일반적으로 움직임과 인식을 통해 3D 환경에 대한 정보를 수집하여 시각적 탐색과 같이 다운스트림 작업에 유용할 수 있는 환경의 내부 모델을 업데이트한다. 목표는 이 작업을 가능한 효율적으로 수행하는 것이다. (ex. 가능한 적은 단계로)

내부 모델은 Topological graph map(위상 그래프 맵), Semantic map(의미 맵), Occupancy map(점유 맵), Spatial memory(공간 메모리)와 같은 형식이 될 수 있다. 이러한 지도 기반 아키텍처는 기하학과 의미론을 포착할 수 있어 반응적이고 반복적인 신경망 정책에 비해 더 효율적인 정책 학습과 게획을 가능하게 한다.

Visual Exploration은 일반적으로 Visual Navigation 작업 전에 수행되거나 동시에 수행된다.

첫 번째 경우, Visual Exploration은 다운스트림 탐색 작업에서 path-planning(경로 계획)에 유용한 내부 메모리를 구축한다. Agent는 항해를 시작하기 전에 특정 예산(ex. 제한된 수의 단계) 내에서 자유롭게 환경을 탐색한다. 두 번째 경우, Agent는 보이지 않는 테스트 환경을 탐색하면서 지도를 구축하여 다운스트림 작업과 더욱 긴밀하게 통합된다.

이 섹션에서는 기존의 Visual Exploration Survey 논문을 기반으로 더 최신 작업과 방향을 기술한다.

고전적 Robotics에서 Exploration은 수동적 또는 능동적 동시 위치 결정 및 매핑(SLAM)을 통해 환경의 지도를 구축한다. 이 지도는 탐색 작업에 대한 현지화 및 경로 계획에 사용된다. SLAM은 매우 잘 연구되었지만 순수 기하학적 접근법은 개선이 필요하다. 센서에 의존하기 때문에 특정 노이즈에 취약하기 때문이다. 반면, RGB 및 깊이 센서를 사용하는 학습 기반 접근 방식은 노이즈에 더 강하다. 또한 학습 기반 접근 방식을 통해 인공 Agent는 의미론적 이해(ex. Environment - Object Type)를 통합하고 이전에 본 환경에 대한 지식을 일반화하여 새로운 환경을 감독하지 않은 방식으로 이해하는 데 도움이 된다. 따라서 인간에 대한 의존을 감소시킬 수 있다.

지도 형태로 환경의 유용한 내부 모델을 생성하는 방법을 학습하면 Agent의 성능이 향상될 수 있다. 지능형 탐사는 구조 로봇 및 심해 탐사 로봇과 같이 Agent가 시간이 지남에 따라 동적으로 전개되는 새로운 환경을 탐색해야 하는 경우에도 유용하게 사용될 수 있다.

Visual Exploration은 Visual Navigation 이전 또는 동시에 수행된다.

VN 이전에 수행되는 경우: 유용한 path-planning에 필요한 내부 메모리가 미리 빌드됨. Navigate 전에는 Agent가 한정된 예산 안에서 자유롭게 이동할 수 있음
VN과 동시에 수행되는 경우: Agent가 처음 보는 테스트 환경을 탐사할 때 맵을 빌드하여 다음 작업과 더욱 통합됨

전통적 Robotics 맵의 빌드에 Exploration은 수동/능동적이고 SLAM을 통해서만 이루어졌다.

센서에 의존하므로 측정에 대한 노이즈에 민감하고 광범위한 파인 튜닝이 필요하다.
(↔) 학습 기반 접근법(RGB or 깊이 센서)은 노이즈에 더 강력하고, 인공 Agent가 의미론적 이해를 통합하고 지식을 일반화한다. 인간에 대한 의존이 최소화되어 효율적이다.

내부 모델을 잘 구성해야 Agent의 성능이 향상된다.

VE 내부 모델: Topological graph map(위상 그래프 맵), Semantic map(의미 맵), Occupancy map(점유 맵), Spatial memory(공간 메모리) 등

1) Approaches

이 섹션에서 시각적 탐구의 non-based 접근법은 부분적으로 관찰된 Markov 의사 결정 과정(POMDPs)으로 공식화된다. POMDP는 상태 공간 S, 작용 공간 A, 전이 분포 T, 보상 함수 R, 관측 공간 Ω, 관측 분포 O, 할인 계수 y ∈ [0, 1]을 갖는 7개의 튜플(S, A, T, R, Ω, O, γ)로 나타낼 수 있다. 일반적으로 이러한 접근법은 POMDP의 특정 보상 함수로 간주된다.

Baselines.

Visual Exploration에는 몇 가지 공통 Baseline(기준선)이 있다. random-actions의 경우 Agent는 모든 Action에 대한 균일한 분포에서 표본을 추출한다. forward-action의 경우 항상 순방향 Action을 선택한다. forward-action+의 경우 Agent는 순방향 Action을 선택하지만 충돌할 경우 왼쪽으로 회전한다. frontier-exploration의 경우 지도를 사용하여 자유 공간과 미개척 공간 사이의 가장자리를 반복적으로 방문한다.

Curiosity.

호기심 접근 방식에서 Agent는 예측하기 어려운 상태를 갖는다. 예측 오차는 강화 학습의 보상 신호로 사용된다. 이는 외부 보상이 희박한 경우에 유익하므로 환경으로부터의 외부 보상보다는 내재적 보상과 동기 부여에 초점을 맞춘다.

일반적으로 손실을 최소화하는 *forward-dynamics(정역학) 모델 L(ˆst+1, st+1)이 있다. 이 경우, ˆst+1은 Agent가 st 상태일 때 at Action을 취할 경우 예측되는 다음 상태이며 st+1은 Agent가 종료되는 실제 다음 상태이다.

* forward-dynamics(정역학): 로봇의 동역학 모델 중 하나. 힘/토크를 가했을 때 로봇의 움직임 결과(joint variable)

정책 최적화를 위해 Proximal Policy Optimization(PPO)를 사용하는 것과 같은 Curiosity에 대한 실질적인 고려사항이 최근 연구에 나열되었다. Curiosity는 최근 연구에서 Semantic map과 같은 더 진보된 지도를 생성하는 데 사용되었다.

forward-dynamics 모델은 높은 예측 오류(즉, 높은 보상)에 대해 확률성을 활용할 수 있기 때문에 확률성은 Curiosity 접근법에 심각한 문제를 제기한다. 이는 "noisy-TV" 문제 또는 Agent Actions 실행시 노이즈와 같은 요인으로 인해 발생할 수 있다. 제안된 해결책 중 하나는 Agent가 이전 상태 st-1에서 현재 상태 st로 이동하기 위해 취한 Action을 추정하는 inverse-dynamics(역역학) 모델을 사용하는 것으로 Agent가 환경에서 자신의 행동이 무엇을 제어할 수 있는지 이해하는 데 도움이 된다.

* inverse-dynamics(역역학): 로봇의 동역학 모델 중 하나. 원하는 motion을 얻기 위해 필요한 힘/토크를 구하는 것

이 방법은 환경으로 하여금 확률성을 해결하려고 시도하지만, Agent의 행동으로 인해 발생하는 확률성을 해결하는 데 충분하지 않을 수 있다. 한 가지 예는 에이전트가 리모컨을 사용하여 TV 채널을 임의로 변경해 진행 없이 보상을 축적할 수 있도록 하는 것이다. 이 (어려운) 문제를 구체적으로 해결하기 위해 최근 몇 가지 방법이 제안되었다.

첫 번째 방법인 Random Distillation network(랜덤 증류 네트워크)는 무작위로 초기화된 신경망의 출력을 예측하는 것이며, 답은 입력의 결정론적 함수이기 때문이다. (Input에 따라 Output이 정해지는?) 두 번째 방법은 Exploration by Disagreement(불일치에 의한 탐색)으로, Agent가 forward-dynamics 모델 앙상블의 예측 사이에 최대 불일치 또는 분산을 갖는 행동 공간을 탐색하도록 장려된다. 모델은 평균으로 수렴되며, 이는 앙상블의 분산을 줄이고 확률성 트랩에 갇히는 것을 방지한다.

Coverage.

Coverage 접근법에서 Agent는 직접 관찰하는 대상의 양을 최대화하려 한다. Agent는 자기중심적 관찰을 사용하기 때문에 방해 가능한 3D 구조를 기반으로 탐색해야 한다. 최근 방법은 고전적 방법과 학습 기반 방법의 결합이다. 그것은 end-to-end 정책 훈련과 관련된 높은 샘플 복잡성을 피하기 위해 공간 지도를 유지하는 학습된 SLAM 모듈과 함께 분석 path-planners를 사용한다. 이 방법에는 실세계의 Robotics에 대한 일반 가능성의 물리적 현실성을 개선하기 위한 노이즈 모델도 포함된다.

또 다른 연구는 정책 네트워크의 장면 메모리를 통해 트랜스포머 모델에서 채택된 self-attention 메커니즘을 사용하는 장면 메모리 변압기이다. 장면 메모리는 마주치는 모든 관찰을 내장하고 저장하여 유도 편향이 필요한 지도와 같은 메모리에 비해 더 큰 유연성과 확장성을 제공한다.

Reconstruction.

Reconstrunction(재구성) 접근법에서 Agent는 관찰된 보기에서 다른 보기를 재생성한다. 과거 연구는 360도 파노라마와 CAD 모델의 픽셀 단위 재구성에 초점을 맞추고 있으며, 이는 일반적으로 사람이 찍은 사진의 큐레이션된 데이터 세트이다. 최근 연구는 이 접근법을 Embodied AI에 적용했는데, 이는 모델이 Agent의 자기중심적 관찰과 자체 센서(즉, 능동적 인식)의 제어로부터 장면 재구성을 수행해야 하기 때문에 더 복잡하다. 최근 연구에서 Agent는 자기중심 RGB-D 관찰을 사용하여 가시 영역을 벗어난 점유 상태를 재구성하고 시간에 따른 예측을 집계하여 정확한 점유 지도를 형성한다. 점유 예상은 카메라 앞에 있는 V*V 셀의 국부 영역에 있는 각 셀이 탐색되고 점유될 확률을 할당하는 픽셀 단위 분류 작업이다. Coverage 접근법과 비교하여 점유 상태를 예측하면 Agent가 직접 관찰할 수 없는 영역을 처리할 수 있다.

또 다른 최근 연구는 픽셀 단위(pixel-wise) 재구성보다 의미론적(semantic) 재구성에 초점을 맞추고 있다. Agent는 샘플링된 쿼리 위치에 '문'과 같은 의미론적 개념이 있는지를 예측하도록 설계되었다. K-평균 접근법을 사용하여 쿼리 위치에 대한 재구성을 하는 개념은 특징 표현에 가장 가까운 J 군집 중심이다. Agent는 샘플링된 쿼리 뷰에 대한 실제 재구성 개념을 예측하는 데 도움이 되는 뷰를 얻는 경우 보상을 받는다.

1) Approaches

non-baseline 접근법은 Markov 결정 프로세스(POMDPs)로 정형화. → POMDP의 보상 function.

Baselines.

random-action: Agent Sample이 모든 Action에 대해 균일한 분포
forward-action: 전방으로 가는 Action을 선택. forward-action+에서는 충돌시 좌회전
frontier-exploration: Free Space와 탐험되지 않은 공간 사이의 Edge 방문을 반복

Curiosity. (예측하기 힘든 상태를 탐색. 예측된 에러는 강화 학습의 보상 Signal로 사용. 외부 환경으로부터의 보상보다는 내재적 보상에 집중. 외부 보상이 거의 없는 경우 활용하면 좋음) → PPO 고려해야 함.

forward-dynamics: 힘/토크를 가했을 때 로봇의 움직임 결과. 높은 예측 에러(큰 보상)의 확률성을 사용하므로 큰 문제가 됨. (noisy-TV 문제나 Action의 노이즈 때문에 발생)
- ˆst+1 : Agent가 st 상태일 때 at Action을 취할 경우 예측되는 다음 상태
- st+1 : 실제 다음 상태
inverse-dynamics: 원하는 motion을 얻기 위한 힘/토크를 구하기. 이전 상태에서 현재 상태로 오기 위해 Agent가 취한 행동을 추정하여 어떤 행위로 환경을 통제 가능한지 Agent가 이해할 수 있음. 환경 때문에 확률성을 다루려고 하는데 Agent의 행위에 의해 결과가 발생하는 확률성을 다루는 것은 불충분함. (랜덤 리모컨 예제)
더 어려운 문제들을 해결하기 위해 최근에 제시된 방법들
- Random Distillation Network: 랜덤하게 초기화된 신경망의 출력을 예측하는 것. 신경망은 입력에 대해 Deterministic한 Function으로, 확률을 가지고 랜덤한 함수가 아님
- Exploration by Disagreement: forward-dynamics 앙상블 예측 사이 최대 불일치 혹은 분산을 갖는 행동 공간을 탐색하도록 장려되는 불일치에 의한 탐색. 모델은 평균에 수렴. (앙상블의 분산을 줄이고 확률성 트랩에 갇히는 것을 예방)

Coverage. (Agent가 직접적으로 관찰하는 Target의 수를 최대화하도록 노력. 자기중심적 관찰을 하므로 3D 장애물에 기반하여 탐색해야 함)

고전적 방법 + 학습 기반 방법 : 학습된 SLAM 모듈로 경로 플래너를 분석. end-to-end 정책에 수반된 높은 샘플 복잡성을 피하기 위해 공간 지도를 유지. 실세계에서 로봇을 일반화할 수 있도록 물리적 현실성을 개선하기 위해 노이즈 모델을 포함.
Scene memory transformer: 자기 중심 매커니즘. 마주치는 모든 관찰을 저장하여 유도 편향이 필요한 지도와 같은 메모리에 비해 더 큰 유연성과 확장성 제공.

Reconstruction. (관찰한 뷰로부터 다른 뷰를 재생성)

과거: 360도 파노라마, CAD 모델의 픽셀별 복원에 집중 → 사람이 찍은 사진 데이터셋이 엄선됨 (최근에는 픽셀별 복원보다 의미별 복원에 더 집중. 의미적 개념이 샘플된 쿼리 지역에 존재하는지 예측하도록 설계함)
현재: Agent의 자기중심적 RGB-D 관찰, 가시 영역을 벗어난 점유 상태 재구성. 정확한 사용 지도로부터 시간에 따른 예측을 집계하여 정확한 점유 지도 형성 → Agent의 자기중심적 관찰과 센서의 컨트롤로부터 장면 복원을 수행하므로 더 복잡
Coverage 접근법과 비교: 점유(사용) 상태를 예측하는 것은 Agent가 직접 관찰하지 않는 지역을 다룰 수 있게 함
K-Means 접근법을 사용하여 쿼리 지역에 대해 진짜 복원하는 것의 개념은 J개의 가까운 클러스터 중심으로부터 특징 표현까지. Agent는 샘플된 쿼리 시야에서 예측하여 진짜 복원하여 뷰를 얻으면 보상을 받는다.

2) Evaluation Metrics

방문한 대상의 양(Amount of targets visited). 영역, 흥미있는 객체 등 다양한 유형의 대상이 고려된다. 방문 지표 영역은 m^2 단위의 절대 범위 면적과 현장에서 탐색한 면적의 백분율과 같이 몇 가지 변형을 갖는다.

Impact on downstream tasks.

Visual Exploration의 성능은 Visual Navigation과 같은 다운스트림 작업에 미치는 영향에 의해 측정될 수 있다. 이 평가 지표의 범주는 최근 연구에서 더 흔히 볼 수 있다. Visual Exploration의 결과(즉, 지도)를 사용하는 다운스트림 작업의 예로는 Image Navigation(이미지 탐색), Point Navigation(포인트 탐색), Object Navigation(객체 탐색)이 있다. 이러한 탐색 작업에 대한 내용은 섹션 III-B에서 확인할 수 있다.

3) Datasets

Visual Exploration을 위해 일부 인기 있는 데이터셋에는 Matterport3D, Gibson V1이 포함된다. Matterport3D와 Gibson V1은 둘 다 깊이/의미 분할과 같이 Embodied AI에 유용한 정보를 가진 사실적인 RGB 데이터셋이다.

Habitat-Sim Simulator는 구성 가능한 Agent 및 여러 센서와 같은 추가 기능을 사용하여 본 데이터셋을 사용할 수 있다. Gibson V1은 iGibson을 형성하기 위해 상호작용과 현실적인 로봇 제어와 같은 기능들이 향상되었다. 그러나 섹션 II에서 언급된 것과 같은 더 최근의 3D Simulator는 모두 RGB 관찰을 제공하기 때문에 Visual Exploration에 사용될 수 있다.

B. Visual Navigation

Visual Navigation에서 Agent는 외부 사전 명령이나 자연어 명령이 있든 없든 목표를 향해 3D 환경을 탐색한다. 이 작업을 위한 목표물로는 Points(점), Objects(객체), Images(이미지), Areas(영역) 등 다양한 종류가 있다. 우리는 가장 일반적이고 근본적(기초적, 흔한) 목표인 Point와 Object를 VN의 목표물로 사용할 것이다. 이 목표물들은 지각 입력, 언어와 같은 사양과 결합되어 VE, 비전-언어 탐색, EQA와 같이 더 복잡한 Visual Navigation을 Build할 수 있다. Point Navigation에서 Agent는 특정 Point로 이동하는 동안 Object Navigation에서 특정 클래스의 Object로 이동하는 작업을 수행한다.

고전적인 Navigation 접근법은 대개 localization(국소화), mapping(매핑), path-planning(경로 계획), locomotion(이동)과 같이 수작업의 하위 요소로 구성된다. Embodied AI의 VN은 이러한 Navigation 시스템을 데이터로부터 학습하여 수작업을 줄여 질문-답변과 같이 데이터 기반 학습 방법으로 성능이 우수한 다운스트림 작업과의 통합을 용이하게 하는 것을 목표로 한다. 또한, 두 세계의 장점을 결합하는 것을 목표로 하는 Hybrid 접근법도 있다.

앞서 섹션 II에서 언급한 바와 같이, 학습 기반 접근법은 RGB, 깊이 센서를 사용하고 환경에 대한 의미론적(semantic) 이해를 통합할 수 있기 때문에 센서 측정 노이즈에 더 강력하다. 또한, 그들은 Agent가 이전에 본 환경에 대한 지식을 일반화할 수 있도록하여 비지도 방식으로 새로운 환경을 이해하는 데 도움을 주어 인간의 노력을 줄일 수 있다.

Visual Navigation : 외부 명령, 자연적 명령과 무관히 목표를 탐색.

목표물 : Points(점), Objects(객체), Images(이미지), Areas(영역) 등 → Point, Object는 Input, Language와 결합되어 더 복잡한 VN 구축 가능.

Classic Navigation Approaches(고전적 탐색법): localization(국소화), mapping(매핑), path-planning(경로 계획), locomotion(이동)과 같이 수작업 하위 요소로 구성. 수작업을 줄이기 위해 데이터로부터 학습하는 것을 목표로 함.

Learning-based Approaches(학습 기반 접근법): RGB/깊이 센서를 사용하므로 센서 노이즈 측정에 더 강함. 환경에 대한 의미론적 이해를 통합. Agent가 이전에 본 환경에 대한 지식을 일반화하여 새로운 환경을 비지도 방식으로 이해.

Hybrid Approach(하이브리드 접근법): 두 세계의 장점을 결합하는 것을 목표로 함

최근 몇 년 동안 연구의 증가와 함께 Embodied AI의 진전을 벤치마킹하고 가속화하기 위한 기초적 Point Navigation, Object Navigation Task에서 Visual Navigation에 대한 Challenge도 조직(Organize)되었다. 가장 주목할 만한 Challenge는 iGibson Sim2Real Challenge, Habitat Challenge, RoboTHOR Challenge이다. 각 챌린지에 대해 우리는 이 논문의 최신인 2020년 챌린지를 설명할 것이다. 세 챌린지 모두에서 Agent는 자기중심 RGB-D 관찰로 제한된다.

iGibson Sim2Real Challenge 2020.

Point Navigation. 73개의 고품질 Gibson 3D 장면이 훈련에 사용되며, 실제 아파트 재건축인 Castro 장면은 훈련, 개발, 테스트에 사용된다. 여기에는 3가지 시나리오가 있는데, 환경에 장애물이 없거나, Agent가 상호작용할 수 있는 장애물이 포함되어 있거나, 다른 이동하는 Agent로 채워져 있는 경우이다.

Habitat Challenge 2020.

Point Navigation, Object Navigation. Gibson 데이터셋 분할이 있는 Gibson 3D 장면은 Point Navigation Task에 사용되며, 원본 데이터셋에 의해 지정된 61/11/18 훈련/검증/테스트 하우스 분할이 있는 90개의 Matterport3D 장면은 Object Navigation Task에 사용된다.

RoboTHOR Challenge 2020.

Point Navigation. 훈련과 평가는 3단계로 나뉜다. 첫 번째 단계에서 Agent는 60개의 시뮬레이션된 아파트에서 교육을 받고, 성능은 15개의 다른 시뮬레이션된 아파트에서 검증된다. 두 번째 단계에서 Agent는 실세계에 대한 일반화를 테스트하기 위해 4개의 시뮬레이션된 아파트와 실제 환경에서 평가된다. 마지막 단계에서 Agent는 10개의 실제 아파트에서 평가된다.

이 섹션에서는 기존 Visual Navigation Survey를 기반으로 더 최근의 연구를 포함한다.

1) Categories

Point Navigation.

최근 Visual Navigation 문헌에서 기초적이고 인기 있는 Task 중 하나이다. Point Navigation에서 Agent는 특정 포인트에서 특정 고정(fixed) 거리 내에 있는 임의의 위치로 이동해야 한다. 일반적으로 Agent는 환경에서 원점(0, 0, 0) 초기화되며, 고정 목표점은 원점/초기 위치를 기준으로 3D 좌표(x, y, z)로 지정된다. Task가 성공적으로 완료되기 위해서는 인공 Agent가 시각적 인식, 에피소드적 기억 구성, 추론/계획 및 탐색과 같은 다양한 범위의 기술 세트(skillsets)를 보유해야 한다. Agent는 일반적으로 위치 좌표에 접근할 수 있는 GPS와 나침반을 갖추고 있으며, 암묵적으로 목표 위치에 대한 방향을 갖추고 있다. 대상의 상대적 목표 좌표는 정적(에피소드 시작시 한 번만 제공됨)이거나, 동적(모든 시간 단계에서 제공됨)일 수 있다. 더 최근에는 실내 환경에서 불완전한 현지화(imperfect localization)로 인해 Habitat Challenge 2020은 GPS와 나침반이 없는 RGBD 기반 온라인 현지화의 더 어려운 작업으로 이동했다.

Point Navigation에는 많은 학습 기반 접근법이 있다. 초기 연구 중 하나는 감각(sensory) 입력이 다른 현실적인 자율 탐색 설정(지상 실측 지도와 지상 실측 Agent의 자세가 없는 보이지 않는 환경)에서 Point Navigation을 다루기 위해 ent-to-end 접근 방식을 사용하는 것이다. 기본 탐색 알고리즘은 Direct Future Prediction(DFP. 직접 미래 예측)으로, 컬러 이미지, 깊이 맵, 가장 최근의 4가지 관찰로부터의 동작과 같은 관련 입력이 적절한 신경망(ex. 감각 입력에 대한 컨볼루션 네트워크)에 의해 처리되고 연결되어 2-스트림 네트워크에 전달된다. 출력은 모든 동작과 미래의 시간 단계에 대한 미래 측정 예측이다.

또한, 미래 예측에 중간 지도와 같은 표현을 도입하여 DFP의 블랙박스 정책을 더 해석할 수 있도록 하기 위한 Belief DFP를 소개한다. 이것은 신경망의 주의 메커니즘과 강화 학습의 후속 표현과 기능에서 영감을 받았다. 실험에 따르면 대부분의 경우에서 BDFP가 DFP를 능가하며, 고전적 탐색법은 일반적으로 RGB-D 입력을 받는 학습 기반 접근법보다 성능이 뛰어나다. 그리고 보다 모듈화된 접근 방식을 제공한다. Point Navigation을 위해 SplitNet의 아키텍처는 서로 다른 보조 작업(ex. egomotion 예측)과 정책을 위한 하나의 시각적 encoder와 여러 개의 decoder로 구성된다. 이러한 decoder는 의미 있는 표현을 배우는 것을 목표로 한다. 동일한 PPO 알고리즘과 행동 복제 훈련을 통해 SplitNet은 이전에 볼 수 없었던 환경에서 유사한 end-to-end 방법을 능가할 수 있다.

또 다른 연구는 실내 환경에서 simultaneous mapping(동시 매핑) 및 target-driven navigation(대상 기반 탐색)을 위한 모듈식 아키텍처를 제시한다. 본 연구에서 저자는 semantically-informed(의미론적 정보) 기능을 갖춘 2.5D 메모리에 Navigation 정책을 위한 LSTM을 훈련시키기 위해 MapNet을 기반으로 한다. 그들은 이 방법이 이전에 보이지 않았던 환경에서 지도 없이 학습된 LSTM 정책을 능가한다는 것을 보여준다.

2019년 Habitat Challenge의 도입과 표준화된 평가, 데이터셋, 센서 설정으로 인해 최근의 접근 방식은 Habitat Challenge 2019로 평가되었다. 첫 번째 작업은 Habitat 뒤의 팀에서 비롯되었으며 PPO 알고리즘, actor-critic(배우-비평가) 모델 구조, 시각적 입력을 위한 임베딩을 생산하기 위해 CNN을 사용한다. 후속 연구는 시뮬레이션에서 보이지 않는 환경에서의 GPS, 나침반, 거대한 학습 단계(Habitat의 첫 번째 7500만 단계로 이루어진 PPO 작업과 비교하여 25억 단계)를 가진 Agent의 Point Navigation Task에 대해 거의 완벽한 결과를 얻을 수 있다는 '존재 증명'을 제공한다. 특히, 최상의 Agent 성능은 최단 경로 oracle의 3-5% 이내이다. 본 연구는 자원 집약적 시뮬레이션 환경, 즉 Decentralized Distributed Proximal Policy Optimization(분산형 PPO. DD-PPO)에서 분산 강화 학습에 적합한 일반화된 Advantage Estimation(이점 추정) 알고리즘과 함께 수정된 PPO를 사용한다. 매 시간 단계마다 Agent는 자기중심적 관찰(깊이, RGB)을 수신하고 CNN과 함께 임베딩을 얻은 다음 GPS와 나침반을 사용하여 목표 위치를 현재 위치와 비교하여 업데이트하고 최종적으로 다음 동작과 값 함수의 추정치를 출력한다. 실험은 오랫동안 Agent가 지속적으로 개선되고 있으며, 결과는 최단 경로 oracle과 거의 일치한다.

다음 작업은 보조 Task를 통해 샘플 및 시간 효율성을 증가시킴으로써 자원 집약적인 작업을 개선하는 것을 목표로 한다. 이전 작업과 동일한 DD-PPO baseline 아키텍처를 사용하여 행동 조건부 대조 예측 코딩(CPC-A. actionconditional contrastive predictive coding), inverse-dynamics, 시간 거리 추정(temporal distance estimation)의 3가지 보조 작업을 추가한다. 저자들은 표현을 결합하는 다양한 방법들을 실험한다. 4,000만 프레임에서 가장 성능이 뛰어난 Agent는 이전 작업과 동일한 성과를 5.5배 더 빠르게 달성하고 성능까지 개선했다. RGB와 RGBD 트랙 모두에 대한 Habitat Challenge 2019의 우승자는 end-to-end 학습 기반 접근법이 계산 비용이 많이 들기 때문에 고전적 접근법과 학습 기반 접근법을 모두 결합한 hybrid 솔루션을 제공한다. 이 작업은 모듈식 학습을 '고전적 탐색 파이프라인'에 통합하여 저수준 Navigation에서 장애물 회피 및 제어에 대한 지식을 암묵적으로 통합한다. 아키텍처는 학습된 신경 SLAM 모듈, 글로벌 정책, 로컬 정책, 분석 path-planner로 구성된다. 신경 SLAM 모듈은 관찰, 센서를 이용하여 지도와 Agent 포즈 추정치를 예측한다. 글로벌 정책은 항상 목표 좌표를 장기 목표로 출력하며, 이는 분석 path-planner를 사용하여 단기 목표로 변환된다. 마지막으로, 로컬 정책은 이 단기 목표를 향해 나아가도록 훈련된다. 모듈식 설계 및 분석 계획 사용은 교육 중 검색 공간을 줄이는 데 큰 도움이 된다.

Point Navigation

Visual Navigation에서 가장 기초적이고 인기 있는 Task.
Agent는 특정 포인트에서 특정 고정(fixed) 거리 내의 임의의 위치로 이동
원점(0, 0, 0) 초기화. 고정 목표점은 원점을 기준으로 3D 좌표(x, y, z) 지정
인공 Agent는 다양한 범위의 skillsets을 이용해 Task를 성공적으로 완수시켜야 함
Agent는 GPS, 나침반, 목표 위치에 대한 방향성을 가짐 → 최근에는 GPS, 나침반 없는 RGBD 기반 더 어려운 Task로 이동하는 추세
대상의 상대적 목표 좌표는 2가지로 구성
- 정적: 에피소드 시작시 한 번만 제공됨
- 동적: 모든 시간 단계에서 제공됨

Point Navigation의 학습 기반 접근법

1) end-to-end 접근 방식 (계산 비용이 많이 듬)

감각(sensory) 입력이 다른 현실적 자율 탐색 설정에서 Point Navigation을 다루기 위함

Direct Future Prediction(DFP. 직접 미래 예측): 기본 탐색 알고리즘. 입력(관찰로부터의 동작 등)이 적절한 신경망에 의해 처리, 연결되어 2-스트림 네트워크에 전달. (출력은 미래 예측)
Belief DFP(BDFP): 미래 예측에 중간 지도와 같은 표현을 도입하여 DFP 블랙박스 정책을 더 개선함. (DFP 보다 더 좋은 성능)

Point Navigation의 고전적 접근법

일반적으로 RGB-D 입력을 받는 학습 기반 접근법보다 성능이 뛰어나고 모듈화된 접근 방식을 제공한다.

1) SplitNet의 아키텍처

서로 다른 보조 작업과 정책을 위한 (시각적) 1개의 인코더, 여러 개의 디코더로 구성.

디코더의 목표: 의미 있는 표현을 배우는 것
동일한 PPO 알고리즘, 행동 복제 훈련 → 탐색되지 않은 환경에서 end-to-end를 능가함

* SplitNet: 분할 인식 신경 아키텍처 검색 프레임워크

2) 모듈식 아키텍처

실내 환경에서 동시 매핑, 대상 기반 탐색을 위한 아키텍처. 의미론적 정보 기능을 갖추고 LSTM 훈련을 위해 MapNet을 기반으로 함 (탐색되지 않은 환경에서 지도 없이 학습된 LSTM을 능가함)

Habitat Challenge, 2019.

연구 1)

CNN의 사용: PPO 알고리즘, actor-critic(배우-비평가) 모델 구조, 시각적 입력을 위한 임베딩 생산 위함

연구 2)

'존재 증명': 탐색되지 않은 환경에서의 GPS, 나침반, 거대한 학습 단계를 가진 Agent의 포인트 탐색 Task에 대해 거의 완벽한 결과를 얻을 수 있다.
매 시간 단계마다 Agent는 자기중심적 관찰(RGB-D)를 수신하고 CNN과 함께 임베딩을 얻은 다음 GPS, 나침반을 사용하여 목표 위치를 현재 위치와 비교하여 업데이트한다.
최종적으로 다음 동작과 추정치를 출력한다. → 결과는 최단 경로 oracle과 거의 일치함

연구 3)

목표: 보조 Task를 통해 샘플과 시간의 효율성을 증가시킴 → 자원 집약적 작업을 개선

DD-PPO baseline 아키텍처를 사용하여 3가지 보조 작업(CPC-A, inverse-dynamics, temporal distance estimation)을 추가한다. → 4,000만 프레임에서 이전 작업과 동일한 성과를 5.5배 더 빠르게 달성하고 성능 향상

hybrid 솔루션 (고전적 접근법 + 학습 기반 접근법) 아키텍처 → 모듈식 설계와 분석 계획 사용 : 검색 공간을 줄이는 데 큰 도움

신경 SLAM 모듈: 관찰, 센서를 이용하여 지도와 Agent 포즈 추정치를 예측
글로벌 정책: 항상 목표 좌표를 장기 목표로 출력
분석 path-planner: 글로벌 정책의 장기 목표를 단기 목표로 변환
로컬 정책: 단기 목표를 향해 나아가도록 훈련

Object Navigation.

Object Navigation은 가장 간단한 작업 중 하나이지만, Embodied AI에서 가장 어려운 작업이기도 하다. Object Navigation은 탐색되지 않은 환경에서 레이블(label)에 의해 지정된 객체로 탐색하는 기본적인 아이디어에 초점을 맞춘다. Agent는 임의의 위치에서 초기화되며 해당 환경에서 Object 범주의 인스턴스를 찾는 작업을 수행한다. Object Navigation은 일반적으로 Point Navigation보다 복잡하다. 왜냐하면 시각적 인식이나 에피소드적 기억 구성과 같이 많은 동일한 skillsets뿐만 아니라 의미론적(semantic) 이해도 필요하기 때문이다. 이러한 요소들이 Object Navigation Task를 훨씬 더 어렵게 만들지만 해결할 가치가 있다.

Object Navigation Task는 적응(adapting)을 통해 시연하거나 학습할 수 있으며, 이는 직접적인 감독 없이 환경에서 탐색하는 것을 일반화하는 데 도움이 된다. 이 작업은 Agent가 효과적인 탐색을 장려하는 데 도움이 되는 자체 감독 상호작용 손실(self-supervised interaction loss)을 학습함에 따라 메타 강화 학습 접근법(meta-reinforcement learning approach)을 통해 완수한다. Agent가 추론 중에 학습 모델을 동결하는 기존의 Navigation 접근 방식과 달리, Agent는 자체 감독 방식으로 자신을 적응시키고 이후의 실수를 조정 또는 수정할 수 있다. 이 접근법은 Agent가 자각(realizing)하기 전에 너무 많은 실수를 하지 않도록 방지하고 필요한 수정을 한다. 또 다른 방법은 탐색 계획을 실행하기 전에 객체 간의 관계를 학습하는 것이다. 이 작업은 외부의 사전 지식으로부터가 아니라, Visual Exploration 단계에서 구축된 지식 그래프인 객체 관계 그래프(ORG)로부터 구현(implements)된다. 이 그래프는 범주 근접성 및 공간 상관 관계와 같은 객체 관계성(object relationships)으로 구성된다.

Object Navigation

가장 간단한 작업이자, 가장 어려운 작업. 탐색되지 않은 환경에서 label에 의해 지정된 객체로 탐색하는 기본적 아이디어에 초점.

Agent: 임의의 위치에서 초기화. 해당 환경에서 Object 범주의 인스턴스를 찾는 작업을 수행
Object Navigation은 Point Navigation보다 복잡함: 많은 skillsets에 의미론적 이해가 동시에 필요하기 때문

Object Navigation Task

적응(adapting)을 통해 시연하거나 학습 → 직접적인 감독 없이 환경에서 탐색한 것을 일반화 가능

자체 감독 상호작용 손실(self-supervised interaction loss): Agent가 자체 감독 방식으로 자신을 적응시키고 이후의 실수를 조정함. Agent가 자각하기 전에 너무 많은 실수를 하지 않도록 방지하고 수정 가능 → 메타 강화 학습 접근법(meta-reinforcement learning approach)
탐색 계획 실행 전 객체 간 관계 학습: 외부의 사전 지식이 아닌 Visual Exploration 단계의 객체 관계 그래프(ORG)로부터 구현.

* ORG는 범주 근접성 및 공간 상관 관계와 같은 객체 관계성(object relationships)으로 구성

728x90

저작자표시 (새창열림)

'🤖 AI' 카테고리의 다른 글

[Cursor] 웹 개발에 유용한 MCP 적용 방법 (Browser tools) (0)	2025.09.24
[STT/Kaldi] 발음사전(Lexicon), 언어모델(LM)이란? (0)	2025.06.11
[ASR] Kaldi란? (0)	2025.03.17
A Survey of Embodied AI: From Simulators to Research Tasks 논문 정리 - (1) (0)	2022.07.12

'🤖 AI' 카테고리의 다른 글

티스토리툴바