변경
위치

현재 영어 토토배팅사이트 추천를 사용하고 있습니다.

깊은 강화 학습 및 베이지안 최적화를 가진 토토배팅사이트 추천 라인의 정체 제어

Takahashi Kengo, Shikayama Hiroyuki

PDF 다운로드

Takahashi Kengo: 전기 및 제어 설계 그룹, 프로젝트 부서, 물류 시스템 사업부, IHI 물류 및 기계 공사
Shikayama hiroyuki: Manager, Electrical & Control Design Group, Project Department, Logistics System Business Unit, IHI Logistics & Machinery Corporation

토토배팅사이트 추천 라인에 대한 정체 제어의 특성은 전형적인 제어 이론으로 제어를 처리하기가 어렵습니다. 이 연구에서 우리는 깊은 강화 학습을 베이지안 최적화와 결합하여 매개 변수를 최적화하는 방법을 결합하여이를 해결했습니다. 우리의 방법으로 훈련 된 에이전트는 토토배팅사이트 추천 라인의 혼잡을 성공적으로 제어하고 고전적인 PI 제어보다 성능이 우수했습니다. 디자이너에 덜 의존하는이 방법은 고객에게 개인 시간 감소 및 리드 타임 및 장비의 에너지 효율 향상과 같은 부가 가치를 고객에게 제공 할 것으로 예상됩니다.

1. 소개

1950 년대에 구성된 고전적인 통제 이론은 오늘날에도 여전히 산업 장비 운영에 대한 주요 접근법입니다. PID (비례 적분 차동) 제어는 고전적인 제어 이론 중에서 가장 일반적으로 사용되는 피드백 제어 유형 중 하나이며 현재 출력 값과 타임 값 및 시간 내성성의 차이에 기초하여 입력 값을 결정하는 제어 방법입니다. 이 방법은 매개 변수의 명확한 의미로 쉽게 처리 할 수 ​​있지만 입력 값을 결정하기 위해서는 제어 설계자는 시행 착오로 배우거나 경험과 직관에 따라 문제에 대한 이해를 심화시켜야합니다. 또한 PID 제어는 특정 유형의 문제에도 적용하기가 어렵습니다.

그러한 문제 중 하나는 물류 시스템의 토토배팅사이트 추천 라인에 대한 공작물 정체 제어입니다. 토토배팅사이트 추천 라인의 정체는 "Drop"이벤트를 일으키며, 이는 새로운 공작물의 로딩을 방해합니다 (자세한 내용은 섹션 2.1 참조). 드롭은 주로 운송 효율이 줄어들 기 때문에 방울을 피해야하지만 스스로 제어함으로써 쉽게 방지 할 수 없습니다. 예를 들어, 후속 제어가 사용될 때, 붕괴가 발생한 후 방울을 방지하기 위해 제어가 작동하므로 원칙적으로 낙하를 피할 수 없기 때문입니다. 따라서 토토배팅사이트 추천 라인의 혼잡을 피하기 위해서는 방울을 유발하는 요인이 되려면 워크 피스가 어떻게 분포되는지 제어해야합니다. 그러나 고전적인 통제 이론을 사용하면 이러한 분포를 직접 처리하기가 어렵습니다. 예를 들어, 이전에 관련된 PID 제어를 사용하면 현재 출력 값과 목표 값의 차이를 얻을 필요가 있지만 분포의 차이는 쉽게 정의 될 수 없습니다. 또한 대상 분포 자체가 항상 미리 알려진 것은 아닙니다.
이 연구에서 우리는 깊은 강화 학습을 결합하여 인간의 개입이 거의없는 토토배팅사이트 추천 라인을 제어하기위한 최적화 작업을 수행했으며, 이는 강화 학습에 딥 러닝을 적용하고 최적화 방법 인 베이지안 최적화를 적용합니다. 심층 강화 학습에 사용되는 신경망은 토토배팅사이트 추천 라인에서 직접 분포를 직접 처리 할 수 ​​있으며, 베이지안 최적화와 결합 할 때 설계자에 의존하는 제어 로직 생성을 가능하게합니다.

IHI Logistics & Machinery Corporation은 로봇으로 작업 및 구색의 자동화 및 구색의 자동화를 포함하여 고객 장비의 간소화, 자동화 및 노동 저축에 기여하는 개발에 참여해 왔습니다. 이 연구는 그러한 개발의 일부를 구성하며, 개인 시간을 줄이고 리드 타임을 줄이고 에너지 효율성이 높은 운영 장비를 포함하여 심층 강화 학습의 기능을 활용하여 고객에게 부가 가치를 제공하는 것을 목표로합니다.

2. 구현 방법

2.1 토토배팅사이트 추천 라인 모델

그림 1토토배팅사이트 추천 라인 모델과 작업장 운송의 예를 보여줍니다. 이 연구에서는그림. 1- (a)시뮬레이션에서 구성됩니다. 한 줄로 배열 된 사각형 (단위)은 개별 워크 피스의 정지 위치를 나타내고 인접 유닛의 중심 사이의 거리는 1m임을 나타냅니다. 워크 피스는 특정 간격 t (들)의 로딩 포트에 하나씩 제공되며, 한 장치에서 다른 장치로 다운 스트림쪽으로 전달되며 가장 다운 스트림 위치에서 로봇에 의해 언로드됩니다. 여러 워크 피스를 동시에 한 단위로 넣을 수 없습니다. 컬러 유닛 4와 12는 매번 60 초를 계산하기 시작합니다.4, l12워크 피스가 전달됩니다. 60 초가 계산 된 후 장치가 비워지면 장치는 시간 길이가 m의 유지 보수 상태로 전환됩니다.4, m12 (s). 작업장이 유지 보수 상태로 전환 된 유닛으로 전달되지 않습니다.

그림 1- (b)공작물 운송의 시간 이력의 예를 보여줍니다. 그림에서 볼 수 있듯이 단위가 유지 상태로 전환되면 워크 피스의 운송은 장치의 상류 측에서 멈추어 혼잡을 일으 킵니다. 혼잡이 가장 상류 위치에 도달하면 로딩 포트의 장치가 점유되며 새로운 워크 피스를 공급할 수 없습니다. 이 연구에서 그러한 사건은 "드롭"이라고합니다.
직장 운송 시간의 역사에 표시그림. 1- (b)그림. 1- (C). 수평 축은 토토배팅사이트 추천 라인의 단위 번호를 나타내고 세로 축은 위에서 아래로의 시간 흐름을 나타냅니다.

토토배팅토토배팅사이트 추천 추천
그림. 1 토토배팅사이트 추천 라인 모델과 직장 운송의 예

각 장치는 속도로 작동하도록 지시받을 수 있습니다 ν(m/s)0 ~ νmax. 방정식에 표시된대로 시간 TF(S)0) (각 장치)에 따라 결정됩니다.

토토배팅토토배팅사이트 추천 추천

이 연구에 사용 된 모델에서 토토배팅사이트 추천 라인은 대략 3 개의 제어 블록으로 나뉩니다 (그림. 1- (a)) 및 동일한 블록에 속하는 장치는 동일한 속도로 작동하도록 지시받습니다. 이것은 모든 제어 블록을 제어하기 위해 세 가지 다른 명령 속도 만 필요하다는 것을 의미합니다.

드롭을 방지하기위한 가장 간단한 제어 측정은 최대 전송 속도로 모든 장치를 작동하는 것입니다. 그러나이 경우 토토배팅사이트 추천 라인에 정체가 없을 때에도 장치는 최대 속도로 작동합니다. 필요한 것보다 높은 속도로 운송하면 에너지가 낭비되며 워크 피스에 손상 될 위험이 있습니다. 따라서이 연구는 운송 속도를 줄이면서 토토배팅사이트 추천 라인의 하락을 최소화하는 것을 목표로합니다.

2.2 깊은 강화 학습

2.2.1 개요

특정 환경에는 에이전트가 있습니다. 에이전트는 환경 상태에 따라 행동을 결정할 수 있으며 환경은 에이전트에게 행동의 결과에 따라 보상이라는 값을 제공합니다. 강화 학습은 그러한 프레임 워크에서 문제를 처리 할 때 에이전트가 총 보상을 극대화하기 위해 어떤 조치를 취해야하는지 고려하는 기계 학습 방법입니다.
Q- 러닝은 강화 학습을위한 대표적인 알고리즘입니다. Q- 러닝의 목적은 환경 상태와 대리인의 행동의 모든 조합에 대한 예상 반환 값 (최상의 조치를 취할 때)을 얻는 것입니다. 이 절차는 각각 환경 상태와 대리인의 행동을 나타내는 열과 행이 각각 예상 값 표를 작성하는 것과 같습니다. 그러한 테이블을 얻을 수 있으면 상태가 모델에 주어질 때마다 해당 상태에 해당하는 열을 추적하고 가장 높은 예상 값으로 동작을 선택하여 최상의 조치를 얻을 수 있습니다.

그러나이 방법을 많은 환경 상태와 선택하는 조치에 문제에 적용하는 것은 어렵습니다. 이러한 문제를 처리하려면 많은 열과 행으로 구성된 테이블을 만들어야하지만 너무 큰 테이블은 컴퓨팅 (1)의 메모리 공간에 저장할 수 없기 때문입니다. 예를 들어, GO 게임의 경우, 이사회에는 거의 10172 개의 가능한 상태가 있다고합니다. 하나의 보드 상태를 하나의 바이트로 표현할 수 있더라도 테이블에 하나의 열을 만들려면 10160 TB의 메모리 공간이 필요합니다. 또한 상태와 행동이 지속적인 값으로 표시되는 문제에는 Q- 러닝을 적용 할 수 없습니다.

따라서, 뉴런 네트워크를 함수 근사치로 사용하는 방법은 최근 몇 년 동안 주목을 끌고 있습니다. 일반적으로 뉴런 네트워크를 사용하면 복잡한 기능이 간단한 구조 (범용 근사법 정리)로 근사화 될 수 있습니다. 이 장점을 사용하여 이러한 방법은 상태와 행동을 기반으로 예상 값을 출력하는 함수를 대략 얻고 환경 상태에 따라 직접 최적의 동작을 출력하여 예상 값을 얻는 프로세스를 생략 할 수있는 함수를 얻습니다. 이러한 방법은 테이블을 만들지 않고 문제를 처리 할 수 ​​있으며 큰 메모리 공간이 필요하지 않습니다. 또한, 그들은 지속적인 값으로 표현되는 상태와 행동을 처리 할 수 ​​있습니다. 신경망을 사용하는 많은 방법은 Q- 러닝보다 계산 시간 측면에서 더 유리합니다. 이는 역 전파 및 일반 목적 GPU (그래픽 처리 장치)를 사용하여 기능을 근사화하기위한 최적의 매개 변수를 효과적으로 얻을 수 있기 때문입니다. 특히, 신경망 (딥 러닝)을 강화 학습에 통합하는 방법을 깊은 강화 학습이라고합니다.

2.2.2 물류 전송 문제 신청

2.2.1 항에 설명 된 바와 같이, 강화 학습을 통해 문제를 처리하려면 환경과 그 상태, 대리인 및 그 행동 및 보상 계산 방법을 정의해야합니다. 이 연구에서는 다음과 같이 정의됩니다.

(1) 환경과 상태

환경을 정의하기 위해 섹션 2.1에 설명 된 토토배팅사이트 추천 라인 모델이 사용됩니다. 표 1은 토토배팅사이트 추천 라인 모델의 매개 변수를 보여줍니다. 환경 상태는 다음 요소로 구성된 19 차원 벡터로 정의됩니다.
- 토토배팅사이트 추천 라인의 단위 1 ~ 13의 존재 플래그
- 단위 4 및 12의 카운트 다운 값
- 단위 4 및 12
- 단원 4 또는 12가 유지 보수 상태에 있는지 여부를 나타내는 플래그

토토배팅토토배팅사이트 추천 추천

(2) 에이전트 및 그 행동

이 연구에서 PPO (근위 정책 최적화) (3)는 에이전트의 최적화 알고리즘으로 채택됩니다. 이 방법으로 에이전트는 두 개의 신경망, 중요한 네트워크와 액터 네트워크를 가지고 있으며 간단하게 최적화하기 위해 노력합니다.
이 네트워크는 위에서 언급 한 상태 벡터를 입력으로 수신합니다. 임계 네트워크는 추정 반환 값을 출력으로 보냅니다. Actor Network는 세 가지 다른 속도 명령 값을 제어 블록 1에서 3으로 보냅니다. 추정 된 반환 값은 나중에 네트워크 매개 변수를 업데이트하는 데 사용됩니다. 이 속도 지침 값은 에이전트에서 환경으로 전달 된 조치에 해당합니다.

(3) 보상 계산 방법

작업장이 특정 시점에서 가장 다운 스트림 위치로 전달되는지 여부에 따라 1 또는 0을 차지하는 변수, 캐치, 캐치, 캐치, 직장 드롭이 XT, 드롭이며 I -TH 단위에 주어진 속도 명령어가 νt, I = 1 13)인지를 나타냅니다. 시간 t에서의 보상 RT는 식 (2)에 의해 정의됩니다.

토토배팅사이트 추천

0)는 하이퍼 파라미터입니다.

보상은 다음과 같은 이유로 위와 같이 설계되었습니다. 방정식의 첫 번째 용어는 직장을 운반 할 수있을 때마다 주어진 긍정적 인 보상을 나타내며,이 연구에서 생성 된 토토배팅사이트 추천 라인 모델이 토토배팅사이트 추천 라인으로 올바르게 작용하도록하는 데 필요합니다. 이 연구는 방울 수를 최소화하고 동시에 작동 속도 (에너지 소비)를 줄이는 제어를 개발하기위한 것입니다. 이 목적을 위해, 두 번째 용어는 낙하가 발생할 때마다 부정적인 보상을 제공하고, 세 번째 용어는 작동 속도가 증가함에 따라 더 큰 부정적인 보상을 제공합니다.

2.2.3 학습 프로세스 흐름

그림 2토토배팅사이트 추천 라인에서 깊은 강화 학습의 흐름도입니다.

먼저, 에이전트와 토토배팅사이트 추천 라인 모델의 신경망이 적절하게 초기화됩니다. 그런 다음 토토배팅사이트 추천 라인의 초기 상태가 에이전트에게 제공되며, 수신 된 정보를 기반으로, 에이전트는 신경 네트워크와 함께 추정 된 반환 값 및 속도 지침 값을 계산합니다. 속도 명령 값은 동작으로 토토배팅사이트 추천 라인 모델로 전달됩니다. 이러한 값을 바탕으로 토토배팅사이트 추천 라인 모델은 단위 시간이 통과 된 후 상태를 계산 한 다음 상태의 변화에 ​​참여하는 보상을 계산합니다. 계산 된 상태와 보상은 에이전트에게 반환됩니다.

이 트랜잭션이 일정 횟수로 반복 될 때마다 PPO 알고리즘에 따라 Critical 및 Actor Network 매개 변수가 업데이트됩니다. 이 절차는 최적의 네트워크를 얻을 때까지 반복됩니다.

토토배팅사이트 추천
그림. 토토배팅사이트 추천 리넬에 대한 깊은 강화 학습 과정의 2 개략도

2.2.4 평가

훈련 된 에이전트는 토토배팅사이트 추천 라인 모델이 시뮬레이션에 의해 1 시간 동안 작동되는 경우 드롭 수와 평균 최대 속도 값 ū에 따라 평가됩니다. 평균 최대 속도 값 ū는 방정식으로 정의됩니다(3)아래.

토토배팅사이트 추천

15573_15914
방울의 수는 가능한 한 작아야하며, 동일한 수의 방울이 발생하는 에이전트가 있으면 평균 최대 속도가 낮은 부분에서 작동하는 컨트롤러가 우수합니다.

2.3 베이지안 최적화

토토배팅사이트 추천 라인을 적절하게 작동 시키려면 방정식에서 보상 매개 변수 a, b 및 c를 적절하게 설정해야합니다. 한 가지 극단적 인 예는, 첫 번째 용어와 두 번째 항이 세 번째 용어보다 훨씬 크면, 속도를 최소화하여 에이전트가 얻을 수있는 보상은 매우 작고 에이전트가 훈련되어 각 장치가 항상 최대 속도로 작동하도록 지시 할 수 있다는 것입니다. 반대로, 세 번째 용어가 첫 번째 용어와 두 번째 용어보다 훨씬 크면, 워크 피스를 전달하거나 드롭의 수를 줄임으로써 얻은 보상은 속도를 높여서 발생하는 페널티 (부정적인 보상)보다 큽니다. 결과적으로 에이전트는 작업 피스를 전달하지 않기로 결정할 수 있습니다.

원하는 작업을 달성하는 데 필요한 a, b 및 c 값은 알려지지 않았으므로 많은 값을 시도해야합니다. 일반적으로 깊은 강화 학습은 많은 시간 비용이 필요하며 가능한 한 적은 시도로 좋은 매개 변수를 찾는 것이 바람직합니다.

따라서이 연구는 베이지안 최적화를 사용했는데, 이는 최적화 방법입니다. 베이지안 최적화를 통해 모양이 알려지지 않은 함수의 최대 값 (또는 최소값)을 효율적으로 얻을 수 있습니다. 예를 들어, 1 차원 함수 F (x)는 아래 (4)의 반복 계산에 의해 최적화됩니다.

  1. 먼저 x를 무작위로 결정합니다.
  2. 이전에 결정된 x의 경우 f (x) 값을 확인하고 (x, f (x)) 세트를 데이터로 유지합니다.
  3. 지금까지 얻은 데이터를 기반으로 f (x)의 모양을 예측하기위한 통계 모델 생성.
  4. 통계 모델을 사용하여 다음을 확인할 X를 결정하십시오.
  5. 단계 (2)로 돌아갑니다.

이 연구에서, 매개 변수는 a, b 및 c 및 함수 f (x)를“A, B 및 C로 깊은 강화 학습에 의해 얻은 에이전트의 성능으로 A, B 및 C를 특정 값으로 고정하여 위의 절차를 수행함으로써 결정되었다.

3. 결과

3.1 에이전트 훈련

그림 3에이전트의 전형적인 학습 곡선을 보여줍니다. 이 수치에서, 에이전트 훈련 단계의 수가 증가함에 따라 수익률이 증가함에 따라 에이전트 훈련의 안정적인 진행 상황을 보여줍니다.

그림. 3 학습 곡선

그림 4훈련되지 않은 에이전트와 훈련 된 대리인 간의 토토배팅사이트 추천 라인 제어를 비교합니다. 30 분 동안 공작물 운송의 시간 이력은 2 차원으로 표시됩니다. 훈련되지 않은 에이전트를 사용하면 워크 피스가 부드럽게 전달되지 않아 많은 방울이 발생했습니다. 훈련 된 에이전트를 사용하면 워크 피스가 부드럽게 전달되었고 방울이 발생하지 않았습니다.

그림. 4 학습 전 및 학습 후 에이전트에 의한 토토배팅사이트 추천 라인 제어 비교

그림 5훈련 된 에이전트의 지시 속도가 시간이 지남에 따라 어떻게 바뀌 었는지 보여줍니다. 경과 한 시간은 1 시간 동안 표시됩니다. 세 개의 그래프그림. 5-(a)to(c)컨트롤 블록 1에서 3에 해당하고 그래프의 회색 영역은 단원 4 또는 12에서 유지 보수가 진행되는 지속 시간을 나타냅니다.이 그래프는 에이전트가 정체가 발생할 때 유지 보수 전후에 명령 속도를 조정하여 효율적인 작업장 운송을 달성하면서 삭제를 피할 수 있습니다.

그림. 5 시간 의존적으로 훈련 된 에이전트가 제공 한 속도 순서 값의 변화

3.2 PI Control과 비교

깊은 강화 학습의 성능을 조사하기 위해 시간 파생물이없는 PID 제어 인 PI (비례 적분) 제어를 사용하여 토토배팅사이트 추천 라인 제어를 시뮬레이션했습니다. 이 시점에서, PI 제어는 점유율이 Clestio (5)에 대한 지식을 기반으로 한 제어 변수가되도록 구성되었습니다. 점유율이 50%를 초과 할 때 혼잡이 발생합니다.그림 6토토배팅사이트 추천 라인에 PI 컨트롤의 블록 다이어그램을 표시합니다.

PI 컨트롤을 사용하더라도 작업장 드롭은 완전히 제거 될 수 있지만 평균 최대 속도는 0.270m/s입니다. 깊은 강화 학습에 의해 훈련 된 에이전트의 경우, 평균 최대 속도는 0.257 m/s이며, 깊은 강화 학습은 운송 속도 측면에서 우수합니다.

그림. 토토배팅사이트 추천 라인에서 PI 제어의 6 블록 다이어그램

표 2훈련에 사용 된 것과 다른 환경 과이 방법과 PI 제어 사이의 성능 비교를 보여줍니다. 이것은 두 컨트롤러가 알려지지 않은 환경을 얼마나 많이 처리 할 수 ​​있는지 조사하기위한 것입니다. PI 제어와 비교하여 깊은 강화 학습을 통해 평균 최대 속도가 감소하여 평균 방울 수를 1/4.5로 성공적으로 감소시킬 수 있습니다. 이 결과는 심층 강화 학습과 PI 제어 사이의 매개 변동에 대한 견고성의 차이를 보여줍니다.

표 2 훈련에 사용되는 것과 다른 매개 변수 와이 방법과 PI 제어 간의 성능 비교*1

4. 결론

고전적인 제어 이론으로 처리 할 수없는 토토배팅사이트 추천 라인에서 혼잡 제어 문제를 해결하기 위해 깊은 강화 학습과 베이지안 최적화를 사용하여 드롭 수와 작동 속도를 최소화하는 제어 논리를 개발했습니다.

깊은 강화 학습을위한 알고리즘으로 PPO라는 메소드를 채택하고 매개 변수 조정을위한 베이지안 최적화를 사용하여 인간의 개입없이 안정적인 에이전트 훈련을 성공적으로 달성했습니다. 우리는 훈련 된 에이전트와 토토배팅사이트 추천 라인을 시뮬레이션했으며, 여기서 방울을 완전히 제거 할 수 있고 에너지 효율은 PI 제어에 의해 얻은 결과를 초과했습니다. 시뮬레이션은 또한 심층 강화 학습으로 얻은 컨트롤러가 환경의 변화에 ​​대해 더 강력하다는 것을 발견했습니다. 이것은이 방법을 사용하면 동일한 논리를 재사용 할 때 조정 매개 변수가 더 쉽다는 것을 암시합니다.

이 결과로 판단하면,이 방법은 고객 시간을 줄이고 리드 타임을 줄이고 장비의 에너지 효율성 향상과 같은 부가 가치를 고객에게 제공 할 것으로 예상됩니다.

깊은 강화 학습과 베이지안 최적화를 결합한이 연구에 사용 된 프레임 워크는 토토배팅사이트 추천 라인 문제 이외의 문제에 적용될 수 있으며 특히 고전적인 제어 이론으로 처리 할 수없는 문제에 대해 최적의 제어 논리를 제공 할 수 있습니다. 우리는이 연구에서 가능한 한 빨리 실제 장비로 얻은 성공적인 결과를 구현하고 고객의 가치를 극대화하는 데 중점을 둔 깊은 강화 학습 및 베이지안 최적화의 응용을 확장하는 것을 목표로합니다.

- 감사 -

우리는 여기 도쿄 대학의 고급 과학 기술 연구 센터 인 Katsuhiro Nishinari에게 감사를 표하고 싶습니다.

참조

  1. e. Nakai : IT 엔지니어를위한 강화 학습 이론 소개, Gijutsu-Hyoron Co., Ltd., 2020
  2. v. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M.G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski, S. Petersen, C. Beattie, A. Sadik, I. Antonoglou, H. King, D. Kumaran, D. Wierstra, S. Legg and D. Hassabis : Hassabis : Hassab : 학습, 자연, vol. 518, ISS. 7 540, 2015, pp. 529-533
  3. j. Schulman, F. Wolski, P. Dhariwal, A. Radford 및 O. Klimov : 근위 정책 최적화 알고리즘, https://arxiv.org/abs/1707.06347, 2021-8-23에 액세스
  4. b. Shahriari, K. Swersky, Z. Wang, R. P. Adams 및 N. de Freitas : 인간을 고복에서 벗어나게 : 베이지안 최적화에 대한 검토, IEEE의 절차, vol. 104, iss. 2016 년 1 월, pp. 148-175
  5. k. Nishinari : 혼잡 연구, Shinchosha, 2006