강화학습으로 공정 운전 조건 자동 제어 실습 강화학습은 실제 상황을 environment로 정의하고, 정의한 environment에 따라 직접 episode를 만들어 학습하기 때문에 게임과 같은 상황에 많이 사용된다. 게임은 현재 상황이 성공이지 실패인지, 다음 action은 어떤걸 취할 수 있는지, ~상황에서 ~action을 취하면 다음은 어떤 상황이 될 지 등 모든 environment 정의를 개발자가 직접 하면된다. 즉, simulation 할 수 있는 모든 가상의 상황을 정의할 수 있다. 그러나, 화학공정과 같은 상황에서는 모든 random한 상황에 대해 결과가 어떨지 직접 실험해보기는 불가능에 가깝다. 따라서 본 포스팅은 이러한 공정 운전 조건 최적화에 강화학습을 어떻게 적용하는지 알아보고자 한..