GPT-4의 아키텍쳐가 Mixture of Experts (MoE) 구조를 갖고 있다는 얘기가 퍼져 있었다. 여기 말대로 느슨한 (Loosely connected, 또는 Sparse) 한 전문가들의 연합으로 Monolithic 구조보다 더 나은, 더 효과적인 인공지능에 다가설 수 있을 것이라는 생각은 정말 오래 되었다. 내 대학원 당시에도 그랬다. 이는 지구에 있는 모든 고등 생명체의 지적 활동이 MoE 구조를 갖는 프로세서에 기반하는 사실에서도 감을 잡을 수 있었다. 문제는 늘, 어떤 전문가들이 어떤 경우에 필요하고, 이들을 어떻게 얻나 (개별 훈련, 함께 훈련)? 전문가들의 전문성/독립성 대비 compliance 특성을 어떻게 가져가야 하나? 이들을 어떻게 coordinate 해야 하나? 등등. 전혀..