XorSHAP: 의사결정 트리 모델을 위한 개인정보 보호형 설명 가능한 AI

게재 매체: Input Output Global (IOG) / Arcium

초록

설명 가능한 AI(XAI)란 인간이 AI 시스템과 머신러닝 모델의 예측, 결정 및 산출물을 이해하고 해석하며 신뢰할 수 있도록 이러한 시스템을 개발하는 것을 의미합니다. 설명 가능성에 대한 일반적인 접근 방식 중 하나는 ‘특징 중요도’로, 모델의 예측에 가장 큰 영향을 미치는 입력 특징을 파악하는 것입니다. 특성 중요도를 계산하는 두 가지 주요 기법은 LIME(Local Interpretable Model-agnostic Explanations)과 SHAP(SHapley Additive exPlanations)입니다. 이 방법들은 매우 범용적이지만, 데이터가 암호화되지 않은 경우에도 계산 비용이 많이 듭니다. 따라서 입력 데이터의 일부 또는 전부가 비공개인 개인정보 보호 환경에서 이를 적용하는 것은 큰 계산적 과제입니다. 본 논문에서는 의사결정 트리 앙상블 모델에 대한 SHAP 값을 계산하는 최초의 실용적인 데이터-무관(data-oblivious) 알고리즘인 XorSHAP을 제시한다. 이 알고리즘은 SMPC, FHE 및 차등 프라이버시와 같은 다양한 프라이버시 보호 환경에서 적용 가능하다. 본 알고리즘의 계산 복잡도는 O(TMDe 2D)이며, 여기서 T는 앙상블 내 의사결정 나무의 수, D는 의사결정 나무의 깊이, Me는 특징 수 M과 2D(나무의 잎 노드 수) 중 더 큰 값을 의미하며, 실제 데이터셋에 적용 가능합니다. 우리는 Inpher의 Manticore 프레임워크를 사용하여 완전 임계값(full threshold) 방식의 반정직(semi-honest) 보안 다자간 계산(SMPC) 환경에서 이 알고리즘을 구현했다. 본 구현은 깊이 D = 4, 특징 수 M = 100인 T = 60그루의 의사결정 나무 앙상블에 대해 100개의 샘플에 대한 SHAP 값을 단 7.5분 만에 동시에 계산하며, 이는 동일한 의사결정 나무 앙상블 모델에서 단일 예측에 대한 SHAP 값이 단 4.5초 만에 계산됨을 의미합니다. 또한, 이 구현은 병렬 처리에 적합하여 향후 GPU를 활용한 대규모 하드웨어 가속 연구가 가능하도록 합니다.

키워드

설명 가능한 AI · 모델 설명성 · 그라디언트 부스팅 의사결정 트리 · SHAP 값 · 보안 다자간 계산