← Back to Problem Bank

1. 문제 (Problem)

GNN 설명(GNN Explanation) 은 GNN이 특정 예측을 내린 근거를 사람이 이해할 수 있는 형태로 제시하는 문제이다. 신약 개발, 의료 진단, 프로그램 분석, 사기 탐지 등 의사결정이 중요한 도메인에서 GNN을 실제로 배치하기 위한 전제 조건이다.

지금까지 제안된 대부분의 GNN 설명 기법은 subgraph(부분 그래프) 또는 subgraph 위의 가중치(edge/feature mask) 를 설명의 단위로 사용한다.

그러나 subgraph/edge mask를 설명 언어로 사용하는 접근법은 다음과 같은 근본적 한계를 가진다.

최근 PL4XGL [Jeon, Park, Oh, PLDI 2024]과 ProgNet [Anonymous, KDD’26 under review]이 GDL(Graph Description Language) 을 분류의 근거 언어로 도입하였다. GDL program은 node x <φ> / edge (x,y) <φ> / target 으로 구성되며 feature 값을 interval(구간) 로 기술하는 declarative 패턴 언어이고, subgraph보다 엄격히 더 표현력이 강하다. 특히 PL4XGL은 구조적으로 Fidelity = 0 을 보장한다 (Theorem 6.1).

그러나 두 연구 모두 GDL을 특정 모델 구조에 내장하여 사용한다. 즉 임의의 사전 학습된 GNN을 그대로 두고 GDL을 설명 언어로 덧씌우는 model-agnostic 프레임워크는 부재하다. PL4XGL 저자들은 §8에서 “GDL can be employed in ... GNN explanation techniques” 라고 이 방향을 직접적으로 제안하였으나, 실제로 구현한 연구는 아직 없다.

2. 목표 (Goal)

Subgraph 대신 GDL program을 설명의 단위로 사용하는 GNN explanation 프레임워크를 개발한다.

3. 기본 접근 방법 (Basic Approach)

(1) 설명 언어로서의 GDL

(2) Post-hoc GDL Explainer

사전 학습된 임의의 GNN f와 입력 그래프 G가 주어졌을 때:

  1. Candidate program 생성: G를 기반으로 후보 GDL program 집합 PG 생성. PL4XGL의 top-down(specialize) / bottom-up(generalize) program synthesis를 재사용
  2. Program scoring: 각 program P에 대해 GNN 예측 기여도 s(P) 계산 — GNNExplainer 스타일의 mutual information, PGExplainer 스타일의 parameterized scorer, 또는 SubgraphX 스타일의 Shapley value를 GDL 공간으로 확장
  3. Program selection: f(G)의 예측을 유지하는 최소의 program 집합을 선택 (e.g., Fidelity(−) 최소화)
  4. Instance grounding: 선택된 program들을 만족시키는 concrete subgraph G' ⊆ G를 iterative refinement로 추출

(3) Intrinsic GDL Rationale

학습 과정에 GDL 기반 rationale을 내재화하는 방법:

(4) Global Explanation via GDL Vocabulary

(5) Counterfactual GDL Explanation

(6) 평가 프로토콜

4. 후보 벤치마크 (Candidate Benchmarks)

실세계 분자 그래프

합성 벤치마크 (ground-truth motif가 명시된 설명 전용)

Heterophilic / 표현력 한계 스트레스 테스트

프로그램 분석 / 보안

사기 / 금융

Explanation 평가 전용 벤치마크 스위트

5. 후보 베이스라인 (Candidate Baselines)

5.1 Post-hoc: Mask / Perturbation 기반

5.2 Post-hoc: Search / Game-Theoretic 기반

5.3 Post-hoc: Surrogate / Probabilistic 기반

5.4 Post-hoc: Generative / RL 기반

5.5 Counterfactual Explanation

5.6 Intrinsic / Rationale-Based

5.7 Global Explanation

5.8 Concept-Based

5.9 Symbolic / Program-Based (GDL과 가장 밀접)

5.10 평가 프로토콜 관련

5.11 Survey

평가 지표


연구 지형 요약 (Research Landscape Summary)

대표 연구한계
Post-hoc subgraph/maskGNNExplainer, PGExplainer, SubgraphX, GraphMaskinstance-level, interval 불가, 불안정
Intrinsic rationaleGSAT, GIB, DIR, ProtGNNsubgraph/edge 기반, dataset-level 재사용 어려움
Global explanationXGNN, GNNInterpreter, GCFExplainer생성된 graph가 데이터 분포와 분리됨
CounterfactualCF-GNNExplainer, RCExplainer, CLEAR여전히 edge-level, interval 설명 부재
Symbolic / program-basedPL4XGL, ProgNetmodel-agnostic post-hoc 프레임워크 부재

GDL 기반 GNN explanation은 interval-aware 설명 언어의 표현력과 dataset-level 재사용성을 모두 확보하면서도, 임의의 사전 학습 GNN에 적용 가능한 post-hoc 프레임워크 영역을 메운다.

GDL 확장 방향 (Open Problems)