GDL 기반 GNN 설명 기법 (GDL-based GNN Explanation)

1. 문제 (Problem)

GNN 설명(GNN Explanation) 은 GNN이 특정 예측을 내린 근거를 사람이 이해할 수 있는 형태로 제시하는 문제이다. 신약 개발, 의료 진단, 프로그램 분석, 사기 탐지 등 의사결정이 중요한 도메인에서 GNN을 실제로 배치하기 위한 전제 조건이다.

지금까지 제안된 대부분의 GNN 설명 기법은 subgraph(부분 그래프) 또는 subgraph 위의 가중치(edge/feature mask) 를 설명의 단위로 사용한다.

그러나 subgraph/edge mask를 설명 언어로 사용하는 접근법은 다음과 같은 근본적 한계를 가진다.

최근 PL4XGL [Jeon, Park, Oh, PLDI 2024]과 ProgNet [Anonymous, KDD’26 under review]이 GDL(Graph Description Language) 을 분류의 근거 언어로 도입하였다. GDL program은 node x <φ> / edge (x,y) <φ> / target 으로 구성되며 feature 값을 interval(구간) 로 기술하는 declarative 패턴 언어이고, subgraph보다 엄격히 더 표현력이 강하다 [PL4XGL §7.2]. 특히 PL4XGL은 구조적으로 Fidelity = 0 을 보장한다 (Theorem 6.1): 분류가 program에 의해 직접 수행되므로, 그 program을 만족하는 subgraph로도 동일한 label 예측이 성립. 이는 post-hoc subgraph 설명이 도달하기 어려운 수준의 faithfulness이다.

그러나 두 연구 모두 GDL을 특정 모델 구조에 내장하여 사용한다. PL4XGL은 GNN을 아예 대체하는 symbolic 분류기 $M \subseteq L \times P \times [0,1]$ 이고, ProgNet은 GDL vocabulary를 GNN 인코더와 결합한 전용 아키텍처이다. 즉 임의의 사전 학습된 GNN을 그대로 두고 GDL을 설명 언어로 덧씌우는 model-agnostic 프레임워크는 부재하다. 한편 PL4XGL 저자들은 논문의 Related Work(§8)에서 “GDL can be employed in … GNN explanation techniques” 라고 이 방향을 직접적으로 제안하였으나, 실제로 구현한 연구는 아직 없다. 추가로 PL4XGL은 표현력 한계도 지적한다 (§7.1): homophily, aggregate 술어(“oxygen 수 > chlorine 수”), heterophilic citation network 등은 현재 GDL로는 기술되지 않으며, Cora/Citeseer/Pubmed에서 정확도가 떨어진다. 따라서 GDL 기반 GNN 설명은 이러한 한계를 보완할 확장된 GDL도 함께 연구될 필요가 있다.

2. 목표 (Goal)

Subgraph 대신 GDL program을 설명의 단위로 사용하는 GNN explanation 프레임워크를 개발한다. 구체적으로 다음 목표를 동시에 달성한다.