← Back to Problem Bank

1. 문제 (Problem)

그래프는 분자 구조, 소셜 네트워크, 프로그램 실행 추적, 지식 베이스 등 다양한 실세계 데이터를 자연스럽게 표현하는 기본 자료구조이다. 특히 신약 개발과 같이 의사결정이 중요한 도메인에서는 정확한 예측뿐만 아니라 명확한 설명이 함께 요구된다.

현재 그래프 분류의 주류 방법인 GNN(Graph Neural Network) 은 높은 정확도를 보여주지만 블랙박스로 동작한다. 예측의 근거가 연속적인(continuous) 임베딩에 얽혀 있어서, 어떤 구조적 패턴이 예측을 이끌었는지 명시적으로 식별하기 어렵다.

이를 해결하기 위해 다양한 explainable/interpretable GNN 기법들이 제안되었으나 다음과 같은 한계가 있다.

즉, “설명 구조가 예측 메커니즘의 first-class, 재사용 가능한 구성요소”로 다뤄지지 않는 것이 공통된 한계이다.

2. 목표 (Goal)

다음을 동시에 만족하는 interpretable graph classification framework를 설계한다.

3. 기본 접근 방법 (Basic Approach)

ProgNet은 neural representation learning과 명시적인 program-level evidence space를 통합하는 프레임워크이다. 세 가지 핵심 아이디어로 구성된다.

(1) Declarative program 기반 evidence interface

(2) Diversity-preserving vocabulary 구축

(3) Decomposable evidence composition network

설명 생성

4. 후보 벤치마크 (Candidate Benchmarks)

8개의 대표적인 graph classification 벤치마크에서 실험한다.

분자(Molecular) 데이터셋 — 신약 개발과 연결, 정확도·설명성 모두 중요

데이터셋# Graphs# Avg nodes# Labels비고
NCI14,11029.82항암 활성
PTC (MR)34414.22독성
MUTAG18817.92돌연변이 유발성
PROTEINS1,11339.02효소/비효소
BBBP2,03924.02혈액-뇌 장벽 투과
BACE1,51334.02BACE-1 저해제
Mutagenicity4,33730.32돌연변이 유발성

합성(Synthetic) 데이터셋 — 설명 품질 평가 전용

데이터셋# Graphs# Avg nodes# Labels비고
BA-2Motifs1,00025.02House-shaped motif 포함 여부

5. 후보 베이스라인 (Candidate Baselines)

세 가지 유형의 기존 접근법을 대표하는 방법들과 비교한다.

(1) Traditional GNN + Post-hoc explainer

(2) Rationale-based (intrinsic)

(3) Symbolic / inherently interpretable

평가 지표

6. 참고 논문 리스트 (References)

GNN 기초 모델

Explainable / Interpretable Graph Learning

Graph Pattern Description Languages

Graph Pattern Mining

응용: 신약 개발 / 분자 특성 예측

MUTAG 데이터셋 도메인 근거

Survey