← Back to Problem Bank

1. 문제 (Problem)

대규모 그래프 학습은 다음 두 요구를 동시에 만족해야 한다.

  1. 확장성: 수백만~수억 노드 규모의 그래프에서 학습·추론이 가능해야 함
  2. 해석성: 예측의 근거가 사람이 이해할 수 있는 형태여야 함 (특히 신약 개발·의료·보안·금융 등 decision-critical 도메인)

현재 두 요구를 함께 만족하는 접근은 드물다.

최근 PL4XGL이 도입한 GDL은 subgraph보다 엄격히 더 표현력이 강하고 [§7.2], feature 값에 대한 interval 술어를 first-class로 지원한다. 예를 들어 [12, ∞] — [-∞, ∞] — [12, ∞] 와 같은 GDL program은 Barabási–Albert 그래프의 노드를 precision 99%, recall 97%로 기술하며, 이는 subgraph로는 표현 불가능한 degree-range 패턴이다. PL4XGL 저자들은 §8에서 “GDL can be employed in graph data mining and GNN explanation techniques” 라 직접 제안하였다. 그러나 GDL을 대규모 신경망 학습을 위한 embedding의 기반으로 사용하는 연구는 아직 없다.

핵심 공백은 다음과 같다. 해석 가능한 GDL program들의 집합이 고정되어 있다면, 각 노드/그래프에 대한 program activation 벡터는 (i) 한 번만 계산하면 되고, (ii) NN의 입력으로 바로 사용 가능하며, (iii) 각 차원이 GDL program이라는 human-readable 단위에 대응한다. 이는 scalable GNN의 속도와 symbolic 방법의 해석성을 결합할 수 있는 구조적 여지이다.

2. 목표 (Goal)

GDL program을 feature 추출기로 사용해 해석 가능한 embedding을 생성하고, 이 embedding 위에서 표준 NN으로 대규모 그래프 학습을 수행하는 프레임워크를 설계한다.

3. 기본 접근 방법 (Basic Approach)

(1) GDL Program 기반 Embedding 함수

GDL program 집합 Q = {P1, …, Pk} 가 주어졌을 때, 노드 v 또는 그래프 G 에 대한 embedding을 다음과 같이 정의한다.

노드 embedding (노드 분류, 링크 예측용):

hv = [φ1(v), φ2(v), …, φk(v)] ∈ Rk

여기서 φi(v)v 를 중심으로 한 ego-subgraph 에서 program Pi 가 얼마나 활성화되는지를 측정하는 함수이다.

그래프 embedding (그래프 분류용):

hG = [φ1(G), φ2(G), …, φk(G)]

(2) Activation φi 의 설계 옵션

(3) 대규모 확장을 위한 핵심 기법

(4) Vocabulary Q 의 구성 전략

(5) 위 embedding 위의 NN 아키텍처

(6) 해석 / 설명

(7) 학습 파이프라인

  1. Vocabulary construction: training 데이터의 일부에서 candidate GDL program 생성 → diversity-preserving selection으로 Q 결정
  2. Offline feature extraction: 전체 데이터에 대해 φi 계산, sparse tensor로 저장
  3. NN training: 표준 supervised learning (mini-batch, Adam 등)
  4. Inference: lookup + NN forward — 매우 빠름
  5. Explanation: 예측별 top-k program, 또는 데이터셋 수준 global program set

4. 후보 벤치마크 (Candidate Benchmarks)

대규모 노드 분류

대규모 그래프 분류 / 속성 예측

링크 예측 / 추천

이상 탐지 / 사기

Heterogeneous 그래프

확장성 전용 합성

해석성 평가 병행

5. 후보 베이스라인 (Candidate Baselines)

5.1 Scalable GNN (속도·정확도 주 비교군)

5.2 Graph kernel / subgraph feature 기반 임베딩

5.3 Tabular / feature-based NN (embedding 위 NN 비교)

5.4 Symbolic / program 기반 그래프 학습 (해석성 비교군)

5.5 Hybrid neural-symbolic 그래프 학습

5.6 Graph Transformer (비교 가능한 최신 아키텍처)

평가 지표


연구 지형 요약 (Research Landscape Summary)

대표 연구확장성해석성비고
Scalable GNNGraphSAGE, ClusterGCN, ShaDow-GNNOXblack-box, 설명은 post-hoc
Graph kernel + NNWL, graphlet, subgraph2vecO추상적 카운트, 구체 패턴 해석 X
Symbolic graph learningPL4XGL, ProgNetXO해석성 최고, scale 못함
Concept bottleneck / hybridProtGNN, KerGNNs, LENO그래프 특화 확장 제한
본 연구: GDL embedding + NNOO두 축 동시 달성 목표

GDL embedding + NN 접근은 (a) GDL의 interval-aware 해석 가능 패턴 언어 로부터 해석성을, (b) offline feature extraction + 일반 NN 구조로부터 scalability를 확보한다. 자연스러운 비교 기준은 scalability에서 GraphSAGE / ClusterGCN / ShaDow-GNN, 해석성에서 PL4XGL / ProgNet / ProtGNN, 추상 feature + NN에서 WL + kernel SVM / TabNet on graphlet counts 이다.

주요 Open Question