← Back to Problem Bank

1. 문제 (Problem)

대규모 그래프 학습은 다음 두 요구를 동시에 만족해야 한다.

  1. 확장성: 수백만~수억 노드 규모의 그래프에서 학습·추론이 가능해야 함
  2. 해석성: 예측의 근거가 사람이 이해할 수 있는 형태여야 함 (특히 신약 개발·의료·보안·금융 등 decision-critical 도메인)

현재 두 요구를 함께 만족하는 접근은 드물다.

최근 PL4XGL이 도입한 GDL은 subgraph보다 엄격히 더 표현력이 강하고 [§7.2], feature 값에 대한 interval 술어를 first-class로 지원한다. 예를 들어 [12, ∞] — [-∞, ∞] — [12, ∞] 와 같은 GDL program은 Barabási–Albert 그래프의 노드를 precision 99%, recall 97%로 기술하며, 이는 subgraph로는 표현 불가능한 degree-range 패턴이다. PL4XGL 저자들은 §8에서 “GDL can be employed in graph data mining and GNN explanation techniques” 라 직접 제안하였다. 그러나 GDL을 대규모 신경망 학습을 위한 embedding의 기반으로 사용하는 연구는 아직 없다.

핵심 공백은 다음과 같다. 해석 가능한 GDL program들의 집합이 고정되어 있다면, 각 노드/그래프에 대한 program activation 벡터는 (i) 한 번만 계산하면 되고, (ii) NN의 입력으로 바로 사용 가능하며, (iii) 각 차원이 GDL program이라는 human-readable 단위에 대응한다. 이는 scalable GNN의 속도와 symbolic 방법의 해석성을 결합할 수 있는 구조적 여지이다.

2. 목표 (Goal)

GDL program을 feature 추출기로 사용해 해석 가능한 embedding을 생성하고, 이 embedding 위에서 표준 NN으로 대규모 그래프 학습을 수행하는 프레임워크를 설계한다.