GDL 기반 그래프 데이터마이닝 (Graph Data Mining with GDL)

1. 문제 (Problem)

그래프 데이터마이닝(Graph Data Mining), 특히 그래프 패턴 마이닝(Graph Pattern Mining) 은 대규모 그래프 데이터셋에서 빈번하게 등장하거나 의미 있는 구조적 패턴을 자동으로 발견하는 문제이다. 신약 개발, 소셜 네트워크 분석, 프로그램 분석, 사기 탐지 등 다양한 도메인에서 핵심 기법으로 활용된다.

기존의 그래프 패턴 마이닝은 대부분 subgraph(부분 그래프) 를 패턴의 표현 언어로 사용해 왔다. 예를 들어 frequent subgraph mining (gSpan, FSG, Gaston, CloseGraph 등), motif discovery (ESU/FANMOD), graphlet counting (ORCA, ESCAPE) 등은 모두 subgraph를 기본 단위로 한다. 최근의 대규모·분산 시스템들 (Arabesque, Peregrine, AutoMine, GraphPi, Pangolin, Sandslash) 또한 subgraph 표현 위에서 속도와 확장성을 개선해 왔다.

그러나 subgraph를 패턴 언어로 사용하는 접근법은 다음과 같은 표현력의 한계를 가진다.

한편 다른 방향에서는 풍부한 제약을 가진 질의 언어(query language) 들이 발전해 왔다. Cypher [Francis et al., SIGMOD 2018], GQL [ISO/IEC 39075:2024], SPARQL, PGQL 등은 property(속성) 값에 대한 비교·범위 술어를 지원한다. 그러나 이들은 사용자가 수동으로 패턴을 지정하는 질의 목적이지, 데이터에서 자동으로 의미 있는 패턴을 발견하는 mining 목적이 아니다. 제약 기반 마이닝 연구(gPrune [Zhu et al., VLDB 2007], 가중치 FSM) 또한 구조적·카테고리형 제약 중심이며, 연속형 feature에 대한 interval 술어를 native하게 다루는 마이닝 알고리즘은 부재하다.

최근 PL4XGL[Jeon, Park, Oh, PLDI 2024]이 제안한 GDL(Graph Description Language) 은 feature 값을 interval(구간) 로 기술할 수 있고, 위상 구조도 함께 표현할 수 있는 declarative 그래프 패턴 기술 언어이다. GDL program은 노드 기술 node x <φ>, 엣지 기술 edge (x,y) <φ>, 그리고 target symbol $\tau \in {\texttt{node }x, \texttt{edge }(x,y), \texttt{graph}}$ 로 구성되어, 노드·엣지·그래프 수준의 패턴을 모두 기술할 수 있다. Interval은 [lb, ub] / [-∞, ub] / [lb, ∞]와 같은 open bound를 포함한다. 이는 subgraph가 가질 수 없는 “degree $\geq 12$인 노드”와 같은 패턴을 자연스럽게 표현 가능하게 한다. 예를 들어 BA-Shapes 데이터셋에서 GDL program [12, ∞] — [-∞, ∞] — [12, ∞]는 Barabási–Albert 그래프의 노드를 precision 99%, recall 97%로 기술하는데, 이러한 degree-range 패턴은 subgraph 표현으로는 불가능하다 [PL4XGL §8].

GDL은 classification 전용 evidence로만 활용되었을 뿐, 일반적인 그래프 데이터마이닝의 패턴 언어로서는 아직 탐구되지 않았다. 흥미롭게도 PL4XGL 저자들 본인이 논문의 Related Work (§8)에서 “GDL is strictly more expressive than subgraphs; GDL can be employed in graph data mining” 이라고 명시적으로 제안하였다. 그러나 이 가능성을 실제로 구현한 연구는 아직 없다. 즉 다음 삼각의 교차점에 해당하는 연구 지형이 비어 있다:

2. 목표 (Goal)

Subgraph 대신 GDL을 패턴 언어로 사용하는 그래프 데이터마이닝 프레임워크를 개발한다. 구체적으로 다음을 달성한다.

3. 기본 접근 방법 (Basic Approach)

기존의 subgraph 기반 패턴 마이닝을 GDL program 공간으로 lift하는 것이 핵심 아이디어이다. 다음과 같은 기술적 단계를 고려한다.

(1) GDL 패턴 공간의 정의

(2) GDL 패턴 마이닝 알고리즘

(3) 패턴 품질 평가 및 선택

(4) 확장성

4. 후보 벤치마크 (Candidate Benchmarks)

Graph-level 패턴 평가 (graph classification 데이터셋)

Node-level 패턴 평가 (node classification 데이터셋)

Frequent subgraph mining 전통 벤치마크

소셜 / 웹 대규모 그래프 (확장성 평가)

프로그램 분석 / 보안

사기 / 금융

5. 후보 베이스라인 (Candidate Baselines)

5.1 Classical Frequent Subgraph Mining

5.2 Scalable / Parallel / Distributed Systems

5.3 Approximate & Sampling-Based Mining

5.4 Motif / Graphlet Counting

5.5 Neural / Learning-Based Pattern Mining

5.6 Pattern Languages Beyond Plain Subgraphs (GDL과 가장 밀접)

5.7 Constraint-Based / Quantitative Mining (GDL의 prior art)

5.8 GDL/Declarative 기반 (직접 비교 대상)

5.9 벤치마크·서베이 참고

평가 지표


연구 지형 요약 (Research Landscape Summary)

선행 연구는 대체로 다음 세 축 중 하나에 속한다.

대표 연구 한계
(a) 구조 중심 exact mining gSpan, Peregrine, GraphPi, AutoMine discrete label만, 값 범위 불가
(b) 풍부한 술어 querying Cypher, GQL, SPARQL 자동 mining 부재
(c) 제약 기반 mining gPrune, weighted FSM 연속 feature interval native 미지원
(d) Approximate mining ASAP, Arya, Motivo 주로 counting, pattern language는 subgraph
(e) Neural mining SPMiner, NeuroMatch discrete label 중심, 해석성 제한
(f) GDL symbolic classification PL4XGL classification 전용, 일반 mining(frequency/support/closedness) 개념 없음, 합성 비효율

GDL 기반 mining은 (a)·(b)·(c)의 교집합에 해당하는 영역을 겨냥한다: declarative한 interval 술어를 first-class로 다루면서 자동 패턴 발견을 수행하는 마이닝. 이는 현재 literature에서 뚜렷한 공백으로 남아 있으며 — PL4XGL 저자들이 직접 방향 제시 — 자연스러운 비교 기준은 Peregrine/GraphPi (exact structural), Arya/ASAP (approximate), SPMiner (neural), PL4XGL (GDL symbolic) 이다.

GDL 확장 방향

PL4XGL §7의 한계는 그대로 GDL 기반 mining에도 확장 필요성을 시사한다.