은하대백과 생각하는 컴퓨터 설계

은하대백과 멜트다운에서 언급했듯 집필에 AI를 사용하는 것은 각 은하주의 선택이지 편찬자로서 강제할 사항은 아니다. 때문에, 편찬자는 집필에서의 AI보다 사색에서의 AI를 논해야 한다. 기존의 편찬자는 질답 수준에서 AI를 활용한다. 은하대백과는 대상체의 지식을 담아내는 것뿐만 아니라 새로운 연결고리를 발견하여 유의미한 추론을 하는 시스템이다. 대상체의 문서와 기록들에 기반하여 쉬지 않고 새로운 접근법을 모색해 문서 간의 합의, 근거, 모순을 망라하는 새로운 접근을 발견한다.

RAG

현재 AI는 이해 계층은 커버하지만 추론 계층에서는 중대한 문제가 있다. 표준 RAG 시스템을 과학적으로 엄밀하게 분석한다면, 진정한 과학적 발견을 하지 못한다.

:::warning[RAG의 한계]

양적 편향. RAG는 기반 데이터 검색 결과의 숫자를 본다. X가 효과가 좋다는 기존 연구 100개와 사실 X는 플라시보였다는 혁신적인 최근 연구 1개가 있다면 RAG는 X가 효과가 좋다고 결론을 내린다.
관계 부재. RAG는 여러 발췌문을 불러오지만 발췌문 간 관계는 이해하지 못한다. X가 효과가 좋다는 기존 연구 A와 사실 X는 플라시보였다는 반박 연구 B가 있다면, RAG는 이 사이의 관계를 모를 뿐더러, 전문이 아닌 발췌문이기에, A가 B에 대한 반박인지 B가 A에 대한 반박인지 헷갈려 한다.
출처 불명. RAG는 발췌문들의 출처를 명확하게 연결 짓는 것에 약하다. B라는 논문에서 "X가 효과있다고 A가 그랬는데..."라고 언급했을 때 발췌문이 "X가 효과있다고..."에서 잘린다면 RAG는 "B가, 'X가 효과 있다'고 언급했다"고 이해하게 된다.

:::

RAG는 근거의 품질을 수량으로 대체하고, 발췌문 간의 논증 관계를 모델링하지 못하며, 인용을 잘라먹은 상태로 재서술한다. 그래서 지식의 회수는 되지만 지식의 갱신 (반박에 의한 재정렬)과 지식의 합성(조건, 범위, 전제의 정합)이 약하다.

변증법적 그래프 모델?

오랜 기간 연구되어 온 Knowledge Graph (KG) 또는 Knowledge Network는 이 문제를 부분적으로 해결한다. KG는 이를 극복하기 위해서는 얼마나 비슷한가가 아니라 어떤 관계인가를 묻는 시스템으로 전환한다. 특히 멜트다운의 핵심인 다수에 의한 진실 오염을 막기 위해, 시스템은 합의가 아닌 모순과 반례를 최우선으로 탐색한다. KG는 주로 변증법적 그래프(Dialectical Graph) 모델을 지향한다. 변증법적 그래프는 문서의 내용을 그대로 저장하는 것이 아니라, 문서가 수행하는 논증 행위를 추출하여 저장한다. 여기서 핵심은 텍스트를 지식으로 착각하지 않는 것이다. 텍스트는 증거의 포장이고, 지식은 주장, 전제, 범위, 반례, 반박, 재반박, 정의, 측정, 방법, 데이터...가 서로를 제약하는 구조다.

은하대백과가 지향해야 할 첫 번째 분리는 원문-주장-관계의 삼중 분리다. 원문은 인용 가능한 구절로 보존되고, 주장은 정규화된 명제 형태로 분해되어 생성되며 관계는 주장들 사이의 논증적 결속으로 표현된다. 표준 RAG가 발췌문을 모아놓고 문장으로 봉합하는 방식이라면, 변증법적 그래프는 발췌문을 증거 노드로 격리하고 그 위에 주장 노드와 관계 엣지를 세워 출처, 의미, 역할을 분리한다. 발췌문이 잘리면 의미가 변한다는 문제는 애초에 발췌문을 주장으로 취급하지 않음으로써 구조적으로 차단된다.

구조

노드는 다음으로 구성된다.

claim 검증 가능하거나 논박 가능한 형태로 정리된 명제.
scope 언제, 어디서, 어떤 조건에서의 제약.
assumption 주장 성립을 위해 묵시적으로 요구되는 가정.
definition 용어, 개념의 사용법.
method 실험 설계, 분석법, 증명 기법, 해석 규칙.
data 측정값, 코퍼스, 실험 결과, 증명된 정리의 입력.
evidence span 원문 인용의 정확한 범위.
source 논문, 도서, 기록, 인터뷰, 데이터셋, 코드 저장소.
counterexample 주장을 깨뜨리거나 조건을 좁히는 사례.
issue 특정 주장군이 충돌하는 쟁점의 묶음.

엣지는 비슷함이 아니라 관계 종류를 담는다.

supports 지지
attacks 반박
undercuts 전제 흔들기
refines 정밀화
generalizes, specializes 일반화, 특수화
depends_on 의존
defines 정의 제공
measures 측정 관계
cites 인용
replicates, fails_to_replicate 재현, 재현 실패
contradicts 정면 모순
is_about 대상 연결

:::tip[undercuts의 중요성]

특히 undercuts는 표준 RAG가 거의 다루지 못하는 영역이다. 결론이 틀렸다가 아니라 그 결론을 지탱하는 방법, 가정, 정의가 흔들린다를 표현해야 지식의 갱신이 가능해진다. 이 구조가 갖는 직접적인 효과는 출처 불명 문제의 제거다. B가 A를 인용하며 X가 효과 있다고 언급했다는 상황에서, 발췌문이 잘려 B의 주장처럼 보이는 오류는, 증거 노드가 원문 범위와 출처를 갖고, 주장 노드는 누가 무엇을 주장했는가를 별도로 가져, cites 엣지가 B→A로 명시되는 순간 사라진다. 문장이 아니라, 그래프의 연결이 의미를 고정한다.

:::

두 번째 핵심은 합의 우선이 아니라 모순, 반례 우선의 탐색 편향이다. 다수결은 지식의 품질을 보장하지 않는다. 특히 전환점이 되는 단일 반례, 단일 반박, 단일 정의 수정은 수백 개의 반복 서술보다 더 높은 정보량을 가진다. 변증법적 그래프는 이 정보량을 구조적으로 우대한다. 주장 노드가 생성되면, 시스템의 기본 동작은 지지 근거를 모으는 것이 아니라 공격 엣지를 최대화하는 방향으로 작동한다. 반례가 붙으면 주장은 폐기되는 것이 아니라 조건화된다. 항상 참은 조건 하에서 참으로 내려오고, 대체로 참은 표본 하에서 참으로 분해된다. 여기서 필요한 것은 단순한 KG가 아니라, 논증 이론과 결합된 계산 규칙이다. 은하대백과는 논증의 승패 판정으로 충분하지 않다. 공격의 종류가 달라야 하고, 공격이 실패한 이유도 저장돼야 한다. 반박이 무효화되는 경우는 흔히 정의 불일치, 범위 바깥, 측정 불일치, 방법론적 결함, 재현 실패 같은 형태로 나타난다. 이 무효화는 논증 그래프에서 엣지로 기록된다. 그래야 동일한 오류가 다른 문서군에서 반복될 때 자동으로 탐지된다.

세 번째 핵심은 품질을 수량으로 대체하지 않는 평가 축이다. 표준 RAG의 100 대 1 문제는 검색 결과의 개수로 결론을 정하는 순간 발생한다. 변증법적 그래프는 각 증거에 대해 품질 차원을 분리해 보관한다. 요컨대 방법의 적합성, 데이터의 크기와 편향, 재현성, 독립적 검증 여부, 후속 반박의 존재, 정의의 안정성, 측정의 신뢰도 같은 항목은 각각 독립 축이다. 이 축들은 가중합 하나로 환원되면 다시 다수결로 퇴행한다. 대신 주장 상태를 다차원으로 두어야 한다. 예를 들어 tentative (가설), contested (쟁점화), conditionally supported (조건부 지지), robust (다중 경로 지지), refuted (반례로 붕괴), obsolete (정의, 방법 변화로 의미 상실) 같은 상태가 가능하다. 즉, 상태 전이는 반박의 수가 아니라 반박의 종류와 성공 여부로 결정된다. 이때 은하 대백과가 사색 동반자로서 수행할 역할이 생긴다. 집필에서의 AI는 문장 생산을 대체하지만, 사색에서의 AI는 그래프를 움직인다. 사색의 핵심 업무는...

주장 정규화 에이전트 AI
숨은 전제 추출 에이전트 AI
정의 충돌 탐지 에이전트 AI
반례 탐색 에이전트 AI
논증 경로 최소화 에이전트 AI
조건, 범위의 재구성 에이전트 AI
대안 가설 생성 에이전트 AI
실증 형식, 검증 전략 설계 에이전트 AI

:::info[문서를 부딪치게 만드는 AI]

문서를 요약하는 AI가 아니라, 문서들을 서로 부딪치게 만드는 AI가 필요하다. 발견은 불일치에서 나오는 까닭이다.

:::

지식 합성

표준 RAG가 회수에 강하고 합성에 약한 이유는, 그 내부에 경합이라는 객체가 없기 때문이다. 변증법적 그래프에서는 경합이 일급 시민이다. 쟁점 노드는 무엇이 서로 충돌하는가를 묶고, 그 쟁점의 해소 조건을 기록한다. 요컨대 A와 B가 서로 배치될 때, 단순히 둘을 나열하는 것이 아니라, 배치의 원인이 (정의 차이인지, 표본 차이인지, 방법 차이인지, 범위 차이인지, 시간에 따른 비정상성인지)로 분해된다. 해소는 하나의 정답이 아니라 분기된 지도로 나타난다. 동일한 단어 X가 서로 다른 정의 아래에서 서로 다른 결론을 내리고 있다면, 결론의 모순이 아니라 정의의 분기를 먼저 명시한다. 이렇게 하면 지식 합성이 가능해진다. 합성은 평균내기가 아니라, 전제와 범위를 맞춰 동일한 좌표계로 옮기는 작업이다.

의식적 변증법적 그래프 구축은 멜트다운을 막을 수 있는가?

그래프 기반 시스템이 멜트다운을 막는 방식은 두 층을 분리하는 데 있다.

첫째, 추론 층은 진실 그래프 그 자체다.
둘째, 서술 층은 진실 그래프의 특정 시점 투영이다.

문서는 최종 진실이 아니라, 그래프의 스냅샷이다. 문서의 문장은 항상 그래프의 경로를 역추적할 수 있어야 하고, 각 문장에는 근거 경로가 존재해야 한다. 근거 경로는 단순한 참고문헌이 아니라, 주장, 전제, 방법, 데이터, 증거 범위, 출처로 이어지는 연쇄 구조다. 이 연쇄가 없으면 문장은 문장일 뿐 지식이 아니다. 이 규칙 하나만으로도, AI가 매끄러운 문장을 쏟아내며 편찬을 대체하는 멜트다운의 주 통로가 막힌다.

무한동력 백과사전을 향하여

그러나 은하대백과가 요구하는 것은 쉬지 않고 새로운 접근법을 모색하는 동력이다. 이를 위해서는 그래프 위에서 작동하는 탐색 전략이 필요하다. 대표적인 전략은 다음과 같다.

반례 우선 탐색. 인기의 크기는 품질의 증거가 아니라 위험의 증거로 취급한다.
- 어떤 주장이 자주 인용될수록, 그 주장에 대한 반례와 경계 조건을 우선적으로 수집한다. 이는 인기 있는 주장일수록 오염의 파급이 크기 때문이다.
모순 최소 컷 탐색.
- 주장 집합이 서로 충돌할 때, 충돌을 일으키는 최소한의 엣지, 전제 집합을 찾는다. 그 최소 집합이 바로 사색의 표적이다.
- 인간의 시간은 모순 최소 집합에 투입되어야 한다. AI는 광범위한 검색과 후보 생성, 최소 컷 계산을 담당하고, 인간은 정의와 전제의 정당성을 판단한다.
정의 표류 감지.
- 동일 용어가 시간, 학파, 분야에 따라 의미가 미세하게 이동할 때, 그래프는 정의 노드의 변화를 기록하고, 오래된 문서의 주장들을 의미 상실 상태로 이동시킨다.
- RAG가 가장 쉽게 하는 오류가 같은 단어면 같은 개념이라는 가정이기 때문이다.
방법-결론 결속 검증.
- 결론이 아니라 방법을 중심으로 주장군을 재군집화한다.
- 서로 다른 결론이라도 동일한 결함을 공유할 수 있고,
- 동일한 결론이라도 다른 근거 강도를 가질 수 있다.
- 지식의 품질은 결론의 방향이 아니라, 결론을 산출한 경로의 내구성에 달려 있는 모델로 이동하는 것이다.
재현 경로 분리.
- 같은 결론을 반복하는 것이 아니라 독립 경로로 같은 결론에 도달했는가를 기준으로 지지를 계산한다.
- 동일 데이터셋, 동일 코드, 동일 실험실, 동일 이론 가정은 하나의 경로로 취급한다.
- 다수결의 착시를 그래프 차원에서 제거하는 장치다.

이러한 작동 원리를 갖춘 변증법적 그래프 위에서, 은하대백과의 사색 AI는 단순히 답을 출력하지 않는다. 대신 쟁점을 생산하고, 조건을 정제하고, 반박을 구조화하고, 합성 가능한 좌표계를 만든다. 문서 간 합의는 결과물로서 따라오되, 목표가 아니다. 목표는 모순의 지도와 해소 조건의 명시다. 이 지도가 확보될수록, 이후의 새로운 연구나 기록이 들어왔을 때 지식의 갱신은 재서술이 아니라 재배치로 이루어진다. 마지막으로, 이렇게 되면 편찬자의 역할이 명료해진다. 집필의 주도권을 AI가 가져가면 멜트다운이지만, 사색의 주도권을 편찬자가 유지한 채 AI를 사색 도구로 쓰면, 편찬자는 문장 노동에서 해방되어 구조를 감독하게 된다.

이렇게 되면, 은하대백과는 성공적으로 멜트다운을 방지하고, 문서의 집합이 아니라, 논증의 생태계로 운영될 수 있다.