Insight Parser : 의미 추론 기반 행동 구조화 엔진
들어가며
정보는 폭증했다. 그러나 행동은 자동화되지 않았다.
OCR은 텍스트를 추출한다. 요약 모델은 읽기 쉽게 정리한다. 챗봇은 대화를 생성한다. 그러나 다음 질문은 여전히 인간의 몫으로 남아있다.
그래서, 내가 무엇을 해야 하는가?
Insight Parser는 이 질문을 시스템이 처리하도록 설계된 엔진이다.
1. Insight Parser란 무엇인가
Insight Parser는 비정형 정보를 의미 단위로 추론하고, 실행 가능한 상태 기반 구조(JSON)로 변환하는 Core AI Engine이다.
단순 요약 모델이 아니다. LLM Wrapper가 아니다.
Semantic Reasoning, Contextual Modeling, Intent Extraction, Action Structuring, Execution Mapping — 이 다섯 단계를 수행하는 구조화 엔진이다.
기존 AI가 Information 단계에 머무는 것과 달리, Insight Parser는 Meaning을 거쳐 Action까지 확장한다.
Raw Data
↓
Semantic Understanding — 의미를 파악한다
↓
Contextual Reasoning — 문맥을 모델링한다
↓
Intent Modeling — 의도를 추론한다
↓
Action Structuring — 행동을 구조화한다
↓
Execution Layer 연결 — 실행 시스템과 연결된다
핵심은 "읽기"가 아니라 "행동 생성"이다.
2. Stage 기반 구조
Stage 1 — Extraction
입력을 정규화한다. OCR, Text Normalization, Structural Parsing이 이 단계에 속한다. 문서, 이미지, 스크린샷, 웹페이지, 사용자 텍스트 — 어떤 형태로 들어오든 정제된 텍스트로 변환하는 것이 목표다.
Stage 2 — Semantic Reasoning
여기서 Insight Parser의 본질이 드러난다.
의미 단위 분해, 문맥 모델링, 의도 추론, 시간·조건·제약 분석, 우선순위 판단, 상태 기반 표현. 이 단계는 단순 요약이 아니다. "행동 가능성 판단"이 포함된다.
기존 모델이 텍스트를 압축한다면, Insight Parser의 Semantic Reasoning은 텍스트를 해석한다.
Stage 3 — Action Structuring
출력은 자연어가 아니라 구조다.
{
"type": "assignment",
"title": "자율주행 발표 준비",
"deadline": "2026-03-12",
"required_actions": [
"자료 조사",
"슬라이드 제작",
"리허설"
],
"priority": "high",
"estimated_time": "5h"
}
Insight Parser의 출력은 캘린더, 태스크 매니저, 워크플로우 자동화 시스템 어디에든 직접 연결될 수 있어야 한다.
3. Core Architecture
[Input Layer]
├─ Document / Image / Screenshot
├─ Webpage / User Text
└─ ...
↓
[Preprocessing Layer]
├─ OCR
├─ Cleaning
├─ Tokenization
└─ Structural Parsing
↓
[Semantic Reasoning Engine] ← 핵심
├─ Context Modeling
├─ Intent Detection
├─ Entity Mapping
├─ Dependency Resolution
└─ Logical Structuring
↓
[Structured Output Generator]
└─ Action-based JSON
↓
[Execution Layer]
├─ Task Engine
├─ Reminder System
├─ API Trigger
├─ Workflow Automation
└─ SaaS Integration
Insight Parser는 애플리케이션이 아니라, 이 전체 구조의 중심 엔진이다.
4. SaaS가 아닌 이유
Insight Parser는 하나의 제품이 아니다. 엔진형 비즈니스 모델이다.
Core Engine, API Infrastructure, Vertical SaaS 확장 기반으로 구성되며, 그 위에 얹히는 것이 제품들이다.
| 레이어 | 내용 |
|---|---|
| Core Engine | Insight Parser 자체 |
| Vertical SaaS | Actonix, TaskPilot, EasyInfo 등 |
| B2B | 기업용 API, 공공기관용 시스템 |
Insight Parser가 엔진이라면, 그 위에 올라가는 SaaS들은 엔진의 검증 수단이자 수익화 레이어다.
5. Actonix와의 관계
Actonix는 Insight Parser의 첫 번째 실행 레이어다.
| 항목 | Insight Parser | Actonix |
|---|---|---|
| 모델 구조 | 도메인 특화 설계 | 범용 LLM |
| 추론 방식 | Semantic State Modeling | Prompt 기반 |
| 목적 | Core Engine | SaaS 검증 및 실험 |
Actonix는 Insight Parser의 아키텍처가 실제로 작동하는지를 검증하는 프로토타입이다. OCR → Semantic Reasoning → Schema Validation → Execution의 파이프라인이 현실에서 유효함을 증명하고 있다.
엔진이 완성되면, Actonix는 범용 LLM 의존에서 벗어나 Insight Parser를 핵심 추론 계층으로 교체한다.
6. 기술적 과제
Insight Parser가 Core Engine으로 독립하기 위해 해결해야 할 과제들이 있다.
현재 Zero-shot 추론 구조는 category classification의 정확도와 deadline extraction의 안정성을 범용 모델의 품질에 의존한다. 이를 벗어나려면 category와 deadline을 multi-task로 분리 학습한 도메인 특화 fine-tuned 모델이 필요하다.
Semantic State Modeling 설계, 데이터 축적, 일관된 구조화 보장 — 이것이 Insight Parser가 풀어야 할 핵심 기술 문제다.
현재 소프트웨어 마에스트로 과정 지원을 준비하고 있다. Insight Parser의 핵심 연구, 즉 도메인 특화 모델 구축과 범용 LLM 의존도의 단계적 축소는 소마 연수 과정에서 본격적으로 수행할 계획이다.
7. BM 전략
API Engine Licensing — 기업용 문서 구조화 엔진으로 제공한다. 문서가 많고 처리 자동화가 필요한 기업에 Insight Parser API를 공급한다.
Vertical SaaS — 학생용(Actonix), 기업용, 고령자용, 공공기관용으로 도메인을 분리하여 확장한다. 엔진은 하나지만 인터페이스와 도메인 학습 데이터는 버티컬마다 다르다.
Tier Model — Basic / Plus / Pro / Enterprise. 엔진 접근 수준과 처리량으로 차등화한다.
8. 미래 방향
Insight Parser가 지향하는 최종 구조는 단순한 문서 처리 엔진이 아니다.
Autonomous Workflow Engine, AI Decision Assistant, Personal Cognitive OS, B2B AI Middleware — 정보를 받아 행동을 생성하는 AI 실행 인프라가 목표다.
사람이 문서를 읽고 판단하고 실행하는 인지 흐름을 시스템이 대신 처리하는 구조. Insight Parser는 그 인프라의 핵심 엔진이 된다.
9. OpenClaw에서 배운다
공통된 본질
OpenClaw는 "AI that actually does things"를 슬로건으로 내세운 오픈소스 AI 에이전트다. 메시지 앱(WhatsApp, Telegram, Slack 등)을 인터페이스로 삼아 자연어 명령을 실제 행동으로 변환한다.
OpenClaw: "3시에 회의 예약해줘" → 구글 캘린더에 이벤트 생성
Insight Parser: 제약 봉투 사진 → 복용 시간 알림 자동 등록
입력 형태는 다르다. OpenClaw는 자연어 프롬프트, Insight Parser는 OCR로 추출한 비정형 문서다. 그러나 핵심 철학은 같다. 정보를 이해하는 것에서 멈추지 않고, 현실에서 행동을 생성한다.
이 지점에서 Insight Parser는 OpenClaw를 선행 사례로 본다.
OpenClaw에서 배우는 것
1. Execution 연결 구조
OpenClaw는 Skill 시스템으로 실행 레이어를 확장한다. 에이전트가 직접 스크립트를 작성하고 배포하며, 50개 이상의 통합을 단일 Gateway에서 관리한다. 이 구조는 "추론 엔진과 실행 레이어를 분리하되, 연결을 표준화한다"는 설계 원칙을 보여준다. Insight Parser의 Execution Layer 설계에 직접적인 참고점이다.
2. 입력 정규화의 중요성
OpenClaw의 Gateway는 WhatsApp, Telegram, Discord 등 서로 다른 채널의 메시지를 공통 포맷으로 정규화한 뒤 에이전트에게 전달한다. 입력이 일관될수록 추론이 안정적이다. Insight Parser의 OCR → Preprocessing → Semantic Reasoning 분리 원칙과 같은 맥락이다.
3. 상태 기반 메모리
OpenClaw는 agents.md, soul.md, memory 파일로 대화 맥락을 세션 간에 유지한다. 매번 새로 시작하지 않는다. Insight Parser의 Contextual Reasoning 설계에서도 단발성 추론이 아닌 상태 기반 문맥 모델링이 필요하다는 것을 확인시켜준다.
Insight Parser가 다른 것
범용 vs 특화
OpenClaw는 범용 에이전트다. 무엇이든 처리할 수 있는 대신, 추론의 깊이는 도메인에 특화되어 있지 않다. "회의 예약해줘"는 잘 처리하지만, "이 수행평가 안내문에서 제출 조건과 마감을 추출해 일정을 짜줘"는 프롬프트 품질에 크게 의존한다.
Insight Parser는 처음부터 문서 기반 비정형 입력의 의미 추론과 행동 구조화에 특화된다. 범용성을 포기하는 대신, 이 영역에서 훨씬 높은 정확도를 목표로 한다.
자연어 명령 vs 비정형 문서
OpenClaw의 입력은 사용자가 의도를 담아 직접 작성한 자연어다. 의도가 명확하게 전달된다. Insight Parser의 입력은 공지문, 안내문, 약 봉투, 계약서처럼 의도가 명시되지 않은 비정형 문서다. 시스템이 스스로 "무엇을 해야 하는가"를 판단해야 한다. 이것이 Insight Parser가 풀려는 더 어려운 문제다.
구조화된 출력의 강제
OpenClaw의 출력은 실행 결과다. Insight Parser의 출력은 검증된 ActionPlan JSON이다. 모든 필드가 스키마를 통과해야 하고, 불확실한 항목은 unknowns로 명시된다. 자연어 실행이 아닌, 구조화된 상태 표현이 Insight Parser의 핵심 출력 형식이다.
요약
| 항목 | OpenClaw | Insight Parser |
|---|---|---|
| 입력 | 자연어 명령 | 비정형 문서 (OCR) |
| 추론 방식 | 범용 LLM | 도메인 특화 예정 |
| 출력 | 실행 결과 | 검증된 ActionPlan JSON |
| 확장 구조 | Skill 시스템 | Vertical SaaS + API |
| 특화 영역 | 범용 | 문서 → 행동 구조화 |
OpenClaw는 "자연어를 행동으로"가 실제로 작동함을 증명했다. Insight Parser는 그 다음 질문을 푼다. 의도가 명시되지 않은 비정형 문서에서도 행동을 생성할 수 있는가.
결론
정보는 많다. 그러나 행동은 생성되지 않는다.
Insight Parser는 정보를 구조화된 행동으로 변환하는 엔진이다. 요약 툴이 아니다. 챗봇이 아니다. 단순 SaaS도 아니다.
의미 추론 기반 행동 생성 엔진이다.
하지만 Insight Parser는 아직 완성된 엔진이 아니다.
현재는 범용 LLM 기반 구조로 작동하는 Actonix를 통해 파이프라인의 유효성을 검증하고 있다.
향후에는 Semantic State Modeling과 도메인 특화 추론 계층을 구축하여범용 모델 의존도를 단계적으로 축소할 계획이다.
이 글은 설계 철학에 대한 기록이다. 기술 구현에 대한 내용은 별도의 글에서 다룬다.
https://aidengoldkr.tistory.com/13 이 글은 범용 LLM 기반 구조로 작동하는 Actonix에 대한 설계 및 아이디어를 다룬다