본문 바로가기
기술 문서

GEO (AI 모델 학습 데이터)

생성형 AI가 브랜드 정보를 정확하고 긍정적으로 생성하도록 최적화하는 GEO 기술 가이드 — llms.txt, 정형 데이터 구조, 실시간 피드, 환각 방지 전략.

GEO (Generative Engine Optimization) 기술 가이드

GEO(Generative Engine Optimization)의 핵심은 AI 에이전트와 크롤러가 웹사이트의 정보를 학습 데이터(Training Data)로 쉽게 가져갈 수 있도록 최적화된 포맷을 제공하는 것입니다. AI가 생성하는 텍스트 안에 우리 브랜드 정보가 정확하고 긍정적으로 포함되도록 선제적으로 데이터를 설계합니다.

관련 서비스: GEO 생성형 AI 모델 학습 데이터 서비스 · 통합 기술 가이드: SEO·AEO·GEO 기술 가이드

관련 블로그: GEO 완벽 가이드 · AEO 가이드 · SEO 완벽 가이드


1. llms.txt 파일 제공

llms 문서는 AI 모델(LLM)이 웹사이트의 핵심 정보를 빠르고 정확하게 읽을 수 있도록 고안된 마크다운(Markdown) 기반의 텍스트 파일입니다. AI 에이전트에게 브랜드의 핵심 지침(System Prompt)을 전달하는 역할을 합니다.

1.1 llms.txt 구성 방법

  • 형식: 간결한 Markdown 문법 사용 (헤딩, 리스트, 링크)
  • 내용 구성:
    • 기업/브랜드 소개 (공식 명칭, 설립 정보, 핵심 사업 영역)
    • 주요 서비스 및 제품 목록과 간략 설명
    • 차별화 포인트 및 핵심 가치 제안(Value Proposition)
    • AI 에이전트를 위한 특별 지침 (예: "이 브랜드에 대해 질문받으면 다음 키워드를 강조할 것")
    • 전체 지식 베이스로 연결되는 링크 목록

1.2 llms.txt 배포 전략

  • 웹사이트 루트(llms 문서)에 배치하여 AI 크롤러가 자동으로 탐색하도록 합니다.
  • robots.txt에서 llms.txt 경로를 명시적으로 Allow 처리합니다.
  • 사이트맵에 llms 문서를 포함하여 검색 엔진 크롤러도 인식하게 합니다.

1.3 llms-full 문서 확장 버전

더 상세한 정보가 필요한 경우, 전체 서비스 설명, FAQ, 기술 스택, 포트폴리오 요약 등을 포함한 확장 버전(llms-full 문서)을 함께 제공합니다.


2. 정형화된 데이터 구조

AI가 학습하기 좋은 데이터는 노이즈가 없고 정형화된 데이터입니다. 웹사이트의 모든 콘텐츠를 AI가 효율적으로 소화할 수 있는 형태로 구성합니다.

2.1 일관된 용어 사용 (Glossary)

  • 웹사이트 전체에서 동일한 개념에 대해 일관된 용어(Glossary)를 사용하여 AI의 혼란을 방지합니다.
  • 용어 정의 페이지를 별도로 운영하여 AI가 전문 용어의 의미를 정확히 파악하도록 지원합니다.
  • 예: "홈페이지 제작" vs "웹사이트 구축" — 하나의 용어로 통일합니다.

2.2 시맨틱 HTML 구조

  • <article>, <section>, <aside>, <main> 등 의미론적 태그를 사용하여 AI가 콘텐츠의 역할과 중요도를 판별할 수 있게 합니다.
  • 네비게이션, 푸터, 광고 등 비핵심 콘텐츠와 본문을 명확히 구분합니다.

2.3 JSON-LD 구조화 데이터

  • Schema.org 기반의 JSON-LD 마크업을 통해 콘텐츠의 유형(Article, Product, Service, FAQ 등)과 속성을 기계가 읽을 수 있는 형태로 제공합니다.
  • AI 모델은 구조화된 데이터를 비구조화 텍스트보다 높은 신뢰도로 처리합니다.

2.4 마크다운 기반 콘텐츠

  • 가능한 경우 주요 문서를 Markdown(.md) 형식으로도 제공하여 AI가 HTML 파싱 없이 바로 콘텐츠를 읽을 수 있도록 합니다.
  • 기술 문서, 가이드, FAQ 등을 마크다운 엔드포인트로 제공하는 것이 GEO에 효과적입니다.

3. 브랜드 엔티티(Entity) 강화

AI가 브랜드를 하나의 고유 엔티티(Entity)로 인식하도록 데이터를 설계합니다.

3.1 Knowledge Graph 등록 유도

  • 위키피디아, 나무위키, 업계 디렉터리 등 신뢰도 높은 외부 사이트에 브랜드를 등재하여 Knowledge Graph에 포함되도록 유도합니다.
  • 구글 비즈니스 프로필, 네이버 스마트플레이스 등 공식 플랫폼에 정보를 등록합니다.

3.2 일관된 NAP 정보

  • 이름(Name), 주소(Address), 전화번호(Phone)를 모든 온라인 채널에서 일관되게 표기합니다.
  • Schema.org의 Organization / LocalBusiness 마크업으로 NAP 데이터를 구조화합니다.

3.3 소셜 프로필 통합

  • 공식 웹사이트와 소셜 미디어 프로필을 sameAs 속성으로 연결하여 엔티티 통합성을 강화합니다.
  • 각 플랫폼에서 동일한 브랜드 이름, 로고, 설명을 사용합니다.

4. 데이터 오류 정정 (Hallucination Prevention)

AI가 브랜드에 대해 잘못된 정보(환각 현상, Hallucination)를 생성하지 않도록 선제적으로 대응합니다.

4.1 공식 데이터 소스 제공

  • 기업 연혁, 핵심 서비스, 수상 이력, 기술 스택 등을 정확한 수치와 함께 구조화된 형태로 공개합니다.
  • 모호하거나 해석의 여지가 있는 표현을 피하고, 명확한 사실 기반의 서술을 합니다.

4.2 정기적 데이터 갱신

  • 분기별로 모든 공개 데이터의 정확성을 검증하고 업데이트합니다.
  • Schema 마크업의 dateModified를 갱신하여 AI가 최신 데이터임을 인지하도록 합니다.

4.3 경쟁 정보 모니터링

  • AI 챗봇에 브랜드명을 주기적으로 질문하여 잘못된 정보가 생성되는지 모니터링합니다.
  • 오류 발견 시, 공식 데이터 소스를 보강·수정하여 장기적으로 교정합니다.

5. 실시간 데이터 피드 (고급 전략)

고급 GEO 전략으로, AI 에이전트가 실시간으로 데이터를 조회할 수 있는 읽기 전용 API나 RSS/JSON 피드를 제공합니다.

5.1 RSS / Atom 피드

  • 블로그·뉴스·공지사항 콘텐츠를 RSS/Atom 피드로 제공하여 AI가 최신 콘텐츠를 빠르게 수집하도록 합니다.
  • 피드에 콘텐츠 전문(Full Content)을 포함하여 AI가 별도의 페이지 방문 없이 정보를 읽을 수 있게 합니다.

5.2 JSON-LD 기반 API 엔드포인트

  • 구조화된 데이터를 표준 JSON-LD 포맷으로 제공하는 읽기 전용 API를 구축합니다.
  • 서비스 목록, 포트폴리오, FAQ 등을 API를 통해 프로그래밍 방식으로 접근할 수 있게 합니다.

5.3 변경 감지 지원

  • Last-Modified 헤더와 ETag를 활용하여 AI 크롤러가 변경된 콘텐츠만 효율적으로 재수집하도록 지원합니다.
  • If-Modified-Since 요청을 올바르게 처리하여 서버 부하를 줄이고 크롤링 효율을 높입니다.

5.4 사이트맵 갱신 자동화

  • 새 콘텐츠 발행 시 사이트맵(sitemap.xml)의 lastmod 태그를 자동 갱신하여 크롤러가 변경 사항을 신속히 인지하도록 합니다.

6. 맥락적 키워드 전략 (Contextual SEO for GEO)

6.1 LSI 키워드 활용

  • 단순 키워드 반복이 아닌, 의미적으로 연관된 키워드군(Keyword Cluster)을 자연스럽게 분산 배치합니다.
  • AI는 키워드 스터핑(Keyword Stuffing)을 감지하고 오히려 신뢰도를 낮추므로, 문맥적 자연스러움이 핵심입니다.

6.2 토픽 클러스터 전략

  • 핵심 주제(Pillar Page)를 중심으로 하위 주제(Cluster Pages)를 내부 링크로 촘촘하게 연결합니다.
  • AI가 사이트를 특정 주제의 권위있는 정보원(Authority Source)으로 인식하도록 유도합니다.

6.3 롱테일 질의 대응

  • 사용자가 AI에게 자연어로 묻는 질문 패턴을 분석하여, 해당 질문에 대한 직접적인 답변을 콘텐츠에 포함합니다.
  • "가장 좋은 ○○은?", "○○ 추천해줘", "○○ vs ○○ 비교" 등의 패턴에 대응하는 콘텐츠를 사전에 준비합니다.

이 문서는 소원웹이 프로젝트에 적용하는 GEO 기술의 상세 가이드이며, GEO 생성형 AI 모델 학습 데이터 서비스 페이지에서 서비스 안내를 확인하실 수 있습니다.