본문 바로가기

소프트웨어-이야기/단어사전

2025년 09월 복습장

심야 잡담 스터디에서 언급된 포스팅을 읽고, 새로 배운 개념을 정리해보자! 

Knowledge cutoff

  • 인공지능 모델은 인터넷이나 문서에서 수집된 대규모 데이터를 기반으로 학습한다.
  • 하지만 모델은 실시간으로 계속 학습하지 않고, 특정 시점까지의 데이터를 모아서 학습을 완료한 뒤 고정된다.
  • 그 시점을 Knowledge Cutoff Date라고 부른다.
  • 그래서 cutoff 이후의 정보는 모델 내부 지식만으로는 알 수 없다. 별도의 리소스가 없다면 cutoff 이후의 사건을 "추측"해서 알려줄 수 밖에 없다.
  • 이에 대한 보완책으로 "실시간 웹 검색 기능"이나 "외부 데이터 연결"을 통해 최신 정보를 반영한다.

컨텍스트 윈도우(context window)

  • LLM이 "한 번에 이해하고 기억할 수 있는 입력 텍스트의 최대 길이"를 말한다. 
  • LLM은 대화할 때마다 사용자가 보낸 입력(prompt) 과 모델이 만든 출력(response) 을 모두 하나의 긴 텍스트로 이어서 처리한다. 이 전체 텍스트가 모델이 참조하는 맥락(context)이고, 이 맥락을 담을 수 있는 최대 크기를 context window라고 부른다. 
  •  컨텍스트 윈도우는 보통 토큰(token) 단위로 측정돼요. 토큰은 단어보다 작은 단위(단어 조각)로 측정된다. 
  • LLM은 윈도우를 넘어선 오래된 대화 내용은 잘라내거나 잊어버린다. 모델은 과거 전체 대화 기록을 무한히 기억하는 게 아니라, 최근 일정 범위 안의 텍스트만 기억하는 구조이다. 긴 문서를 다루거나 긴 대화를 이어가면 맥락이 손실될 수 있다. 

super claude

“SuperClaude_Framework”은 Claude Code(Anthropic 사가 만든 AI/언어 모델 인터페이스 등) 위에 여러 가지 기능을 더해서, 보다 구조적이고 개발 친화적인 플랫폼으로 만들어 주는 메타-프로그래밍(configuration) 프레임워크이다. 자세한 것은 SuperClaude_Framework에서 살펴보자. 

 

GitHub - SuperClaude-Org/SuperClaude_Framework: A configuration framework that enhances Claude Code with specialized commands, c

A configuration framework that enhances Claude Code with specialized commands, cognitive personas, and development methodologies. - SuperClaude-Org/SuperClaude_Framework

github.com

context7

Context7은 개발자들이 AI 코딩 도구를 사용할 때 항상 최신 문서 정보를 참조할 수 있도록 도와주는 도구이다. 최신, 버전별 문서와 코드 예제를 소스에서 직접 가져와서 Cursor, Claude 등의 AI 도구에 붙여넣을 수 있게 해준다. Next.js처럼 자주 업데이트되는 프레임워크에 유용하다. 

 

Context7 - Up-to-date documentation for LLMs and AI code editors

Generate context with up-to-date documentation for LLMs and AI code editors

context7.com

 

 

GitHub - upstash/context7: Context7 MCP Server -- Up-to-date code documentation for LLMs and AI code editors

Context7 MCP Server -- Up-to-date code documentation for LLMs and AI code editors - upstash/context7

github.com

 

llms.txt file

대형 언어 모델(LLM; Large Language Models)이 웹사이트 정보를 사용할 때의 문제점은 다음과 같다.

  1. 컨텍스트 윈도우(context window)가 제한적이어서, 전체 웹사이트 또는 복잡한 HTML 문서 전체를 한꺼번에 처리하기 어려움
  2. HTML에는 네비게이션 바, 광고, 자바스크립트 등 불필요한 구조가 많아서, LLM 입장에서 “필요한 정보만 뽑아내기” 힘듦

특히 개발 문서, API, 튜토리얼 같은 곳에서는 LLM이 가능한 한 빠르고 정확한 참조 정보를 원한다. 

그래서 llms.txt은 웹사이트 루트(혹은 하위 경로)에 `/llms.txt`라는 파일을 두어서, LLM이 사용할 수 있는 “요약된, 명시적이고 간결한” 정보를 제공하고자 한다. 

이 파일은 다음과 같은 형식이 되어야 한다. 

- Markdown 형식으로 작성됨 (사람도 읽고 LLM도 읽기 좋게).         
- LLM이 파일을 파싱하거나 regex 같은 도구로 읽을 수 있게 약간의 구조(structure)가 있음.
        
자세한 스펙은 llmstxt.org을 참고하자. 

 

The /llms.txt file – llms-txt

A proposal to standardise on using an /llms.txt file to provide information to help LLMs use a website at inference time.

llmstxt.org

 

 

MCP Server: github-mcp-server

자세한건 링크를 통해 알아보자. 

 

 

GitHub - github/github-mcp-server: GitHub's official MCP Server

GitHub's official MCP Server. Contribute to github/github-mcp-server development by creating an account on GitHub.

github.com

 

Few-shot learning

모델에게 소수의 예시를 제공하여 특정 작업을 수행하는 능력을 향상시키는 인컨텍스트(in-context) 학습 방법을 말한다.

 

참고

https://hackers.pub/@hongminhee/2025/how-i-code-with-llms