심야 잡담 스터디에서 언급된 포스팅을 읽고, 새로 배운 개념을 정리해보자!
Knowledge cutoff
- 인공지능 모델은 인터넷이나 문서에서 수집된 대규모 데이터를 기반으로 학습한다.
- 하지만 모델은 실시간으로 계속 학습하지 않고, 특정 시점까지의 데이터를 모아서 학습을 완료한 뒤 고정된다.
- 그 시점을 Knowledge Cutoff Date라고 부른다.
- 그래서 cutoff 이후의 정보는 모델 내부 지식만으로는 알 수 없다. 별도의 리소스가 없다면 cutoff 이후의 사건을 "추측"해서 알려줄 수 밖에 없다.
- 이에 대한 보완책으로 "실시간 웹 검색 기능"이나 "외부 데이터 연결"을 통해 최신 정보를 반영한다.
컨텍스트 윈도우(context window)
- LLM이 "한 번에 이해하고 기억할 수 있는 입력 텍스트의 최대 길이"를 말한다.
- LLM은 대화할 때마다 사용자가 보낸 입력(prompt) 과 모델이 만든 출력(response) 을 모두 하나의 긴 텍스트로 이어서 처리한다. 이 전체 텍스트가 모델이 참조하는 맥락(context)이고, 이 맥락을 담을 수 있는 최대 크기를 context window라고 부른다.
- 컨텍스트 윈도우는 보통 토큰(token) 단위로 측정돼요. 토큰은 단어보다 작은 단위(단어 조각)로 측정된다.
- LLM은 윈도우를 넘어선 오래된 대화 내용은 잘라내거나 잊어버린다. 모델은 과거 전체 대화 기록을 무한히 기억하는 게 아니라, 최근 일정 범위 안의 텍스트만 기억하는 구조이다. 긴 문서를 다루거나 긴 대화를 이어가면 맥락이 손실될 수 있다.
super claude
“SuperClaude_Framework”은 Claude Code(Anthropic 사가 만든 AI/언어 모델 인터페이스 등) 위에 여러 가지 기능을 더해서, 보다 구조적이고 개발 친화적인 플랫폼으로 만들어 주는 메타-프로그래밍(configuration) 프레임워크이다. 자세한 것은 SuperClaude_Framework에서 살펴보자.
GitHub - SuperClaude-Org/SuperClaude_Framework: A configuration framework that enhances Claude Code with specialized commands, c
A configuration framework that enhances Claude Code with specialized commands, cognitive personas, and development methodologies. - SuperClaude-Org/SuperClaude_Framework
github.com
context7
Context7은 개발자들이 AI 코딩 도구를 사용할 때 항상 최신 문서 정보를 참조할 수 있도록 도와주는 도구이다. 최신, 버전별 문서와 코드 예제를 소스에서 직접 가져와서 Cursor, Claude 등의 AI 도구에 붙여넣을 수 있게 해준다. Next.js처럼 자주 업데이트되는 프레임워크에 유용하다.
Context7 - Up-to-date documentation for LLMs and AI code editors
Generate context with up-to-date documentation for LLMs and AI code editors
context7.com
GitHub - upstash/context7: Context7 MCP Server -- Up-to-date code documentation for LLMs and AI code editors
Context7 MCP Server -- Up-to-date code documentation for LLMs and AI code editors - upstash/context7
github.com
llms.txt file
대형 언어 모델(LLM; Large Language Models)이 웹사이트 정보를 사용할 때의 문제점은 다음과 같다.
- 컨텍스트 윈도우(context window)가 제한적이어서, 전체 웹사이트 또는 복잡한 HTML 문서 전체를 한꺼번에 처리하기 어려움
- HTML에는 네비게이션 바, 광고, 자바스크립트 등 불필요한 구조가 많아서, LLM 입장에서 “필요한 정보만 뽑아내기” 힘듦
특히 개발 문서, API, 튜토리얼 같은 곳에서는 LLM이 가능한 한 빠르고 정확한 참조 정보를 원한다.
그래서 llms.txt은 웹사이트 루트(혹은 하위 경로)에 `/llms.txt`라는 파일을 두어서, LLM이 사용할 수 있는 “요약된, 명시적이고 간결한” 정보를 제공하고자 한다.
이 파일은 다음과 같은 형식이 되어야 한다.
- Markdown 형식으로 작성됨 (사람도 읽고 LLM도 읽기 좋게).
- LLM이 파일을 파싱하거나 regex 같은 도구로 읽을 수 있게 약간의 구조(structure)가 있음.
자세한 스펙은 llmstxt.org을 참고하자.
The /llms.txt file – llms-txt
A proposal to standardise on using an /llms.txt file to provide information to help LLMs use a website at inference time.
llmstxt.org
MCP Server: github-mcp-server
자세한건 링크를 통해 알아보자.
GitHub - github/github-mcp-server: GitHub's official MCP Server
GitHub's official MCP Server. Contribute to github/github-mcp-server development by creating an account on GitHub.
github.com
Few-shot learning
모델에게 소수의 예시를 제공하여 특정 작업을 수행하는 능력을 향상시키는 인컨텍스트(in-context) 학습 방법을 말한다.
참고
'소프트웨어-이야기 > 단어사전' 카테고리의 다른 글
| ArchUnit: Java 아키텍처 테스트 라이브러리 (1) | 2025.08.03 |
|---|---|
| prompt injection: 바이브코딩과 신규 보안 취약점 (0) | 2025.06.27 |
| Claude Code (0) | 2025.06.27 |