개발가이드

  • 개발가이드

LLM(대규모 언어 모델) 서비스

무설치·인프라 구축 필요 없이 POST 한 번으로 Llama, Qwen, DeepSeek, Mistral, Gemma, gpt-oss 등 60여 종의 LLM을 즉시 호출할 수 있는 RESTful 전용 중계 API 입니다. 완전 stateless — 서버는 대화 히스토리·세션·페르소나 데이터를 일절 보관하지 않습니다.

엔드포인트 (단 2개)

Method
URL
과금
용도
POST
/rest/llm/chat
토큰 기반
단일 창구 — 단발·멀티턴·에이전트 전부 여기로
POST
/rest/llm/models
무과금
카탈로그 + 1M 토큰당 단가 + max_context 통합 조회

별도의 텍스트 도구 엔드포인트(/rest/llm/text_summary, /rest/llm/text_polish)는 100P 고정 과금으로 제공됩니다.

목적별 가이드

같은 /chat 엔드포인트지만 사용 목적에 따라 접근 방식이 다릅니다. 본인 상황에 맞는 가이드부터 시작하세요.

목적
가이드
핵심 기법
한 번 호출하고 답 받기
content 한 필드 · system 지시문
여러 턴에 걸쳐 대화
messages[] · sliding_window · compacted_messages
페르소나·UX 갖춘 챗봇
mode · 에러 매핑 · 스트리밍 · Chatbot 클래스 코드
도메인 특화 AI 비서
6요소 system prompt · few-shot · JSON 강제 · 거절 규칙
API 전체 스펙
파라미터·응답·에러 코드 전체 표

과금 방식

/chat 은 각 모델에 정해진 input 1M 토큰당 포인트·output 1M 토큰당 포인트 단가로 요청마다 실제 사용 토큰에 비례해 자동 과금됩니다. 1포인트 = 1원 (부가세별도).

모델별 단가·max_context 는 POST /rest/llm/models 응답으로 조회하세요. 카탈로그 + 가격표가 한 응답에 통합되어 있습니다.

누구나 쉽게 — 노출 파라미터 최소화

/chat 에서 앱이 신경써야 할 파라미터는 8개로 압축되어 있습니다: model, messages/content, system, mode, temperature, max_tokens, speed, compact.

나머지 top_p, top_k, presence_penalty, frequency_penalty, seed, logit_bias, n, repetition_penalty, response_format, tools, tool_choice, stop, user 같은 "잘 안 쓰는" 파라미터는 서버가 무시하고 안전한 기본값으로 동작합니다. max_tokens 는 미지정 시 각 모델이 지원하는 최대 컨텍스트까지 자동 허용되며, 지정해도 모델 한계를 초과하면 조용히 클램프됩니다 (긴 답변 짤림·업스트림 400 오류 방지).

제한사항

구분
내용
HTTP 메서드
모든 요청은 POST 만 허용 (GET / DELETE 불가).
SDK
OpenAI SDK 등 외부 클라이언트 직접 연동 미지원. RESTful JSON POST 만 허용.
세션
존재하지 않음. 히스토리는 전적으로 클라이언트가 messages[] 로 관리.
모델 제한
카탈로그에 없는 모델은 400 으로 차단.
현재 페이지 북마크