무설치·인프라 구축 필요 없이 POST 한 번으로 Llama, Qwen, DeepSeek, Mistral, Gemma, gpt-oss 등 60여 종의 LLM을 즉시 호출할 수 있는 RESTful 전용 중계 API 입니다. 완전 stateless — 서버는 대화 히스토리·세션·페르소나 데이터를 일절 보관하지 않습니다.
누구나 쉽게 — 노출 파라미터 최소화
/chat 에서 앱이 신경써야 할 파라미터는 8개로 압축되어 있습니다:
model, messages/content, system, mode, temperature, max_tokens, speed, compact.
나머지 top_p, top_k, presence_penalty, frequency_penalty, seed, logit_bias, n, repetition_penalty, response_format, tools, tool_choice, stop, user 같은 "잘 안 쓰는" 파라미터는 서버가 무시하고 안전한 기본값으로 동작합니다. max_tokens 는 미지정 시 각 모델이 지원하는 최대 컨텍스트까지 자동 허용되며, 지정해도 모델 한계를 초과하면 조용히 클램프됩니다 (긴 답변 짤림·업스트림 400 오류 방지).