Question 1

Claude API와 Gemini API 중 어느 쪽으로 시작해야 하나요?

Accepted Answer

한국어 reasoning 깊이는 Claude Sonnet/Opus가 우세, 멀티모달(이미지·영상)과 비용 효율은 Gemini가 우세합니다. 텍스트 중심 B2B 워크플로우면 Claude로 시작하고, 영상·이미지 비중이 크면 Gemini를 우선 라우팅합니다. 한 코드베이스에서 둘을 섞는 게 표준 패턴이며, 송앤스타크는 이 라우팅 코드를 자사 프로덕트에서 운영 중입니다.

Question 2

RAG 시스템 구축에 pgvector vs Pinecone 어떻게 선택하나요?

Accepted Answer

이미 Postgres(Supabase)를 쓰고 있다면 pgvector가 95% 정답입니다 — 별도 인프라 없음, RLS로 권한 관리 통합, 비용 0(스토리지만). Pinecone은 1억건+ 벡터 또는 sub-100ms 정밀 추구 시점에 검토합니다. lms-ct는 pgvector 3072차원으로 운영 중입니다.

Question 3

AI Agent 외주 개발 비용 산정 기준은?

Accepted Answer

도구(Function Calling) 5개 미만 + 단일 LLM 사용 = 4–6주, 도구 10개 이상 + 멀티 LLM 라우팅 + 메모리 관리 = 8–12주가 표준입니다. 운영비는 LLM API 토큰 + Supabase + Vercel/Cloud Run으로 월 $200–$2000 사이가 일반 범위. 정확한 견적은 도구 목록과 예상 호출량 받아 1주 안에 회신합니다.

Question 4

온프레미스 LLM이 가능한가요?

Accepted Answer

Llama 3.3 / Qwen 2.5 / DeepSeek-V3급의 오픈 모델을 vLLM·Text Generation Inference로 서빙하면 가능합니다. 다만 GPU 서버 운영비(월 $1500+)와 모델 성능 격차(GPT-4o/Claude Sonnet 대비 -15~30%)를 사전에 인지하셔야 합니다. 대부분의 B2B 워크플로우는 클라우드 API + 데이터 마스킹 + Anthropic의 Zero-Data-Retention 옵션 조합이 ROI가 더 큽니다.

Question 5

한국어 LLM 성능은 영문 대비 어느 정도인가요?

Accepted Answer

Claude Sonnet 4.6 기준 한국어 reasoning은 영문 대비 약 90~95% 수준에 도달했습니다(2026년 4월 기준). Gemini 2.5 Pro도 비슷한 격차. 다만 한국어 토큰 효율은 영문 대비 1.5~2배 비싸므로(같은 의미 더 많은 토큰), 비용·지연시간 산정 시 반드시 반영합니다.

Question 6

외주 의뢰 시 데이터는 어떻게 보호되나요?

Accepted Answer

표준 NDA + 데이터 분리 환경(별도 Supabase 프로젝트) + LLM API의 Zero-Data-Retention 모드(Anthropic·OpenAI 모두 지원)를 기본 적용합니다. 의료·임상 데이터는 별도로 멀티테넌시 RLS와 익명화 워크플로우를 추가합니다. 자세한 내용은 임상 SaaS 페이지에서 다룹니다.

AI / LLM 프로덕트 개발 외주 — 멀티 LLM, RAG, 에이전트.

이 카테고리에서 우리가 푼 기술 문제

멀티 LLM 라우팅

pgvector RAG (3072 차원, Function Calling 10개)

한국어 chunking

Anthropic Computer Use 한국 워크플로우 적용

LLM 비용 1/10 최적화

AI Agent Function Calling 안정성

추천 기술 스택

자주 묻는 질문

관련 엔지니어링 노트

Claude · Gemini · OpenAI를 한 코드베이스에서 — 멀티 LLM 아키텍처

AI를 어떻게 붙일지부터 같이 보겠습니다.