AI / LLM 개발 외주
AI / LLM 프로덕트 개발 외주 — 멀티 LLM, RAG, 에이전트.
Claude · Gemini · OpenAI를 한 코드베이스에서 라우팅하고, pgvector·Upstash 기반 RAG와 Function Calling 에이전트까지 운영합니다. 자체 음성 분석 엔진(SpeechMap)을 직접 만든 팀이라 "여기엔 LLM API만, 여긴 강제 정렬, 여긴 차라리 AI를 안 쓰는 게 낫다"를 빠르게 판단합니다.
이 카테고리에서 우리가 푼 기술 문제
01
멀티 LLM 라우팅
한 워크플로우에서 Claude는 이메일 초안에, Gemini는 이미지·영상 분석에, OpenAI는 임베딩·정형 응답에 — 각 모델의 강점에 맞춰 라우팅합니다.
마레아홀딩스 · 자체 history-book · band-ai
02
pgvector RAG (3072 차원, Function Calling 10개)
Supabase + pgvector로 RAG를 구축하고 Function Calling 도구 10개를 한 에이전트에 묶습니다. 토큰·지연시간을 위해 retrieval 단계와 reasoning 단계 캐싱 전략을 분리합니다.
lms-ct (B2B 기업 교육 LMS)
03
한국어 chunking
LLM 토크나이저는 한국어를 비효율적으로 자릅니다. 어절 vs sentence vs sliding window의 트레이드오프를 도메인별로 다르게 적용합니다.
lms-ct · jahwalcoop 자활협동조합 RAG
04
Anthropic Computer Use 한국 워크플로우 적용
Computer Use를 KAIST 교수 대상 대량 아웃리치 워크플로우에 적용 — xlsx 파싱부터 개인화 이메일 초안 병렬 생성, Resend 일괄 발송까지.
마레아홀딩스 automation 플랫폼
05
LLM 비용 1/10 최적화
프롬프트 캐싱, batch API, 모델 mix(요약은 Haiku·정밀 reasoning은 Sonnet/Opus), 결과 캐싱 — 4가지 패턴을 동시에 적용합니다.
veltis-ai-studio · automation
06
AI Agent Function Calling 안정성
도구 10개 이상 줄 때 모델이 잘못된 도구를 부르거나 인자를 누락하는 패턴을 발견하고, 도구 grouping과 이전 turn 요약으로 회피합니다.
lms-ct · band-ai
추천 기술 스택
- Anthropic Claude SDK
- Google Gemini
- OpenAI
- pgvector
- Upstash Redis
- Supabase
- Next.js 16
- Cloud Run
자주 묻는 질문
- Claude API와 Gemini API 중 어느 쪽으로 시작해야 하나요?
- 한국어 reasoning 깊이는 Claude Sonnet/Opus가 우세, 멀티모달(이미지·영상)과 비용 효율은 Gemini가 우세합니다. 텍스트 중심 B2B 워크플로우면 Claude로 시작하고, 영상·이미지 비중이 크면 Gemini를 우선 라우팅합니다. 한 코드베이스에서 둘을 섞는 게 표준 패턴이며, 송앤스타크는 이 라우팅 코드를 자사 프로덕트에서 운영 중입니다.
- RAG 시스템 구축에 pgvector vs Pinecone 어떻게 선택하나요?
- 이미 Postgres(Supabase)를 쓰고 있다면 pgvector가 95% 정답입니다 — 별도 인프라 없음, RLS로 권한 관리 통합, 비용 0(스토리지만). Pinecone은 1억건+ 벡터 또는 sub-100ms 정밀 추구 시점에 검토합니다. lms-ct는 pgvector 3072차원으로 운영 중입니다.
- AI Agent 외주 개발 비용 산정 기준은?
- 도구(Function Calling) 5개 미만 + 단일 LLM 사용 = 4–6주, 도구 10개 이상 + 멀티 LLM 라우팅 + 메모리 관리 = 8–12주가 표준입니다. 운영비는 LLM API 토큰 + Supabase + Vercel/Cloud Run으로 월 $200–$2000 사이가 일반 범위. 정확한 견적은 도구 목록과 예상 호출량 받아 1주 안에 회신합니다.
- 온프레미스 LLM이 가능한가요?
- Llama 3.3 / Qwen 2.5 / DeepSeek-V3급의 오픈 모델을 vLLM·Text Generation Inference로 서빙하면 가능합니다. 다만 GPU 서버 운영비(월 $1500+)와 모델 성능 격차(GPT-4o/Claude Sonnet 대비 -15~30%)를 사전에 인지하셔야 합니다. 대부분의 B2B 워크플로우는 클라우드 API + 데이터 마스킹 + Anthropic의 Zero-Data-Retention 옵션 조합이 ROI가 더 큽니다.
- 한국어 LLM 성능은 영문 대비 어느 정도인가요?
- Claude Sonnet 4.6 기준 한국어 reasoning은 영문 대비 약 90~95% 수준에 도달했습니다(2026년 4월 기준). Gemini 2.5 Pro도 비슷한 격차. 다만 한국어 토큰 효율은 영문 대비 1.5~2배 비싸므로(같은 의미 더 많은 토큰), 비용·지연시간 산정 시 반드시 반영합니다.
- 외주 의뢰 시 데이터는 어떻게 보호되나요?
- 표준 NDA + 데이터 분리 환경(별도 Supabase 프로젝트) + LLM API의 Zero-Data-Retention 모드(Anthropic·OpenAI 모두 지원)를 기본 적용합니다. 의료·임상 데이터는 별도로 멀티테넌시 RLS와 익명화 워크플로우를 추가합니다. 자세한 내용은 임상 SaaS 페이지에서 다룹니다.
