Songstark Logo

AI / LLM 개발 외주

AI / LLM 프로덕트 개발 외주 — 멀티 LLM, RAG, 에이전트.

Claude · Gemini · OpenAI를 한 코드베이스에서 라우팅하고, pgvector·Upstash 기반 RAG와 Function Calling 에이전트까지 운영합니다. 자체 음성 분석 엔진(SpeechMap)을 직접 만든 팀이라 "여기엔 LLM API만, 여긴 강제 정렬, 여긴 차라리 AI를 안 쓰는 게 낫다"를 빠르게 판단합니다.

이 카테고리에서 우리가 푼 기술 문제

  • 01

    멀티 LLM 라우팅

    한 워크플로우에서 Claude는 이메일 초안에, Gemini는 이미지·영상 분석에, OpenAI는 임베딩·정형 응답에 — 각 모델의 강점에 맞춰 라우팅합니다.

    마레아홀딩스 · 자체 history-book · band-ai

  • 02

    pgvector RAG (3072 차원, Function Calling 10개)

    Supabase + pgvector로 RAG를 구축하고 Function Calling 도구 10개를 한 에이전트에 묶습니다. 토큰·지연시간을 위해 retrieval 단계와 reasoning 단계 캐싱 전략을 분리합니다.

    lms-ct (B2B 기업 교육 LMS)

  • 03

    한국어 chunking

    LLM 토크나이저는 한국어를 비효율적으로 자릅니다. 어절 vs sentence vs sliding window의 트레이드오프를 도메인별로 다르게 적용합니다.

    lms-ct · jahwalcoop 자활협동조합 RAG

  • 04

    Anthropic Computer Use 한국 워크플로우 적용

    Computer Use를 KAIST 교수 대상 대량 아웃리치 워크플로우에 적용 — xlsx 파싱부터 개인화 이메일 초안 병렬 생성, Resend 일괄 발송까지.

    마레아홀딩스 automation 플랫폼

  • 05

    LLM 비용 1/10 최적화

    프롬프트 캐싱, batch API, 모델 mix(요약은 Haiku·정밀 reasoning은 Sonnet/Opus), 결과 캐싱 — 4가지 패턴을 동시에 적용합니다.

    veltis-ai-studio · automation

  • 06

    AI Agent Function Calling 안정성

    도구 10개 이상 줄 때 모델이 잘못된 도구를 부르거나 인자를 누락하는 패턴을 발견하고, 도구 grouping과 이전 turn 요약으로 회피합니다.

    lms-ct · band-ai

추천 기술 스택

  • Anthropic Claude SDK
  • Google Gemini
  • OpenAI
  • pgvector
  • Upstash Redis
  • Supabase
  • Next.js 16
  • Cloud Run

자주 묻는 질문

Claude API와 Gemini API 중 어느 쪽으로 시작해야 하나요?
한국어 reasoning 깊이는 Claude Sonnet/Opus가 우세, 멀티모달(이미지·영상)과 비용 효율은 Gemini가 우세합니다. 텍스트 중심 B2B 워크플로우면 Claude로 시작하고, 영상·이미지 비중이 크면 Gemini를 우선 라우팅합니다. 한 코드베이스에서 둘을 섞는 게 표준 패턴이며, 송앤스타크는 이 라우팅 코드를 자사 프로덕트에서 운영 중입니다.
RAG 시스템 구축에 pgvector vs Pinecone 어떻게 선택하나요?
이미 Postgres(Supabase)를 쓰고 있다면 pgvector가 95% 정답입니다 — 별도 인프라 없음, RLS로 권한 관리 통합, 비용 0(스토리지만). Pinecone은 1억건+ 벡터 또는 sub-100ms 정밀 추구 시점에 검토합니다. lms-ct는 pgvector 3072차원으로 운영 중입니다.
AI Agent 외주 개발 비용 산정 기준은?
도구(Function Calling) 5개 미만 + 단일 LLM 사용 = 4–6주, 도구 10개 이상 + 멀티 LLM 라우팅 + 메모리 관리 = 8–12주가 표준입니다. 운영비는 LLM API 토큰 + Supabase + Vercel/Cloud Run으로 월 $200–$2000 사이가 일반 범위. 정확한 견적은 도구 목록과 예상 호출량 받아 1주 안에 회신합니다.
온프레미스 LLM이 가능한가요?
Llama 3.3 / Qwen 2.5 / DeepSeek-V3급의 오픈 모델을 vLLM·Text Generation Inference로 서빙하면 가능합니다. 다만 GPU 서버 운영비(월 $1500+)와 모델 성능 격차(GPT-4o/Claude Sonnet 대비 -15~30%)를 사전에 인지하셔야 합니다. 대부분의 B2B 워크플로우는 클라우드 API + 데이터 마스킹 + Anthropic의 Zero-Data-Retention 옵션 조합이 ROI가 더 큽니다.
한국어 LLM 성능은 영문 대비 어느 정도인가요?
Claude Sonnet 4.6 기준 한국어 reasoning은 영문 대비 약 90~95% 수준에 도달했습니다(2026년 4월 기준). Gemini 2.5 Pro도 비슷한 격차. 다만 한국어 토큰 효율은 영문 대비 1.5~2배 비싸므로(같은 의미 더 많은 토큰), 비용·지연시간 산정 시 반드시 반영합니다.
외주 의뢰 시 데이터는 어떻게 보호되나요?
표준 NDA + 데이터 분리 환경(별도 Supabase 프로젝트) + LLM API의 Zero-Data-Retention 모드(Anthropic·OpenAI 모두 지원)를 기본 적용합니다. 의료·임상 데이터는 별도로 멀티테넌시 RLS와 익명화 워크플로우를 추가합니다. 자세한 내용은 임상 SaaS 페이지에서 다룹니다.

AI를 어떻게 붙일지부터 같이 보겠습니다.

영업 PM 거치지 않고 대표나 코어 엔지니어가 1영업일 안에 직접 답합니다.