요즘 하나의 모델만 사용하진 않는다. 새롭게 사용하고 있는 Goose 기반에 여러 모델들을 상황에 맞춰 사용중이다. Antigravity에서 자주 사용하던 스킬들도 Goose용으로 Porting 해두었으니, 사용해보실분들은 참고하세요. (https://github.com/giljae/goose-agent-skills)
위 상황으로 인해 Reddit에서 LLM 모델에 대한 흥미로운 글 들을 읽고 여기에 정리한다.
지금 Reddit 분위기는 모델을 아래처럼 구분해서 사용한다.
즉, 하나의 모델만 사용하지 않고 '포지션별 전문화'로 넘어간 것이다. 그래서 "There is no best model anymore." 라는 말이 자주 등장한다.
- Calude -> 설계/코드
- GPT -> 논리 검증
- Gemini -> 검색/속도
- Qwen -> 로컬
- DeepSeek -> 저렴한 대량 처리
이런 조합 사용이 일반화되고 있는 듯 하다. Reddit 분위기에서는 공식 리더보드보다 실사용 경험을 더 중요하게 보는 느낌이 강했다.
MMLU 점수는 높은데 장문 대화가 불안정하거나 코드 수정 중에 context를 잃거나 환각이 심하다는 평가들이 있었다.
반대로 벤치마크 점수는 조금 낮아도 응답 스타일이 안정적이고, 문맥 유지가 좋고 원하는 흐름을 잘 따라온다면 실사용 만족도가 높은 것 같았다.
위 현상은 Reddit에서 특히 강하게 나온다. 커뮤니티 사용자들은 '지시를 얼마나 정확히 따르는가'를 중요하게 보는 것 같다.
많은 사람들이 LLM을 단순히 '똑똑함'으로 평가한다. 그런데 실제 업무에 적용하게되면 아래와 같은 것들이 더 중요하다.
- 규칙 유지
- 역할 유지
- 출력 형식 유지
- 긴 프롬프트 준수
- 문맥 기억
- 제약 조건 준수
뭐랄까? '말 잘 듣는게 중요하다.' 그래서 Agent Engineering에서는 모델의 IQ보다 Workflow Obedience를 더 중요하게 본다.
내 주변도 그렇고, Reddit에서도 Claude에 대한 언급이 많다. 언급되는 내용들은 아래와 같은 것들이다.
- 코드 수정
- 긴 문맥 유지
- 설계 문서 작성
- 대규모 리팩토링
- 에이전트 워크플로우
위 영역에 대해서 높은 평가를 받는다. Claude가 훌륭하다면서 '똑똑'하다는 얘기보다는 "일하기 편하다." "덜 싸운다" "맥락을 잘 유지한다." "지속성이 좋다." 등 이런 칭찬들이 많았다. 이건 꽤 중요한 변화다. LLM 경쟁이 IQ에서 협업 경험으로 넘어가고 있다는 의미이기 때문이다.
GPT 계열도 여전히 강력한 위치를 유지하고 있다.
- reasoning
- debugging
- structured workflow
- research
위 영역에서 평가가 좋다. 이런 좋은 평가는 모델에 한정되진 않는다. memory, multimodal, Codex, GPTs 등 플랫폼 경험에 대한 부분들이 언급된다.
그리고 오픈 소스 모델도 많이 사용하고 있다. 앞에서 언급했듯이 하나의 모델만 사용하지 않기에 상황에 따라 전략적 옵션으로 사용된다.
돈이 없어서 오픈 소스 모델을 쓴다기 보다는 아래의 이유가 있다.
- 로컬 실행
- 프라이버시
- 커스터마이징
- latency
- agent integration
- self-hosting
- 비용 최적화
과거 프롬프트만 사용하던 시절에서 Agent workflow로 넘어간 현재는 비용이 폭발적으로 증가한다. 그래서 큰 reasoning은 Calude/GPT, 반복 task는 Qwen/DeepSeek을 사용하는 LLM Tier routing 구조가 많아진다.
사람들이 이제는 모델 자체보다 툴 체인, 에이전트 구조, workflow를 더 중요하게 본다. 왜냐하면 실제 생산성은 모델 IQ보다 context management, file understanding, retry strategy, memory, orchestration에서 갈리기 때문이다.
경쟁력은 '최고의 모델'보다 '최적의 AI 작업 환경'에 가까워지고 있다.
아래 링크에서 흥미로왔던 내용들은 아래에 정리한다.
https://www.reddit.com/r/SillyTavernAI/comments/1s9eqja/results_of_ranking_models_on_how_well_they_follow/
테스트 결과 확인: https://github.com/FuzzySlipper/quillforge/tree/main/docs/llm-debug
Minimax/Sonnet은 기본적으로 의도를 잘못 이해했다.
GPT는 일관되게 정확하게 응답했다.
KAMI는 깊이가 없다.
https://www.reddit.com/r/ChatGPT/comments/1sjli0h/ranked_every_llm_sub_by_price_tier_after_a_year/
테스트 결과 확인: https://llmx.tech/blog/best-value-llm-subscriptions-2026/
Claude Max 20x이 최고라고 언급한다.
각 금액별 등급이 있는데, 20달러 등급에서는 ChatGPT Plus를 추천한다. 그 이유는 chat 할당량과 codex 할당량이 서로 겹치지 않는 별도 관리를 하기에...
https://www.reddit.com/r/LocalLLaMA/comments/1raa7jm/we_benchmarked_9_llm_models_for_stock_direction/
주가 방향 예측을 위해 벤치마킹한 결과에 대한 글이다.
추론 모델이 비추론 모델 대비 훨씬 좋고, 매개변수가 크다고 항상 좋은 것은 아니었다고 한다. 아이러니하게도 금융 특화 모델로 홍보된 Palmyra-Fin 모델이 성과가 가장 저조했다.
결국, 최근 흐름은 단순하다. 예전에는 하나의 가장 강력한 모델을 찾았다면, 지금은 역할에 맞는 모델을 조합하는 방향으로 이동하고 있다.
나의 경우는 아래처럼 사용한다.
앞으로의 경쟁력은 '가장 똑똑한 모델'보다 'AI를 가장 잘 활용하는 시스템'에서 갈릴 가능성이 커 보인다.
Sources:
- https://www.reddit.com/r/ChatGPT/comments/1sjli0h/ranked_every_llm_sub_by_price_tier_after_a_year/
- https://www.reddit.com/r/ChatGPT/comments/1ote5ki/i_tried_50_llm_models_here_are_the_best_ones/
- https://www.reddit.com/r/LocalLLaMA/comments/1raa7jm/we_benchmarked_9_llm_models_for_stock_direction/
- https://www.reddit.com/r/SillyTavernAI/comments/1s9eqja/results_of_ranking_models_on_how_well_they_follow/
0 Comments:
댓글 쓰기