gemma4:26b vs qwen3.6:27b
동일 호스트·동일 추론 모드·v1.1 78개 테스트로 비교한 두 모델의 본질. 보정 후 통과율은 동급, 속도는 13배 격차로 일관 확정됐다.
숫자로 보는 핵심
raw 통과율은 qwen이 +3pt 우세지만, 룰·인프라 결함을 보정하면 두 모델은 3pt 이내 동급 영역으로 수렴한다.
인터랙티브 사용은 gemma 외 선택지가 없다
TPS · TTFT-content · 누적 wall time 세 축 모두에서 격차가 일관 확정됐다. qwen TPS는 12~13으로 거의 상수 — 모델·하드웨어 한계.
Tokens / Second (median)
전 카테고리 중앙값TTFT-content (median)
사용자 체감 침묵누적 Wall Time
평가 인프라 부담6 카테고리 × 2 모델 통과율
raw entry-level 통과율. 6 카테고리 중 2개 동률, 3개 qwen 미세 우세, 1개(instruction)는 둘 다 0% — 전부 채점·인프라 결함.
| 카테고리 | gemma4:26b | qwen3.6:27b |
|---|---|---|
| speed11 entry · 둘 다 룰 결함 1건만 실패 |
90.9%
|
90.9%
|
| coding54 entry · qwen이 응답 스타일로 contains 통과 유리 |
87.0%
|
94.4%
|
| agent27 entry · gemma는 worker timeout 2건 손실, 보정 시 100% |
92.6%
|
100%
|
| qa75 entry · 신뢰도 매우 높음 |
84.0%
|
85.3%
|
| trick45 entry · 동률 · 자기참조 1건 둘 다 실패 |
80.0%
|
80.0%
|
| instruction19 entry · 전부 룰/인프라 결함 — 측정 불능 |
0%
|
0%
|
TL;DR
78 test_id 전수 데이터로 1차 보고서 가설 4건을 검증·확정 또는 폐기했다.
-
01
보정 통과율은 사실상 동급
raw gemma 78.4% vs qwen 81.4%. 룰·인프라 결함 보정 후 gemma ~95% vs qwen ~92%로 격차 3pt 이내. 78 test_id 전체에서도 1차 보고서의 동급 결론이 유지된다.
-
02
속도 격차는 13배로 일관 확정
6개 카테고리 모두에서 gemma TPS 95~156 vs qwen 12~13. qwen TPS 표준편차 ±0.15 — 모델·하드웨어 한계로 개선 불가. TTFT-content median은 3.7s vs 55.1s. 인터랙티브는 gemma 외 선택지 없음.
-
03
두 모델 공통 진짜 약점 2건 식별
Both-Fail 13건 중 11건은 채점 룰(JS regex 한국어 미지원, javascript shape) 결함, 진짜 LLM 일반 한계는 단 2건 —
trick_family_relations(자기참조 가족 관계),qa_reasoning_006(영업일 1일 오차). v1.2에서 LLM 일반 한계 벤치마크로 격상 가치. -
04
단일 trigger 도미노 가설은 폐기
qwen 청크 재실행으로 모든 카테고리 무사 완주.
coding_debug_002등 충돌 trigger 의심 항목들이 단독 실행 시 모두 정상 응답. 진짜 원인은 단일 호스트 + maxConcurrency=4 누적 KV 캐시 부담. 카테고리별 직렬 실행 패턴이 효과 검증. -
05
하네스 v2의 가치는 net positive 확정
TTFT 분리 측정·thinking 정확 캡처는 모델 선택 의사결정에 결정적이었음(qwen 인터랙티브 사용 불가 판정의 근거). v2 도구 결함은 약 12건의 측정 손실(11%)을 유발하지만 운영 패턴(청크 직렬)으로 회피 가능. v3에서 JS regex 마이그레이션 + assertion shape 표준화 우선.
데이터가 말한 것
가설 검증 결과 의외의 패턴들. thinking 길이와 정답률, 도미노 충돌의 진짜 원인.
"thinking 길수록 정답이라는 가설은 78 test 전수 데이터에서도 기각됐다. 두 모델 모두 U자형 — Q1·Q2 95%, Q3 73%, Q4 회복 80%대. 모델이 망설이는 중간 영역(1k~5k자 추론)이 가장 위험하다는 점은 보편 패턴.
— comparison_v2_final.md · §3.2 양 모델 4분위 분석
"qwen은 단일 trigger 도미노 가설 부정 — 누적 KV 캐시 부담이 진짜 원인이었다. 청크 직렬 재실행으로 응답 캡처율이 22.5%에서 98.3%로 4.4배 증가. 항목·모델 결함이 아닌 인프라 패턴 문제로 확정.
— comparison_v2_final.md · §7.3 도미노 가설 검증
"— comparison_v2_final.md · §5.4 진짜 LLM 한계 deep dive
trick_family_relations에서 두 모델은 글자 한 글자 똑같은 오답을 생성했다 — "영수와 민수는 형제 관계입니다". 가족 관계의 자기참조 가능성("X의 부모의 자식 = X일 수 있음")을 두 다른 아키텍처가 동일하게 닫는다.
시나리오별 권장
보정 통과율은 동급. 결정 변수는 latency · 답변 스타일 · 일관성.
실시간 챗봇 / IDE 보조
TTFT-content 3.7s vs 55s. 챗봇 임계 8s 기준 gemma는 95% 응답이 임계 이내, qwen은 50%만.
짧은 사실 QA / 단어 답
trick·qa median 2.1~2.4s. qwen은 같은 영역 28~29s. 추론 비효율 gemma 226× vs qwen 515×.
한국어 장문 작성
speed_long_003 (5문단): gemma 46s vs qwen 386s (8배). 품질은 동급.
한국어 코드 리뷰 (배치)
이모지·보너스 케이스 자발 추가. 답변 풍부도 상위. 실시간성 무관 시나리오 한정.
메타인지 / 모순 감지 (배치)
agent 8/8 vs gemma 7/8. entry간 일관성 더 높음 (temperature=0). latency 6배 감수 필요.
엄격한 형식 / 자기참조 퍼즐
50단어·JSON 자기검증 무한 루프 발생. 가족 관계 자기참조는 양 모델 동일 오답 — LLM 일반 한계.