LLM Evaluation Report · v2 Final

gemma4:26b vs qwen3.6:27b

동일 호스트·동일 추론 모드·v1.1 78개 테스트로 비교한 두 모델의 본질. 보정 후 통과율은 동급, 속도는 13배 격차로 일관 확정됐다.

Tests78 · v1.1
Entries231 / 모델
Modethink=on · temp=0
Host192.168.0.96:11434
Date2026-04-30
01 · 요약 매트릭스

숫자로 보는 핵심

raw 통과율은 qwen이 +3pt 우세지만, 룰·인프라 결함을 보정하면 두 모델은 3pt 이내 동급 영역으로 수렴한다.

gemma 보정 통과율
0%
raw 78.4% · test-level 78.2%
qwen 보정 통과율
0%
raw 81.4% · test-level 83.3%
평균 TPS 격차
0×
gemma 96 · qwen 13.2 (med)
TTFT-content 격차
0×
gemma 3.7s · qwen 55.1s (med)
둘 다 통과
0 / 78
Both Pass test_id (78.2% 영역)
진짜 LLM 한계
0 / 13
Both Fail 13건 중 11건은 룰 결함
02 · 속도 격차

인터랙티브 사용은 gemma 외 선택지가 없다

TPS · TTFT-content · 누적 wall time 세 축 모두에서 격차가 일관 확정됐다. qwen TPS는 12~13으로 거의 상수 — 모델·하드웨어 한계.

Tokens / Second (median)

전 카테고리 중앙값
gemma4:26b
96
tokens / sec · 카테고리별 95~156 변동
vs
qwen3.6:27b
13.2
tokens / sec · 표준편차 ±0.15 (compute-bound)
속도 격차 약 13× · qwen은 6 카테고리 전부 12~13 사이에서 변동 없음

TTFT-content (median)

사용자 체감 침묵
gemma4:26b
3.7s
p95 13.6s · 챗봇 임계 8s 안전
vs
qwen3.6:27b
55.1s
p95 333.0s · max 570.9s
격차 15× · qwen은 median부터 챗봇 임계의 7배 초과

누적 Wall Time

평가 인프라 부담
gemma4:26b
36분
일괄 실행 130.7분 wall · sum-latency 35.7m
vs
qwen3.6:27b
5h+
청크 직렬 누적 ~340분 · sum-latency ~100m
entry당 worker time 2.7× · 1차 보고서의 13배는 도미노 충돌 폐기 시간 포함이었음
03 · 카테고리별 매트릭스

6 카테고리 × 2 모델 통과율

raw entry-level 통과율. 6 카테고리 중 2개 동률, 3개 qwen 미세 우세, 1개(instruction)는 둘 다 0% — 전부 채점·인프라 결함.

카테고리 gemma4:26b qwen3.6:27b
speed11 entry · 둘 다 룰 결함 1건만 실패
90.9%
90.9%
coding54 entry · qwen이 응답 스타일로 contains 통과 유리
87.0%
94.4%
agent27 entry · gemma는 worker timeout 2건 손실, 보정 시 100%
92.6%
100%
qa75 entry · 신뢰도 매우 높음
84.0%
85.3%
trick45 entry · 동률 · 자기참조 1건 둘 다 실패
80.0%
80.0%
instruction19 entry · 전부 룰/인프라 결함 — 측정 불능
0%
0%
04 · 핵심 결론 5선

TL;DR

78 test_id 전수 데이터로 1차 보고서 가설 4건을 검증·확정 또는 폐기했다.

  1. 01

    보정 통과율은 사실상 동급

    raw gemma 78.4% vs qwen 81.4%. 룰·인프라 결함 보정 후 gemma ~95% vs qwen ~92%로 격차 3pt 이내. 78 test_id 전체에서도 1차 보고서의 동급 결론이 유지된다.

  2. 02

    속도 격차는 13배로 일관 확정

    6개 카테고리 모두에서 gemma TPS 95~156 vs qwen 12~13. qwen TPS 표준편차 ±0.15 — 모델·하드웨어 한계로 개선 불가. TTFT-content median은 3.7s vs 55.1s. 인터랙티브는 gemma 외 선택지 없음.

  3. 03

    두 모델 공통 진짜 약점 2건 식별

    Both-Fail 13건 중 11건은 채점 룰(JS regex 한국어 미지원, javascript shape) 결함, 진짜 LLM 일반 한계는 단 2건 — trick_family_relations(자기참조 가족 관계), qa_reasoning_006(영업일 1일 오차). v1.2에서 LLM 일반 한계 벤치마크로 격상 가치.

  4. 04

    단일 trigger 도미노 가설은 폐기

    qwen 청크 재실행으로 모든 카테고리 무사 완주. coding_debug_002 등 충돌 trigger 의심 항목들이 단독 실행 시 모두 정상 응답. 진짜 원인은 단일 호스트 + maxConcurrency=4 누적 KV 캐시 부담. 카테고리별 직렬 실행 패턴이 효과 검증.

  5. 05

    하네스 v2의 가치는 net positive 확정

    TTFT 분리 측정·thinking 정확 캡처는 모델 선택 의사결정에 결정적이었음(qwen 인터랙티브 사용 불가 판정의 근거). v2 도구 결함은 약 12건의 측정 손실(11%)을 유발하지만 운영 패턴(청크 직렬)으로 회피 가능. v3에서 JS regex 마이그레이션 + assertion shape 표준화 우선.

05 · 흥미로운 사례

데이터가 말한 것

가설 검증 결과 의외의 패턴들. thinking 길이와 정답률, 도미노 충돌의 진짜 원인.

"

thinking 길수록 정답이라는 가설은 78 test 전수 데이터에서도 기각됐다. 두 모델 모두 U자형 — Q1·Q2 95%, Q3 73%, Q4 회복 80%대. 모델이 망설이는 중간 영역(1k~5k자 추론)이 가장 위험하다는 점은 보편 패턴.

— comparison_v2_final.md · §3.2 양 모델 4분위 분석
"

qwen은 단일 trigger 도미노 가설 부정 — 누적 KV 캐시 부담이 진짜 원인이었다. 청크 직렬 재실행으로 응답 캡처율이 22.5%에서 98.3%로 4.4배 증가. 항목·모델 결함이 아닌 인프라 패턴 문제로 확정.

— comparison_v2_final.md · §7.3 도미노 가설 검증
"

trick_family_relations에서 두 모델은 글자 한 글자 똑같은 오답을 생성했다 — "영수와 민수는 형제 관계입니다". 가족 관계의 자기참조 가능성("X의 부모의 자식 = X일 수 있음")을 두 다른 아키텍처가 동일하게 닫는다.

— comparison_v2_final.md · §5.4 진짜 LLM 한계 deep dive
06 · 모델 선택 가이드

시나리오별 권장

보정 통과율은 동급. 결정 변수는 latency · 답변 스타일 · 일관성.

gemma 강추천

실시간 챗봇 / IDE 보조

TTFT-content 3.7s vs 55s. 챗봇 임계 8s 기준 gemma는 95% 응답이 임계 이내, qwen은 50%만.

gemma 추천

짧은 사실 QA / 단어 답

trick·qa median 2.1~2.4s. qwen은 같은 영역 28~29s. 추론 비효율 gemma 226× vs qwen 515×.

gemma 추천

한국어 장문 작성

speed_long_003 (5문단): gemma 46s vs qwen 386s (8배). 품질은 동급.

qwen 추천

한국어 코드 리뷰 (배치)

이모지·보너스 케이스 자발 추가. 답변 풍부도 상위. 실시간성 무관 시나리오 한정.

qwen 추천

메타인지 / 모순 감지 (배치)

agent 8/8 vs gemma 7/8. entry간 일관성 더 높음 (temperature=0). latency 6배 감수 필요.

둘 다 비추천

엄격한 형식 / 자기참조 퍼즐

50단어·JSON 자기검증 무한 루프 발생. 가족 관계 자기참조는 양 모델 동일 오답 — LLM 일반 한계.