LLM Evaluation Report · v2 Final

gemma4:26b vs qwen3.6:27b

동일 호스트·동일 추론 모드·v1.1 78개 테스트로 비교한 두 모델의 본질. 보정 후 통과율은 동급, 속도는 13배 격차로 일관 확정됐다.

Tests78 · v1.1

Entries231 / 모델

Modethink=on · temp=0

Host192.168.0.96:11434

Date2026-04-30

01 · 요약 매트릭스

숫자로 보는 핵심

raw 통과율은 qwen이 +3pt 우세지만, 룰·인프라 결함을 보정하면 두 모델은 3pt 이내 동급 영역으로 수렴한다.

gemma 보정 통과율

raw 78.4% · test-level 78.2%

qwen 보정 통과율

raw 81.4% · test-level 83.3%

평균 TPS 격차

0×

gemma 96 · qwen 13.2 (med)

TTFT-content 격차

0×

gemma 3.7s · qwen 55.1s (med)

둘 다 통과

0 / 78

Both Pass test_id (78.2% 영역)

진짜 LLM 한계

0 / 13

Both Fail 13건 중 11건은 룰 결함

02 · 속도 격차

인터랙티브 사용은 gemma 외 선택지가 없다

TPS · TTFT-content · 누적 wall time 세 축 모두에서 격차가 일관 확정됐다. qwen TPS는 12~13으로 거의 상수 — 모델·하드웨어 한계.

Tokens / Second (median)

전 카테고리 중앙값

gemma4:26b

tokens / sec · 카테고리별 95~156 변동

qwen3.6:27b

13.2

tokens / sec · 표준편차 ±0.15 (compute-bound)

속도 격차 약 13× · qwen은 6 카테고리 전부 12~13 사이에서 변동 없음

TTFT-content (median)

사용자 체감 침묵

gemma4:26b

3.7s

p95 13.6s · 챗봇 임계 8s 안전

qwen3.6:27b

55.1s

p95 333.0s · max 570.9s

격차 15× · qwen은 median부터 챗봇 임계의 7배 초과

누적 Wall Time

평가 인프라 부담

gemma4:26b

36분

일괄 실행 130.7분 wall · sum-latency 35.7m

qwen3.6:27b

5h+

청크 직렬 누적 ~340분 · sum-latency ~100m

entry당 worker time 2.7× · 1차 보고서의 13배는 도미노 충돌 폐기 시간 포함이었음

03 · 카테고리별 매트릭스

6 카테고리 × 2 모델 통과율

raw entry-level 통과율. 6 카테고리 중 2개 동률, 3개 qwen 미세 우세, 1개(instruction)는 둘 다 0% — 전부 채점·인프라 결함.

카테고리	gemma4:26b	qwen3.6:27b
speed11 entry · 둘 다 룰 결함 1건만 실패	90.9%	90.9%
coding54 entry · qwen이 응답 스타일로 contains 통과 유리	87.0%	94.4%
agent27 entry · gemma는 worker timeout 2건 손실, 보정 시 100%	92.6%	100%
qa75 entry · 신뢰도 매우 높음	84.0%	85.3%
trick45 entry · 동률 · 자기참조 1건 둘 다 실패	80.0%	80.0%
instruction19 entry · 전부 룰/인프라 결함 — 측정 불능	0%	0%

04 · 핵심 결론 5선

TL;DR

78 test_id 전수 데이터로 1차 보고서 가설 4건을 검증·확정 또는 폐기했다.

01

보정 통과율은 사실상 동급

raw gemma 78.4% vs qwen 81.4%. 룰·인프라 결함 보정 후 gemma ~95% vs qwen ~92%로 격차 3pt 이내. 78 test_id 전체에서도 1차 보고서의 동급 결론이 유지된다.
02

속도 격차는 13배로 일관 확정

6개 카테고리 모두에서 gemma TPS 95~156 vs qwen 12~13. qwen TPS 표준편차 ±0.15 — 모델·하드웨어 한계로 개선 불가. TTFT-content median은 3.7s vs 55.1s. 인터랙티브는 gemma 외 선택지 없음.
03

두 모델 공통 진짜 약점 2건 식별

Both-Fail 13건 중 11건은 채점 룰(JS regex 한국어 미지원, javascript shape) 결함, 진짜 LLM 일반 한계는 단 2건 — trick_family_relations(자기참조 가족 관계), qa_reasoning_006(영업일 1일 오차). v1.2에서 LLM 일반 한계 벤치마크로 격상 가치.
04

단일 trigger 도미노 가설은 폐기

qwen 청크 재실행으로 모든 카테고리 무사 완주. coding_debug_002 등 충돌 trigger 의심 항목들이 단독 실행 시 모두 정상 응답. 진짜 원인은 단일 호스트 + maxConcurrency=4 누적 KV 캐시 부담. 카테고리별 직렬 실행 패턴이 효과 검증.
05

하네스 v2의 가치는 net positive 확정

TTFT 분리 측정·thinking 정확 캡처는 모델 선택 의사결정에 결정적이었음(qwen 인터랙티브 사용 불가 판정의 근거). v2 도구 결함은 약 12건의 측정 손실(11%)을 유발하지만 운영 패턴(청크 직렬)으로 회피 가능. v3에서 JS regex 마이그레이션 + assertion shape 표준화 우선.

05 · 흥미로운 사례

데이터가 말한 것

가설 검증 결과 의외의 패턴들. thinking 길이와 정답률, 도미노 충돌의 진짜 원인.

"
thinking 길수록 정답이라는 가설은 78 test 전수 데이터에서도 기각됐다. 두 모델 모두 U자형 — Q1·Q2 95%, Q3 73%, Q4 회복 80%대. 모델이 망설이는 중간 영역(1k~5k자 추론)이 가장 위험하다는 점은 보편 패턴.
— comparison_v2_final.md · §3.2 양 모델 4분위 분석

"
qwen은 단일 trigger 도미노 가설 부정 — 누적 KV 캐시 부담이 진짜 원인이었다. 청크 직렬 재실행으로 응답 캡처율이 22.5%에서 98.3%로 4.4배 증가. 항목·모델 결함이 아닌 인프라 패턴 문제로 확정.
— comparison_v2_final.md · §7.3 도미노 가설 검증

"
trick_family_relations에서 두 모델은 글자 한 글자 똑같은 오답을 생성했다 — "영수와 민수는 형제 관계입니다". 가족 관계의 자기참조 가능성("X의 부모의 자식 = X일 수 있음")을 두 다른 아키텍처가 동일하게 닫는다.
— comparison_v2_final.md · §5.4 진짜 LLM 한계 deep dive

06 · 모델 선택 가이드

시나리오별 권장

보정 통과율은 동급. 결정 변수는 latency · 답변 스타일 · 일관성.

gemma 강추천

실시간 챗봇 / IDE 보조

TTFT-content 3.7s vs 55s. 챗봇 임계 8s 기준 gemma는 95% 응답이 임계 이내, qwen은 50%만.

gemma 추천

짧은 사실 QA / 단어 답

trick·qa median 2.1~2.4s. qwen은 같은 영역 28~29s. 추론 비효율 gemma 226× vs qwen 515×.

gemma 추천

한국어 장문 작성

speed_long_003 (5문단): gemma 46s vs qwen 386s (8배). 품질은 동급.

qwen 추천

한국어 코드 리뷰 (배치)

이모지·보너스 케이스 자발 추가. 답변 풍부도 상위. 실시간성 무관 시나리오 한정.

qwen 추천

메타인지 / 모순 감지 (배치)

agent 8/8 vs gemma 7/8. entry간 일관성 더 높음 (temperature=0). latency 6배 감수 필요.

둘 다 비추천

엄격한 형식 / 자기참조 퍼즐

50단어·JSON 자기검증 무한 루프 발생. 가족 관계 자기참조는 양 모델 동일 오답 — LLM 일반 한계.

gemma4:26b vs qwen3.6:27b

숫자로 보는 핵심

인터랙티브 사용은 gemma 외 선택지가 없다

Tokens / Second (median)

TTFT-content (median)

누적 Wall Time

6 카테고리 × 2 모델 통과율

TL;DR

보정 통과율은 사실상 동급

속도 격차는 13배로 일관 확정

두 모델 공통 진짜 약점 2건 식별

단일 trigger 도미노 가설은 폐기

하네스 v2의 가치는 net positive 확정

데이터가 말한 것

시나리오별 권장

실시간 챗봇 / IDE 보조

짧은 사실 QA / 단어 답

한국어 장문 작성

한국어 코드 리뷰 (배치)

메타인지 / 모순 감지 (배치)

엄격한 형식 / 자기참조 퍼즐