테스트 방식

BizCrush 음성인식 벤치마크가 어떻게 동작하는지, 처음부터 끝까지 설명합니다.

이 벤치마크를 만든 이유

STT 사용자가 실제로 쓰는 앱들을 현실의 오디오로, 테스트 방식까지 모두 드러난 상태에서 비교할 수 있는 스코어보드를 제공하고 수치와 원본 오디오, 전사가 이 자리에 그대로 있어 누구나 직접 검토할 수 있도록 하고자 이 벤치마크를 공개합니다.

이해 충돌은 실재합니다. BizCrush와 이 벤치마크를 함께 만든다는 사실은 그대로이며, 이를 보완하기 위한 장치들은 본 페이지의 나머지 섹션에서 다룹니다.

테스트 환경

테스트는 커스텀 음향 차폐 박스 안의 실제 안드로이드/iOS 기기에서 진행됩니다. 각 테스트는 박스 내부 스피커로 정답 오디오를 재생하고, 안에 놓인 기기가 실제 사용 환경과 동일한 방식으로 이를 녹음합니다. 안드로이드 에뮬레이터에서 실제 기기로 옮긴 이유는 에뮬레이터의 가상 마이크 경로가 기기별 하드웨어 AGC, 마이크 튜닝, 플랫폼 수준의 오디오 처리를 재현하지 못하기 때문입니다. 실제 기기에서 돌리면 사용자에게 노출되는 오디오 체인 전체가 채점 대상에 포함됩니다.

외부 박스 치수 및 케이블 관통 구멍 도면 — 외부 박스 — 400×400×400mm MDF, 15mm 두께, 상판에 20mm 케이블 관통 구멍, 천연 고무 발 4개.

내부 박스 치수 및 케이블 관통 구멍 도면 — 내부 박스 — 300×300×300mm MDF, 15mm 두께, 전면 패널 하단에서 30mm 위에 20mm 케이블 관통 구멍, 천연 고무 발 4개.

음향 차폐 박스 단면도 — 단면도 — 내부 박스 여섯 면 전체에 복합 음향 패널(흡음재 + 차음재, 합계 14mm) 부착. 스피커 두 대는 한쪽 벽면의 양쪽 모서리에, 기기는 반대편 벽면에 스탠드로 고정되어 스피커 쪽을 향합니다.

벤치마크 전용 Mac mini가 테스트 전체를 제어합니다. 내부 박스의 두 스피커로 정답 오디오를 재생하고, 데이터 케이블(USB-C / Thunderbolt 호환)로 테스트 대상 기기를 함께 구동합니다. 모든 케이블은 외부 박스의 상판 구멍으로 들어가 내부 박스의 전면 패널 구멍을 통해 안으로 이어집니다. 두 구멍이 서로 다른 면에 위치한 이유는 새어 나가는 소리가 직선 경로가 아니라 꺾인 공기 경로를 거치도록 해 누출을 줄이기 위함입니다. 내부 박스의 구멍은 복합 음향 패널 뒤쪽에 있고, 구멍 앞의 패널에 “+” 모양으로 칼집을 내어 케이블을 통과시킵니다. 이후 두 박스의 케이블 구멍은 모두 블루택으로 케이블 주위를 메워 음향 누출을 차단합니다. 두 스피커는 내부 박스 한쪽 벽면의 양쪽 모서리에 놓이고, 반대편 벽면의 폰 스탠드가 기기의 높이와 위치를 고정해 두 스피커의 중앙을 향하도록 합니다. 매 테스트마다 동일한 음향 배치가 유지됩니다. 내부 박스의 여섯 면 모두에는 복합 음향 패널(흡음재 + 차음재, 합계 14mm)이 부착되어 있고, 외부 박스가 2차 차단층 역할을 합니다. 각 박스에 부착된 천연 고무 발이 바닥 진동이 기기에 전달되지 않도록 차단합니다.

한 번의 테스트가 진행되는 방식

테스트 하네스가 테스트 대상 기기에서 대상 앱을 열고 녹음을 시작합니다.
박스 내부의 두 스피커로 정답 오디오 클립을 재생하면, 실제 사용 환경과 동일한 방식으로 기기의 마이크가 이를 받아들입니다.
녹음이 진행되는 동안 엔진의 실시간 전사를 앱에서 직접 캡처합니다. 일부 앱은 녹음 중 복사 버튼을 제공하고, 그렇지 않은 앱은 화면에 표시되는 전사 뷰를 폴링합니다.
재생이 끝나면 후속 인식 결과가 플러시될 수 있도록 몇 초간 기다린 뒤, 실시간 전사의 마지막 부분을 캡처합니다.
정지 버튼을 누릅니다. 이후 동작은 어떤 전사를 캡처하는 테스트인지에 따라 달라집니다.
- 실시간 테스트: 실시간 전사는 앞 단계에서 이미 캡처되었으므로, 이대로 녹음 세션을 종료합니다.
- 후처리 테스트: AI 후처리는 정지 버튼을 누른 이후 실행되므로, 하네스는 후처리가 끝날 때까지 기다린 뒤 다듬어진 결과를 가져옵니다.
캡처된 각 전사를 정규화하고 정답과 비교하여 점수를 매깁니다. 각 전사는 별도의 테스트로 내부 검수 대기열에 들어가며, 공개 사이트에는 아직 표시되지 않습니다.
리뷰어가 오디오를 들으며 엔진 출력과 비교합니다. 리뷰어는 엔진 출력, 정답 텍스트, 오디오를 수정할 수 없습니다. 영어 WER 테스트의 경우, 표기는 다르지만 발화상으로는 구분되지 않는 단어 쌍(예: "100 km" vs. "100 kilometers", 숫자 표기 vs. 스펠링 표기 등, 자동 정규화가 일반적으로 잡지 못하는 표기 차이)을 일치 처리할 수 있습니다(구체적인 사례는 채점 방식 섹션의 WER 설명 참고). 각 일치 처리는 해당 오류를 WER 점수에서 제외합니다. WER 일치 처리 내역은 각 테스트 페이지에 그대로 표시되므로, 어떤 쌍이 적용됐는지 누구나 확인할 수 있습니다. 모든 일치 처리의 (참조, 엔진) 단어 쌍이 향후 정규화 규칙 확장을 위해 기록되며, 리뷰어 신원은 저장되지 않습니다. 한국어 테스트는 CER과 SER로 채점되며, 두 지표 모두 리뷰어 보정을 지원하지 않습니다. CER은 문자를 있는 그대로 세고, SER의 의미 수준 판단은 AI 모델(LLM)에게 맡깁니다. CER과 SER의 경우 리뷰어의 역할은 결과의 타당성 검토이며, 수치를 전사와 대조해 크게 어긋난 부분이 없는지 확인합니다(예: 한 번의 판정이 다른 판정들과 지나치게 다른 경우, 명백히 일치해야 할 글자가 오류로 집계된 경우 등). 특히 SER은 통계적 지표이므로 그럴듯한 분포로 보이는 것이 “정상”의 기준입니다.
결과가 합리적으로 보이면 리뷰어가 승인해 해당 테스트가 본 사이트에 공개됩니다.

녹음 중에 캡처하는 이유

BizCrush를 포함하는 테스트 대상 앱 중 다수는 사용자가 정지 버튼을 누른 뒤 전체 전사에 후처리를 수행합니다. 구두점 추가, 대소문자 정리, 가끔은 단어 교정까지 적용합니다. 사용자 경험에는 도움이 되지만 인식 오류를 가리고, 표시되는 전사는 엔진이 실제로 출력한 것보다 좋게 보입니다.

녹음이 진행되는 동안 실시간 전사를 캡처하면 그 후처리를 피할 수 있습니다. 다만 실시간 캡처에도 앱이 단어 단위로 적용하는 인라인 AI 보정은 포함됩니다. 이는 앱 파이프라인의 기능이며 엔진 자체의 동작이 아닙니다. 사용자가 앱에서 실제로 보는 결과이므로 일부러 무력화하지 않습니다.

사용자가 앱에서 실제로 경험하는 형태로 엔진을 채점합니다. 인라인 보정은 포함, 정지 후 후처리는 제외합니다.

실시간 전사와 후처리 전사

상당수의 앱은 실시간 전사를 노출하지 않고 정지 후 다듬어진 전사만 보여줍니다. 그런 앱까지 평가할 수 있도록 후처리 전사 캡처(정지 후 AI가 다시 다듬은 결과)를 추가했습니다.

앱이 두 가지를 모두 노출하는 경우 각각 별도의 테스트로 게시하며 실시간 또는 후처리로 표시하여, 후처리가 무엇을 바꿨는지 직접 확인할 수 있습니다.

다만 일부 앱은 실시간 뷰와 후처리 뷰가 동일한 텍스트를 보여줍니다. 후처리를 별도로 수행하지 않거나, “실시간” 화면이 정지 후 그 자리에서 다시 쓰여지는 동일한 필드인 경우 등이 그렇습니다. 이런 경우 두 테스트의 결과가 일치하게 되며, 이는 채점상의 오류가 아니라 해당 앱의 특성입니다.

투명성

각 테스트의 투명성을 확보하기 위해 게시되는 모든 테스트에는 정규화된 정답 텍스트와 정규화된 엔진 전사를 함께 공개하여, 독자가 직접 점수를 검증할 수 있도록 합니다.

테스트 대상 앱이 기기가 녹음한 오디오를 내보내는 기능을 제공하는 경우, 해당 오디오도 함께 업로드해 정답 오디오와 나란히 테스트 페이지에 게시합니다. 음향 차폐 박스 안에서 기기의 마이크가 실제로 어떻게 들었는지 — 엔진이 어떤 신호를 받아 처리했는지 — 직접 확인할 수 있도록 하기 위함입니다.

앱 별로 각기 다른 전사 노출 방식을 채택하고 있기 때문에 별도의 자동화 하네스를 구축하여 테스트하고 있으나, 세부 내용이 공개되면 테스트 대상 앱이 식별될 수 있어 해당 부분은 공개하지 않습니다.

채점 방식

표기 선호가 아닌 음향적 정확도를 반영하기 위해, 모든 전사는 비교 전에 양쪽(정답 텍스트와 엔진 전사)에 동일한 정규화를 거칩니다. 구체적으로는 다음과 같습니다.

대소문자 및 구두점. 소문자화, (laughter) 같은 괄호 안 무대 지시문 제거, 타임스탬프 제거, 구두점 제거(축약형 내부의 아포스트로피는 유지), 유니코드 NFKC.
HTML 엔티티 디코딩. 원본 전사에 & 같은 원시 엔티티가 포함되는 경우가 있어, 정규화 전에 디코드합니다. 그래야 참조 텍스트의 'R&D' 같은 표기가 디코드되어 엔진이 출력하는 'R&D' 와 같은 토큰으로 비교됩니다.
천 단위 콤마 제거. 300,000 과 300000 을 같은 토큰으로 간주합니다. 엔진마다 콤마를 출력할지 여부가 다르기 때문입니다.
영어 숫자 표기 정규화. 영어의 기수·서수 표기를 양쪽 모두 숫자로 통일합니다: four → 4, ninety five → 95, twenty-first → 21st, hundred percent → 100 percent, '50s → 50s. 같은 발화를 단어로 쓰느냐 숫자로 쓰느냐는 표기 선택이지 인식 오류가 아니기 때문입니다. 양쪽에 동일하게 적용되므로 발화 내용이 같은 경우에만 일치로 수렴하며, 엔진이 숫자 자체를 잘못 들었다면 여전히 치환 오류로 집계됩니다. 문법적 의미를 갖는 아포스트로피(students', it's)는 유지되어 다른 동음이의 표기와 마찬가지로 오류로 집계됩니다. 한국어 숫자 표기 정규화는 추후 확장 예정입니다.
통화 동치성 및 퍼센트 정규화. 참조가 $3.3 billion 이고 엔진이 3.3 billion dollars 로 출력하면 일치로 처리하며, 엔진 측 표기를 양쪽에 적용하므로 diff에서 동일한 토큰으로 렌더링됩니다. 퍼센트는 더 단순하게, % 기호를 양쪽 모두 percent 단어로 전개합니다. 0.6% 와 0.6 percent, hundred percent 와 100% 가 모두 같은 토큰으로 수렴합니다.
화자 라벨 제거. 엔진이 출력하는 Speaker 1 같은 화자분리 잔여물은 정답에는 없으므로 삽입 오류로 집계하지 않습니다.

정규화를 적용한 뒤, 테스트마다 최대 세 가지 지표가 산출될 수 있습니다. 각 지표는 서로 다른 종류의 정확도를 측정하며, 어떤 지표가 산출되는지는 해당 테스트의 채점 파이프라인 설정에 따릅니다.

WER Word Error Rate (단어 오류율). 공백 단위 토큰의 치환/삭제/삽입을 셉니다. 리뷰어가 음향적으로 동일한 쌍(예: "100km" vs "100 킬로미터" 또는 엔진과 정답의 표기 형식만 다른 경우)을 일치 처리할 수 있으므로, 점수가 표기 차이보다 음향적 정확도를 반영합니다. 이러한 리뷰어 보정은 오직 WER에만 적용됩니다.
CER Character Error Rate (글자 오류율). 문자 단위로 채점하며, 비교 전에 양쪽에서 공백을 제거합니다. 단어 경계가 모호하거나 글자 단위 편집이 더 의미 있는 경우에 유용합니다. CER은 리뷰어 보정을 지원하지 않습니다. 표기는 달라도 의미가 같은 경우(예: 100km vs. 100 킬로미터와 같은 단위 약어)는 SER에서 처리합니다.
SER Semantic Error Rate (의미 오류율). AI 모델(LLM)이 의미를 바꾸는 오류(치환/삭제/삽입)를 식별합니다. 여러 차례 독립 실행(기본 다섯 번)을 수행한 뒤 성공한 실행들의 분포(최소/중앙값/평균/최대)와 각 오류의 단어 범위를 함께 보고하므로, 검출된 모든 오류를 테스트 상세 페이지에서 인라인으로 확인할 수 있습니다. 완전한 SER 값을 게시하려면 최소 다섯 번의 실행이 성공해야 합니다. AI 모델의 판단이 그대로 게시되는 값이며, SER은 리뷰어 보정을 지원하지 않습니다.

한계

현재는 엔진을 앱을 통해 테스트하므로, 점수에는 앱이 엔진 위에 추가한 인라인 AI 보정이 반영됩니다. API 직접 테스트는 로드맵 단계이며 별도로 보고할 예정입니다. 동일 엔진의 앱 점수와 API 점수는 일반적으로 직접 비교할 수 없습니다.
실시간 전사 캡처는 앱별로 다릅니다. 엔진마다 진행 중 전사를 노출하는 방식이 달라, 하네스는 앱별 캡처 경로를 따로 가집니다. 새 엔진을 추가하려면 적절한 UI 훅을 직접 매핑해야 합니다.
앱 버전은 아직 자동 캡처되지 않습니다. 엔진의 주요 버전 간 비교를 본 사이트에서는 (아직) 명시적으로 다루지 않습니다.
테스트 클립 수는 아직 적으며, 의도적으로 천천히 확장하고 있습니다. 라이선스 문제가 없는 오디오를 확보하기가 쉽지 않고, 잘 작성된 정답 전사를 얻기는 더 어렵습니다. 리뷰어가 직접 오디오를 들으며 정답 전사를 작성하거나 다듬어, 엔진을 채점하기 전에 참조가 정확해지도록 합니다.

라이선스 및 출처

BizCrush가 직접 제작한 오디오와 정답 전사의 저작권은 BizCrush에 있으며, 모든 권리가 유보됩니다. 누구나 청취와 표시된 정답 텍스트를 통해 전사 정확도를 직접 검증할 수 있도록 본 페이지에 공개되어 있습니다. 사전 서면 허가 없이 재배포, 2차적 저작물 작성, 상업적 이용, 기계학습 모델 학습 데이터로의 사용은 금지됩니다.

엔진 출력 전사는 해당 음성인식 서비스가 생성한 결과로, 오로지 정확도 비교를 위해 인용됩니다. 상표 및 제품명은 각 권리자에게 귀속됩니다.

BizCrush 자체 제작 콘텐츠에 대한 라이선스 문의나, 본 벤치마크에 포함된 외부 출처 클립의 권리자로서 출처 표기 변경 또는 콘텐츠 삭제를 요청하시는 경우 help@bizcrush.ai 로 연락 주세요.

이전 버전

테스트 방식 변경은 append-only 방식으로 보존합니다. 이전 버전 기준으로 게시된 점수도 그 당시의 규칙을 확인할 수 있도록, 각 이전 버전의 내용을 아래에 함께 남겨 둡니다.

2026-07-15 이전안드로이드 에뮬레이터 기반 테스트 환경. 음향 차폐 박스 도입 이전.

이전 버전의 테스트 환경

벤치마크는 벤치마크 전용 Mac mini에서 진행되었습니다. 정답 오디오는 가상 오디오 브리지(macOS의 BlackHole + Multi-Output)를 거쳐 안드로이드 에뮬레이터의 마이크 입력으로 재생되고, 그 위의 실제 STT 앱이 이를 받아 처리했습니다. API 직접 호출 대신 스피커-마이크 경로를 사용한 것은 의도적이며, 사용자가 실제 환경에서 겪는 앱의 오디오 파이프라인 전체를 점수에 반영하기 위함이었습니다.

Multi-Output Device는 같은 오디오를 Mac 스피커와 BlackHole로 동시에 보내, 재생을 직접 모니터링하면서 BlackHole이 에뮬레이터 마이크로 오디오를 전달하도록 했습니다. BlackHole만 사용하면 재생 소리가 가상 장치로만 흘러가 직접 들을 수 없기 때문입니다.

2026-07-15에 커스텀 음향 차폐 박스 안의 실제 기기 테스트 환경으로 대체되었습니다. 자세한 내용은 현재의 테스트 환경 섹션과 업데이트 페이지의 전환 요약을 참고하세요.

2026-06-29 이전SER (의미 오류율) 도입 이전이며, 모든 클립은 WER로 채점되었습니다.

이전 버전의 채점 지표

정규화를 적용한 뒤 실제로 사용된 지표는 WER뿐이었습니다. 당시 등록된 테스트 클립은 라틴 문자 언어와 한국어에 한정되어 있었고, 일본어/중국어 클립이 없었기 때문에 CER은 CJK용으로 문서상 정의되어 있었을 뿐 실제로 적용된 적은 없습니다.

WER — 공백 단위 토큰의 치환/삭제/삽입을 셉니다. 한국어 원시 WER은 발화상으로는 구분되지 않는 표기 차이도 오류로 셌습니다. 띄어쓰기 변이나 빠른 발화에서 구분이 어려운 표기 변이(예: 있지마는 / 있지만은) 같은 경우입니다. 리뷰어가 각 클립을 직접 듣고 음향적으로 동일한 쌍을 일치 처리하므로 점수가 음향적 정확도를 반영했고, WER은 CER이 놓치는 분절 차이를 보존했습니다(예: 전 체조 선수 / 전체 조 선수).

SER은 존재하지 않았습니다. 의미 수준의 채점은 WER 리뷰어 단계에서 암묵적으로 처리되었고, 별도의 지표로 노출되지 않았습니다.