Vera Health, 주요 의료 AI 벤치마크에서 1위를 차지하며 OpenAI·Anthropic·Google의 가장 강력한 모델을 능가

서론

Vera는 정교한 AI 에이전트와 검색 증강 생성(RAG) 기술을 활용하여 동료 심사를 거친 6,000만 건 이상의 의학 논문 지식을 종합함으로써 신뢰할 수 있고 맥락에 적합한 답변을 제공합니다. 이번 멀티 벤치마크 평가는 미국 의사면허시험(USMLE), New England Journal of Medicine의 AI 질의응답 데이터세트(NEJM-AI), 그리고 MedXpertQA 벤치마크라는 세 가지 서로 다른 의료 지식 영역에 걸쳐 Vera의 성능을 평가합니다.

성능 지표

- USMLE에서 Vera는 97.5%라는 탁월한 종합 정확도를 달성했으며, 단계별로는 Step 1에서 97.9%, Step 2 CK에서 98.2%, Step 3에서 96.7%의 정확도를 기록했습니다.

- 5개 의료 전문 분야에 걸친 655개 문항으로 구성된 NEJM-AI 벤치마크에서 Vera는 84.9%의 정확도로 우수한 성능을 보이며 OpenAI o4 Mini(77.1%), Claude 4 Sonnet(75.4%), Perplexity Sonar Pro(74.4%) 등 주요 AI 모델을 능가했습니다.

- 여러 신체 계통과 의료 과제에 걸친 500개 문항으로 구성된 MedXpertQA 벤치마크에서 Vera는 62.2%의 정확도를 달성하여 전문적인 임상 추론 시나리오에서 강력한 성능을 입증했습니다.

- Vera는 NEJM-AI의 5개 의료 전문 분야 중 4개 분야에서 가장 높은 정확도를 기록했으며, 특히 소아과(93.9%)와 내과(87.3%)에서 두드러진 성능을 보였습니다.

결론

다양한 평가 프레임워크에 걸친 이러한 결과는 Vera의 견고한 의료 지식 표현력과 추론 능력을 입증하며, 임상 의사결정 지원 분야의 선도적 솔루션으로 자리매김하게 합니다. 전체 논문은 여기에서 읽으실 수 있습니다.

Vera Health, 주요 의료 AI 벤치마크에서 1위를 차지하며 OpenAI·Anthropic·Google의 가장 강력한 모델을 능가

서론

성능 지표

결론

Vera Health 소개

최근 게시물

증례 보고: 분만 중 자궁 염전을 유발한 거대 자궁근종의 관리

GLP-1 RAs는 일부 암에서 진행 감소와 연관

특정 학습 장애가 있는 의대생은 여전히 교육적 장벽에 직면한다