소프트웨어품질 (2) 썸네일형 리스트형 SWE-bench 통과해도 머지 못 한다? AI PR ‘절반이 막히는’ 진짜 이유 Photo by Desola Lanre-Ologun on Unsplash (https://unsplash.com/photos/YgOCJz9uGMk)요약AI 코딩 에이전트가 “벤치마크에서 몇 점”을 받았다는 건, 그 자체로는 실무에서 “곧바로 머지 가능한 코드”를 만든다는 뜻이 아닙니다. METR는 SWE-bench Verified에서 테스트를 통과한 AI PR을 실제 오픈소스 메인테이너들이 리뷰하게 했고, 그 결과 대략 절반가량은 메인 브랜치에 들어가기 어렵다는 결론을 냈습니다.이 글에서는 “왜 이런 차이가 생기는지”와 “우리 팀이 바로 적용할 수 있는 운영 가드레일”을 정리합니다.무슨 일이 있었나 (쉽게 말하면)SWE-bench 같은 벤치마크는 보통 “이슈(버그/기능) → PR 제출 → 자동 테스트로 .. Amazon, AI 코딩 도구 사용 코드 변경에 ‘시니어 승인’ 의무화 — 장애가 남긴 교훈 이미지: Igor Omilaev / Unsplash 요약: Amazon이 AI 코딩 도구(GenAI-assisted coding)로 생성/수정된 코드 변경에 대해 시니어 엔지니어 승인(사인오프)을 의무화하는 방향으로 운영 프로세스를 강화하고 있습니다. 한 줄 요약최근 여러 장애(outage)를 겪은 Amazon은, 생성형 AI 코딩 도구를 활용한 변경이 늘어나는 상황에서 리뷰 게이트를 더 강하게 가져가려는 움직임을 보였습니다. 무슨 일이 있었나Ars Technica가 인용한 보도에 따르면 Amazon은 최근 몇 달간 ‘영향 범위(blast radius)가 큰’ 장애가 이어졌고, 원인 중 하나로 GenAI 지원 변경(Gen-AI assisted changes)이 언급됐습니다. 또한 “새로운 GenAI 사.. 이전 1 다음