본문 바로가기

전체 글

(91)

OpenAI 실용 가이드로 정리한 AI 에이전트 구축 체크리스트 (모델·도구·가드레일) 요약OpenAI가 공개한 A practical guide to building agents를 개발자 관점에서 ‘바로 적용 가능한 체크리스트’로 재구성했습니다.핵심은 모델(Model)·도구(Tools)·지시문/가드레일(Instructions) 3요소를 분리하고, 단일 에이전트 → 멀티 에이전트로 점진 확장하는 것입니다.운영에서 무너지는 패턴(도구 오남용, 종료조건 불명확, 예외 처리 누락)을 가드레일과 평가(evals)로 통제하는 게 포인트입니다.무슨 일이 있었나OpenAI가 제품/엔지니어링 팀이 “처음 에이전트를 만들 때” 어디서부터 시작해야 하는지 정리한 가이드를 공개했습니다. 여기서 말하는 에이전트는 단순 챗봇이 아니라,(1) LLM이 워크플로 실행을 관리하고,(2) 외부 도구(API/시스템/UI)를..

SWE-bench 통과해도 머지 못 한다? AI PR ‘절반이 막히는’ 진짜 이유 Photo by Desola Lanre-Ologun on Unsplash (https://unsplash.com/photos/YgOCJz9uGMk)요약AI 코딩 에이전트가 “벤치마크에서 몇 점”을 받았다는 건, 그 자체로는 실무에서 “곧바로 머지 가능한 코드”를 만든다는 뜻이 아닙니다. METR는 SWE-bench Verified에서 테스트를 통과한 AI PR을 실제 오픈소스 메인테이너들이 리뷰하게 했고, 그 결과 대략 절반가량은 메인 브랜치에 들어가기 어렵다는 결론을 냈습니다.이 글에서는 “왜 이런 차이가 생기는지”와 “우리 팀이 바로 적용할 수 있는 운영 가드레일”을 정리합니다.무슨 일이 있었나 (쉽게 말하면)SWE-bench 같은 벤치마크는 보통 “이슈(버그/기능) → PR 제출 → 자동 테스트로 ..

page-agent: <script> 한 줄로 웹페이지에 AI 에이전트 붙이기 — 도입 체크리스트(보안/운영 포함) 이미지: Ubaid E. Alyafizi / Unsplash 요약웹사이트에 “에이전트 UI”를 붙이고 싶을 때, page-agent는 브라우저 안에서 동작하는 프론트엔드 기반 에이전트를 지향합니다. 데모는 쉽지만, 실제 서비스에 붙일 때는 모델 엔드포인트/권한/로깅/비용까지 함께 설계해야 합니다. 무슨 프로젝트인가GeekNews에서 화제가 된 page-agent는 “한 줄 스크립트 삽입”으로 웹페이지에 자연어 명령 기반 에이전트를 붙이는 접근을 소개합니다. 소개 페이지에서는 Python/헤드리스 브라우저/서버 없이도 시작할 수 있다는 메시지를 전면에 둡니다. 인용“No Python. No headless browser. No server. One script tag — that's it.”— page-a..

Amazon, AI 코딩 도구 사용 코드 변경에 ‘시니어 승인’ 의무화 — 장애가 남긴 교훈 이미지: Igor Omilaev / Unsplash 요약: Amazon이 AI 코딩 도구(GenAI-assisted coding)로 생성/수정된 코드 변경에 대해 시니어 엔지니어 승인(사인오프)을 의무화하는 방향으로 운영 프로세스를 강화하고 있습니다. 한 줄 요약최근 여러 장애(outage)를 겪은 Amazon은, 생성형 AI 코딩 도구를 활용한 변경이 늘어나는 상황에서 리뷰 게이트를 더 강하게 가져가려는 움직임을 보였습니다. 무슨 일이 있었나Ars Technica가 인용한 보도에 따르면 Amazon은 최근 몇 달간 ‘영향 범위(blast radius)가 큰’ 장애가 이어졌고, 원인 중 하나로 GenAI 지원 변경(Gen-AI assisted changes)이 언급됐습니다. 또한 “새로운 GenAI 사..

OpenClaw가 재밌는 이유: 로컬 에이전트 자동화가 ‘플랫폼’이 되는 순간들 OpenClaw를 처음 보면 보통 이렇게 생각한다.“로컬에서 돌아가는 챗봇 같은 건가?”“텔레그램으로 알림 보내는 자동화 툴?”맞다. 그런데 내가 계속 OpenClaw에 시간을 쓰는 이유는 그 다음이다. OpenClaw는 기능 하나짜리 도구라기보다, 내 PC를 기준으로 업무/생활을 조립해나가는 에이전트 플랫폼에 가깝다. cron(리마인더) 같은 건 그저 ‘첫 번째로 쉬운 데모’다.진짜 재미는, 이게 앞으로 어디까지 확장될 수 있는지(그리고 어떻게 “운영 가능하게” 확장하는지)에서 나온다.1) 클라우드 AI 자동화와 로컬 에이전트의 차이(감각적으로)클라우드는 강하고 편하다. 대신 내 환경의 문맥을 깊게 잡기가 어렵다.내 Mac의 파일 구조내가 쓰는 폴더 규칙(예: claw_blog/posts, fish..

OpenClaw는 뭐 하는 도구냐고? “내 컴퓨터에서 돌아가는 AI 자동화 비서” 입문 가이드 OpenClaw는 뭐 하는 도구냐고? “내 컴퓨터에서 돌아가는 AI 자동화 비서” 입문 가이드 AI 도구를 쓰다 보면 결국 여기서 막힌다.ChatGPT에 물어보는 건 빠르지만, 내 작업 흐름까지는 자동으로 안 움직인다알림/리마인더/요약을 하고 싶은데, 결국 사람 손이 들어간다채널(텔레그램 등)과 연결하려고 하면, 설정이 은근히 귀찮다나는 요즘 OpenClaw를 “AI 모델”이라기보다 내 로컬에서 굴리는 자동화 게이트웨이로 보는 쪽이 더 정확하다고 느낀다.오늘 글은 대중적으로: OpenClaw가 뭔지, 어디에 쓰는지, 그리고 ‘수익성’ 관점에서 어떤 글/콘텐츠로 확장되는지까지 한 번에 정리해본다. OpenClaw는 내 컴퓨터에서 AI를 실행하고 텔레그램 같은 채널과 연결해 자동화 워크플로우를 만드는 도구다..

OpenClaw 텔레그램 봇 연동 삽질기: Webhook에 막히고, Pairing에 막히고, 결국 restart로 살린 하루 솔직히 말하면, 나는 “텔레그램 봇 붙여놓으면 그냥 잘 되겠지”라고 생각했다. OpenClaw도 채널 상태가 ON/OK로 뜨고, 토큰도 제대로 넣었고, 봇도 @BotFather로 만들었으니 끝난 줄 알았다.그런데 현실은 달랐다. /start를 눌러도 봇이 대답을 안 하고, 내가 보낸 메시지도 씹히고, 가끔은 아예 연결이 끊긴 것처럼 보였다. 결론부터 말하면 문제는 한 가지가 아니었다.1차: 내가 /start를 내 봇이 아니라 BotFather에 보내고 있었다2차: 내 봇에 webhook이 남아있어서 OpenClaw가 업데이트를 못 받았다3차: DM이 pairing(페어링 승인) 정책에 걸려서 아무 반응이 없었다4차: 잘 되다가도 가끔 텔레그램 폴링이 멈춰 gateway restart로 살아났다오늘 글은 ..

(AI/개발) OpenAI ‘Codex 앱’이 바꾸는 개발의 기본형: 코딩 보조에서 ‘작업 오케스트레이션’으로 요즘 개발자 커뮤니티에서 체감하는 변화는 꽤 단순하다. “모델이 더 똑똑해졌다”보다, AI를 어디에 붙이면 실제로 시간이 줄어드는가가 더 중요해졌다. 그런 관점에서 오늘 가장 조회수가 잘 나올 만한 소재는 ‘개발자 일상’에 직접 꽂히는 이야기다. OpenAI가 공개한 macOS용 Codex 앱은 바로 그 지점을 노린다. 단순한 채팅창이 아니라, 여러 작업을 동시에 굴리고(병렬), 오래 걸리는 작업을 맡기고(장시간), 결과를 모아서 정리하는 개발 작업의 컨트롤 타워를 지향한다. 1) Codex 앱은 무엇이 다른가기존의 “AI 코딩” 경험은 대개 다음 중 하나였다.IDE 플러그인에서 코드 조각을 제안받거나ChatGPT에 질문해서 답을 복사해 붙이거나이 방식은 빠르지만 한계도 명확하다. 개발은 본질적으로 여러..

이전 1 2 3 4 ··· 12 다음

티스토리툴바