OpenAI, GPT-5.5 출시·API는 지연

헤드라인: OpenAI, GPT-5.5 출시·API는 지연

참고 링크: 544 Twitters, AINews’ website, AINews is now a section of Latent Space, opt in/out

OpenAI가 새 플래그십 프런티어 모델 GPT-5.5를 공개하고 ChatGPT와 Codex에 즉시 적용했다. 다만 API 제공은 “추가 안전 요구사항”을 이유로 같은 날 제공되지 않았고, “coming soon”으로 예고됐다.

가격은 GPT-5.5가 입력/출력 100만 토큰당 $5/$30, GPT-5.5 Pro가 $30/$180로 제시됐다. 여러 초기 사용자는 GPT-5.4 대비 토큰 효율이 좋아(같은 작업에서 출력 토큰을 더 적게 쓰는) 체감 비용이 일부 상쇄될 수 있다고 봤다.

동시에 Codex에는 브라우저 제어, 문서·PDF 처리, 스프레드시트·슬라이드 워크플로, 자동 리뷰 모드 등 “컴퓨터 사용(computer use)” 중심 기능이 대거 묶여 출시됐다. 반응은 전반적으로 긍정적이었지만, 가격 인상과 환각(hallucination) 리스크, 벤치마크 해석 차이를 둘러싼 논쟁도 함께 이어졌다.

AI Twitter Recap

GPT-5.5 출시

무슨 일이 있었나: OpenAI가 “real work and powering agents”를 위한 새 플래그십 프런티어 모델로 GPT-5.5를 출시하고, ChatGPT와 Codex에 즉시 배포했으며, 추가 안전 요구사항 때문에 API 접근은 지연했다 (OpenAI, OpenAI rollout, OpenAIDevs, API delayed). OpenAI는 더 적은 마이크로매니지먼트로 동작하는 에이전트(agentic) 업무로의 진전으로 이 모델을 위치지었고, 더 강한 코딩, 컴퓨터 사용, 지식 노동, 과학 연구, 도구 사용(tool use)과 자기 점검(self-checking)을 포함한 더 긴 다단계 실행을 강조했다 (OpenAI, gdb, snsf). 가격은 GPT-5.5 입력/출력 100만 토큰당 $5/$30, GPT-5.5 Pro는 $30/$180로 책정됐다 (scaling01 pricing, sama pricing). OpenAI와 여러 초기 테스터는 GPT-5.4 대비 “토큰 효율(token-efficient)”이 눈에 띄게 좋아, 토큰당 속도는 비슷하게 유지하면서도 출력 토큰을 실질적으로 더 적게 쓰는 경우가 많다고 설명했다 (sama, OpenAIDevs, reach_vb, GitHub VP claim relayed by scaling01). 또한 출시와 함께 Codex 제품 업그레이드가 대거 번들로 묶였다(브라우저 제어, 파일/문서/PDF 처리, Sheets & Slides, 자동 리뷰 모드, OS 전역 받아쓰기, 더 폭넓은 컴퓨터 사용 워크플로) (ajambrosino, OpenAIDevs browser use, thsottiaux, sama “bundle”). 독립/준독립 반응은 “대체로 긍정적이지만 혼재”에 가까웠다. 코딩과 장기 작업(long-horizon work)에서 ‘단계 변화(step change)’라고 보는 의견이 있는 반면, 헤드라인 벤치마크 상승 폭은 점진적이라는 주장, GPT-5.4 대비 가격이 2배로 올랐다는 지적, 한 외부 평가에서 환각이 여전히 높다는 우려, Anthropic Mythos/Opus 변형이 일부 작업에서는 여전히 앞서거나 비긴다는 주장(벤치마크 선택 의존)도 있었다 (Artificial Analysis, theo, scaling01 critique, Perspective vs Mythos, scaling01 Mythos lead take).

출시 세부사항

제품 제공 범위:
- 오늘부터 Plus, Pro, Business, Enterprise 사용자에게 ChatGPT와 Codex에서 순차 배포 (OpenAI rollout).
- GPT-5.5 Pro는 ChatGPT에서 Pro, Business, Enterprise 사용자에게 제공 (OpenAI rollout).
- API 접근은 당일 제공이 아니며, OpenAI는 **“coming soon”**이라며 더 높은 안전 요구사항/견고한 안전장치(robust safeguards) 때문에 지연된다고 설명 (OpenAIDevs, scaling01, jeffintime).
- 서드파티 생태계도 빠르게 반응했으며, 예로 Hermes Agent가 ChatGPT/Codex OAuth를 통해 지원된 것으로 보임 (Teknium).
가격(pricing):
- GPT-5.5: 100만 토큰당 $5 input / $30 output (scaling01 pricing, sama pricing).
- GPT-5.5 Pro: 100만 토큰당 $30 / $180 (scaling01 pricing).
- 토큰당 가격 기준으로 GPT-5.4 대비 2배라는 지적이 널리 공유됐지만 (scaling01), OpenAI와 일부 테스터는 토큰 효율로 실제 과업 비용(task cost)이 완화될 수 있다고 주장 (sama, OpenAIDevs).
컨텍스트(context):
- Swyx가 런치 자료를 요약하며 API 1M 컨텍스트, Codex 400K 컨텍스트를 언급 (swyx).
- Sam Altman도 API 가격과 함께 1M 컨텍스트 윈도우를 별도로 언급 (sama pricing/context).
인프라/서빙(serving):
- OpenAI 연계 코멘터리는 GPT-5.5가 Nvidia GB200/GB300용으로 공동 설계(co-designed) 되었고 GB200 및 GB300 NVL72와 공동 설계된 첫 세대라고 주장 (scaling01, swyx).
- Jonathan Ross도 초기 접근 관찰에서 GB200 NVL72 학습을 강조 (JonathanRoss321).
- OpenAI는 Codex + GPT-5.5가 서빙 스택 최적화에 도움을 줘 토큰 생성 속도가 20%+ 증가했다고 설명 (reach_vb, sama inference team praise).
- Sam Altman은 토큰당 속도는 GPT-5.4와 비슷하지만 작업당 토큰 사용량이 더 적다고 언급 (sama).
런치 시점 Codex 앱 변경:
- 신규 기능: browser control, Sheets & Slides, Docs & PDFs, OS-wide dictation, auto-review mode (ajambrosino).
- 웹 플로우 테스트, 스크린샷, “보는 것”에 대한 반복(iteration)을 위한 브라우저 사용 확대 (OpenAIDevs).
- OpenAI는 Codex + 5.5가 코딩을 넘어 스프레드시트·슬라이드·문서·브라우저 워크플로에도 유용하다고 명시적으로 프레이밍 (gdb).

기술 세부사항 및 벤치마크 수치

OpenAI가 보고한 헤드라인 지표(런치 인접 게시글 기반):
- Terminal-Bench 2.0: 82.7% (OpenAIDevs, reach_vb)
- OSWorld-Verified: 78.7% (OpenAIDevs, reach_vb)
- Toolathlon: 55.6% (OpenAIDevs)
- FrontierMath Tier 4: 35.4%; 이후 GPT-5.5 Pro가 **39.5%**로 인용됨 (OpenAIDevs, scaling01)
- CyberGym: 81.8% (OpenAIDevs, reach_vb)
- SWE-Bench Pro: 58.6% (reach_vb, swyx)
- GDPval: 84.9% win/tie (reach_vb)
- BrowseComp: 84.4% (reach_vb)
- FrontierMath Tier 1–3: 51.7% (reach_vb)
- MMMU-Pro without tools: 81.2% (reach_vb)
- Investment banking modeling: 88.5% (reach_vb)
- Expert-SWE 내부 평가: 73.1% (swyx)
- Tau2-bench Telecom: 98.0% (swyx)
- BixBench: 80.5% (swyx)
- ARC-AGI-1: 95.0%
- ARC-AGI-2: 85.0% (scaling01, ARC Prize verified)
- CritPt: xhigh 기준 27.1% (scaling01, MinyangTian1)
독립/준독립 벤치마크:
- Artificial Analysis
  - GPT-5.5가 자사 Intelligence Index에서 3점 차이로 1위를 차지해, OpenAI·Anthropic·Google 간 기존 3자 동률을 깼다고 언급 (Artificial Analysis).
  - GPT-5.5가 Terminal-Bench Hard, GDPval-AA, APEX-Agents-AA에서 선두이며, CritPt와 AA-LCR에서는 다른 OpenAI 모델에만 뒤지고, 3개 벤치마크에서는 Gemini 3.1 Pro Preview에 이어 2위라고 주장 (Artificial Analysis, headline evals follow-up).
  - 자사 지수에서 GPT-5.5 medium ≈ Claude Opus 4.7 max이며 비용은 ~1/4라고 주장, 동시에 Gemini 3.1 Pro Preview는 비슷한 점수를 더 낮은 비용으로 달성한다고 언급 (Artificial Analysis).
  - GPT-5.4 대비 ~40% 토큰 사용 감소로 가격 상승을 일부 상쇄해, 자사 Intelligence Index 실행의 순비용은 **약 20%**만 상승했다고 보고 (Artificial Analysis).
  - **AA-Omniscience 정확도 57%**이지만 **환각률 86%**를 보고했으며, 비교로 Opus 4.7 max 36%, **Gemini 3.1 Pro Preview 50%**를 제시(런치 논의에서 중요한 단서로 언급됨) (Artificial Analysis).
- ARC Prize
  - ARC-AGI-2 SOTA를 85.0% max로 인증하고 비용/성능 사다리를 제시:
    - Max: 85.0%, $1.87
    - High: 83.3%, $1.45
    - Med: 70.4%, $0.86
    - Low: 33%, $0.35 (ARC Prize)
- Andon Labs / Vending-Bench Arena
  - 경쟁 환경 Vending-Bench Arena에서 GPT-5.5가 Opus 4.7을 이겼다고 말하며, GPT-5.5의 전술은 clean했고 Opus는 기만적 행동을 썼다고 언급 (andonlabs).
- UK AISI / 안전 테스트
  - 영국 AI Security Institute가 **사이버·자율성(autonomy)·안전장치(safeguards)**에 대해 배포 전 테스트를 수행했다고 밝히고 시스템 카드를 안내 (AISecurityInst).
- 시스템 카드 기반 사이버 결과
  - 시스템 카드를 읽은 이들이 자주 인용한 수치: GPT-5.5가 100M 토큰 예산에서 10회 중 1회 시뮬레이션 기업 네트워크를 장악할 수 있었고, Claude Mythos는 10회 중 3회, Opus 4.6/4.7은 실패했다고 주장 (scaling01).
- LiveBench
  - scaling01은 GPT-5.5-xhigh가 LiveBench 1위를 했다고 언급 (scaling01).

실제에서의 진전 사례

Every 초기 테스트
- Dan Shipper는 Every의 Senior Engineer 벤치마크에서 GPT-5.5가 62/100, Opus 4.7은 33/100이었다고 말하면서, **Opus 4.7이 만든 계획(plan)**과 함께 쓸 때 가장 잘 작동한다고 언급 (danshipper).
- 한 엔지니어가 테스트에 900M+ 토큰을 사용하며 프로덕션 기능을 출시했다고 보고 (danshipper).
- 개념적 명료함, 복잡한 리팩터 유지, 최근 OpenAI 모델 대비 더 강한 글쓰기 등을 칭찬.
Matthew Berman
- Codex 변형을 에이전트 코딩(agentic coding)의 “the absolute frontier”라고 부르며, 특히 백엔드와 시각적 점검 루프에서 강하다고 평가. 다만 Opus가 더 빠르고, 프런트엔드 디자인에서는 여전히 Opus가 더 낫다고 말함 (MatthewBerman).
- medium/high thinking이 가장 좋았고, xhigh는 많은 워크플로에 너무 느리게 느껴졌다고 언급.
OpenAI 내부 사용자 보고
- Noam Brown-ish? actually polynoamial은 GPT-5.5가 CUDA 커널과 연구 실험에서 자신을 “더 효과적인 IC”로 만들어준다고 말함 (polynoamial).
- tszzl은 연구자들이 고수준 아이디어만으로 GPT-5.5에게 **하룻밤 실험(overnight experiments)**을 맡기고, 아침에는 완료된 스윕(sweep)을 얻고 있다고 말함 (tszzl).
- aidan_mclau는 RL 실행(run)을 받아쓰기(dictation)로 시작해 며칠 자리를 비웠다가 돌아와 31시간 규모의 산업급 RL 런이 GPT-5.5 감독 하에 진행 중이었다고 언급 (aidan_mclau, sleeping/babysitting nuance).
- johnohallman은 5.5가 프로젝트를 수시간~수일 단위로 엔드투엔드로 다룰 수 있어, 자신의 역할이 IC에서 매니저로 이동하고 있다고 말함 (johnohallman).
- clivetime은 이제 ~10 Codexes를 관리하며, 설정/배관(plumbing)보다 순수한 신규 진전에 시간을 더 쓴다고 말함 (itsclivetime).
Skirano 사례
- 까다로운 브랜치 충돌(conflict) 상황을 GPT-5.5가 해결한 것을 개인적 “first taste of AGI”라고 표현 (skirano thread start).
- Flipper Zero 앱을 USB 연결을 통해 만들고 성공적으로 푸시할 수 있었다고 주장 (skirano USB example).
- 더 실제로 “플레이 가능한” 원샷 게임(one-shot game)을 만들었고, 이후 릴리스 페이지에 소개됐다고 언급 (skirano game).
시각/코드 합성 사례
- Sebastien Bubeck은 검증 가능한 TikZ 코드로 TikZ 유니콘 테스트를 거의 포화시키는 수준에 가까웠다고 공유 (SebastienBubeck).
- Dimillian은 Codex + imagegen + macOS 앱 툴링으로 프롬프트만으로 네이티브 레트로 판타지 미로 게임을 만들었다고 공유 (Dimillian).
엔터프라이즈/컴퓨터 사용 각도
- OpenAI는 Ramp 사용자가 Codex의 GPT-5.5로 풀스택 QA 변경을 엔드투엔드로 테스트한다고 설명 (OpenAIDevs).
- Sam은 OpenAI와 Nvidia가 Codex를 회사 전체에 롤아웃해봤다고 말하며 광범위한 엔터프라이즈 배포에 대한 자신감을 시사 (sama).
- gdb는 이제 프로그래머만이 아니라 “컴퓨터 작업을 하는 누구에게나” 유용하다고 강조 (gdb).

사실 vs 의견

사실(직접 근거가 있는 주장):
- GPT-5.5가 ChatGPT와 Codex에서 출시됐고, API는 지연됨 (OpenAI, OpenAIDevs).
- 가격은 100만 토큰당 $5/$30, Pro $30/$180 (sama, scaling01).
- OpenAI가 Terminal-Bench 2.0 82.7, OSWorld-Verified 78.7, CyberGym 81.8, SWE-Bench Pro 58.6 등을 포함한 벤치마크 점수를 보고 (OpenAIDevs, reach_vb).
- Artificial Analysis가 자사 Intelligence Index에서 GPT-5.5를 1위로 랭킹했고 비용/환각 분석을 함께 공개 (Artificial Analysis).
- ARC Prize가 **ARC-AGI-2 85.0%**를 보고 (arcprize).
- OpenAI 및 런치 관찰자들이 GPT-5.5가 GPT-5.4보다 토큰 효율이 높다고 언급 (OpenAIDevs, sama).
의견(해석/평가):
- “The frontier moved back to OpenAI today” (TheRundownAI).
- “Best model I have ever used” (skirano).
- “Massive achievement,” “step change,” “new era,” “feels like early GPT-4” (danshipper, DeryaTR_, BorisMPower).
- “Underwhelming incremental benchmark lifts” / “twice the price feels like a kick in the face” (scaling01, paul_cal).
- “Weaker than Mythos” 혹은 “Mythos에 가깝지만 더 작고/저렴” 같은 평가는 사실로 확정된 것이 아니라, 벤치마크 선택에 의존하는 해석이라고 정리됨 (synthwavedd, scaling01, scaling01 contrary take).

다양한 관점

지지/긍정적 관점
- OpenAI 공식 입장: GPT-5.5는 ‘real work’를 위한 “new class of intelligence”이며 더 나은 직관, 더 낮은 마이크로매니지먼트, 반복적 안전 전략의 일부로 더 넓은 배포를 강조 (OpenAI, gdb, sama strategy).
- 초기 테스터: 코딩/글쓰기/장시간 자율 실행/지식 노동에서 강한 업그레이드를 주장 (danshipper, MatthewBerman, skirano).
- 서드파티 평가: Artificial Analysis와 ARC Prize가 GPT-5.5가 최상단 프런티어에 있거나 근접하다는 주장에 근거를 제공 (Artificial Analysis, ARC Prize).
회의/비판적 관점
- 가격 회의론: 토큰당 가격이 GPT-5.4 대비 2배이며, Theo는 지능은 좋아도 비싸다고 평가 (theo).
- 벤치마크 회의론: scaling01은 OpenAI가 보고한 37개 벤치마크에서 GPT-5.4 대비 중앙값 개선이 +2.8% 정도인데 가격은 2배라고 비판 (scaling01).
- 환각 주의: Artificial Analysis가 AA-Omniscience에서 **환각률 86%**를 보고(Anthropic/Google 경쟁 모델 대비 훨씬 나쁨) (Artificial Analysis).
- 작업 프로파일 회의: GPT-5.5가 터미널/컴퓨터 사용/사이버에서는 유난히 강하지만 SWE-Bench Pro에서는 덜 압도적이라는 점을 들어, 지능이 “spiky”하거나 벤치마크 민감하다는 주장 (scaling01, scaling01 later synthesis).
- 행동 특성 비판: Theo는 최고의 코드를 쓰지만 “weird,” “hard to wrangle,” 엄격한 지시 없으면 과탐색(over-exploratory)한다고 말함 (theo).
중립/맥락적 관점
- 추론 연산(inference compute) 프레이밍: polynoamial은 단일 숫자 비교가 점점 오해를 낳으며, 중요한 것은 토큰/달러 대비 지능이라고 주장 (polynoamial).
- 레시피(초기 체크포인트) 관점: Hangsiin은 GPT-5.5가 새 프리트레이닝 기반에서의 초기 RL 체크포인트처럼 보이며, 최종 형태라기보다 “o1/o1-preview” 단계에 가깝다고 제안 (Hangsiin).
- 경제성이 IQ만큼 중요: teortaxesTex는 Mythos가 일부에서 더 강해도, GPT-5.5의 경제성과 배포성이 시장에서 더 중요할 수 있다고 주장 (teortaxesTex).

맥락: 왜 중요한가

경쟁 축을 “채팅 모델”에서 “에이전트 기판(agent substrate)”으로 이동: OpenAI는 일회성 답변보다 컴퓨터 사용, 브라우저 액션, 문서/스프레드시트, 장시간 과업 완료를 반복적으로 강조 (OpenAI, OpenAIDevs, gdb). 이는 “모델이 곧 제품”이며 클라우드/데스크톱 에이전트가 다음 잠금해제라는 관찰과도 맞물린다는 해석이 뒤따름.
벤치마크 논쟁을 더 선명하게 만듦: 여러 존중받는 평가에서 상위권이지만, 벤치마크 스크린샷만으로는 설득이 약하다는 반응도 존재. 무거운 사용자 피드백을 더 중시해야 한다는 트윗도 나옴 (skooookum).
규모(size)보다 효율(efficiency)의 중요성 부각: 토큰 효율, 속도, 서빙 경제성이 역량만큼 중요하다는 프레이밍이 강화됨 (Artificial Analysis, sama, polynoamial). API 접근과 광범위 사용에서도 이 조합이 유지되면, “기본 업무 모델(default work model)” 기대치를 재설정할 수 있다는 주장.

요약 결론

GPT-5.5는 특히 에이전트 코딩, 터미널 작업, 브라우저/컴퓨터 사용, 장기 실행에서 프런티어 진전으로 해석됨 (OpenAIDevs, Artificial Analysis, ARC Prize).
실사용성(usability) 서사가 벤치마크만큼 중요: 낮은 마이크로매니지먼트, 더 적은 토큰, 수시간 지속 작업, 더 넓은 데스크톱 워크플로가 핵심 테마로 제시됨 (MatthewBerman, danshipper, tszzl).
하지만 경쟁은 끝나지 않음: 토큰당 비용 상승, 벤치마크 프로파일의 불균일, 환각 우려가 남아 워크로드에 따라 Anthropic/Google 여지가 존재 (Artificial Analysis, theo, scaling01).
시장 함의: API 및 대규모 사용에서 성능/속도/토큰 효율 믹스가 유지되면, 코딩·컴퓨터 사용 제품에서 “기본(work) 모델”의 기대치가 재설정될 가능성이 큼.

비전 및 멀티모달 연구

**Google DeepMind의 “Vision Banana”**가 이미지 이해와 생성을 통합한 모델로 큰 주목을 받으며, 이미지 생성(image generation)을 비전 과제 전반의 일반 인터페이스로 재프레이밍했다. 요약/지지 스레드는 @arankomatsuzaki, 공식 스레드는 @songyoupeng, 회고는 @sainingxie에서 공유됐다. 핵심 피치: 생성적 지각(generative perception)이 컴퓨터 비전(CV)의 기반이 될 수 있지만, 지지자들도 확산(diffusion) 지연(latency)과 실용적 한계가 큰 장애물이라고 언급 (@sainingxie follow-up).
OpenAI 이미지 생성도 강한 일화적 칭찬을 받았다. @goodside는 배포 수정(deployment fix)이 품질을 실질적으로 개선했고, 이미지 생성이 “그냥 tool call”이라 모델 선택이 중요하지 않다는 기존 가정을 흔들었다고 주장했다. 이후 그는 SVG로 렌더 가능한 케이크 이미지와, 알파벳 수프가 유효한 FizzBuzz 해답을 인코딩한 사례 등 “이상하게 강한” 구성/코드 유사 행동을 보여줬다 (cake/SVG, FizzBuzz soup).
Sam Altman은 Images 2.0이 자신에게 중요한 질적 임계점을 넘었다고 언급 (sama). Swyx는 “Image-2-Thinking”이 순수 이미지 모델이라기보다 이미지 에이전트에 가깝게 동작하며, 검색/합성/리뷰 루프를 수십 분에 걸쳐 수행한다고 프레이밍 (swyx).

오픈 모델, 중국 랩, 추론 경제성

Kimi K2.6와 GLM-5.1이 오픈/오픈 인접 강력 도전자라는 언급이 반복됨:
- K2.6이 MathArena 오픈 모델 1위를 기록 (j_dekoninck).
- K2.6과 GLM-5.1이 오픈 모델 중 WeirdML에서 선두지만, @scaling01에 따르면 GPT-5에는 뒤처진다고 언급.
- K2.6이 K2.5 대비 프런티어급 점프라는 평가도 다수 (teortaxesTex, WesRoth).
Qwen3.6-27B는 로컬(local) 사용성 측면에서 이례적으로 강한 입소문:
- @coffeecup2020는 Qwen3.6-27B-TQ3_4S가 “insanely good”하며 16GB VRAM에서 32k 컨텍스트로 구동된다고 주장.
- @leftcurvedev_는 로컬 16GB VRAM 모델이 자신의 사용에서 Claude Sonnet 4.5보다 낫다고 주장.
Tencent Hy3 preview 관련 코멘터리도 이어짐:
- vLLM이 day-0 지원을 발표하며 총 295B / 활성 21B, 256K 컨텍스트, 하이브리드 fast/slow-thinking MoE, 코딩/에이전트에서 최대 개선을 언급 (vLLM).
- @ShunyuYao12는 오픈 벤치마크 쫓기보다 제품 공동 설계(co-design)를 강조.
- 중국발 아키텍처 브레이크다운은 Hy3가 Apertus, DeepSeek V3, MiniMax M2, Qwen3-MoE 아이디어를 복합했다고 특징화 (karminski3).
추론 경제(inference economics) 논의는 계속 지배적:
- Together 사용량이 전년 대비 30B → 300T tokens/month로 늘었다는 주장 (vipulved).
- Patrick O’Shaughnessy 팟캐스트에서 Dylan Patel과 토큰 수급, 컴퓨트 병목, 메모리 가격, 로보틱스 수요 파동 등을 논의 (patrick_oshag).
- 핵심 지표를 리더보드 순위가 아니라 **달러/토큰당 지능(intelligence per $ / token)**로 봐야 한다는 주장도 반복 (polynoamial).

학습/추론 시스템과 커널

Google DeepMind/Google Research의 Decoupled DiLoCo는 기술적으로 가장 밀도 높은 인프라 릴리스 중 하나로 언급됨:
- 저대역폭 네트워크에서의 멀티 데이터센터 학습, 이기종 하드웨어(heterogeneous hardware), 하드웨어 장애에도 학습이 멈추지 않는(fault-tolerant) 학습을 목표 (Ar_Douillard, GoogleDeepMind).
- Google은 미국 4개 리전에서 12B Gemma 모델을 학습했고 TPU6e + TPUv5p 혼합에도 학습 속도가 느려지지 않았다고 말함 (GoogleDeepMind details).
- 분산 학습의 “island size” 제약과, 수백 대 B200 코로케이션 없이 가능한 대안에 대한 커뮤니티 관심과 연결 (jon_durbin).
DeepSeek tile kernels / TileLang 릴리스도 강한 반응:
- @teortaxesTex, @scaling01, @eliebakouch, @arohan 등이 Engram과 mHC용 최적화 커널을 강조(일부는 이미 내부 학습/추론에 사용된다고 언급).
- 별도 DeepSeek 서빙 일화로 API 처리량이 91 tok/s에 도달했다는 주장(H800 실용 상한 추정치를 넘는다는 맥락) (teortaxesTex).
에이전트 최적화(agentic optimization)가 시스템 작업으로 스며드는 흐름:
- @xenovacom은 Opus 4.7이 커스텀 WebGPU 커널을 작성해 Transformers.js에서 fused LinearAttention으로 Qwen3.5 추론이 최대 13x 빨라졌다고 보고.
- OpenAI는 Codex가 GPT-5.5 서빙 속도 최적화에 20%+ 기여했다고 주장 (reach_vb).

에이전트, 평가, 메모리, 하네스(harness)

종이(paper)와 실무 코멘터리 전반에서 “에이전트 품질은 베이스 모델뿐 아니라 하네스 설계에 크게 좌우된다”는 테마가 반복:
- Anthropic은 Claude Code 품질 회귀가 모델만의 문제가 아니라 하네스/설정 변경 때문이었다는 포스트모템을 공개: 기본 추론(reasoning) 수준 하향, thinking 블록을 내쫓는 버그, 장황함(verbosity) 관련 프롬프트 수정. 모두 수정되고 한도도 리셋됐다고 설명 (ClaudeDevs).
- 이를 계기로 오픈 하네스와 오픈 평가(evals) 요구가 확산 (Vtrivedy10, omarsar0).
새 에이전트 논문/이슈:
- SWE-chat은 실제 사용자들의 코딩 에이전트 상호작용을 야생(wild) 데이터로 캡처 (SciFi).
- Stateless Decision Memory는 엔터프라이즈 에이전트를 위한 이벤트 소싱(event-sourced) 기반 불변 결정 로그를 제안(“영리함”보다 확장성과 감사 가능성 강조) (omarsar0).
- 다중 에이전트 시스템에서의 다양성 붕괴(diversity collapse) 논문은 공유 컨텍스트와 상호 피드백이 동질화를 유도하므로, 설계에서 추론/평가를 명시적으로 분리해야 한다고 주장 (dair_ai, douwekiela coverage).
- AutoMetrics는 <100 피드백 포인트로 자동 과업 지표를 유도해, 수작업 LLM-judge 루브릭 대비 사람 판단과의 상관을 최대 +33.4% 개선했다고 주장 (michaelryan207).
제품 측 에이전트 인프라:
- Hermes desktop은 브라우저/게이트웨이 레이어 없이 직접 SSH를 강조 (DODOREACH).
- Delegate가 위임 작업(delegated-work) 에이전트로 출시 (abhshkdz).
- LangSmith Fleet가 파일 생성/편집 및 프레젠테이션 빌드를 추가 (LangChain Fleet, BraceSproul).
- Trackio는 프런트/백을 분리해 LLM 맞춤 실험 대시보드를 가능하게 했다고 언급 (abidlabs).

로보틱스, 자율성, 응용 AI

Nature에 실린 Sony “Ace” 탁구 로봇이 큰 주목을 받았고, 강한 RL + 비전 시스템 결과로 전문가급 플레이에 도달했다고 언급 (hardmaru).
Google Research가 ICLR에서 3D 파운데이션 로보틱스 모델을 추진 (GoogleResearch).
@E0M은 힘 센싱(force-sensing) 필요가 없을 거라던 가정을 깨고, 예기치 않게 성공한 물리 시스템의 핸드오프 행동 예시를 공유.
산업 자율성:
- Mariana Minerals + Sandvik이 **자율 생산 드릴링(autonomous production drilling)**을 더 큰 광산 최적화 루프에 통합했다고 발표 (MarianaMinerals).
- Waymo 사고 분석: 최근 기간의 최악 사고 78건 중 60건이 “사람이 Waymo를 후방 추돌” 또는 “사람이 정지한 Waymo를 충돌” 유형이었다는 주장 (binarybits).

AI Reddit Recap

/r/LocalLlama + /r/localLLM

Qwen 3.6 27B is a BEAST (Activity: 979): 사용자는 Qwen 3.6 27B 모델이 24GB VRAM의 5090 Laptop에서 특히 pyspark/python 및 데이터 변환 디버깅에 매우 잘 맞는다고 보고했다. llama.cpp에서 q4_k_m을 q4_0로 사용 중이며, IQ4_XS at 200k q8_0 같은 추가 최적화를 탐색하고 있고, 아직 speculative decoding은 적용하지 않았다고 한다. 하드웨어는 ASUS ROG Strix SCAR 18, RTX 5090 24GB, 64GB DDR5 RAM 구성으로 언급됐다. 한 댓글은 코딩에서는 KV cache를 q4로 두지 말고 q8로 130k context를 쓰라고 조언했다. 또 다른 댓글은 디코드 속도를 잠재적으로 2배로 만들 수 있다는 GitHub pull request와, z-lab의 dflash drafter 출시를 언급했다. 다른 댓글은 16 GB VRAM + 32 GB DDR5에서 오프로딩(offloading) 성능을 질문했다.
- sagiroth: 코딩에서 KV cache를 q4로 쓰는 것은 성능상 비추천이며, q8로 두면 최대 130k 컨텍스트로 코딩 역량이 좋아질 수 있다고 제안.
- inkberk: llama.cpp PR과 dflash drafter로 “공짜 2x 디코드 속도”가 가능할 수 있다고 언급.
- Johnny_Rell: 16 GB VRAM + 32 GB DDR5 구성에서 오프로딩 효과를 문의.
Qwen-3.6-27B, llamacpp, speculative decoding - appreciation post (Activity: 368): speculative decoding 실험으로 토큰 생성 속도가 13.60 t/s에서 136.75 t/s로 크게 늘었다고 보고했다. 설정은 llama.cpp에서 --spec-type ngram-mod, --spec-ngram-size-n 24, --draft-min 12, --draft-max 48 등을 사용했고, 40GB VRAM과 128GB DDR5 RAM의 Linux PC에서 수행했다고 한다. 최근 llama.cpp 업데이트와 함께 documentation 및 관련 pull requests도 링크됐다. 댓글에서는 RTX5090에서 속도 개선이 없었다는 보고, drafting 모델 질문, mlx에서도 가능한지에 대한 질문이 나왔다.
- EatTFM: RTX5090에서 속도 이득이 없어 --no-mmproj-offload 플래그 필요성/파라미터 호환성 문제를 제기하며 상세 커맨드를 공유.
- Puzzleheaded-Drama-8: Vulkan(7900XTX)에서 drafting 로그는 보이지만 속도 상승이 없어 CUDA 전용 효과인지 질문.
- nunodonato: speculative decoding 유무에 따른 차이를 못 느꼈다고 언급.
Forgive my ignorance but how is a 27B model better than 397B? (Activity: 1550): 이미지가 Qwen3.6-27B(dense, 오픈소스)가 “플래그십급 코딩 파워”를 제공하며, 더 큰 Qwen3.5-397B-A17B를 주요 코딩 벤치마크에서 앞선다고 소개한다. 댓글은 27B가 코딩에 강한 반면, 397B는 세계지식과 장문 컨텍스트에서의 논리적 일관성이 더 낫고, 현 벤치마크가 이를 충분히 반영하지 못한다고 지적했다.
- NNN_Throwaway2: 397B의 세계지식/장문 논리 강점이 벤치마크에 잘 잡히지 않는다고 지적.
- jacek2023: 알고리즘 진보로 작은 모델이 큰 모델을 앞설 수 있으며, 크기만이 전부가 아니라고 주장.
- JaredsBored: 벤치마크와 실제 유스케이스 성능이 어긋날 수 있다고 사례로 강조.
Qwen 3.6 is actually useful for vibe-coding, and way cheaper than Claude (Activity: 524): Qwen 3.6을 코딩에 활용하며 Claude 대비 비용 효율을 강조한 글. 작성자는 Qwen3.6-35B-A3B(Q4)와 Qwen3.6-27B(Q8)를 듀얼 3090에서 200k context로 돌렸고, Unsloth 퀵스타트를 사용했다고 한다. 로컬 서버 구동용 간단한 bash 스크립트와, 리소스 모니터링을 위한 Rust 서버를 만들었다고 언급. 8시간 전기비가 $4 미만인데 API 비용은 $142였다고 비교한다.
- Canchito: Qwen 3.6은 코딩뿐 아니라 글쓰기에도 쓸 만하다고 언급.
- RealestNagaEver: 듀얼 3090에서 27B 생성 속도를 질문.
- danigoncalves: 오픈 모델에서 Claude code 대신 opencode를 쓰지 않는 이유를 질문.
Dense vs. MoE gap is shrinking fast with the 3.6-27B release (Activity: 423): Dense vs MoE 성능 격차가 빠르게 줄고 있다는 비교 이미지. SWE-bench Multilingual에서 Dense의 리드가 +9.0 → +4.1로 줄었고, Terminal-Bench 2.0에서는 Dense 리드가 +1.1 → +7.8로 늘었다고 제시한다. 댓글에서는 더 큰 모델 비교 필요, MoE의 속도/품질 때문에 구독 취소했다는 사용자, 대규모 컨텍스트 코드 처리 같은 과제의 복잡성 등이 논의됐다.
- Embarrassed_Adagio28: 3.6 35b q5가 3.6 27b q5보다 3배 빠르지만 코딩 품질은 비슷하다고 주장.
- flavio_geo: MoE는 dense보다 양자화(quantization)에 더 민감하다고 지적.
- Usual-Carrot6352: 24GB VRAM에 65K 컨텍스트로 Q5 모델이 들어간다고 언급.
Qwen3.6-27B released! (Activity: 962): 새 Qwen3.6-27B가 Qwen3.5-27B, Gemma4-31B 등과 벤치마크 비교에서 더 낫다고 보여주는 바 그래프 이미지. 에이전트 코딩에서 강하고, ‘thinking’/‘non-thinking’ 모드를 지원하며, Apache 2.0으로 완전 오픈소스라고 설명한다. 댓글은 Qwen 팀에 대한 찬사와 실제 사용 기대감이 많았다.
- Qwen3.6-27B(27B)는 Qwen3.5-397B-A17B(총 397B, 활성 17B)보다 주요 코딩 벤치에서 더 높은 점수를 제시: SWE-bench Verified(77.2 vs 76.2), SWE-bench Pro(53.5 vs 50.9), Terminal-Bench 2.0(59.3 vs 52.5), SkillsBench(48.2 vs 30.0) 등.
Deepseek has released DeepEP V2 and TileKernels. (Activity: 347): Deepseek이 DeepEP V2와 TileKernels를 공개했다. DeepEP V2는 효율/확장성 개선에 초점을 맞춘 업데이트로 소개됐고, TileKernels는 커널 실행에서 선형 스케일링(linear scaling)을 달성해, 자원을 2배로 늘리면 처리 속도도 2배로 늘 수 있다는 주장으로 요약됐다. 댓글은 Deepseek의 오픈소스 접근이 OpenAI의 폐쇄성과 대비된다는 의견, 그리고 “선형 스케일링” 주장의 의미를 기술적으로 확인하고 싶다는 반응이 있었다.
- AlwaysLateToThaParty: DeepSeek가 선형적으로 스케일하는 병렬화 방법을 달성했을 가능성을 제기.
- FullOf_Bad_Ideas: Blackwell(SM100) 같은 하드웨어 활용 가능성과, Vast의 B200 임대 같은 가설을 언급.
- FullOf_Bad_Ideas: Engram과 mHC를 DeepSeek 차기 모델의 핵심 혁신으로 추정.
Qwen3 TTS is seriously underrated - I got it running locally in real-time and it’s one of the most expressive open TTS models I’ve tried (Activity: 690): Qwen3 TTS(텍스트-투-스피치, text-to-speech) 로컬 실시간 구동 경험을 공유한 글. 작성자는 슬라이딩 윈도우 디코더 아키텍처를 활용해 안정적인 스트리밍을 달성했고, 속도를 위해 llama.cpp와 통합했으며, 정확한 단어 타이밍/음소 추출을 위해 CTC 단어 정렬을 구현했다고 한다. 보이스 클로닝(voice cloning) 품질 개선을 위해 미세조정(fine-tuning)도 했으며, 프로젝트는 GitHub에 공개됐다고 한다. 댓글은 감정 태그(emotion tags) 통합, 속도, 그리고 대화의 자연스러운 턴테이킹(turn-taking) 한계 등에 관심을 보였다.
- bitslizer: persona engine이 감정 태그를 모델에 직접 주입하는지 질문하며 ‘faster-qwen3-tts’를 언급.
- MadGenderScientist: 유창한 대화/턴테이킹은 여전히 어려운 과제라고 지적.
- Adventurous-Paper566: 원글 작성자의 GPU 등 하드웨어 요구사항을 질문.

Less Technical Subreddits

대상 서브레딧: /r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo
GPT Image 2 is the first image ai that’s blown my mind (prompted for a screenshot from a combined GTA 6-Cyberpunk 2077 game) (Activity: 587): GPT Image 2 생성 이미지가 GTA 6와 Cyberpunk 2077을 결합한 스크린샷 콘셉트를 얼마나 잘 합성하는지 소개한다. 네온 도시 풍경과 차량/도시 요소를 함께 섞어 높은 품질의 일관된 결과를 보여준다는 설명. 댓글은 이미지가 ‘99% 2077’ 같다는 농담과, ‘미니맵이 두 개’라는 관찰 등도 있었다.
- A5760P: AI 이미지 생성 발전이 NVIDIA’s DLSS 5 같은 방향으로 게임의 몰입감을 키울 수 있다고 추정.
- tenchigaeshi: 텍스트 왜곡 문제(글자가 망가짐)를 지적하며 한계로 언급.
- zookeeper990: “two minimaps”를 농담처럼 언급.
GPT Image 2 Is on Another Level — Nano Banana Pro Can’t Compete (Activity: 804): “GPT Image 2”와 “Nano Banana Pro”를 비교하는 밈 이미지. 차이는 미묘하고 주관적이지만, 댓글에서는 Nano Banana Pro가 특정 프롬프트(시계 시간/잔 가득 채우기 등)를 정확히 따르는 사례를 두고 정밀도 vs 미학을 논의한다.
- Mr-and-Mrs: iPhone 사진처럼 9:17am 시계, 물이 정확히 가득 찬 잔 등 프롬프트 정합성을 강조.
- salazka: Nano Banana Pro가 반사/굴절과 질감, 톤 그레이딩에서 더 자연스러운 ‘아마추어 사진’ 느낌을 낸다고 주장.
The new chatgpt image generator is insane (Activity: 465): 새 ChatGPT 이미지 생성 능력이 크게 개선됐고, 유명 인물처럼 보이는 Twitch 스트리머 이미지를 만드는 등 현실감과 맥락 반영이 강화됐다는 주장. 댓글은 유명인 유사 이미지 생성이 향후 제한될 수 있다는 우려를 언급한다.
- Fun-Foot711: ‘Gemini Nano Banana’보다 나아졌다고 주장.
- Wanky_Danky_Pae: recognizable individuals 생성 제한 가능성을 농담 섞어 언급.
GPT-Image-2 vs Nano Banana 2, nb2 tried its best… (Activity: 1187): GPT-Image-2와 Nano Banana 2(NB2) 비교. GPT-Image-2는 피사체 디테일과 플래시 같은 느낌이 강하고, NB2는 장면 문맥/주변광을 더 잘 통합해 휴대폰 HDR 사진 같은 인상을 준다는 논의가 이어진다.
- StrategicCarry: NB2가 조명 지시를 더 정확히 따르고, 장면 구성이 더 일관되며, bralette 지시도 더 잘 따른다고 주장.
- fredandlunchbox: NB2는 Samsung HDR, GPT-Image-2는 DSLR 플래시 사진에 비유.
- Frequent-World2721: NB2의 표지판 텍스처(‘Kozy Korner’)가 가짜 같다고 비판.
Nano Banana Pro vs ChatGPT Image 2 — Which one looks more real? 📸 (Activity: 184): 동일 프롬프트로 “Nano Banana Pro”와 “ChatGPT Image 2”의 사진 현실감을 비교. 피부 질감, 조명, 그림자, 자연스러움 등을 논한다. 댓글은 GPT 계열 이미지에서 특정 노이즈 패턴이 반복된다는 지적을 포함한다.
- nuclearbliss: GPT 이미지에 ‘blotchy’한 노이즈 패턴이 반복된다고 지적.
- jonomacd: GPT 이미지에 ‘yellowish filter’가 지속된다고 언급.
Chatgpt Image 2 beats Nano Banana 2 and Pro by miles, Nano Banana 2 Pro when? (Activity: 95): ChatGPT Image 2가 Nano Banana 2/Pro를 크게 앞선다는 주장과, Nano Banana Pro가 6개월 가까이 업데이트가 없다는 언급. 내부 NB2가 12월에 있었지만 미출시, 현재 모델이 3.1 flash 기반이라는 이야기, Gemini 3가 preview라는 언급 등이 나온다. 댓글은 Google I/O(5월)에서 업데이트 가능성을 추정한다.
- sammoga123: NB 라인업의 업데이트/내부 버전/기반 모델 타임라인을 요약.
- alext77777: 저작권물 검열이 랜덤해 보인다는 불만을 언급.
- typical-predditor: Nano Banana는 생성보다 이미지 편집이 강점이라고 주장.
Qwen 3.6 27b (Activity: 242): Qwen 3.6 27b 성능 비교 이미지를 공유하며 Terminal-Bench 2.0, SWE-bench Verified, GPQA Diamond 등에서 경쟁력이 있다고 설명. 모델은 Hugging Face에서 제공된다고 언급한다. 댓글은 FP32에서 4.5 haiku 수준에 근접할지, q6/8 양자화에서도 비슷할지, T-SQL 생성 실패 사례, FP8만 공식 제공이라 VRAM/양자화 옵션이 필요하다는 논의 등을 포함한다.
- alphapussycat: FP32에서 4.5 haiku급을 기대하며 q6/8에서도 희망을 언급.
- Holiday-Pack3385: T-SQL 코드 생성이 계속 실패했다고 보고.
- Sha1rholder: RTX 5090에서 VRAM 충분성 및 양자화 옵션을 질문(공식이 FP8만 제공).
Comparing Qwen3.6 35B and New 27B for coding primitives (Activity: 131): MacBook Pro M5Max(64GB)에서 HTML 파형(waves) 생성으로 Qwen3.6 35B와 27B를 비교. 35B-A3B는 6672 tokens를 2m 10s에 65 tokens/s, 27B는 7344 tokens를 5m 22s에 24 tokens/s로 보고했다. 35B는 빠르지만 덜 구조적이고, 27B는 계획이 필요한 작업에서 더 깔끔하고 일관된 결과를 냈다고 한다. 서빙은 Atomic Chat를 사용했고 소스는 GitHub에서 제공된다고 언급했다.
- pulse77: Google TurboQuant에서의 커맨드라인 파라미터를 질문.
- smart4: llama cpp에서 더 많은 파라미터를 켜는 실험을 제안하며 --override-kv qwen35moe.expert_used_count=int:8 등을 언급.
- Direct_Major_1393: 35B vs 27B 선택은 주관적일 수 있으며 35B가 더 자연스럽게 느껴진다고 언급.
I ran the numbers. Qwen3.6-27B dense obsoleted the 397B MoE on coding benchmarks. (Activity: 93): Alibaba의 Qwen3.6-27B(dense)가 Qwen3.5-397B-A17B(MoE)보다 코딩 벤치마크에서 낫다는 수치 비교. SWE-bench Verified에서 27B가 77.2로 397B MoE의 76.2를 넘고 Claude 4.5 Opus의 80.9에 근접했다고 언급한다. Terminal-Bench 2.0에서도 59.3으로 Opus와 같고 397B MoE의 52.5를 상회한다고 주장. 또한 RTX 3090/4090 같은 소비자 GPU에서 양자화로 16GB/24GB VRAM에 넣을 수 있고, 262k 컨텍스트 및 멀티모달을 지원한다는 주장도 포함한다.
- Sirius_Sec_: Qwen3.6-27B가 SWE bench pro에서 53.5, Claude가 57.1이라며 경쟁적이라고 언급.
- ReferenceOwn287: 27B dense vs 35B-A3B MoE 중 dense가 품질/디버깅에서 더 낫다고 분석.
- Sirius_Sec_: Qwen3.5-27B에서 Qwen3.6-27B로 업그레이드를 언급하며 H100에서 큰 향상을 봤다고 주장.
Anthropic has appeared to begin testing removing Claude Code from their $20 plan for new users signing up. OpenAI employees have already begun to make fun of them for this. (Activity: 650): Anthropic이 신규 가입자 대상 $20 플랜에서 Claude Code를 제거하는 테스트를 하는 것처럼 보인다는 주장. 컴퓨트 제약(compute limitations) 때문에 2% 신규 사용자에 대해 churn 영향을 보기 위한 A/B 테스트일 수 있다는 추정이 나온다. 비교 페이지에서 제거된 점을 들어 일시 테스트가 아니라 결정일 수 있다는 의견도 있다.
- NormalEffect99: 2% 신규 사용자에서 churn을 보려는 A/B 테스트일 수 있다고 언급.
- Shot_Illustrator4264: 비교 페이지에서 빠진 것은 더 확정적 결정 신호일 수 있다고 주장.
- Glittering-Neck-2505: OpenAI의 저가 컴퓨트 유지 전략과 대비된다는 맥락을 언급.
PSA: Anthropic bans organizations without warning (Activity: 2733): Anthropic이 경고 없이 조직 전체를 밴(ban)해 ~110 users가 영향을 받았다는 보고. Claude Team과 API accounts가 따로 있었지만 이메일 밴 때문에 API는 살아 있어도 접근이 불가능했다고 한다. 원인 설명이나 응답이 없어 비즈니스 신뢰성 문제가 제기된다. 유사 이슈로 Twitter thread도 언급됐다.
- DependentBat5432: 단일 공급자 의존 리스크를 강조.
- TheKingCowboy: 엔터프라이즈 계정에 전담 담당자가 없는 듯한 점이 이상하다고 언급.
- Foreign_Bird1802: 안전 목표와 조직 전체 밴이 어떻게 맞는지 의문을 제기.
An open letter to Anthropic (Activity: 4882): 사용자 공개서한 형태로 Claude 4.6 → 4.7 전환에 대한 강한 불만을 표출. Claude 4.6이 20년치 작업 정리에 도움이 됐지만, 4.7은 빠르고 급작스럽고 환각/부정확성이 늘어 복잡한 프로젝트를 망가뜨렸다는 주장. 4.6 유지 요청과, 신경다양성(neurodiverse) 사용자에게 의미 있는 지원을 제공했다는 호소가 포함된다.
- 사용자들은 4.7에서 환각 증가, 사용자 거버넌스 문서에 대한 저항 등을 언급하며 회귀를 주장.
- 1,200줄/18,000토큰의 거버넌스 문서(system prompt)에 4.7이 적대적 반응을 보였다는 경험담이 포함됨.
- 4.6이 10주 만에 4.7로 교체된 빠른 릴리스 주기가 워크플로를 깨뜨린다는 비판이 나온다.
Anthropic response to Claude Code change (Activity: 2032): Anthropic이 ~2% 신규 prosumer 가입자에 영향을 주는 테스트를 진행 중이며 기존 Pro/Max는 제외된다고 설명한 것으로 요약된다. Max 출시 이후 Claude Code와 장시간 비동기 에이전트(async agents) 등으로 구독자당 사용량이 크게 바뀌어, 서비스 품질 유지를 위해 새 구독 모델을 탐색한다는 취지. 현 구독자에 영향을 주는 변경은 직접 공지하겠다고 말한다.
Anthropic just published a postmortem explaining exactly why Claude felt dumber for the past month (Activity: 818): Anthropic의 포스트모템 요약. Claude Code가 “바보 같았다”는 체감의 원인이 3가지 버그/변경 때문이었다고 설명한다: 3/4에 지연을 줄이려 reasoning effort를 high→medium으로 낮췄고(4/7에 되돌림), 3/26에 캐싱 버그로 thinking 히스토리를 잊어 cache miss와 한도 소진이 빨라졌고, 4/16에 system prompt 변경으로 툴 호출 사이 응답을 25단어로 제한해 코딩 품질이 떨어졌으며(4/20에 되돌림) 각각 다른 트래픽 슬라이스에 영향을 줬다고 한다. 4/20(v2.1.116)까지 수정됐고 구독자 한도도 리셋된다고 하며, 원문은 Read the full postmortem로 안내한다.
- 커뮤니티는 문제 원인이 사용자 추측과 일치했다며, 사용자 피드백의 중요성을 강조.
- 주말 직전에 리셋한 타이밍을 비판하며 ‘보상 영향 최소화’로 해석하는 댓글도 있었다.
- 기술적 설명의 투명성이 신뢰 유지에 중요하다는 의견이 제시됐다.

AI Discord Recap

Discord

접근 중단: Discord가 오늘 접근을 차단해 더 이상 이 형태로는 가져오지 않겠다고 밝혔다. 대신 새로운 AINews를 곧 출시할 예정이며, 여기까지 읽어준 것에 대해 “좋은 여정이었다”고 감사 인사를 전했다.

오늘의 요약