Qwen3.7-Max, Claude급 벤치마크 경쟁

헤드라인: Qwen3.7-Max, Claude급 벤치마크 경쟁

참고 링크: 544 Twitters, AINews’ website, AINews is now a section of Latent Space, opt in/out

Qwen3.7-Max가 에이전트 코딩, 소프트웨어 엔지니어링, 도구 사용, 추론(reasoning), 지식 평가에서 Claude급 모델과 경쟁하는 결과로 주목받았다. 다만 커뮤니티에서는 Max 계열이 실제 오픈 웨이트로 공개될 가능성, 더 작은 로컬 모델이 같은 성능을 낼 수 있는지, 그리고 로컬 하드웨어에서의 실사용 가능성을 두고 신중한 반응이 이어졌다.

AI Twitter Recap

에이전트 하네스, 코딩 벤치마크, “모델만으로는 부족한” 전환

하네스 엔지니어링이 코딩 에이전트의 핵심 차별점으로 부상: 여러 게시물이 같은 논지로 모였다. 이제 승리하는 스택은 더 강한 기본 모델 하나가 아니라 모델 + 하네스 + 평가 루프다. 긴 Zhihu 요약은 DeepSeek이 명시적으로 하네스 팀을 만들고 있다고 주장하며, 모델 출력, 런타임 피드백, 검증, 수정을 닫힌 루프로 연결하려는 흐름과 캐시 입력 비용 우위를 언급했다. 동시에 Google의 Gemini Managed Agents 가이드는 샌드박싱, 지속성, 마운트를 갖춘 관리형 하네스를 단일 API 호출로 제공하는 에이전트 인프라를 제시했고, LangChain의 업데이트된 create_agent 문서와 dair.ai의 “harness” 논문 요약은 같은 스택을 컨텍스트 거버넌스, 신뢰 가능한 메모리, 동적 스킬 라우팅으로 공식화했다.
벤치마크가 실제 개발자 경험에 더 가까워짐: 새로운 에이전트형 코딩 벤치마크로 소개된 DeepSWE는 실무자들의 강한 지지를 받았다. @theo는 이를 “이 모델들로 코딩할 때의 체감과 실제로 맞는 첫 코드 벤치”라고 평가했다. 이 벤치마크는 공개 SWE 리더보드보다 상위권 모델 간 격차도 더 뚜렷하게 보여줬다. 관련 신호로는 Qwen3.7 Max가 Code Arena: Frontend에서 #4로 데뷔해 에이전트형 웹 개발 작업에서 Claude Opus 4.6과 대체로 비슷한 수준을 보였고, Alibaba도 이 결과를 확산했다. 도구 스택 전반에서는 Anthropic이 Claude Code용 보안 가이드 플러그인을 출시하고 내부 사용에서 보안 관련 PR 코멘트가 30-40% 감소했다고 보고했으며, OpenAI는 Databricks에서 Codex 내 GPT-5.5를 강조하며 더 신뢰도 높은 문서 파싱을 내세웠다.

리서치 에이전트, 장기 추론, 컨텍스트 압축을 위한 “수면”

수학/과학 에이전트는 올바른 하네스가 있을 때 잠재 역량의 증거를 더 보여줌: 가장 강한 트윗 묶음은 오래된 미해결 문제를 푸는 모델들에 관한 것이었다. 한 수학자는 Claude Mythos가 Erdős 문제 #90을 풀었다고 보고했고, 후속 설명에서는 모델이 OpenAI의 이전 경로와는 다른, 더 깔끔한 증명 경로로 자주 수렴했다고 했다. 이 내용은 @_sholtodouglas, @kimmonismus에게도 이어졌고, Sébastien Bubeck은 이를 더 분명히 했다. 적절한 하네스가 있으면 Mythos와 GPT-5.5 모두 내부 모델이 원샷으로 했던 일을 재현할 수 있으며, 이는 일반 채팅 UX에서는 드러나지 않는 잠재 역량이 크다는 뜻이다.
장기 메모리가 핵심 병목으로 재부상: 논문 “Language Models Need Sleep”가 눈에 띄는 관심을 받았다. 메커니즘은 최근 컨텍스트를 KV 캐시를 비우기 전에 영속적인 빠른 가중치로 변환하는 수면 유사 통합 단계다. 계산을 오프라인 패스로 옮기면서 깨어 있는 시간의 지연은 유지한다. dair.ai의 요약은 시스템 관점을 강조했다. 긴 궤적을 가진 에이전트에서 계속 커지는 KV 캐시의 대안이라는 것이다. 이 주제는 Omar가 Anthropic의 메모리 토크와 Dream 기능을 가리킨 내용을 포함해 에이전트 메모리 시스템 논의와도 잘 연결됐다.
오픈 딥리서치 에이전트와 과학 예측도 진전: 장기 사실 탐색, 인용 기반 근거, 보고서 합성을 위한 오픈 2B-35B 모델군 QUEST가 범용 딥리서치 에이전트로 공개됐다. 과학 평가 측면에서는 Sakana/Stanford/Oxford/AI2의 CUSP 벤치마크가 현재 모델들이 유망한 연구 방향은 자주 식별하지만, 돌파구가 실제로 생길지와 언제 생길지를 판단하는 데는 훨씬 더 어려움을 겪는다고 밝혔다.

모델, 옵티마이저, 아키텍처 업데이트

옵티마이저 연구는 Muon 변형과 schedule-free 학습을 중심으로 여전히 활발: AMUSE는 Anytime MUon with Stable gradient Evaluation을 제안한다. Muon과 schedule-free 스타일의 gradient evaluation을 결합해 LR decay 없이 안정적인 anytime training을 수행하며, 124M / 720M / 1B 규모와 ViT/ImageNet 미세조정(fine-tuning)에서 개선을 보고했다. 관련 구현 논의로는 ClashLuke의 SFMuon 스니펫과 kellerjordan의 Newton-Muon 기반 Modded-NanoGPT 결과가 있었다.
Sparse attention 설계 공간은 계속 다양화: MiniMax가 M3 오픈소스를 예고했고, 후속 기술 코멘터리는 새로운 block-sparse two-stage attention 경로를 시사했다. @kimmonismus는 보고된 속도 향상을 요약했다. M2 대비 1M 토큰에서 9.7배 prefilling, 15.6배 decoding이다. @eliebakouch는 M3가 DeepSeek의 압축 attention 변형과 달리 실제 KV 위에서 블록을 선택하는 GQA 기반 sparse attention으로 돌아가는 듯하다고 덧붙였다.
비전/오픈 모델 출시와 순위 업데이트: PrismML은 Bonsai Image 4B를 공개했다. 노트북과 휴대폰에서 로컬 실행을 목표로 한 1-bit 및 ternary 변형도 포함됐다. 후속 글은 약 3GB footprint로 브라우저 로컬 실행이 가능하다고 언급했다. 폐쇄형 모델 쪽에서는 Microsoft의 MAI-Image-2.5가 Image Arena #3로 데뷔하며 기존에 OpenAI와 Google이 지배하던 상위 5위권에 진입했고, Arena는 1,254점을 보고했다. 한편 Artificial Analysis는 Gemini 3.5 Flash를 측정해 최대 약 280 output tok/s와 훨씬 강한 에이전트형 성능을 보였지만, 비용은 Gemini 3 Flash의 약 5배라고 밝혔다.

인프라, 시스템, 반도체 스택

Huawei의 “τ scaling” 논문은 새 법칙보다는 엔지니어링 로드맵으로 읽힘: 매우 상세한 스레드는 Huawei의 “A Time Scaling Theory for Multi-Layer Electronic Systems”를 전략 선언문 / 백서로 해석해야 한다고 주장했다. 핵심 제안은 공정 노드가 아니라 time constant τ를 장치, 칩, 데이터센터 규모를 관통하는 통합 지표로 삼자는 것이다. 가장 구체적인 주장은 미래 Kirin 설계에서의 LogicFolding에 관한 것으로, 고정 노드에서 +55% 밀도, +41% 에너지 효율, +13% 주파수를 주장했고, Unified Bus와 Hi-ONE optical I/O 같은 패키징/네트워크 아이디어도 포함됐다. 같은 스레드는 다이 사진, SEM, 워크로드 세부사항, 수율 곡선 등 검증 자료가 없다고 조심스럽게 지적하며, 가장 눈에 띄는 수치는 유망하지만 검증되지 않았다고 해석했다. 후속 반응도 Huawei의 경로가 리소그래피 추격보다 패키징과 아키텍처에 더 의존할 수 있다고 강조했다. 예컨대 @josiah_leee는 Jensen의 지적, 즉 Hopper에서 Blackwell로의 개선 대부분이 노드 외 최적화에서 나왔다는 점을 인용했다.
데이터센터 전력과 추론(inference) 공급 제약이 1차 이슈로 부상: SemiAnalysis가 800VDC 전환에 관한 글을 냈고, John Carmack이 이를 추천했다. EV 전력 전자 기술이 고전압 SiC 부품을 포함해 데이터센터 설계로 넘어오는 흐름을 강조한 것이다. 별도로 Epoch AI는 추론 컴퓨트 부족 가능성을 추정했다. 수요가, 특히 긴 컨텍스트 워크로드에서, serving capacity보다 빠르게 증가하는 듯하다는 내용이다. 이들의 거친 모델은 현재 글로벌 Blackwell 공급이 유리한 가정에서는 오늘의 수요를 처리할 수 있지만, 긴 컨텍스트에서는 처리량이 급격히 떨어지고 수요 증가가 이미 공급을 앞지를 수 있다고 시사했다.

프로덕션 도구와 개발자 인프라

Serving/추론 스택에 의미 있는 성능 및 관측성 업데이트: vLLM은 Rust 프론트엔드를 병합했다. Python API 서버의 드롭인 대안이며, 초기 수치는 단일 프로세스의 전처리 비중이 큰 워크로드에서 약 837 req/s 대 약 162 req/s를 보였다. W&B는 MCP 서버를 출시해 코딩 에이전트가 실험과 학습 run을 살펴볼 수 있게 했고, 컨텍스트 윈도우 폭발을 피하기 위한 schema-first 재설계를 내세웠다. Unsloth는 로컬 UI 안에서 GPT, Claude, 기타 API를 실행하는 기능을 추가했으며, prompt caching과 코드 실행도 포함했다.
Cloudflare, OpenRouter, 벡터/검색 벤더들이 “productionization” 계층을 강화: OpenRouter는 1.13억 달러 Series B를 발표했고, 주간 볼륨이 6개월 동안 5T에서 25T 토큰으로 증가했다고 밝혔다. Cloudflare는 스타트업 프로그램을 재출시하며 최대 35만 달러 크레딧을 제공했고, Think와 에이전트 사용성 관련 별도 게시물들은 durable turns, reconnects, stale-state handling, recovery를 핵심 실전 차별점으로 강조했다. 검색 인프라에서는 Booking.com이 1억 개 이상 임베딩으로 확장한 경험을 논의했으며, filtered vector search, reads-during-writes, concurrency, 파트너 메시징 에이전트를 위한 human-in-the-loop 평가를 포함했다.

상위 트윗

Codex / 에이전트형 코딩 실사용: 가장 신호가 강한 제품 사용 트윗은 @bunkaich가 Codex로 저가 MP3 플레이어의 펌웨어를 리버스 엔지니어링하고 패치하는 모습을 보여준 글이었다. 워크플로는 칩 검사, OS 추출, 바이너리 분석, 수정된 이미지 플래싱까지 이어졌다.
DeepSWE 벤치마크 출시: @serenaa_ge의 DeepSWE 발표는 “이것이 실제 코딩 경험과 맞는가?” 논의의 주요 기준점이 됐다.
Claude Code 보안 플러그인: @ClaudeDevs의 출시는 구체적 제품 출시와 내부 지표를 함께 제시해 눈에 띄었다. 보안 관련 PR 코멘트가 30-40% 감소했다는 내용이다.
OpenRouter 투자 유치와 프로덕션 토큰 성장: @OpenRouter의 1.13억 달러 Series B는 라우팅과 멀티모델 인프라가 지속 가능한 플랫폼 계층으로 여겨진다는 분명한 시장 신호 중 하나다.
vLLM Rust 프론트엔드: @vllm_project의 병합 발표는 고처리량 serving에서 CPU/API-server 병목을 겪는 이들에게 중요했다.

AI Reddit Recap

/r/LocalLlama + /r/localLLM

Waiting for Qwen 3.7 open weight… The new King has arrived… (Activity: 1217): 이미지는 Qwen3.7 블로그의 벤치마크/마케팅 비교 자료다. Qwen3.7-Max를 Qwen3.6-Plus, DS-V4-Pro Max, GLM-5.1, Kimi K2.6, Claude Opus-4.6 Max와 비교하며 에이전트형 코딩, 소프트웨어 엔지니어링, MCP/tool-use, 추론(reasoning), 지식 평가에서 선도적 frontier 모델로 포지셔닝한다. 기술적으로 중요한 점은 이 슬라이드가 Qwen3.7-Max를 여러 벤치마크에서 Claude급 모델과 매우 경쟁적이거나 앞서는 모델로 제시한다는 것이다. 다만 Claude Opus-4.6 Max는 ClawEval과 CoWorkBench 같은 일부 작업에서 여전히 앞서는 것으로 보인다. 댓글 작성자들은 이것이 Max 모델이지 더 작거나 오픈 웨이트 릴리스를 대표하지 않을 수 있다고 지적했고, Strix Halo 같은 로컬 하드웨어에 맞는 512k 컨텍스트의 3.7-122B-A17B MXFP4 모델 가능성을 추측했다. 주요 논쟁은 오픈 웨이트에 대한 회의론이었다. 댓글들은 Qwen이 역사적으로 Max 시리즈를 오픈 웨이트로 공개하지 않았다고 지적하며, 제목의 “open weight를 기다린다”는 프레이밍이 비현실적일 수 있다고 봤다. 다른 이들은 가상의 27B 모델이 표시된 Max급 벤치마크 결과와 같을 것이라 기대하지 말라고 경고했다.
Qwen Max와 오픈 웨이트 구분: 여러 댓글 작성자들은 Qwen Max와 향후 가능성 있는 오픈 웨이트 릴리스를 구분하며, *“Qwen has never open-weighted the Max series”*라고 언급하고 더 작은 27B 변형이 Max 수준 벤치마크 성능을 낼 것이라 기대하지 말라고 했다. 기술적 시사점은 공개/오픈 웨이트 Qwen 3.7이 벤치마크된 플래그십과 다른 아키텍처/규모를 쓸 수 있다는 점이다.
로컬 하드웨어 희망사항: 한 기술 위시리스트는 512k 컨텍스트를 가진 가상의 Qwen 3.7 122B-A17B MTP MXFP4 모델에 초점을 맞췄고, 댓글 작성자들은 이것이 Strix Halo급 로컬 하드웨어에 잘 맞을 것이라고 봤다. 또 다른 사용자는 Qwen 3.5 397B-A17B NVFP4를 언급하며, 4x RTX 6000 Pro GPU에 올라가고 200k 토큰 세션 약 10개를 동시에 돌릴 여유가 있다고 주장했다. Qwen 3.7이 보고된 벤치마크를 맞춘다면 “집에서 쓰는 Opus”가 될 수 있다는 관점이다.
오픈 웨이트 가능성 논쟁: 한 댓글 작성자는 매우 강력한 로컬 모델이 제공자의 수익화를 해칠 수 있어 오픈 웨이트 frontier 릴리스 가능성이 낮아질 수 있다고 주장했다. Qwen의 전략이 파괴적 공개에서 수익화된 frontier 경쟁 쪽으로 이동했으며, 이 변화가 397B-A17B 같은 대형 MoE 모델의 공개 여부에 영향을 줄 수 있다는 것이다.
Qwen3.6 35Ba3 has changed my workflows and even how I use my computer (Activity: 567): 이 글은 pi를 통해 Qwen3.6 35B a3를 쓰는 로컬 에이전트 워크플로를 설명한다. 사용자는 반복 가능한 절차를 Codex가 생성/문서화한 “skills”로 바꾼 뒤 VPS DevOps, docling PDF→EPUB 변환, Playwright 테스트, 코드 티켓, OS 수준 셸 작업에 재사용한다. 구체적 예로 WhatsApp 오디오 → AnythingLLM 전사 → content.md → 로컬 생성 랜딩 페이지 → “manager” pi 프로세스가 pi -p @plan.md "Check the first Ticket with Status UNDONE and do it"로 새 컨텍스트의 하위 에이전트를 생성해 티켓을 DONE으로 표시하고 git 커밋 후 VPS skill로 배포하는 plan.md 티켓 큐가 제시됐다. 댓글은 이 설정을 돌릴 수 있는 하드웨어, 에이전트가 OS 접근 권한을 가질 때 샌드박스/신뢰성 문제, Hermes 같은 다른 에이전트형 도구와 비교한 pi 채택 난이도에 집중했다.
Unsloth Studio 실행 사례: 한 사용자는 24GB RTX Pro 4000 Blackwell SFF GPU가 있는 MS-02에서 Unsloth Studio를 통해 unsloth/Qwen3.6-35B-A3B-MTP-GGUF를 실행하며 꾸준히 **>100 tokens/s**를 본다고 보고했다. 이들은 MS-02를 Mac 워크스테이션용 소형 원격 GPU 서버로 쓰면서 Mac Studio M2의 “unoptimized GGUFs”와 성능을 비교했고, Unsloth의 향후 MLX 지원이 Mac 쪽 성능을 개선할 수 있다고 언급했다. 스크린샷: preview.redd.it.
110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp (Activity: 565): 이 글은 RTX 4070 Super 12GB + Ryzen 7 9700X에서 byteshape의 IQ4_XS 4.19 bpw GGUF를 사용해 Qwen3.6-35B-A3B MTP를 벤치마크했다. llama.cpp 업스트림과 ik_llama.cpp를 --ctx-size 131072, q8_0 KV cache, MTP draft max 3, p_min=0.75로 비교했다. 같은 mtp-bench.py 워크로드에서 업스트림 llama.cpp는 평균 89.76 tok/s, aggregate MTP accept rate **0.9393**를 기록했고, ik_llama.cpp는 16.64s 동안 평균 **110.24 tok/s**를 기록해 업데이트된 결과의 aggregate accept rate가 더 낮은 **0.8749**였음에도 23% 처리량 개선을 주장했다. OP는 실사용 적합성을 ik_llama.cpp의 --fit/--fit-margin 1664에 돌렸고, OOM 완화책으로 --fit-margin를 1792나 2048로 올리라고 했다. 또한 디스플레이를 iGPU로 돌리면 12GB VRAM 거의 전부를 추론에 쓸 수 있다고 언급했다. 댓글은 재현성에 집중해 업스트림 llama.cpp 전체 명령어를 요청했고, 최근 여러 MTP 관련 PR이 병합됐으므로 벤치마크 타이밍이 빌드 날짜에 크게 좌우될 수 있다고 봤다.
KDE VRAM 절약 우회책: CachyOS/KDE Wayland 사용자는 단일 GPU 시스템에서 LIBGL_ALWAYS_SOFTWARE=1, GALLIUM_DRIVER=llvmpipe, KWIN_COMPOSE=Q를 강제해 KDE Plasma를 CPU 렌더링으로 돌리는 custom SDDM session을 만들었다고 설명했다. KDE Wayland idle VRAM이 **> 1024 MB**에서 **약 126 MB**로 떨어져 35B 모델 실행에 거의 1GB VRAM을 더 확보했지만, compositor 애니메이션은 비활성화되거나 매우 느려졌다.
MTP/speculative decoding 논쟁: 여러 댓글은 보고된 110 tok/s가 ik_llama.cpp의 MTP/speculative decoding 동작이 업스트림 llama.cpp보다 나아서 나온 것인지에 집중했다. 한 사용자는 ik_llama.cpp의 acceptance rate가 0.790 아래로 내려가지 않은 반면 llama.cpp는 **0.477**까지 떨어졌다고 언급하며 정확한 llama.cpp 명령/설정을 요청했고, 최근 24시간 내 여러 MTP 관련 PR이 llama.cpp에 들어갔다고 지적했다.
양자화(quantization) 품질 질문: 한 댓글은 Qwen3.6 35B A3B에 쓰인 IQ4_XS 양자화가 가장 낮은 메모리의 Q4 quant처럼 보인다며, 모델 품질/지능 영향과 최종 VRAM/RAM 분할에 대한 세부사항을 요청했다. 이는 12GB VRAM 실행의 핵심 트레이드오프, 즉 공격적 양자화로 모델을 맞추는 것과 추론 품질 및 과도한 CPU/RAM 오프로딩 병목을 피하는 것 사이의 균형을 보여준다.

오픈소스 AI 자금 조달과 법적 압박

Heretic has been served a legal notice by Meta, Inc. (Activity: 2705): Heretic Free Software Project는 **Meta Platforms, Inc.**를 대리하는 제공자로부터 이메일 법적 통지를 받았다고 밝히고, Heretic이 통제하는 저장소에서 Meta의 Llama 모델 가중치 파생물을 제거했다. 프로젝트는 공식 독일 호스팅 Codeberg mirror도 발표했고, 단일 호스팅 제공자에 의존하지 않고 Heretic이 만든 모델 접근을 보존하기 위한 “technological measures”를 작업 중이라고 했다. 글은 Llama가 LM Arena 리더보드에서 “상위 200개” 모델 중 하나이며, “168개 다른 모델” 뒤에 있다고 냉소적으로 언급했다. 상위 댓글은 특히 “168 other models” 리더보드 풍자를 중심으로 게시물의 냉소에 반응했고, Meta가 토렌트 도서나 저작권 자료를 모델 학습에 썼다는 의혹이 있는 상황에서 집행에 나선 점을 비판했다.
Meta Llama 순위 프레이밍: 한 댓글은 법적 대응 문구가 Meta의 Llama 계열을 현재 오픈/모델 경쟁과 대비시키는 방식을 강조했다. Llama가 LM Arena 상위 200 안에는 들지만 23개 경쟁사의 168개 모델 뒤에 있다고 묘사된다는 것이다. 기술적 시사점은 Meta의 명명권 집행 자세가 Llama의 상대적 벤치마크 위치 및 최근 모델 출시 둔화 인식과 대비된다는 점이다.
DeepSeek is pushing forward with $10.29 billion financing round, with Liang Wenfeng committing to continue developing open-source AI models rather than pursuing short-term commercialization goals (Activity: 797): DeepSeek은 Bloomberg에 따르면 $10.29B financing round를 진행 중이며, 창업자 Liang Wenfeng은 단기 상업화보다 AGI 지향 로드맵과 AI 모델 공개/개방을 계속하겠다는 의지를 재확인했다. 댓글은 이를 모델 우위의 반감기가 짧고, 오픈 연구가 폐쇄적 인재/모델 moat보다 반복 속도를 더 빠르게 할 수 있다는 전략적 베팅으로 해석했다.
오픈 웨이트와 매출 논쟁: 상위 댓글은 로컬 추론 사용자가 소수이므로 OpenAI, Anthropic, Google, Mistral 같은 연구소가 가중치를 공개해도 SaaS/API 매출에 큰 타격을 주지 않을 것이라고 주장했다. 어떤 아키텍처 리드도 대략 ~1 year 정도의 유효 기간만 가질 것이라는 추정도 나왔다.
좋은 enough 모델과 압축 과제: 한 기술 스레드는 현재 오픈 모델이 GLM 5.1 수준의 코딩 보조에서는 이미 “good enough”에 도달했다고 봤다. 남은 우선순위는 원시 지능이 아니라 증류/압축이다. 즉, 비슷한 코딩 능력을 더 작고 빠르며 효율적인 배포 가능 모델에 보존하는 것이다.
DeepSeek 멀티모달 확장: 한 댓글은 DeepSeek 자체 보고서가 멀티모달 기능 추가 작업을 말한다고 지적했다. DeepSeek_V4.pdf. 주목할 기술적 관점은 DeepSeek이 GPU/수출 제재 제약에도 모델 확장을 계속하고 있어 제한된 하드웨어 접근 속에서도 진전이 이어진다는 점이다.

Less Technical Subreddits

대상 서브레딧: /r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo
Claude Code dropped /workflows (Activity: 1074): 이미지는 **/workflows**를 위한 단순한 Claude 브랜드 발표 그래픽이며, Anthropic이 Claude Code 2.1.147에서 새 workflow system을 잠깐 노출했다가 changelog에서 제거했다는 게시물 주장과 연결된다. 기술적 의미로 주장된 것은 LLM 기반 orchestrator를 workflow.js 코드 기반 controller로 대체한다는 점이다. 구조화된 phase, 병렬 fan-out, 조건/루프/예산, retry, background execution, 그리고 하위 에이전트 출력물을 메인 채팅 컨텍스트가 아니라 phase 사이에서 넘겨 컨텍스트 윈도우 “token tax”를 줄이는 방식이다. Image: https://i.redd.it/6tuq1a2i3p2h1.png. 댓글 작성자들은 이것이 근본적으로 새로운 멀티에이전트 패턴인지에 회의적이었고, 기존 Claude Code agent teams를 지적했다. 다른 이들은 “Opus 4.5” 같은 더 새롭고 나은 모델을 원하는 데 비하면 낮은 우선순위 기능이라고 일축했다.
기존 agent teams와의 중복: 한 댓글은 Anthropic의 기존 Claude Code “agent teams” 문서(https://code.claude.com/docs/en/agent-teams)를 링크하며, 설명된 /workflows 패턴인 *“one main agent (an LLM) decides what sub-agents to spawn, holds every intermediate result, and plans the next step”*이 이미 문서화된 멀티에이전트 orchestration 개념과 겹친다고 했다.
일시적으로 노출된 기능: 보고된 /workflows 기능은 일시적이었던 듯하다. 한 댓글은 이전에 changelog에서 보였지만 Anthropic이 이후 내렸다고 말하며 제거된 changelog 항목의 스크린샷 미러를 제공했다(https://preview.redd.it/720w663mcp2h1.png?width=2056&format=png&auto=webp&s=d7afca73806dd159eff3141db0f61de5a37526a8).
수동 orchestration의 공식화 가능성: 한 사용자는 이 기능을 skills + YAML + JavaScript CLI 기반의 자체 custom orchestration stack과 비교하며, /workflows가 개발자들이 반복 가능한 Claude Code 작업 파이프라인을 위해 이미 수동 구현 중인 패턴을 공식화하는 것일 수 있다고 봤다.
Anthropic officially launched 13+ FREE AI courses with certificates (Including Agentic AI and Claude Code!) (Activity: 2547): Anthropic은 Skilljar 기반 academy를 통해 무료 공식 교육 카탈로그를 제공하고 있으며, Anthropic Learn에서 접근할 수 있다. 과정은 Claude, Claude Code, Claude API, MCP / agentic workflows, Amazon Bedrock 및 Google Cloud Vertex AI 배포 트랙을 다루며 수료증을 제공한다. 기술적으로 눈에 띄는 내용은 STDIO와 StreamableHTTP transport 관련 고급 주제를 포함한 MCP 자료와, 코드베이스 편집, 테스트 실행, “Plan Mode”를 다루는 Claude Code 모듈이다. 별도의 무료 CodeSignal 트랙인 “Developing Claude Agents”도 인터랙티브 Python/TypeScript 랩과 수료증을 제공하는 것으로 언급됐다. 댓글은 Skilljar 과정이 Anthropic 공식 사이트에서 연결되므로 합법적이라고 확인했고, 10/15 과정을 완료한 한 사용자는 MCP와 advanced MCP 모듈이 특히 *“worth the squeeze”*라고 추천했다.
공식 교육 자료 확인: 여러 댓글은 Skilljar 과정이 서드파티 사기나 재게시물이 아니라 anthropic.com/learn에서 연결된 합법적인 Anthropic 교육 자료라고 확인했다.
MCP 고급 주제 추천: 10/15 과정을 완료한 한 사용자는 MCP와 MCP Advanced Topics 모듈을 특히 유용하다고 강조했다. Model Context Protocol 통합을 위한 STDIO와 StreamableHTTP transport protocol의 실용적 내용을 다룬다는 이유다.
새로 나온 것은 아니라는 지적: 몇몇 사용자는 이 카탈로그가 새로 출시된 것이 아니며 몇 달 전부터 제공됐다고 언급했다. 두 과정을 완료한 한 댓글 작성자는 이를 *“quite basic”*이라고 묘사해, 숙련된 AI 개발자에게는 내용이 고급이라기보다 입문적일 수 있음을 시사했다.
Tencent released Z-Image 6B with pixel space gen. No VAE & 1k Resolution. (Activity: 899): 이미지는 Tencent/Z-Image 6B / L2P 샘플 콜라주다. 인물, 동물, 판타지 장면, 차량, 스타일화된 구성을 넘나드는 1024px급 pixel-space image generation을 보여주며, 핵심 기술 주장은 VAE 없이 생성한다는 것이다. 게시물은 프로젝트 페이지 nju-pcalab.github.io/projects/L2P를 링크했고, 한 댓글은 Hugging Face 모델 파일 zhen-nan/L2P을 가리켰다. 댓글은 주로 아키텍처 트렌드, 즉 *“Everyone going for No-VAE now huh”*에 집중했고, 벤치마크나 상세 평가보다는 “Is it any good?” 같은 실용 품질 질문을 던졌다.
Hugging Face 파일: 한 댓글은 Hugging Face의 모델 파일 zhen-nan/L2P를 가리켰다: https://huggingface.co/zhen-nan/L2P/tree/main. Tencent의 Z-Image 6B 릴리스와 주장된 pixel-space generation / no-VAE 설정을 살펴보거나 다운로드하려는 독자에게 관련 있다.
No-VAE 트렌드: 여러 댓글은 No-VAE / pixel-space image generation으로 향하는 더 넓은 기술 트렌드를 강조했다. 한 사용자는 *“Everyone going for No-VAE now huh”*라고 했다. VAE를 피하면 압축/latent 병목 트레이드오프가 바뀌고, 재구성 충실도, 메모리 비용, 게시물의 주장처럼 1k 해상도 네이티브 생성에 영향을 줄 수 있어 주목된다.
Lodestone 비교: 한 댓글은 Lodestone과의 비교를 제기하며 Tencent의 접근이 Lodestone의 no/low-latent 방향에서 배운 것인지, 아니면 Lodestone이 Z-Image에서 배울 수 있는지 물었다. 스레드는 벤치마크 데이터를 제공하지 않았지만, 이 기술 비교는 직접 pixel-space diffusion/flow generation을 위한 오픈 웨이트 아키텍처가 수렴하는 데 대한 관심을 보여준다.
Google’s latest creation: Gemini 3.5 Flash vs all (Activity: 1503): 이 글은 Gemini 앱에서 Google Gemini 3.5 Flash의 단순 산술 실패를 보고했다. 프롬프트 300+140=460 / “Is this correct? Breakdown?”에 대해 공유된 Gemini 실행은 잘못된 합을 받아들였다고 하며, 비교 실행은 Claude, Grok, ChatGPT에 링크됐다. 댓글 작성자들은 이 문제를 재현하고 Gemini 앱 추론 설정 때문이라고 봤다. “Standard”/default thinking은 최소 또는 무추론에 가까운 동작을 보이며, Extended thinking 또는 더 높은 thinking 설정의 AI Studio에서는 올바른 300 + 140 = 440을 반환했다고 보고했다.
제품 serving 설정 논쟁: 주요 논쟁은 이것이 기본 모델 능력의 증거라기보다 제품 수준 serving configuration 문제라는 점이다. 댓글 작성자들은 특히 default/minimum thinking 설정에서 **Gemini 앱이 AI Studio보다 “nerfed”**되어 있다고 주장했다. OP는 SOTA/finance-agent 순위 주장에 비춰 당혹스러운 결과라고 봤고, 다른 이들은 벤치마크 성능이 낮은 effort의 앱 기본값을 반영하지 않을 수 있다고 제안했다.
thinking level 의존성: 사용자들은 겉보기 실패가 Gemini의 thinking level에 크게 좌우된다고 보고했다. Extended thinking으로 바꾸면 답이 고쳐지고, Standard는 사실상 *“doesn’t think at all”*처럼 묘사됐다. 또 다른 댓글은 스크린샷으로 같은 출력을 재현했다(preview image)고 하며, Gemini 앱은 minimum thinking 비슷한 설정을 기본값으로 쓰는 반면 AI Studio는 Low thinking만으로도 실수를 피한다고 주장했다.
tool-calling 비교: tool-calling behavior를 둘러싼 기술 비교도 제기됐다. 한 댓글은 Gemini의 약점이 반드시 원시 추론 능력이 아니라 tool-routing logic일 수 있다고 주장하며, ChatGPT라면 이 작업을 순수 모델 내부 풀이가 아니라 Python에 위임했을 가능성이 높다고 했다. 이는 벤치마크 결과가 모델에 도구 호출이 허용되는지와 모델이 얼마나 안정적으로 도구 사용을 결정하는지에 따라 달라질 수 있음을 뜻한다.
Math grad student friend says we’re cooked (Activity: 825): **이미지는 최근 주장된 Erdős proof에 대한 수학 대학원생의 놀란 반응을 전달하는 트윗 스크린샷이며, 게시물 제목 “Math grad student friend says we’re cooked.”와 연결된다. 이 이미지는 증명의 기술적 세부사항, 정리(statement), 모델, 벤치마크, 검증 절차를 제공하지 않는다. 의미는 맥락적/사회적이다. 한 수학자가 이 결과를 이전에는 “completely unapproachable”했다고 묘사하고 OpenAI의 발표가 “exceedingly tacky and in bad taste”였다고 말한다. 댓글 논의는 대부분 비기술적이고 밈 중심이며, “OnlyFans but for nerds” 농담으로 흘렀다. 한 댓글은 “exceedingly tacky and in bad taste”가 무슨 뜻인지 묻지만, 수학이나 AI 역량 주장에 대한 실질적 논쟁은 없다.
지적 노동 자동화 위험: 한 댓글은 AI 시스템이 수학, 정리 증명, 연구 수준 추론에서 역량을 보이기 시작하면서 “창의적이고 지적인” 일이 안전하다는 인식이 약해졌다고 주장했다. 기술적 시사점은 자동화 위험이 작업이 반복적인지 여부와 깔끔하게 상관하지 않을 수 있으며, 고급 추론 벤치마크와 형식 증명 시스템이 AI 영향 평가에서 점점 더 중요해진다는 점이다.

AI Discord Recap

Discord 접근 종료

접근 중단: 안타깝게도 Discord가 오늘 접근을 차단했다. 이 형식으로는 다시 가져오지 않을 예정이지만, 곧 새로운 AINews를 출시할 예정이다. 여기까지 읽어줘서 고맙고, 좋은 여정이었다.

오늘의 요약