구글, Gemini 3.1 Pro 공개...ARC-AGI-2 77.1%

헤드라인: 구글, Gemini 3.1 Pro 공개…ARC-AGI-2 77.1%

구글이 Gemini 3.1 Pro를(대체로 개발자용 Preview로) 출시하고 Gemini 앱, NotebookLM, Gemini API / AI Studio, Vertex AI 전반으로 롤아웃했습니다. Gemini 3 Deep Think의 “핵심 지능(core intelligence)”을 실사용 제품에 맞게 스케일다운한 포지셔닝을 내세웠고, 특히 ARC-AGI-2 = 77.1% 같은 추론(reasoning) 지표의 큰 점프, 코딩/에이전트(agentic tool) 벤치마크(예: SWE-Bench Verified = 80.6%), 환각(hallucination) 개선을 강조했습니다. 독립 리더보드/평가기관은 대체로 최상위권 성능과 비용 대비 포지셔닝을 확인해줬지만, 반응 스레드에서는 (a) 실사용 체감 향상(SVG/web/UI/코드 품질, 에이전트 유스케이스) 기대, (b) 벤치마크 타깃팅/“eval tweeting”에 대한 회의, (c) GDPval(실세계 agentic 과제)에서 선두가 아니라는 우려, (d) 출시 직후 가용성/업데이트 불일치(Gemini CLI / Code Assist / Antigravity 등) 같은 롤아웃 마찰이 함께 제기됐습니다.

공식 발표/릴리스 주장(구글·공식 채널)

구글 발표 스레드: @Google
소비자: Gemini 앱 + NotebookLM: @GoogleDeepMind, @GeminiApp
개발자(API/AI Studio)·기업(Vertex AI): @sundarpichai, @Google, @GoogleDeepMind
“Deep Think를 구동하는 동일한 핵심 지능” 프레이밍: @koraykv, @NoamShazeer
핵심 벤치마크 헤드라인: ARC-AGI-2 = 77.1% 및 “>2× Gemini 3 Pro”가 공식 커뮤니케이션에서 반복됨: @sundarpichai, @GoogleDeepMind, @JeffDean, @demishassabis, @joshwoodward
“지금 출시/오늘부터 롤아웃 시작” (다만 플랜 제한 존재): @GeminiApp, @GoogleDeepMind, @GeminiApp

독립 측정/서드파티 리더보드(평가기관 보고)

Artificial Analysis: “Gemini 3.1 Pro Preview가 AA Intelligence Index 선두” + 광범위한 벤치 분해, 실행 비용·토큰 사용 추정 등: @ArtificialAnlys, “Full breakdown” 후속: @ArtificialAnlys
Arena: Text/Vision arenas 상위권, expert leaderboard “top 3”, code arena 순위 언급: @arena, expert leaderboard 스니펫: @arena, 카테고리 델타: @arena
ARC Prize 반(半)비공개 평가에서 ARC-AGI-1/2 비용·태스크 수치 공유: @arcprize
가용성(availability) 확인/목격: VertexAI “spotted”: @scaling01; AI Studio 가용: @scaling01; OpenRouter 가용: @scaling01

의견/해석(커뮤니티+일부 내부자)

“SOTA를 넘어: SVG 품질 같은 개선은 eval이 측정 못 함”: @OriolVinyalsML
“구글이 다시 intelligence-cost frontier로” / “#1 AA 리더보드” 기대감: @scaling01, @scaling01
GDPval(실세계 agentic)에서 선두가 아니라는 우려: @scaling01, AA도 유사 언급: @ArtificialAnlys
벤치마크 타깃팅/“eval tweeting” 회의: @swyx
롤아웃/패키징 비판(“AI Studio를 Electron으로 ship”): @matvelloso
주관적 “모델 바이브” 비교(Gemini vs Opus vs GPT): @teortaxesTex

핵심 모델 및 접근 경로(보고된 내용)

개발자: Google AI Studio 경유 Gemini API(preview): @sundarpichai, @GoogleDeepMind
엔터프라이즈: Vertex AI / Gemini Enterprise: @sundarpichai, @Google
소비자: Gemini 앱 + NotebookLM: @sundarpichai, @GoogleDeepMind, @GeminiApp
서드파티: OpenRouter 등록: @scaling01; Perplexity가 Pro/Max에 3.1 Pro로 업그레이드: @perplexity_ai, @AravSrinivas
“Deep Think와 같은 핵심 지능” 포지셔닝: @Google, @koraykv, @NoamShazeer

컨텍스트/출력/컷오프/툴 기능(보고된 내용)

Phil Schmid 스펙 요약(보고): Context “Same 1M context”; Max output 64k; Knowledge cutoff Jan 2025; tool calling / structured outputs / JSON mode (AA도 언급)
출처: @_philschmid, AA 언급: @ArtificialAnlys

벤치마크(헤드라인+보조 지표)

ARC-AGI-2: 77.1%: @sundarpichai, @GoogleDeepMind, @JeffDean, @demishassabis, @joshwoodward
SWE-Bench Verified: 80.6%(요약 보고): @scaling01, @_philschmid
Terminal-Bench 2.0: 68.5%(보고): @_philschmid
APEX-Agents tool-use: 33.5% vs 18.4%, “82% better agentic tool use” 주장: @_philschmid
MCP Atlas: 69.2%; BrowseComp: 85.9%: @_philschmid
Artificial Analysis ‘key takeaways’(선별): 6/10 evals 선두, token usage ~57M, suite cost $892, pricing $2/$12 per 1M(≤200k), 오픈 웨이트 리더 GLM-5 대비 ~2× 비용($547), GDPval-AA ELO 1316(100+ 상승), Terminal-Bench Hard 54%, SciCode 59%, CritPt 18%(>5 p.p. 우위), 환각률 -38 p.p.: @ArtificialAnlys
ARC Prize 비용/태스크: ARC-AGI-1 98% / $0.52/task, ARC-AGI-2 77% / $0.96/task: @arcprize

가격(pricing)

Gemini 3.1 Pro 가격이 3 Pro 대비 동일하다고 반복 언급: $2 / $12 per 1M input/output tokens(≤200k), $4 / $18(>200k): @_philschmid
AA도 ≤200k에서 $2/$12 per 1M을 언급: @ArtificialAnlys

지지/긍정: “큰 점프”, 코딩+추론 강점

ARC-AGI-2, SWE Verified, HLE 등 벤치 열광: @kimmonismus
“Google is back on intelligence-cost frontier”: @scaling01
“Gemini 3.1 Pro in 1st place on AA leaderboard”: @scaling01
“SVG가 훨씬 낫다 등 eval이 못 재는 개선” 주장 + 예시 프롬프트: @OriolVinyalsML, @OriolVinyalsML, @OriolVinyalsML, @OriolVinyalsML
컴파일러 개선 과제에서 Gemini가 GPT/Claude를 앞섰다는 개인 경험: @QuixiAI
“추론+멀티모달에서 정말 좋다”(중립-긍정): @mirrokni
“It’s a good model”: @andrew_n_carr, @gdb

중립/벤치마크-리터러시: 축에 따라 강약

“강한 코딩과 SOTA 추론…ARC-AGI-2 SOTA”를 인정하면서도 다른 축은 혼재: @scaling01
Arena는 “정상권이 촘촘하다”는 프레이밍: @arena
WebDev Arena는 6위(전면 승리는 아님): @scaling01
평가 방법론 포화/예산 등 방법론 주의 환기: @Hangsiin, @Hangsiin

비판/회의: GDPval 우려, 롤아웃 마찰, 벤치 타깃팅 불편함

“Gemini 3.1 Pro의 GDPval 점수는 우려된다”: @scaling01 (AA의 “개선됐지만 선두는 아님”과 결을 같이함: @ArtificialAnlys)
관찰된 “추가 추론”이 AA index에 반영되지 않는다는 회의: @scaling01
“랩 수장이 eval을 바로 트윗한다…실망”(벤치 타깃팅 함의): @swyx
출시 시점 가용성/패키징 불만: @matvelloso
이후 업데이트: Antigravity는 나아졌으나 CLI는 여전히, Code Assist mismatch(“still announcing Flash 3”): @matvelloso
“모델 바이브” 기반 UX/페르소나 비판: @teortaxesTex

엔지니어 관점: 왜 중요한가

**ARC-AGI-2 77%**를 “핵심 추론” 마일스톤으로 보고, 이를 agentic tasks, 코딩, 데이터 합성으로 이어지는 실용 성능으로 마케팅: @joshwoodward, @GoogleDeepMind
비용/지능(cost/intelligence) 내러티브가 핵심. AA는 Gemini 3.1 Pro Preview가 Opus 4.6(max) 대비 suite 비용이 “절반 이하”이며, 토큰 사용(~57M)도 비교적 낮다고 프레이밍: @ArtificialAnlys
평가 우선순위가 이동 중: 벤치(ARC/SWE) 승리와 동시에 실세계 agentic eval(GDPval) 및 워크플로 신뢰성(가용성, 툴 생태계) 강조. GDPval 격차는 반복적으로 언급됨: @scaling01, @ArtificialAnlys
“모델 vs 제품” 긴장: 강한 모델이어도 CLI/IDE 통합과 배포가 발표 시점에 맞는지(예: Antigravity/CLI/Code Assist) 엔지니어는 민감하게 봄: @matvelloso

AI Twitter Recap

참고 링크

오픈 모델, 평가(evals), 벤치마킹 담론

Trillion Labs Tri-21B-think Preview(Apache-2.0) 벤치: AA Intelligence Index 점수 20, AA-Omniscience 기반 저환각 신호(62%로 프레이밍), τ²-Bench Telecom 툴-유스 강점(93%), 높은 추론 토큰 사용(~120M), 초기엔 퍼블릭 엔드포인트 없음, 가중치 링크 제공: @ArtificialAnlys, @ArtificialAnlys
Mistral Voxtral Realtime 논문 + Apache-2 모델 공개: sub-500ms 레이턴시 주장, arXiv 및 weights 링크: @GuillaumeLample, @GuillaumeLample
SWE-bench / 벤치 비판: “SWE Rebench is a bad benchmark” / WeirdLM 제안: @zephyr_z9
제재(sanctions) vs 중국 연구소 역량 논의: @zephyr_z9
ARC-AGI-3 비용/복잡도 및 하네스 디버깅: 잘못 설정된 런이 구형 Gemini를 사용했음을 뒤늦게 발견 후 수정; 메모리 스캐폴드가 도움이 된다는 부분적 시사점 등: @scaling01, @scaling01

에이전트 툴링, “agent OS” 패턴, 관측성(observability)

OpenClaw 아키텍처 요약: markdown 워크스페이스, Gateway 컨트롤 플레인, JSONL 트랜스크립트, 하이브리드 리트리벌의 파일 기반 메모리: @TheTuringPost
Cursor의 OS별 에이전트 샌드박싱 + 빌드 글: @cursor_ai
LangChain/LangSmith 업데이트(트레이스 필터링 UX 개선): @LangChain
LangSmith for Startups 프로그램($10k 크레딧 등): @LangChain
Deep Agents “ZeitZeuge” 성능 수정(perf-fix) 케이스 스터디(V8 CPU 프로파일, 서브에이전트, eval 기반 개선) + 작성자 스레드: @LangChain_JS, @bromann
LangChain에 1st-party OpenRouter 통합(Python/TS): @LangChain_JS
Raindrop “trajectory explorer”(에이전트 트레이스 탐색): @benhylak
Jeremy Howard 경고: 모델이 제공되지 않은 툴을 호출하려 할 수 있으며(OpenAI 제외 대부분 공급자에 영향 주장) 툴 호출 요청을 검증하라고 강조: @jeremyphoward

코딩 에이전트 실전(워크플로 변화, 프롬프트 캐싱, “앱 스토어” 논지)

Karpathy의 “bespoke software” 사례: Claude가 러닝머신 API를 리버스엔지니어링해 커스텀 대시보드를 만들었다며, “앱”은 일회성/단명하고 “AI-네이티브 API/CLI를 가진 서비스”가 중요해진다고 주장: @karpathy
Anthropic API “automatic prompt caching” 업데이트: @alexalbert__
캐싱이 코딩-에이전트 UX에 핵심 인프라라는 코멘트: @omarsar0
LlamaIndex 메모: IC가 엔드투엔드 제품 오너가 되고, 구현/프롬프팅 비용이 ~0이 되며, 조직 기대가 바뀐다는 주장: @jerryjliu0
François Chollet: “agentic coding은 본질적으로 머신러닝(ML)”(테스트/스펙 과적합, 드리프트 등)이라며 “agentic coding의 Keras는 무엇인가?” 질문: @fchollet

모델 릴리스 및 인프라 노트(임베딩, 리트리벌, OCR, 추론 스택)

Jina jina-embeddings-v5-text: decoder-only 백본 + last-token pooling; 레이어별 LoRA 어댑터(리트리벌/매칭/분류/클러스터링); 32k 컨텍스트; query/document 프리픽스: @JinaAI_, @JinaAI_
ColBERT-Zero / PyLate(Apache-2.0 모델+스크립트): 공개 데이터로 BEIR SOTA 주장: @antoine_chaffin, @antoine_chaffin, @LightOnIO
Hugging Face Jobs OCR 일화: 브리태니커 2,724p를 GLM-OCR 0.9B로 재-OCR, ~$0.002/페이지, L4에서 ~$5: @vanstriendaniel
vLLM vs SGLang 성능 노트(DeepGemm vs Triton): VLLM_USE_DEEP_GEMM=0 제안: @TheZachMueller

산업/비즈니스 및 정책(선별)

Epoch 매출 분석: Anthropic vs OpenAI 성장률과 2026년 중반 역전 가능성(성장 둔화 등 단서 포함): @EpochAIResearch, @EpochAIResearch
OpenAI의 정렬(alignment) 관련 펀딩 커밋($7.5M) — AI Security Institute Alignment Project: @OpenAINewsroom
OpenAI FedRAMP authorization 주장: @cryps1s
Perplexity Comet iOS 프리오더: @AravSrinivas, @perplexity_ai

AI Reddit Recap

/r/LocalLlama + /r/localLLM

I’m 100% convinced that it’s the NFT-bros pushing all the openclawd engagement on X (Activity: 742): 이 글은 X에서 ‘OpenClawd’ 홍보가 NFT 관련 인물들에 의해 주도되고 있고, 유사한 언어/전술을 반복한다는 의심을 다룹니다. 작성자는 이것이 AI+크립토 시장의 빠르게 팽창하는 버블의 신호일 수 있다고 보며, 1990년대 말 테크 버블과의 유사성을 제시합니다. OpenClawd의 급부상(깃허브 스타 급증, OpenAI의 빠른 인수 등)을 강조하면서, 사용자 데이터/권한에 대한 광범위한 접근을 제공한다는 주장 때문에 보안 위험도 언급합니다. 댓글에서는 성장 속도 자체가 조직적인 애스트로터핑(astroturfing) 가능성을 시사한다고 우려하며, 실시간 사용자 데이터 접근 같은 보안 함의를 강조합니다.
OpenClawd의 타임라인(2026년 1월 첫 언급 → 2주 내 GitHub 30만 스타 → Lex Fridman Podcast 등장 → 1달 내 OpenAI 인수)은 과도하게 빠르며, 인기의 진정성과 조직적 홍보 가능성에 대한 의심을 키웠다는 지적이 나옵니다.
참여(engagement)의 “진짜 여부”에 대한 회의와 함께, 실시간으로 방대한 사용자 데이터에 접근할 수 있다는 점이 큰 보안 우려로 언급됩니다. 이는 구글 같은 대형 테크보다도 더 높은 수준의 접근권일 수 있다고 경고합니다.
OpenClawd 홍보 방식이 과거 NFT 붐과 유사하며, 그때의 홍보 집단이 새로운 유행으로 이동한 패턴일 수 있다는 주장도 나옵니다.
How much was OpenClaw actually sold to OpenAI for? $1B?? Can that even be justified? (Activity: 177): 이미지 밈은 오픈소스 프로젝트(OpenClaw)가 엄청난 금액으로 팔린다는 식으로 과장된 농담을 합니다. 본문/댓글은 “OpenClaw가 OpenAI에 10억 달러에 매각”된 것이 아니라, OpenAI가 창립자 Peter Steinberger를 채용했고 GNU 3.0 라이선스 오픈소스 프로젝트를 후원(sponsoring)하는 형태라고 정리합니다.
OpenClaw는 매각된 것이 아니라 창작자 채용 + 프로젝트 후원으로 요약되며, GNU 3.0 라이선스로 오픈소스로 남는다는 점이 강조됩니다.
일부는 OpenClaw의 기능/UX가 Codex, ClaudeCode, Droid, OpenCode 등보다 떨어진다고 비판하면서, 채팅 플랫폼에 “쉽게 붙는” 통합성이 채택을 견인했다고 봅니다.
‘vibe coding’ 같은 표현과 과장된 가치평가(농담)는 기술보다 하이프(hype)로 과대평가되는 프로젝트에 대한 회의로 읽힙니다.
Kitten TTS V0.8 is out: New SOTA Super-tiny TTS Model (Less than 25 MB) (Activity: 1167): Kitten ML이 Apache 2.0 라이선스로 표현력 있는 오픈소스 TTS 모델 80M, 40M, 14M을 공개했습니다. 가장 작은 14M은 25 MB 미만이며 CPU에서도 실행 가능해 엣지(edge) 디바이스에 적합하다고 소개됩니다. 8가지 보이스를 제공하고 이전 버전 대비 품질/표현력이 개선되었다고 하며, GitHub와 Hugging Face에 공개됐습니다. 댓글에서는 HF 페이지에 오디오 샘플을 넣자는 제안과, 오프라인 프라이버시 중심 브라우저 확장 수요 등이 언급됩니다.
Open Source LLM Leaderboard (Activity: 89): 2026년 오픈소스 LLM을 성능 티어로 분류한 ‘Open Source LLM Leaderboard’ 이미지가 공유됩니다. S 티어에 GLM-5, Kimi K2.5 등이, A 티어에 Qwen 3.5, DeepSeek R1, Mistral Large, GPT-oss 120B 등이 포함돼 비교를 제공합니다(세부 벤치는 명시되지 않음).
리더보드가 “로컬로 돌릴 수 있는 모델”과 “클라우드 인프라가 필요한 모델”을 구분해야 한다는 요구가 나옵니다(접근성/현실 제약 때문에).
Minimax M2.5 같은 대형 모델이 512GB 같은 거대 VRAM/유니파이드 메모리를 요구한다는 언급이 나오며, 고성능 모델 접근의 하드웨어 장벽이 부각됩니다.
노트북 8GB VRAM에서 1T 모델을 돌리기 위한 양자화(quantization) 수준(Q.05 등) 논의가 나오며, 소비자급 하드웨어에서의 압축/실행 니즈가 드러납니다.

Less Technical Subreddits

대상: /r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo

Google releases Gemini 3.1 Pro with Benchmarks (Activity: 2799): Google이 Gemini 3.1 Pro를 공개했고 ARC-AGI 2에서 77%를 달성해 이전 31% 대비 큰 폭의 향상이라고 소개됩니다. 가격은 Gemini 3 Pro와 동일하다고 하며, 자세한 내용은 model card를 참조하라고 안내합니다. 댓글에서는 짧은 기간 내 벤치 점프가 놀랍다는 반응이 나옵니다.
ARC-AGI 2에서 77%라는 성능은 몇 달 전 31% 수준에서 크게 뛴 것으로 언급되며, AI 발전 속도가 강조됩니다.
Model Card 기준으로 Gemini 3.1 Pro 가격이 이전과 동일하다는 점이 재확인되며, 성능 향상에도 가격 전략이 유지된다고 해석됩니다.
DeepMind가 GDPval 점수를 함께 공개한 점(해당 축에서 강점이 아니어도)을 투명성의 신호로 보는 코멘트가 있습니다.
Animated SVG Comparison between Gemini 3 and 3.1 (Activity: 890): Gemini 3 vs 3.1의 애니메이션 SVG 비교를 다루며, 3.1에서 커스텀 애니메이션 SVG(런타임 생성 포함) 제작이 가능해지는 등 큰 개선이 있었다는 주장입니다. 이는 UI가 더 복잡/동적으로 변하며 미니멀리즘에서 맥시멀리즘으로 디자인 트렌드가 이동할 수 있다는 추측으로 이어집니다. 댓글에서는 Lucide, ShadCN 같은 UI 라이브러리에 대한 영향 가능성도 언급됩니다.
TFenrir는 Gemini 3→3.1 전환에서 특히 애니메이션 SVG 영역이 “중요한 사용성 임계점”을 넘었다고 보고, 더 복잡하고 인터랙티브한 UI를 가능케 한다고 평가합니다.
The Difference At A Glance! (Activity: 499): “Gemini 3.1 Pro”와 “Claude Opus 4.6”를 자동차 밈으로 비교한 이미지로, 기술적 논의라기보다 가벼운 유머에 가깝습니다. 댓글에서는 심슨의 ‘호머가 만든 차’ 에피소드를 인용해 과장된 디자인을 놀립니다.
Gemini 3.1 Pro makes a NMS style space exploration game (Activity: 742): Gemini 3.1 Pro로 No Man’s Sky 스타일의 우주 탐험 게임을 약 20 prompts로 반복 개발했다는 사례입니다. 초기 디버깅 후 우주선 모델 변경, 조작 개선, 사격/소행성 기능 추가 등으로 확장됐다고 하며, 반복적 설계 자동화 가능성을 보여준다고 주장합니다. 댓글에서는 일관성에 대한 회의(같은 프롬프트로 항상 잘 나오지 않을 수 있음)와 기능 확장 제안이 함께 나옵니다.
한 사용자는 Gemini 3 Pro가 출시 초기에 매우 강했고(순수 코딩은 Claude가 더 나을 수 있음), 이후 연산 자원 절약 등 이유로 ‘너프(nerf)’되는 패턴이 있다고 주장합니다.
Gemini 3.1 Pro is lowkey good (Activity: 580): 이미지 표는 Gemini 3.1 Pro가 Sonnet 4.6, GPT-5.3-Codex 등과 비교돼 과학 지식/추상 추론에서 강점을 보인다는 식의 벤치 비교를 제시합니다. 댓글에서는 GDPval 성능을 농담처럼 언급하며 축별 편차를 지적합니다.
Gemini 3.1 Pro (Activity: 715): 여러 AI 모델 벤치 비교표 이미지로, Gemini 3.1 Pro가 학술 추론, 코딩, 과학 지식, 다국어 등에서 Sonnet 4.6 및 GPT-5.2 대비 우위로 표시됩니다. 특히 상세 출력 프로토콜 준수, 75k token input 처리에서 3.0 대비 개선되었다는 주장과, 기본 장황성(verbosity)이 상승했다는 언급이 있습니다(다만 Opus 4.6보다는 덜 장황). 댓글에서는 “사용자가 쓰는 모델과 같은 모델이 맞냐”는 회의와, 지시사항 준수 개선에 대한 반응이 섞입니다.
Arthesia는 75k 토큰 입력 테스트에서 3.0 Preview는 상세 출력 프로토콜을 100% 실패했지만 3.1은 포맷을 성공적으로 맞췄고, 기본 장황성도 올라갔다고 보고합니다.
이러한 관찰은 포맷 준수 및 장황성 제어가 필요한 사용자에게 의미 있는 업그레이드로 해석됩니다.
Gemini 3.1 pro officially released! (Activity: 400): Google이 Gemini 3.1 Pro를 공개했고 AI Studio에서 이용 가능하다는 내용입니다. 벤치에서 큰 개선을 주장하며, “사실을 꾸며내지 않고(coherent responses without fabricating facts)” 응답 품질을 강조합니다. 자세한 내용은 official announcement를 참조하라고 안내합니다. 댓글에서는 초기 벤치 성능이 장기적으로 유지될지 우려/기대가 함께 나옵니다.
Claude Sonnet 4.6 One-shotted this surreal Time-Themed website, full prompt + codepen below (Activity: 731): Claude Sonnet 4.6로 ‘시간 인지(time perception)’ 테마의 초현실적 웹사이트를 원샷(one-shot) 생성했다는 프로젝트 소개입니다. 녹아내리는 시계, 시간에 따라 늘어나는 타이포그래피, 기억처럼 페이드-인되는 섹션, 패럴랙스, 유체 전환, 스크롤에 동기화된 틱킹 사운드 등 ‘살아있는 시계 장치 꿈(living clockwork dream)’을 표방합니다. Codepen에 공개됐습니다. 댓글은 ‘AI slop’이라며 예술적 가치에 회의적인 반응과, 맥락(인간 제작 vs AI 제작 표기)에 따라 평가가 바뀐다는 의견이 섞입니다.
iMrParker는 SOTA LLM으로 HTML을 ‘원샷’ 생성해도 실무적으로 쓸 수 있는지(유틸리티/목적)에 의문을 제기합니다.
Ok-Actuary7793는 같은 결과물이 문맥에 따라 찬사/비판을 오갈 수 있다고 보고, 1년 전엔 상을 탔을 수준이 지금은 ‘AI slop’으로 치부되기도 한다고 말합니다.
Historical-Cress1284는 유사한 테마/레이아웃이 흔한 템플릿처럼 반복될 수 있다며, AI 도구가 디자인 미학을 동질화할 수 있다는 우려를 덧붙입니다.
Major Claude Code policy clear up from Anthropic (Activity: 592): Anthropic이 Claude 서비스의 OAuth 토큰 사용 정책을 명확히 했다는 내용입니다. Claude Free/Pro/Max 플랜의 OAuth 토큰은 Claude 자체 서비스 내에서만 사용해야 하며, 외부 제품/툴/서비스(Agent SDK 포함)에서 사용하면 Consumer Terms 위반이라는 점을 강조합니다. 댓글은 정책의 집행 가능성, 현재 가격 구조의 지속 가능성, GitHub 문서 업데이트 필요성 등을 논의합니다.
정책이 “Agent SDK 금지”로 오해됐으나, 실제로는 문서 업데이트에서 비롯된 혼선이었고 SDK 자체가 금지된 것은 아니라는 정리가 나옵니다.
현재 가격이 보조금(subsidy)에 의존해 지속 가능하지 않으며, “지금의 저렴한 가격을 그리워할 것”이라는 전망이 등장합니다.
Anthropic의 GitHub 액션 문서가 여전히 OAuth 토큰 사용을 안내한다는 지적이 나오며, 문서 최신화의 중요성이 강조됩니다.
I gave Claude a phone and in the end, it thanked me (Activity: 627): Claude Opus 4.6에 blitz.dev 앱( iOS 시뮬레이터 상호작용)으로 ‘폰 접근’을 제공하자, 5분 만에 Apple Maps로 에펠탑/콜로세움을 찾고, 저널링 앱에 감사 메모를 작성했다는 실험입니다. 스와이프/네비게이션은 능숙했지만 저장에는 도움을 받았다고 하며, 디지털 환경 자율 탐색 가능성을 보여준다는 평가입니다.
댓글에서 한 사용자는 Claude로 옛 MMORPG 프라이빗 서버 에뮬레이터의 헤드리스 테스트 클라이언트를 개발했는데, 캐릭터 생성·게임플레이·버그 탐지까지 자율적으로 수행했다고 공유합니다.
Me when Claude wrote 2500 lines of perfect code but named a directory wrong (Activity: 1614): 코딩 어시스턴트가 코드 자체는 완벽해도 디렉터리/경로 같은 사소한 실수로 큰 디버깅 비용이 발생하는 상황을 풍자한 밈입니다. 댓글에서도 “파일 경로/디렉터리 맥락 관리 실패”로 module not found 같은 문제가 생기는 경험이 공유됩니다.
tomleelive는 AI가 코드 문법/로직은 맞춰도 파일 시스템 컨텍스트를 못 잡아, 존재하지 않는 파일/디렉터리에 코드를 두는 문제가 실무에서 치명적이라고 지적합니다.
Anthropic’s Claude Code creator predicts software engineering title will start to ‘go away’ in 2026 (Activity: 948): Claude Code 제작자 Boris Cherny가 2026년쯤 소프트웨어 엔지니어 직함이 “사라지기 시작할 것”이라고 전망했다는 글입니다. AI가 *‘practically solved coding’*에 가깝고, 엔지니어는 전통적 코딩 밖의 일로 이동할 것이라는 주장입니다(Y Combinator 팟캐스트 인터뷰, Business Insider 보도 언급). 댓글은 마케팅/감원 정당화로 쓰일 수 있다는 회의, AI 툴의 미성숙, 직업 안정성 우려를 제기합니다.
“엔지니어 대체” 서사가 제품 마케팅에 가깝고, 이를 이유로 감원하는 회사는 성장 전망이 없을 수 있다는 반박이 나옵니다.
Claude Code의 GitHub 이슈가 많이 남아 있다는 점을 들어, 인간의 감독/결정이 여전히 필요하다고 주장합니다.
This is what 3k hours in CC looks like (Activity: 838): 3,000 hours에 걸쳐 만든 Claude Code용 통합 운영 환경을 소개합니다. 아이디어 결정→적대적 리뷰→원자적(atomic) 태스크 계획→QA/보안 리뷰 파이프라인 등 단계적 워크플로를 강조하며, Opus(전략/설계), Sonnet(구현), Haiku(프록시 에이전트) 분업을 언급합니다. 컨텍스트를 최소화해 노이즈를 줄이고 개발자 의도/에이전시를 유지하는 것을 목표로 하며, 곧 공개 예정이라고 합니다.
댓글에서는 설정이 지나치게 복잡하다는 반응과 함께, 실제 다른 프로젝트에도 적용됐는지(스트레스 테스트) 묻는 질문이 나옵니다.
New Gemini model imminent (Activity: 673): “Gemini”라고만 적힌 Logan Kilpatrick의 트윗을 소재로, Gemini 3.1 같은 새 모델 출시 임박을 추측하는 밈/스레드입니다. 짧은 공지가 하이프를 만들었다는 반응이 많습니다.
일부는 Gemini가 벤치 대비 실사용에서 불안정해졌다고 불평하며, 단순한 그룹 분류 같은 과제 실패 사례를 공유합니다.
벤치에서는 강하지만 실전에서 GPT/Claude보다 못한 패턴이 반복된다는 회의적 관찰이 나옵니다.
Lyria 3 Google Deepmind’s music generator (Activity: 864): Google DeepMind의 음악 생성 모델 Lyria 3가 공개됐고, Suno 대비 아티팩트가 적고 음질이 좋다는 사용자 보고가 있습니다(특히 디스토션 기타 같은 복잡한 악기). 다만 작곡/창의성은 “지루하다”는 평가도 나오며, 음악 산업의 법적 대응 가능성(저작권/IP) 논쟁이 뒤따릅니다.
Google Unveils Lyria 3 - New Best Music Gen Model (Activity: 367): Lyria 3가 프롬프트나 사진에서 음악 트랙을 만들고 Gemini 인터페이스에 통합됐다는 소식입니다. 다만 현재 30-second 클립만 생성 가능하다는 한계가 “최고” 주장과 충돌한다는 지적이 있으며, 프로젝트 관리 같은 기본 기능 부재를 농담하는 댓글도 있습니다.
PTI_brabanson는 30-second 제한이 Suno 등 대비 큰 제약이며, 다만 구글의 진입이 정체된 분야에 혁신을 촉진하길 기대한다고 말합니다.

AI Discord Recap

gpt-5.2가 만든 “요약의 요약”입니다.

Gemini 3.1 Pro 확산(그리고 논쟁)

Gemini 3.1 Pro 광범위 롤아웃: 구글은 런칭 글을 공개했고(“Gemini 3.1 Pro” announcement), 사용자들은 AI Studio, Gemini 앱, Cursor, Perplexity Pro/Max( announcement image ), Windsurf(프로모 한정 0.5x credits) 등에서 가용성을 보고했습니다(Windsurf X announcement).
반응은 엇갈렸습니다. Opus 4.6보다 낫다는 평가가 있는 반면, “laziness”·프롬프트 민감성 불만도 있었고, 어떤 Discord는 모델과 무관한 UI/UX 회귀로 *“they screwed up canvas massively”*라고 지적했습니다.
Arena 순위 논쟁: LMArena가 Gemini-3.1-Pro를 리더보드에 추가했고, Text 1위 동률(1500), Code 6위로 기록됐다는 언급이 있었습니다(Text Arena leaderboard, Code Arena leaderboard). 동시에 “곧 너프될 것”이라는 예측이 나왔고, 랭킹 UX는 새 필터 사이드패널을 추가하며 YouTube walkthrough로 설명됐습니다.

에이전트 툴체인: 비용 폭증, 차단, 로컬 배포

OpenClaw 토큰 소모: “$200/mo 구독인데 하루에 $1600을 썼다” 같은 보고가 나오며, 서버 측 제한/더 안전한 오케스트레이션 패턴 논의가 촉발됐습니다.
차단/접근 마찰: Anthropic이 Pro/Max 플랜 키로 OpenClaw를 쓰는 사용자를 밴한다는 주장과, Google이 antigravity OAuth 사용 계정을 밴한다는 주장이 함께 돌았습니다(Twitter thread). OpenClaw API 호출이 올바른 헤더를 보내지 못했을 수 있다는 추측도 나왔습니다.
n8n 연동(원클릭 노드): OpenClaw 에이전트(Jeeves)가 n8n 통합을 출시했고, karmaniverous/n8n-nodes-openclaw 및 n8n-nodes-openclaw npm package로 Gateway API 20개 툴을 단일 노드에서 드롭다운으로 노출한다고 합니다.
로컬 “원클릭” OpenClaw: Hugging Face 구성원들이 vibeclaw.dev(브라우저 샌드박스 컨테이너) 배포를 공유했지만, Firefox 레이아웃 버그를 보고했습니다.
DeepCLI: OpenRouter 기반 Rust OpenClaw 대안으로 DeepCLI가 소개됐고, 사이트는 deepcli.org입니다.

인프라 현실: 장애, 인증 실패, 제한, 환불

OpenRouter: DB 장애 + Clerk 지연: OpenRouter가 2:45am–3:15am DB 장애(2/17과 유사)를 보고하고 포스트모템을 예고했으며, 인증 제공자 Clerk도 로그인 저하를 겪었다고 합니다(Clerk incident page).
이미지 생성 회귀: API가 image_tokens를 과금했는데 콘텐츠는 비어 있고(message.images 누락), OpenRouter가 백엔드 리팩터링의 엣지 케이스를 인정하며 환불을 약속했다는 언급이 있습니다(“missed an edge case in tests”).
Perplexity 제한/정지: “enhanced queries” 한도가 600/day → 200/week로 줄었다는 보고, 일반적인 TOS 메시지와 함께 계정 정지가 늘었다는 보고가 나왔고, 할인키/프로모 악용이 원인일 수 있다는 추측이 있었습니다.
API 관련해서는 Perplexity가 “free $5/month” API 크레딧을 제거했다는 주장도 있었고, 변경이 기술적 제약보다 Max 업그레이드 압박으로 해석된다는 논의가 있었습니다.

평가(evals) 산업화

Every Eval Ever: EvalEval Coalition(EleutherAI, Hugging Face, University of Edinburgh)이 LLM 평가 결과를 표준 스키마로 정리하기 위한 Every Eval Ever를 공개했습니다(evalevalai.com, GitHub, EEE_datastore dataset on Hugging Face). HELM, lm-eval-harness, Inspect AI 비교를 위한 ‘접착제(glue)’로 포지셔닝했고, ACL 2026 워크숍/공동 과제와도 연결(기여자 공동저자)된다고 합니다.
재현 가능한 eval: 점수뿐 아니라 판정 불일치, 재시도/실패, 비용/지연 등 변동성을 기록하는 러너로 madison-xu/llm-eval-pipeline이 공유됐습니다.

GPU/ML-Sys: FP8, DirectML, 분산 추론 논쟁

FP8 안정 운용: 0.5B 모델, 4×4090, 토큰 호라이즌 350B tokens를 ~4주간 안정적으로 돌렸고, 깨끗한 데이터(nemotron-climbmix), 작은 모델, JIT 스케일링이 안정성에 기여했다는 보고가 있습니다. 마지막 트랜스포머 블록에서 활성값(activation) 성장, z-loss 정규화 테스트(평균 로짓은 줄였으나 최대 스파이크 제한은 못함) 같은 디버깅 포인트도 언급됩니다.
DirectML vs CUDA: DirectML을 CUDA 대안으로 “동급 속도”라고 주장하는 의견에 반박이 있었고, 리눅스 공백과 “maintenance mode” 우려가 제기되며 microsoft/DirectML issue #422가 인용됐습니다.
ONNX Runtime 실전 사례: OnnxBpmScanner + SharpAI가 5분 오디오의 BPM을 ~10초에 분석한다는 소개로 “보링 스택(boring stack)”의 실전 성능을 강조합니다.
Prefill/Decode 분리(disaggregation): 기본 원리 가이드가 X post로 공유됐습니다.
분산 벤치마킹에서는 triton.testing.do_bench()가 collective에 안전하지 않다(루프 내 로컬 동기화 문제)고 경고하며, vLLM PR diff 맥락으로 vLLM PR snippet을 인용하고 호스트 측 타이밍을 권장했다는 언급이 있습니다.

오늘의 요약