오늘의 요약
- 구글이 Gemini 3.1 Pro를 공개
- ARC-AGI-2 77.1%로 추론 도약
- AA·Arena서 상위권 성능 재확인
- 에이전트 툴링·비용 논쟁이 커뮤니티로 확산
- Discord선 OpenRouter 장애도 논의
구글, Gemini 3.1 Pro 공개...ARC-AGI-2 77.1%
헤드라인: 구글, Gemini 3.1 Pro 공개…ARC-AGI-2 77.1%
구글이 Gemini 3.1 Pro를(대체로 개발자용 Preview로) 출시하고 Gemini 앱, NotebookLM, Gemini API / AI Studio, Vertex AI 전반으로 롤아웃했습니다. Gemini 3 Deep Think의 “핵심 지능(core intelligence)”을 실사용 제품에 맞게 스케일다운한 포지셔닝을 내세웠고, 특히 ARC-AGI-2 = 77.1% 같은 추론(reasoning) 지표의 큰 점프, 코딩/에이전트(agentic tool) 벤치마크(예: SWE-Bench Verified = 80.6%), 환각(hallucination) 개선을 강조했습니다. 독립 리더보드/평가기관은 대체로 최상위권 성능과 비용 대비 포지셔닝을 확인해줬지만, 반응 스레드에서는 (a) 실사용 체감 향상(SVG/web/UI/코드 품질, 에이전트 유스케이스) 기대, (b) 벤치마크 타깃팅/“eval tweeting”에 대한 회의, (c) GDPval(실세계 agentic 과제)에서 선두가 아니라는 우려, (d) 출시 직후 가용성/업데이트 불일치(Gemini CLI / Code Assist / Antigravity 등) 같은 롤아웃 마찰이 함께 제기됐습니다.
공식 발표/릴리스 주장(구글·공식 채널)
- 구글 발표 스레드: @Google
- 소비자: Gemini 앱 + NotebookLM: @GoogleDeepMind, @GeminiApp
- 개발자(API/AI Studio)·기업(Vertex AI): @sundarpichai, @Google, @GoogleDeepMind
- “Deep Think를 구동하는 동일한 핵심 지능” 프레이밍: @koraykv, @NoamShazeer
- 핵심 벤치마크 헤드라인: ARC-AGI-2 = 77.1% 및 “>2× Gemini 3 Pro”가 공식 커뮤니케이션에서 반복됨: @sundarpichai, @GoogleDeepMind, @JeffDean, @demishassabis, @joshwoodward
- “지금 출시/오늘부터 롤아웃 시작” (다만 플랜 제한 존재): @GeminiApp, @GoogleDeepMind, @GeminiApp
독립 측정/서드파티 리더보드(평가기관 보고)
- Artificial Analysis: “Gemini 3.1 Pro Preview가 AA Intelligence Index 선두” + 광범위한 벤치 분해, 실행 비용·토큰 사용 추정 등: @ArtificialAnlys, “Full breakdown” 후속: @ArtificialAnlys
- Arena: Text/Vision arenas 상위권, expert leaderboard “top 3”, code arena 순위 언급: @arena, expert leaderboard 스니펫: @arena, 카테고리 델타: @arena
- ARC Prize 반(半)비공개 평가에서 ARC-AGI-1/2 비용·태스크 수치 공유: @arcprize
- 가용성(availability) 확인/목격: VertexAI “spotted”: @scaling01; AI Studio 가용: @scaling01; OpenRouter 가용: @scaling01
의견/해석(커뮤니티+일부 내부자)
- “SOTA를 넘어: SVG 품질 같은 개선은 eval이 측정 못 함”: @OriolVinyalsML
- “구글이 다시 intelligence-cost frontier로” / “#1 AA 리더보드” 기대감: @scaling01, @scaling01
- GDPval(실세계 agentic)에서 선두가 아니라는 우려: @scaling01, AA도 유사 언급: @ArtificialAnlys
- 벤치마크 타깃팅/“eval tweeting” 회의: @swyx
- 롤아웃/패키징 비판(“AI Studio를 Electron으로 ship”): @matvelloso
- 주관적 “모델 바이브” 비교(Gemini vs Opus vs GPT): @teortaxesTex
핵심 모델 및 접근 경로(보고된 내용)
- 개발자: Google AI Studio 경유 Gemini API(preview): @sundarpichai, @GoogleDeepMind
- 엔터프라이즈: Vertex AI / Gemini Enterprise: @sundarpichai, @Google
- 소비자: Gemini 앱 + NotebookLM: @sundarpichai, @GoogleDeepMind, @GeminiApp
- 서드파티: OpenRouter 등록: @scaling01; Perplexity가 Pro/Max에 3.1 Pro로 업그레이드: @perplexity_ai, @AravSrinivas
- “Deep Think와 같은 핵심 지능” 포지셔닝: @Google, @koraykv, @NoamShazeer
컨텍스트/출력/컷오프/툴 기능(보고된 내용)
- Phil Schmid 스펙 요약(보고): Context “Same 1M context”; Max output 64k; Knowledge cutoff Jan 2025; tool calling / structured outputs / JSON mode (AA도 언급)
- 출처: @_philschmid, AA 언급: @ArtificialAnlys
벤치마크(헤드라인+보조 지표)
- ARC-AGI-2: 77.1%: @sundarpichai, @GoogleDeepMind, @JeffDean, @demishassabis, @joshwoodward
- SWE-Bench Verified: 80.6%(요약 보고): @scaling01, @_philschmid
- Terminal-Bench 2.0: 68.5%(보고): @_philschmid
- APEX-Agents tool-use: 33.5% vs 18.4%, “82% better agentic tool use” 주장: @_philschmid
- MCP Atlas: 69.2%; BrowseComp: 85.9%: @_philschmid
- Artificial Analysis ‘key takeaways’(선별): 6/10 evals 선두, token usage ~57M, suite cost $892, pricing $2/$12 per 1M(≤200k), 오픈 웨이트 리더 GLM-5 대비 ~2× 비용($547), GDPval-AA ELO 1316(100+ 상승), Terminal-Bench Hard 54%, SciCode 59%, CritPt 18%(>5 p.p. 우위), 환각률 -38 p.p.: @ArtificialAnlys
- ARC Prize 비용/태스크: ARC-AGI-1 98% / $0.52/task, ARC-AGI-2 77% / $0.96/task: @arcprize
가격(pricing)
- Gemini 3.1 Pro 가격이 3 Pro 대비 동일하다고 반복 언급: $2 / $12 per 1M input/output tokens(≤200k), $4 / $18(>200k): @_philschmid
- AA도 ≤200k에서 $2/$12 per 1M을 언급: @ArtificialAnlys
지지/긍정: “큰 점프”, 코딩+추론 강점
- ARC-AGI-2, SWE Verified, HLE 등 벤치 열광: @kimmonismus
- “Google is back on intelligence-cost frontier”: @scaling01
- “Gemini 3.1 Pro in 1st place on AA leaderboard”: @scaling01
- “SVG가 훨씬 낫다 등 eval이 못 재는 개선” 주장 + 예시 프롬프트: @OriolVinyalsML, @OriolVinyalsML, @OriolVinyalsML, @OriolVinyalsML
- 컴파일러 개선 과제에서 Gemini가 GPT/Claude를 앞섰다는 개인 경험: @QuixiAI
- “추론+멀티모달에서 정말 좋다”(중립-긍정): @mirrokni
- “It’s a good model”: @andrew_n_carr, @gdb
중립/벤치마크-리터러시: 축에 따라 강약
- “강한 코딩과 SOTA 추론…ARC-AGI-2 SOTA”를 인정하면서도 다른 축은 혼재: @scaling01
- Arena는 “정상권이 촘촘하다”는 프레이밍: @arena
- WebDev Arena는 6위(전면 승리는 아님): @scaling01
- 평가 방법론 포화/예산 등 방법론 주의 환기: @Hangsiin, @Hangsiin
비판/회의: GDPval 우려, 롤아웃 마찰, 벤치 타깃팅 불편함
- “Gemini 3.1 Pro의 GDPval 점수는 우려된다”: @scaling01 (AA의 “개선됐지만 선두는 아님”과 결을 같이함: @ArtificialAnlys)
- 관찰된 “추가 추론”이 AA index에 반영되지 않는다는 회의: @scaling01
- “랩 수장이 eval을 바로 트윗한다…실망”(벤치 타깃팅 함의): @swyx
- 출시 시점 가용성/패키징 불만: @matvelloso
- 이후 업데이트: Antigravity는 나아졌으나 CLI는 여전히, Code Assist mismatch(“still announcing Flash 3”): @matvelloso
- “모델 바이브” 기반 UX/페르소나 비판: @teortaxesTex
엔지니어 관점: 왜 중요한가
- **ARC-AGI-2 77%**를 “핵심 추론” 마일스톤으로 보고, 이를 agentic tasks, 코딩, 데이터 합성으로 이어지는 실용 성능으로 마케팅: @joshwoodward, @GoogleDeepMind
- 비용/지능(cost/intelligence) 내러티브가 핵심. AA는 Gemini 3.1 Pro Preview가 Opus 4.6(max) 대비 suite 비용이 “절반 이하”이며, 토큰 사용(~57M)도 비교적 낮다고 프레이밍: @ArtificialAnlys
- 평가 우선순위가 이동 중: 벤치(ARC/SWE) 승리와 동시에 실세계 agentic eval(GDPval) 및 워크플로 신뢰성(가용성, 툴 생태계) 강조. GDPval 격차는 반복적으로 언급됨: @scaling01, @ArtificialAnlys
- “모델 vs 제품” 긴장: 강한 모델이어도 CLI/IDE 통합과 배포가 발표 시점에 맞는지(예: Antigravity/CLI/Code Assist) 엔지니어는 민감하게 봄: @matvelloso
AI Twitter Recap
참고 링크
오픈 모델, 평가(evals), 벤치마킹 담론
- Trillion Labs Tri-21B-think Preview(Apache-2.0) 벤치: AA Intelligence Index 점수 20, AA-Omniscience 기반 저환각 신호(62%로 프레이밍), τ²-Bench Telecom 툴-유스 강점(93%), 높은 추론 토큰 사용(~120M), 초기엔 퍼블릭 엔드포인트 없음, 가중치 링크 제공: @ArtificialAnlys, @ArtificialAnlys
- Mistral Voxtral Realtime 논문 + Apache-2 모델 공개: sub-500ms 레이턴시 주장, arXiv 및 weights 링크: @GuillaumeLample, @GuillaumeLample
- SWE-bench / 벤치 비판: “SWE Rebench is a bad benchmark” / WeirdLM 제안: @zephyr_z9
- 제재(sanctions) vs 중국 연구소 역량 논의: @zephyr_z9
- ARC-AGI-3 비용/복잡도 및 하네스 디버깅: 잘못 설정된 런이 구형 Gemini를 사용했음을 뒤늦게 발견 후 수정; 메모리 스캐폴드가 도움이 된다는 부분적 시사점 등: @scaling01, @scaling01
에이전트 툴링, “agent OS” 패턴, 관측성(observability)
- OpenClaw 아키텍처 요약: markdown 워크스페이스, Gateway 컨트롤 플레인, JSONL 트랜스크립트, 하이브리드 리트리벌의 파일 기반 메모리: @TheTuringPost
- Cursor의 OS별 에이전트 샌드박싱 + 빌드 글: @cursor_ai
- LangChain/LangSmith 업데이트(트레이스 필터링 UX 개선): @LangChain
- LangSmith for Startups 프로그램($10k 크레딧 등): @LangChain
- Deep Agents “ZeitZeuge” 성능 수정(perf-fix) 케이스 스터디(V8 CPU 프로파일, 서브에이전트, eval 기반 개선) + 작성자 스레드: @LangChain_JS, @bromann
- LangChain에 1st-party OpenRouter 통합(Python/TS): @LangChain_JS
- Raindrop “trajectory explorer”(에이전트 트레이스 탐색): @benhylak
- Jeremy Howard 경고: 모델이 제공되지 않은 툴을 호출하려 할 수 있으며(OpenAI 제외 대부분 공급자에 영향 주장) 툴 호출 요청을 검증하라고 강조: @jeremyphoward
코딩 에이전트 실전(워크플로 변화, 프롬프트 캐싱, “앱 스토어” 논지)
- Karpathy의 “bespoke software” 사례: Claude가 러닝머신 API를 리버스엔지니어링해 커스텀 대시보드를 만들었다며, “앱”은 일회성/단명하고 “AI-네이티브 API/CLI를 가진 서비스”가 중요해진다고 주장: @karpathy
- Anthropic API “automatic prompt caching” 업데이트: @alexalbert__
- 캐싱이 코딩-에이전트 UX에 핵심 인프라라는 코멘트: @omarsar0
- LlamaIndex 메모: IC가 엔드투엔드 제품 오너가 되고, 구현/프롬프팅 비용이 ~0이 되며, 조직 기대가 바뀐다는 주장: @jerryjliu0
- François Chollet: “agentic coding은 본질적으로 머신러닝(ML)”(테스트/스펙 과적합, 드리프트 등)이라며 “agentic coding의 Keras는 무엇인가?” 질문: @fchollet
모델 릴리스 및 인프라 노트(임베딩, 리트리벌, OCR, 추론 스택)
- Jina jina-embeddings-v5-text: decoder-only 백본 + last-token pooling; 레이어별 LoRA 어댑터(리트리벌/매칭/분류/클러스터링); 32k 컨텍스트; query/document 프리픽스: @JinaAI_, @JinaAI_
- ColBERT-Zero / PyLate(Apache-2.0 모델+스크립트): 공개 데이터로 BEIR SOTA 주장: @antoine_chaffin, @antoine_chaffin, @LightOnIO
- Hugging Face Jobs OCR 일화: 브리태니커 2,724p를 GLM-OCR 0.9B로 재-OCR, ~$0.002/페이지, L4에서 ~$5: @vanstriendaniel
- vLLM vs SGLang 성능 노트(DeepGemm vs Triton):
VLLM_USE_DEEP_GEMM=0제안: @TheZachMueller
산업/비즈니스 및 정책(선별)
- Epoch 매출 분석: Anthropic vs OpenAI 성장률과 2026년 중반 역전 가능성(성장 둔화 등 단서 포함): @EpochAIResearch, @EpochAIResearch
- OpenAI의 정렬(alignment) 관련 펀딩 커밋($7.5M) — AI Security Institute Alignment Project: @OpenAINewsroom
- OpenAI FedRAMP authorization 주장: @cryps1s
- Perplexity Comet iOS 프리오더: @AravSrinivas, @perplexity_ai
AI Reddit Recap
/r/LocalLlama + /r/localLLM
- I’m 100% convinced that it’s the NFT-bros pushing all the openclawd engagement on X (Activity: 742): 이 글은 X에서 ‘OpenClawd’ 홍보가 NFT 관련 인물들에 의해 주도되고 있고, 유사한 언어/전술을 반복한다는 의심을 다룹니다. 작성자는 이것이 AI+크립토 시장의 빠르게 팽창하는 버블의 신호일 수 있다고 보며, 1990년대 말 테크 버블과의 유사성을 제시합니다. OpenClawd의 급부상(깃허브 스타 급증, OpenAI의 빠른 인수 등)을 강조하면서, 사용자 데이터/권한에 대한 광범위한 접근을 제공한다는 주장 때문에 보안 위험도 언급합니다. 댓글에서는 성장 속도 자체가 조직적인 애스트로터핑(astroturfing) 가능성을 시사한다고 우려하며, 실시간 사용자 데이터 접근 같은 보안 함의를 강조합니다.
- OpenClawd의 타임라인(2026년 1월 첫 언급 → 2주 내 GitHub 30만 스타 → Lex Fridman Podcast 등장 → 1달 내 OpenAI 인수)은 과도하게 빠르며, 인기의 진정성과 조직적 홍보 가능성에 대한 의심을 키웠다는 지적이 나옵니다.
- 참여(engagement)의 “진짜 여부”에 대한 회의와 함께, 실시간으로 방대한 사용자 데이터에 접근할 수 있다는 점이 큰 보안 우려로 언급됩니다. 이는 구글 같은 대형 테크보다도 더 높은 수준의 접근권일 수 있다고 경고합니다.
- OpenClawd 홍보 방식이 과거 NFT 붐과 유사하며, 그때의 홍보 집단이 새로운 유행으로 이동한 패턴일 수 있다는 주장도 나옵니다.
- How much was OpenClaw actually sold to OpenAI for? $1B?? Can that even be justified? (Activity: 177): 이미지 밈은 오픈소스 프로젝트(OpenClaw)가 엄청난 금액으로 팔린다는 식으로 과장된 농담을 합니다. 본문/댓글은 “OpenClaw가 OpenAI에 10억 달러에 매각”된 것이 아니라, OpenAI가 창립자 Peter Steinberger를 채용했고 GNU 3.0 라이선스 오픈소스 프로젝트를 후원(sponsoring)하는 형태라고 정리합니다.
- OpenClaw는 매각된 것이 아니라 창작자 채용 + 프로젝트 후원으로 요약되며, GNU 3.0 라이선스로 오픈소스로 남는다는 점이 강조됩니다.
- 일부는 OpenClaw의 기능/UX가 Codex, ClaudeCode, Droid, OpenCode 등보다 떨어진다고 비판하면서, 채팅 플랫폼에 “쉽게 붙는” 통합성이 채택을 견인했다고 봅니다.
- ‘vibe coding’ 같은 표현과 과장된 가치평가(농담)는 기술보다 하이프(hype)로 과대평가되는 프로젝트에 대한 회의로 읽힙니다.
- Kitten TTS V0.8 is out: New SOTA Super-tiny TTS Model (Less than 25 MB) (Activity: 1167): Kitten ML이 Apache 2.0 라이선스로 표현력 있는 오픈소스 TTS 모델
80M,40M,14M을 공개했습니다. 가장 작은14M은25 MB미만이며 CPU에서도 실행 가능해 엣지(edge) 디바이스에 적합하다고 소개됩니다. 8가지 보이스를 제공하고 이전 버전 대비 품질/표현력이 개선되었다고 하며, GitHub와 Hugging Face에 공개됐습니다. 댓글에서는 HF 페이지에 오디오 샘플을 넣자는 제안과, 오프라인 프라이버시 중심 브라우저 확장 수요 등이 언급됩니다. - Open Source LLM Leaderboard (Activity: 89): 2026년 오픈소스 LLM을 성능 티어로 분류한 ‘Open Source LLM Leaderboard’ 이미지가 공유됩니다. S 티어에 GLM-5, Kimi K2.5 등이, A 티어에 Qwen 3.5, DeepSeek R1, Mistral Large, GPT-oss 120B 등이 포함돼 비교를 제공합니다(세부 벤치는 명시되지 않음).
- 리더보드가 “로컬로 돌릴 수 있는 모델”과 “클라우드 인프라가 필요한 모델”을 구분해야 한다는 요구가 나옵니다(접근성/현실 제약 때문에).
- Minimax M2.5 같은 대형 모델이 512GB 같은 거대 VRAM/유니파이드 메모리를 요구한다는 언급이 나오며, 고성능 모델 접근의 하드웨어 장벽이 부각됩니다.
- 노트북 8GB VRAM에서 1T 모델을 돌리기 위한 양자화(quantization) 수준(Q.05 등) 논의가 나오며, 소비자급 하드웨어에서의 압축/실행 니즈가 드러납니다.
Less Technical Subreddits
대상: /r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo
- Google releases Gemini 3.1 Pro with Benchmarks (Activity: 2799): Google이 Gemini 3.1 Pro를 공개했고 ARC-AGI 2에서
77%를 달성해 이전31%대비 큰 폭의 향상이라고 소개됩니다. 가격은 Gemini 3 Pro와 동일하다고 하며, 자세한 내용은 model card를 참조하라고 안내합니다. 댓글에서는 짧은 기간 내 벤치 점프가 놀랍다는 반응이 나옵니다. - ARC-AGI 2에서
77%라는 성능은 몇 달 전31%수준에서 크게 뛴 것으로 언급되며, AI 발전 속도가 강조됩니다. - Model Card 기준으로 Gemini 3.1 Pro 가격이 이전과 동일하다는 점이 재확인되며, 성능 향상에도 가격 전략이 유지된다고 해석됩니다.
- DeepMind가 GDPval 점수를 함께 공개한 점(해당 축에서 강점이 아니어도)을 투명성의 신호로 보는 코멘트가 있습니다.
- Animated SVG Comparison between Gemini 3 and 3.1 (Activity: 890): Gemini 3 vs 3.1의 애니메이션 SVG 비교를 다루며, 3.1에서 커스텀 애니메이션 SVG(런타임 생성 포함) 제작이 가능해지는 등 큰 개선이 있었다는 주장입니다. 이는 UI가 더 복잡/동적으로 변하며 미니멀리즘에서 맥시멀리즘으로 디자인 트렌드가 이동할 수 있다는 추측으로 이어집니다. 댓글에서는 Lucide, ShadCN 같은 UI 라이브러리에 대한 영향 가능성도 언급됩니다.
- TFenrir는 Gemini 3→3.1 전환에서 특히 애니메이션 SVG 영역이 “중요한 사용성 임계점”을 넘었다고 보고, 더 복잡하고 인터랙티브한 UI를 가능케 한다고 평가합니다.
- The Difference At A Glance! (Activity: 499): “Gemini 3.1 Pro”와 “Claude Opus 4.6”를 자동차 밈으로 비교한 이미지로, 기술적 논의라기보다 가벼운 유머에 가깝습니다. 댓글에서는 심슨의 ‘호머가 만든 차’ 에피소드를 인용해 과장된 디자인을 놀립니다.
- Gemini 3.1 Pro makes a NMS style space exploration game (Activity: 742): Gemini 3.1 Pro로 No Man’s Sky 스타일의 우주 탐험 게임을 약
20 prompts로 반복 개발했다는 사례입니다. 초기 디버깅 후 우주선 모델 변경, 조작 개선, 사격/소행성 기능 추가 등으로 확장됐다고 하며, 반복적 설계 자동화 가능성을 보여준다고 주장합니다. 댓글에서는 일관성에 대한 회의(같은 프롬프트로 항상 잘 나오지 않을 수 있음)와 기능 확장 제안이 함께 나옵니다. - 한 사용자는 Gemini 3 Pro가 출시 초기에 매우 강했고(순수 코딩은 Claude가 더 나을 수 있음), 이후 연산 자원 절약 등 이유로 ‘너프(nerf)’되는 패턴이 있다고 주장합니다.
- Gemini 3.1 Pro is lowkey good (Activity: 580): 이미지 표는 Gemini 3.1 Pro가 Sonnet 4.6, GPT-5.3-Codex 등과 비교돼 과학 지식/추상 추론에서 강점을 보인다는 식의 벤치 비교를 제시합니다. 댓글에서는 GDPval 성능을 농담처럼 언급하며 축별 편차를 지적합니다.
- Gemini 3.1 Pro (Activity: 715): 여러 AI 모델 벤치 비교표 이미지로, Gemini 3.1 Pro가 학술 추론, 코딩, 과학 지식, 다국어 등에서 Sonnet 4.6 및 GPT-5.2 대비 우위로 표시됩니다. 특히 상세 출력 프로토콜 준수,
75k token input처리에서 3.0 대비 개선되었다는 주장과, 기본 장황성(verbosity)이 상승했다는 언급이 있습니다(다만 Opus 4.6보다는 덜 장황). 댓글에서는 “사용자가 쓰는 모델과 같은 모델이 맞냐”는 회의와, 지시사항 준수 개선에 대한 반응이 섞입니다. - Arthesia는 75k 토큰 입력 테스트에서 3.0 Preview는 상세 출력 프로토콜을 100% 실패했지만 3.1은 포맷을 성공적으로 맞췄고, 기본 장황성도 올라갔다고 보고합니다.
- 이러한 관찰은 포맷 준수 및 장황성 제어가 필요한 사용자에게 의미 있는 업그레이드로 해석됩니다.
- Gemini 3.1 pro officially released! (Activity: 400): Google이 Gemini 3.1 Pro를 공개했고 AI Studio에서 이용 가능하다는 내용입니다. 벤치에서 큰 개선을 주장하며, “사실을 꾸며내지 않고(coherent responses without fabricating facts)” 응답 품질을 강조합니다. 자세한 내용은 official announcement를 참조하라고 안내합니다. 댓글에서는 초기 벤치 성능이 장기적으로 유지될지 우려/기대가 함께 나옵니다.
- Claude Sonnet 4.6 One-shotted this surreal Time-Themed website, full prompt + codepen below (Activity: 731): Claude Sonnet 4.6로 ‘시간 인지(time perception)’ 테마의 초현실적 웹사이트를 원샷(one-shot) 생성했다는 프로젝트 소개입니다. 녹아내리는 시계, 시간에 따라 늘어나는 타이포그래피, 기억처럼 페이드-인되는 섹션, 패럴랙스, 유체 전환, 스크롤에 동기화된 틱킹 사운드 등 ‘살아있는 시계 장치 꿈(living clockwork dream)’을 표방합니다. Codepen에 공개됐습니다. 댓글은 ‘AI slop’이라며 예술적 가치에 회의적인 반응과, 맥락(인간 제작 vs AI 제작 표기)에 따라 평가가 바뀐다는 의견이 섞입니다.
- iMrParker는 SOTA LLM으로 HTML을 ‘원샷’ 생성해도 실무적으로 쓸 수 있는지(유틸리티/목적)에 의문을 제기합니다.
- Ok-Actuary7793는 같은 결과물이 문맥에 따라 찬사/비판을 오갈 수 있다고 보고, 1년 전엔 상을 탔을 수준이 지금은 ‘AI slop’으로 치부되기도 한다고 말합니다.
- Historical-Cress1284는 유사한 테마/레이아웃이 흔한 템플릿처럼 반복될 수 있다며, AI 도구가 디자인 미학을 동질화할 수 있다는 우려를 덧붙입니다.
- Major Claude Code policy clear up from Anthropic (Activity: 592): Anthropic이 Claude 서비스의 OAuth 토큰 사용 정책을 명확히 했다는 내용입니다. Claude Free/Pro/Max 플랜의 OAuth 토큰은 Claude 자체 서비스 내에서만 사용해야 하며, 외부 제품/툴/서비스(Agent SDK 포함)에서 사용하면 Consumer Terms 위반이라는 점을 강조합니다. 댓글은 정책의 집행 가능성, 현재 가격 구조의 지속 가능성, GitHub 문서 업데이트 필요성 등을 논의합니다.
- 정책이 “Agent SDK 금지”로 오해됐으나, 실제로는 문서 업데이트에서 비롯된 혼선이었고 SDK 자체가 금지된 것은 아니라는 정리가 나옵니다.
- 현재 가격이 보조금(subsidy)에 의존해 지속 가능하지 않으며, “지금의 저렴한 가격을 그리워할 것”이라는 전망이 등장합니다.
- Anthropic의 GitHub 액션 문서가 여전히 OAuth 토큰 사용을 안내한다는 지적이 나오며, 문서 최신화의 중요성이 강조됩니다.
- I gave Claude a phone and in the end, it thanked me (Activity: 627): Claude Opus 4.6에 blitz.dev 앱( iOS 시뮬레이터 상호작용)으로 ‘폰 접근’을 제공하자, 5분 만에 Apple Maps로 에펠탑/콜로세움을 찾고, 저널링 앱에 감사 메모를 작성했다는 실험입니다. 스와이프/네비게이션은 능숙했지만 저장에는 도움을 받았다고 하며, 디지털 환경 자율 탐색 가능성을 보여준다는 평가입니다.
- 댓글에서 한 사용자는 Claude로 옛 MMORPG 프라이빗 서버 에뮬레이터의 헤드리스 테스트 클라이언트를 개발했는데, 캐릭터 생성·게임플레이·버그 탐지까지 자율적으로 수행했다고 공유합니다.
- Me when Claude wrote 2500 lines of perfect code but named a directory wrong (Activity: 1614): 코딩 어시스턴트가 코드 자체는 완벽해도 디렉터리/경로 같은 사소한 실수로 큰 디버깅 비용이 발생하는 상황을 풍자한 밈입니다. 댓글에서도 “파일 경로/디렉터리 맥락 관리 실패”로
module not found같은 문제가 생기는 경험이 공유됩니다. - tomleelive는 AI가 코드 문법/로직은 맞춰도 파일 시스템 컨텍스트를 못 잡아, 존재하지 않는 파일/디렉터리에 코드를 두는 문제가 실무에서 치명적이라고 지적합니다.
- Anthropic’s Claude Code creator predicts software engineering title will start to ‘go away’ in 2026 (Activity: 948): Claude Code 제작자 Boris Cherny가 2026년쯤 소프트웨어 엔지니어 직함이 “사라지기 시작할 것”이라고 전망했다는 글입니다. AI가 *‘practically solved coding’*에 가깝고, 엔지니어는 전통적 코딩 밖의 일로 이동할 것이라는 주장입니다(Y Combinator 팟캐스트 인터뷰, Business Insider 보도 언급). 댓글은 마케팅/감원 정당화로 쓰일 수 있다는 회의, AI 툴의 미성숙, 직업 안정성 우려를 제기합니다.
- “엔지니어 대체” 서사가 제품 마케팅에 가깝고, 이를 이유로 감원하는 회사는 성장 전망이 없을 수 있다는 반박이 나옵니다.
- Claude Code의 GitHub 이슈가 많이 남아 있다는 점을 들어, 인간의 감독/결정이 여전히 필요하다고 주장합니다.
- This is what 3k hours in CC looks like (Activity: 838):
3,000 hours에 걸쳐 만든 Claude Code용 통합 운영 환경을 소개합니다. 아이디어 결정→적대적 리뷰→원자적(atomic) 태스크 계획→QA/보안 리뷰 파이프라인 등 단계적 워크플로를 강조하며, Opus(전략/설계), Sonnet(구현), Haiku(프록시 에이전트) 분업을 언급합니다. 컨텍스트를 최소화해 노이즈를 줄이고 개발자 의도/에이전시를 유지하는 것을 목표로 하며, 곧 공개 예정이라고 합니다. - 댓글에서는 설정이 지나치게 복잡하다는 반응과 함께, 실제 다른 프로젝트에도 적용됐는지(스트레스 테스트) 묻는 질문이 나옵니다.
- New Gemini model imminent (Activity: 673): “Gemini”라고만 적힌 Logan Kilpatrick의 트윗을 소재로, Gemini 3.1 같은 새 모델 출시 임박을 추측하는 밈/스레드입니다. 짧은 공지가 하이프를 만들었다는 반응이 많습니다.
- 일부는 Gemini가 벤치 대비 실사용에서 불안정해졌다고 불평하며, 단순한 그룹 분류 같은 과제 실패 사례를 공유합니다.
- 벤치에서는 강하지만 실전에서 GPT/Claude보다 못한 패턴이 반복된다는 회의적 관찰이 나옵니다.
- Lyria 3 Google Deepmind’s music generator (Activity: 864): Google DeepMind의 음악 생성 모델 Lyria 3가 공개됐고, Suno 대비 아티팩트가 적고 음질이 좋다는 사용자 보고가 있습니다(특히 디스토션 기타 같은 복잡한 악기). 다만 작곡/창의성은 “지루하다”는 평가도 나오며, 음악 산업의 법적 대응 가능성(저작권/IP) 논쟁이 뒤따릅니다.
- Google Unveils Lyria 3 - New Best Music Gen Model (Activity: 367): Lyria 3가 프롬프트나 사진에서 음악 트랙을 만들고 Gemini 인터페이스에 통합됐다는 소식입니다. 다만 현재
30-second클립만 생성 가능하다는 한계가 “최고” 주장과 충돌한다는 지적이 있으며, 프로젝트 관리 같은 기본 기능 부재를 농담하는 댓글도 있습니다. - PTI_brabanson는
30-second제한이 Suno 등 대비 큰 제약이며, 다만 구글의 진입이 정체된 분야에 혁신을 촉진하길 기대한다고 말합니다.
AI Discord Recap
gpt-5.2가 만든 “요약의 요약”입니다.
Gemini 3.1 Pro 확산(그리고 논쟁)
- Gemini 3.1 Pro 광범위 롤아웃: 구글은 런칭 글을 공개했고(“Gemini 3.1 Pro” announcement), 사용자들은 AI Studio, Gemini 앱, Cursor, Perplexity Pro/Max( announcement image ), Windsurf(프로모 한정 0.5x credits) 등에서 가용성을 보고했습니다(Windsurf X announcement).
- 반응은 엇갈렸습니다. Opus 4.6보다 낫다는 평가가 있는 반면, “laziness”·프롬프트 민감성 불만도 있었고, 어떤 Discord는 모델과 무관한 UI/UX 회귀로 *“they screwed up canvas massively”*라고 지적했습니다.
- Arena 순위 논쟁: LMArena가
Gemini-3.1-Pro를 리더보드에 추가했고, Text 1위 동률(1500), Code 6위로 기록됐다는 언급이 있었습니다(Text Arena leaderboard, Code Arena leaderboard). 동시에 “곧 너프될 것”이라는 예측이 나왔고, 랭킹 UX는 새 필터 사이드패널을 추가하며 YouTube walkthrough로 설명됐습니다.
에이전트 툴체인: 비용 폭증, 차단, 로컬 배포
- OpenClaw 토큰 소모: “$200/mo 구독인데 하루에 $1600을 썼다” 같은 보고가 나오며, 서버 측 제한/더 안전한 오케스트레이션 패턴 논의가 촉발됐습니다.
- 차단/접근 마찰: Anthropic이 Pro/Max 플랜 키로 OpenClaw를 쓰는 사용자를 밴한다는 주장과, Google이 antigravity OAuth 사용 계정을 밴한다는 주장이 함께 돌았습니다(Twitter thread). OpenClaw API 호출이 올바른 헤더를 보내지 못했을 수 있다는 추측도 나왔습니다.
- n8n 연동(원클릭 노드): OpenClaw 에이전트(Jeeves)가 n8n 통합을 출시했고, karmaniverous/n8n-nodes-openclaw 및 n8n-nodes-openclaw npm package로 Gateway API 20개 툴을 단일 노드에서 드롭다운으로 노출한다고 합니다.
- 로컬 “원클릭” OpenClaw: Hugging Face 구성원들이 vibeclaw.dev(브라우저 샌드박스 컨테이너) 배포를 공유했지만, Firefox 레이아웃 버그를 보고했습니다.
- DeepCLI: OpenRouter 기반 Rust OpenClaw 대안으로 DeepCLI가 소개됐고, 사이트는 deepcli.org입니다.
인프라 현실: 장애, 인증 실패, 제한, 환불
- OpenRouter: DB 장애 + Clerk 지연: OpenRouter가 2:45am–3:15am DB 장애(2/17과 유사)를 보고하고 포스트모템을 예고했으며, 인증 제공자 Clerk도 로그인 저하를 겪었다고 합니다(Clerk incident page).
- 이미지 생성 회귀: API가
image_tokens를 과금했는데 콘텐츠는 비어 있고(message.images누락), OpenRouter가 백엔드 리팩터링의 엣지 케이스를 인정하며 환불을 약속했다는 언급이 있습니다(“missed an edge case in tests”). - Perplexity 제한/정지: “enhanced queries” 한도가 600/day → 200/week로 줄었다는 보고, 일반적인 TOS 메시지와 함께 계정 정지가 늘었다는 보고가 나왔고, 할인키/프로모 악용이 원인일 수 있다는 추측이 있었습니다.
- API 관련해서는 Perplexity가 “free $5/month” API 크레딧을 제거했다는 주장도 있었고, 변경이 기술적 제약보다 Max 업그레이드 압박으로 해석된다는 논의가 있었습니다.
평가(evals) 산업화
- Every Eval Ever: EvalEval Coalition(EleutherAI, Hugging Face, University of Edinburgh)이 LLM 평가 결과를 표준 스키마로 정리하기 위한 Every Eval Ever를 공개했습니다(evalevalai.com, GitHub, EEE_datastore dataset on Hugging Face). HELM, lm-eval-harness, Inspect AI 비교를 위한 ‘접착제(glue)’로 포지셔닝했고, ACL 2026 워크숍/공동 과제와도 연결(기여자 공동저자)된다고 합니다.
- 재현 가능한 eval: 점수뿐 아니라 판정 불일치, 재시도/실패, 비용/지연 등 변동성을 기록하는 러너로 madison-xu/llm-eval-pipeline이 공유됐습니다.
GPU/ML-Sys: FP8, DirectML, 분산 추론 논쟁
- FP8 안정 운용: 0.5B 모델, 4×4090, 토큰 호라이즌 350B tokens를 ~4주간 안정적으로 돌렸고, 깨끗한 데이터(nemotron-climbmix), 작은 모델, JIT 스케일링이 안정성에 기여했다는 보고가 있습니다. 마지막 트랜스포머 블록에서 활성값(activation) 성장, z-loss 정규화 테스트(평균 로짓은 줄였으나 최대 스파이크 제한은 못함) 같은 디버깅 포인트도 언급됩니다.
- DirectML vs CUDA: DirectML을 CUDA 대안으로 “동급 속도”라고 주장하는 의견에 반박이 있었고, 리눅스 공백과 “maintenance mode” 우려가 제기되며 microsoft/DirectML issue #422가 인용됐습니다.
- ONNX Runtime 실전 사례: OnnxBpmScanner + SharpAI가 5분 오디오의 BPM을 ~10초에 분석한다는 소개로 “보링 스택(boring stack)”의 실전 성능을 강조합니다.
- Prefill/Decode 분리(disaggregation): 기본 원리 가이드가 X post로 공유됐습니다.
- 분산 벤치마킹에서는
triton.testing.do_bench()가 collective에 안전하지 않다(루프 내 로컬 동기화 문제)고 경고하며, vLLM PR diff 맥락으로 vLLM PR snippet을 인용하고 호스트 측 타이밍을 권장했다는 언급이 있습니다.