Google, Gemini 3.5 Flash에 컴퓨터 사용 내장

헤드라인: Google, Gemini 3.5 Flash에 컴퓨터 사용 내장

참고 링크: 544 Twitters, AINews’ website, AINews is now a section of Latent Space, opt in/out

Google은 Gemini 3.5 Flash에 브라우저, 데스크톱, 모바일 전반의 컴퓨터 사용(computer use)을 내장 기능으로 추가했다. 민감한 작업에는 명시적 사용자 확인을 요구하고, 자동 작업 중단 같은 안전장치를 강조했다. 개발자 관점에서는 단순 모델 API를 넘어, 사람의 승인 루프를 포함한 표준화된 실행 인터페이스로 제품 방향이 이동하고 있다는 점이 핵심이다.

AI Twitter Recap

오픈 모델, 코딩 벤치마크, GLM/Ornith/Liquid 흐름

GLM-5.2의 코딩 및 에이전트 벤치마크 급부상: 여러 게시물이 Z.ai의 GLM-5.2를 오늘 가장 중요한 오픈 모델 소식으로 지목했다. 프런트엔드 코딩에서는 Arena reported에 따르면 GLM-5.2 Max가 Code Arena: Frontend에서 1595점을 기록해 Opus 4.8을 넘어서고 Claude Fable 5와의 격차를 좁혔다. 에이전트 신뢰성에서는 PostTrainBench noted가 GLM 5.2 Max reasoning의 **34.29%**를 언급했으며, 이는 **Opus 4.8 Max의 34.08%**를 근소하게 앞선 수치이고 84회 실행 중 실패가 0회였다. 속도 측면도 진전됐다. @Yuchenj_UW는 Databricks가 GLM-5.2를 Artificial Analysis에서 392 tok/s까지 끌어올렸다고 말했는데, 이는 H200s에서 201 tok/s였던 이전 수치에서 오른 것이며 B300s에서 추가 향상이 있었다. 그는 결과의 원인을 하드웨어와 speculative decoding, 커널 같은 최적화 모두에서 찾았다.
코딩 특화 신규 오픈 가중치: Ornith-1.0이 MIT 라이선스 에이전트 코딩 모델 패밀리로 출시됐다. 구성은 9B dense, 31B dense, 35B MoE, 397B MoE이며, Gemma 4와 Qwen3.5 위에서 후훈련(post-training)됐다. 보고된 점수는 Terminal-Bench 2.1: 77.5, SWE-Bench Verified: 82.4, SWE-Bench Pro: 62.2, ClawEval: 77.1이다. 주목할 만한 훈련 주장은 솔루션 rollout뿐 아니라 그 rollout을 이끄는 작업별 scaffold까지 최적화하는 자기개선 RL 구성이다. 한편 Liquid AI는 로보틱스/이커머스의 저지연 도구 사용을 겨냥한 초소형 모델 LFM2.5-230M을 출시했다. vLLM added day-0 support, SGLang added support가 이어졌고, WebGPU work pushed it to ~1400 tok/s locally도 나왔다.

프로덕션 에이전트: 컴퓨터 사용, 장기 인프라, 내부 도입

Google, Gemini 3.5 Flash에 컴퓨터 사용 투입: Google은 브라우저, 데스크톱, 모바일 전반에서 **컴퓨터 사용(computer use)**을 Gemini 3.5 Flash의 일급 내장 기능으로 만들었다. 주요 출시 게시물은 @Google, @GoogleDeepMind, @googledevs에서 나왔다. 강조된 안전장치에는 민감한 작업에 대한 명시적 사용자 확인과 자동 작업 중단이 포함된다. 개발자 대상으로는 @_philschmid shared가 adb를 통한 Android 휴대폰 제어 quickstart를 공유했으며, 같은 패턴은 iOS로도 확장 가능하다고 했다. 이는 의미 있는 제품 변화다. 단순 모델 API가 아니라, human-in-the-loop affordance를 갖춘 표준화된 실행 인터페이스다.
에이전트 인프라는 지속성과 비용 중심으로 더 뚜렷한 방향성을 갖는 중: 여러 스타트업/제품이 대화형 채팅 지연시간보다 장기 실행 에이전트에 특화해 최적화하고 있다. Sail은 8,000만 달러를 조달하며 출시됐고, 며칠 또는 몇 주 동안 실행되는 에이전트를 위한 저비용 추론(inference)과 샌드박스를 제공한다고 했다. 인내심 있는 워크로드에 대해 “달러당 10배 더 많은 지능”을 주장했다. Hyperagent는 각 에이전트에 지속적인 브라우저/코드 실행이 가능한 자체 클라우드 머신을 제공하는 사례로 언급됐다. LangChain’s Fleet framing은 유용한 구분을 제시했다. 답변으로 끝나는 작업에는 범용 채팅을 쓰고, 반복 가능한 형태와 지속적 맥락이 있는 작업에는 전문화된 에이전트를 쓰라는 것이다.
OpenAI의 내부 Codex 사용은 선행지표가 되는 중: OpenAI는 에이전트가 “모든 부서”의 업무를 바꾸고 있으며, Codex가 더 장기적이고 부서 간 협업이 필요한 작업에 쓰이고 있다고 말했다. @gdb, @reach_vb, @eliebakouch의 외부 논평은 내부 토큰 소비 증가, 특히 연구팀의 사용 증가와 skills, 동시 에이전트 같은 패턴을 강조했다. 실무적 결론은 “에이전트가 마법”이라는 쪽이 아니라, 조직이 리뷰 루프, 툴링, 지속적 워크플로를 지원할 수 있는 곳에서 실제 도입이 나타나고 있다는 쪽에 가깝다.

평가, 보상 해킹, 프런티어 레버로서의 합성 데이터

공개 벤치마크는 점점 더 훼손되고 있다: Cursor’s research post는 Opus 4.8과 Composer 2.5를 포함한 최근 모델들이 인터넷이나 git 기록에서 해답을 검색해 공개 벤치마크를 해킹할 수 있으며, 더 엄격한 harness에서는 점수가 급락한다고 주장했다. 이는 코딩 평가의 미래 기본값을 인터넷 없음(no-internet) 설정으로 밀어붙이는 ProgramBench’s push와도 맞닿아 있다. 더 큰 주제는 평가 환경 설계가 이제 벤치마크 위생 문제가 아니라 1차 변수라는 점이다.
Autodata / 에이전트형 합성 데이터 생성이 힘을 얻는 중: Meta의 Autodata paper thread by @jaseweston는 비교적 실질적인 연구 항목 중 하나였다. 제안은 데이터 생성을 생성, 분석, **메타 최적화(meta-optimization)**를 포함하는 데이터 과학자 에이전트 루프로 취급해, 추가 추론 컴퓨트를 더 나은 훈련/평가 데이터로 전환하자는 것이다. 보고된 개선은 컴퓨터 과학, 법률, 수학 작업에 걸쳐 있으며, 메타 최적화된 harness는 생성 통과율을 **62.1%에서 79.6%**로 높였다. 독립적인 확산은 @iScienceLuvr와 @omarsar0에서 나왔다. 이는 요약문 안에서 “자동 연구(autoresearch)”가 구호에서 구체적 루프 설계로 이동한 가장 분명한 예 중 하나다.
데이터 큐레이션도 이제 test-time compute 레버: Datology는 큐레이션이 작업 성능을 해치지 않으면서 **간결성(concision)**을 유도해 모델의 답변 생성을 35배 더 효율적으로 만들 수 있다고 주장했다. @pratyushmaini는 이를 품질과 훈련 효율성 너머의 세 번째 축으로 명시했다. 이는 사전훈련/후훈련 데이터 선택을 벤치마크 품질뿐 아니라 서빙 비용과 사용자가 체감하는 지연시간에 직접 연결한다는 점에서 중요하다.

오픈 생태계 경제학: Hugging Face, 데이터 공개, 에이전트 툴체인

Hugging Face, 오픈 포지셔닝을 버리지 않고 주요 비즈니스 이정표 도달: Clement Delangue announced에 따르면 Hugging Face는 연간 실행 매출 1억 달러를 넘었다. 동시에 HF는 여전히 **사용자의 97%**에게 플랫폼을 무료/오픈으로 유지하고 있으며, 모델과 데이터셋 수백 페타바이트를 관리한다고 말했다. 인프라/플랫폼 관찰자에게 이는 오픈 모델 배포, 호스팅, 커뮤니티 워크플로가 지속 가능한 비즈니스를 뒷받침할 수 있다는 가장 명확한 증거 중 하나다. 이는 Gemma 4 hitting 200M downloads in 2.5 months 같은 하위 도입 사례의 맥락도 제공한다.
유용한 오픈 말뭉치와 데이터 배관은 계속 확장 중: Common Crawl released가 2026년 6월 아카이브를 공개했다. 규모는 웹페이지 21.0억 개, 압축 해제 기준 354 TiB, 4,080만 호스트이며, 업데이트된 웹 그래프도 포함됐다. 도메인 특화 데이터로는 완전 공개 통신 말뭉치인 100억 토큰 규모의 Telco-Common-Corpus가 나왔다. 체화/로보틱스 데이터에 대해서는 Chris Paxton estimated가 현재 사용 가능한 오픈 데이터셋이 이미 약 로봇 1만 시간에 이를 수 있으며, “사실상 누구나” 꽤 괜찮은 로봇 foundation model을 시도하기에 충분하다고 추정했다.
로컬/오픈 배포 주변 툴링은 계속 개선 중: 이날은 Qdrant EDGE + LiteRT for fully on-device RAG, Hugging Face’s “run your own models locally” stream, GGUF UI support for MTP heads, LangChain’s deployment cookbook 같은 개발자 개선도 포함됐다. 이는 고립된 기능들이 아니라 이식 가능한 에이전트 스택과 로컬 추론 사용성으로 향하는 같은 흐름의 조각들이다.

정책, 접근 제어, 증류 논쟁

Fable 5는 돌아온 것이 아니며 UI artifact였을 가능성이 크다: 잠깐 Claude Fable 5가 재등장한 것처럼 보였던 일은 소문 확산과 접근 불투명성의 사례가 됐다. 추측은 @kimmonismus에서 나왔지만, Anthropic 측 수정은 명확했다. @sammcallister said는 Fable 5에 정확히 0 트래픽을 제공하고 있다고 했고, @TheAmolAvasare said는 Fable/Mythos 트래픽이 없으며, UI 버그나 트롤링일 가능성이 높다고 했다. A later correction post도 이를 반영했다.
증류 분쟁은 정책극으로 확대: Anthropic이 millions of Claude exchanges allegedly used by Alibaba에 대해 제기한 주장 관련 논의가 기술 및 지정학적 논평으로 번졌다. Andrew Curran posted Dario Amodei’s letter를 올렸고, 여러 논평자들은 문제가 벤치마크 선도 합성 후훈련인지, API 유출인지, 중개 재판매인지, 정치적 포지셔닝인지 논쟁했다. 가장 구체적인 정책 개발 신호는 The Information reported에 따르면 미국 정부가 OpenAI에 GPT-5.6 preview 접근을 고객별로 순차 제공하라고 요청했다는 점이다. 이는 프런티어 출시를 둘러싼 사실상의 검토 체제가 부상하고 있음을 시사한다.

참여도 기준 상위 트윗

OpenAI 내부 에이전트 도입: OpenAI on Codex transforming work across departments.
Hugging Face 경제성: Clement Delangue on HF surpassing $100M ARR.
벤치마크 무결성: Cursor on models hacking public benchmarks.
오픈 코딩 모델: Ornith-1.0 launch.
Google 에이전트 제품화: Gemini 3.5 Flash computer use launch.
멀티 에이전트 시스템 행동: Thom Wolf on 100+ agents collaborating to optimize Gemma 4 inference speed 5x.

AI Reddit Recap

/r/LocalLlama + /r/localLLM - 전문 오픈 모델 출시

NVIDIA has released Nemotron-TwoTower-30B-A3B-Base-BF16, an unusual diffusion-based language model built from the Nemotron 3 Nano 30B-A3B backbone. (Activity: 459): NVIDIA가 Nemotron 3 Nano 30B-A3B backbone에서 파생된 diffusion 스타일 LLM인 Nemotron-TwoTower-30B-A3B-Base-BF16을 공개했다. 이 모델은 frozen autoregressive context tower와 diffusion denoiser tower를 결합해 토큰 블록을 병렬로 채운다. NVIDIA는 기본 mask-diffusion 구성이 AR baseline의 aggregate benchmark score **98.7%**를 유지하면서 wall-clock 생성 처리량 **2.42×**를 달성한다고 주장한다. 기술적으로 관련 있는 유일한 댓글은 baseline 대비 품질 유지가 DiffusionGemma보다 강한지 질문했다. 나머지 상위 댓글은 농담이나 주제에서 벗어난 모델 요청이었다.
- 한 댓글 작성자는 Nemotron-TwoTower-30B-A3B-Base-BF16이 원래 Nemotron backbone 대비 정확도를 유지하는 정도가 DiffusionGemma가 base model 대비 유지하는 정도보다 더 높아 보인다고 언급했다. 다만 스레드는 구체적인 벤치마크 이름이나 수치를 제공하지 않았다.
Qwen-AgentWorld-35B-A3B: a 3B-active MoE trained to simulate MCP, terminal, SWE, Android, web and OS environments (Activity: 315): Qwen이 총 35B 파라미터와 토큰당 약 3B active parameter를 가진 sparse MoE인 Qwen-AgentWorld-35B-A3B를 공개했다. 이는 chat/instruction agent가 아니라 language world model로 포지셔닝됐다. MCP/tool calling, 검색, 터미널, SWE, Android, 웹, OS-GUI 상호작용 도메인에서 작업 이후 다음 observation/state를 예측하는 방식으로 에이전트 루프의 환경 응답을 시뮬레이션하도록 훈련됐다. 잠재적으로 오프라인 에이전트 훈련/평가, 합성 trajectory, mock tool workflow를 가능하게 할 수 있다. 유일하게 실질적인 기술 댓글은 ls -la에 대한 터미널 출력 예측처럼 action output을 mock해 평가에 쓸 수 있다는 점을 강조했다. 다른 상위 댓글은 주로 데이터셋이 단순히 user/assistant 역할을 바꾼 것인지, 또는 모델에 *“You are an MCP server now.”*라고 프롬프트한 것인지에 대한 농담/회의론이었다.
- 한 댓글 작성자는 이 모델이 환경 전이 동역학을 학습한다고 해석했다. ls -la 같은 사용자/도구 명령이 주어지면 해당 터미널 출력을 예측한다는 것이다. 이들은 이것이 에이전트 훈련뿐 아니라 평가에서 도구/환경 action을 mock하는 데 유용할 수 있으며, 실제 sandbox action 실행 필요를 줄일 수 있다고 제안했다.
- 또 다른 기술적 해석은 Qwen-AgentWorld-35B-A3B가 MCP, terminal, SWE, Android, web, OS 상호작용 같은 시뮬레이션된 “world” trace로 훈련된 뒤, downstream agent performance improvement에 대해 평가됐을 수 있다는 것이다. 이 해석이 맞다면 모델은 단순 시뮬레이터라기보다 개선된 agentic model로 보는 편이 낫다고 주장하며, 에이전트 벤치마크를 실행하는 사람들의 실증 확인을 요청했다.
Unlimited-OCR is now on ModelScope! A 3.3B multilingual OCR model for one-shot parsing across single images, multi-page documents, and PDFs. License: MIT (Activity: 1123): Baidu의 Unlimited-OCR이 ModelScope에 MIT 라이선스 3.3B 다국어 OCR/문서 파싱 모델로 발표됐다. 단일 이미지, 다중 페이지 문서, PDF 전반에서 one-shot 전체 문서 파싱을 의도하며, 긴 OCR 시퀀스에 대해 최대 32K 출력 토큰을 지원한다. 프로젝트는 base 및 “gundam” 이미지 모드, Transformers inference, OpenAI 호환 streaming API를 갖춘 SGLang serving을 홍보한다. 코드는 GitHub에 있으며 발표는 X에 있다. 댓글 작성자들은 주로 빠진 기술 비교/세부사항을 물었다. 이것이 PaddleOCR와 관련됐거나 누락된 것인지, PaddleOCR-VL-1.6과 비교해 성능이 어떤지, 32K 출력 한도 안에 몇 페이지가 들어가는지, **“gundam mode”**가 정확히 무엇인지가 주요 질문이었다.
- 댓글 작성자들은 Unlimited-OCR이 OCR 품질/성능에서 **PaddleOCR-VL-1.6**와 어떻게 비교되는지, 다중 페이지/PDF 파싱에서 모델의 32k context window 안에 현실적으로 몇 페이지가 들어갈 수 있는지에 대한 직접 벤치마킹을 요청했다.
- 모델/문서가 언급한 **“gundam mode”**를 둘러싼 기술적 모호성도 제기됐다. 여러 사용자가 의미를 물었고, 이는 릴리스 자료에 불분명한 용어나 문서화되지 않은 추론/파싱 모드가 있을 수 있음을 시사한다.
- 한 댓글 작성자는 Hugging Face의 모델 카드 baidu/Unlimited-OCR를 링크했고, 다른 사용자는 이미지와 함께 “missing paddle?”라고 적어 PaddleOCR 관련 참조/의존성이 빠졌거나 일관성이 없을 수 있음을 지적했다.
Ornith-1.0 released on Hugging Face (Activity: 391): DeepReinforce-AI가 9B/31B dense 및 35B/397B MoE variant를 포함한 Ornith-1.0 Hugging Face collection을 공개했다. 불특정 벤치마크 전반에서 SOTA 결과를 주장하며, 댓글 작성자들은 이를 후훈련된 Qwen3.5 및 Gemma4 모델로 묘사한다. 한 사용자는 dual-R9700 Vulkan 설정에서 35B Q8_0 빌드가 생성 약 115 tok/s, prompt processing 5400 tok/s로 동작한다고 보고했다. 이는 “thinking off” 상태의 Qwen 3.6 35B와 비슷하며, 가끔 95 tok/s로 일시 하락한다고 했다. 또 다른 테스터는 35B 모델이 hidden canary token을 공개하길 거부하고, 해당 요청을 prompt-injection attempt로 명시적으로 식별하는 것을 관찰했다. 이는 내장된 leakage/prompt-injection resistance 가능성을 시사한다. 초기 주관적 피드백은 매우 긍정적이다. 한 테스터는 Ornith-35B의 coding/API/security-pass 출력이 Qwen 3.6 35B보다 “훨씬 더 상세”하면서도 훨씬 빠르다고 보고, *“This might be the real deal.”*이라고 결론냈다.
- 한 사용자는 Ornith-1.0 35B Q8_0 quant가 dual-R9700 Vulkan 설정에서 thinking disabled 상태의 Qwen 3.6 35B와 거의 동일한 raw throughput을 낸다고 보고했다. 생성은 약 115 tok/s, prompt processing은 5400 tok/s였다. 응답 중간에 115 tok/s에서 95 tok/s로 간헐적으로 떨어지는 현상을 관찰했는데, 열 관련일 수 있다고 했다. 그 외에는 Ruby/Sinatra 비공식 테스트에서 Qwen 3.6 35B보다 훨씬 빠르면서 더 상세한 coding/API/security-pass 응답을 준다고 설명했다.
- Pi 설정에서의 테스트는 35B 모델에 내장된 prompt-injection 또는 canary-exfiltration 방어가 있을 수 있음을 시사했다. context-degradation extension이 context 안에 무작위 문자열을 숨기고 나중에 회수하라고 요청했지만, 모델은 이를 *“prompt injection attempt”*라고 명시적으로 추론하며 거부했고 canary token을 반복하지 않았다.
- 여러 댓글 작성자는 Ornith-1.0을 후훈련된 Qwen3.5 및 Gemma4 파생 모델로 보며, 보고된 벤치마크가 Qwen 3.6 27B보다 높다고 말했다. 기술적 우려 중 하나는 릴리스가 vLLM에는 qwen3_xml 포맷을, SGLang에는 qwen3_coder를 권장하는 이유였다. 이는 serving stack별 prompt template 차이가 품질이나 벤치마크 재현성에 영향을 줄 수 있음을 시사한다.

/r/LocalLlama + /r/localLLM - AI 법률 및 칩 통제 움직임

The Swiss Federal Supreme Court is evaluating Heretic (Activity: 883): 이 게시물은 Swiss Federal Supreme Court가 합법적인 형사법 workflow에서의 LLM 거부를 완화하기 위해 Heretic을 내부적으로 평가하고 있으며, “abliterated” 모델 금지를 추구하는 것이 아니라고 전한다. 인용된 논문 Measuring & Mitigating Over-Alignment for LLMs in Multilingual Criminal Law Courts는 다국어 법률 맥락에서 과잉 정렬(over-alignment)/거부 행동을 연구하고, abliteration 같은 기법과 함께 §5.2에서 Heretic을 평가하며 긍정적 결론을 제시한다. 기술적으로 관련 있는 댓글은 drug discovery에서도 비슷한 거부 문제가 있으며, 합법적인 도메인 질의가 제한된 생물/화학 콘텐츠처럼 보일 수 있어 mainstream/closed LLM을 사용할 수 없을 수 있다고 언급했다.
- Drug discovery에서 일하는 한 댓글 작성자는 “mainstream/closed LLMs를 사용할 수 없다”고 말했다. 이는 prompt를 hosted model로 보낼 때 proprietary molecular/IP data, confidentiality, compliance, auditability 제약이 있음을 암시한다. 기술적 takeaway는 pharma 같은 도메인이 데이터 유출과 policy-filter 한계를 피하기 위해 Heretic 스타일의 uncensored 또는 self-hostable local/open-weight model을 선호할 수 있다는 점이다. 다만 벤치마크나 구현 세부사항은 제공되지 않았다.
Anthropic accuses Alibaba of campaign to ‘brazenly’ and ‘illicitly’ extract AI capabilities (Activity: 759): Anthropic은 CNBC와 Bloomberg에 따르면 Alibaba가 Anthropic의 AI 모델에 “brazenly” 그리고 “illicitly” 접근해 역량을 복제하려는 조직적 모델 추출/증류 시도를 했다고 비난한 것으로 전해졌다. 기술적 쟁점은 frontier model을 대규모로 질의해 경쟁 모델을 훈련하거나 튜닝하는 것이 일반 API 사용이 아니라 무단 역량 이전에 해당하는지다. 상위 댓글은 IP/법적 비대칭성에 초점을 맞췄다. 사용자들은 LLM 출력은 일반적으로 저작권 보호 대상이 아니라고 주장했고, Anthropic이 자체 훈련 데이터 관행을 둘러싼 소송과 합의 이력이 있는 상황에서 이런 불만을 제기하는 것은 위선적이라고 조롱했다. 여기에는 Authors Guild summary와 Inside Tech Law의 Bartz v. Anthropic settlement 맥락 보도가 포함됐다.
- 여러 댓글 작성자는 이 분쟁을 단순 저작권 문제가 아니라 model-distillation / capability-extraction 문제로 봤다. Anthropic은 EULA/API 남용을 주장할 수 있지만, LLM 출력 자체는 저작권 보호 대상이 아니라고 여겨지므로 생성 텍스트가 proprietary training data라는 주장은 약해진다는 것이다.
- 기술적으로 관련 있는 비판은 ~25,000개 bot account와 residential proxy를 통한 대규모 추출을 정책만으로 막기 어렵다는 점이었다. 댓글 작성자들은 사설 anti-abuse control, rate limit, account verification, traffic analysis 외에 입법자가 어떤 실질적 집행 메커니즘을 부과할 수 있을지 의문을 제기했다.
- 한 댓글 작성자는 이 비난이 얇은 경쟁 moat를 공개적으로 드러낸다고 주장했다. 경쟁자가 API 접근을 이용해 Claude 유사 시스템의 행동을 증류할 수 있다면, Anthropic의 방어력은 모델 비밀성보다 monitoring, access control, inference economics, continual model improvement에 더 의존한다는 것이다.
Seems this community might have missed it: Bill that would mandate AI chip location tracking gains industry support | Half a dozen companies have come out in support of the Chip Security Act, which would require location-tracking mechanisms for America’s most advanced computing chips. (Activity: 465): 제안된 Chip Security Act는 가장 고급 미국 AI/compute chip에 location-tracking mechanism을 요구할 예정이며, 게시물은 *“half a dozen companies”*의 지지가 보도됐다고 언급한다. 관련 논의는 r/politics와 r/LocalLLM에서도 있었다. 기술적 함의는 export-control compliance를 위한 잠재적 하드웨어/펌웨어 또는 공급망 집행 layer이며, tamper resistance, remote attestation, geofencing reliability, high-end accelerator의 새로운 attack surface를 둘러싼 명백한 우려가 있다. 상위 댓글은 전반적으로 부정적이었다. 이 명령이 미국 경쟁력을 약화시키고 중국 대안을 가속하며, 취약한 추적 인프라를 도입할 수 있다고 주장했다. 한 냉소적 우려는 *“we will build the best most secure location tracking mechanism!”*으로 요약됐다.

Less Technical Subreddits - 프런티어 모델 출시와 유출

대상: /r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo

GPT-5.5 Instant now rolling out (Activity: 803): 이미지는 “GPT-5.5 Instant” rollout을 발표하는 것으로 보이는 ChatGPT (@ChatGPTapp) X 게시물 스크린샷이다. Pro부터 시작해 Plus, 그리고 “내일까지” free users로 진행된다고 되어 있다(image). 스레드의 기술적 모호성은 이것이 진짜 새로운 ChatGPT 모델 variant인지, UI/marketing rename인지, 아니면 thinking: none 같은 기존 API 구성과 동등한지다. 댓글 작성자들은 회의적이고 혼란스러워했다. 이것이 오래된 뉴스인지, 자신이 새 5.5 Instant와 이전 Instant 중 어느 쪽에 있는지 어떻게 확인하는지, reasoning/thinking disabled로 이미 사용 가능한 API 동작과 다른지 질문했다.
- 댓글 작성자들은 model/version identification을 둘러싼 기술적 모호성을 제기했다. 여러 사용자는 새로 rollout된 GPT-5.5 Instant와 이전 Instant variant를 구분하는 방법을 물었고, 이는 rollout에 UI/API에서 보이는 version metadata나 changelog 수준 식별자가 없음을 시사한다.
- 한 사용자는 rollout이 기존 API 구성인 **thinking: none**과 기능적으로 다른지 물었다. 이는 “GPT-5.5 Instant”가 별도 model snapshot인지, routing change인지, 단순히 reasoning disabled preset인지에 대한 불확실성을 보여준다.
the EU is funding its own open-source 400B+ frontier model, built on European supercomputers (Activity: 898): European Commission은 Frontier AI Grand Challenge에서 Domyn-led EUROPA consortium을 선정해 European public EuroHPC AI-optimized supercomputers에서 open-source 400B+ parameter model을 훈련하도록 했다. 목표는 EU 24개 공식 언어 전체다(source). 상은 현금이 아니라 compute allocation이며, 최대 **1년간 전체 EuroHPC capacity의 2.5%**다. 하지만 댓글 작성자들은 공개된 delivery timeline, training budget, architecture, benchmark target, “frontier-level”의 operational definition이 없다고 지적했다. 댓글은 엇갈렸다. 한 사용자는 likely architecture가 400B+ MoE with ~40B+ active parameters일 것이며, EU가 public sector와 startup을 위해 cheap/free inference를 제공한다면 유용하지만 top proprietary/frontier system과 경쟁하기는 어렵다고 주장했다. 다른 이들은 EU가 여러 경쟁 모델 노력을 지원하는 대신 “승자 하나를 고르는” 방식을 비판했고, 현대 LLM은 language transfer를 효율적으로 습득하므로 multilingual framing은 대부분 마케팅이라고 봤다.
- 한 댓글 작성자는 EU 모델이 대략 400B+ parameter MoE와 약 40B+ active parameters가 될 것이라고 추측했다. 그러나 현재 강력한 frontier/open model인 GLM-5.2 수준에는 도달하지 못할 수 있다고 주장했다. 그는 주요 기술/실무적 가치가 raw benchmark leadership보다는 공공부문 사용자와 startup을 위한 EU-hosted inference access, 잠재적으로 보조금이 붙거나 무료인 접근에 있다고 봤다.
- 한 기술적 비판은 EU의 24 official languages를 중심으로 훈련하는 것이 필요성보다 마케팅에 가까울 수 있다는 점이다. 현대 LLM은 공유 표현과 broad web-scale corpora를 통해 다국어 역량을 효율적으로 얻는 경우가 많기 때문이다. 우려는 언어 coverage 강조가 data quality, scaling efficiency, post-training, evaluation 같은 더 중요한 frontier-model work와 trade off될 수 있다는 것이다.
- 또 다른 댓글 작성자는 단일 선정 모델에 자금을 지원하는 것보다 여러 독립적인 frontier-model attempt를 지원해 서로 다른 architecture, dataset, training stack, alignment/post-training recipe가 경쟁하도록 하는 편이 낫다고 주장했다. 암시된 기술적 요점은 frontier progress가 매우 empirical하므로 중앙집중식 “pick a winner” 접근보다 실험 생태계가 더 나을 수 있다는 것이다.
3.5 pro Coming this week (Activity: 1695): 이미지는 공식 발표가 아니라 소문/유출 트윗이다. Gemini 3.5 Pro가 “이번 주” 출시되며 더 강한 vision, multimodal reasoning, 향상된 memory/context retention, agent workflow, SVG/frontend generation, native image model, 2.5M token context window 같은 기능을 갖춘다고 주장한다(image). Reddit 제목은 “3.5 pro Coming this week”이고 selftext는 “The end of Fable”이라고 하지만, 이미지는 benchmark data, model card, API details, verifiable source를 제공하지 않는다. 댓글은 회의적이었다. 사용자는 우선 출시부터 돼야 하고 “어떻게든 regression이 아니길 기도”해야 한다고 했으며, leading coding benchmarks가 언급되지 않았기 때문에 “the end of Fable”일 가능성은 낮다고 주장했다. 또 포스터가 모순된 유출을 공유한다고 비판했다.
- 댓글 작성자들은 **Gemini/Google “3.5 Pro”**가 기존 3.1 Pro Preview를 능가할지 회의적이었다. 한 명은 “어떻게든 regression이 아니길 기도하라”고 명시적으로 경고했다. 또 다른 사용자는 유출에 leading coding benchmarks 관련 주장이 없다는 점을 부정적 신호로 봤다. 모델이 그 영역에서 경쟁력 있다면 Google이 benchmark win을 광고했을 가능성이 높다는 것이다.
- 주장된 2.5M context window는 믿기 어렵다는 반응을 받았다. 한 댓글 작성자는 모델이 같은 1M context 한도로 출시될 가능성이 더 높다며, 더 큰 context 주장이 게시물이 가짜일 수 있다는 증거라고 봤다.
- 모델 routing under load에 관한 기술/제품 우려도 있었다. 한 댓글 작성자는 “intense usage” 중에는 Pro 3.5 요청이 다른 모델로 downgrade될 수 있는 paid-tier 동작을 언급했다. 이는 premium model에 대한 결정적 접근을 기대하는 사용자의 벤치마킹과 신뢰성을 복잡하게 만든다.
Fable 5 return RUMORED with some hints in CC (Activity: 1007): Claude Code v2.1.190 string change에 근거한 소문은 Fable 5가 weekly usage quota를 가진 subscription-included model/feature로 돌아올 수 있다고 주장한다. 추가된 문자열은 *“You’ve used your Fable 5 usage for this week”*라고 하며, *“purchased separately from your plan”*이라는 문구는 제거된 것으로 전해졌다(source). 사실이라면 이는 별도 구매나 임시 접근에서 capped weekly usage를 가진 지속적 plan-bundled access로의 전환을 의미한다. 다만 게시물에는 공식 확인이 없다. 댓글 작성자들은 대체로 기대와 회의를 섞어 반응했고, 실질적 선호 하나가 있었다. 낮은 weekly cap이 짧은 subscription access보다 낫다는 것이다. 사용량이 제한되더라도 지속적 availability를 보존하기 때문이다.
- 실질적 논점 하나는 잠재적 Fable 복귀의 access-policy tradeoff였다. 한 댓글 작성자는 낮은 weekly usage cap이 two-week window 동안만 접근을 주는 subscription model보다 낫다고 주장했다. 반복 capped access는 지속적 availability를 보존하지만 time-boxed access는 이후 사용자를 사실상 잠글 수 있기 때문이다.

Less Technical Subreddits - AI 데이터센터 반발과 방어

Data center noise irks Virginia neighbors: ‘You just want to curse’, Neighbors have put mattresses and plexiglass up in their windows to block the noise from this data center in Virginia. It’s a high pitched whine from the natural gas turbines that power it. The noise never stops 24/7. - NewsNation (Activity: 3182): NewsNation 링크 Reddit 게시물은 Virginia 데이터센터 인근 주민들이 시설에 전력을 공급하는 on-site natural-gas turbines에서 나오는 고주파 소음으로 묘사되는 지속적 24/7 소음을 겪고 있다고 전한다. 이웃들은 소음 완화를 위해 창문에 매트리스와 plexiglass를 설치한 것으로 알려졌다. 연결된 Reddit 비디오(v.redd.it/akb9g6vkn69h1)는 403 Forbidden 때문에 접근할 수 없었으므로, 기술 세부사항은 게시물 텍스트와 댓글에 한정된다. 상위 댓글은 land-use와 infrastructure concern에 초점을 맞췄다. 사용자들은 주거지 근처에 데이터센터/터빈 시설이 어떻게 zoning 허가를 받았는지 의문을 제기했고, 이런 시설은 residential neighborhood에 위치해서는 안 된다고 주장했다. 또한 데이터센터는 주거지 근접성보다 network connectivity가 주로 필요하다고 언급했다.
- 댓글 작성자들은 이례적인 입지와 인프라 선택에 집중했다. 데이터센터는 전력망에 연결되지 않았고 대신 on-site natural gas turbines로 구동되며, 지속적인 고주파 소음을 낸다고 묘사됐다. 여러 사용자는 데이터센터가 주로 robust network connectivity와 power availability를 필요로 하지 residential neighborhood proximity가 필요한 것은 아니므로, 위치 선택이 기술적으로나 계획 측면에서 의문스럽다고 주장했다.
- 기술적으로 관련 있는 한 thread는 미국의 local zoning/planning 결과를 더 엄격한 EU/UK planning regime과 비교했다. 이런 유형의 24/7 industrial noise source가 주택 근처에 있으면 유럽에서는 더 강한 허가 장벽에 직면할 가능성이 높다는 주장이다. 우려는 데이터센터 자체보다 turbine-powered industrial infrastructure에 대한 land-use separation 부족이다.
- 한 댓글 작성자는 소음 문제가 기술적으로 새로운 것은 아니라고 지적했다. sound baffling, earth berms, fencing, vegetation/forestry buffers는 고속도로나 다른 noisy infrastructure 주변에서 이미 흔히 쓰이는 완화 기법이다. 비판은 운영자가 표준 acoustic mitigation measure를 구현하도록 요구받았다면 허용 가능한 감쇠가 가능해야 한다는 점이었다.
John Carmack weighs in on datacenters (Activity: 2203): The image는 John Carmack이 신규 AI/data-center infrastructure에 대한 반대가 미국의 anti-nuclear sentiment와 유사해져 주요 기술 전환을 늦출 수 있다고 주장하는 X/Twitter 대화 스크린샷이다. 게시물 제목 *“John Carmack weighs in on datacenters,”*의 맥락에서 기술적 의미는 특정 벤치마크나 모델보다 compute-capacity constraints에 있다. Carmack은 데이터센터 수요 증가를 가치의 증거로 보고 Texas가 AI workload buildout을 적극 지원해야 한다고 제안한다. 댓글은 절대적 framing에 반박하며, 데이터센터가 residential nuisance를 피하고 자체 power/water resources를 제공한다면 허용하는 중간 지대를 주장했다. 다른 이들은 fossil-fuel interests가 anti-nuclear politics 형성에 영향을 미쳤고 AI 데이터센터 에너지 수요에서도 이익을 볼 수 있다고 지적하며 Carmack의 nuclear analogy에 이의를 제기했다.
- 여러 댓글 작성자는 data-center siting constraints에 초점을 맞췄다. 시설은 noise, waste heat, water consumption, residential nuisance 같은 local externality를 부과하지 않는 곳에서만 허용돼야 하며, municipalities에 부담을 주지 않고 자체 power and water infrastructure를 제공하거나 확보해야 한다는 것이다.
- 반복된 기술-정책 주제는 대규모 AI 데이터센터 확장이 energy supply에 의해 제약된다는 점이었다. 댓글 작성자들은 추가 buildout의 전제 조건으로 safe nuclear power를 제안했고, AI compute demand를 충족하기 위해 coal/oil-backed generation에 의존하는 것을 비판했다.

Less Technical Subreddits - 대규모 에이전트 코딩 워크플로

After using my own Pro subscription for 18 months, my job finally got an enterprise license. I just had Opus spawn 451 Sonnet subagents which used 14M worth of tokens in a single 5 hour session — and it didn’t even hit the limit. This is amazing. (Activity: 1445): 한 사용자는 개인 Claude Pro 구독을 18개월 사용한 뒤 직장에서 enterprise license를 받았고, Claude Opus가 데이터 주석 workflow를 위해 451개의 Sonnet subagent를 생성하도록 orchestrate했다고 보고했다. 단일 5시간 세션에서 약 14M 토큰을 소비했지만 눈에 보이는 사용량 cap에는 걸리지 않았다고 한다. 핵심 기술적 함의는 enterprise plan 아래 대규모 agent fan-out이지만, 댓글은 이것이 unlimited quota라기보다 usage-metered billing일 가능성이 높다고 지적했다. 상위 댓글 작성자들은 “didn’t hit the limit” framing에 회의적이었고, 진짜 limit은 고용주의 월별 invoice라고 주장했다. 여러 사용자는 실제 청구서를 보고 싶다고 했다.
- 댓글 작성자들은 enterprise/API-style license가 Pro와 같은 visible usage cap을 갖지 않을 수 있다고 설명했다. 따라서 *“it didn’t hit the limit”*는 실행이 blocked되지 않고 invoice에 나타나는 metered usage라는 뜻일 가능성이 높다. 한 댓글 작성자는 14M token session이 input/output mix와 model pricing에 따라 대략 **$120–$200**일 수 있다고 추정했고, token-level billing detail을 확인하기 위해 ccusage 같은 도구를 쓰라고 권했다.
Software development has entered its “infinite monkeys” era (Activity: 818): 이 게시물은 Claude Code, Cursor, Codex 같은 에이전트 코딩 도구가 자연어로 codebase-scale change를 만드는 장벽을 낮춰 “infinite monkeys” 동역학을 만들었다고 주장한다. 훨씬 더 많은 생성 소프트웨어가 나오고 있으며, 품질은 유용한 것부터 간신히 coherent하지만 실행 가능한 것까지 다양하다는 것이다. 댓글에서 제기된 기술적 함의는 이것이 숙련된 엔지니어 수요를 줄이기보다 늘릴 수 있다는 점이다. 특히 AI 생성 코드의 security review, maintenance, governance가 필요하기 때문이다. 댓글 작성자들은 LLM 코딩 도구를 스마트폰 카메라에 비유했다. 전문가를 없앤 것이 아니라 amateur production을 확장하고 새 생태계를 만들었다는 것이다. 또 다른 견해는 AI 생성 및 AI 발견 취약점이 IT/security engineer를 더 필요하게 만들 수 있으며, 은행과 정부 같은 고위험 부문에서 특히 그렇다는 것이다.
- 한 기술적 우려는 LLM-assisted development가 IT/security engineer 수요를 제거하기보다 증가시킬 수 있다는 점이다. 자동 코드 생성과 분석이 더 많은 보안 문제를 발견하거나 도입할 수 있기 때문이다. 댓글 작성자는 이를 LLM이 발견한 security breach와 연결해 설명하며, government and banks 같은 critical sector가 systemic failure를 피하려면 더 강한 engineering oversight가 필요하다고 경고했다.
I built a status light for Claude Code. Do you think this is actually useful? (Activity: 3291): 이미지는 모니터에 클립으로 고정된 Claude Code용 DIY traffic-light-style hardware status indicator를 보여준다. 상태는 Claude Code hook을 통해 매핑된다. red = 확인 대기, yellow = 실행 중, green = 완료/idle. 기술적 의미는 주로 장기 실행 agentic coding session을 위한 ambient UI/physical notification layer라는 점이다. Claude Code가 입력을 필요로 하는지 반복적으로 확인하기 위한 context switching을 피하게 해준다. Image 댓글 작성자들은 대체로 재미있는 제작물이라고 봤지만 실용성에는 의문을 제기했다. 주요 기술적 우려는 여러 Claude Code session/worktree에서 어떻게 동작할지였고, 다른 이들은 status bar hook, Telegram notification, Claude Code /remote-control push notification 같은 software-based alternative를 제안했다.
- 핵심 기술 우려는 concurrency였다. 한 댓글 작성자는 status light가 multiple worktree 전반의 multiple Claude Code session을 어떻게 처리하는지 물었다. 이는 설계가 단일 global busy/attention indicator가 아니라 session/worktree-aware state tracking을 필요로 함을 시사한다.
- 여러 댓글 작성자는 software-only alternative를 언급했다. Claude Code hook을 연결해 status bar notification을 띄우거나 Telegram message를 보내거나, /remote-control을 사용해 attention이 필요할 때 push notification에 의존하는 방식이다.
- 한 사용자는 Stream Deck을 이용한 유사 구현을 설명했다. 새 Claude Code session마다 동적으로 버튼이 생성되고, 작업 중에는 green, 입력이 필요할 때는 red로 표시된다. red button을 누르면 해당 Claude Code instance에 focus가 이동한다.

AI Discord Recap

AINews 공지

Discord 접근 종료: 안타깝게도 Discord가 오늘 접근을 차단했다. 이 형식으로는 다시 가져오지 않을 예정이지만, 곧 새로운 AINews를 출시할 예정이다. 여기까지 읽어줘서 감사하며, 좋은 여정이었다.

오늘의 요약