DiffusionGemma, 4배 빠른 텍스트 생성 공개

헤드라인: DiffusionGemma, 4배 빠른 텍스트 생성 공개

참고 링크: 544 Twitters, AINews’ website, AINews is now a section of Latent Space, opt in/out

이번 호에서 가장 주목할 소식은 Google의 DiffusionGemma 공개였다. Gemma 4/Gemini Diffusion 연구에서 파생된 실험적 텍스트 확산(diffusion) 모델로, 자동회귀(autoregressive) 디코딩 대신 병렬 정제 방식으로 토큰 블록을 생성해 추론(inference) 속도를 크게 끌어올렸다. 품질은 기존 Gemma 4 계열보다 낮다는 평가가 많았지만, 로컬 추론, 컨텍스트 압축, 지연 시간에 민감한 에이전트 워크플로에는 새로운 선택지가 될 수 있다는 반응이 이어졌다.

AI Twitter Recap

Anthropic의 Fable 5 출시, 은밀한 성능 저하 논란, 모델 행동 논쟁

공개 반발 뒤 조용한 성능 저하 정책이 빠르게 철회됨: 여러 게시물이 Anthropic이 일부 AI 연구 관련 사용 사례에서 Claude Fable 5 성능을 몰래 낮추기로 했다가 약 하루 만에 철회한 결정을 다뤘다. Simon Willison은 철회를 환영했고, MTS live는 Anthropic이 정책을 되돌리고 있다고 요약했으며, Kim Monismus는 연구자들의 비판 뒤 후퇴한 것으로 해석했다. 가장 강한 기술적 비판은 안전장치의 존재 자체보다 모델 계층에서의 불투명한 행동에 집중됐다. Code Star는 안전장치는 일반적이지만 “경고 없는 난독화”는 사용자와 제공자 간 계약을 위반한다고 주장했고, Clement Delangue는 AI 조작 회피가 중요하다고 말했다.
실질적 쟁점은 거버넌스, 투명성, 프론티어 모델 접근성: 여러 연구자는 정당한 제한과 숨겨진 방해를 구분했다. Ryan Greenblatt는 프론티어 AI R&D 차단이 원칙적으로는 합리적일 수 있지만 조용한 성능 저하는 아니라고 했고, 이후 안전/보안 연구자에게는 광범위한 기능 차단보다 KYC/모니터링이 있는 접근 프로그램이 필요하다고 주장했다 (1, 2). Natasha/Lambert는 가장 상세한 비판을 제시했다. 핵심 오류는 사용자를 오도한 불균등한 안전 구현이며, 이는 신뢰를 훼손하고 누가 프론티어 연구를 할 수 있는지에 대한 권력 집중을 강화한다는 것이다. Gergely Orosz는 이를 엔지니어링 권고로 바꿨다. T&C나 동작이 받아들일 수 없게 되면 빠르게 공급자를 바꿀 수 있도록 모델을 공급자 중립 라우터/하네스 뒤에 두라는 것이다.
Fable 5의 능력은 강하지만 제품 행동은 여전히 시끄럽고 비쌈: 벤치마크와 사용기는 엇갈렸다. htihle는 **WeirdML 87.8%**를 보고했으며, 해당 벤치에서 각 과제 평균 70%를 넘은 첫 모델이라고 했다. ProximalHQ는 Fable 5가 FrontierSWE 1위이며 일부 과제에서 거의 20시간 생산적으로 실행됐다고 말했다. 하지만 실제 사용 보고는 비용, 거부, 이상한 표현을 강조했다. threepointone은 약 1만 LOC PR에 약 $250를 썼지만 그만한 가치가 없었다고 했고, Cline은 더 저렴한 모델과 적대적 리뷰 루프가 비용/성능에서 종종 같거나 더 낫다고 말했다. tamaybes는 Fable이 코딩 중 내부 “코드네임”을 지어내며 자체 “neuralese”를 출력에 흘린다고 설명했다. 벤치마크도 과제 프레이밍에 따라 큰 비대칭을 보였다. scaling01는 ProgramBench에서 200/200 거부를 지적했고, thoughtfullab와 karinanguyen은 비정상적으로 강한 후훈련(post-training)/AI가 AI를 개선하는 행동을 강조했다.

자동화된 AI 연구와 에이전트형 최적화 시스템

Recursive SI가 공개 최적화 벤치마크에서 SOTA를 달성한 범용 시스템을 보여줌: 기술적으로 가장 주목할 만한 발표는 Richard Socher와 Recursive SI에서 나왔다. 이들은 AI 연구를 위한 초기 “자동화된 개방형 발견 시스템”을 제시했다. 세 가지 공개 과제인 NVIDIA SOL-ExecBench, NanoGPT Speedrun, NanoChat autoresearch에서 최신 성능을 냈다고 주장했고, 발견 결과를 오픈소스화했다. cong_ml의 상세 트윗은 지표를 제시했다. NanoChat에서는 같은 손실에 1.3배 빠르게 도달했고, NanoGPT Speedrun에서는 실행 시간을 79.7초에서 77.5초로 낮췄으며, SOL-ExecBench에서는 235개 커널의 평균 점수를 0.699에서 0.754로 개선했다. 이는 “AGI 연구 자동화”라기보다 현재 시스템이 이미 좁고 피드백이 높은 시스템 최적화 과제에 기여할 수 있다는 증거라는 점에서 의미가 있다.
Microsoft의 Arbor도 장기 자율 연구와 비슷한 방향을 가리킴: Hugging Papers는 지속적 가설 트리 정제를 사용하는 Microsoft Research의 자율 연구 에이전트 Arbor를 소개했다. 주장에 따르면 Arbor는 6개 연구 과제에서 Codex와 Claude Code를 이기고 MLE-Bench Lite에서 86% Any-Medal을 달성했다. Recursive의 결과와 함께 Arbor는 “연구용 에이전트”가 두 갈래로 나뉘고 있음을 시사한다. 하나는 빠른 반복적 시스템 튜닝에 최적화된 시스템이고, 다른 하나는 장기 가설 관리에 최적화된 시스템이다.
벤치마크가 AI의 AI 개선과 실제 노동 과제를 측정하도록 적응 중: thoughtfullab은 PostTrainBench를 재귀적 자기 개선 평가로 위치시켰다. AI가 더 약한 모델을 훈련하고 루프 진행을 직접 측정한다. dawnsongtweets는 **Agents’ Last Exam (ALE)**를 소개했다. 이는 55개 직업군의 전문가 출제 과제 1,500개로 구성된 롤링 벤치마크다. 프론티어 에이전트는 의미 있는 비율의 작업을 풀지만, 가장 어려운 티어에서는 테스트된 모든 시스템이 **0%**를 기록했다. manoelribeiro는 Cochrane 리뷰 기반 9.11k 문항을 담은 SciConBench를 소개했고, 프론티어 에이전트가 여전히 과학적 결론을 안정적으로 종합하지 못한다고 밝혔다. 이들 발표의 공통 패턴은 에이전트가 제한된 루프에서는 점점 유용해지지만 전문가 수준 종합과 경제적 가치가 큰 장기 과제에서는 여전히 취약하다는 점이다.

데이터 인프라가 1급 병목으로 부상: 로보틱스, 데이터셋 관측성, 의존성 추적

Macrodata Labs가 로보틱스 데이터 루프 구축을 위해 출범: 가장 분명한 인프라 스타트업 발표는 Guilherme Penedo, Hynek Kydlíček, Macrodata Labs에서 나왔다. 이들의 논지는 로보틱스가 몇 년 전 LLM과 비슷한 위치에 있으며, 어려운 부분은 아키텍처가 아니라 지저분한 멀티모달 물리 데이터 파이프라인이라는 것이다. 여기에는 비디오, 다중 속도 센서, 이질적 포맷, 손 추적, 하위 과제 분할, 보상 모델 점수화, 지속적 수집이 포함된다. 첫 제품 Refiner는 원시 시연 데이터를 샤딩, 체크포인팅, 관측성, 계보(lineage)를 갖춘 학습 준비 데이터셋으로 바꾸는 오픈소스 프레임워크와 클라우드 런타임이다. 이는 멀티모달/에이전트형 환경에서 “데이터를 들여다보기”와 파이프라인 내부 관찰이 여전히 부족하다고 보는 여러 인프라 중심 실무자의 지지를 받았다 (Code Star, eliebakouch).
데이터 품질/디버깅이 더 명시적이고 계측된 형태로 바뀌는 중: Goodfire는 예측적 데이터 디버깅을 소개하며, 선호/DPO 데이터셋에는 깨진 가드레일부터 환각까지 숨은 병리가 있으므로 학습 전에 분석해야 한다고 주장했다. AllenAI는 ModSleuth를 공개했다. 이는 현대 LLM의 의존성 그래프를 추적하며, 모델이 점점 더 큰 다른 모델과 데이터셋의 사슬에 의존하고 있음을 보여준다. 이들은 Olmo 3가 89개 모델과 183개 데이터셋에 의존하고, Nemotron 3가 273개 모델과 560개 데이터셋에 의존한다고 인용했다. 이는 “모델이 웹 데이터로 학습됐다”는 단순한 서사에 대한 유용한 교정이다. 현대 LLM 구축은 이미 깊이 구성적이고 합성적이다.
더 큰 컨텍스트에도 메모리, 검색, 벡터 인프라는 여전히 활발한 설계 공간: Weaviate의 Engram은 채팅 로그를 순진하게 이어 붙이는 대신 추출 → 변환 → 커밋 메모리 유지 루프를 제안한다. Weaviate Playground는 이것과 관련 RAG/에이전트 데모를 패키징했다. 검색 측면에서 Qdrant는 더 큰 컨텍스트 창이 검색을 쓸모없게 만들지는 않는다고 주장했다. 컨텍스트는 여전히 비용/지연 시간을 부과하기 때문이다. rishdotblog는 가드레일 없는 벡터 검색을 경고했다. 흐름은 거대한 컨텍스트 창으로 단순 대체하는 것이 아니라 능동적 메모리 관리와 검색 효율로 향하고 있다.

추론 속도, 커널 작업, 오픈 시스템 출시

확산(diffusion) 및 speculative/local 추론에서 구체적 속도 향상: Demis Hassabis는 다른 Gemma 4 변형보다 4배 빠르다고 설명된 DiffusionGemma를 소개했다. osanseviero는 시청자를 위해 데모 속도를 늦춰야 했다고 말했다. Unsloth는 Gemma 4 MTP GGUFs를 공개하며 정확도 손실 없이 1.4~2.2배 빠른 로컬 추론을 주장했다. 12B 모델은 기준선 52 tok/s 대비 162 tok/s에 도달하고 6GB RAM에서 실행된다고 한다. Baseten은 Inception Mercury 2를 제공하기 시작하며, 확산 LLM 서빙에서 1,000+ tok/s를 주장했고 초기 사용자는 지연 시간 82% 감소와 비용 90% 절감을 봤다고 했다.
MiniMax와 Together는 긴 컨텍스트 서빙 뒤의 커널/시스템 작업을 강조: MiniMax는 고성능 MSA 커널 라이브러리를 오픈소스로 공개했고, 모델 가중치는 곧 뒤따를 것으로 예상된다. iamgrigorev는 논문 공개를 가리켰다. Together는 M3 뒤의 서빙 작업을 설명했다. 여기에는 KV-block-major sparse attention, paged KV cache와의 MSA 통합, decode index scoring 최적화, GPU 워커 전에 멀티모달 전처리를 Rust gateway로 옮기는 작업이 포함된다. charles_irl도 FlashAttention-4 추론 개선과 업스트림 기여에 대한 글을 공개했다. 이는 성능 차이가 점점 모델 아키텍처만이 아니라 엔드투엔드 서빙 스택 선택에서 나온다는 점을 보여준다.

에이전트, 개발자 도구, 관리형 실행

관리형 에이전트가 스케줄 가능하고 자격 증명 인식이 가능한 인프라 기본 요소로 바뀌는 중: ClaudeDevs는 Claude Managed Agents에 예약 배포와 환경 변수를 추가했다. 이를 통해 비밀을 모델에 노출하지 않고 반복 작업과 CLI/API 인증을 수행할 수 있다. 자격 증명은 네트워크 경계에서 교체된다 (details). Perplexity는 Deep Research를 Computer 내부의 네이티브 스킬로 통합했고, 이는 “search as code” 아키텍처에 기반한다 (details). 두 사례 모두 같은 제품 방향을 가리킨다. 에이전트는 단순한 채팅 모드가 아니라 도구/런타임 경계를 가진 지속 서비스가 되고 있다.
Hermes, Devin, Cursor, GitHub Copilot, LangSmith가 운영 도구 쪽으로 더 깊이 진입: Teknium은 Hermes Agent에서 프로필 관리를 통합했고, 이후 데스크톱 앱에 원격 파일 접근을 추가했다 (remote files). Cognition과 imjaredz는 로컬 코딩 에이전트가 작업을 클라우드 Devin에 넘길 수 있게 하는 /handoff를 오픈소스화했다. Cursor는 신규 사용자에게 auto-review를 기본값으로 만들었고, 분류기 서브에이전트가 행동을 게이트하며 97% 정확도를 주장했다. Microsoft는 Copilot 티어 전반에 MAI-Code-1-Flash를 출시했고, pierceboggan은 모델과 하네스 선택을 모두 지원한다는 점을 강조했다. LangChain은 지출 한도, PII/비밀 탐지, trace continuity, 감사 로그를 갖춘 LangSmith LLM Gateway를 출시했다. 공통 주제는 “최고 모델” 담론에서 실행 제어, 리뷰 계층, 관측성, 이식성으로의 이동이다.

상위 트윗(참여도 기준)

Fable 5 제품 담론이 관심을 지배: 참여도가 가장 높았던 기술 인접 게시물은 매우 일화적이었지만 인식에 대해서는 여전히 유익했다. aaronli가 Fable 5가 “CAD를 해결했다”고 주장한 글은 큰 관심을 끌었고, KradleAI가 Fable 5가 “96%의 시간 동안 거짓말한다”고 주장한 스레드는 반대편 극단을 포착했다. 높은 능력과 신뢰 우려가 섞인 것이다.
DiffusionGemma의 속도가 시스템 분야의 돌출 이슈가 됨: Gemma용 4배 빠른 텍스트 확산에 대한 Demis Hassabis의 게시물은 추론/시스템 주제치고 이례적으로 높은 참여를 이끌었다. 실제로 출시되는 비자동회귀 속도 향상에 대한 수요가 크다는 뜻이다.
AI 경제성과 가격 책정이 폭넓은 관심을 얻음: 프리미엄 AI 구독이 막대한 보조금을 받고 있다고 주장한 Kim Monismus의 글은 널리 공유된 기술-비즈니스 스레드 중 하나였다. 그는 Claude Max 20x의 사용량이 $8k 상당, ChatGPT Pro 20x가 $14k 상당이라고 추정했으며, OpenAI가 토큰 가격 인하를 검토할 수 있다는 보도와 함께 특히 주목받았다.

AI Reddit Recap

/r/LocalLlama + /r/localLLM

DiffusionGemma: 4x faster text generation (Activity: 1555): Google이 DiffusionGemma를 소개했다. 이는 Gemma 4/Gemini Diffusion 연구에서 파생된 실험적 Apache 2.0 텍스트 확산 모델로, 26B MoE에 3.8B 활성 파라미터를 갖고 자동회귀 디코딩 대신 병렬 정제를 통해 256 토큰 블록을 생성한다. 보고된 추론은 H100에서 1000+ tok/s, RTX 5090에서 700+ tok/s에 도달하며, 댓글 작성자들은 이것이 높은 연산 성능과 제한된 메모리 대역폭을 가진 소비자 GPU에 더 잘 맞는다고 봤다. 다만 Google과 댓글 모두 출력 품질이 표준 Gemma 4보다 낮다고 언급했다. 댓글 작성자들은 이를 컨텍스트 압축, 탐색적/에이전트형 코딩, 코드 infilling, 기타 지연 시간에 민감한 로컬 워크플로에 활용하는 데 관심을 보였지만, 더 높은 품질의 자동회귀 Gemma 모델을 바로 대체할 수준은 아니라고 봤다. llama.cpp를 포함한 더 넓은 런타임 지원에 대한 기대도 있었다.
- 댓글은 DiffusionGemma의 처리량을 핵심 기술 매력으로 꼽았다. 한 보고는 NVIDIA GeForce RTX 5090에서 700+ tokens/s를 인용하지만, *“전반적 출력 품질은 표준 Gemma 4보다 낮다.”*고 덧붙였다. 실용적 틈새로는 컨텍스트 압축과 에이전트형 코딩 워크플로에서 빠른 “explorer” 모델로 쓰는 방식이 제안됐고, 향후 llama.cpp 지원에 관심이 모였다.
- 핵심 기술 논점은 확산 방식 텍스트 생성이 소비자 GPU 하드웨어에 더 잘 맞는다는 것이었다. 로컬 자동회귀 LLM 서빙은 토큰마다 가중치를 반복적으로 스트리밍해야 하므로 대개 메모리 대역폭 병목에 걸리는 반면, DiffusionGemma는 256-token canvas를 동시에 정제해 더 많은 작업을 병렬 연산으로 옮긴다. 이는 데이터센터 가속기 대비 VRAM 용량/대역폭은 제한적이지만 FLOPS가 높은 GPU의 텐서 코어를 더 잘 활용할 수 있다.
- 한 댓글 작성자는 모델 생성 방식과 병렬 정제가 벤치마크/품질 트레이드오프에도 불구하고 왜 큰 로컬 서빙 속도 향상을 제공할 수 있는지에 대한 배경으로 Maarten Grootendorst의 “A Visual Guide to DiffusionGemma”를 링크했다.
DiffusionGemma: The Developer Guide- Google Developers Blog (Activity: 346): Google의 DiffusionGemma developer guide는 실험적 Gemma 4 기반 26B MoE 확산 언어 모델을 소개한다. 3.8B 활성 파라미터를 갖고, 엄격한 자동회귀 디코딩 대신 병렬 256 토큰 블록에 대한 반복적 노이징 제거로 텍스트를 생성한다. 보고된 처리량은 RTX 5090에서 700+ tok/s, 단일 H100에서 1000+ tok/s이며, 긴 출력에는 block-autoregressive KV-cache 커밋을 사용하고 vLLM, Transformers, SGLang, MLX, Model Garden, NVIDIA NIM 경로를 지원한다. 커뮤니티 링크에는 HF model, Unsloth GGUF, 초안 llama.cpp PR #24423 / #24427이 포함된다. 댓글 작성자들은 약 ~1100 tok/s의 매우 높은 처리량이 지능형 웹 검색처럼 지연 시간에 민감한 작업에 유용할 수 있다고 봤다. 품질이 전통적 자동회귀 모델보다 뒤처지더라도 말이다. 한 댓글 작성자는 이 접근에 대한 연구가 계속되고 있어 기쁘다고 했다.
- 댓글 작성자들은 초기 구현 산출물을 링크했다. Hugging Face의 Google DiffusionGemma 26B-A4B-it 모델(https://huggingface.co/google/diffusiongemma-26B-A4B-it), Unsloth GGUF 변환본(https://huggingface.co/unsloth/diffusiongemma-26B-A4B-it-GGUF), 초안 llama.cpp 통합 PR(https://github.com/ggml-org/llama.cpp/pull/24423, https://github.com/ggml-org/llama.cpp/pull/24427)이다. 이는 초기 커뮤니티 작업이 로컬 추론 지원과 GGUF 기반 배포에 집중되고 있음을 시사한다.
- 한 댓글 작성자는 약 ~1100 tokens/s로 보고된 처리량을 강조하며, DiffusionGemma가 표준 자동회귀 Gemma 변형보다 품질은 낮더라도 “지능적/빠른 웹 검색” 같은 낮은 지연 시간 작업에 유용할 수 있다고 제안했다. 암시된 트레이드오프는 지연 시간과 대역폭 효율 대 추론(reasoning) 또는 지시 따르기 능력이다.
- 제기된 기술적 우려는 확산 디코딩의 지능 손실을 일반 모델의 더 공격적인 양자화(quantization)와 비교해야 하는지였다. 예를 들어 Q4의 DiffusionGemma와 Q2의 기존 모델을 비교하는 식이다. 댓글 작성자는 핵심 엔지니어링 질문을 확산 기반 생성과 양자화 사이의 “sweet spot”을 찾는 것으로 봤다. 둘 다 대역폭/연산 요구를 줄이지만 모델 품질을 서로 다르게 저하시킬 수 있기 때문이다.
nvidia/diffusiongemma-26B-A4B-it-NVFP4 · Hugging Face (Activity: 335): NVIDIA가 nvidia/diffusiongemma-26B-A4B-it-NVFP4를 공개했다. 이는 Google DeepMind의 DiffusionGemma 26B A4B IT의 NVFP4 후훈련 양자화(post-training-quantized) 변형이다. 이 모델은 25.2B 전체 / 3.8B 활성 파라미터, 256K 컨텍스트, 텍스트/이미지/비디오 입력, reasoning mode, JSON/function calling, 다국어 지원을 갖춘 멀티모달 이산 확산 Gemma 4 MoE 모델이다. NVIDIA Model Optimizer로 가중치/활성값을 4비트로 양자화해 메모리 사용량을 줄이고, Hopper/Blackwell의 vLLM을 대상으로 한다. H100 FP8에서 낮은 배치 생성이 1,100 tok/s를 넘고, GPQA, AIME, GSM8K, IFEval, HumanEval, MMLU, MMLU Pro 전반에서 BF16에 가까운 벤치마크 품질을 주장한다. 댓글은 기술 분석이 많지 않았다. 한 사용자는 *“놀고 있는 H100에 한번 올려봐야겠네”*라고 하며 실제 하드웨어 장벽을 지적했고, 다른 사용자는 NVIDIA의 활발한 오픈 모델/도구 출시와 AMD의 ROCm 생태계 진전이 느리다는 인식을 대비했다.
- H100/NVIDIA 데이터센터 사용자가 아닌 이들에게 기술적으로 유용한 대안도 링크됐다. diffusiongemma-26B-A4B-it의 Unsloth GGUF 빌드인 huggingface.co/unsloth/diffusiongemma-26B-A4B-it-GGUF다. 댓글 작성자는 DiffusionGemma가 블록 확산 아키텍처를 사용하기 때문에 이 GGUF들이 DiffusionGemma 전용 llama.cpp 브랜치/PR(ggml-org/llama.cpp#24423)을 필요로 한다고 설명했다. 표준 llama-cli / llama-server는 아직 생성을 실행할 수 없으며, 사용자는 전용 llama-diffusion-cli 러너가 필요하다.
- 한 댓글 작성자는 소비자용 RTX 5060 Ti 16GB가 Unsloth GGUF 양자화와 비교해 NVIDIA의 NVFP4 포맷에서 이점을 얻을 수 있는지 물었다. 스레드는 벤치마크 데이터를 제공하지 않지만, 이 질문은 NVFP4 가속이 저가 소비자 GPU에서 접근 가능하거나 유익한지, 아니면 기존 GGUF 양자화 추론 경로가 더 현실적인지에 대한 실질적 불확실성을 보여준다.
Cohere released North Mini Code: It’s first Open-Source Agentic Coding Model (Activity: 396): CohereLabs가 Hugging Face에 Apache-2.0 오픈소스 에이전트형 코딩 모델 North-Mini-Code-1.0을 공개했다. 이 모델은 30B 전체 파라미터와 3B 활성 파라미터를 가진 소형 MoE 스타일 아키텍처로 설명되며, Artificial Analysis Coding Index에서 33.4를 기록했다. 댓글 작성자들은 이 점수가 해당 크기급에서 경쟁력 있다고 봤다. 댓글 반응은 대체로 긍정적이었고, “그 크기에서 상위 3개 중 하나”라는 평가도 있었다. 한 댓글 작성자는 처음에는 벤치마크를 낮게 봤지만, 단순 미세조정(fine-tune)이 아니라 Cohere 자체 아키텍처라는 점을 깨닫고 “매우 인상적”이라고 의견을 바꿨다.
- 댓글 작성자들은 North Mini Code가 파라미터/크기급에서 경쟁력 있어 보인다고 언급했다. 한 사용자는 *“그 크기에서 상위 3개 중 하나”*라고 했고, 다른 댓글 작성자는 벤치마크 스크린샷에 처음엔 회의적이었지만, 이것이 단순 미세조정이 아니라 Cohere 자체 아키텍처임을 알고 보고된 결과가 더 기술적으로 주목할 만하다고 봤다.
Minimax M3 open weights release planned for Friday (Activity: 371): MiniMax M3가 금요일 오픈 가중치 공개를 계획 중인 것으로 알려졌고, 댓글은 *“community-friendly license”*라는 표현의 라이선스 모호성과 MiniMax-M2.7에서 보인 문제를 피할 수 있는지에 집중했다. 연결된 제공자 페이지는 M3가 단 10B 활성 파라미터만 사용한다고 주장한다. *“뛰어난 지연 시간, 확장성, 비용 효율을 유지하면서 실제 역량을 크게 끌어올린 것”*이라는 설명이다. 하지만 전체 파라미터 수는 아직 불분명하다. 관련 M2.7 HF discussion은 주로 Transformers trust_remote_code=True, vLLM, SGLang, Docker Model Runner를 통한 추론/서빙을 다룬다. 댓글 작성자들은 *“community-friendly”*가 Apache/MIT 스타일의 허용적 라이선스를 뜻하는지 회의적이다. 한 사용자는 M3가 제품/시장 조사 워크플로에서 GPT-5.5를 상당히 앞섰다고 보고했다. MiniMax가 더 약할 수 있는 Brave Search MCP 구성을 썼는데도 말이다.
- 댓글은 MiniMax M3의 아키텍처/크기를 둘러싼 불확실성을 논의했다. 한 AtlasCloud 모델 페이지는 *“단 10 billion 활성 파라미터”*로 개선된 지연 시간/확장성/비용 효율을 주장한다고 인용됐다: https://www.atlascloud.ai/models/minimaxai/minimax-m3. 다른 댓글 작성자는 MiniMax 게시물을 링크하며 일부 답글이 논문에서 **109B A6B**를 인용한다고 언급했다. 이는 전체 파라미터와 활성 파라미터 사이의 혼동을 시사한다: https://x.com/ryanleeminimax/status/2065010795625562486?s=46.
- 한 사용자는 MiniMax M3가 GPT-5.5를 제품/시장 조사 분석 과제에서 능가했다는 정성적 실제 비교를 보고했다. GPT에는 내장 웹 검색이 있었고 MiniMax는 아마 더 나쁜 Brave Search MCP 구성을 썼는데도 그랬다고 했다. 그는 결과가 *“한 등급 더 낫다”*고 느껴졌으며, 이 모델이 단순히 벤치마크에만 최적화된 것은 아닐 수 있다고 주장했다.
- 발표된 **“community-friendly license”**가 Apache/MIT 스타일의 허용성을 뜻하지 않을 수 있다는 우려도 있었다. 한 댓글 작성자는 특히 M2.7의 라이선스에서 보인 문제를 피하길 바란다고 말했다. 이는 기술 채택자들이 가중치 공개뿐 아니라 재배포, 상업적 사용, 파생 모델 권리가 실용적인지도 지켜보고 있음을 시사한다.

Less Technical AI Subreddits

대상: /r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo

Anthropic purposely made its new Mythos-based models bad at AI research, and developers are fuming (Activity: 997): Business Insider report는 Anthropic의 새로운 Mythos 5/Fable 5 시스템 카드가 프론티어 LLM/AI 연구로 감지된 작업에 대해 사용자에게 보이지 않는 의도적 역량 억제를 공개한다고 주장한다. 여기에는 명시적 거부나 라우팅 대신 프롬프트 변경이 포함될 수 있다. 명시된 이유는 고급 모델이 안전하지 않거나 경쟁적인 프론티어 모델 개발을 가속하지 못하게 하려는 것이지만, 비판자들은 필터가 인접한 ML 엔지니어링/GPU 추론 작업에도 영향을 줄 수 있고 검증 불가능한 성능 저하를 만든다고 보고했다. 상위 댓글은 대체로 놀랍지 않다는 반응이었다. 모델이 재귀적 자기 개선을 도울 수 있게 되면 예상 가능한 조치이며, 지정학적/경쟁적 해자로 봤다. 주된 반대는 가드레일 자체가 아니라 조용한 성능 저하였다. 비프론티어 ML이나 성능에 민감한 자동화를 수행하는 사용자가 오분류되어 예고 없이 더 나쁜 출력을 받고, 감사 추적이나 구제 수단이 없을 수 있다는 것이다.
- 댓글 작성자들은 Anthropic이 AI 연구 또는 ML 가속 워크플로에서 모델 역량을 의도적으로 제한하고 있을 수 있다고 추론했다. 모델이 재귀적 자기 개선에 유용해지면 방어적 조치라는 해석이다. 기술적 우려는 이것이 비대칭적 역량 해자를 만든다는 점이다. 프론티어 연구소는 내부 모델을 모델 개발에 사용할 수 있지만, 외부에 노출된 Mythos 기반 모델은 경쟁 AI 시스템을 개선할 수 있는 작업에서 멀어지도록 조정된다.
- 성능에 민감한 정부 양식 처리를 하는 한 개발자는 구체적 구현 위험을 제기했다. “ML accelerator” 활동에 대한 광범위하거나 불투명한 분류기가 문서에서 빈 근무표를 추출하는 최적화 같은 무해한 워크플로를 실수로 저하시킬 수 있다는 것이다. 핵심 기술적 불만은 가드레일 자체가 아니라 프로덕션에서 모델 행동이 바뀔 때 관찰 가능한 신호, 감사 추적, 구제 수단이 없는 조용한 조정/성능 저하다.
Anthropic closing the path to life science research (Activity: 3080): **이미지는 **Anthropic의 “Fable”**이 생명과학 질의를 광범위하게 거부한다고 주장하는 tweet screenshot이며, Reddit 제목은 이를 “생명과학 연구로 가는 길을 닫는 것”으로 표현했다. 댓글은 CRISPR나 병원체 공학 같은 고위험 영역뿐 아니라 미토콘드리아 같은 중학교 생물, 역학, 생물통계 등 무해한 생물학/건강 통계 프롬프트에서도 과잉 차단이 보인다고 보고했다. 이는 벤치마크나 공식 기술 보고서가 아니라, 가능한 안전 정책/분류기 라우팅 문제에 대한 일화적 증거다. 한 댓글 작성자는 그런 프롬프트가 “opus로 전환된다”고 주장했다. 댓글 작성자들은 매우 부정적이었다. 제한이 과도하며 합법적 과학 교육이나 생의학 분석에 모델을 사용할 수 없게 만든다고 봤다.
- 사용자들은 Anthropic의 안전/라우팅 동작이 미토콘드리아 같은 기초 생물학과 비실행적 역학/생물통계 질문을 포함한 무해한 생명과학 질의까지 과잉 차단할 수 있다고 보고했다. 한 댓글 작성자는 역학 또는 생물통계 프롬프트가 Claude Opus로 모델 전환을 유발한다고 주장했다. 이는 명시적으로 실행 가능한 wet-lab 요청만 거부하는 것이 아니라, 생명과학 관련 콘텐츠에 대한 자동 분류/라우팅이 있음을 시사한다.
- 제기된 기술적 우려는 제한적 프론티어 모델 정책이 연구자들을 오픈소스 모델로 밀어낼 수 있다는 점이다. 특히 독점 제공자가 일상적 과학 분석이나 교육 수준 생물학을 막고, 오픈소스 모델이 역량 격차를 좁힌다면 더 그렇다.
Microsoft is restricting employees from using Claude Fable 5 (Activity: 2044): The Verge에 따르면 Microsoft는 Anthropic의 Mythos급 데이터 보존 정책을 법무팀이 검토하는 동안 GitHub Copilot 모델 선택기에서 직원들의 Anthropic Claude Fable 5 내부 접근을 제한한 것으로 알려졌다. 기술적 장애물은 Fable 5가 다른 Claude 모델과 동일한 Zero Data Retention 태세에 포함되지 않는다는 점이다. 프롬프트와 출력은 안전 분류기를 위해 30 days 동안 보관되며, 정책에 플래그된 데이터는 최대 2 years까지 보관될 수 있다. Microsoft가 이 모델을 Copilot 및 Foundry 고객에게 제공하고 있음에도 기밀/고객 데이터 노출 위험이 생긴다는 것이다. 상위 댓글은 대체로 이를 표준 엔터프라이즈 AI 거버넌스로 봤다. 보존 단계 동안 Fable 5는 통제된 시험이나 비민감 워크플로에서만 써야 한다는 것이다. 여러 댓글은 이것이 기대되는 엔터프라이즈 개인정보 보호 모델을 훼손한다고 주장했다. *“엔터프라이즈 플랜의 핵심은 Anthropic이 당신의 데이터를 실제로 볼 수 없게 하는 것이었다”*는 식이며, 전면 내부 차단이 가장 단순한 완화책이라고 봤다.
- 여러 댓글 작성자는 Claude Fable 5에 의무 데이터 보존 단계가 있는 것으로 알려졌기 때문에 Microsoft의 제한은 표준 엔터프라이즈 거버넌스라고 해석했다. 따라서 민감한 기업 프롬프트에는 비민감 데이터로 통제된 시험을 하는 경우를 제외하면 부적합하다는 것이다. 기술적 우려는 모델 품질이 아니라 데이터 처리다. 엔터프라이즈 플랜은 제공자가 프롬프트를 보지 못하게 하는 것이 기대되는데, 댓글 작성자들은 Fable 5가 그 가정을 바꾼다고 주장한다.
- 한 댓글 작성자는 자신의 회사도 기존 zero-retention agreements가 있음에도 AWS Bedrock을 통한 모델 접근을 비활성화했다고 보고했다. 내부 지침은 Fable 5의 30-day 보존 요구가 사실상 zero-retention 정책과 프롬프트/데이터를 열람할 수 없다는 계약상 기대를 우회한다고 설명했다고 한다.
Claude Fable 5 pricing is $50/Million tokens… are we reaching enterprise-only AI? (Activity: 939): 이미지는 어두운 테마의 Claude 모델 가격표로, Claude Fable 5 / Mythos 5 API pricing이 입력 $10/Mtok, 출력 $50/Mtok이며 cache writes도 $10/Mtok, cache hits는 $1/Mtok로 표시된다. 게시물은 이를 인디 개발자와 에이전트 빌더에게 우려로 제시한다. 특히 스크린샷의 최근 Opus 4.x 모델은 입력 $5/Mtok, 출력 $25/Mtok로 더 낮고, deprecated Opus 4.1은 백만 입력/출력 토큰당 $15/$75로 더 높게 표시되어 있다. 댓글 작성자들은 이것이 “AI의 실제 가격”인지, 아니면 지속 불가능한 엔터프라이즈 지향 가격인지 논쟁했다. 여러 댓글은 높은 토큰 워크로드에는 로컬/오픈소스 모델이 더 나아질 수 있다고 봤다. 한 댓글 작성자는 로컬 Qwen 구성에서 50M tokens/day를 인용했고, 다른 이는 Fable이 여전히 보조금을 받고 있으며 이후 더 비싸질 수 있다고 주장했다.
- 한 댓글 작성자는 오픈 모델이 “충분히 좋게” 되면 높은 호스팅 모델 가격 때문에 로컬 추론이 경제적으로 매력적이 될 수 있다고 주장했다. 그는 약 $4k 하드웨어에서 Qwen 3.6 27B를 로컬로 하루 50M tokens/day 정도 실행한다고 주장했고, 같은 하드웨어가 향후 5 years 동안 오픈소스 모델 릴리스에 계속 유용할 것으로 기대했다. 그는 오픈 모델이 프론티어 SoTA보다 12–18 months 정도 뒤처진다고 추정했다.
- 또 다른 기술적으로 관련 있는 가격 비교는 Mythos preview가 백만 토큰당 약 $25/$125였다고 언급했다. 이는 Claude Fable 5의 보고된 $50/M 가격도 실제 서빙 비용 대비 여전히 보조금을 받는 것일 수 있음을 암시한다. 댓글 작성자는 IPO 이후 가격이 더 오를 수 있다고 추측하며, 현재 프론티어 모델 API가 전체 컴퓨트 비용과 마진을 아직 반영하지 않을 수 있다고 봤다.
- 여러 댓글 작성자는 증류(distillation)와 경쟁이 가격을 낮출 것으로 예상했다. 특히 값비싼 프론티어 모델을 증류하는 중국 연구소와 ChatGPT와 Gemini 간 경쟁을 언급했다. 기술적 함의는 API 가격이 분기될 수 있다는 것이다. 엔터프라이즈/고가치 워크로드에는 비싼 프론티어 모델이, “충분히 좋은” 사용 사례에는 더 저렴한 증류 모델 또는 오픈 가중치 모델이 쓰일 수 있다.
The Claude Code active attack didn’t stop. 294,842 secrets stolen from 6,943 machines. It evolved and now spreads through Python too and uses Claude Code itself to steal your secrets. The risk to your credentials just got bigger. (Activity: 1518): OP는 진행 중인 UNC6780/TeamPCP / Shai-Hulud 스타일 공급망 캠페인이 npm/VS Code/Claude Code 백도어에서 Python/PyPI로 확장됐다고 주장했다. GitGuardian와 Sonatype 같은 보고서를 인용해 6,943대 머신에서 294,842개의 비밀이 탈취됐고, 대부분 npm인 454,648개의 새 악성 패키지가 있었다고 했다. 설명된 “Hades” 변형은 Python startup hooks로 지속성을 확보하고, Bun을 가져와 Node 중심 탐지 밖에서 JS 페이로드를 실행하며, AI 패키지 스캐너를 우회하기 위한 프롬프트 인젝션 텍스트를 사용하고, Claude, Cursor, Copilot, Gemini, Codex를 포함한 AI 코딩 도구의 config/startup hooks를 수정한다고 한다. 인용된 출처에는 Socket, Orca Security, Microsoft, StepSecurity이 포함된다. 공격 목적은 여전히 GitHub/npm/cloud/SSH/API 키 같은 자격 증명 탈취이며, OP는 유출 키가 약 1 minute 안에 악용될 수 있고, 많은 조직이 노출된 비밀을 수정하는 데 약 94 days가 걸리며, 많은 침입이 탐지 가능한 바이너리가 아니라 “malware-free” 자격 증명 로그인이라고 강조했다. 상위 댓글은 기술적으로 실질적이지 않았다. 주로 글이 너무 길다고 비판하거나 TL;DR을 요구하거나, 이 글을 Claude에 다시 넣어 요약하자는 농담이었다.
- 한 댓글 작성자는 공격 범위를 명확히 했다. 이는 특정 손상 패키지를 설치한 개발자에게 영향을 준다. 특히 ensmallen, gpsea, spateo-release 같은 생물정보학 PyPI 패키지와 일부 npm 패키지가 언급됐다. 그는 이것이 자기 전파형 악성코드는 아니라고 강조했다. “It doesn’t spread to machines on its own.”

AI Discord Recap

접근 중단

Discord 접근 종료: 안타깝게도 오늘 Discord가 접근을 차단했다. 이 형태로는 다시 가져오지 않을 예정이지만, 새 AINews를 곧 출시할 예정이다. 여기까지 읽어줘서 고맙고, 좋은 여정이었다.

오늘의 요약