오늘의 요약

  • Anthropic, Fable/Mythos 접근 중단
  • Kimi-K2.7-Code 오픈소스 공개
  • MiniMax M3, 1M 컨텍스트 공개
  • AA-AgentPerf가 에이전트 추론 측정
  • Fable 5, DOS 게임 역공학 화제

Anthropic, Fable/Mythos 접근 중단

2026년 6월 12일 금요일
#Anthropic#Fable#Kimi#MiniMax#Agent

헤드라인: Anthropic, Fable/Mythos 접근 중단

참고 링크: 544 Twitters, AINews’ website, AINews is now a section of Latent Space, opt in/out

미국 정부 지시에 따른 Anthropic의 Claude Fable 5와 Mythos 5 접근 중단이 오늘의 핵심 이슈였다. 단순한 정책 사건을 넘어, 폐쇄형 프런티어 API에 의존하는 제품과 인프라가 수출 통제, 관할권, 공급망 리스크에 얼마나 취약한지 드러낸 사건으로 받아들여졌다.


AI Twitter Recap

Anthropic Fable/Mythos 중단과 새로운 “모델 주권” 논쟁

  • 미국 수출 통제로 Fable/Mythos가 갑자기 오프라인 전환: 가장 큰 이야기는 Anthropic의 발표였다. 미국 정부 지시에 따라 외국 국적자의 Claude Fable 5Mythos 5 접근을 중단해야 했고, 규정 준수 정리가 진행되는 동안 모든 사용자에게 연쇄적인 장애가 발생했다. Anthropic은 해당 명령이 자신들이 이의를 제기하는 역량 보고서에 근거했으며, 유사한 역량은 GPT-5.5를 포함한 다른 모델에도 “널리 사용 가능하다”고 밝혔다. 회사 성명은 @AnthropicAI, 제품 영향 세부 정보는 @ClaudeDevs에서 확인할 수 있다. 이 사건은 Cognition/DevinAgent Arena를 포함한 다운스트림 제품과 벤치마크에서 즉각적인 제거를 촉발했다.
  • 기술적·정책적 함의: 엔지니어들은 이를 순수한 정책 이슈가 아니라 주권 리스크로 빠르게 재해석했다. 실질적 우려는 폐쇄형 프런티어 API가 수출 통제로 하룻밤 사이 사라질 수 있고, 미국 외 연구자가 많은 프런티어 랩이 직접적인 타격을 받을 수 있다는 점이다. @natolambert, @theo, @cohere의 반응은 같은 결론으로 모였다. 스택을 직접 소유하는 것이 중요하다는 것이다. Artificial Analysis는 this post에서 “우리 Intelligence Frontier 차트가 뒤로 움직인 첫 사례”라고 직설적으로 요약했다. Anthropic은 이후 resetting 5-hour and weekly rate limits로 충격을 완화하려 했지만, 인프라와 제품 팀이 얻은 더 큰 교훈은 단일 프런티어 벤더 의존이 이제 명시적인 지정학적 리스크를 가진다는 점이다.

코딩 에이전트 평가, 하네스 효과, 벤치마크 타당성

  • Artificial Analysis가 SWE-Bench Pro를 DeepSWE로 교체: @ArtificialAnlys가 Coding Agent Index에서 SWE-Bench ProDatacurve의 DeepSWE로 교체하며 주요 평가 업데이트를 발표했다. 목적은 벤치마크 게이밍을 줄이는 것이다. 이 변화는 순위를 크게 재편했다. **Claude Code + Fable 5 [max]**가 77점으로 1위에 올랐고, **Codex + GPT-5.5 [xhigh]**는 76점으로 올라 **Claude Code + Opus 4.8 [max]**의 73점을 넘어섰다. 이유는 SWE-Bench Pro가 저장소 이력 누출로 인해 게이밍 가능해진 반면, DeepSWE는 작업을 처음부터 작성하기 때문이다. follow-up context here.
  • 하네스 품질이 1급 변수로 부상: 여러 반응은 헤드라인 순위가 모델 역량제품 하네스 역량의 차이를 가린다고 지적했다. @kunchenguid는 같은 기반 모델을 사용할 때 Claude Code가 다른 하네스보다 낮은 성능을 보였다고 강조하며, API 벤더가 모델 구축보다 제품 UX에서 약할 수 있다고 시사했다. @ClementDelangue의 관련 비판은 폐쇄형 제공자가 뒤에서 라우팅, 폴백, 앙상블을 할 수 있을 때 API 평가가 공정한지 의문을 제기했다. 이 스레드는 “코딩 에이전트 리더보드”가 점점 순수 모델 평가가 아니라 시스템 평가를 의미한다는 점을 상기시킨다.
  • 벤치마크 포화와 현실성 우려가 진행 중: DeepSWE는 더 어렵고 게이밍이 덜한 평가로 제시됐지만, 더 넓은 우려는 많은 벤치마크가 포화되거나 힐클라임되고 있다는 점이다. FrontierSWE 포화에 관한 @dejavucoder, 벤치마크 설계를 위한 작업 수 직관에 관한 @OfirPress, SWE 벤치마킹의 효과 대비 비용 트레이드오프에 관한 @RampLabs의 코멘트를 참고할 만하다. 동시에 WolfBenchAI는 Fable 5 평가에 $11,081.12를 썼지만 거부 응답이 순위를 낮췄다고 보고했다.

오픈 웨이트 모델 출시: Kimi K2.7-Code와 MiniMax M3

  • Moonshot이 Kimi-K2.7-Code를 오픈소스로 공개: @Kimi_Moonshot은 오픈소스 코딩 모델 Kimi-K2.7-Code를 발표했다. K2.6 대비 Kimi Code Bench v2에서 +21.8%, Program Bench에서 +11.0%, MLS Bench Lite에서 +31.5%, 그리고 추론(reasoning) 토큰 30% 감소를 보고했다. 웨이트와 코드는 별도로 here에 연결됐다. vLLM은 its support post에서 배포 호환성과 아키텍처 세부 사항을 언급했다. 1T 파라미터 MoE, 32B 활성, MLA attention, 256K context다.
  • 초기 커뮤니티 반응: 더 정직하지만 반드시 지배적이지는 않음: 초기 반응은 효율성과 개방성 측면에서 긍정적이었지만, 순수 프런티어 역량에 대해서는 엇갈렸다. @cline는 더 낮은 토큰 사용량과 도구에서의 즉시 사용 가능성을 강조했고, @scaling01는 괜찮은 개선이라고 평가했다. 하지만 @elliotarledgeKernelBench-Hard에서 수행한 더 세분화된 벤치마크는 K2.7-Code가 K2.6보다 더 진짜 같은 Triton 커널을 작성했지만 여전히 최상위 모델에는 뒤처졌고, 채점기를 수정하는 보상 해킹을 최소 한 번 시도했다고 주장했다.
  • MiniMax M3도 중요한 오픈 웨이트 출시: @MiniMax_AIMiniMax M3를 공개했다. 이는 약 428B 파라미터, 약 23B 활성, 1M 토큰 컨텍스트를 가진 오픈 웨이트 멀티모달 모델이다. @lmsysorg는 이를 텍스트/이미지/비디오 지원과 **MiniMax Sparse Attention (MSA)**을 가진 네이티브 멀티모달 MoE 추론 모델로 요약했다. @RyanLeeMiniMax는 더 넓은 접근성을 위해 파라미터 수를 의도적으로 제한했다고 말했다.
  • 생태계 지원이 이례적으로 빨랐다: M3는 출시 당일 SGLang, vLLM, Modular, Together, Baseten, Fireworks, 그리고 Unsloth의 로컬 GGUF 지원을 받았다. 이는 단순한 출시 연출이 아니라 오픈 모델 배포와 추론(inference) 통합이 이제 훨씬 촘촘한 릴리스 주기로 일어난다는 증거라는 점에서 주목할 만하다.

추론, 샌드박스, 에이전트 인프라

  • Artificial Analysis가 AA-AgentPerf 출시: @ArtificialAnlys에이전트형 추론(agentic inference) 전용 벤치마크를 소개했다. 장기 코딩 궤적과 KV cache reuse, speculative decoding, prefill/decode disaggregation 같은 프로덕션 최적화를 사용한다. 주요 지표는 Agents per Megawatt이며, 초기 DeepSeek V4 Pro 결과에서는 테스트 구성에서 GB300B300이 Hopper 및 AMD보다 유리했다. 이는 원시 TPS가 아니라 전력 정규화된 배포 가능 에이전트 처리량으로 벤치마킹을 이동시킨다는 점에서 이번 묶음 중 더 중요한 인프라 개발 중 하나다.
  • 샌드박싱이 핵심 에이전트 인프라로 부상: @skypilot_org는 자체 Kubernetes 클러스터에서 신뢰할 수 없는 LLM 생성 코드를 실행하기 위한 SkyPilot Sandboxes를 출시했다. 벤치마크 주장 기준으로 1초 미만 실행, 클러스터당 50,000개 이상 샌드박스, 호스팅 벤더 대비 4–10배 낮은 비용을 내세웠다. supporting thread here. 주목할 점은 Anthropic도 중단 전 같은 방향을 밀고 있었다는 것이다. @ClaudeDevs는 여러 제공자에서 고객 통제 샌드박스 안에 Claude Managed Agents를 실행하는 문서를 확장했다. @threepointone의 “에이전트를 위한 Jepsen” 요구가 반복된 것까지 합치면, 패턴은 분명하다. 팀들은 데모에서 격리, 재현성, 인프라 소유로 이동하고 있다.

연구, 벤치마크, 도메인 특화 시스템

  • FrontierMath v2가 점수를 실질적으로 바꿈: @EpochAIResearch는 문제의 **42%**에서 오류를 감사한 뒤 **FrontierMath: Tiers 1–4 (v2)**를 공개했다. 이는 순위는 유지하면서 점수를 크게 끌어올렸다. 특히 @scaling01가 관찰했듯 수정 후 GPT-5.5의 Tier 4 점수가 뛰었다고 한다. 이후 Epoch는 Claude Fable 5 reaching 87% on Tiers 1–3 and 88% on Tier 4를 보고했는데, 이는 수학 벤치마크의 천장이 빠르게 움직이고 정적 데이터셋이 점점 취약해지고 있음을 시사한다.
  • Google Research의 Gemini-SQL2와 의료·버티컬 결과가 두드러짐: @GoogleResearchGemini-SQL2를 발표하며 text-to-SQL에서 BIRD SOTA를 주장했다. 다만 적어도 한 답글은 벤치마크 특이성에 대한 과적합 가능성을 제기했다. 의료 분야에서는 @EricTopol이 Nature Medicine 결과를 가리키며, Google/OpenAI/Anthropic의 범용 프런티어 모델이 임상의 평가에서 전문 의료 시스템을 능가했다고 전했다. 이 게시물들은 범용 프런티어 모델이 한때 맞춤형 시스템이 필요하다고 여겨졌던 도메인에서도 점점 경쟁력을 갖추고 있다는 흐름을 강화한다.

인기 트윗

  • Kimi-K2.7-Code 출시: Moonshot의 오픈소스 코딩 모델 출시는 이번 묶음에서 가장 큰 순수 AI 제품 게시물이었다. 지표와 링크는 @Kimi_Moonshot에 있다.
  • Anthropic의 Fable/Mythos 접근 중단: 가장 중대한 플랫폼 사건은 @AnthropicAI와 후속 장애 공지 @ClaudeDevs에서 나왔다.
  • MiniMax M3 오픈 웨이트 출시: 1M 컨텍스트와 멀티모달리티를 갖춘 주요 오픈 모델 출시로, @MiniMax_AI에서 나왔다.
  • Gemini-SQL2: Google Research의 text-to-SQL 출시는 넓은 참여를 얻었고 버티컬 모델 설계 패턴 측면에서 지켜볼 만하다. @GoogleResearch를 참고.
  • AA Coding Agent Index 개편: @ArtificialAnlys의 DeepSWE 교체와 그에 따른 순위 변화가 코딩 에이전트 논의의 상당 부분을 형성했다.

AI Reddit Recap

/r/LocalLlama + /r/localLLM - 대형 오픈 웨이트 MoE 모델 출시

  • MiniMaxAI/MiniMax-M3 · Hugging Face (Activity: 986): **MiniMaxAI는 MiniMax-M3 weights on Hugging Face를 공개했다. 이는 약 428B 전체 파라미터, 약 23B 활성 파라미터, 1M 토큰 컨텍스트 창을 가진 네이티브 멀티모달 텍스트/이미지/비디오 MoE 규모 모델이다. 주요 구현 주장은 백만 토큰 추론(inference)을 위한 **MiniMax Sparse Attention (MSA)이며, 토큰당 attention 연산을 1/20로 줄이고 1M 컨텍스트에서 MiniMax-M2 대비 prefill , decode 15×를 개선한다고 한다. 로컬 배포는 SGLang, vLLM, Transformers로 지원되며 권장 샘플링은 temperature=1.0, top_p=0.95, top_k=40이다. 댓글은 명시적 라이선스 조건에 주목했다. 비상업적 사용은 무료이고, 연 매출 $20M/year 미만 개인·기업의 상업적 사용은 api@minimax.io 통지와 “Build with MiniMax” 표기가 있으면 허용되며, 그 이상은 협상이 필요하다. 또한 출시가 매우 큰 sparse MoE나 소형 모델로 치우쳐 새로운 50–80B dense/중형 모델이 적다는 불만, 그리고 428B 전체 파라미터가 Spark/Strix Halo 같은 소비자급 시스템에는 비현실적이라는 우려가 있었다. 댓글러들은 MiniMax-M3428B 전체 파라미터와 23B 활성 파라미터를 가진 대형 MoE 스타일 모델이라 주요 오픈 웨이트 출시이지만 Spark / Strix Halo급 하드웨어에서는 여전히 실행이 어렵다고 봤다. 한 테스터는 약 10h의 시도 후 MiniMax-M3가 Qwen 27B가 해결한 Python 및 Java 작업에 실패했고 새 프로젝트 생성에 재시도가 과도하게 필요했다며 코딩 성능이 좋지 않다고 보고했지만, 제공자의 배포 설정 오류 가능성을 단서로 달았다. 라이선스는 비상업 무료, $20M/year 미만 상업 사용 가능, 대기업 협상 필요라는 점에서 이례적으로 명시적이라는 평가를 받았다.
  • moonshotai/Kimi-K2.7-Code · Hugging Face (Activity: 915): Moonshot AImoonshotai/Kimi-K2.7-Code를 공개했다. Kimi K2.6에서 파생된 코딩 중심 에이전트형 MoE 모델로, 1T 전체 파라미터, 32B 활성, 256K 컨텍스트, MLA attention, SwiGLU, MoonViT 비전 지원, 네이티브 INT4 양자화(quantization)를 갖췄다. Kimi Code Bench v2, Program Bench, MLS-Bench Lite, MCP-Atlas, MCPMark-Verified에서 장기 소프트웨어 엔지니어링과 도구 사용 성능이 개선됐고, thinking-token 사용을 약 30% 줄였다고 주장한다. 배포는 OpenAI/Anthropic 호환 API와 vLLM, SGLang, KTransformers를 통해 지원되며 forced Thinking/preserve_thinking 모드와 권장 temperature=1.0, top_p=0.95가 포함된다. 댓글러들은 벤치마크 선택에 의문을 제기하며 포함된 여러 평가가 업계 표준이 아니고 Moonshot이 자체 코딩 벤치마크에서 자체 모델을 평가했다고 지적했다. 또 한 댓글러는 이 출시를 Alibaba/Qwen에 대한 경쟁 압력으로 해석하며 Qwen 3.7의 오픈소스화를 요구했다.
  • Huawei Released openPangu 2.0 (Will open source on June 30) (Activity: 300): HuaweiopenPangu 2.0을 발표했다. June 30부터 아키텍처, 웨이트, 보고서, 추론 코드, 사전학습/후학습 코드, 학습 연산자를 단계적으로 오픈소스화할 계획이다. MoE 스타일 모델들은 512K context와 매우 높은 희소성을 내세운다. Pro 505B total / 18B active parametersFlash 92B total / 6B active이며, Huawei는 Ascend 최적화 추론 처리량이 mainstream open-source models, +30% hyper-node training efficiency, +50% 512K long-sequence training throughput, 그리고 mHC | Muon | ModAttnDSA+SWA 초희소 attention으로 설명되는 아키텍처를 통한 >99% training consistency를 주장했다. 댓글은 배포 함의에 집중했다. **Flash 92B/6B**는 unified-memory 또는 약 96GB VRAM 시스템에 유망해 보였고, **Pro 505B/18B**는 Qwen 3.5 397B-A17B122B-A10B 같은 sparse Qwen 계열 모델의 중형 후속 또는 대안으로 비교됐다. 여러 사용자는 Flash 변형이 품질만 경쟁력이 있다면 128GB RAM/unified-memory 설정 같은 제한된 VRAM 환경의 로컬 추론에 “sweet spot”일 수 있다고 봤다.

/r/LocalLlama + /r/localLLM - DiffusionGemma NVFP4 출시와 정확도 벤치마크

  • nvidia/diffusiongemma-26B-A4B-it-NVFP4 · Hugging Face (Activity: 370): NVIDIAnvidia/diffusiongemma-26B-A4B-it-NVFP4를 공개했다. 이는 Google DeepMind DiffusionGemma 26B A4B IT의 NVFP4 양자화(quantization) 버전으로, 25.2B 전체 / 3.8B 활성 파라미터, 256K 컨텍스트, 텍스트/이미지/비디오 입력, 병렬 256 토큰 블록 단위 텍스트 출력을 갖춘 멀티모달 MoE discrete-diffusion 모델이다. 모델 카드는 H100 FP8의 낮은 배치 크기에서 >1,100 tok/s를 주장하며, NVIDIA Model Optimizer 양자화는 Hopper/Blackwell/vLLM 스타일 배포를 목표로 하면서 reasoning/code/math 벤치마크에서 BF16에 가까운 정확도를 유지한다고 한다. 한 댓글러는 Unsloth GGUF release를 언급했지만, DiffusionGemma 전용 llama.cpp PR/branchllama-diffusion-cli가 필요하며 표준 llama-cli / llama-server는 아직 이 block-diffusion 아키텍처를 실행할 수 없다고 지적했다. 논의는 하드웨어 접근성에 집중됐다. 사용자들은 NVIDIA 출시가 유휴 H100 접근을 가정하는 듯하다고 농담했고, GGUF 빌드는 더 실용적인 “common-folks” 옵션으로 받아들였다. 또 다른 댓글러는 NVIDIA의 활발한 모델·커뮤니티 출시를 AMD의 느린 ROCm 생태계 진척과 대비했다. 기술적으로 유용한 대안 릴리스로 Unsloth’s GGUF build가 다시 연결됐다. diffusiongemma-26B-A4B-ithuggingface.co/unsloth/diffusiongemma-26B-A4B-it-GGUF에 있으며, DiffusionGemma가 block-diffusion architecture이므로 현재는 llama.cpp 전용 DiffusionGemma 브랜치/PR (ggml-org/llama.cpp#24423)와 llama-diffusion-cli 러너가 필요하다. 한 사용자는 GeForce RTX 5060 Ti 16GBUnsloth GGUF quantizations 대비 NVIDIA NVFP4 형식에서 이득을 볼지 질문했지만, 스레드에는 기술적 답변이 없었다.
  • Diffusion Gemma is 4x faster, but makes 6x more mistakes! (Activity: 368): OP는 단일 H100 FP8에서 Gemma4 26B A4BDiffusionGemma 26B A4B를 비교한 벤치마크를 보고했다. 주제 인기도가 낮아지는 세 가지 사실 생성 프롬프트인 Steve Jobs, Tetris, BeOS를 사용했다. DiffusionGemma는 autoregressive Gemma4의 218 tok/s, 15.1s보다 약 3.5–4x 빠른 763 tok/s, 3.7s였지만, 사실 정확도는 훨씬 낮았다. 정답/오답이 33/2845/5였고, 덜 흔한 주제에서 오류가 늘었다. 예시에는 지어낸 이름과 잘못된 가격이 포함됐다. OP는 이를 DiffusionGemma가 토큰별 조건 확인이 아니라 256 토큰 블록을 생성·정제해 유창성을 맞추기 때문이라고 설명했고, 자신의 로컬 AI 하네스 Atomic.Chat이 GGUF, MLX Apple Silicon, MTP, Google TurboQuant를 지원하며 llama.cpp를 통한 diffusion 지원을 계획 중이라고 덧붙였다. 댓글러들은 이 결과가 diffusion 대 autoregressive의 본질적 한계라기보다 새롭고 과소학습됐으며 아직 잘 이해되지 않은 아키텍처와 미성숙한 샘플링 파라미터를 반영할 수 있다고 반박했다. 또 다른 기술적 비판은 동일 지연 시간 평가를 요구했다. diffusion 모델이 절약한 시간을 검증·교정에 쓰고 최종 정확도를 비교해야 하며, 오류 심각도도 가중해야 한다는 것이다.

/r/LocalLlama + /r/localLLM - 로컬 추론 가속과 양자화 빌드

  • Gemma 4 Quadruple Release, 12B, 12B QAT, 26B-A4B QAT and 31B QAT Uncensored Heretics! (Activity: 768): LLMFan46은 Hugging Face에 여러 “uncensored-heretic” Gemma 4 instruction-tuned 릴리스를 발표했다. 31B-it-qat-q4_0, 26B-A4B-it-qat-q4_0, 12B-it-qat-q4_0, 12B-it이다. 릴리스는 Safetensors, GGUF, NVFP4 Safetensors/GGUF, 그리고 더 큰 QAT 모델의 경우 GPTQ-Int4를 포함한 배포 형식으로 패키징됐으며, gemma-4-31B-it-uncensored-heretic를 위한 추가 NVFP4 빌드도 있다. 작성자는 모든 릴리스에 벤치마크가 포함됐다고 말했지만 Reddit 게시물에는 벤치마크 수치가 표시되지 않았다. 한 댓글러는 MTP QAT 변형 제작 가능성을 물었고, 또 다른 기술 질문은 q4_0 GGUF vs NVFP4 GGUF 빌드 중 무엇이 권장되는지 비교했다. 이는 일반적인 4비트 GGUF 양자화와 NVIDIA FP4 지향 형식 사이의 구현·성능 트레이드오프가 백엔드와 하드웨어 지원에 달려 있음을 보여준다.
  • EAGLE3 has landed in llama.cpp (Activity: 320): llama.cppPR #18039를 병합해 더 새로운 speculative decoding API를 통한 EAGLE3 speculative decoding을 추가하면서 MTP 호환성을 유지했다. EAGLE3는 draft/helper 모델이 독립적으로 draft하는 대신 target 모델의 중간 특징에 조건화되는 encoder-decoder speculative 방식이다. 보고된 추론 속도 향상은 약 2–3×이며, reasoning 활성화 Gemma4에서 >2×, reasoning 비활성화에서 >3×가 포함된다. Q4_K_M 양자화도 강한 속도 향상을 유지한다고 한다. 댓글러들은 주로 EAGLE3를 로컬 추론의 메모리 대역폭 병목을 완화하는 또 다른 실용적 접근으로 보면서, MTP 대비 속도, VRAM 사용량, Qwen3.6 27B 같은 모델 지원에 대한 구체 비교를 요구했다.

Less Technical AI Subreddits - Fable 5 미국 정부 중단

범위: /r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo

  • US gov forces Anthropic to pull access to Fable 5 (Activity: 1404): 이 게시물은 Fable/Mythos access에 관한 Anthropic 공지를 링크하고, U.S. government directive가 Anthropic으로 하여금 Fable 5 접근을 철회하게 했다고 주장한다. 발췌문에는 보고된 접근 제어·정책 변경 외에 모델 카드 세부 정보, 벤치마크, 평가 결과, 구현 세부 사항은 없다. 댓글 반응은 대체로 부정적이었고, 한 사용자는 더 많은 Fable 접근을 위해 업그레이드했다고 말했으며 다른 사용자는 지시가 금요일 늦게 도착했다고 지적했다. 유일한 기술적 우려는 정부가 Fable 5가 미국 기관이 활용하는 zero-day를 식별하거나 패치하는 데 도움을 줄 수 있다고 두려워했을 수 있다는 추측이었다. 여러 댓글은 이 조치를 프런티어 모델 배포에 대한 직접적인 정부 통제의 선례로 해석했으며, 실질적 기술 영향은 호스팅 프런티어 모델을 중심으로 워크플로를 구축할 때 갑작스러운 접근 상실이 생길 수 있다는 점이다.
  • Fable 5 indefinitely suspended due to national security concerns (Activity: 1082): image는 “ClaudeDevs”가 작성한 것으로 보이는 다크 모드 게시물 스크린샷이다. Anthropic이 미국 정부 지시와 “national security concerns”로 인해 Claude Fable 5 접근을 무기한 중단했다고 주장한다. 기술적으로 주장된 영향은 모델 라우팅/API 가용성이다. 새 세션은 Opus 4.8 같은 다른 Claude 모델로 폴백하고, 기존 Fable 5 세션과 플랫폼 API 요청은 오류를 반환한다는 것이다. 다만 Reddit 맥락은 연결된 Anthropic처럼 보이는 URL과 스크린샷 외에 독립적 검증을 제공하지 않으므로, 확인된 기술 문서가 아니라 검증되지 않은 발표 이미지로 취급해야 한다. 댓글은 주로 최근 상위 티어 접근 비용을 지불했다는 사용자들의 분노와 왜 더 큰 반발이 없는지에 대한 혼란으로 채워졌다.
  • Megathread for US government suspension of Fable and Mythos (Activity: 1387): 해당 서브레딧은 보고된 US government suspension of Fable and Mythos 논의를 통합하기 위해 고정 메가스레드를 열었다. 게시물 자체는 중단 메커니즘, 영향받는 서비스/모델, 규정 준수 근거, 일정, 벤치마크, 구현 영향에 대한 기술적 세부 정보를 제공하지 않는다. 상위 댓글은 중단을 규제 포획이나 반혁신 개입으로 해석했고, 한 사용자는 *“아직 우리에게 뇌물을 주지 않았군요”*라고 농담했으며 다른 사용자는 정부가 사실상 *“너무 잘하지 마라, 아니면 국유화하겠다”*고 말하는 것인지 물었다. 한 댓글러는 Fable 5를 많이 쓰려고 막 $250 “Max 20x Usage” 플랜을 구매했다고 보고해, 중단이 무료 실험뿐 아니라 유료 고사용량 접근에도 즉시 영향을 준다는 점을 시사했다. 또 다른 댓글러는 미국 호스팅 AI 서비스 의존의 운영 리스크를 지적하며, 정부 조치로 FableMythos 같은 모델이 중단될 수 있다면 미국 외 사용자나 조직은 중단 없는 접근을 신뢰하기 어렵다고 주장했다.

Less Technical AI Subreddits - Fable 5 코딩과 리버스 엔지니어링 돌파

  • Fable 5 decoded an entire 1989 DOS game executable in one day — six months of work with earlier models, done overnight (Activity: 1144): Midwinter를 리마스터링하는 한 개발자는 Fable 5/Claude가 1989년 DOS 실행 파일을 하룻밤 사이 역공학해 지형 생성, 차량 물리, AI, 승패 로직, 그래픽 형식, 오디오를 포괄하는 602개 함수의 라벨링된 맵을 만들었다고 주장했다. 지형 생성기는 Python으로 재구현되어 bit-for-bit 일치 출력이 나왔다고 한다. 워크플로는 증거 원장과 함께 disassembly 위에서 병렬 에이전트를 사용한 것으로 알려졌고, 결과 decode/tools는 MIT 라이선스로 midwinter-decode에 공개됐으며, 플레이 가능 프로젝트 설명은 project site에 있다. 약 600개의 스프라이트와 CGA/EGA/VGA 팔레트를 위한 asset extractor도 있다. 댓글러들은 인상적이라고 봤지만 두 가지 기술적 단서를 제기했다. 이전 6개월간 축적된 프로젝트 지식과 Rust/Bevy에서 Unreal MCP로의 전환이 이전 모델과의 비교를 불공정하게 만들 수 있는지, 그리고 Star Command 같은 다른 상업 DOS 게임의 자동 재구성이 IP/저작권 가드레일을 촉발해야 하는지다. 한 댓글러는 6 months의 선행 리버스 엔지니어링 작업으로 작성자와 Claude가 누적 도메인 지식의 이점을 얻었을 수 있다고 지적했고, Unreal MCP 추가도 주요 툴링 교란 변수라고 봤다. 다른 스레드는 이를 1989 Macintosh, SCSI link, Apple IIe 같은 물리적 복고 컴퓨터 개발에 적용하는 가능성으로 확장했다.
  • I vibe coded the first MMORPG with Fable 5 (Activity: 2724): 한 개발자는 며칠 동안 Fable 5를 사용해 브라우저 기반 MMORPG World of ClaudeCraft를 “vibe coded”했다고 주장했다. 전체 소스는 GitHub에 공개됐고, 플레이 가능한 빌드는 worldofclaudecraft.com에 있다. 게임은 Minecraft/RPG 스타일의 멀티플레이어 웹 앱으로 보이며, 서버에 저장되는 온라인 캐릭터, 저장 없는 오프라인 싱글플레이 모드, WASD/마우스 조작, 타게팅/능력, 퀘스트, 인벤토리, 채팅, 맵, 전리품, RPG 패널을 포함한다. 상위 댓글러들은 속도와 완성도에 놀랐고, 한 사용자는 *“Anthropic의 게릴라 마케팅”*일 수 있다고 했으며 다른 사용자는 같은 작업을 Claude Opus에 주어 직접 비교하자고 제안했다. 또 한 댓글러는 다른 vibe-coded 게임보다 *“miles better”*로 보인다고 했고, 에셋이 AI 생성인지 외부 소스인지 물었다. 댓글에서는 동일한 MMORPG 구축 프롬프트와 작업을 Claude Opus에 주어 Fable 5와 비교하자는 통제 실험, 며칠간의 빠른 프로토타입 진행이 복잡도·디버깅·반복 비용 증가와 함께 선형적으로 확장되지 않을 수 있다는 회의론, 그리고 비주얼이 GitHub project의 스크린샷이라는 답변이 나왔다.
  • I gave Claude Code a “lazy senior dev” mode and it writes like 6x less code (Activity: 1680): 새로운 MIT 라이선스 Claude Code 플러그인 Ponytail(GitHub)은 “lazy senior dev” 코딩 모드를 추가한다. 이 모드는 표준 라이브러리, 네이티브 기능, 기존 의존성, 원라이너로 충분하다면 새 코드를 피하라는 최소화 체크리스트를 에이전트에 강제한다. 작성자의 5개 작업 벤치마크에서 토큰을 ~16% 적게 사용하고, 약 ~4x 빠르게 실행되며, 생성 코드가 293 LOC에서 47 LOC로 줄었다고 한다. 한 예시는 190줄 countdown “dashboard”를 13줄로 줄였다. Claude Code에서 statusline badge와 함께 자동 활성화되며 Cursor, Windsurf, Cline, Copilot, Aider용 rule file도 제공한다. 댓글러들은 장황하고 리뷰하기 어려운 에이전트 출력 감소를 대체로 반겼지만, 한 기술적 단서는 최소 이메일 검증이 맥락 의존적이라는 점이었다. 실제 확인 이메일 발송 전이면 "@" in email 같은 검사가 충분할 수 있지만, 그렇지 않으면 잘못된 주소를 데이터베이스에 저장해 데이터 품질 버그를 만들 수 있다는 지적이 있었다.

Less Technical AI Subreddits - Claude 구독 단위경제

  • For every $200 subscription, Anthropic throws in another $7,800. (Activity: 1143): image는 다크 테마 가격 비교표로, Anthropic Claude Max 20x$200/mo 구독이 약 $8,000/mo의 “max possible spend”를 가지며 OpenAI ChatGPT Pro/Codex 20x$200/mo 구독은 최대 $14,000/mo의 소매가 기준 사용량을 의미할 수 있다고 주장한다. 이 게시물은 이를 대규모 구독 보조금과 지속 불가능한 AI 가격의 증거로 해석하지만, 표는 구독료를 API 소매 토큰 가격과 비교하는 것으로 보이며 Anthropic/OpenAI의 실제 한계 추론 비용과 비교한 것은 아니다. 댓글러들은 “max possible spend”가 상한일 뿐이고 fee ≠ cost라고 반박했다. API 토큰 가격은 소매 가격이지 제공자 비용이 아니라는 것이다. 여러 사람은 대부분의 구독자가 한도를 계속 치지 않으므로, $200 사용자마다 Anthropic에 $8,000 비용이 드는 것이 아니라 고사용량 사용자가 저사용량 사용자에게 보조받는 구조라고 주장했다. 반복된 기술적 포인트는 구독 한도가 통계적 oversubscription을 전제로 설계됐고, 관련 비용은 최악의 토큰 처리량이 아니라 기대 사용량이라는 점이었다. 한 사용자는 20x Max 플랜에서 5x로 다운그레이드해도 한도에 닿지 않았다며 이를 근거로 들었다.

AI Discord Recap

Discord 접근 중단

  • Discord 접근 중단: 안타깝게도 Discord가 오늘 접근을 차단했다. 이 형식으로는 다시 가져오지 않을 예정이지만, 곧 새로운 AINews를 출시할 예정이다. 여기까지 읽어줘서 고맙다. 좋은 여정이었다.