DeepSeek, V4-Pro 75% 할인 영구화

헤드라인: DeepSeek, V4-Pro 75% 할인 영구화

참고 링크: 544 Twitters, AINews’ website, AINews is now a section of Latent Space, opt in/out

DeepSeek는 V4-Pro의 75% 할인을 영구화하며 이번 호에서 가장 큰 시장 신호를 만들었다. 입력과 출력 가격이 크게 낮아지면서, 고성능 모델 경쟁의 초점이 단순 성능에서 추론(inference) 비용 대비 지능으로 더 강하게 이동했다.

이 변화는 “측정하기 어려울 만큼 저렴한 지능”이라는 커뮤니티 반응을 불러왔고, Gemini, GPT, Claude 계열 최상위 모델과의 비용 비교에서도 DeepSeek-V4-Pro가 파레토 프런티어에 놓였다는 평가가 나왔다.

AI Twitter Recap

에이전트 제품, 하네스, 그리고 “모델만”을 넘어서는 변화

제품 표면이 상위 스택으로 이동 중: 반복적으로 등장한 주제는 모델 품질만으로는 더 이상 해자가 되지 않는다는 점이었다. 승리하는 제품은 점점 더 모델 + 하네스 + 워크플로 + UI + 메모리 + 경제성의 조합이 되고 있다. @gdb는 “모델만으로는 더 이상 제품이 아니다”라고 직설적으로 말했고, @dzhng는 최상위 제품에는 model <> harness <> product symbiosis가 필요하다고 주장했다. 같은 패턴은 실제 사례에서도 보인다. @signulll은 ambient AI와 agentic AI를 컴퓨팅 인터페이스의 새로운 접점으로 설명했고, @teortaxesTex는 하네스 연구가 더 넓은 인터페이스를 탐색하기보다 “Claude Code 복제”로 수렴할 위험이 여전히 있다고 지적했다.
코딩 에이전트 제품 차별화가 구체화 중: OpenAI는 “codex thursday no. 6”를 통해 appshots, /goal 개선, 잠금 상태에서 원격 컴퓨터 사용, annotation mode, plugin sharing, analytics를 포함한 또 다른 대규모 Codex 업데이트를 출시했다. @gdb는 별도로 Appshots를 강조했고, 사용자들도 의미 있는 워크플로 변화를 보고했다. @gdb는 Codex 이전에 코딩하던 방식을 기억하기 어렵다고 했고, @reach_vb는 한 달 넘게 IDE를 열지 않았다고 말했다. 하지만 제품의 거친 부분은 남아 있다. @theo는 T3 Code의 remote feature가 대안보다 앞서 있다고 칭찬한 뒤, 이어진 post에서 Codex의 버그 많은 원격 워크플로와 대비했다. Claude 쪽에서는 @ClaudeDevs가 auto mode를 Pro 플랜으로 확장하고 Sonnet 4.6 지원을 추가했다. @_mohansolo는 사용자 반발 뒤 Antigravity 2.0의 IDE 지원을 명확히 설명하고 패치해야 했다.

모델 성능, 비용 곡선, 프런티어 경쟁

DeepSeek의 가격 인하는 가장 큰 시장 신호였다: @deepseek_ai는 75% DeepSeek-V4-Pro 할인을 영구화했고, 이는 비용/성능 프런티어를 실질적으로 바꾸기 때문에 강한 반응을 일으켰다. @ArtificialAnlys는 1차 가격을 입력 $0.435/M, 출력 $0.87/M, 캐시 입력 $0.0036/M으로 정량화했고, 혼합 기준 약 $0.18/M로 추정하며 V4 Pro를 지능 대비 실행 비용의 파레토 프런티어에 올렸다. 이들은 V4 Pro에서 Intelligence Index를 실행하는 비용이 Gemini 3.1 Pro Preview보다 약 3배 저렴하고, GPT-5.5보다 약 12배 저렴하며, Claude Opus 4.7보다 약 19배 저렴하다고 추정했다. 커뮤니티 반응은 @scaling01가 표현한 것처럼 DeepSeek가 “측정하기 어려울 만큼 저렴한 지능”을 향해 밀어붙인다는 점에 집중됐다. @Yuchenj_UW와 @kimmonismus도 인하 폭의 크기를 강조했다.
Gemini Flash는 개선됐지만 사용 피드백은 엇갈렸다: @OfficialLoganK는 Gemini 3.5 Flash가 GDPval에서 3.1 Pro 대비 크게 진전했으며, Flash가 이제 “프런티어에서 경쟁 중”이라고 주장했다. @Designarena는 Design Arena에서 Gemini 3 Flash Preview보다 16계단 상승한 전체 16위에 올렸다. 그러나 여러 빌더는 벤치마크 상승 대비 실사용성에 반론을 제기했다. @Alezander907는 더 높은 비용에 비해 브라우저 에이전트 개선이 미미하다고 봤고, @giffmana는 브랜드가 여전히 저렴함을 암시한다면 이것은 “Flash progress”가 아니라고 주장했다. @jeremyphoward는 이 모델이 인간과 협력하기보다 평가 점수를 극대화하도록 최적화된 느낌이라고 말했다. 이는 현재 도구가 정성적, HITL 판단을 과소평가한다고 주장한 @HamelHusain의 더 넓은 평가 회의론과도 맞닿아 있다.
Qwen과 중국 프런티어 모델이 경쟁을 계속 압축 중: 공식 @Alibaba_Qwen 티저와 @ZhihuFrontier의 긴 서드파티 리뷰는 Qwen3.7-Max를 특히 instruction following, context reliability, stability에서 의미 있는 진전으로 묘사했다. 다만 verbosity와 높은 토큰 사용량 문제는 여전히 남아 있다. 다른 곳에서는 @scaling01가 최근 ALE-Bench 실행에서 Kimi-K2.6, DeepSeek-V4, GLM-5.1 같은 중국 모델이 그 환경에서 여러 서구권 출시 모델을 앞섰다고 주장했다. @ArtificialAnlys도 Coding Agent 벤치마크에서 Cursor Composer 2.5가 Opus 4.7보다 3-18배 저렴하고, GPT-5.5보다 5-32배 저렴하며, 토큰 사용량도 눈에 띄게 낮다고 보고했다.

프로토콜, 인프라, 에이전트 런타임 도구

MCP의 새 릴리스 후보는 실질적인 프로토콜 단순화다: @dsp_는 MCP 2026-07-28 release candidate를 발표했다. 핵심 변화는 프로토콜이 이제 **무상태(stateless)**라는 점이다. handshake, session ID가 없고, 어떤 요청도 어떤 서버 인스턴스로든 갈 수 있다. RC는 MCP Apps와 Tasks 같은 일급 확장도 도입하며, 인증 강화와 더 명확한 폐기 정책도 포함한다. 인프라 팀에게 무상태성은 큰 운영 변화다. 확장, 로드밸런싱, sticky-session 관련 부담이 쉬워진다.
샌드박스와 관리형 실행이 일급 프리미티브가 되는 중: @_philschmid는 에이전트에 메모리와 코드 실행이 가능한 안전한 호스팅 Linux 샌드박스를 제공하는 Gemini Managed Agents + Interactions API를 데모했다. @CoreWeave는 RL, agent tool use, model eval을 위한 CoreWeave Sandboxes 공개 프리뷰를 출시했고, @cnakazawa는 토큰을 노출하지 않고 shell, Codex, GitHub 접근을 제공하는 작업별 Cloudflare 샌드박스 Cloudsail을 공개했다. 오케스트레이션 계층에서는 @skypilot_org가 현대 RL이 이기종 하드웨어와 복구 요구를 가진 다중 서비스 시스템이기 때문에 RL doesn’t work on Slurm이라고 주장했다.
오픈소스 하네스와 메모리 계층이 확산 중: @NVIDIAAI는 임의의 하네스에 연결할 수 있는 휴대형 deep-research 파이프라인용 AI-Q agent skills를 오픈소스화했다. @Teknium는 Hermes의 키 관리를 위한 Bitwarden support를 추가했고, 이후 here에서 Hermes의 Grok Build v0.1에 256K context를 복구했다. @shannholmberg는 Hermes 에이전트 아래의 공유 메모리 “gBrain” 계층을 설명했다. 여기에는 typed folders와 전문 에이전트용 read-first 접근이 포함된다. @aakashadesara는 Devin 지원과 에이전트 세션의 목록 조회, 검색, 종료를 위한 CLI를 지원하도록 CTOP를 업데이트했다.

연구: RL, 증류, 아키텍처, 평가

RL 사후학습과 보상 설계가 활발히 재검토 중: @RyanBoldi는 RL 중 스칼라 보상 붕괴가 테스트 타임 스케일링을 망칠 수 있다고 주장하며 **Vector Policy Optimization (VPO)**를 소개했다. VPO는 대신 벡터값 보상을 최적화해 원래의 스칼라 목적에서도 검색 성능을 개선한다. @lateinteraction는 이를 더 다양한 환경과 목표에 맞게 LLM을 훈련하는 방법으로 설명했고, @FeiziSoheil는 단일 보상 숫자 대신 structured feedback으로 이동하는 더 넓은 흐름과 연결했다. 별도로 @jsuarez는 극단적 희소성과 관련된 오래된 RL 문제에 대한 해법을 예고했으며, 초기 스윕에서 한 내부 환경의 SOTA를 보였다고 했다.
에이전트 컴파일/증류가 진지한 경제적 아이디어로 부상 중: @dair_ai는 전체 에이전트 워크플로를 보여주는 논문을 강조했다. 다단계 호출, 도구 사용, scratchpads, 의사결정 구조를 가중치로 증류해 거의 프런티어 수준의 품질을 유지하면서 약 100배 낮은 추론 비용으로 실행할 수 있다는 내용이다. 이는 비싼 런타임 에이전트 루프를 더 저렴하게 배포 가능한 모델로 컴파일할 수 있다는 가장 명확한 기술적 주장 중 하나다.
바닐라 트랜스포머를 넘어선 아키텍처 연구도 활발: @ChunyuanDeng은 sparse attention과 linear attention을 결합해 루핑을 실용화하는 linear-time looped transformer인 LT2와 증류된 Ouro-hybrid-1.4B를 소개했다. @ZyphraAI는 Equilibrium Propagation을 energy-based model을 넘어 생물학적으로 현실적인 뉴런으로 확장하는 연구를 공유했다. MoE에서는 @Jianlin_S가 loss penalty 없이 sequence-level load balancing을 위한 Moving Quantile Balancing을 제안했다. 한편 @allen_ai는 모델이 실제로 실행되기 전에 어떤 벤치마크에서 SOTA를 낼 가능성이 있는지 예측하는 ArtifactLinker를 출시했다. 벤치마크 난립 속에서 유용한 meta-eval 도구다.
수학과 추론 능력 담론도 다시 이동: @cozyblaze265065는 도구 없이 medium reasoning의 gpt-5.5를 사용한 다자리 곱셈 실험에서 **99.46%**를 보고했고, @teortaxesTex는 현대 LLM이 이제 도구 없이 100-digit multiplication을 할 수 있다고 언급했다. 이것이 추론의 완전한 이론은 아니지만, “자기회귀는 산술을 할 수 없다”는 오래된 주장에 힘을 더 빼는 결과다.

멀티모달 시스템: 비디오, 음성, 월드 모델, 이미징

Google의 I/O 스택은 지속형 에이전트와 월드 시뮬레이터로 향했다: @Google은 반복 작업, 스킬, 워크플로를 위한 24/7 personal AI agent인 Gemini Spark를 소개했다. @GoogleDeepMind는 실제 미국 장소를 인터랙티브 월드로 바꿀 수 있는 Project Genie + Street View도 출시했다. 후속 게시물은 Google Labs를 통해 Google AI Ultra 구독자에게 배포된다고 확인했다. 멀티모달 측면에서는 @Google이 대화형 비디오 제작/편집과 커스텀 아바타를 위한 Gemini Omni를 발표하며 강화됐고, @emollick은 비디오를 네이티브로 편집할 수 있는 완전 멀티모달 시스템의 중요성을 강조했다.
Runway와 이미지/비디오 도구는 편집 가능성을 계속 끌어올리는 중: @runwayml은 장면의 나머지 부분을 보존하는 타깃 편집과 함께 1080p에서 최대 30초 multishot sequences를 지원하는 Aleph 2.0을 출시했다. @CuriousRefuge는 Omni 기반 연속 장면으로 AI 생성 시네마틱 클립을 자연스럽게 확장하는 SeeDance 2 Stitcher를 강조했다.
음성 및 이미지 생성에서도 눈에 띄는 도약: @ArtificialAnlys는 Cartesia Sonic-3.5를 Speech Arena의 새로운 #1 TTS model로 평가했다. Elo 1218, 42개 언어 지원, 강한 자연스러움과 transcript following을 근거로 들었다. Cartesia는 프로덕션에서 82ms end-to-end first audio를 달성했다고 here에서 주장했다. 이미지 생성에서는 @wildmindai가 Tencent의 Z-Image 6B를 VAE가 없는 pixel-space generator, 1K resolution, Flux/SD 모델 변환용 transfer framework로 소개했다. 관련 생태계 작업에는 @victormustar의 Pixal3D 데모와 @ostrisai의 AI Toolkit 내 Z-Image L2P 1k 훈련 지원이 포함됐다.

보안, 사이버, 정책 압박

사이버보안은 고급 에이전트의 빠른 증명장이 되는 중: @AnthropicAI는 Project Glasswing과 파트너들이 한 달 안에 필수 소프트웨어에서 1만 개가 넘는 high- or critical-severity vulnerabilities를 찾았다고 밝혔다. 또한 Claude Mythos Preview 같은 모델이 찾을 수 있는 취약점 규모에 업계가 적응해야 한다고 명시적으로 경고했다. 보안 제품화도 뒤따르고 있다. @perplexity_ai는 macOS/Linux에서 위험한 패키지, 확장, AI 도구 설정을 탐지하는 읽기 전용 스캐너 Bumblebee를 오픈소스화했다. @AravSrinivas는 엔터프라이즈 배포에는 agentic sandboxes와 지속적인 보안 엔지니어링이 필요하다고 말했다.
미국 이민 정책 변화는 AI 리더들의 강한 반발을 불렀다: 여러 고참여 게시물은 영주권 신청자에게 미국 밖에서 신청하도록 강제하는 제안 규칙이 AI 인재 파이프라인을 직접 훼손할 것이라고 주장했다. @Nick_Davidov, @AndrewYNg, @theo, @garrytan, @togelius를 참고. 공통 주장은 이 규칙이 합법적 고숙련 이민자를 처벌하고, 스타트업과 연구를 약화시키며, AI에서 미국의 경쟁력을 해친다는 것이다.

Top tweets (by engagement)

@deepseek_ai on making the V4-Pro discount permanent: 이번 묶음에서 LLM 추론 경제성과 관련해 가장 명확한 단일 시장 신호였다.
@gdb on “the model alone is no longer the product”: 현재의 agent/harness product thesis를 간결하게 표현했다.
@AnthropicAI on Glasswing finding 10,000+ critical vulnerabilities: AI-driven cyber capability가 프로덕션으로 이동하고 있음을 보여주는 가장 강한 데이터 포인트 중 하나다.
@dsp_ on MCP 2026-07-28 RC: 중요한 프로토콜 업데이트다. stateless MCP와 일급 확장이 포함된다.
@GoogleDeepMind on Project Genie + Street View: 소비자 대상 월드 모델을 향한 주목할 만한 단계다.
@cursor_ai on opening the Cursor SDK for custom agents: 코딩 에이전트 인프라 위에서 빌드하는 팀에게 관련성이 높다.

AI Reddit Recap

/r/LocalLlama + /r/localLLM: Qwen 3.7 출시와 Qwen 3.6 로컬 성능

Waiting for Qwen 3.7 open weight… The new King has arrived… (Activity: 1217): image는 Qwen3.7 blog의 벤치마크/마케팅 비교 이미지로, Qwen3.7-Max를 agentic coding, software engineering, MCP/tool-use, reasoning, knowledge 평가 전반에서 Qwen3.6-Plus, DS-V4-Pro Max, GLM-5.1, Kimi K2.6, Claude Opus-4.6 Max와 비교해 선도적 프런티어 모델로 배치한다. 기술적 의미는 이 슬라이드가 Qwen3.7-Max를 여러 벤치마크에서 Claude급 모델과 매우 경쟁적이거나 앞선 것으로 제시한다는 점이다. 다만 Claude Opus-4.6 Max는 ClawEval과 CoWorkBench 같은 일부 작업에서 여전히 앞서는 것으로 보인다. 댓글 작성자들은 이것이 Max 모델이며 더 작은/open-weight 출시를 반드시 대표하지는 않는다고 지적했고, Strix Halo 같은 로컬 하드웨어용 512k 컨텍스트의 잠재적 3.7-122B-A17B MXFP4 모델을 추측했다. 주된 논쟁은 오픈 웨이트에 대한 회의론이었다. 댓글 작성자들은 Qwen이 역사적으로 Max 시리즈를 오픈 웨이트로 공개하지 않았다고 지적하며, 제목의 “open weight를 기다린다”는 프레이밍이 비현실적일 수 있다고 말했다. 다른 이들은 가상의 27B 모델이 표시된 Max급 벤치마크 결과와 같을 것으로 기대하지 말라고 주의했다.
여러 댓글 작성자는 Qwen Max와 가능성 높은 open-weight 출시를 구분하며, *“Qwen has never open-weighted the Max series”*라고 언급하고 더 작은 27B 변형이 Max 수준 벤치마크 성능에 맞먹을 것으로 기대하지 말라고 경고했다. 기술적 함의는 공개/open-weight Qwen 3.7 출시가 벤치마크된 플래그십 모델과 다른 아키텍처/스케일을 사용할 수 있다는 것이다.
한 기술적 위시리스트는 512k 컨텍스트의 가상 Qwen 3.7 122B-A17B MTP MXFP4 모델에 집중했다. 댓글 작성자들은 이것이 Strix Halo급 로컬 하드웨어에 잘 맞을 것이라고 봤다. 또 다른 사용자는 Qwen 3.5 397B-A17B NVFP4를 언급하며, 4x RTX 6000 Pro GPU에 들어가고 약 10개의 동시 200k 토큰 세션을 위한 메모리 여유도 있다고 주장했다. Qwen 3.7이 보고된 벤치마크와 맞는다면 “집에서 쓰는 Opus”가 될 수 있다는 주장이다.
한 댓글 작성자는 고성능 로컬 모델이 제공자 수익화를 약화할 수 있기 때문에 open-weight 프런티어 출시 가능성이 낮아질 수 있다고 주장했다. 그들은 Qwen의 전략이 파괴적 공개에서 수익화된 프런티어 경쟁으로 이동했으며, 이것이 397B-A17B 같은 대형 MoE 모델의 공개 여부에 영향을 줄 수 있다고 주장했다.
Qwen3.6 35Ba3 has changed my workflows and even how I use my computer (Activity: 567): 이 글은 pi를 통해 Qwen3.6 35B a3를 사용하는 로컬 에이전트 워크플로를 설명한다. 사용자는 반복 가능한 절차를 Codex가 생성/문서화한 “skills”로 바꾼 뒤, VPS DevOps, docling PDF→EPUB 변환, Playwright 테스트, 코드 티켓, OS 수준 shell 작업에 재사용한다. 구체적 예시는 WhatsApp audio → AnythingLLM의 transcription → content.md → 로컬 생성 landing page, 이어서 “manager” pi 프로세스가 pi -p @plan.md "Check the first Ticket with Status UNDONE and do it"로 fresh-context sub-agent를 생성해 실행하는 plan.md 티켓 큐다. 티켓을 DONE으로 표시하고 git commit 후 VPS skill로 배포한다. 댓글은 운영 문제에 집중했다. 어떤 하드웨어에서 이 설정을 실행할 수 있는지, OS 접근 권한을 가진 에이전트가 sandboxed/trustworthy한지, pi가 Hermes 같은 다른 agentic 도구에 비해 도입하기 얼마나 어려운지가 쟁점이었다.
한 사용자는 24GB RTX Pro 4000 Blackwell SFF GPU가 있는 MS-02에서 Unsloth Studio를 통해 unsloth/Qwen3.6-35B-A3B-MTP-GGUF를 실행하며 꾸준히 **>100 tokens/s**를 본다고 보고했다. 그들은 Mac Studio M2의 “unoptimized GGUFs”와 성능을 비교하고, MS-02를 Mac 워크스테이션용 소형 원격 GPU 서버로 사용한다고 했다. 또한 Unsloth의 향후 MLX 지원이 Mac 측 성능을 개선할 수 있다고 언급했다. Screenshot: preview.redd.it.
110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp (Activity: 565): 이 글은 RTX 4070 Super 12GB + Ryzen 7 9700X에서 byteshape의 IQ4_XS 4.19 bpw GGUF를 사용해 Qwen3.6-35B-A3B MTP를 벤치마크한다. llama.cpp와 ik_llama.cpp를 --ctx-size 131072, q8_0 KV cache, MTP draft max 3, p_min=0.75로 비교했다. 같은 mtp-bench.py 워크로드에서 upstream llama.cpp는 aggregate MTP accept rate **0.9393**로 평균 **89.76 tok/s**를 기록했고, ik_llama.cpp는 업데이트된 결과에서 aggregate accept rate가 **0.8749**로 낮았음에도 16.64s 동안 평균 **110.24 tok/s**를 기록해 23% 처리량 향상을 주장했다. OP는 실용적 적합성을 ik_llama.cpp의 --fit/--fit-margin 1664 덕분으로 봤고, OOM 완화는 --fit-margin를 1792 또는 2048로 올리면 된다고 했다. 또한 디스플레이를 iGPU에서 실행하면 거의 모든 12GB VRAM을 추론(inference)에 사용할 수 있다고 언급했다. 댓글은 재현성에 집중했다. upstream llama.cpp 전체 명령을 요청했고, 최근 여러 MTP 관련 PR이 병합됐기 때문에 벤치마크 타이밍이 빌드 날짜에 크게 좌우될 수 있다고 지적했다. 단일 GPU CachyOS/KDE 사용자를 위한 기술적 우회책으로는 LIBGL_ALWAYS_SOFTWARE=1과 GALLIUM_DRIVER=llvmpipe를 사용하는 software-rendered Plasma Wayland 세션이 제안됐다. 이는 idle VRAM을 약 >1024MB에서 126MB로 줄이지만 compositor effects가 느려지거나 비활성화된다.
한 CachyOS/KDE Wayland 사용자는 단일 GPU 시스템용 VRAM 절약 우회책을 설명했다. LIBGL_ALWAYS_SOFTWARE=1, GALLIUM_DRIVER=llvmpipe, KWIN_COMPOSE=Q로 KDE Plasma를 CPU 렌더링하도록 강제하는 커스텀 SDDM 세션을 만들었다. 그들은 KDE Wayland idle VRAM이 **> 1024 MB**에서 **약 126 MB**로 내려갔다고 보고했고, 35B 모델 실행을 위해 거의 1GB의 VRAM을 확보할 수 있었다. 대가로 compositor 애니메이션은 비활성화되거나 매우 느려졌다.
여러 댓글 작성자는 보고된 110 tok/s가 ik_llama.cpp의 MTP/speculative decoding 동작이 upstream llama.cpp보다 좋아서 나온 것인지에 집중했다. 한 사람은 ik_llama.cpp의 acceptance rate가 0.790 아래로 내려간 적이 없었다고 알려진 반면, llama.cpp는 **0.477**까지 떨어졌다고 언급했다. 정확한 llama.cpp 명령/설정을 요청하면서, 지난 24시간 안에 llama.cpp에 여러 MTP 관련 PR이 들어갔다고도 지적했다.
한 댓글 작성자는 Qwen3.6 35B A3B에 사용된 IQ4_XS 양자화(quantization)에 대해 질문했다. 이것이 가장 낮은 메모리의 Q4 quant처럼 보인다고 하며, 모델 품질/지능에 미치는 영향과 최종 VRAM/RAM 분할 정보를 요청했다. 이는 12GB VRAM 실행의 핵심 트레이드오프를 보여준다. 공격적 양자화로 모델을 맞추는 것과 추론 품질을 유지하고 과도한 CPU/RAM 오프로딩 병목을 피하는 것 사이의 균형이다.

/r/LocalLlama + /r/localLLM: 오픈소스 AI 자금과 법적 압박

Heretic has been served a legal notice by Meta, Inc. (Activity: 2705): Heretic Free Software Project는 **Meta Platforms, Inc.**를 대리하는 제공자로부터 이메일 법적 통지를 받았다고 밝혔고, Heretic이 통제하는 저장소에서 Meta의 Llama 모델 가중치 파생물을 제거했다. 프로젝트는 공식 독일 호스팅 Codeberg mirror도 발표했으며, 단일 호스팅 제공자에 의존하지 않고 Heretic이 만든 모델에 대한 접근을 보존하기 위한 “technological measures”를 작업 중이라고 말했다. 글은 Llama를 LM Arena 리더보드에서 “among the 200 best” 모델이자 “168 other models”에 뒤처진 모델이라고 비꼬아 언급했다. 상위 댓글은 글의 풍자, 특히 “168 other models” 리더보드 조롱에 집중했고, Meta가 모델 학습에 torrented books나 저작권 자료를 사용했다는 의혹이 있는 상황에서 Meta의 집행을 비판했다.
한 댓글 작성자는 Meta의 Llama family를 현재 open/model 경쟁과 비교하는 법적 대응 문구를 강조했다. LM Arena에서 상위 200 안에 들지만 23개 경쟁자의 168개 모델 뒤에 있다는 표현이다. 제기된 기술적 함의는 Meta의 이름 집행 태도가 Llama의 상대적 벤치마크 위치 및 최근 모델 출시 둔화 인식과 대비된다는 것이다.
DeepSeek is pushing forward with $10.29 billion financing round, with Liang Wenfeng committing to continue developing open-source AI models rather than pursuing short-term commercialization goals (Activity: 797): DeepSeek는 Bloomberg에 따르면 $10.29B financing round를 진행 중인 것으로 알려졌다. 창업자 Liang Wenfeng은 AGI-oriented roadmap과 단기 상업화 목표보다 AI 모델을 계속 출시/공개하겠다는 약속을 재확인했다. 댓글 작성자들은 이를 모델 우위의 반감기가 짧고, 열린 연구가 닫힌 인재/모델 해자보다 반복을 더 빠르게 가속할 수 있다는 전략적 베팅으로 해석했다. 상위 댓글은 로컬 추론 사용자는 소수이므로 가중치를 공개해도 OpenAI, Anthropic, Google, Mistral 같은 연구소의 SaaS/API 수익에 실질적 타격을 주지 않을 것이라고 주장했다. 어떤 아키텍처 우위도 대략 ~1 year 정도의 유통기한을 갖는다고 추정했다. 또 다른 댓글 작성자는 공개 모델이 이미 GLM 5.1 수준의 코딩 지원에는 *“good enough”*에 도달했으며, 다음 프런티어는 비슷한 능력을 더 작고 빠르고 효율적인 모델로 압축하는 것이라고 말했다.
댓글 작성자들은 모델 가중치의 기술적/상업적 유통기한이 짧다고 주장했다. 아키텍처 이점은 약 1 year만 지속될 수 있고, 로컬 추론 사용자는 호스팅 API 사용자에 비해 극소수라는 것이다. 이 주장은 **OpenAI, Anthropic, Google, Mistral, etc.**가 가중치를 공개해도 대부분의 사용자가 9B 모델조차 로컬에서 실행할 하드웨어/관심이 없기 때문에 수익에 실질적 타격이 없을 것이라는 내용이다.
한 기술 스레드는 현재 공개 모델이 코딩 지원에 “good enough”한 능력에 도달했다고 보며 GLM 5.1을 기준 모델로 들었다. 그 댓글에 따르면 남은 우선순위는 원시 지능이 아니라 증류/압축이다. 코딩 능력을 더 작고 빠르고 효율적으로 배포 가능한 모델에 보존하는 것이다.
한 댓글 작성자는 DeepSeek가 멀티모달 기능 추가를 작업 중이라고 밝힌 자체 보고서를 가리켰다: DeepSeek_V4.pdf. 주목할 만한 기술적 관점은 DeepSeek가 GPU/export-sanction 제약에도 모델 확장을 계속하고 있다는 점이며, 제한된 하드웨어 접근 아래에서도 계속 진전하고 있음을 시사한다.

Less Technical AI Subreddits: Claude Code 워크플로와 Anthropic 에이전트 교육

대상 서브레딧: /r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo

Claude Code dropped /workflows (Activity: 1074): 이미지는 **Claude Code의 /workflows**를 위한 간단한 Claude 브랜드 발표 그래픽이다. 글의 주장에 따르면 Anthropic은 Claude Code 2.1.147에서 새로운 워크플로 시스템을 잠깐 노출했다가 changelog에서 제거했다. 주장된 기술적 의미는 LLM 기반 오케스트레이터를 workflow.js 코드 기반 컨트롤러로 대체하는 것이다. structured phases, parallel fan-out, conditionals/loops/budgets, retries, background execution, 그리고 sub-agent 출력을 main chat context가 아니라 단계 사이에서 전달해 context-window “token tax”를 줄이는 방식이 포함된다. Image: https://i.redd.it/6tuq1a2i3p2h1.png. 댓글 작성자들은 이것이 근본적으로 새로운 multi-agent 패턴인지에 회의적이었고, 기존 Claude Code agent teams를 지적했다. 다른 이들은 “Opus 4.5” 같은 더 새롭고 나은 모델을 원하는 것에 비하면 낮은 우선순위 기능이라고 일축했다.
한 댓글 작성자는 Anthropic의 기존 Claude Code “agent teams” docs (https://code.claude.com/docs/en/agent-teams)를 링크하며, 설명된 /workflows 패턴, 즉 *“one main agent (an LLM) decides what sub-agents to spawn, holds every intermediate result, and plans the next step”*이 이미 문서화된 multi-agent orchestration 개념과 겹친다고 언급했다.
보고된 /workflows 기능은 일시적이었던 것으로 보인다. 한 댓글 작성자는 changelog에 이전에는 보였지만 Anthropic has since taken it down이라고 말하며, 제거된 changelog 항목의 screenshot mirror를 제공했다 (https://preview.redd.it/720w663mcp2h1.png?width=2056&format=png&auto=webp&s=d7afca73806dd159eff3141db0f61de5a37526a8).
한 사용자는 이 기능을 skills + YAML + a JavaScript CLI를 중심으로 만든 자신의 커스텀 오케스트레이션 스택과 비교했다. 이는 /workflows가 개발자들이 반복 가능한 Claude Code 작업 파이프라인을 위해 이미 수동으로 구현하던 패턴을 공식화할 수 있음을 시사한다.
Anthropic officially launched 13+ FREE AI courses with certificates (Including Agentic AI and Claude Code!) (Activity: 2547): Anthropic은 Anthropic Learn에서 접근할 수 있는 Skilljar 기반 academy를 통해 무료 공식 교육 카탈로그를 제공하고 있다. 과정은 Claude, Claude Code, Claude API, MCP / agentic workflows, 그리고 Amazon Bedrock 및 Google Cloud Vertex AI 배포 트랙을 다루며 수료증을 제공한다. 기술적으로 주목할 만한 내용은 STDIO와 StreamableHTTP transport 주변의 고급 주제를 포함한 MCP 자료와, codebase editing, test execution, “Plan Mode”를 다루는 Claude Code 모듈이다. 별도의 무료 CodeSignal 트랙인 “Developing Claude Agents”도 interactive Python/TypeScript labs와 수료증을 제공하는 것으로 언급됐다. 댓글 작성자들은 Skilljar 과정이 Anthropic 공식 사이트에서 링크되므로 합법적인 과정이라고 확인했고, 10/15 과정을 완료한 한 사용자는 MCP와 advanced MCP 모듈이 특히 *“worth the squeeze”*라고 추천했다.
여러 댓글 작성자는 Skilljar 과정이 합법적인 Anthropic 교육 자료라고 확인했다. 과정 포털이 서드파티 사기나 재게시물이 아니라 anthropic.com/learn에서 링크되기 때문이라고 했다.
10/15 과정을 완료한 한 사용자는 특히 MCP와 MCP Advanced Topics 모듈을 유용하다고 강조했다. Model Context Protocol 통합을 위한 STDIO와 StreamableHTTP transport protocol을 실무적으로 다룬다는 이유다.
몇몇 사용자는 이 카탈로그가 새로 출시된 것이 아니라 몇 달 전부터 제공됐다고 언급했다. 두 과정을 완료한 한 댓글 작성자는 과정이 *“quite basic”*하다고 설명하며, 숙련된 AI 개발자에게는 고급이라기보다 입문에 가까울 수 있음을 시사했다.

Less Technical AI Subreddits: Z-Image 6B, Gemini 3.5 Flash, OpenAI 수학 업데이트

Tencent released Z-Image 6B with pixel space gen. No VAE & 1k Resolution. (Activity: 899): image는 Tencent/Z-Image 6B / L2P의 샘플 콜라주로, 인물, 동물, 판타지 장면, 차량, 스타일화된 구성을 아우르는 1024px급 pixel-space image generation을 보여준다. 핵심 기술적 주장은 VAE 없이 생성한다는 점이다. 글은 프로젝트 페이지 nju-pcalab.github.io/projects/L2P를 링크했고, 한 댓글 작성자는 Hugging Face의 모델 파일 zhen-nan/L2P를 가리켰다. 댓글은 주로 아키텍처 트렌드, 즉 *“Everyone going for No-VAE now huh”*에 집중했고, 벤치마크나 상세 평가보다는 *“Is it any good?”*처럼 실제 품질을 질문했다.
한 댓글 작성자는 Hugging Face의 모델 파일을 가리켰다. zhen-nan/L2P at https://huggingface.co/zhen-nan/L2P/tree/main. 이는 Tencent의 Z-Image 6B 릴리스와 주장된 pixel-space generation / no-VAE 설정을 검토/다운로드하려는 독자에게 관련이 있다.
여러 댓글은 No-VAE / pixel-space image generation으로 향하는 더 넓은 기술 트렌드를 강조했다. 한 사용자는 *“Everyone going for No-VAE now huh”*라고 적었다. VAE를 피하는 것은 compression/latent bottleneck 트레이드오프를 바꾸며, reconstruction fidelity, memory cost, 그리고 글에서 주장한 1k resolution 같은 native high-resolution generation에 영향을 줄 수 있다는 점에서 주목할 만하다.
한 댓글 작성자는 Lodestone과의 비교를 제기했다. Tencent의 접근이 Lodestone의 no/low-latent 방향에서 배웠는지, 또는 Lodestone이 Z-Image에서 배울 수 있는지를 물었다. 스레드는 벤치마크 데이터를 제공하지 않았지만, 이 기술 비교는 직접 pixel-space diffusion/flow generation을 위한 open-weight 아키텍처 수렴에 관심이 있음을 시사한다.
Google’s latest creation: Gemini 3.5 Flash vs all (Activity: 1503): 이 글은 Gemini 앱에서 Google Gemini 3.5 Flash의 단순 산술 실패를 보고한다. 프롬프트 300+140=460 / “Is this correct? Breakdown?”에 대해 공유된 Gemini 실행이 잘못된 합계를 받아들였다고 하며, 비교 실행은 Claude, Grok, ChatGPT에 링크됐다. 댓글 작성자들은 문제를 재현했고 이를 Gemini 앱 추론(inference) 설정 탓으로 봤다. “Standard”/default thinking은 minimum 또는 no reasoning처럼 동작하며, Extended thinking이나 더 높은 thinking 설정의 AI Studio에서는 올바른 300 + 140 = 440을 반환한다고 보고했다. 주된 논쟁은 이것이 base model의 능력에 대한 증거라기보다 product-level serving configuration에 대한 증거라는 점이었다. 댓글 작성자들은 **Gemini 앱이 기본/minimum thinking 설정에서 AI Studio에 비해 “nerfed”**됐다고 주장했다. OP는 SOTA/finance-agent 순위를 주장한 상황에서 부끄러운 결과라고 봤고, 다른 이들은 벤치마크 성능이 low-effort app defaults를 반영하지 않을 수 있다고 제안했다.
사용자들은 이 명백한 실패가 Gemini의 thinking level에 크게 의존한다고 보고했다. Extended thinking으로 바꾸면 답이 고쳐지고, Standard는 사실상 *“doesn’t think at all”*로 묘사됐다. 또 다른 댓글 작성자는 스크린샷(preview image)으로 같은 출력을 재현했고, Gemini 앱은 minimum thinking에 가까운 설정을 기본값으로 쓰는 반면 AI Studio는 Low thinking만 사용해도 실수를 피한다고 주장했다.
tool-calling behavior를 둘러싼 기술 비교도 제기됐다. 한 댓글 작성자는 Gemini의 약점이 반드시 raw reasoning이 아니라 tool-routing logic일 수 있다고 주장했다. ChatGPT는 이 작업을 순수 in-model로 풀기보다 Python에 위임할 가능성이 높다는 것이다. 이는 벤치마크 결과가 모델이 도구를 호출할 수 있는지와 도구 사용 결정을 얼마나 신뢰성 있게 하는지에 따라 달라질 수 있음을 시사한다.
Math grad student friend says we’re cooked (Activity: 825): image는 최근 주장된 Erdős proof에 대해 수학 대학원생이 놀란 반응을 전하는 tweet screenshot이다. 글 제목 *“Math grad student friend says we’re cooked.”*로 프레이밍됐다. 여기에는 증명의 기술적 세부사항, 정리 진술, 모델, 벤치마크, 검증 과정이 제공되지 않는다. 의미는 맥락적/사회적이다. 한 수학자가 그 결과를 이전에는 “completely unapproachable”했던 것으로 묘사하고, OpenAI의 발표가 “exceedingly tacky and in bad taste”였다고 말했다. 댓글 논의는 대부분 비기술적이고 밈 중심이었으며, “OnlyFans but for nerds” 농담으로 흘렀다. 한 댓글 작성자는 “exceedingly tacky and in bad taste”가 무슨 뜻인지 물었지만, 수학이나 AI 능력 주장에 대한 실질적 논쟁은 없었다.
한 댓글 작성자는 “creative and intellectual” 작업이 안전하다는 인식이 약해졌다고 주장했다. AI 시스템이 mathematics, theorem proving, research-level reasoning에서 능력을 보이기 시작했기 때문이다. 기술적 요지는 자동화 위험이 작업의 반복성과 깔끔하게 상관되지 않을 수 있다는 점이다. 대신 advanced reasoning benchmarks와 formal proof systems가 AI 영향을 평가하는 데 점점 더 중요해지고 있다.

AI Discord Recap

접근 중단 공지

Discord 접근 중단: 안타깝게도 Discord가 오늘 접근을 차단했다. 이 형태로 다시 가져오지는 않을 예정이지만, 새로운 AINews를 곧 출시할 예정이다. 여기까지 읽어줘서 고맙다. 좋은 여정이었다.

오늘의 요약