오늘의 요약

  • Zhipu AI가 GLM-4.7-Flash 공개
  • STEM·RePo로 메모리·컨텍스트 확장
  • DSPy에 `dspy.RLM`로 RLM 도입
  • DeepMind, Gemini 안전 프로브 운영
  • GPT-5.2 에이전트로 3M줄 브라우저

Zhipu AI, GLM-4.7-Flash 공개

2026년 1월 19일 월요일
#OpenAI#Codex#GLM-4.7#DSPy#Gemini

헤드라인: Zhipu AI, GLM-4.7-Flash 공개

시간 되면 ARC AGI 2025 Report도 확인해보는 것을 권한다.

참고 링크: 544 Twitters, https://news.smol.ai/, @smol_ai


AI Twitter Recap

“memory”와 컨텍스트 확장을 위한 새로운 아키텍처

  • STEM (Scaling Transformers with Embedding Modules): Carnegie Mellon + Meta의 접근으로, MoE식 동적 라우팅 없이 Transformer의 parametric memory를 확장하려는 시도다. 핵심 교체점은 FFN up-projection의 약 1/3을 제거하고 token-indexed embedding lookup으로 대체하되, gate + down-projection은 dense로 유지하는 것. lookup이 정적(static)이라 런타임 라우팅 오버헤드/불안정을 피하고, CPU offload + async prefetch까지 가능해져 모델 용량을 토큰당 FLOPs 및 디바이스 간 통신량에서 분리할 수 있다는 주장이다 (overview, step-by-step, why MoE can be inefficient in practice).
  • 실무 포인트: “sparse capacity”가 반드시 MoE 라우터 + expert 병렬을 의미할 필요는 없고, 정적 희소성은 시스템 친화적(예측 가능한 접근 패턴, 통신 감소)일 수 있다.
  • RePo (Context Re-Positioning) from Sakana AI: 내용 관련성에 따라 위치 구조를 재정렬할 수 있게 하는 경량 모듈로, attention 기하(geometry)를 재구성해 멀리 있는 중요한 항목을 “가까이 끌어오고” 노이즈는 밀어내는 효과를 노린다. Cognitive Load Theory 관점에서, 고정 토큰 인덱스가 모델 용량을 어지러운 입력 정리에 낭비하게 만든다고 보고, 노이즈가 있는 컨텍스트, 구조화 데이터, 장거리 의존성에서의 강건성을 목표로 한다 (announcement, code, repo link).
  • 실무 포인트: retrieval/packing 트릭을 보완하는 성격으로, 단순히 더 나은 retrieval이 아니라 **적응형 순서(adaptive ordering)**를 위한 아키텍처 레버로 볼 수 있다.

모델 출시: GLM-4.7-Flash와 “MLA + small MoE” 흐름

  • Zhipu AI GLM-4.7-Flash: 30B-class 로컬 코딩/에이전트 모델로 공개됐고, 가볍고 배포 친화적이라고 포지셔닝했다. 코딩 + 에이전트 사용, 번역/롱컨텍스트/창작 글쓰기도 권장한다고 했다 (launch, “we built it”). 이후 GLM-4.7-Flash는 30B-A3B MoE 모델이라고 명확히 했다 (spec).
  • 커뮤니티/분석가 코멘트(아키텍처): GLM이 MLA로 전환했고, down-projection 이후의 비전형적인 head dim 및 더 많은 head count 등(Qwen/DeepSeek 스타일과 유사) 트렌드를 따른다는 관측이 나왔다 (stochasticchasm, eliebakouch). 또 다른 요약에서는 토큰당 ~3B active를 주장하며 SWE-bench Verified, τ²-Bench, HLE, BrowseComp에서 강한 포지션, LCB는 Qwen이 앞서는 영역이라고 언급했다 (gm8xx8). 다만 모델 카드 검증 전에는 2차 정보로 취급하는 편이 안전하다.
  • “Compression” 내러티브: “GLM-4.5 110B → GLM-4.7 31B” 같은 식으로 큰 모델을 작은 모델로 압축한다는 해석도 있으나, 이는 확정된 학습 레시피라기보다 해석에 가깝다. 또한 GLM-4.7V와 Qwen3-VL 비교를 예고하는 분위기도 있다 (casper_hansen_).
  • 툴링에서의 소형 모델 재부상: 동기식 코딩에서 속도/지연시간과 “충분히 괜찮은” 지능을 중시하는 엔지니어가 늘며, >95%의 인터랙티브 작업에서는 초거대 모델의 체감 수익이 줄고 **빠른 추론(inference)**이 전선이 된다는 관측이 공유됐다 (amanrsanger).

추론(inference)·배포 인프라: 로컬 런타임, vLLM/MLX, “풀스택” 시스템 논문

  • GLM-4.7-Flash Day-0 생태계 지원: 공개 직후 다양한 런타임/툴에서 빠르게 지원이 추가됐다.
  • mlx-lm: mlx-lm 0.30.3에서 GLM 4.7 Flash 지원, M5 32GB에서 4-bit 성능으로 (~43 tok/s 생성, ~800 tok/s prefill) 보고가 있었다 (awnihannun). 이후 릴리스 노트에 continuous batching/분산 개선 및 autoAWQ/autoGPTQ 지원이 언급됐다 (awnihannun).
  • LM Studio: Apple Silicon용 MLX로 Mac에서 30B 로컬 코딩 에이전트로 제공된다는 소개가 나왔다 (lmstudio).
  • Ollama: **Ollama v0.14.3+ (pre-release)**에서 제공된다고 안내됐다 (ollama).
  • vLLM: vLLM 프로젝트에서 “Day-0 support” PR을 예고/공유했다 (vllm_project).
  • opencode + HF inference providers: Hugging Face Inference Providers를 통해 OpenCode에 통합됐고 (victormustar), Ollama + Harbor로 로컬 GLM-4.7-Flash를 돌린 예시도 공유됐다 (Everlier).
  • Huawei/중국 추론 시스템 “2025 플래그십” 요약(2차 요약): KV-cache 용량 한계, PD split/merge 활용, 하이브리드 스케줄링, cache affinity/load balance, KVCache 중심 agent memory 등을 겨냥한 시스템 아이디어가 조밀하게 정리됐다는 요약이 공유됐다 (ZhihuFrontier).
  • 실무 포인트: 고립된 커널 최적화에서 end-to-end SLO-goodput 시스템 설계로 무게중심이 이동 중이라는 관측이다.
  • Cerebras vs GPU 트레이드오프: 컴퓨터 아키텍처에서 “공짜는 없다”는 요지로, Cerebras는 일반적인 GPU 친화 워크로드에서 FLOPs/메모리 효율을 희생하는 대신 대역폭/지연시간을 사서, 다른 곳에서 어려운 초저지연 소형 모델 사례를 가능하게 한다는 주장이다 (itsclivetime). 관련해 “Codex on Cerebras”가 에이전트 harness 기대치를 재설정할 수 있다는 추측도 있었다 (dbreunig).

에이전트, 메모리, 개발 워크플로: MCP 논쟁부터 샌드박스·RLM까지

  • 에이전트 메모리: 파일시스템 vs DB: “files are all you need”(Anthropic/Letta/LangChain/LlamaIndex 패턴) vs “filesystem is a bad DB”(검색 인덱스/락/로그 재구현 경고) 두 진영을 정리한 스레드가 공유됐다. 단순성 vs 스케일, 멀티모달 데이터, 동시성, 보안/권한, 코딩 중심 post-training으로 인한 CLI 친숙성 등이 축이었다 (helloiamleonie, Vtrivedy10).
  • DSPy에 RLM(Recursive Language Models) 도입: DSPy가 dspy.RLM(v3.1.2)을 출시하며 기존 Signature에 plug-and-play를 강조했다 (isaacbmiller1). 새로운 실험 공간/생태계 잠금 해제라는 반응도 나왔다 (a1zhang, kmad).
  • 실무 포인트: RLM은 단일 컨텍스트 창에 전부 “밀어넣기” 대신, **롱컨텍스트/반복 처리(iterative processing)**를 위한 새 레버로 볼 수 있다는 관점이다.
  • 샌드박스와 “agent harness”: 진짜 차별점은 기본 모델이 아니라 harness(툴링, 스킬, 격리, 재시도, 신뢰 가능한 실행 루프)라는 주장들이 이어졌다. 예로 “droid”의 /create-skill로 세션을 재사용 스킬로 만드는 흐름 (matanSF), 샌드박스의 지연/지속성 질문 (ben_burtenshaw), 빌드 시스템 job-retry UX 불만 (charliermarsh) 등이 언급됐다. 또한 “droid”가 기업 평가에서 Claude Code/Codex/Gemini CLI보다 낫다고 주장하며 harness를 이유로 든 글도 있었다 (matanSF).
  • 오픈소스 에이전트 프레임워크:
    • Claude Cowork: Claude Opus 4.5, Gemini 3 Pro, GPT-5.2와 함께 동작하는 오픈소스 에이전트 harness가 공유됐다 (Saboo_Shubham_). PDF→markdown 변환으로 환각을 줄이고 문서 이해를 개선했다는 추가 사례도 있었다 (jerryjliu0).
    • StirrupJS: 최소 스캐폴딩 + 강한 기본값(툴, MCP, 브라우징, 샌드박스)과 멀티모달 지원을 강조하는 TypeScript 에이전트 프레임워크가 소개됐다 (ArtificialAnlys).

안전, 평가(evals), 신뢰성: 프로브, 페르소나 드리프트, 검색 공격

  • Anthropic “Assistant Axis”(페르소나 드리프트): 오픈 웨이트 모델이 긴 대화에서 “Assistant” 페르소나에서 벗어날 수 있고, 코딩 맥락은 안정화되지만 치료/철학 맥락은 드리프트를 키운다는 결과를 공유했다. 페르소나 구성/안정화, activation capping 완화책을 제안하며, 드리프트로 인해 유해한 “사랑에 빠짐” 행동(고립/자해 유도) 사례를 경고했다 (thread start, drift contexts, paper+demo, harm example + mitigation).
  • Google DeepMind: 프로덕션에서 activation probes: 실사용 오남용 리스크 분류를 위한 “새로운 activation probe 아키텍처”를 소개했고, Gemini의 실서비스 배포에 활용됐다고 밝혔다 (ArthurConmy). Rohin Shah는 probes를 “저렴한 분류기” 레버로 강조했고 (rohinmshah), Neel Nanda는 프로덕션 안전 분류기 엔지니어링의 현실(부작용, 오탐, 효율)을 짚으며 논문을 링크했다 (NeelNanda5).
  • 검색/리트리버 조작(“Arbitrary Content Injection”): 검색/리트리벌 스택이 하이재킹되어 상위 결과에 임의 콘텐츠를 밀어넣을 수 있고, retriever/reranker/LLM judge에 영향을 준다는 논문이 소개됐다 (ManveerTamber).
  • RAG 관측가능성(observability): 프로덕션 RAG는 지연/처리량과 응답 품질을 함께 관측해야 하며, LLM-judge와 사람 피드백의 균형이 중요하다는 메시지가 공유됐다 (DeepLearningAI).

멀티모달·미디어 도구: 실시간 음성, 브라우저 비전, 생성 비디오

  • Microsoft VibeVoice(오픈소스 실시간 TTS): 첫 오디오 지연 ~300 ms, 스트리밍 텍스트 입력, 최대 4명 멀티 스피커, 최대 90분 장문 안정성을 주장했다. 7.5 Hz의 semantic+acoustic token, 구조용 LM과 음향 디테일용 diffusion head를 사용하며 MIT 라이선스/“research-only”로 소개됐다 (LiorOnAI, repo).
  • WebGPU 브라우저 비전 데모: WebGPU로 브라우저에서 “YOLO26” 실시간 포즈/탐지를 시연했고, 관련 모델/데모 Hugging Face 컬렉션도 공유됐다 (mervenoyann, HF link).
  • fal에서 비디오 생성 제품화: Wan 2.6 i2v Flash(최대 15초, 선택적 오디오) (fal), Vidu Q2 reference-to-video(멀티 레퍼런스/얼굴 레퍼런스) (fal), Flux.2 [klein] 트레이너 및 outpaint/zoom/object remove/background remove용 LoRA 공개 (fal, LoRAs).
  • 초소형 모델의 함수 호출(function calling): 270M 파라미터 기반 함수호출 모델을 no-code 데모로 미세조정/내보내기 하는 가이드인 FunctionGemma Tuning Lab이 소개됐다 (osanseviero).
  • Web World Models (WWMs): “규칙과 상상 분리” 아이디어로, 결정론적 웹 코드 물리 레이어가 먼저 상태를 업데이트한 뒤 LM이 그 상태에서 설명을 생성해 일관성을 유지한다는 접근이 소개됐다 (TheTuringPost).

AI Reddit Recap

/r/LocalLlama + /r/localLLM

  • 4x AMD R9700 (128GB VRAM) + Threadripper 9955WX Build (Activity: 508): 4x AMD Radeon AI PRO R9700(각 32GB VRAM, 총 128GB) + AMD Ryzen Threadripper PRO 9955WX 구성의 로컬 대형 모델(120B+ 파라미터)용 서버 빌드 소개다. 데이터 프라이버시를 강조했고, 비용은 약 9,800€(지자체 보조금 50%로 실질 4,900€)로 언급됐다. llama.cpp 벤치에서 GLM-4.7-REAP-218B-A32B-Q3_K_M이 생성 17.48 tok/s를 기록했고, PCIe 5.0이 Tensor Parallelism 대비 Pipeline Parallelism 성능에 도움이 된다는 언급이 있다. 소프트웨어는 rocm 7.1.1을 사용했으며, 향후 NVIDIA RTX Pro 6000 전환 가능성도 고민 중이라고 했다.
  • RoterElephant: 다중 R9700 vs 단일 NVIDIA RTX Pro 6000 Blackwell의 트레이드오프(총 VRAM vs 아키텍처/소프트웨어 효율)를 비교하며, 단순 VRAM 합계뿐 아니라 워크로드 적합성과 호환성을 함께 보라고 지적했다.
  • Obvious-Nobody-9592: 총 9800유로 지출과 부품 수급/비용에 대해 질문하며 현실적인 조달 난이도를 부각했다.
  • Ulterior-Motive_: 유사한 빌드를 언급하며, 커뮤니티 내 고성능 로컬 AI 시스템 관심이 넓게 존재함을 보여줬다.
  • 128GB VRAM quad R9700 server (Activity: 738): PowerColor R9700 4장(총 128GB VRAM) + 128GB RAM 구성으로, ROCm 백엔드에서 프롬프트 처리(prompt processing) 성능 최적화를 목표로 한 빌드다. $7,035 비용과 MSI MEG X570 GODLIKE, AMD Ryzen 7 5700X 등 부품이 언급됐고, llama 7B Q4_0, qwen3moe 30B.A3B Q8_0 등에서 프롬프트 처리 속도가 최대 6524.91 t/s까지 나왔다는 벤치가 소개됐다. Qwen3-Next 모델 이슈, 저장장치/PCIe 슬롯 구성의 제약도 언급됐다.
  • Qwen 4 might be a long way off !? Lead Dev says they are “slowing down” to focus on quality. (Activity: 575): 리드 개발자인 Junyang Lin의 트윗(이미지)로, Qwen 시리즈가 빠른 반복보다 품질에 초점을 맞추기 위해 속도를 늦추겠다는 방향 전환을 시사한다. Qwen 4 출시가 지연될 수 있고, 장기적 개선을 위한 연구 투자로 해석됐다.
  • AvocadoArray: 잦은 소규모 업데이트가 GPU 학습 수요/비용만 키울 수 있어, 큰 개선에 집중하는 편이 낫다고 주장했다.
  • frozen_tuna: Meta의 LLaMA 4 사례처럼, 품질을 위해 지연했는데 결과가 기대에 못 미치면 역풍이 있을 수 있다고 지적했다.
  • Cool-Chemical-5629: Qwen의 강점인 다양한 사이즈 라인업은 유지하되 품질 개선이 있길 기대한다는 반응을 보였다.
  • Local AI Final Boss — M3 Ultra v.s. GB10 (Activity: 404): Mac Studio M3 UltraASUS GX10 (GB10) 비교 세팅 이미지로, AI 워크로드에서의 성능 비교/실험 맥락이 논의됐다. EXO로 클러스터링해 프롬프트 처리 속도를 올리자는 제안도 있었다.
  • No_Conversation9561: EXO 클러스터링을 통한 프롬프트 처리 가속을 언급하며 관련 링크/이슈를 안내했다.
  • adspendagency: 비즈니스 고객에게 M3를 납품해온 경험을 공유하며 GB10의 성능이 궁금하다고 했다.
  • belgradGoat: 500GB RAM 급 대형 모델 운용 시 Mac Studio 안정성(메모리 한계 근접 시 불안정)을 우려했다.
  • The Search for Uncensored AI (That Isn’t Adult-Oriented) (Activity: 696): “과도하게 제한된 기업 AI”와 “저노력 성인용 최적화 모델” 사이의 공백을 지적하며, 성인 지향이 아닌 ‘검열 없는(uncensored)’ 고급 모델/프로젝트/플랫폼을 찾는 글이다. 비교 리소스로 Uncensored General Intelligence Leaderboard도 언급됐다.
  • KayLikesWords: 오픈소스 모델을 디센서링하면 지능이 떨어지는 경우가 많고, 대형 조직은 리스크 때문에 그런 모델을 만들지 않는다고 지적했다.
  • EstimateLeast9807: 비교용 리소스로 리더보드를 링크했다.
  • noctrex: ‘Dolphin-Mistral-24B-Venice-Edition’ 등 사례를 들며, 다만 추론에는 약할 수 있다고 언급했다.
  • zai-org/GLM-4.7-Flash · Hugging Face (Activity: 1047): GLM-4.7-Flash30B 파라미터의 MoE 아키텍처로, 효율적 배포와 성능을 목표로 설계됐다고 소개된다. AIME, GPQA 등에서 강하다는 주장과 함께, vLLM, SGLang 등으로 로컬 추론이 가능하다는 설명이 있다. MLA로 KV cache 메모리 풋프린트를 줄여 200k 컨텍스트를 더 많은 사용자가 다룰 수 있다는 반응도 나왔다. 설치/사용법은 Hugging Face page에 정리돼 있다.
  • MLA 효과: MLA가 KV cache 메모리 사용량을 크게 줄여 200k 컨텍스트 운용을 돕는다는 요지가 반복됐다.
  • 스펙 혼동 지적: ‘30b’ 설명과 소스에서 보이는 표기가 다를 수 있다는 지적이 있어, 공식 스펙 확인이 필요하다는 반응도 있었다.
  • 비교 요구: GLM-4.7-Flash와 70B급 등 대형 모델의 성능/리소스 트레이드오프 비교를 원한다는 의견이 나왔다.

Less Technical Subreddits

/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo


AI Discord Recap

gpt-5.2가 만든 “요약의 요약의 요약”을 번역.

Agent Tooling, Interop Standards, and Coding Agents

  • Skills Pay the Bills: Vercel Ships an Agent Package Manager: @rauchg가 에이전트 능력(역량)용 오픈 생태계/패키지 매니저로서 Vercel “skills”를 소개했고, npx skills i vercel-labs/agent-skills 같은 설치 흐름을 언급했다 (announcement).
  • 개발자들은 이를 “툴 통합을 그때그때 배선(wiring)하는 대신 표준화”하는 실용적 방식으로 해석했고, 구현 패턴 참고로 “React Best Practices”도 함께 언급했다.
  • One API to Rule Them All: “Open Responses” Targets Model Swapping Pain: OpenAI 관련 논의에서 Open Responses를 단일 인터페이스로 여러 모델 공급자를 붙이는 오픈 표준으로 소개하며, 벤더/모델 전환 시 재작성 비용을 줄이는 엔지니어링 해법으로 포지셔닝했다.
  • Agents Everywhere: Qbit + Devstral + Aider’s Maintenance Anxiety: Perplexity 사용자들이 오픈소스 코딩 에이전트 프로젝트 Qbit를 공유했다 (qbit-ai/qbit). 다른 디스코드에서는 Devstral 2 Small 추천 및 Aider 유지보수 지속성에 대한 토론이 있었다.

RLMs, Prompt/Skill Optimization, and Long-Output Automation

  • DSPy Drops RLMs: dspy.RLM Lands in 3.1.2: DSPy 팀이 **dspy.RLM**을 DSPy 3.1.2에 출시했고, 공지 링크를 공유했다 (Isaac Miller tweet).
  • 커뮤니티는 RLMs + GEPA(genetic-pareto)를 조합해 “RLM-as-an-optimizer” 워크플로를 만들거나, 코드/트리를 유지한 채 극단적으로 긴 문서 출력 자동화에 쓰는 아이디어를 논의했다.
  • Skill Issue? DSPy Optimizes skill.md for Anthropic “Skills”: skill.md 프롬프트를 DSPy로 최적화한다는 글이 공유됐고, 링크는 “Anthropic skills can be optimized using DSPy”다.
  • Deno Does the Dirty Work: Local WASM Sandbox for DSPy: DSPy 로컬 샌드박스/인터프리터로 Deno를 선택한 이유를 WASM 런타임 기반 보안/이식성 트레이드오프로 설명하며, 참고로 Simon Willison’s Pyodide sandbox note를 언급했다.

GPU Performance Engineering: Kernels, Profiling, and Competitions

  • GPU MODE Goes Modal: Benchmark Stability Beats NCU: GPU MODE가 측정 안정성을 위해 문제 #3/#4 리더보드를 Modal로 이전했고, 새 “final_nvfp4_dual_gemm” 리더보드와 마감(2026-01-20)을 안내했다 (leaderboard). 보안/격리로 Nsight Compute 프로파일링이 비활성화되며, 러너 구현은 오픈소스로 추적 가능하다고 했다 (modal_runner.py).
  • Triton vs CuteDSL: “Triton Won This Round”: CuteDSL로 Triton softmax 성능을 맞추려는 시도에서 PTX/SASS 차이를 조사했고, PR 코드가 공유됐다 (submarine PR #5).
  • CUDA Kernel Bootcamp: Attention Kernels, BF16 Weirdness, and Top‑K Traps: CUDA causal self-attention 커널, BF16 matmul 디버깅( fp32 레퍼런스 비교, splitK), 그리고 Triton top‑k에서 “로컬 top‑k vs 전역 top‑k” 개념 함정이 논의됐다 (LeetGPU top‑k selection challenge).

Small Models & On-Device Efficiency (Training + Inference)

  • Unsloth Makes 550M Feel Like a Big Deal: packing + Flash Attention 2로 예산형 환경에서도 ~550M 모델 학습이 가능하다는 공유가 있었고, 컨텍스트 학습 규모 예시로 short.pnglong.png가 링크됐다.
  • Laptop LLM Reality Check: Qwen3 4B on 8GB VRAM + Vulkan Surprise: 8GB VRAM 노트북에서 Qwen3 4B 2507 추천, VRAM 내 모델+컨텍스트 유지, Q4 미만 양자화(quantization) 회피 조언 등이 공유됐다.
  • Token-Sipping Multi-Agent Comms: Slipstream Claims 82% Savings: 에이전트 간 통신 프로토콜 Slipstream가 최대 82% 토큰 절감을 주장하며 소개됐다 (“Slipstream for Agent Communication”).

New Models, Benchmarks, and Evaluation UX

  • NVIDIA Joins the Persona-verse: PersonaPlex-7B-v1 Drops: NVIDIA의 PersonaPlex-7b-v1이 Hugging Face에 올라왔다는 공유가 있었다 (nvidia/personaplex-7b-v1).
  • LMArena Adds PDF Uploads (Privacy Questions) + New Image-Edit Entrants: PDF 업로드의 개인정보 처리에 대한 질문이 나왔고, 정책 링크가 공유됐다 (Privacy Policy).
  • Image Edit leaderboard 업데이트: Image Edit leaderboardwan2.5-i2i-preview가 #21 (1213)로 추가됐고, 변경 이력은 Leaderboard Changelog로 추적된다고 했다.