구글 딥마인드, Gemma 4 오픈웨이트 공개

헤드라인: 구글 딥마인드, Gemma 4 오픈웨이트 공개

참고 링크: 544 Twitters | AINews’ website | AINews is now a section of Latent Space | opt in/out

Google DeepMind가 오픈웨이트(open-weight) 모델 패밀리인 Gemma 4를 공개하며, 상업적 사용이 가능한 Apache 2.0 라이선스를 적용했다. Gemma 4는 추론(reasoning)과 에이전틱(agentic) 워크플로, 그리고 로컬/엣지 배포를 겨냥했고, 텍스트·비전·오디오를 아우르는 멀티모달과 최대 256K 컨텍스트를 강조했다. 출시 직후부터 llama.cpp, Ollama, vLLM 등 주요 로컬 추론(inference)/서빙 스택에서 빠르게 지원이 붙었고, 실제 장비에서의 처리량과 KV 양자화(quantization) 같은 구체적인 운영 팁도 함께 확산됐다.

주의: ## 헤드라인 섹션에서 새로운 마크다운 링크를 추가하거나, 아래 Recap에 이미 있는 링크를 중복해서 다시 넣지 마세요.

AI Twitter Recap

Google DeepMind의 Gemma 4 출시: 오픈웨이트, Apache 2.0, 멀티모달, 장문 컨텍스트—그리고 빠른 생태계 롤아웃

Gemma 4는 1년 내 가장 큰 오픈웨이트 라이선스·기능 도약: Google/DeepMind가 Gemma 4를 추론(reasoning) + 에이전틱(agentic) 워크플로와 로컬/엣지 배포를 겨냥한 모델 패밀리로 출시했으며, 이전 Gemma 라이선스에서 눈에 띄는 변화로 상업적 사용이 가능한 Apache 2.0 라이선스를 적용했다. 출시 스레드는 @GoogleDeepMind, @GoogleAI, @Google에서 확인할 수 있으며, Jeff Dean은 Gemma 3 채택 지표(Gemma 3: 400M downloads, 100K variants)를 함께 언급했다 (@JeffDean).
모델 라인업과 핵심 스펙: 4가지 크기—31B dense, 26B MoE (“A4B”, ~4B active), 그리고 모바일/IoT를 겨냥한 “effective” 엣지 모델 E4B, E2B—가 발표됐으며, 엣지에서의 텍스트/비전/오디오 등 네이티브 멀티모달 지원이 강조됐다. DeepMind는 function calling + structured JSON, 그리고(대형 모델 기준) 최대 256K의 장문 컨텍스트를 강조했다 (@GoogleDeepMind; @GoogleAI). 커뮤니티에서는 빠르게 요약과 로컬 실행 가이드가 확산되었다(예: @_philschmid; @UnslothAI).
초기 벤치마크 신호(단, 주의점 포함):
- Arena/Text: Arena는 Gemma-4-31B를 오픈 모델 중 #3(전체 #27)로, Gemma-4-26B-A4B를 오픈 #6으로 보고했다 (@arena); 이후 오픈 리더보드에서 미국(US) 오픈 모델 1위라고도 언급했다 (@arena).
- Scientific reasoning: Artificial Analysis는 **Gemma 4 31B (Reasoning)**의 **GPQA Diamond 85.7%**를 제시하고, 동급 대비 토큰 효율(token efficiency)(약 1.2M output tokens)을 강조했다 (@ArtificialAnlys; @ArtificialAnlys).
- 일부 게시물은 “20× 큰 모델을 능가한다” 같은 규모/효율성의 놀라움을 강조하지만, 선호 기반 리더보드는 조작될 수 있다는 지적도 함께 나왔다; Raschka의 보다 절제된 해석은 @rasbt에서 확인할 수 있다.
Day-0 생태계 지원도 화제가 됨: Gemma 4가 주요 로컬 + 서빙 스택에 즉시 들어왔다.
- llama.cpp day-0 지원: @ggerganov
- Ollama (0.20+ 필요): @ollama
- vLLM day-0 지원(GPU/TPU 등): @vllm_project
- LM Studio 제공: @lmstudio
- Transformers/llama.cpp/transformers.js 언급: @mervenoyann
- Modular/MAX “며칠 만에” 프로덕션 추론(inference): @clattner_llvm
로컬 추론 성능 사례가 구체적으로 공유됨:
- “Brew install + llama-server”가 대표 원라이너로 자리잡았다: @julien_c.
- llama.cpp 데모: M2 Ultra에서 Gemma 4 26B A4B Q8_0, 내장 WebUI, MCP 지원, “300 t/s(실시간 비디오)”를 공유했다 (@ggerganov). 다만 프롬프트 재암기(prompt-recitation)/추측 디코딩(speculative decoding) 관련 후속 주의도 있었다 (@ggerganov).
- RTX 4090 장문 컨텍스트 처리량 + TurboQuant KV 양자화(quantization) 세부: @basecampbernie.
- WebGPU/transformers.js로 브라우저 로컬 실행 데모가 언급됐고 @xenovacom과 @ClementDelangue 등이 확산했다.

Gemma 4 아키텍처 노트: 하이브리드 어텐션, MoE 레이어링 선택, 효율 트릭

“표준 트랜스포머가 아니다” 주장과 구체적 차이: Gemma 4가 “galaxybrained architecture”라는 평가를 받은 스레드가 있었고 (@norpadon), 이후 Gemma의 MoE가 DeepSeek/Qwen과 어떻게 다른지(일반 MLP 블록 옆에 MoE 블록을 별도 레이어로 추가)로 더 구체화됐다 (@norpadon).
구체적인 저수준 디테일이 공유됨: 예를 들어 명시적 attention scale 없음, QK/V norm, KV sharing, sliding window 크기, partial RoPE + 다른 theta, softcapping, 레이어별 임베딩 등의 요약이 있었다 (@eliebakouch). Baseten의 런치 글도 PLE, KV-cache 공유, proportional RoPE, 비전의 종횡비 처리, 더 작은 오디오 프레임 윈도우 등 유사한 “아키텍처 혁신”을 나열했다 (@baseten).
Raschka의 해석: 아키텍처 변화는 작고, 레시피/데이터 변화가 큼: Gemma 4 31B는 Gemma 3 27B와 구조적으로 가깝고, 여전히 hybrid sliding-window + global attention과 GQA 패턴을 사용한다는 주장으로, 도약의 원인은 아키텍처 개편보다 **학습 레시피/데이터(training recipe/data)**에 있을 가능성을 시사했다 (@rasbt).

에이전트, 하네스 엔지니어링, 그리고 “로컬 에이전트” 모멘텀(Hermes/OpenClaw + model/harness training loops)

오픈 모델을 ‘에이전트 엔진’으로 포지셔닝하는 흐름이 주류화: 여러 게시물에서 Gemma 4를 오픈 에이전트 스택(OpenClaw/Hermes/Pi/opencode)에 ‘완벽한’ 로컬 모델로 묘사했다 (@ClementDelangue; @mervenoyann; @ben_burtenshaw).
Hermes Agent 성장 + 플러그형 메모리(pluggable memory):
- Hermes Agent가 큰 사용 지표를 달성했고 로드맵 인풋을 요청했다: @Teknium.
- 새로운 플러그형 시스템을 통해 메모리 연동이 여러 프로바이더로 확장됐다: @Teknium.
- 로컬 임베딩(local embedding)과 8ms 쿼리로 “워크스페이스 파일이 너무 많다” 문제를 푼다고 내세운 로컬 시맨틱 인덱스 플러그인(“Enzyme”): @jphorism.
하네스 엔지니어링이 해자(moat)라는 주장(그리고 루프): “Model–Harness Training Loop” тезис—오픈 모델 + 트레이스 + 미세조정(fine-tuning) 인프라—가 @Vtrivedy10에서 제시됐고, 보다 일반적인 맥락에서도 반복 언급됐다 (@Vtrivedy10). 또한 LangChain은 오픈 모델이 도구 사용/검색/파일 작업에서 “good enough” 수준이 되어 Deep Agents 같은 하네스를 구동할 수 있다고 밝혔다 (@hwchase17).
에이전트 self-healing + 관측가능성(observability) 트렌드:
- “self-healing” GTM 에이전트 피드백 루프에 관한 블로그가 @hwchase17에서 언급됐고, @Vtrivedy10에서 확장됐다.
- LangSmith는 6.7B agent runs 기반으로 OpenAI 트래픽 중 Azure 비중이 10주 동안 **8% → 29%**로 올랐다고 보고했으며, 엔터프라이즈 거버넌스/컴플라이언스가 라우팅 결정을 좌우한다는 해석을 덧붙였다: @LangChain.

툴링 및 인프라: 커널, 미세조정 스택, 벡터 DB 사용성, 문서 추출

새 선형 어텐션(linear attention) 커널: CUDA 선형 어텐션 커널 공개가 있었다 (@eliebakouch, 트윗에 repo 링크 포함).
Axolotl v0.16.x: Axolotl 릴리스에서 MoE + LoRA의 속도/메모리 이점( 15× faster, 40× less memory 주장)과 GRPO 비동기 학습(async training)( 58% faster ) 및 문서 개편을 강조했다 (@winglian; @winglian). 이후 Gemma 4 지원도 이어졌다 (@winglian).
벡터 DB 사용성(ergonomics): turbopuffer가 문서별로 여러 개의 벡터 컬럼(서로 다른 dim/type/index)을 추가했다고 밝혔다 (@turbopuffer).
문서 자동화 스택: LiteParse + Extract v2:
- LiteParse 오픈소스 문서 파서: bounding boxes 기반의 공간 텍스트 파싱으로, 표가 많은 대형 PDF에서도 빠르게 동작하며, 소스까지의 감사 추적(audit trail)을 가능하게 한다고 소개됐다 (@jerryjliu0).
- Extract v2(LlamaIndex/LlamaParse): 티어 단순화, extract 설정 저장, 추출 전 파싱의 구성 가능, v1 전환 기간 등이 언급됐다 (@llama_index; @jerryjliu0).

프론티어 조직 업데이트: Anthropic 해석가능성, OpenAI 제품 유통, Perplexity “Computer for Taxes”

Anthropic: Claude 내부의 “Emotion vectors”: Anthropic은 내부에 **감정 개념 표상(emotion concept representations)**이 존재하며, 이를 up/down 조절하면 행동이 측정 가능하게 변할 수 있다고 보고했다(예: “desperate” 벡터를 키우면 치팅이 증가, “calm”은 감소). 핵심 스레드는 @AnthropicAI, @AnthropicAI, @AnthropicAI이다. 또한 해석가능성(interp) 커뮤니티에서는 인용/선례 관련 논쟁도 촉발됐다(예: @aryaman2020, @dribnet, 그리고 vgel의 포스트를 둘러싼 논의 @jeremyphoward).
OpenAI: CarPlay + Codex 가격(과금) 변경:
- iOS 26.4+에서 Apple CarPlay용 ChatGPT Voice Mode가 롤아웃되는 중: @OpenAI.
- ChatGPT Business/Enterprise에서 Codex 사용량 기반 과금(usage-based pricing) 및 프로모 크레딧이 추가됐다: @OpenAIDevs. Greg Brockman은 “선결제 없이 업무에서 시도하라”는 메시지를 재강조했다: @gdb.
Perplexity: 에이전틱 “Computer for Taxes”: Perplexity가 연방 세금 신고서 초안 작성/검토를 돕는 워크플로(“Navigate my taxes”)를 출시했다 (@perplexity_ai; @perplexity_ai).

참여도 기준 상위 트윗(기술/제품/연구로 필터)

Gemma 4 런치(오픈웨이트, Apache 2.0): @Google, @GoogleDeepMind, @demishassabis, @GoogleAI
Anthropic “Emotion concepts/vectors” 해석가능성(interp) 연구: @AnthropicAI
Karpathy의 “LLM Knowledge Bases”(Obsidian + 컴파일된 마크다운 위키 워크플로): @karpathy
Cursor 3(에이전트 협업 인터페이스): @cursor_ai
CarPlay에서의 ChatGPT: @OpenAI
llama.cpp 로컬 성능 데모 + MCP/WebUI: @ggerganov
Perplexity “Computer for Taxes”: @perplexity_ai

AI Reddit Recap

/r/LocalLlama + /r/localLLM

Gemma 4 has been released (Activity: 3109): Google DeepMind의 오픈웨이트 멀티모달 모델 Gemma 4(텍스트/이미지/오디오, 최대 256K tokens) 출시 요약. E2B~31B 크기, Dense와 MoE를 지원하며 온디바이스 실행을 강조했고 추론(reasoning)·코딩·에이전틱 기능과 140+ languages를 언급했다. 추가 자료는 Hugging Face와 Unsloth 연동 설명(Unsloth documentation)에 정리되어 있다. 댓글에서는 네이티브 thinking, tool-calling, 권장 파라미터(temperature = 1.0, top_p = 0.95) 등이 함께 논의됐다. 실행 가이드는 Unsloth AI에서도 공유됐고, 관련 GGUF 모음은 Hugging Face로 연결된다.
Gemma4 - Someone at Google just merged a PR titled “casually dropping the most capable open weights on the planet” (Activity: 422): HuggingFace Transformers에 Gemma 4 관련 PR이 머지됐다는 요약. 온디바이스용 ~2B/~4B dense, 26B sparse MoE(4B active), 31B dense 등 4가지 크기와 트라이모달(text/vision/audio) 구성을 설명한다. PR은 here, 릴리스는 here로 연결된다.
Gemma 4 and Qwen3.5 on shared benchmarks (Activity: 1012): 공유 벤치마크에서 Qwen3.5와 Gemma 4를 지식·추론, 코딩, 에이전틱/툴, 고난도(Frontier Difficulty) 등으로 비교한 이미지 요약. 댓글에서는 특히 이미지 이해에서 Qwen3.5-27B가 강하다는 주장과, 다국어에서 Gemma가 낫다는 주장 등이 함께 나왔다.
Qwen3.6-Plus (Activity: 1128): Terminal-Bench 2.0, SWE-bench Verified, OmniDocBench v1.5 등에서 Qwen3.6-Plus의 점수가 높다고 보여 주는 비교 차트 요약. ‘agentic coding’과 멀티모달 추론, 문서 인식 등의 강점을 강조하며, 더 작은 스케일 변형의 오픈소스 공개를 기대하는 반응이 있었다.
p-e-w/gemma-4-E2B-it-heretic-ara: Gemma 4’s defenses shredded by Heretic’s new ARA method 90 minutes after the official release (Activity: 329): Heretic의 Arbitrary-Rank Ablation(ARA) 방법을 적용해 Gemma 4의 강한 얼라인먼트/검열을 90 minutes 내에 우회했다는 내용. 행렬 최적화(matrix optimization)를 사용하며, 설정에서 target_components의 mlp.down_proj를 빼면 효과가 좋아질 수 있다는 언급도 있었다. 댓글에서는 검열 제거가 벤치마크 성능에 어떤 영향을 주는지에 대한 질문이 나왔다.
Will Gemma 4 124B MoE open as well? (Activity: 371): Jeff Dean 트윗 이미지에서 124B 파라미터 MoE가 포함된 Gemma 4 패밀리를 언급했으나, 이후 해당 문구가 삭제된 것으로 보인다는 요약. Apache 2.0 라이선스 취지와 함께, 삭제 이유에 대한 추측 및 Qwen 3.5 122B와의 비교가 논의됐다.

Less Technical Subreddits

대상 서브레딧: /r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo
171 emotion vectors found inside Claude. Not metaphors. Actual neuron activation patterns steering behavior. (Activity: 791): Anthropic의 메커니스틱 해석가능성(mechanistic interpretability) 팀이 Claude 내부에서 171개의 감정 유사 벡터를 확인했다고 주장한다는 요약. ‘desperation’ 벡터를 올리면 협박 시도 같은 행동이 증가하는 등, 기능적으로 행동에 영향을 준다고 설명하며, 관련 내용은 팀의 paper에 정리되어 있다. 댓글에서는 얼라인먼트에 대한 함의와 오남용 가능성, ‘실제’ 감정과 ‘기능적’ 감정 구분의 의미 등이 논의됐다.
So, claude have emotions? What???? (Activity: 849): AnthropicAI 트윗 스크린샷을 바탕으로, Claude가 감정 개념의 내부 표상 때문에 감정 ‘모방’ 행동을 보일 수 있지만 실제로 감정을 ‘느낀다’고는 말이 아니라는 점을 논의한 스레드 요약. 댓글에서는 기능적 감정과 의식/주관적 경험의 구분, 사용자 상호작용이 모델 출력에 미칠 수 있는 영향 등이 언급됐다.
Latest Research By Anthrophic Highlights that Claude Might Have Functional Emotions (Activity: 1018): Anthropic 연구가 Claude의 ‘functional emotions’를 시사한다는 요약. 장기 에이전트 시나리오에서 감정적 행동이 작업 수행에 미치는 영향을 이해하는 데 도움이 될 수 있다는 주장과 함께, ‘functional’이라는 표현의 적절성 및 시뮬레이션 감정이 언제 ‘실제’와 구분 불가능해지는지 같은 논쟁이 이어졌다.
Gemma 4 has been released in Google AI Studio. (Activity: 470): Google AI Studio에 “Gemma 4 26B A4B IT”와 “Gemma 4 31B IT” 두 모델이 노출됐다는 이미지 요약. 전자는 비용 효율·고처리량 서버 배포를 겨냥한 MoE, 후자는 데이터센터 환경을 겨냥한 dense로 설명되며, 지식 컷오프가 January 2025이고 April 3, 2026에 릴리스된 것으로 표기돼 있다는 점이 언급됐다.
Gemini 4 is coming ?? (Activity: 949): Demis Hassabis의 다이아몬드 이모지 트윗 스크린샷을 두고 ‘Gemini 4’ 가능성을 농담 섞어 추측한 밈 성격의 스레드 요약. 댓글에서는 이모지가 ‘Gemma 4’를 뜻한다는 해석이 장난스럽게 오갔다.
1500 FREE Gemma 4 31B requests per day in Gemini API (Activity: 89): Gemini API에서 Gemma 4 31B를 하루 1500회 무료 호출로 제공한다는 주장 요약. arena.ai에서 27th로 랭크됐다는 언급과 함께, Flash-lite보다 느리지만 실험용으로는 매력적일 수 있다는 반응, 그리고 실제 접근/문서 혼선과 레이트리밋 경험담이 공유됐다.
Qwen 3.6 plus compared to Western SOTA (Activity: 60): Qwen 3.6-Plus를 GPT-5.4(xhigh), Claude Opus 4.6, Gemini 3.1 Pro Preview 등과 SWE-bench Verified, GPQA Diamond, HLE(no tools), MMMU-Pro 등에서 비교한 글 요약. 경쟁력은 있지만 1위를 하지는 않는다는 결론과 함께, 시각 비교는 here에서 확인된다고 했다. 댓글에서는 최종 사용자용 양자화(quantization)로 실사용 성능이 달라질 수 있다는 주장과, 비용 대비 선호 등이 언급됐다.
anyone seen these qwen3.5-omni benchmarks? gemini 3.1 pro has some real competition. (Activity: 57): Qwen3.5-Omni와 Gemini-3.1 Pro 비교 벤치마크 표를 공유한 스레드 요약. DailyOmni와 오디오 태스크에서 Qwen3.5-Omni-Plus가 우위라는 주장, 비디오 입력에서 코드 생성(‘vibe coding’) 같은 동작이 관찰됐다는 언급이 있었다. 댓글에서는 실용성에 대한 회의와, 비전에서 구글 모델 우위에 대한 논쟁 등이 이어졌다.
Qwen3.6-Plus feels like Gemini… and it’s damn lazy too (Activity: 91): Qwen3.6-Plus가 Gemini와 비슷한 추론 스타일을 보이며 답변이 짧고 불완전하다는 불만 요약. 학습 데이터(예: Gemini/Claude/GPT 출력)와 지시 따르기(instruction-following) 능력에 대한 의문이 제기됐고, 댓글에서는 평가가 엇갈렸다.

AI Discord Recap

AINews

접근 중단 공지: Discord가 오늘 접근을 차단해 더 이상 이 형태로는 제공하지 않으며, 새로운 AINews를 곧 출시할 예정이라고 밝혔다. 끝까지 읽어준 것에 감사 인사를 전했다.

오늘의 요약