오늘의 요약

  • NVIDIA가 오픈 옴니 모델을 공개
  • vLLM 0.20이 메모리 효율을 개선
  • Poolside가 Laguna XS.2를 출시
  • Mistral이 Workflows 프리뷰를 공개
  • ChatGPT가 Erdős 문제 풀이에 기여

NVIDIA Nemotron 3 Nano Omni 공개

2026년 4월 28일 화요일
#NVIDIA#vLLM#Poolside#Mistral#ChatGPT

헤드라인: NVIDIA Nemotron 3 Nano Omni 공개

참고 링크: 544 Twitters, AINews’ website, AINews is now a section of Latent Space, opt in/out

NVIDIA가 오늘의 가장 큰 인프라 네이티브 모델 출시로 Nemotron 3 Nano Omni를 공개했다. 이 모델은 30B / A3B 규모의 오픈 멀티모달 MoE로, 256K 컨텍스트를 지원하며 텍스트, 이미지, 비디오, 오디오, 문서까지 다루는 에이전트형 워크로드를 겨냥한다.

출시 직후 여러 호스팅 및 로컬 실행 스택에서 당일 지원이 이어졌고, 후속 게시물에서는 Parakeet 인코더 기반 음성/오디오 이해, 현재 영어 전용 지원, Open ASR 리더보드 5.95% WER 등이 주요 사양으로 언급됐다. 여러 호스트는 유사한 오픈 옴니 모델 대비 약 9배 처리량을 내세웠다.


AI Twitter Recap

추론 시스템, vLLM 0.20, DeepSeek V4를 둘러싼 하드웨어/커널 경쟁

  • vLLM 최신 릴리스는 메모리와 MoE 서빙 효율에 크게 집중: vLLM v0.20.04배 KV 용량을 위한 TurboQuant 2-bit KV cache, **SM90+**에서 MLA prefill용 FA4 재활성화, 새로운 vLLM IR 기반, 보고 기준 2.1% 엔드투엔드 지연시간 개선을 위한 fused RMSNorm을 포함해 출시됐다. 또한 Blackwell의 DeepSeek V4 MegaMoE, Jetson Thor, ROCm, Intel XPU, 더 쉬운 GB200/Grace-Blackwell 설정까지 지원 업데이트가 확장됐다. 동시에 SemiAnalysisB200/B300/H200/GB200 분리형(disaggregated) 구성에서 DeepSeek V4 Pro 서빙 초기 결과를 강조하며, 이 워크로드에서 B300이 H200보다 최대 8배 빠를 수 있다고 주장했고, EP dispatch + EP combine + GEMMs + SwiGLU를 단일 메가 커널로 융합하는 DeepGEMM MegaMoE 기반 vLLM 0.20 벤치마킹을 예고했다.
  • 생태계는 새 오픈 모델의 빠른 day-0 지원으로 수렴 중: vLLM added Day-0 support for Poolside’s Laguna XS.2했고, 별도로 Ling-2.6-flash도 지원했으며, vLLM also published Day-0 support for NVIDIA’s Nemotron 3 Nano Omni했다. vLLM 밖에서도 여러 게시물이 서빙 트레이드오프에 집중했다. Jeremy Howard noted DeepSeek V4’s support for prefill은 많은 제공자가 포기한 기능이라고 언급했고, Maharshi는 **동적 활성화 양자화(dynamic activation quantization)**의 오버헤드를 지적하며, 보정 비용에도 불구하고 **정적 양자화(static quantization)**가 추론(inference) 속도에서 자주 이긴다고 주장했다. 대체 스택 이식성에 대한 관심도 커졌다. teortaxesTex argued DeepSeek is structurally moving away from CUDA lock-in via TileKernels하며, 모델 벤더가 NVIDIA 전용 배포보다 이기종 또는 자국산 가속기 플릿에 더 최적화할 수 있다고 제안했다.

오픈 모델 출시: Poolside Laguna XS.2, NVIDIA Nemotron 3 Nano Omni, TRELLIS.2

  • Poolside는 배포 친화적인 오픈 웨이트 코더로 첫 공개 모델을 출시: @poolsideai announced Laguna XS.2는 완전히 자체 학습한 33B 전체 / 3B 활성 MoE 코딩 모델이며, Apache 2.0으로 공개됐고 단일 GPU에서 실행 가능하다고 소개됐다. Poolside’s broader release에는 Laguna M.1과 에이전트 harness도 포함됐으며, 회사가 자체 데이터, 학습 인프라, RL, 추론 스택으로 처음부터 학습했다는 점을 강조했다. 커뮤니티 요약은 더 자세한 맥락을 더했다. Aymeric Roucher225B/23B 활성33B/3B 활성 두 코더 모델을 설명하며 하이브리드 어텐션, FP8 KV cache, Qwen-3.5에 가까운 성능 주장을 언급했고, Ollama는 즉시 지원했다.
  • NVIDIA Nemotron 3 Nano Omni는 오늘의 가장 큰 인프라 네이티브 모델 출시: @NVIDIAAI introduced Nemotron 3 Nano Omni텍스트, 이미지, 비디오, 오디오, 문서를 아우르는 에이전트형 워크로드를 위해 구축된 256K 컨텍스트 지원 오픈 30B / A3B 멀티모달 MoE다. 스택 전반의 배포도 즉시 이뤄졌다. OpenRouter, LM Studio, Ollama, Unsloth, fal, Fireworks, DeepInfra, Together, Baseten, Canonical 등이 모두 당일 지원을 발표했다. 후속 게시물에서 핵심 사양도 공개됐다. Piotr Żelasko는 이를 NVIDIA의 첫 omni 릴리스로 설명하며, Parakeet encoder 기반 음성/오디오 이해, 현재 영어 전용, Open ASR 리더보드 5.95% WER을 언급했다. 여러 호스트는 유사한 오픈 옴니 모델 대비 약 9배 처리량을 인용했다.
  • 기타 주목할 모델/논문 출시: Microsoft’s TRELLIS.2는 최대 1536³ PBR 텍스처 자산을 생성하는 오픈소스 4B image-to-3D 모델로, 16배 공간 압축을 갖춘 네이티브 3D VAE 기반이다. 월드 모델 쪽에서는 World-R1이 기존 비디오 모델이 이미 3D 구조를 인코딩하고 있으며 RL로 “깨울 수 있다”고 주장했다. 이 접근은 아키텍처 변경 없음, 추가 비디오 학습 데이터 없음, 추가 추론 비용 없음을 내세운다.

에이전트, 로컬 우선 툴링, 프로덕션 오케스트레이션

벤치마크, 평가, 주목할 연구 결과

플랫폼 경제학, API 가격, 폐쇄형 모델 신뢰성 우려

AI 거버넌스와 국방: Google의 Pentagon 계약이 내부 반발을 부르다


AI Reddit Recap

/r/LocalLlama + /r/localLLM

  • Qwen 3.6 27B BF16 vs Q4_K_M vs Q8_0 GGUF evaluation (Activity: 731): 이미지는 Qwen 3.6 27B 모델의 BF16, Q4_K_M, Q8_0 GGUF 세 가지 양자화(quantization) 변형을 llama-cpp-python과 Neo AI Engineer로 평가한 벤치마크 비교를 제공한다. HumanEval, HellaSwag, BFCL을 포함하며, Q4_K_M은 BF16보다 처리량이 1.45배 빠르고 피크 RAM을 48% 적게 쓰며 모델 크기를 68.8% 줄이면서 거의 동일한 함수 호출 점수를 유지한다. 댓글에서는 오류 막대 부재, 샘플링 오류 가능성, Q8_0 결과의 KV cache 양자화 여부에 대한 우려가 나왔다.
  • Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090 (Activity: 982): Luce DFlashggml 위에 구축된 독립형 C++/CUDA 스택으로 단일 RTX 3090에서 Qwen3.6-27B를 실행하도록 최적화한 speculative decoding 구현이다. 재학습 없이 HumanEval, GSM8K, Math500 등에서 autoregressive decoding 대비 최대 1.98x 처리량을 달성한다. 댓글에서는 로컬 AI 추론(inference) 속도 개선 가능성을 높게 보면서도, 코딩이나 도구 호출처럼 정밀도가 중요한 작업에서 양자화가 정확도에 미치는 영향을 우려했다.
  • To 16GB VRAM users, plug in your old GPU (Activity: 797): 이 글은 16GB VRAM 주 GPU에 최소 6GB VRAM의 오래된 GPU를 함께 사용해 llama-server에서 Qwen3.6-27B 같은 dense 모델을 실행하는 방법을 설명한다. 5070Ti2060으로 총 22GB VRAM에 도달해 24GB급 카드 성능에 접근하며, dev=Vulkan1,Vulkan2, no-mmap, n-gpu-layers=999 같은 설정을 사용한다. 댓글에서는 VulkanCUDA 성능 논쟁, 보조 GPU가 VRAM은 늘리지만 주 GPU 병목을 만들 수 있다는 경험이 공유됐다.

새 모델 및 도구 발표

  • Something from Mistral (Vibe) tomorrow (Activity: 312): “Mistral Vibe”의 다음 날 대형 발표 예고 게시물로, 새 모델 출시나 도구 업그레이드 가능성이 추측됐다. 일부 사용자는 현재 모델을 “meh”라고 평가하며 Qwen 3.6 27B 수준의 개선을 기대했고, 다른 댓글은 발표가 새 모델보다 로컬 모델과 잘 통합되는 코딩 에이전트 또는 coding harness일 수 있다고 봤다.
  • Deepseek Vision Coming (Activity: 318): Deepseek Vision이 곧 출시될 것으로 예상된다는 내용이며, Xiaokang Chen𝕏 게시물이 근거로 제시됐다. 기본 모델과 인프라가 이미 마련돼 있어 멀티모달 통합이 pretraining 이후 빠르게 이어질 수 있다는 전망이 나왔다. 댓글에서는 별도 비전 모델보다 네이티브 멀티모달을 포함한 V4.1 같은 통합 모델을 선호한다는 의견이 있었다.
  • Microsoft Presents “TRELLIS.2”: An Open-Source, 4b-Parameter, Image-To-3D Model Producing Up To 1536³ PBR Textured Assets, Built On Native 3D VAES With 16× Spatial Compression, Delivering Efficient, Scalable, High-Fidelity Asset Generation. (Activity: 786): Microsoft는 이미지에서 고품질 3D 자산을 생성하는 40억 파라미터 모델 “TRELLIS.2”를 소개했다. O-Voxel이라는 “field-free” sparse voxel 구조로 복잡한 3D 토폴로지와 선명한 특징, 전체 PBR 재질을 재구성하며, 16× 공간 압축으로 최대 1536³ 해상도 자산을 만든다. 리소스는 GitHubHugging Face에 있다. 일부 사용자는 이미 몇 달 전 공개된 모델이라고 지적했지만, 커뮤니티 상당수에게는 새 소식으로 보였다.

로컬 LLM 사용과 과제

  • I’m done with using local LLMs for coding (Activity: 1981): 작성자는 Qwen 27BGemma 4 31B 같은 로컬 LLM을 코딩 작업에 사용하며 느낀 불만을 Claude Code와 비교해 설명했다. Dockerization 같은 작업에서 의사결정과 도구 호출이 약하고, 장기 실행 프로세스를 잘 처리하지 못하며, 느린 응답과 깨진 prompt cache가 생산성을 떨어뜨린다는 지적이다. 한 댓글은 로컬 LLM 코딩의 느린 추론과 캐싱 문제를 해결하는 Unsloth’s documentation을 공유했다.
  • Duality of r/LocalLLaMA (Activity: 575): 이미지는 로컬 LLM 코딩에 대한 r/LocalLLaMA 커뮤니티의 상반된 의견을 보여준다. 한쪽은 몇 주간의 시도 끝에 좌절했고, 다른 한쪽은 Terminal-Bench 2.0 테스트를 근거로 로컬 모델이 실제 업무에 가능해졌다고 본다. 댓글에서는 27B급 Qwen 3.6이 trillion-parameter 모델과 직접 경쟁할 수는 없지만, 워크플로를 효율적으로 설계하면 보조 실행용으로 유용할 수 있다는 논의가 이어졌다.
  • A warning to newbies - A lesson on network security (Activity: 355): 글은 373개 기기가 API 키 없이 LM Studio 인스턴스를 공개 노출하고 있는 네트워크 보안 문제를 지적한다. 지도 이미지에서는 태국이 194개로 가장 많았다. 작성자는 Tailscale이나 인증이 있는 reverse proxy 같은 적절한 보안 조치 없이 LLM 플랫폼을 인터넷에 노출하지 말라고 강조했다. 댓글에서는 원격 프롬프트 실행 가능성과 포트 포워딩 위험이 논의됐다.

Less Technical Subreddits

  • Anthropic just quietly locked Opus behind a paywall-within-a-paywall for Pro users in Claude Code (Activity: 1053): AnthropicClaude Code Pro 사용자에게도 Opus models 접근을 위해 추가 결제를 요구한다는 의혹이 제기됐다. Pro 플랜은 $20/month지만, 지원 문서상 기본 모델은 Sonnet 4.5이고 Opus 4.5는 추가 결제가 필요한 것으로 보였다는 내용이다. 다만 ClaudeOfficial은 해당 정보가 오래됐고 Opus 4.5가 1월부터 Pro 플랜에 배포됐으며 지원 문서가 갱신되지 않았다고 설명했다.
  • GitHub Copilot 9x price increase for Claude models (Activity: 803): GitHub Copilot이 6월부터 Claude 모델에 대해 900% 가격 인상을 적용하며 고정 플랜에서 사용량 기반 과금으로 전환한다는 내용이다. 세부 내용은 GitHub’s documentationpress release에 있다. 댓글에서는 에이전트 작업과 토큰 사용량 가시성이 부족해 기업 고객의 단위 경제성이 크게 악화될 수 있다는 우려가 나왔다.
  • Anthropic just quietly locked Opus behind a paywall-within-a-paywall for Pro users in Claude Code (Activity: 653): 이미지는 Anthropic이 Claude Code의 Opus 모델을 Pro 사용자에게도 추가 paywall 뒤에 둔 것처럼 보인다는 논란을 보여준다. 한 댓글은 지원 문서가 오래됐고 Opus 4.5가 1월부터 포함됐다고 설명하며 Wayback Machine을 근거로 들었다. 다른 댓글은 Opus가 토큰을 많이 소비해 사용자 quota를 빠르게 소진한다고 비판했다.
  • Differences Between GPT 5.4 and GPT 5.5 on MineBench (Activity: 465): MineBench로 GPT 5.4GPT 5.5를 비교한 글로, GPT 5.5GPT 5.4 대비 소폭 개선됐고 더 적은 계산 자원으로 유사한 출력 품질을 달성한다는 OpenAI 주장과 맞는 결과를 보였다고 한다. GPT 5.5 실행 비용은 $19.98, 평균 추론 시간은 624 seconds였고 GPT 5.4는 약 $25였다. 댓글에서는 우주비행사 바이저의 지구 반사 같은 세부 묘사가 인상적이었다는 평가와, 랜덤 색 블록으로 다소 noisy해졌다는 관찰이 함께 나왔다.
  • GPT 5.5 is unbelievably wasteful with tokens (Activity: 14): GPT 5.5를 Codex 외부에서 사용할 때 토큰 소비와 비용이 매우 높으며, 단일 요청이 $5에 달했다는 내용이다. 댓글은 GPT 5.5Claude Opus 4.7:1m xhigh 같은 모델의 비용은 제공 가치와 비교해 평가해야 한다고 봤다.
  • Chat GPT 5.4 solved a 60+ years unsolved erdos problems in a single shot (Activity: 2265): 이미지는 primitive set에 대한 합과 부등식을 다루는 Erdős 문제 관련 수학 증명을 보여준다. 주장에 따르면 Chat GPT 5.4가 이 문제를 80 minutes and 17 seconds 만에 해결했다. 댓글에서는 성과가 인상적이지만 “50년간의 수학자보다 더 잘 추론했다”는 표현은 과장이라는 지적이 있었다.
  • ChatGPT 5.4 Solved a 64-Year-Old Math Problem (Activity: 13896): ChatGPT 5.4 Pro가 23세 사용자와 함께 64년 된 Erdős 문제를 약 1 hour 20 minutes 만에 해결했다는 주장이다. 문제는 실제로 Erdős 1176이 아니라 1196이며, 증명은 정당한 것으로 확인됐고 Terence Tao의 코멘트도 있었다고 한다. 한 댓글은 Terence Tao의 언급을 here에서 확인할 수 있다고 했고, 다른 댓글은 올바른 질문을 던지는 방식이 돌파구였다고 설명했다.

AI Discord Recap

Discord 접근 중단

  • 접근 중단 공지: 안타깝게도 Discord가 오늘 접근을 차단했다. 이 형식으로는 다시 가져오지 않을 예정이며, 곧 새로운 AINews를 출시할 예정이다. 끝까지 읽어줘서 감사하며, 좋은 여정이었다.