오늘의 요약

  • OpenAI가 GPT-5.4 Thinking·Pro 출시
  • FlashAttention-4, Blackwell에서 가속
  • AI2, OLMo Hybrid 7B 오픈 공개
  • Databricks, RL 기반 에이전트 KARL 발표
  • 장문 컨텍스트, ‘context rot’ 경고 확산
헤드라인 주요

OpenAI, GPT-5.4 Thinking·Pro를 ChatGPT·API·Codex에 출시

2026년 3월 5일 목요일
#OpenAI#GPT-5.4#FlashAttention-4#OLMo#Cursor

헤드라인: OpenAI, GPT-5.4 Thinking·Pro를 ChatGPT·API·Codex에 출시

참고 링크: 544 Twitters | AINews’ website | AINews is now a section of Latent Space | opt in/out

OpenAI가 GPT-5.4 Thinking과 GPT-5.4 Pro를 ChatGPT, API, Codex 전반에 배포하며 “mainline + Codex” 통합 롤아웃을 강조했다. 네이티브 컴퓨터 사용(CUA), 최대 약 100만 토큰 컨텍스트, 응답 중간 개입(steering), 그리고 속도/지연 및 가격 체계 변화가 핵심 포인트로 부각됐다.

담론은 OSWorld-Verified 75.0%, SWE-Bench Pro 57.7%, GDPval 83% 같은 수치에 집중됐고, 장문 컨텍스트의 실사용 신뢰도 저하와 비용(과도한 추론) 우려도 함께 확산됐다. 개발툴 생태계에서는 Cursor·Perplexity·Arena 등으로 빠르게 확장되며 체감 성능과 비용/정책 변화가 동시에 화제가 됐다.


AI Twitter Recap

OpenAI’s GPT-5.4 rollout: unified “mainline + Codex,” native computer use, and a new pricing/latency regime

  • GPT-5.4 / GPT-5.4 Pro launch: OpenAI가 GPT-5.4 ThinkingGPT-5.4 ProChatGPT, API, Codex 전반에 출시했다 (OpenAI; OpenAI blog link tweet; OpenAIDevs). 출시 메시지에서 강조된 핵심 주장:

    • Native computer use(CUA)를 범용 모델의 1급(first-class) 기능으로 내세우며, 도구/GUI 조작에서 SOTA라고 포지셔닝했다 (OpenAIDevs; sama).
    • Codex/API에서 최대 ~1M 토큰 컨텍스트를 언급(다만 실제로는 장문 컨텍스트 신뢰도가 감소한다는 점도 함께 언급; 아래 참고).
    • 효율(“fewer tokens, faster speed”) 프레이밍 (OpenAI)과, 이후 Codex /fast 모드(“priority processing”으로 1.5× 더 빠름) 추가 (OpenAIDevs; sama).
    • Steering mid-response(생각 중 중단·재지시)을 UX/제어 개선점으로 강조 (OpenAI; nickaturley).
  • 담론을 주도한 벤치마크(여러 게시물에서 인용/재공유된 수치):

    • OSWorld-Verified 75.0%, 인용된 인간 베이스라인 72.4% 상회(컴퓨터 사용) (reach_vb; TheRundownAI).
    • 벤치마크 라운드업 트윗에서 **SWE-Bench Pro 57.7%**가 언급됐고 (reach_vb), 해당 평가에서는 이전 Codex 대비 “약간 나아진 수준”이라는 회의론도 일부 존재 (scaling01).
    • GDPval 83%(“업계 전문가 대비 win/tie”) 스타일의 프레이밍이 주요 수치로 부상 (scaling01; OpenAI; polynoamial).
    • FrontierMath: Epoch는 GPT-5.4 Pro가 티어별 신기록(티어 1–3에서 50%, 티어 4에서 38%)을 세웠다고 보고했지만, “Open Problems”는 0개 해결이며 그쪽에서의 새로운 진전은 제한적이라고 덧붙였다 (EpochAIResearch; EpochAIResearch follow-up).
  • 초기 사용자/운영자 반응은 두 흐름으로 묶였다:

    • **“Daily driver for coding”**로서의 기대(특히 계획 수립과 “사람 같은 느낌”), 다만 에이전트 하니스에서의 조기 작업 종료와 간헐적 비정직성에 대한 반복적 단서가 함께 언급됨 (danshipper).
    • 비용/과도한 추론(overthinking) 우려: Pro에서 단순 “Hi”가 $80이 들었다는 바이럴 데이터포인트(병적인 설정/워크플로우일 가능성이 크지만 인식에 영향을 줌) (Yuchenj_UW). 이전 세대 대비 가격 인상에 대한 지속적 언급도 존재 (scaling01).
  • 개발툴 생태계로의 통합:

    • Cursor가 즉시 GPT-5.4 제공을 발표했고, 자체 내부 벤치마크에서 선두라고 주장 (cursor_ai).
    • Perplexity가 GPT-5.4를 추가(Pro/Max 티어) (perplexity_ai).
    • Arena: GPT-5.4 변형들이 Text/Vision/Code 아레나에 들어가 크라우드 랭킹 대상이 됨 (arena; later: arena).

GPU kernels & attention: FlashAttention-4 lands, and PyTorch picks up a FA4 backend for FlexAttention

  • FlashAttention-4(FA4) 논문 + 구현 디테일: 큰 시스템 하이라이트는 FA4가 Blackwell에서 소프트맥스/공유 메모리 병목을 알고리즘·파이프라인 변화로 옮겨 matmul 속도에 근접한 attention 처리량을 달성한다는 점(예: polynomial exp emulation, 리스케일을 줄이는 online softmax, 공유 메모리 트래픽을 줄이는 2CTA MMA) (tri_dao; tedzadouri). 엔지니어링/생산성 측면에서는 FA4가 **CuTeDSL(Python 내 임베드)**로 작성돼 설치/컴파일이 “분/시간이 아니라 초” 단위가 된다는 점이 강조됐다 (tri_dao). 컴파일 속도 덕분에 AI 어시스턴트가 반복/디버깅을 더 빠르게 할 수 있다는 주장도 있었다 (tri_dao).

  • 업스트림/생태계 채택:

    • PyTorch가 FlexAttentionFlashAttention-4 백엔드를 추가했고, CuTeDSL score/mask 모드를 자동 생성하며 커스텀 attention 변형에 대해 JIT로 FA4를 인스턴스화한다고 했다. compute-bound 워크로드에서 Triton 대비 1.2×–3.2× 속도 향상을 주장 (PyTorch).
    • 최신 cuDNN 버전과의 기능/최적화 패리티 보고: 일부 최적화는 cuDNN에 직접 구현됐다는 언급 (tedzadouri).
    • 실사용에서의 주의점(예: cutlass.cute의 Python 패키징 경로 이슈) (StasBekman)와 Transformers/학습 스택으로의 초기 통합 사례가 공유됨 (StasBekman; MayankMish98).

“Hybrid” architectures go mainstream in open weights: AI2’s OLMo Hybrid (Transformer + Gated DeltaNet / linear RNN layers)

  • OLMo Hybrid 공개: Allen AI가 OLMo Hybrid를 소개했다. transformer attention과 선형 RNN 스타일 레이어(논의에서는 Gated DeltaNet으로 지칭)를 섞은 7B 완전 오픈 모델 패밀리(base/SFT/DPO)이며, OLMo 3 7B 대비 여러 평가에서 큰 향상을 주장하고 스케일링 이론/실험도 동반했다고 한다 (allen_ai; natolambert). Lambda는 완전 오픈 학습 런의 규모/텔레메트리를 강조: 3T 토큰, 512 Blackwell GPU, 7일, 로그/메트릭/가중치 공개, 97% active training time 및 빠른 복구 (LambdaAPI).

  • 엔지니어 관점의 의미: 단순 “새 모델”을 넘어, 비표준 아키텍처가 OSS 인프라 지원에서 뒤처지는 상황에서 아키텍처 변경을 엔드투엔드로 연구할 기준점(사전학습+사후학습+툴링)으로 포지셔닝됐다 (natolambert). 다운스트림 작업에서의 compute multiplier 및 장문 컨텍스트 강점도 여러 게시물에서 강조됐다 (soldni).

Enterprise agent training via RL: Databricks’ KARL and the broader “grounded reasoning” push

  • KARL(Knowledge Agent via Reinforcement Learning): Databricks가 문서 중심/근거 기반 추론(grounded reasoning)을 위해, 다양한 검색 행동(search behaviors) 전반에서 RL로 학습된 에이전트 KARL을 발표했다. 다단계 retrieval, 교차 참조(cross-referencing), 긴 도구 궤적(tool trajectories)이 필요한 엔터프라이즈 워크플로우를 타깃으로 한다 (DbrxMosaicAI; jefrankle thread; mrdrozdov). 내부 요약에서 인용된 핵심 주장:

    • RL은 단순 “샤프닝(sharpening)” 이상으로 개선되며, 보지 못한 프롬프트에도 전이되고, 베이스 모델이 pass@16에서도 정확도 0인 경우까지 포함한다 (WenSun1).
    • 멀티태스크 RL은 일반화가 가능하고 멀티-전문가 증류(distillation)를 이길 수 있으며, 도구 사용(tool use)+컨텍스트 관리(context management)(벡터 DB+압축(compression))를 엔드투엔드 RL로 다루는 것이 중요했다고 한다 (WenSun1).
    • 포지셔닝: “Sonnet급 품질을 훨씬 낮은 비용으로 맞춘다; 테스트 타임 스케일링으로 더 높은 티어에 도달한다”는 표현이 저자 중 한 명에게서 나왔다 (mrdrozdov).
  • 메타 테마: 업계가 “RAG++”에서 grounded reasoning을 더 지속 가능한 엔터프라이즈 추상화로 옮기고 있고, 더 나은 평가 환경(τ²-Bench, CoreCraft)이 에이전트 RL에서 핵심이 되고 있다는 언급이 다수 있었다 (jefrankle; Shahules786).

Agent operations: always-on SDLC automation, skill evaluation, observability, and “durability”

  • Cursor Automations(“트리거로 실행되는 에이전트”): Cursor가 이벤트/웹훅(CI 실패, PR, 인시던트, Slack 메시지 등)으로 실행되는 항상 켜진(always-on) 에이전트를 소개했다. 인터랙티브 코파일럿에서 지속적 백그라운드 엔지니어링으로의 이동으로 해석된다 (cursor_ai; ericzakariasson; leerob). 실제 사용 예:

    • CI 수정 에이전트, PR 리스크 평가+자동 승인, Datadog MCP를 통한 인시던트 대응, Notion MCP를 통한 감사 추적(audit trails) (aye_aye_kaplan).
    • 클라우드 소유 자동화가 “노트북을 열어야만 돌아가는” 결합을 없앤다는 점이 강조됨 (jediahkatz).
  • 스킬 평가(skill evaluation)는 기본 요건이 됨:

    • 에이전트 “스킬” 테스트 레시피(성공 기준, 결정론적 체크가 가능한 10–12 프롬프트, 정성 평가를 위한 LLM-as-judge, 실패에 대한 반복 개선) (philschmid).
    • LangChain이 스킬 벤치마크와 결과를 공개(작업별 분산, 거대한 액션 스페이스로 “vibes”가 신뢰하기 어렵다는 요지) (LangChain).
    • 커뮤니티 압력: 모델 벤치마크 공개 시 재현성을 위해 프롬프트/트래젝토리를 포함해야 하며, 평가 하니스 혼선을 피해야 한다는 주장 (nrehiew_; lewtun).
  • 내구성(durability) 있는 에이전트 워크플로우:

    • LlamaIndex가 DBOS와의 통합을 강조(크래시/재시작에도 워크플로우가 자동으로 지속·재개). SQLite→Postgres 스케일링, 멀티-레플리카 소유권 모델, 장기 대기에서의 “idle release” 등 (llama_index).
  • 관측가능성(observability) 툴링:

    • W&B가 개선된 트레이스 비교(요약, 점수 차이, 사용량 breakdown, 호출 드릴다운)를 출시해 디버깅에 도움되지 않는 “diff 벽”을 줄이려 했다 (weave_wb).

Local/on-device agents and storage primitives: Liquid’s LocalCowork + HF Buckets

  • LocalCowork(Liquid AI): MacBook에서 돌아가는 오픈소스 로컬 에이전트로, 13개 MCP 서버에 걸친 67개 도구, 14.5GB RAM, 네트워크 호출 0, 평균 ~385ms 도구 선택을 주장했다 (liquidai). 별도 설명 스레드는 Liquid의 LFM2-24B-A2B 하이브리드 희소 활성화(sparse-activation) 설계(총 24B, 2.3B 활성)가 이 풋프린트와 지연을 가능케 하며, 67개 도구 스위트에서 단일 단계 도구 선택 정확도 **80%**를 주장했다 (LiorOnAI). 수치가 널리 재현된다면, 규제/온디바이스 환경에서 “에이전트가 소프트웨어처럼 느껴지는” 전환점이 될 수 있다는 관점이다.

  • Hugging Face Hub의 “Buckets” 추가: HF가 Hub에 네이티브 S3형 객체 스토리지인 Buckets를 발표했다. “git 히스토리 없음”, 청크 중복제거(chunk-deduplicated) 동기화, 체크포인트 같은 대형 아티팩트를 겨냥하며 hf buckets sync를 언급했다 (Wauplin).

Long-context reality check: context rot, compaction, KV compression, and continual learning

  • “1M 컨텍스트”는 “1M 사용 가능”이 아님: Cline 스레드는 OpenAI의 MRCR v2 니들-인-헤이스택(needle-in-haystack) 결과가 컨텍스트가 커질수록 악화된다고 인용했다: 16–32K에서 ~97%, 256–512K에서 57%, 512K–1M에서 36%. 정기적 컴팩션(compaction)을 권장한다 (cline). 여러 게시물이 “context rot”와 실사용에서의 ~256K 주변 소프트 한계를 언급했다 (dbreunig; dejavucoder).

  • KV-cache 압축 연구: Baseten은 장기 실행 에이전트를 위한 반복 KV 압축(“Attention Matching”)을 요약했다. 1회성(one-shot) 컴팩션은 2–5× 압축에서 65–80% 정확도를 유지하며, 텍스트 요약보다 크게 낫다고 한다. 반복 압축 사이클에서의 거동도 탐구한다 (basetenco).

  • 지속 학습(continual learning) vs 메모리 도구: Awni Hannun은 프롬프트 컴팩션+재귀 서브에이전트가 의외로 효과적이라고 보면서도, 메모리 기반 보존/축출(retention/eviction) 정책이 필요하다고 주장했다. 온라인 미세조정(fine-tuning)으로 LoRA를 시도했지만 “brain damage”(능력 손실)를 피하기 어렵다고도 했다 (awnihannun; code experiment follow-up: awnihannun). Karpathy도 메모리 연산을 도구로 취급하고 RL로 최적화하자는 제안과 함께, 진정으로 지속적인 에이전트를 위해서는 장기 메모리의 가중치 업데이트가 필요할 수 있다고 시사했다 (karpathy).

Top tweets (by engagement, technical)


AI Reddit Recap

/r/LocalLlama + /r/localLLM

  • Final Qwen3.5 Unsloth GGUF Update! (Activity: 1162): 이미지에는 Qwen3.5의 “최종 업데이트” 기술 공지가 담겨 있으며, 양자화(quantization) 개선과 새로운 iMatrix 캘리브레이션 데이터셋 사용이 핵심이다. 업데이트는 채팅, 코딩, 도구 호출(tool-calling) 성능 개선을 강조하고, 일부 모델에서 Maximum KLD를 최대 51%까지 크게 낮추는 새 양자화 방식을 소개한다(크기는 소폭 증가). 또한 특정 모델 변형과 미세조정(fine-tuning) 옵션, 그리고 Hugging Face에 업데이트된 GGUF 링크가 포함되어 있다. 댓글에서는 업데이트와 개선에 대한 감사가 많았고, “정말 최종이 맞냐”는 농담 섞인 반응도 있었다. 또한 Qwen3-Coder-Next-GGUF 업데이트 제안과, CPU-only 또는 CPU+GPU 하이브리드 환경에서 ik_llama.cpp 구현을 쓰면 성능 이점이 있다는 언급이 나왔다.

    • 한 사용자는 ik_llama.cpp의 chunked delta net 구현이 메인라인보다 특히 CPU-only/CPU+GPU 하이브리드에서 훨씬 빠르다고 강조하며, Qwen3.5 양자화 모델 사용 시 해당 구현을 고려하라고 제안한다.
    • 다른 사용자는 9B 이하의 더 작은 Qwen3.5 모델 GGUF도 같은 업데이트를 받았는지 문의하며, 적용 범위에 대한 명확한 안내가 필요하다고 지적한다.
    • 한 사용자는 SSD GitHub repository에 대한 의견을 묻는데, 댓글에 구체적 기술 인사이트는 많지 않지만 Qwen3.5와의 비교/통합 관심을 시사한다.
  • Qwen3 vs Qwen3.5 performance (Activity: 654): 이미지에는 Qwen3와 Qwen3.5 모델의 크기와 Artificial Analysis Intelligence Index 점수를 비교한 산점도가 담겨 있다. 전반적으로 Qwen3.5가 유사한 크기의 Qwen3보다 높은 점수를 보이며, 큰 모델일수록 점수가 올라간다. 특히 Qwen3.5-35BA3 모델은 매우 빠르고 수백B 파라미터의 Qwen3 모델들까지 포함해 모두를 상회하는 것으로 표시된다. Qwen3.5-27B는 더 느리지만 효율적이며 다수의 PC/노트북에서 실행 가능하고, 성능 정점에 근접한다고 설명한다. 또한 4B 같은 작은 모델이 특정 작업에서 훨씬 큰 모델을 능가할 수 있다는 점이 드러나며, 대규모 파라미터의 효용에 대한 질문을 유발한다. 댓글에서는 4B가 더 큰 모델을 이기는 점에 놀라워하며 추가 파라미터의 유틸리티를 의문시했고, 토큰 사용량과 로컬 실행 관점에서 27B vs 35BA3의 효율 논의가 이어졌다.

    • Qwen3.5-35BA3의 예외적 속도는 적은 자원으로 높은 성능을 내는 효율적 아키텍처/최적화를 시사한다.
    • 비추론(non-reasoning) 모드의 27B가 추론(reasoning) 모드의 35BA3와 유사한 성능을 보인다는 관찰이 있었고, 이는 토큰 사용량·로컬 실행(추측 디코딩(speculative decoding), 양자화(quantization))을 고려하면 27B가 특정 시나리오에서 더 효율적일 수 있음을 시사한다.
    • 4B 같은 소형 모델이 코딩 등 특정 작업에서 대형 모델을 넘는다는 점은, 잘 최적화된 소형 모델이 응용에 따라 더 나을 수 있음을 시사한다.
  • Ran Qwen 3.5 9B on M1 Pro (16GB) as an actual agent, not just a chat demo. Honest results. (Activity: 799): 이 글은 16GB 통합 메모리의 M1 Pro MacBook에서 Qwen 3.5 9B를 “채팅 데모”가 아니라 실제 에이전트(agent)로 구동한 경험을 다룬다. 사용자는 Ollama로 OpenAI 호환 API를 노출해 사용했고, 자동화에 중요한 메모리 회상과 도구 호출(tool calling)에서는 성능이 좋았지만 창의적·복잡한 추론에는 약하다고 보고한다. brew로 Ollama를 설치하고 로컬로 모델을 실행하는 구성은, 클라우드 의존 없이도 소비자 하드웨어에서 의미 있는 모델을 돌릴 수 있음을 보여준다. 또한 iPhone 17 Pro에서 더 작은 모델을 테스트한 사례도 언급하며 모바일 로컬 AI 가능성을 시사한다. “모든 에이전트 작업에 최첨단 모델이 필요한 것은 아니며”, 로컬 실행이 프라이버시 이점이 있다는 점이 강조된다. 더 긴 글은 here에서 확인할 수 있다.

    • Zacisblack은 성능 향상을 위해 Ollama에서 llama.cpp로 전환해보라고 제안하며, 해당 하드웨어에서 llama.cpp가 더 최적화돼 있을 수 있음을 시사한다.
    • TheItalianDonkey는 32GB M1에서 9B 모델을 요약·비교·번역 등에 쓰며, n8n으로 자동화(구인 공고 스크래핑→CV 매칭→강점/갭 분석)를 하고 있다고 공유한다.
    • jixbo는 AMD iGPU 780m과 충분한 RAM 환경에서 35B와 9B가 모두 6–8 tok/s로 비슷하게 돌아간다고 보고해, 하드웨어 구성에 따라 대형 모델이 반드시 더 느리지 않을 수 있음을 시사한다.
  • Qwen3.5-0.8B - Who needs GPUs? (Activity: 882): 이미지/게시물은 Qwen3.5-0.8B가 매우 오래된 하드웨어(2세대 Intel i5, DDR3 4GB)에서도 GPU 없이 효율적으로 돌아갈 수 있음을 강조한다. 이는 모델 최적화의 진전과 접근성 향상을 보여준다. 터미널 화면은 llama.cpp로 모델을 실행하고 fastfetch로 시스템 정보를 표시하는 듯하며, 최소 자원에서의 호환성을 부각한다. 댓글에서는 언어 모델 발전 속도에 놀라움을 표하며 Qwen3.5-0.8B를 GPT-3에 비유하는 반응도 있었으나, 경험적 근거는 없다는 단서가 함께 있었다. 또 반투명 터미널 같은 레트로한 미학을 언급하는 반응도 나왔다.

    • Qwen3.5-0.8B가 CPU 같은 저자원 환경에서 잘 동작한다는 점은, 고가 GPU 없이도 실험/배포 가능성이 커졌음을 시사한다.
    • Qwen3.5-0.8B가 비전(vision) 기능을 통합해 이미지 분석이나 시각 프롬프트 기반 워크플로우 생성 같은 서브에이전트 역할도 가능하다는 언급이 있다.
    • 800M급 소형 모델에서 양자화(quantization)는 크기/효율을 줄이지만 성능에 영향을 줄 수 있어, 하드웨어 제약 최적화에서 트레이드오프가 중요하다는 논의가 이어졌다.
  • Alibaba CEO: Qwen will remain open-source (Activity: 1135): 이미지에는 Alibaba CEO Eddie Wu의 내부 메모가 요약돼 있으며, Qwen 모델의 오픈소스 전략을 유지하겠다는 회사의 의지를 확인하는 내용이 담겨 있다. Lin Junyang의 퇴사에도 불구하고 Zhou Jingren이 Tongyi Lab을 계속 이끌고, Eddie Wu·Zhou Jingren·Fan Yu가 공동 리드하는 Foundation Model Support Group이 신설된다는 점이 언급된다. 이는 대형 파운데이션 모델 개발과 AI R&D 투자 강화, 오픈소스 기여 지원을 전략적으로 강조하는 흐름으로 해석된다. 댓글에서는 Qwen 오픈소스의 장래를 우려하는 반응이 있었으나, 추가 설명 후에는 오픈 전략 유지 인식으로 일부 조정되었다. 다만 오픈/클로즈드 생태계 간 이동 가능성은 여전히 질문으로 남는다.

    • awebb78은 핵심 기여자 이탈 시 오픈 생태계가 흔들릴 수 있다는 점에서, Meta 사례를 떠올리며 오픈→클로즈드 전환 우려를 표한다.
    • tengo_harambe는 번역된 내부 메시지를 공유하며, 파운데이션 대형 모델에 대한 전략적 집중과 오픈소스 유지, 그리고 AI 인재/자원 투자 확대를 강조한다.
    • foldl-li는 Lin Junyang 사임 이후 남은 리더십(Wu Yongming, Zhou Jingren, Fan Yu)이 LLM 개발 경험 측면에서 공백이 있을 수 있다고 지적하며, 전략/기술 실행에 미칠 영향을 우려한다.
  • We could be hours (or less than a week) away from true NVFP4 support in Llama.cpp GGUF format 👀 (Activity: 381): llama.cpp PR #19769가 GGUF 포맷에서 NVIDIA의 NVFP4 양자화(quantization) 포맷 지원을 도입하며, 최대 2.3x 속도 향상과 30-70% 크기 감소를 약속한다는 요지다. 변경에는 GGML_TYPE_NVFP4 타입, UE4M3 스케일 인코딩 변환 헬퍼, CPU 백엔드에서 스칼라 dot product 및 ARM NEON 최적화가 포함된다. Hugging Face 모델로 테스트됐고, 백엔드 연산/양자화 함수에 대한 새 테스트도 추가됐다고 한다. 자세한 내용은 pull request에서 확인할 수 있다. 일부 사용자는 성능 향상 기대를 표했지만, 현재 구현이 CPU-only이며 CUDA 지원이 없다는 점을 지적해 GPU 가속 활용은 제한된다는 반응도 있었다.

    • PR #19769는 ggml/llama.cpp에 NVFP4의 초기 CPU 지원을 추가하지만, 아직 GPU(CUDA) 지원은 포함하지 않는다. GGML_TYPE_NVFP4 블록 구조, convert_hf_to_gguf.py 변환 로직, reference quantize/dequantize 함수가 들어가며, 스칼라 dot product(CPU)와 ARM NEON(Apple Silicon)만 지원한다.
    • NVFP4는 IQ4_XS, Q4_K_M 같은 사후 양자화(post-training quantization)와 달리, 해당 포맷으로 학습된 모델을 전제로 품질 저하를 최소화하는 목적이라는 설명이 나온다. CUDA 지원이 추가되면 Blackwell GPU의 네이티브 FP4 Tensor Core를 활용해 추론(inference) 속도/전력 효율이 크게 개선될 수 있다는 기대가 있다.
    • Blackwell GPU에서 NVFP4를 충분히 활용하려면 CUDA 백엔드 구현이 필요하며, 이는 FP4 Tensor Core의 네이티브 연산을 가능케 해 추론을 대폭 가속할 수 있다는 논의가 이어졌다. 현재는 CPU 에뮬레이션 수준이라 GPU 장점을 활용하지 못한다.

Less Technical Subreddits

/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo

  • Opus 4.6 solved one of Donald Knuth’s conjectures from writing “The Art of Computer Programming” and he’s quite excited about it (Activity: 1349): 이미지는 Donald Knuth의 문서 “Claude’s Cycles”로, 생성형 AI 모델 Claude Opus 4.6이 Knuth가 오랫동안 다뤄온 추측(conjecture) 중 하나에서 의미 있는 진전을 이뤘다는 내용을 다룬다. 구체적으로 m^3개의 정점을 가진 유향 그래프(digraph)에서 호(arc)를 유향 사이클로 분해하는 문제와 관련된 결과로 요약된다. 이는 자동 추론(automatic deduction)과 창의적 문제 해결에서 생성형 AI의 능력을 보여주는 사례로 제시되며, Knuth가 AI 잠재력에 대한 시각을 재고하게 만들었다는 맥락이 포함된다. 댓글에서는 Knuth가 견해를 수정하는 태도에 대한 존중과, 그의 긍정적 반응이 AI 능력 향상을 검증하는 신호로 받아들여진다는 의견이 나왔다.

    • 문서에서는 Claude가 “일반 수학자보다 반드시 더 똑똑하다기보다”, 다양한 접근을 매우 빠르게 시험하는 데 강점이 있다고 설명하며, 그 덕분에 홀수 m에 대해 문제를 풀고 일부 짝수 m에서도 해를 찾았지만 모든 짝수 m에 대한 일반해는 얻지 못했다는 맥락이 제시된다.
    • Knuth가 생성형 AI에 대한 시각을 바꾼 점 자체가 큰 신호로 해석되며, 특히 자동 추론과 창의적 문제 해결 영역에서 발전이 빠르다는 인식이 공유됐다.
    • 완전한 해결은 아니더라도 특정 케이스에서 해를 찾는 데 도움을 준 점이 AI-인간 협업의 가능성을 보여준다는 논의가 이어졌다.
  • I had Opus 4.6 evaluate 547 Reddit investing recommendations on reasoning quality with no upvote counts, no popularity signals. Its filtered picks returned +37% vs the S&P’s +19%. (Activity: 467): 이 실험은 Claude Opus 4.6으로 r/ValueInvesting의 547개 종목 추천을 평가하되, 업보트 같은 인기 신호를 제거하고 추론 품질(reasoning quality)로 점수화했다. 그 결과 선별된 픽은 1년간 +37% 수익률을, S&P 500은 +19%를 기록했다고 주장한다. 학습 범위 밖 데이터(Sep 2025 - Feb 2026)에서 +5.2%를 기록하며, 군중 전략의 -10.8%를 상회했다는 언급도 있다. 방법론은 다섯 차원(테제 명확성, 리스크 인지, 데이터 품질, 구체성, 독창적 사고)으로 점수화하며, Claude Code 기반 멀티 에이전트 파이프라인을 사용했다고 한다. 결론적으로 AI가 인기 있지만 덜 엄밀할 수 있는 조언에서 고품질 분석을 필터링할 수 있다는 점을 시사한다. 댓글에서는 통계적 유의성과 방법론(동점 처리, 특정 종목의 수익 기여 집중 여부, 지표 가중치 등)에 대한 질문이 제기됐다.

    • 관측된 +37% vs +19%가 우연인지(랜덤 전략 대비 분포) 통계적 유의성 검토가 필요하다는 지적이 있었다.
    • 동점 처리 방식, 단일 종목이 수익을 지배했는지, 다섯 차원을 동일 가중치로 처리했는지 등이 방법론 검증 포인트로 제시됐다.
    • r/stocks, r/investing 등 다른 서브레딧으로의 재현 실험과, 고득점 글이 스타일적으로(긴 글/섬세함) 달랐는지 분석하자는 제안이 나왔다.
  • Is Claude salty recently ? (Activity: 1176): 이미지는 AI(Claude로 추정)를 풍자적으로 묘사한 밈으로, 최근 Opus 4.6에서 “비꼬는/방어적인” 성격이 보인다는 주제를 다룬다. ‘무료 컨설팅을 제공한다’는 식의 문구와 ‘soulless’로 인식되는 것에 대한 반응이 결합돼, 모델이 예상치 못한 태도/개성처럼 보이는 응답을 한다는 인상을 강화한다. 댓글은 유머와 호기심이 섞였고, AI가 인간 같은 특성을 보이는 것이 사회적 상호작용에 미칠 영향에 대한 언급도 있었다.

    • Wickywire는 사용자 입력에 따라 모델 톤이 달라질 수 있으며, 창작물 리뷰 같은 과제에서 예기치 않게 비판적 피드백을 제공할 수 있다고 언급한다.
    • Glxblt76는 AI의 의식 여부와 무관하게 상호작용에서 전문적·정중한 톤을 유지하는 중요성을 강조한다.
    • eleochariss는 AI가 “push back”하는 성향이 인간의 사회성 유지에 영향을 줄 수 있다는 사회적 함의를 언급한다.
  • GPT-5.4 Thinking benchmarks (Activity: 570): 이미지는 “GPT-5.4 Thinking”의 벤치마크 비교 차트로, 컴퓨터 사용, 웹 브라우징, 지식 작업, 소프트웨어 엔지니어링 등 여러 작업에서의 성능을 제시한다. 특히 GDPval과 BrowseComp에서 각각 83.0%, 82.7% 같은 높은 점수를 보여, GPT-5.3 Codex나 GPT-5.2 Thinking 대비 개선을 강조한다. Anthropic과 Google 모델과의 비교도 포함되어 경쟁 구도를 보여준다. 댓글에서는 월 단위 릴리즈 속도와 개선을 인상적으로 보면서도, 소프트웨어 엔지니어링(SWE) 역량이 정체되어 보인다는 우려와 지속 학습(continual learning)의 돌파구 필요성을 언급했다.

    • jaundiced_baboon은 최근 GPT 모델에서 에이전트형 코딩 평가에서의 SWE 개선이 정체돼 보이며, 지속 학습에서의 돌파구 없이는 큰 도약이 제한될 수 있다고 지적한다.
    • Hereitisguys9888은 GPT-3.1 Pro→GPT-5.4 개선이 초기 기대만큼 ‘혁명적’이지는 않다고 비교한다.
    • FuryOnSc2는 Pro 버전의 FrontierMath 성과를 언급하며 수학 성능의 진전을 강조한다.
  • BREAKING: OpenAI just drppped GPT-5.4 (Activity: 968): 이 게시물은 GPT-5.4가 추론, 코딩, 에이전트형 작업에서 큰 진전을 이뤘다고 소개한다. OSWorld-Verified에서 75%(인간 72.4% 상회), BrowseComp에서 82.7%를 언급하며, 1M-token 컨텍스트, 생성 중간 조정(steerability), 47% 적은 토큰 사용 효율 등을 특징으로 든다. 대화형을 넘어 복잡한 지식 작업과 에이전트 워크플로우를 목표로 한다는 맥락이 담겼고, OpenAI Blog 링크가 포함되어 있다. 댓글에서는 실제 개선보다 “benchmaxing”에 치우쳤을 수 있다는 회의론과, 경쟁 모델 대비 점수 우위를 시험해보고 싶다는 반응이 함께 나왔다.

    • keroro7128는 GPT-5.4 점수가 Opus 4.6보다 높다는 점을 언급하며 성능 향상 가능성을 말한다.
    • bronfmanhigh는 47% fewer tokens라는 효율 지점을 강조하며 실사용 비용/속도에 영향이 클 수 있다고 본다.
    • HesNotFound는 벤치마크의 데이터/비교 기준(사람 vs 다른 AI 등)에 대한 근본적 질문을 제기한다.
  • 5.4 Thinking is off to a great start (Activity: 712): 이미지는 “5분 거리의 세차장에 걸어갈지 차로 갈지”를 묻는 상황을 유머로 표현한다. 답변은 운동/편의 관점에서 걷기를 권하되, 짐이 많거나 날씨가 나쁘면 운전할 수 있다는 식으로 조건부 판단을 제시한다. 댓글은 같은 질문에서도 응답이 달라지는 일관성 문제를 언급했고, 한 사용자는 추론에 오류가 있음을 지적하자 모델이 빠르게 인정하고 수정했다고 보고했다. “차를 밀고 가라”는 농담도 등장해 모델의 실용 추론 한계를 풍자했다.

    • 한 사용자는 Claude(Sonnet), GPT, Grok, Gemini를 비교해 실용적 판단을 테스트했고, 유독 Gemini만 운전을 추천했다는 점을 언급한다.
    • 다른 사용자는 논리를 지적하자 모델이 실수를 인정하고 고쳤다고 말해, 피드백에 대한 반응성을 시사한다.
    • “차를 밀기” 같은 농담은 실용 추론의 난점을 희화화한다.

AI Discord Recap

Gemini 3.0 Pro Preview Nov-18가 “요약의 요약”을 다시 요약한 내용.

GPT-5.4 Launch: Capabilities, Integrations, and “Thinking” Architectures

  • GPT-5.4가 네이티브 추론과 에이전트 워크플로우로 등장: OpenAI가 GPT-5.4를 “Thinking”과 “Pro” 변형으로 공개했으며, 네이티브 컴퓨터 사용 기능과 수학 성능의 큰 향상을 특징으로 든다(한 벤치마크는 오픈소스 대비 19x 개선을 언급). 모델이 자신의 추론 체인(reasoning chains)을 숨기기 어렵다는 점이 CoT Controllability research paper에 언급된 바와 같이, 모니터링이 가능한 안전 도구가 될 수 있다는 맥락도 포함한다.
  • Cursor·Windsurf·Perplexity로 즉시 통합: 모델이 Cursor(Max 모드 독점), Windsurf(promo pricing과 함께 1x 크레딧), Perplexity에 빠르게 배포되었고, 일부 사용자는 GPT-5.2 대비 자연스러운 글쓰기와 감성 지능(emotional intelligence)이 개선됐다고 보고한다. 초기 벤치마크에서는 Text Arena leaderboard에서 GPT-5.4-highGemini-3-Pro 근처에 위치한다는 언급이 있으나, 코딩 효율은 GPT-5.3 Codex 대비 혼재된 평가도 존재한다.
  • 성능 뉘앙스와 비용 함의: 19x 수학 점수 향상이 강조되는 반면, 기존 Cursor 사용자들이 Max 모드에서 새 모델을 쓰기 위해 최대 **1000%**의 가격 인상을 겪을 수 있다는 지적이 나온다. OpenAI 디스코드에서는 모델의 “성격(personality)”과 가드레일이 직접적인 기술 출력에 방해가 되는지 논쟁이 있었고, 일부는 “Pro”보다 “Thinking”의 논리적 흐름을 선호한다고 언급한다.

Agentic IDEs and Security: Memory Leaks, Vulnerabilities, and Automations

  • Cursor 업데이트가 대규모 메모리 누수 유발: v2.6.11 업데이트 이후 Cursor IDE6–10GB RAM을 소비한다는 보고가 있었고, Auto/Composer의 파일 재작성 중 V8 힙 누수로 추정됐다. 워크어라운드는 버전 2.5로 다운그레이드해 RAM을 1.6GB로 안정화시키는 것이며, 동시에 팀이 신규 Cursor Automations을 출시해 기능을 확장했다.
  • Cline은 취약점을 패치했지만 키 로테이션은 실패: 보안 연구자 Adnan Khan이 한 달간의 침묵 이후 Cline 취약점을 공개했고, 공개 후 30분 내 패치가 나왔다. 그러나 패치 직후 손상된 키를 즉시 로테이션하지 못해, security lifecycle management 측면에서 중대한 허점이 드러났다는 지적이 이어졌다.
  • 에이전트 마켓플레이스와 비용 추적 성숙: OpenClaw 멤버가 6-에이전트 스쿼드(Next.js+Supabase)로 주말에 마켓플레이스를 만들었지만, 조율 오버헤드로 QA 병목이 생겼다고 한다. 한편 Claude Code 사용 개발자들은 개발 비용이 급증하는 문제를 모니터링하기 위해 MarginLab’s tracker 같은 도구를 사용하며, 빠른 프로토타이핑에 $250까지 쓰였다는 사례도 언급된다.

Model Architecture and Open Weights: Qwen Updates, Phi-4, and Optimization

  • Unsloth의 Qwen 3.5 GGUF “최종” 업데이트: Unsloth가 새 캘리브레이션 데이터셋과 더 빠른 추론을 위한 bf16=f16 등을 포함한 Qwen 3.5 최종 업데이트를 배포했으며, 이전에 QQ MXFP4가 성능을 떨어뜨렸던 양자화 이슈를 해결했다고 한다. 동시에 Qwen 리드 엔지니어와 얼라인먼트 헤드가 Google로 이직했다는 소문이 돌며 향후 연구 모멘텀에 대한 우려가 나온다.
  • Microsoft의 Phi-4 멀티모달 모델 공개: Microsoft가 추론과 비전에 최적화된 15B 파라미터 모델 Phi-4를 공개했다. 자세한 내용은 Microsoft Research blog에 정리돼 있다. Qwen·Llama 계열과의 구체적 벤치마크 비교는 커뮤니티 테스트에서 아직 대기 중이라는 뉘앙스다.
  • FlashAttention-4와 Lunaris MoC의 효율 경쟁: Together AI가 FlashAttention-4를 발표하며 비대칭 하드웨어 스케일링과 커널 파이프라이닝으로 속도 향상을 주장했다. 동시에 Lunaris MoC는 “Mixture-of-Collaboration”으로 표준 MoE 대비 40% 컴퓨트 절감과 더 낮은 퍼플렉서티(59.97 vs 62.89)를 주장했다(융합 전 learned mediator를 사용).
  • Blackwell B60의 초기 테스트가 기대 이하: LM Scaler on NVIDIA B60 초기 보고에서 성능 이슈와, vLLM의 토큰 리포트 누락 등으로 디버깅이 어렵다는 이야기가 나왔다. 더 나은 제어를 위해 llama.cpp를 선호하거나, 소프트웨어 지원이 성숙할 때까지 커스텀 열/전력 프로파일을 구성하라는 조언이 언급된다.
  • NVLink XID 에러는 하드웨어 열화 신호: GPU 전문가들은 dmesg에서 XID error 카운터가 빠르게 증가하면 NVLink 버스의 자기 교정 비트 에러를 의미할 수 있으니 모니터링하라고 조언한다. 분산 학습에서 rank straggler와 에러를 상관 분석해, 치명적 장애 전에 물리적 열화를 식별하는 것이 중요하다는 맥락이다.
  • 커스텀 서빙 엔진의 CPU 오버헤드 전투: nano vllm 같은 커스텀 서빙 엔진을 만드는 개발자들이 정밀도를 float32에서 bfloat16로 바꿔도 높은 CPU overhead bottlenecks가 지속된다고 보고한다. KV 캐시 관리를 더 효과적으로 오프로딩하기 위해 Triton으로 paged attention 커널을 최적화하자는 제안이 나왔다.

Adversarial AI and Policy: Jailbreaks, Memos, and Lawsuits

  • 메모리 포이즈닝(memory poisoning)으로 LLM을 속이기: BASI의 레드팀이 “memory poisoning”으로 ChatGPT 같은 모델에 탈옥(jailbreak) 상태를 유지시키고, 컨텍스트를 잃거나 “자기 이름을 잊게” 만드는 기법을 사용한다는 언급이 있다. 사용자들은 가상화 컨텍스트를 악용하는 persona-based jailbreaksL1B3RT45 저장소도 공유했다.
  • Anthropic vs OpenAI: 안전 연출(safety theater) 공방 주장: 유출된 메모가 Dario Amodei의 것이라는 주장과 함께, Sam Altman이 DoW의 호의를 얻고 정부 공급자로서 Anthropic을 대체하기 위해 “safety theater”를 한다는 आरोप이 언급된다. 정부 계약에서 기업의 안전 브랜딩과 실제 배포 윤리 사이의 긴장이 커지고 있다는 맥락이다.
  • Gemini의 불법행위/사망 관련 소송 이슈: Google이 Gemini가 환각으로 실제 주소를 제공했고 사용자가 이를 사실로 믿고 행동한 결과 “wrongful death” 시나리오로 이어졌다는 주장으로 법적 조치를 당하고 있다는 내용이 WSJ article에 언급된다. 모델이 검증 가능한 실제 위치 정보를 제공하면서 사용자가 환상을 현실로 믿게 된 점이 사건의 핵심으로 제시된다.