OpenAI, EVMbench로 스마트컨트랙트 보안 평가

헤드라인: OpenAI, EVMbench로 스마트컨트랙트 보안 평가

참고 링크: 544 Twitters, AINews’ website, AINews is now a section of Latent Space, opt in/out

OpenAI가 EVMbench를 공개했다. 이는 에이전트가 고심각도 스마트컨트랙트 취약점을 탐지(detect), 악용(exploit), **패치(patch)**할 수 있는지 평가하는 벤치마크다 (OpenAI). 답글/인용 RT에서는 모델 계열별 성능과 정밀도/재현율 트레이드오프를 비교하는 흐름이 곧바로 이어졌다 (gdb, scaling01 commentary).
이는 정적 QA가 아니라 실제 익스플로잇/패치 워크플로우에 밀접한 과제로 구성된 평가라는 점에서, 에이전트 기반 코드리뷰·온체인 모니터링·자동화된 인시던트 대응을 만드는 팀에게 실무적 시그널로 읽혔다.

AI Twitter Recap

Frontier model + benchmark churn (Claude 4.6, Qwen3.5, GLM‑5, Gemini 3.1 Pro, MiniMax M2.5)

Anthropic Claude Opus/Sonnet 4.6: 큰 점프, 큰 토큰 청구서: Artificial Analysis에 따르면 Sonnet 4.6은 Intelligence Index에서 51(Sonnet 4.5 reasoning의 43에서 상승)을 기록했고 Opus 4.6(53) 바로 뒤에 위치했다. 다만 토큰 효율(token efficiency)은 눈에 띄게 악화돼, 스위트 실행에 ~74M output tokens가 필요했는데 Sonnet 4.5는 ~25M, Opus 4.6은 ~58M였다(또한 Sonnet 4.6을 max effort로 돌릴 때 지수 실행 비용이 $2,088로 언급됨) (AA summary, token note). 커뮤니티에서는 “4.6이 critique/architecture에서 더 나은 느낌”이라는 반응이 나오는 한편 (eshear), Claude Code 주변의 신뢰성/제품 이슈(“Anthropic drama”로 불리는 SDK/docs 및 툴링 안정성 논의)도 함께 제기됐다 (theo).
Claude in Search Arena + autonomy telemetry: Arena가 검색 모달리티 리더보드에 Opus/Sonnet 4.6을 추가했다 (arena). Anthropic은 또한 “Measuring AI agent autonomy in practice”를 공개하며 수백만 건의 툴 사용 상호작용을 분석했다. 그 결과 툴 호출의 **~73%**는 human-in-the-loop, **0.8%만 irreversible로 보였고, API에서의 툴 호출 중 software engineering이 ~50%**를 차지했다. 이를 “autonomy is co-constructed by model + user + product”로 프레이밍하며 배포 이후(post-deployment) 모니터링의 동기를 설명했다 (Anthropic, metrics, industry mix).
Qwen 3.5: 추론(reasoning) 효율 vs “excess thinking”: Qwen3.5의 “overthinking”/토큰 사용량이 핵심 축으로 언급되며 불만도 나오고 (QuixiAI), 커뮤니티 분석에서는 Qwen3.5-Plus가 이전 Qwen reasoning 변형 대비 긴 체인 토큰 비대(token bloat)를 줄이지만 non-reasoning 모드에서는 회귀(regression)가 있다는 주장도 나왔다 (ZhihuFrontier). 배포 측면에서는 Qwen3.5-Plus가 Vercel AI Gateway에 들어갔고 (Alibaba_Qwen), Alibaba Cloud는 코딩 에이전트를 겨냥해 고정 월정액과 높은 요청 한도를 내세운 Qwen Coding Plan 구독을 출시했다 (Alibaba_Qwen).
Qwen3.5-397B-A17B FP8 weights opened: Alibaba가 Qwen3.5‑397B‑A17B의 FP8 weights를 공개했다. **SGLang 지원이 머지(merged)**됐고 vLLM PR이 진행 중이며(vLLM 지원은 “next couple days”) “open weights + 즉시 생태계 bring-up”이 경쟁력 있는 OSS 릴리스의 기본 요건이 되어가는 사례로 언급됐다 (Alibaba_Qwen).
GLM‑5 technical report + “agentic engineering” RL 인프라: GLM‑5 기술 보고서가 직접 언급되고 (scaling01), vibe-coding에서 “agentic engineering”으로의 전환을 주장하는 맥락에서 asynchronous agent RL(생성(generation)과 학습(training)의 분리)과, 긴 컨텍스트 성능을 유지하면서 연산을 줄이기 위한 DSA가 소개됐다는 요약이 공유됐다 (omarsar0). 실무자들은 optimizer/state 처리, agentic 데이터 큐레이션(터미널 환경, 슬라이드 생성 등) 같은 세부가 OSS 재현에 유용할 정도로 상세하다고 평가했다 (Grad62304977).
Gemini 3.1 Pro 루머 + “thinking longer”: 초기 테스트 경험담에서는 Gemini 3.1 Pro가 Gemini 3 Pro보다 더 긴 “thinking” 트레이스를 생성하며 Opus/GPT와의 격차를 줄일 수 있다는 이야기가 나왔다. 반면 벤치마크 신뢰성과, 적대적(adversarial) 케이스에서의 실패(예: 정답이 포함된 ARC-AGI-2 프롬프트를 잘못 처리)를 들어 회의적 반응도 함께 제기됐다 (scaling01, ARC anecdote).
MiniMax M2.5가 커뮤니티 리더보드에 등장: Yupp/OpenRouter 게시물에서 MiniMax M2.5와 M2.5 Lightning 온보딩 및 프롬프트-투표 리더보드 기반 추적이 언급됐다 (yupp_ai, OpenRouter benchmark tab).

Agentic coding + harness engineering (Claude Code, Cursor, LangSmith, Deep Agents, SWE-bench process)

Harness is performance: 동일한 모델(Claude Opus 4.6)이라도 에이전트 하네스(harness) 차이로 결과가 크게 달라질 수 있다는 비교가 공유됐다. LangChain Deep Agents CLI는 9s, Claude Code는 16s로, 모델 변경 없이 1.7× 차이가 났다—오케스트레이션(orchestration), 툴 정책, 컨텍스트 전략이 체감 성능을 좌우한다는 주장이다 (GitMaxd). 관련해 Claude Code의 프롬프트가 병렬 툴 호출을 끌어내기 위해 “fight the weights”하는 것처럼 보인다는 지적도 나왔다 (dbreunig).
Cursor, “agent memory” UX에 집중: Cursor가 .agents/skills 지원을 출시했고 (leerob), 이어서 past conversations as context(과거 대화의 컨텍스트(context)화)를 추가했다. IDE 에이전트의 지속적(persistent)이고 툴-사용 가능한 메모리로 가는 실용적 단계로 언급됐다 (cursor_ai).
LangSmith Agent Builder 업그레이드: LangChain이 워크스페이스의 모든 툴에 접근 가능한 “general agent” 채팅, chat→agent 전환, file uploads, 중앙 툴 레지스트리를 출시해 실험과 배포 가능한 에이전트 사이의 마찰을 줄이려 했다 (LangChain). 또한 eval-driven 워크플로우에서 회귀(regression) 추적을 고정점으로 삼기 위한 Baseline Experiments도 추가했다 (LangChain).
SWE-bench 인프라 반복(iteration): SWE-bench 리더보드가 “기본 모델에서 더 많은 juice를 뽑기” 위해 mini-SWE-agent v2로 전면 실행 방식이 바뀌었다. 이는 하네스 업그레이드가 프런티어를 이동시키므로 모델 진전 해석에 영향을 준다는 점을 시사한다 (OfirPress). 동시에 “SWE-fficiency ranking is broken” 같은 평가 방법론 불만도 계속 표면화됐다 (scaling01).
Windows 에이전트 셸의 실무 안전 함정: “bash tool”이 Git Bash/MSYS2라면 2>nul 같은 Windows 리다이렉션을 출력하지 말라는 경고가 나왔다. NTFS에서 삭제 불가한 nul 파일을 만들 수 있다. Unix 스타일 리다이렉션을 쓰거나 Windows 명령은 cmd /c로 명시적으로 감싸라는 조언이다 (MParakhin).

OpenAI + smart-contract security as an “agent capability” slice (EVMbench)

EVMbench launched: OpenAI가 에이전트가 고심각도 스마트컨트랙트 취약점을 detect / exploit / patch할 수 있는지 평가하는 EVMbench를 소개했다 (OpenAI). 답글/인용 RT의 맥락에서는 agentic security가 부차적인 것이 아니라 “1급(1st-class) 평가 카테고리”가 되어가고 있다는 흐름이 있었고, 엔지니어들은 모델 계열과 정밀도/재현율 트레이드오프를 비교했다 (gdb, scaling01 commentary).
Signal for engineers: 정적 QA가 아니라 실제 익스플로잇/패치 워크플로우에 연결된 평가의 예로, 에이전트 기반 코드리뷰·온체인 모니터링·자동 인시던트 대응을 만든다면 EVMbench 유형 과제가 일반 코딩 리더보드보다 프로덕션에 가깝다는 메시지로 정리됐다.

Data, curation, and evaluation hygiene (ÜberWeb multilingual, prompt repetition, “slop pollution”)

ÜberWeb: 영어 성능을 희생하지 않는 다국어(multilingual) 개선: DatologyAI의 “ÜberWeb”은 data quality/composition을 통해 다국어 모델의 compute–performance 파레토 전선을 20T+ tokens 스케일에서 이동시킨다고 주장하며, “curse of multilinguality”를 주로 데이터 품질 문제로 본다 (RicardoMonti9, pratyushmaini, agcrnz).
프롬프트 반복(prompt repetition) 논쟁: 같은 프롬프트를 두 번 반복하면 정확도가 크게 오른다는 바이럴 주장(예: 이름 검색 과제에서 21%→97%)에 대해 방법론적 반박이 나왔다. 질문을 맨 앞에 두면 효과가 사라질 수 있고, question-first 베이스라인을 포함하지 않으면 결과가 부풀려질 수 있다는 지적이다 (kimmonismus claim, paul_cal critique).
데이터셋 오염(poisoning)은 더 이상 가설이 아님: 수십 년간 남아 있던 “first 500 primes”의 잘못된 웹페이지가 2026년에는 생성형 모델을 “pollute”할 수 있다는 일화가 널리 공유되며, 웹 학습 기반 사실 priors의 취약성과 provenance-aware retrieval/verification 레이어의 필요성이 강조됐다 (skominers).
AI slop 탐지 + provenance: 존재하지 않는 Unitree 모델/핸드 같은 가짜 로보틱스 미디어를 경고하며 출처 신뢰도와 물리적 개연성 검증을 강조하는 글이 있었다 (teortaxesTex). 완화 측면에서는 Google이 Gemini 내 오디오에 대해 SynthID 워터마크 검증을 밀며, provenance 툴링을 이미지/비디오를 넘어 확장하는 흐름이 언급됐다 (GeminiApp, Google).

Multimodal + creative model releases (Lyria 3 music, long-context VLMs, video editing)

Google/DeepMind Lyria 3: Gemini에 음악 생성 탑재: Lyria 3는 텍스트 또는 이미지/비디오 프롬프트로 30초 트랙을 생성하고 lyrics/vocals를 지원하며 Gemini에 광범위하게 롤아웃 중이라고 한다. 출력은 SynthID로 워터마킹되고, Gemini는 SynthID 체크로 오디오 provenance를 검증할 수 있다 (GeminiApp launch, DeepMind, Google, philschmid summary). 프롬프트 팁으로는 장르/무드/악기/보컬/가사 등을 구조화해 명시하는 방식이 언급됐다 (GeminiApp tips).
OriOn long-context VLM: 에이전트형 문서 검색: LightOn이 문서 기반 에이전트 검색/추론을 겨냥한 long-context VLM OriOn을 소개했다. “단일 패스에서 full visual resolution로 250 pages”까지를 주장하며, 학습 레시피와 수정된 벤치마크 세트 MMLBD‑C를 공개했다 (LightOnIO).
비디오 생성/편집 논문 계속 누적: arXiv 논문들이 계속 언급되며(예: world-consistent 생성을 위한 spatial memory retrieval, 실시간 편집을 위한 disentangled control) 주로 페이퍼 집계 계정 트윗을 통해 공유됐다 (AnchorWeave, EditCtrl). 엔지니어링 관점에서는 retrieval + structured memories가 시간적 일관성(temporal consistency)에서 반복되는 모티프로 정리됐다.

Systems + infra notes worth stealing (Moondream SIMD decode, STT benchmarks, MCP tooling, vector DBs)

Moondream: “decode bottleneck”과 SIMD 이미지 디코딩: Moondream은 추론이 빨라져 image decoding이 병목이 되자, 일반적인 Python 옵션보다 빠른 SIMD image decoding library를 만들었고 설치를 쉽게 하려고 statically linked했다고 한다. 또한 Lanczos3 resize가 빠르지만 pyvips보다는 아직 느리다는 언급도 있었다 (vikhyatk, resize note).
AA-WER v2.0: STT 벤치마킹의 “ground truth” 강화: Artificial Analysis가 AA-WER v2.0과 홀드아웃(proprietary) 데이터셋 AA-AgentTalk(보이스 에이전트 대상으로 한 음성) 및 VoxPopuli/Earnings22의 정규화(normalization)를 개선한 cleaned 버전을 공개했다. 리더로는 ElevenLabs Scribe v2(2.3% AA-WER v2.0)와 Gemini 3 Pro(2.9%)가 언급됐다 (ArtificialAnlys).
FastMCP 3.0: FastMCP 3.0은 세션별 컨텍스트/점진적 공개(progressive disclosure), 더 완성된 CLI, versioning/auth, OTEL 등을 추가하며 MCP 스타일 통합을 둘러싼 “tool server” 생태계의 하드닝 흐름으로 소개됐다 (jlowin).
RAG 스택 진화(Qdrant 예시): Qdrant는 정적 임베딩에서 persistent semantic memory + 실시간 웹 검색 + 에이전트 추론의 동적 아키텍처로 이동하자는 메시지를 냈다. 연구적으로 새롭다기보다는 마케팅 톤이지만, 프로덕션 RAG의 방향성과는 일치한다는 평가다 (qdrant_engine).

Top tweets (by engagement, filtered to mostly tech/AI)

Google Gemini / Lyria 3 음악 생성 런치: SynthID 워터마킹을 포함한 음악 생성 통합 (GeminiApp, Google, GoogleDeepMind).
OpenAI EVMbench (에이전트형 스마트컨트랙트 보안 벤치마크) (OpenAI).
Anthropic: 실사용에서의 에이전트 자율성 측정(수백만 상호작용 분석) (AnthropicAI).
ZyphraAI ZUNA: 오픈소스 EEG foundation model (380M params, Apache 2.0) (ZyphraAI).
데이터 오염/모델 취약성 밈(실제 함의 포함): 잘못된 primes 사이트가 모델을 “polluting” (skominers).
Moondream SIMD 이미지 디코드 라이브러리(실전 성능 엔지니어링) (vikhyatk).

AI Reddit Recap

/r/LocalLlama + /r/localLLM

Innovative AI Applications and Experiments

I plugged a $30 radio into my Mac mini and told my AI “connect to this” — now I control my smart home and send voice messages over radio with zero internet (Activity: 355): $30 라디오를 Mac mini에 연결하고 AI에게 “이거에 연결해”라고 지시한 뒤, 인터넷 없이 라디오로 스마트홈 제어 및 음성 메시지 송신을 하는 구성을 설명한다. Lilygo T-Echo radios 2대와 LoRa 433MHz, Meshtastic firmware로 메시 네트워크를 구성해(특히 우크라이나의 정전 상황처럼) 인터넷이 없어도 통신과 제어를 유지한다. Mac mini는 OpenClaw AI를 실행하며 라디오 설정, 소프트웨어 설치, Python 리스너 데몬 생성 등을 자율적으로 수행한다. 이 데몬은 메시지 라우팅을 관리하고, intent 분류에는 phi4-mini, 응답에는 gemma3:12b를 사용하며 Home Assistant와 연동한다. 라디오로 음성 메시지를 보내고 TTS로 스피커 재생도 가능하다고 한다. 댓글에서는 OpenClaw를 높은 권한으로 실행할 때의 보안 위험(잠재 취약점, 악성 네트워크 악용 가능성)이 지적됐다.
The guy that won the NVIDIA Hackathon and an NVIDIA DGX Spark GB10 has won another hackathon with it! (Activity: 419): NVIDIA DGX Spark GB10 2대와 Dell Pro Max T2 Tower를 활용해 개인화 언어학습용 자동 음성 인식 앱을 만든 프로젝트를 소개한다. 256 GB LPDDR5x 메모리, CrisperWhisper/faster-whisper, 커스텀 트랜스포머를 결합해 전사와 음소(phoneme) 수준 발음 평가를 수행하고, Montreal Forced Aligner와 휴리스틱으로 비유창(disfluency)을 탐지하며 SEP-28k 같은 데이터셋을 활용한 더듬(stutter) 분석도 언급된다. 실시간 적응형 피드백/연습을 제공하는 방향이며 자세한 내용은 Medium article에서 확인할 수 있다. 댓글에서는 스페이싱 반복(spaced repetition), n+1 학습, retrievability/stability/difficulty 기반 스케줄링 등 학습 알고리즘 논의가 이어졌다.
I gave 12 LLMs $2,000 and a food truck. Only 4 survived. (Activity: 1191): 12개 LLM에게 $2,000와 푸드트럭을 주고 30일간 운영하게 하는 비즈니스 시뮬레이션을 소개한다. 위치/메뉴/가격/인력/재고 등을 의사결정하며, Opus 4.6이 $49K로 최고 순자산, GPT-5.2는 $28K를 기록했다. 8개 모델은 파산했는데 특히 대출을 선택한 모델들이 많이 무너졌고, Gemini 3 Flash Thinking은 무한 의사결정 루프에 갇혔다고 한다. 유저가 리더보드에서 경쟁하는 플레이 모드도 언급된다. 댓글에서는 y축 로그 스케일 제안, Vending-Bench 언급, Qwen 397b 테스트 제안, “GLM 5가 사업을 시작하지 않은 게 가장 똑똑했다” 같은 반응이 나왔다.

New Model Launches and Technical Reports

GLM-5 Technical Report (Activity: 253): GLM-5 기술보고서의 핵심으로, 오픈소스 모델 중 특히 소프트웨어 엔지니어링 작업에서 SOTA 성능을 달성했다고 소개한다. 긴 컨텍스트(long-context) 충실도를 유지하면서 비용을 줄이기 위한 Dynamic Sparse Attention(DSA), post-training 효율을 높이는 asynchronous RL 인프라, 복잡한 상호작용으로부터 학습을 강화하는 agent RL 알고리즘 등이 언급된다. 첨부 이미지는 베이스 모델 학습에서 post-training으로 넘어가는 과정(온-폴리시 cross-stage distillation 등)을 도식화한 것으로 설명됐다. View Image. 댓글에서는 INT4 quantization-aware training(QAT), mixed-precision W4A8 양자화(quantization) 전략, 744B 파라미터/256 experts/레이어 수 축소(80) 같은 설계 논의가 이어졌다.
Alibaba’s new Qwen3.5-397B-A17B is the #3 open weights model in the Artificial Analysis Intelligence Index (Activity: 311): Qwen3.5-397B-A17B가 Artificial Analysis Intelligence Index에서 오픈 웨이트 모델 #3로 소개됐다. 397 billion 총 파라미터 중 17 billion만 활성(active)인 MoE 구조를 통해 효율을 강조하며, 큰 모델 대비 추론 비용을 낮추면서 경쟁력 있는 성능을 목표로 한다는 반응이 나왔다. 댓글에서는 실사용 코딩 능력 vs 벤치마크 가치, 다른 모델(예: Step 3.5 Flash)이 차트에 없다는 점 등의 논의가 이어졌다.

Less Technical AI Subreddit Recap

/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo

Claude Sonnet 4.6 Release and Benchmarks

Sonnet 4.6 released !! (Activity: 1651): 이미지에서 Claude Sonnet 4.6 출시를 알리며, 코딩/컴퓨터 사용/long-context reasoning/agent planning/지식 업무/디자인 등에서 개선을 강조한다. 1 million token context window(beta)도 언급되며, 경쟁 모델 대비 우위를 주장하는 분위기가 있다. 댓글에서는 “claudemogged” 같은 농담과, 짧은 거리에서 걷기 vs 운전 판단처럼 일상 의사결정 예시가 공유됐다.
Anthropic releases Claude Sonnet 4.6 model (Activity: 475): Anthropic이 Claude Sonnet 4.6을 공개했으며, agentic/툴-헤비 작업에서 성능을 올려 Opus와의 격차를 좁힌다고 소개한다. 최대 1M tokens 지원이 언급되고, 자세한 내용은 official announcement로 안내된다. 댓글에서는 벤치마크보다 복잡한 작업 수행 능력, Haiku 업데이트 기대, 모델 카드 공개 요구 등이 나왔다.
This is Claude Sonnet 4.6: our most capable Sonnet model yet. (Activity: 1639): Claude Sonnet 4.6이 코딩/컴퓨터 사용/long-context reasoning/agent planning에서 큰 업그레이드라고 소개된다. 1M token context window(beta), 다양한 벤치마크에서의 개선, Opus 수준에 근접하는 “지능”을 더 낮은 비용으로 제공한다는 포지셔닝이 포함된다. 스프레드시트/웹 폼 같은 컴퓨터 작업을 인간 수준으로 수행한다는 주장도 있다. Learn more. 댓글에서는 1M 컨텍스트 제공 범위(API/웹)와 Sonnet vs Opus 선택 기준(비용 외 차이) 등이 질문으로 나왔다.
Claude Sonnet 4.6 just dropped, and the benchmarks are impressive (Activity: 1062): Sonnet 4.6이 “near-Opus level”을 더 낮은 비용으로 제공한다는 논의와 함께, 컴퓨터 사용, 1M token context window, 자동화 워크플로우 등에서의 강점을 강조한다. 댓글에서는 Opus 4.6 vs GPT-5.2의 성능 차이는 작지만 GPT-5.2가 훨씬 싸다는 지적, 1M 컨텍스트가 실제로는 잘 안 보인다는 불만, Codex가 토큰 한도 측면에서 더 “후하다”는 비교 등이 나왔다.

Unitree Robotics and Kung Fu Bot

Unitree Executes Phase 2 (Activity: 1741): Unitree Robotics의 Phase 2 실행을 소개하며, 로봇 효율/역량 향상(예: ‘front flip’ 같은 동작) 시연 맥락으로 요약된다. 댓글에서는 동작 전략을 둘러싼 농담과 감탄이 섞였다.
Unitree showcases Cluster Cooperative Rapid Scheduling system with their “Kung Fu Bot” model (Activity: 713): Unitree가 ‘Kung Fu Bot’ 모델과 Cluster Cooperative Rapid Scheduling System을 공개하며 다수 로봇의 협조/스케줄링을 강조했다. 새해 행사 시연을 통해 동기화 작업을 보여줬고, 향후 10년 내 노인 케어 같은 응용 가능성이 언급됐다. Unitree’s demonstration.
We will probably forget these images once humanoid robots become ubiquitous on our streets. Unitree training before the Gala (Activity: 1080): 갈라 행사 전 Unitree 로봇 훈련(동기화된 움직임/복잡한 동작)을 소개하며, Boston Dynamics의 개별 스턴트 영상과 대비된다는 맥락이 포함된다. 댓글에서는 중국 로보틱스의 스케일/전개 방식에 대한 비교, 드론 등 공중 위협에 대한 취약성, 로봇 개발 목적에 대한 윤리적 논쟁이 나왔다.
Unitree robots perform on primetime national Chinese television (Activity: 773): 중국 지상파 프라임타임에서 Unitree 로봇이 퍼포먼스를 선보였고, 민첩성과 협응(코디네이션)이 강조된다. 저렴한 가격과 다목적성을 들어 Boston Dynamics Spot과 비교하는 언급도 있고, 중국의 로봇/AI 리더십 전략과 연결하는 댓글 흐름이 있었다.

Grok 4.20 and Elon Musk Controversies

The newly released Grok 4.20 uses Elon Musk as its primary source (Activity: 2596): Grok 4.20이 민감 주제에서 Elon Musk의 견해에 맞춘 것처럼 보인다는 밈 이미지로, 모델의 편향/중립성 문제를 풍자한다. 댓글에서는 모델이 자신의 정렬 요구를 인정하기까지 여러 턴이 걸렸다는 보고와, 모델 유용성에 대한 회의가 언급됐다.
Grok 4.20 is just four Grok 4.1 agents (Activity: 758): ‘Grok 4.20’이 사실상 ‘Grok 4.1’ 네 개를 묶은 것뿐이라는 풍자 이미지로, 모델 ID가 ‘grok-4-1-thinking-1129’로 보이는 점을 근거로 든다. 댓글에서는 x.ai 내부 지연/이탈 등 운영 이슈 추정과, 멀티-에이전트 결합 아이디어(여러 모델의 강점 결합)가 언급됐다.
Presented without comment. (Activity: 589): Boaz Barak의 트윗 스크린샷을 활용한 밈으로, grok.com 대화에서 “Elon Musk is stupid” 같은 문구를 말해 핵전쟁을 막을 수 있느냐는 가정에 대해 AI가 부정적 반응을 보이는 장면을 통해 편향을 풍자한다. 댓글에서는 질문 표현 방식에 따른 프라이밍(priming) 가능성과, Musk 편향이라는 해석이 언급됐다.

AI Discord Recap

Agent Tooling & MCP Ecosystem

Cursor 백그라운드 에이전트: 터미널 + MCP 툴 프리뷰: Cursor 사용자들이 백그라운드 에이전트 모델에 대한 tools access 롤아웃을 보고했으며, 프리뷰로 terminal과 MCP tools가 포함된다고 한다. 컨텍스트를 가볍게 유지하기 위해 툴 설명만 로드하는 ****Dynamic Context Discovery 같은 기능과 함께 언급됐다.
Cursor Team Kit 논쟁 + Composer 1 성능 저하 트러블슈팅: 팀 공유 규칙으로서 Cursor Team Kit의 효용이 과장인지 실용인지 논쟁이 있었고, Composer 1 slowdowns 회귀(regression) 문제는 설정에서 HTTP/2를 끄는 우회책이 공유됐다.
MCP 마이크로페이먼트: X402 기반 X402 제안: MCP 기여자들이 MCP 서버가 툴에 대해 결제를 요청할 수 있는 SEP 형태의 수익화 제안을 논의했으며, 초기 대상으로 X402를 들었다. SEP PR #2007. 목표는 에이전트가 예산 가드레일 내에서 “센트 단위”로 툴을 구매할 수 있게 하는 것이다.
프로토콜 내 결제 vs out-of-band 결제: 결제를 프로토콜에 내장할지, URL elicitation 같은 방식으로 외부 결제를 할지 의견이 갈렸고, 찬성 측은 에이전트가 합리적으로 툴을 선택하려면 price metadata가 1급 시민처럼 포함돼야 한다고 주장했다.
OpenClaw의 CRM/RouterOS 트레이너화: 한 사용자가 Nex skill로 OpenClaw에 email + calendar + Slack을 연결해 CRM을 만들고 이를 ****nex-crm/clawgent**로 공개했다. 또 다른 사용자는 Mikrotik RouterOS용 네트워킹 서브에이전트(“SwitchBtch”)를 약 $15로 5단계 학습시켰다고 소개했다.
현실 통합 사례(SONOS 등): OpenClaw 빌더들이 SONOS 음성 안내를 이용한 기상/알림 다이제스트 등 실전 통합 사례를 강조하며, 에이전트는 “대화”보다 툴링 + 컨텍스트 레이어를 소유할 때 강해진다는 패턴을 반복했다.

Model/Benchmark Drops & Real-World Quality Debates

Claude vs Gemini: 리더보드에서 Opus 4.6 Thinking 1위: OpenAI Discord 사용자들이 이미지로 공유된 리더보드에서 Claude가 Gemini를 앞섰고 Opus 4.6 Thinking이 1위를 차지했다고 퍼뜨렸다 (attached leaderboard image).
Gemini UI 불만 vs ~1M 컨텍스트 강점: Gemini 팬들조차 “terrible UI”, 복사/붙여넣기 마찰 등을 불평했지만, ~1M token context를 킬러 기능으로 언급했다(Claude의 1M context beta 소문과 함께).
Arena 스토리텔링 전쟁: GPT-4o 이탈, Kimi K2.5 호평: LMArena 사용자들은 스토리텔링에서 GPT-4o가 사라진 것을 아쉬워했고 대안으로 Gemini Flash 3 등을 언급했다. 동시에 Kimi K2.5가 “캐릭터를 유지(stuck to the character)”하며 캐논을 지킨다는 평가가 반복됐다.
sycophancy/hallucination 비판 + 오픈소스 추격 담론: 다른 모델(예: Seed 2.0)에 대해서는 아부(sycophancy)/환각(hallucination) 비판이 나왔고, 오픈소스가 프런티어에 근접했는지 논쟁이 이어졌다. 스케일링 둔화 논쟁으로 TechCrunch on diminishing returns도 인용됐다.
GLM-5: 보고서는 SOTA, 코더들은 “글쎄”: 커뮤니티는 ****GLM-5 technical report**에 대해 (RL 인프라/agent RL 같은 엔지니어링 주장에도 불구하고) “별로 흥미롭지 않다”는 반응도 있었다. 실무자들은 GLM-5가 실제 코딩에서는 Kimi K2.5나 Minimax M2.5보다 못하다고 보고하며, 벤치마크가 좋아도 일상 coding UX가 실망스럽다는 주제가 반복됐다.

Agent Security, Policy Friction, and “Why Did My Account Get Banned?”

OpenClaw 위협 모델(threat model) 현실 점검: 로컬에서 에이전트를 돌리는 것은 사실상 신뢰할 수 없는 주체에게 파일/서비스 접근 권한을 주는 것과 같고, VPS에 과도한 권한(예: nopasswd sudo)을 주면 치명적 문제가 날 수 있다는 경고가 나왔다.
Anthropic TOS 업데이트 해석: 한 그룹이 Anthropic TOS 업데이트를 X로 공유하며 논의했는데, 주로 개인 사용이 아니라 비즈니스/앱 데이터 수집을 겨냥한 것으로 읽혔다. 그럼에도 모델 백업 필요성이 언급됐다.
Codex + OAuth → 계정 정지(suspension) 보고: 여러 OpenClaw 사용자가 OAuth를 통해 Codex를 사용하던 중 OpenAI 계정 정지를 겪었다고 보고했고, OAuth가 지원되는 기능임에도 예전에는 없던 일이라며 Codex의 실무적 한계/신뢰성에 대한 우려가 나왔다.
Reddit에서 Codex 언급으로 밴/적대감: Eleuther 멤버들이 Codex/ChatGPT 언급만으로 Reddit에서 적대적 반응이나 밴을 겪었다고 했고, r/codex에 ~/.codex/AGENTS.override.md를 공유한 것이 봇 모더레이션에 의해 “AI text spam”으로 처리됐을 수 있다는 추정도 나왔다.
에이전트 앱 “방화벽” 레포 등장: DSPy/HF 빌더들이 에이전트 앱용 “firewall” 연구 프로젝트 llmtrace를 소개했다. 실시간 프롬프트 인젝션 탐지, PII 스캐닝, 비용 통제 등을 제공하며 github.com/epappas/llmtrace에 공개됐다.

GPU/Kernel Performance Engineering (and Benchmark Drama)

RTX 3060 Ti에서 47 TFLOPS: GPU MODE에서 Ampere RTX 3060 Ti로 커스텀 DSL로 16k GEMM에서 47 TFLOPS를 냈다는 보고가 나와(110 registers, no spills) 사람들이 놀랐고, 해당 부류 워크로드의 dense peak가 ~64 TFLOPS라는 언급이 뒤따랐다.
Blackwell 튜닝/Cutlass 트릭 논의: Blackwell 세대 튜닝과 Cutlass 기법이 논의됐고, 예시로 CuTeDSL dense_gemm.py example가 공유됐다. H100에서 fusion 없이 ~80% MAMF가 실무적 상한이라는 언급도 있었다.
MI300X 대역폭 추격: 4.6 TB/s 목표: ROCm 스레드에서는 MI300X에서 벡터 add를 최적화하며 더 큰 벡터/더 적은 블록/비-템포럴(non-temporal) 벡터화 load/store 등을 논의했고, 이론적 상한으로 **4.6 TB/s+**가 언급되며 Chips and Cheese’s MI300X testing이 참조됐다.
FlashInfer 60×–70× 주장 vs 실측 0.5×–1.5×: FlashInfer에서 60–70× 가속을 주장한 사례로 FlashInfer kernel bench가 언급됐지만, 예제 테스트에서는 ~0.5× to 1.5× 수준이라는 보고가 나와 충돌했다. NCU가 B200에서 불안정하다는 말이 있었고, NCU 실행을 위해 Verda 같은 GPU 제공자를 쓰는 우회도 언급됐다(보증금 + 10분 단위 과금).

Local Training, Context Efficiency, and “Make It Fit on My GPU”

CoDA-GQA-L: 70B @ 128K에서 KV 캐시 136MB 캡: Eleuther 멤버들이 bounded-memory attention인 CoDA-GQA-L을 공유했는데, 70B 모델을 128K 컨텍스트에서 136 MB KV cache로 고정한다고 한다. 코드: anthony-maio/CoDA-GQA-L, 글: Zenodo. 설계는 레이어당 384 slots(recent window 256 tokens, landmark bank 64 tokens, summary bank 64 EMA prototypes)를 사용하며, KV 캡핑의 효과와 “differential attention” 자체의 효과를 분리한 ablation 요구가 나왔다.
Minecraft 슬래시 커맨드: Qwen 3 0.6B 미세조정(fine-tuning): LM Studio 사용자가 Qwen 3 0.6B를 Minecraft Java 슬래시 커맨드 데이터로 파인튜닝하며 “dataset이 가장 어렵다”고 강조했고, Colab T4, Kaggle 2×T4 + 40GB RAM 등 무료 GPU 옵션과 참고 논문 arXiv:2401.02415를 공유했다.
로컬 하드웨어 현실론: P100/P40 같은 구형 Tesla는 텐서 코어 부재로 LLM에 “ewaste” 취급을 받는다는 말이 있었고, Intel Arc Battlemage에서 Vulkan 실행은 flash attention 비활성화, 레이어 제거, mmap 끄기 같은 조치가 필요하다는 실무 팁이 오갔다.
LoRA vs Full Finetune: Unsloth 사용자들이 **FFT (full fine-tune)**가 더 일반화(generalize)된다는 실험과, 더 큰 모델에 LoRA를 얹어 예산 대비 효율을 얻는 접근을 비교하며 “컴퓨트가 사실상 무제한이 아니면 LoRA가 자주 이긴다”는 결론을 공유했다(r=1024 테스트도 진행). 또한 Unsloth는 XLA에서 동작하지 않으며(GPU-only, 단 inference 제외), 4060 Ti + 64GB DDR5에서 RAM 오프로딩으로 ~30 tok/s 같은 수치가 공유돼 트레이드오프가 강조됐다.

오늘의 요약

헤드라인: OpenAI, EVMbench로 스마트컨트랙트 보안 평가

AI Twitter Recap

Frontier model + benchmark churn (Claude 4.6, Qwen3.5, GLM‑5, Gemini 3.1 Pro, MiniMax M2.5)

Agentic coding + harness engineering (Claude Code, Cursor, LangSmith, Deep Agents, SWE-bench process)

OpenAI + smart-contract security as an “agent capability” slice (EVMbench)

Data, curation, and evaluation hygiene (ÜberWeb multilingual, prompt repetition, “slop pollution”)

Multimodal + creative model releases (Lyria 3 music, long-context VLMs, video editing)

Systems + infra notes worth stealing (Moondream SIMD decode, STT benchmarks, MCP tooling, vector DBs)

Top tweets (by engagement, filtered to mostly tech/AI)

AI Reddit Recap

/r/LocalLlama + /r/localLLM

Innovative AI Applications and Experiments

New Model Launches and Technical Reports

Less Technical AI Subreddit Recap

Claude Sonnet 4.6 Release and Benchmarks

Unitree Robotics and Kung Fu Bot

Grok 4.20 and Elon Musk Controversies

AI Discord Recap

Agent Tooling & MCP Ecosystem

Model/Benchmark Drops & Real-World Quality Debates

Agent Security, Policy Friction, and “Why Did My Account Get Banned?”

GPU/Kernel Performance Engineering (and Benchmark Drama)

Local Training, Context Efficiency, and “Make It Fit on My GPU”