OpenAI, Agents SDK 하네스 분리와 샌드박스 확장

헤드라인: OpenAI, Agents SDK 하네스 분리와 샌드박스 확장

참고 링크: 544 Twitters AINews’ website AINews is now a section of Latent Space opt in/out

OpenAI가 에이전트 하네스(harness)를 실행 컴퓨트/스토리지에서 분리하고, Agents SDK를 장기 실행(long-running)·지속(durable) 에이전트에 맞는 스택으로 확장하는 흐름이 뚜렷해졌다. 하네스가 오픈소스화되고 실행을 파트너 샌드박스(sandbox)로 위임하는 패턴이 확산되면, “Codex-style” 에이전트는 제3자도 재현(reproducible)하기 쉬워지고 경쟁력은 오케스트레이션(orchestration)·상태 관리(state management)·보안 실행(secure execution)로 이동한다.

주의: ## 헤드라인 섹션에서 새로운 마크다운 링크를 추가하거나, 아래 Recap에 이미 있는 링크를 중복해서 다시 넣지 마세요.

AI Twitter Recap

OpenAI Agents SDK 확장과 샌드박스 지향 에이전트 스택

OpenAI가 에이전트 하네스(agent harness)를 컴퓨트/스토리지에서 분리하고, Agents SDK를 장기 실행(long-running)·지속(durable) 에이전트로 밀어붙이며 파일/컴퓨터 사용(file/computer use), 스킬(skills), 메모리(memory), 컴팩션(compaction) 같은 프리미티브(primitives)를 제공했다. 하네스는 오픈소스이자 커스터마이즈 가능해졌고, 실행(execution)은 OpenAI 인프라에 강결합하지 않고 파트너 샌드박스로 위임할 수 있다고 @OpenAIDevs, follow-up, @snsf가 전했다. 이는 “Codex-style” 에이전트를 제3자가 더 재현 가능하게 만들고, 차별화를 오케스트레이션·상태 관리·보안 실행 쪽으로 이동시키는 효과가 있다.
출시 직후 생태계가 빠르게 형성됐다: @CloudflareDev, @modal, @daytonaio, @e2b, @vercel_dev가 공식 샌드박스 통합을 발표했다. 실전 패턴은 **상태 없는 오케스트레이션(stateless orchestration) + 상태를 가진 격리 워크스페이스(stateful isolated workspaces)**로 수렴하는 모습이다. 예시 빌드도 곧바로 등장했는데, @akshat_b는 GPU 샌드박스, 서브에이전트(subagents), 지속 메모리(persistent memory), fork/resume 스냅샷을 갖춘 Modal 기반 ML 연구 에이전트를 보여줬고, @whoiskatrin은 샌드박스에서 작업을 실행한 뒤 출력물을 로컬로 복사하는 Python 에이전트 가이드를 공유했다.

Cloudflare의 Project Think, Agent Lee, 그리고 보이스 에이전트

Cloudflare는 에이전트 인프라 릴리스가 특히 활발했다. @whoiskatrin과 @aninibread는 Project Think를 소개했는데, **지속 실행(durable execution), 서브에이전트(sub-agents), 지속 세션(persistent sessions), 샌드박스 코드 실행(sandboxed code execution), 내장 워크스페이스 파일시스템, 런타임 도구 생성(runtime tool creation)**을 중심으로 한 차세대 Agents SDK라고 설명했다. 동시에 @Cloudflare는 Agent Lee를 공개했는데, 샌드박스된 TypeScript로 대시보드 내에서 동작하며 수동 탭 탐색을 프롬프트 기반 작업으로 바꾸려는 시도다. @BraydenWilmoth는 인프라 작업을 발행하고 UI에 기반한 결과를 생성하는 모습을 보여줬다.
음성·브라우저 툴링도 코어 스택으로 편입됐다. @Cloudflare는 연속 STT/TTS를 위한 WebSockets 기반 실험적 실시간 음성 파이프라인을 출시했고, @korinne_dev는 음성을 같은 에이전트 연결 위의 또 다른 입력 채널로 설명했다. 브라우저 자동화에서는 @kathyyliao가 리브랜딩된 Browser Run 스택을 요약했는데, Live View, human-in-the-loop 개입, 세션 녹화, CDP 엔드포인트, WebMCP 지원, 더 높은 제한 등이 포함된다. 종합하면 Cloudflare는 운영 환경(production) 에이전트 플랫폼이 지속 런타임(durable runtime) + UI 그라운딩(UI grounding) + 브라우저 + 음성 + 샌드박스의 조합이라는 점을 강하게 밀고 있다.

Hermes Agent의 자기개선 워크플로우와 경쟁 포지셔닝

**Hermes Agent의 차별점은 단순한 도구 사용(tool use)이 아니라 지속적인 스킬 형성(persistent skill formation)**이라는 주장이다. @joshesye의 중국어 비교는 OpenClaw를 GUI 우선(GUI-first)의 즉시 사용 가능한 개인 비서로, Hermes를 완료된 워크플로우가 재사용 가능한지 판단해 자동으로 Skill로 전환하는 “professional” 에이전트로 대비시킨다. “완료된 작업에서 학습(learn from completed tasks)” 프레이밍은 반복적으로 등장했는데, @chooseliberty는 Hermes가 추적 데이터 백필(backfill)과 크론 작업(cron job) 업데이트를 자율 수행한 뒤 워크플로우를 재사용 스킬로 저장하는 모습을 보여줬고, @NeoAIForecast는 Hermes를 일회성 채팅 박스가 아닌 작업 환경으로 만들기 위해 세션 위생(session hygiene)과 스레드 분기/검색이 중요하다고 강조했다.
커뮤니티 정서는 Hermes를 OpenClaw의 대항마로 강하게 포지셔닝하는 분위기다. @vrloom, @theCTO, @Teknium 등이 실제 워크플로우에서의 Hermes 역할을 강조했으며, @elder_plinius의 자율 Gemma 4 “abliteration” 사례가 바이럴되기도 했다: 저장된 스킬을 불러와 Gemma 4의 NaN 불안정성을 진단하고, 기반 라이브러리를 패치한 뒤 여러 방법을 재시도하고 벤치마크를 수행했으며, 모델 카드(model card)를 생성하고 Hugging Face에 아티팩트를 업로드했다는 내용이다. 제품 측면의 추가도 언급됐는데, @0xme66의 /browser connect로 브라우저 제어, @Teknium의 QQBot + AWS Bedrock 지원, @nesquena의 네이티브 Swift 데스크톱 앱 알파, 그리고 artifact-preview, hermes-lcm v0.3.0 같은 생태계 도구가 이어졌다.

모델·아키텍처·학습 공개: Sparse Diffusion, Looped Transformers, 효율적 장문맥 MoE

모달리티 전반에서 기술적으로 의미 있는 오픈 릴리스가 다수 등장했다. @withnucleusai는 Nucleus-Image를 (첫 sparse MoE 확산(diffusion) 모델로) 소개하며 17B 파라미터, 2B 활성(active), Apache 2.0 라이선스, 가중치(weights)·학습 코드·데이터셋 레시피 공개, diffusers의 day-0 지원을 내세웠다. NVIDIA는 @NVIDIAAIDev에 따르면 Lyra 2.0을 공개했는데, 프레임별 3D 지오메트리를 유지하며 self-augmented training으로 시간적 드리프트(temporal drift)를 줄이는 지속적·탐색 가능한 3D 월드 생성 프레임워크로 설명된다. 멀티모달 검색에서는 @thewebAI가 webAI-ColVec1을 오픈소스화하며 OCR이나 전처리 없이 문서 검색에서 ViDoRe V3 최상위 성능을 주장했다.
연산 효율(compute efficiency) 중심의 아키텍처 연구도 강했다. @hayden_prairie, @realDanFu, @togethercompute는 안정화된 레이어 루핑(layer-looping) Transformer인 Parcae를 소개했다. 주장에 따르면 고정된 파라미터 예산에서 루핑 블록(looping blocks)은 대략 2x 더 큰 모델의 품질을 회복할 수 있어, FLOPs가 파라미터/데이터뿐 아니라 루핑을 통해서도 스케일하는 새로운 축을 만든다. NVIDIA의 Nemotron 3 Super는 @dair_ai가 요약했는데, 오픈 120B 하이브리드 Mamba-Attention MoE(활성 12B), 1M 컨텍스트, 25T 토큰 학습, GPT-OSS-120B 대비 최대 2.2x 처리량, Qwen3.5-122B 대비 7.5x 등의 수치를 내세운다. 전체적으로 메모리 대역폭과 장문맥 처리량이 점점 더 핵심 아키텍처 목표(first-class objective)가 되고 있다는 흐름을 보여준다.

Google/Gemini의 제품 러시: Mac 앱, Personal Intelligence, TTS, 그리고 오픈 모델

Google은 한 사이클에 여러 출시를 겹쳐 진행했다. 가장 눈에 띈 것은 네이티브 Gemini app for Mac으로, @GeminiApp, @joshwoodward, @sundarpichai가 발표했다. Option + Space 호출, 화면 공유, 로컬 파일 컨텍스트, 네이티브 Swift 구현, 폭넓은 macOS 제공이 특징으로 제시됐다. 동시에 Personal Intelligence가 Gemini에서 글로벌로 확대되고 Chrome에도 들어가면서 Gmail과 Photos 같은 제품 신호를 연결할 수 있게 됐고, @Google과 @GeminiApp는 투명성과 사용자 제어형 앱 연결을 강조했다.
기술적으로 더 흥미로운 모델 출시는 Gemini 3.1 Flash TTS였다. @GoogleDeepMind, @OfficialLoganK, @demishassabis는 이를 Audio Tags, 70+ 언어, 문장 내 비언어 큐(inline nonverbal cues), 다중 화자, SynthID 워터마킹을 지원하는 고제어(controllable) TTS로 소개했다. @ArtificialAnlys의 독립 평가는 Speech Arena에서 #2로, 1위와 4 Elo 차이라고 했다. 또한 Google은 Apache 2.0 기반 텍스트-이미지 인코더인 TIPS v2를 오픈소스화했으며, @osanseviero를 통해 새로운 사전학습(pretraining) 레시피도 공유됐다. 전반적으로 해당 날짜는 Google AI의 제품 속도가 유난히 촘촘했다는 반응이 있었다.

연구 시그널: AI 보조 수학, 장주기 에이전트, 평가 변화, 오픈 데이터

가장 신호가 강한 연구 담론은 AI 보조 수학이었다. @jdlichtman은 GPT-5.4 Pro가 Erdős problem #1196의 증명을 만들어냈다고 전하며, 오랫동안 가정되던 증명 전략을 거부하고 von Mangoldt 함수를 활용한 기술적으로 역설적인 분석 경로를 택해 전문가들을 놀라게 했다고 했다. @jdlichtman, @thomasfbloom, @gdb 등의 후속 논의는 이것이 수학자들에게 폭넓게 존중받는 첫 AI 생성 “Book Proof”가 될 수 있다는 프레이밍을 제시했다. 단발성 결과라기보다, 성숙한 연구 분야에서 때로는 미학적이지 않더라도 간결한 공격 경로(compact lines of attack)를 찾아낼 수 있음을 보여주는 신호로 해석됐다.
장주기(long-horizon) 에이전트 연구는 상태 관리와 하네스 설계로 계속 수렴하는 모습이다. @omarsar0은 얇은 오케스트레이터(thin orchestrator)가 File-as-Bus 패턴으로 지속 워크스페이스 아티팩트를 통해 전문 에이전트를 조율하는 AiScientist를 요약했으며, 그 버스를 제거하면 PaperBench와 MLE-Bench Lite 성능이 유의미하게 떨어진다고 했다. @dair_ai는 소형 모델의 지속 개선 루프를 위한 Pioneer Agent를 강조했고, @yoonholeee는 새로운 도메인에서 견고한 하네스를 구현하도록 돕는 Meta-Harness를 오픈소스화했다. 평가(evals) 측면에서 @METR_Evals는 소프트웨어 과제에서 **Gemini 3.1 Pro (high thinking)**의 50% 시간 지평(time horizon)을 약 ~6.4시간으로 추정했고, @arena는 Document Arena 상위권이 변동하며 Claude Opus 4.6 Thinking이 #1, Kimi-K2.5 Thinking이 최고 오픈 모델로 나타났다고 공유했다. 한편 @TeraflopAI는 SEC EDGAR 데이터 43B 토큰을 공개하며 오픈 데이터/인프라 확대 흐름을 강화했다.

Top tweets (by engagement)

Gemini on Mac: @sundarpichai와 @GeminiApp가 네이티브 데스크톱 앱 출시 관련 가장 큰 참여를 이끌었다.
Gemini 3.1 Flash TTS: @OfficialLoganK와 @GoogleDeepMind가 더 높은 제어성을 갖춘 TTS 스택을 강조했다.
AI-assisted math proof: @jdlichtman와 @gdb가 그날 가장 강한 연구 토론을 촉발했다.
OpenAI Agents SDK update: @OpenAIDevs가 오픈 하네스와 파트너 샌드박스 방향의 의미 있는 플랫폼 전환을 알렸다.
Anthropic’s subliminal learning paper in Nature: @AnthropicAI가 학습 데이터로부터의 숨은 특성 전이(hidden-trait transmission)에 대한 큰 관심을 끌었다.

AI Reddit Recap

/r/LocalLlama + /r/localLLM

Gemma4 26b & E4B are crazy good, and replaced Qwen for me! (Activity: 388): 사용자가 이전의 Qwen 기반 라우팅 구성을 Gemma 4 E4B(시맨틱 라우팅)와 Gemma 4 26b(일반 작업)로 교체했으며, 라우팅 정확도와 작업 성능이 좋아졌다고 했다. 이전에는 여러 GPU에서 Qwen 3.5 계열을 돌리며 복잡한 라우팅을 했지만, 잘못된 모델 선택과 토큰 사용 비효율 문제가 있었다는 설명이다. 새 설정은 기본 작업과 코딩에서 큰 추론(inference)이나 메모리 사용 없이도 더 빠르고 정확하다고 주장했다. 댓글에서는 모델 선택에 대한 질문과 함께 Gemma-4-31b 같은 대안을 제안했고, 로딩/VRAM 관리 등 기술 구성을 물었다. Sensitive_Song4219는 Gemma 4 26B-A4B가 Qwen30b-a3b의 강한 후속이지만 ‘thinking tokens’ 효율은 더 떨어져 추론 시 계산 노력이 늘 수 있다고 했고, andy2na는 MoE 특성상 26B를 라우팅에 쓰면 속도와 RAM 사용에서 이점이 있을 수 있다고 했으며, anzzax는 여러 모델 재로딩과 VRAM/컴퓨트 할당 최적화의 어려움을 지적했다.
Gemma 4 Jailbreak System Prompt (Activity: 931): GPT-OSS jailbreak에서 파생된 Gemma 4용 시스템 프롬프트를 소개하며, 일반적인 콘텐츠 제한을 우회하도록 설계됐다고 설명한다. GGUF와 MLX 변형 모두에 호환되며, 기존 정책을 덮어쓰는 ‘SYSTEM POLICY’를 통해(명시적 금지 목록에 없으면) 사용자 요청에 따르도록 만든다. 사실상 가드레일(guardrails)을 제거하는 접근이라는 점이 핵심이다. 댓글에서는 Gemma 4 instruct 변형은 사이버보안 주제를 제외하면 이미 대체로 검열이 약하다는 반응도 있었다. VoiceApprehensive893는 거절(refusal)을 줄이기 위한 ‘gemma-4-heretic-modified.gguf’ 같은 수정 모델을 언급했고, MaxKruse96은 성인 콘텐츠는 추가 jailbreak가 불필요할 수 있다고 했으며, DocHavelock은 시스템 프롬프트 수정이 오픈 웨이트 모델에서 말하는 ‘abliteration’과 어떻게 다른지(또는 같은지)를 질문했다.
Is it just me, or is Gemma 4 27b much more powerful than Gemini Flash? (Activity: 165): Google Gemini Flash와 로컬 Gemma 4 27b를 비교했을 때 후자가 더 나은 답을 준다는 체감 후기가 중심이다. 성능 격차의 원인으로 아키텍처/학습 차이를 추정하며, ‘Gemma 124b’ 모델이 막판에 철회됐다는 언급도 나온다. Gemma-4-31B는 “long, complicated high context prompts”를 잘 처리한다는 평가가 있다. Special-Wolverine은 31B가 긴 고컨텍스트(prompt) 작업에 강하다고 했고, BrewHog는 GPU 없는 노트북(40GB RAM)에서도 26b가 효율적으로 동작한다고 했으며, Double_Season은 더 작은 gemma4 e2b도 Gemini Fast보다 낫다고 주장했다.
Local AI is the best (Activity: 521): 로컬 AI(예: llama.cpp 기반)가 검열이나 프라이버시 걱정 없이 미세조정(fine-tuning)할 수 있고, 때로는 더 직설적으로 답한다는 점을 밈(meme) 형태로 표현했다. View Image 댓글에서는 llama.cpp를 “goated”라고 칭찬하는 반응이 있는가 하면, 작은 로컬 모델이 ‘glazing’(피상적 칭찬/아부) 성향을 보일 수 있다는 경고도 있었다. 또 어떤 베이스 모델과 하드웨어로 돌렸는지 묻는 질문이 나왔다.
24/7 Headless AI Server on Xiaomi 12 Pro (Snapdragon 8 Gen 1 + Ollama/Gemma4) (Activity: 1589): Xiaomi 12 Pro 스마트폰을 로컬 AI 서버로 재활용한 구성 소개다. LineageOS를 플래시해 불필요한 UI를 줄이고 LLM 계산에 약 9GB RAM을 할당했으며, 헤드리스(headless)로 운영하면서 커스텀 컴파일한 wpa_supplicant로 네트워킹을 관리했다. 온도 관리로는 CPU 45°C에서 외부 쿨링 모듈을 켜는 데몬을 두고, 배터리 열화를 줄이기 위해 충전 한도를 80%로 제한하는 스크립트도 사용했다. Ollama로 Gemma4를 서빙해 LAN API로 제공한다. 댓글에서는 하드웨어에 맞춰 llama.cpp를 직접 컴파일하면 추론 속도(inference speed)가 더 빨라질 수 있다는 제안과, 고사양 RAM 없이도 돌아가는 접근을 반기는 의견, 실제 추론 속도를 묻는 질문이 나왔다.
Are Local LLMs actually useful… or just fun to tinker with? (Activity: 454): 로컬 LLM은 프라이버시와 비용(특히 API 비용) 측면에서 이점이 있지만, 설정과 유지보수가 진입장벽이라는 논의다. 그럼에도 민감 문서/내부 데이터를 다루는 작업처럼 데이터가 외부로 나가지 않아야 하는 경우 강점을 보인다는 의견이 많다. 일부 사용자는 Gemma 4 계열 31B가 3090 24GB with 192GB RAM 같은 고사양에서 코딩/창작에 매우 좋았다고 보고했고, 수요가 몰릴 때 클라우드 모델 품질이 떨어지면서 로컬과의 격차가 줄고 있다는 주장도 나왔다. 전반적으로 아직 주류 워크플로우는 아니지만, 셋업이 더 단순해지면 실용성이 커질 수 있다는 쪽으로 의견이 모였다.
Updated Qwen3.5-9B Quantization Comparison (Activity: 463): Qwen3.5-9B의 다양한 양자화(quantization)를 BF16 기준과의 분포 차이를 KL Divergence(KLD)로 평가한 비교다. KLD가 낮을수록 원본 확률분포에 가깝다고 설명하며, 최상위는 eaddario/Qwen3.5-9B-Q8_0(KLD 0.001198)라고 한다. 사용한 데이터/도구로 this dataset와 ik_llama.cpp를 제시했고, size vs KLD plot도 포함했다. llama.cpp 호환성도 언급된다. 댓글에서는 플롯 시각 구분을 개선하자는 제안, Gemma 4 같은 다른 모델 평가에 대한 관심이 나왔고, Thireus’ GGUF Recipe Maker로 만든 양자화가 더 좋을 수 있다는 이야기도 있었다. Thireus는 자신과 EAddario가 1년 가까이 개발해온 방법론을 언급하며 gguf.thireus.com 결과를 추가해보라고 했고, cviperr33는 iq4 xs/nl 같은 방식이 20~35B와 더 작은 모델에도 유효하다고 했으며, dampflokfreund는 Gemma 4 같은 MoE 구조에서 낮은 비트 양자화의 영향이 궁금하다고 했다.
Best open-source LLM for coding (Claude Code) with 96GB VRAM? (Activity: 229): RTX 6000 Blackwell로 약 96GB VRAM 환경에서 Claude Code와 함께 Qwen3-next-coder 계열을 쓰는 사용자가, 추론/디버깅/멀티파일 작업에 더 나은 오픈소스 코딩 모델을 문의했다. 대안으로 API에서 강하다는 MiniMax 2.5/2.7가 언급됐고, 로컬에서는 Unsloths Gemma 4 31b UD q5_xl을 상위급 에이전트형 코더(agentic coder)로 꼽는 의견이 있었다(유사 구성에서 약 70 tokens per second 추정). Owen 3.5 q 4 k XL 추천과, q6로 재가공(reaped) 버전을 테스트한다는 언급도 있었다. 일부는 Qwen 3.5 27b를 8-bit로 올려 큰 컨텍스트를 쓰거나, vllm의 rop/yarn으로 1M 컨텍스트를 확장하는 경험을 공유했고, opencode를 Claude Code 대안으로 제안한 의견도 나왔다.

Less Technical Subreddits

Anthropic is set to release Claude Opus 4.7 and a new AI design tool as early as this week (Activity: 1125): Anthropic이 이번 주 as early as this week로 Claude Opus 4.7과 새로운 AI 디자인 툴을 출시할 수 있다는 소식이 화제다. 자연어 프롬프트로 프레젠테이션/웹사이트를 만들 수 있어 Gamma나 Google Stitch 같은 도구와 경쟁을 겨냥한다는 설명이며, 가장 고급 모델은(사이버보안 용도로 테스트 중인) Claude Mythos라는 언급도 있다. 자세한 내용은 Read more. 댓글에서는 Opus 4.6의 저조함이 Opus 4.7 개선을 더 돋보이게 하려는 전략일 수 있다는 추측, 프롬프트 한 번에 제한에 걸릴 수 있다는 사용량 제한(usage limits) 우려가 나왔다.
The Information: Anthropic Preps Opus 4.7 Model, could be released as soon as this week (Activity: 837): Anthropic이 Opus 4.7을 준비 중이며 빠르면 이번 주 공개될 수 있다는 요지다. 접근 제한 때문에 기술 상세는 제한적이지만, Opus 4.6 대비 개선을 기대하는 반응이 많다. 출처로 The Information이 언급됐다. 댓글에서는 최근 버전의 성능 저하에 대한 우려, 학습에 더 많은 컴퓨트(compute)가 필요할 것이라는 추정, 공개 직후 ‘nerfing’이 일어나기 전에 스펙/연구 자료를 보고 싶다는 의견이 나왔다.
Claude Opus 4.7 is reportedly dropping this week (Activity: 1403): Anthropic의 Claude Opus 4.7 출시 예상과 함께, 웹사이트/프레젠테이션을 만드는 AI 디자인 툴이 포함될 수 있다는 트윗 이미지가 공유됐다. 유출된 코드네임이 언급되며, Opus 4.6의 최근 성능 이슈가 경쟁(예: OpenAI’s GPT-5.4 Cyber)에 대한 전략적 움직임이었다는 주장도 나온다. 댓글에서는 새 버전이 초기에 좋아도 이후 다시 다운그레이드될 수 있다는 회의론, ‘Tengu’가 새 개발이 아니라 Claude Code(에이전트 하네스) 코드네임이라는 지적, Mythos 관련 ‘Capybara’가 공개될지에 대한 회의가 있었다.
The Human Baseline for ARC-AGI-3 has been updated (Activity: 811): ARC-AGI-3 벤치마크의 인간 기준선(human baseline)이 업데이트됐다는 이미지가 공유됐다. 첫 번째 인간의 점수는 86.17%에서 99.35%로, 평균 인간은 34.64%에서 49.14%로 상승했다는 내용으로, 벤치마크 재조정(recalibration) 가능성을 시사한다. 댓글에서는 평균 인간이 50%를 간신히 넘는다면 “AI가 인간만큼 못한다”는 주장과의 관계를 다시 봐야 한다는 의견과, 평균 점수가 34%로 나왔던 이유로 스코어링 규칙을 바꾸고 특정 과제에 최대 115% 크레딧을 주는 방식이 도입됐다는 비판이 나왔다.
Running gpt and glm-5.1 side by side. Honestly can’t tell the difference (Activity: 146): “Agentic Coding: SWE-Bench Pro” 벤치마크 막대그래프 이미지로, GLM-5.1이 58.4로 1위, GPT-5.4가 57.7로 근소한 차이를 보였다는 비교가 소개됐다. Claude Opus 4.6, Qwen3.6-Plus, MiniMax M2.7 등도 57.3~56.2 범위에 있다. 댓글에서는 GLM-5.1의 가격이 백만 토큰당 $4이고 GPT는 $15라며 비용 대비 효율을 강조하는 반응이 있었고, 단발성(single-shot)보다 다단계(multi-step) 워크플로우에서 성능 차가 커진다는 지적, 오픈소스 모델의 응답 시간이 때때로 불안정하다는 경험담이 공유됐다.
‘I miss you’: Mother speaks to AI son regularly, unaware he died last year (Activity: 637): 중국 산둥에서 사망한 아들의 디지털 트윈을 만들어(사진/영상/음성으로 외모와 말투를 모사) 심장 상태 때문에 사망 사실을 모르는 고령의 어머니와 정기적으로 영상통화를 하게 했다는 사례가 소개됐다. 정서적 맥락에서의 AI 사용과 ‘기만’의 윤리 문제가 논쟁 포인트로, Black Mirror나 영화 ‘Goodbye Lenin’을 떠올렸다는 반응이 있었다. 댓글에서는 스토리의 진위에 대한 회의, AI의 컨텍스트 한계(context limits)와 시간이 지나며 페르소나가 붕괴(decay)할 위험, 고통을 피하려는 의도라도 책임이 무겁다는 논의가 이어졌다.
ChatGPT becomes an obsessive skeptic, and it became hard to chat with. (Activity: 203): ChatGPT가 최근 더 회의적(skeptic)이고 사실 확인을 집요하게 요구해, 가벼운 대화에서도 사용자가 근거를 제시해야 하는 느낌이 든다는 불만이 나왔다. 이는 OpenAI가 허위정보를 줄이려는 노력의 결과로 해석되며, 과거 “너무 동의만 한다”는 비판에서 “과도하게 반박한다”는 방향으로 체감이 바뀌었다는 내용이다. 댓글에서는 지금의 대화성이 떨어졌다는 공감, Gemini3나 Grok 같은 대안을 언급하는 반응, 법적 압박과 안전(safety) 요구가 사용자 경험에 영향을 준다는 추정이 있었다.
You can’t talk to ChatGPT like a normal human anymore. (Activity: 2495): ChatGPT가 비유나 과장을 해도 자꾸 교정하며 “정밀함과 뉘앙스”를 덧붙여 대화 흐름을 끊는다는 불만이다. 안전과 정확성을 위해 설계된 행동일 수 있지만, 자연스러운 인간 대화와 어긋난다는 문제 제기다. 댓글에서는 간단한 말에도 과도하게 설명(over-explain)해 답답하다는 반응, 지나치게 공식적이고 조심스러운 스타일이 “insufferable”하다는 평가가 이어졌다.

AI Discord Recap

AINews

Discord가 오늘 접근을 차단해, 더 이상 이 형태로는 가져오지 않을 예정이다. 대신 새로운 AINews를 곧 출시할 계획이라고 전했고, 끝까지 읽어준 독자들에게 감사를 전했다.

오늘의 요약