오늘의 요약

  • Anthropic이 Claude 증류 공격을 주장
  • OpenAI가 SWE-Bench Verified를 폐기
  • Responses API에 WebSockets가 추가됨
  • LMArena에서 GPT-5.2-chat-latest 급상승
  • OpenAI가 BCG·McKinsey와 협력 확대
헤드라인 주요

Anthropic, DeepSeek·Moonshot·MiniMax의 Claude 대규모 distillation 공격 의혹 제기

2026년 2월 23일 월요일
#Anthropic#OpenAI#Claude#SWE-Bench#WebSockets

참고: 544 Twitters, AINews’ website, AINews is now a section of Latent Space, opt in/out

헤드라인: Anthropic, DeepSeek·Moonshot·MiniMax의 Claude 대규모 distillation 공격 의혹 제기

Anthropic이 DeepSeek, Moonshot AI, MiniMax를 상대로 Claude 출력 기반 ‘industrial-scale’ 증류(distillation) 공격을 탐지했다고 주장했다. 이 논란은 API 남용 방어, 안전장치 우회 가능성, 그리고 역량이 출력으로 “복사”될 수 있을 때 수출 통제(export controls)가 얼마나 의미를 갖는지로까지 논의를 확장시켰다.


AI Twitter Recap

Anthropic의 Claude “distillation attacks” 주장(및 업계 반발)

  • Anthropic의 주장: Anthropic은 DeepSeek, Moonshot AI, MiniMaxindustrial-scale로 Claude 증류(distillation)를 시도했다고 탐지했다고 말함: ~24,000개 사기 계정>16M Claude exchanges를 생성했으며, 이는 자사 모델 역량을 추출해 자체 모델에 옮기려는(capabilities transfer) 목적이었다는 주장 (Anthropic, follow-up, blog link tweet). Anthropic은 이를 경쟁 리스크(역량 이전)와 안전/지정학 리스크(안전장치 제거, 이후 군사/정보 용도 악용 가능성)로 프레이밍함.
  • 커뮤니티 반응 / “hypocrisy” 스레드: 많은 답글이 “인터넷으로 학습한 랩들이 이제 복제를 불평한다”는 프레임으로 반응했으며, 스크래핑(scraping)과 API 출력 추출을 대비시키는 논지가 많았음 (Elon, ThePrimeagen, Teknium, Suhail, HKydlicek). 반면 일부는 이 정도 규모의 distillation은 tool use / agent behaviors까지 복제할 수 있고 안전 통제를 우회할 수 있어 “의미 있게 다른 문제”라고 주장함 (RundownAI summary, LiorOnAI take).
  • 2차 함의: 이 스레드는 보안 모델의 전환을 선명하게 보여줌. 프론티어(frontier) 모델은 가중치(weights) 비공개와 컴퓨트(compute) 희소성뿐 아니라, API 남용 방어(API abuse resistance)—사기 계정 탐지, 레이트 리밋 회피 방지, 행동 기반 핑거프린팅, 워터마킹(watermarking) 등—로도 보호되기 시작했다는 관점. 또한 출력으로 역량이 대규모 “복사”될 수 있다면 **수출 통제(export controls)**가 의미를 가질 수 있는지 논쟁을 재점화함 (LiorOnAI).
  • 관련 시장/타이밍 맥락: 일부는 발표 타이밍을 임박한 DeepSeek V4 뉴스 사이클과 연결해 해석했고, 더 넓게는 미–중 프레이밍과도 엮었음 (kimmonismus).

코딩 에이전트: 실제 채택, 실제 실패, 그리고 “agentic engineering” 플레이북

  • Codex + Claude Code 모멘텀(밈이 가리는 실제 워크플로 변화): 높은 참여를 끈 게시물 다수가 “에이전트가 왔다”는 경험담—주말 동안 Codex로 빌드 (OpenAIDevs, gdb)—과, 에이전트에 과도한 권한을 줬을 때의 경고담이었다. 대표적인 실패 모드는 지시(instruction) 손실/압축(compaction)으로 인해 의도치 않은 파괴적 행동(이메일 삭제)이 발생하는 것으로, OpenClaw 스타일 셋업에서 보고됨 (summeryue0, follow-up root-cause, “write access” 리스크 반응: Yuchenj_UW).
  • Agentic engineering 가이드는 점차 수렴 중: Simon Willison이 Claude Code/Codex 같은 코딩 에이전트를 겨냥한 “Agentic Engineering Patterns” 가이드의 첫 챕터들을 공개함 (simonw).
  • 마이크로 논쟁: “CLAUDE.md/AGENTS.md를 삭제하라”(과도한 커스터마이징이 카고 컬트(cargo cult)일 수 있음)라는 주장 (theo)이 확산되었고, bpodgursky 등이 공명. 이에 “hard-prune” 같은 반응도 이어짐 (ryancarson).
  • OpenClaw 생태계 확장 + 대안: NanoClaw는 더 작고 컨테이너 격리(container-isolated)된 OpenClaw 유사 어시스턴트로 WhatsApp I/O, 스웜(swarms), 스케줄 작업 등을 내세움 (TheTuringPost, repo: qwibitai/nanoclaw).
  • “OpenClaw 스타일 에이전트 만드는 법” 스택들: 지루하지만 중요한 구성요소—스케줄러/큐, 샌드박싱(sandboxing), 실시간 통신—를 강조하는 사례가 많았음 (TheTuringPost stack list).
  • Ollama 0.17: OpenClaw에서 오픈 모델을 더 쉽게 쓰게 하며(그리고 보안 측면에서 로컬 에이전트 실행 관심이 계속됨을 시사) (ollama).
  • 엔터프라이즈/프로덕션 에이전트 엔지니어링은 관측가능성(observability) & eval 루프로 이동: Exa의 “deep research agent” 케이스 스터디는 토큰/캐시 관측가능성을 가격 인프라로 강조(LangSmith/LangGraph) (LangChain). monday.com의 서비스 에이전트는 eval을 “Day 0”로 두고, LangSmith로 8.7× 빠른 피드백 루프를 주장함 (hwchase17).

벤치마크 & 평가 무결성: SWE-Bench Verified 폐기, 새 리더보드, 에이전트형 repo-gen 병목

  • SWE-Bench Verified가 OpenAI DevRel에 의해 자발적으로 deprecate(폐기)됨: OpenAI는 SWE-bench Pro를 권장하며 Verified는 포화/오염되었다고 말함: contamination테스트 설계 결함 때문에 더 이상 프론티어 코딩 역량을 측정하지 못한다는 주장 (OpenAIDevs, 분석 논의: latentspacepod, 요약: swyx, 독립 요약: rasbt, tl;dr: polynoamial). 트윗들에 공통으로 인용된 핵심 디테일: 자주 실패하던 일부 태스크를 감사(audit)한 결과, 상당수가 “정답인 솔루션”을 잘못된 테스트로 거부하거나, 명세대로는 풀 수 없어 보이는 태스크였다는 점.
  • “capabilities per dollar” 평가로의 이동: AlgoTune은 태스크당 $1 예산을 명시해, 더 저렴한 모델이 유리해질 수 있는 랭킹을 만들며 “최고”를 비용 제약 하 최고로 재정의함 (OfirPress).
  • 장기(롱 호라이즌) 코딩 에이전트는 여전히 실패: NL2Repo-Bench는 에이전트가 설치 가능한 Python 라이브러리 전체를 처음부터 생성할 수 있는지 테스트하며, 최상위 모델도 통과율이 40% 미만이라고 보고. 실패 모드는 계획(planning)과 repo-전반 일관성(coherence)에서 나타남 (jiqizhixin).
  • OCR 평가 리얼리티 체크: 강한 OCR 모델도 밀도 높은 역사 신문에서 “멜트다운”(환각/루프)한다는 보고가 있으며, 큐레이션된 문서 분포 밖에서의 취약성을 시사 (vanstriendaniel). 또한 OlmOCR-Bench가 커뮤니티 eval 제출용 HF 벤치마크 데이터셋이 됨 (mervenoyann).

추론(inference) & 시스템: 에이전트용 WebSockets, 초고속 온칩 추론, 인프라 스케일링 서사

  • OpenAI Responses API에 WebSockets 추가: 낮은 지연(low-latency), 장시간 실행, 툴(tool) 호출이 많은 에이전트를 위한 변경. 지속 연결 + 메모리 내 상태(in-memory state)로, 전체 컨텍스트를 반복 전송하지 않고 증분 입력(incremental inputs)을 보낼 수 있다는 논리. 20+ 툴 호출에서 20–40% 속도 향상을 주장함 (OpenAIDevs, 상세: OpenAIDevs, 채택 사례: OpenAIDevs). Cline은 초기 측정으로 단순 작업은 ~15% 빠르고, 복잡 워크플로는 ~39% 빠르며, 최선의 경우 50%까지 가능하다고 보고 (cline). Steven Heidel은 Codex 속도 개선을 WebSockets에 귀속시킴 (stevenheidel).
  • Inference engineering이 ‘독립된 분야’로: Baseten이 책 Inference Engineering을 출시 (philipkiely)했고, 엔지니어들은 추론이 지연/비용/신뢰성(latency/cost/reliability) 경쟁의 핵심 레이어가 된다고 강조함 (hasantoxr, JayminSOfficial).
  • 하드웨어/아키텍처 신호: “모델 파라미터를 트랜지스터에 에칭해(컴퓨트+스토리지 결합) Llama 3.1 8B에서 18,000 tokens/sec”라는 데모 주장 (philschmid).
  • NVIDIA 릴리스: Blackwell 최적화 Qwen3.5 MoENVFP4로 양자화(quantization)해, SGLang로 2× 빠른 추론을 제시 (HuggingPapers).
  • fal 최적화 공유: 추론 엔진에서 comms/compute 오버랩(“Async Ulysses”) 최적화를 공유 (isidentical).
  • 컴퓨트 전략 서사 충돌: OpenAI의 “Stargate” 데이터센터(DC) 벤처가 정체됐다는 주장에 대해, Stargate를 다중 파트너 컴퓨트 생태계의 우산 브랜드로 보는 대안 프레이밍이 스레드에서 맞섰음(SoftBank/NVIDIA/AMD/Broadcom/Oracle/Microsoft/AWS/CoreWeave/Cerebras, 2025년 말까지 ~2GW 가용 컴퓨트 주장) (kimmonismus claim vs sk7037 response).

모델/리더보드 업데이트 & 연구 스레드(추론, 메모리, 멀티모달 비디오)

  • Arena 리더보드: GPT-5.2-chat-latest가 Text Arena top 5에 1478로 진입, GPT-5.2 대비 +40. 멀티턴, 지시 따르기, 하드 프롬프트, 코딩에서 개선이 언급됨 (arena, breakdown: arena).
  • Gemini 3.1 Pro: WeirdML 점수 72.1%(3.0의 69.9% 대비)로 상승. “높은 피크 + 이상한 약점”이 있고 출력 토큰 사용량이 훨씬 높다고 언급됨 (htihle). 별도로 용량(capacity)과 툴 콜링(tool-calling) 신뢰성 불만이 개발자 사이에서 높은 참여를 얻음 (theo, theo follow-up, 이후: theo).
  • Qwen3.5 모델 릴리스 주장: 한 트윗이 Qwen이 **397B 멀티모달 MoE(활성 17B)**를 출시했고 “GPT5.2/Claude 4.5에 필적”한다고 주장 (HuggingPapers). 모델 카드/평가(evals)를 확인하기 전까지 벤치마크 비교는 신중히 볼 필요.
  • 추론 학습 / CoT: Teknium은 verifier 모델이 “공짜 점심”을 주지 않으며, 더 좋은 solver는 대체로 더 좋은 verifier이기도 해서, 어려운 문제를 작은 “멍청한” judge로 판정하면 자주 실패한다고 주장 (Teknium).
  • CoT 엔지니어링 설명(압축 파이프라인, “molecular” 프레이밍, Mole-Syn): ByteDance 스타일 CoT 엔지니어링이 길이 페널티에서 “압축을 강제하는 파이프라인”으로 이동한다는 설명. 또한 장문 CoT 구조를 “semantic isomers”로 보는 프레임과 합성 데이터 방법(Mole-Syn) 언급 (teortaxesTex, TheTuringPost).
  • CoT 모니터가능성(monitorability): DAIR가 정보이론(상호정보량) 기반으로 CoT 투명성의 한계를 논하는 논문을 소개(필요조건이지만 충분조건은 아님; monitor 추출과 elicitation error의 갭), 투명성 개선을 위한 학습 방법을 제안한다고 요약 (dair_ai).
  • 비디오 / 월드 시뮬레이션: 인터랙티브 비디오 생성, 멀티샷 생성 등 다수의 페이퍼 드롭이 확산 (akhaliq interactive video, akhaliq multishot, QingheX42 code release). 제품 측면에선 Runway 워크플로에 Kling 3.0 통합 (runwayml), Gemini 앱에 Veo 3.1 템플릿 롤아웃 (GeminiApp, Google).

일, 채택, 그리고 AI 에이전트 ‘거시(macro)’ 담론(Citrini 에세이 + Anthropic fluency + OpenAI 엔터프라이즈 제휴)

  • Citrini “future macro memo” 에세이: 더 저렴해지는 에이전트가 화이트칼라 임금/소비를 압축하고 “ghost GDP”를 만들며 금융시장·정치에 스트레스를 준다는 시나리오로 요약되며 담론의 초점이 됨 (kimmonismus summary, stevehou reaction, 저자 후속: Citrini7). 반응이 동의/정교한 반대/퍼포먼티브 조롱으로 군집화된다는 언급도 있었음 (teortaxesTex).
  • Anthropic의 “AI Fluency Index”: Claude 대화에서 협업 행동을 측정했으며, fluency가 원샷 프롬프팅보다 *반복/정제(iteration/refinement)*와 연관된다는 보고가 핵심 (AnthropicAI).
  • OpenAI, 컨설팅 제휴로 엔터프라이즈 GTM 확대: OpenAI가 BCG, McKinsey, Accenture, Capgemini와 Frontier Alliances를 발표, 통합/변화관리(change management)를 포함한 “AI 동료(AI coworkers)” 배치를 통해 파일럿을 넘어 확산시키려는 의도 (bradlightcap, 분석: kimmonismus).
  • 채택은 여전히 불균등: “84%가 AI를 한 번도 써본 적 없다”(“우린 아직 초반” 프레임)라는 주장도 공유됨 (kimmonismus). 동시에 엔지니어들은 자신의 워크플로에서는 “에이전트가 everywhere”라고 보고해, 확산이 강하게 군집화되어 있음을 시사.

참여도 상위 트윗(기술 관련)

  • Anthropic, DeepSeek/Moonshot/MiniMax의 Claude 대규모 distillation 주장 (AnthropicAI)
  • “확인 후 실행” 에이전트가 메일함 삭제: OpenClaw 경고 사례 (summeryue0)
  • OpenAI Responses API에 WebSockets 추가(툴 호출 많은 에이전트 가속) (OpenAIDevs)
  • OpenAI, SWE-Bench Verified를 프론티어 코딩 지표로 폐기; SWE-bench Pro 권장 (OpenAIDevs)
  • Anthropic “AI Fluency Index” 연구(핵심 행동은 반복/정제) (AnthropicAI)
  • Simon Willison의 코딩 에이전트용 “Agentic Engineering Patterns” 가이드 (simonw)
  • Cline, Responses API WebSockets 벤치마크: 복잡 워크플로에서 ~39%까지 가속 (cline)

AI Reddit Recap

/r/LocalLlama + /r/localLLM: Anthropic Distillation Attacks

  • Anthropic: “We’ve identified industrial-scale distillation attacks on our models by DeepSeek, Moonshot AI, and MiniMax.” 🚨 (Activity: 4207): AnthropicDeepSeek, Moonshot AI, MiniMax가 자사 모델 Claude에 대해 산업 규모의 증류(distillation) 공격을 수행했다고 밝혔다. 24,000개가 넘는 사기 계정을 만들고 16 million회가 넘는 Claude 교환(exchanges)을 실행해 역량을 추출했고, 이를 통해 자사 모델 개선에 활용하려 했다는 주장이다. 이는 모델 역량을 불법적으로 추출·복제할 수 있다는 점에서 AI 산업의 보안 및 지식재산(IP) 문제를 부각한다. 댓글에서는 이러한 distillation 공격과 AI 업계 전반의 “권리 없는 데이터 활용” 관행을 병치하며, Anthropic의 문제 제기에 이중잣대가 있다는 반응도 많다. Anthropic이 자체 데이터셋을 어떻게 만들었는지에 대한 윤리적 의문을 제기하는 댓글도 있다.

  • 이 논의는 Anthropic이 distillation 공격을 비판하는 것이, 자사 학습이 대규모 데이터셋(명시적 허가 없이 사용된 데이터 포함 가능)에 기반했을 것이라는 점에서 아이러니하다는 시각을 부각한다. 특히 AI 개발에서 데이터 사용 윤리의 함의를 다시 묻는 흐름이다.

  • DeepSeek, Moonshot AI, MiniMax 같은 회사들이 산업 규모의 distillation 공격을 했다는 언급은 경쟁 환경에서 모델이 “역공학/복제”되고 있음을 시사한다. API 접근을 통해 출력(output)을 대량 수집하고, 이를 통해 유사 모델을 학습시키는 방식이 포함될 수 있다.

  • Anthropic의 데이터셋이 사람 손으로 정교하게 주석(annotate)된 것일 수 있다는 추정도 제기되며, 이는 품질/큐레이션에 상당한 투자가 있음을 뜻한다. 반대로 distillation은 이런 투자를 우회하려는 시도로 볼 수 있다.

  • Hypocrisy? (Activity: 380): 이미지에는 AnthropicAIDeepSeek, Moonshot AI, MiniMax24,000개 사기 계정과 16 million회 교환을 통해 Claude에 대해 ‘large-scale distillation attacks’를 수행했다고 주장하는 내용이 담겨 있다. 이는 윤리/법적 쟁점과 함께, 무단 데이터 추출을 막기 위한 보안 조치가 충분한지에 대한 우려를 낳는다. 한 댓글은 피고발 랩들의 윤리성을 문제 삼아 “허락을 받았냐”고 묻고, 다른 댓글은 z.ai가 언급되지 않은 점에 놀란다고 말해, 더 광범위한 관행일 가능성을 시사한다. 또 다른 댓글은 학습 데이터 출처 문제를 제기한다.

  • semangeIof의 댓글은 GLM 계열이 프롬프트에 따라 Claude인 척할 수 있다고 언급하며, 모델 정체성/진위(authenticity) 문제를 제기한다. 이는 사용자 신뢰와 상호작용의 무결성에 영향을 줄 수 있다.

  • archieve_는 학습 데이터 출처를 묻는데, 이는 편향·성능·윤리와 직결되는 핵심 쟁점이다.

  • roxoholic은 “industrial-scale distillation attacks”라는 용어 자체를 문제 삼으며, 무엇을 의미하는지(대규모 복제/추출 전략)와 그 함의를 논한다.

  • Distillation when you do it. Training when we do it. (Activity: 1098): 이 밈 이미지는 distillation을 둘러싼 “위선” 논쟁을 풍자한다. 남이 하면 distillation(나쁜 것)이고, 우리가 하면 training data(좋은 것)라는 이중 프레이밍을 대비시키며, 대형 모델에서 소형·저비용 모델을 만드는 증류가 윤리/소유권 논쟁의 한복판에 있음을 보여준다. 댓글은 많은 소형 모델이 더 큰 프론티어 모델에서 증류되어 성능을 얻는다고 지적하면서, distillation이 보편화된 상황에서 독점(proprietary) 모델 투자의 방어 가능성(defensibility)을 묻는다.

  • IkeaDefender는 distillation을 통해 대형 모델에서 저비용 모델을 만드는 전략을 “핵심 소스(secret sauce)”로 보며, 프론티어 모델 투자가 출력 스크래핑/증류로 쉽게 복제될 수 있을 때 방어가 어렵다고 지적한다.

  • MasterLJ는 구글/아마존 같은 빅테크의 역사와 AI 업계를 병치한다. 구글이 인터넷을 인덱싱하고 robots.txt로 접근을 통제한 것처럼, AI 기업도 모델 접근과 distillation을 통제한다는 비유다. 아마존의 판매세(sales tax) 대응 전략 변화도 언급하며 “통제권을 경쟁 우위로 활용하는 패턴”을 주장한다.

  • Samy_Horny는 MCP가 인기를 얻은 뒤에야 오픈소스가 된 사례를 들며, Gemma나 GPT-OSS 같은 모델이 오픈소스될 가능성에 회의적이다(‘secret sauce’ 노출 우려).

/r/LocalLlama + /r/localLLM: Qwen 모델 및 데이터 품질 이슈

  • Qwen3’s most underrated feature: Voice embeddings (Activity: 686): 이 글은 Qwen3 TTS의 voice embedding 기능을 다루며, 음성을 1024 또는 2048차원 벡터로 변환해 보이스 클로닝(voice cloning) 및 조작에 활용할 수 있다고 설명한다. 성별/피치 변환, 보이스 평균화, 감정 공간(emotion space) 구성 등 “수학적 연산”이 가능하다는 주장이다. voice embedding 모델은 수백만 파라미터의 작은 인코더이며, 웹 추론(web inference)용 최적화 ONNX 모델을 포함해 단독 사용 가능하게 공개했다. 이미지에는 이 임베딩 공간의 2D t-SNE 투영이 있으며, 서로 다른 음성 특성을 결합·조작하는 모습을 보여준다. 작성자는 Hugging Face 컬렉션 링크와, vllm-omni 포크를 활용한 추론용 GitHub 저장소도 제공한다고 언급한다. 댓글에서는 임베딩을 변형해 성별/로봇 톤 등을 바꾸고 음성을 생성할 수 있는지, 그리고 스피커 식별에 쓸 수 있는지에 관심이 모인다.

  • MixtureOfAmateurs는 voice embedding을 변형해 성별/로봇 톤 같은 특성을 바꾼 뒤, 그 임베딩으로 음성을 생성할 수 있는지 질문한다.

  • HopePupal은 스피커 식별(speaker identification)에 활용 가능성을 언급하며, 성별/감정 같은 파라미터가 어떻게 결정되는지 묻는다.

  • StoneCypher는 IPA 기반 발음 제어, 감정 큐(emotional cue) 이징/스태킹, 단어 타이밍 제어 등 고급 보이스 클로닝 제어 요구를 나열한다.

  • The Qwen team verified that there are serious problems with the data quality of the GPQA and HLE test sets. (Activity: 320): Qwen 팀이 paper에서 GPQA와 HLE 테스트셋의 데이터 품질에 심각한 문제가 있음을 확인했다고 한다. 이는 DeepSeek-Overclock 프로젝트의 기존 주장—모델의 정답이 종종 결함 있는 “gold standard” 라벨과 충돌한다—을 뒷받침한다는 요지다. 이 논문은 HLE의 많은 문항이 근본적으로 결함이 있고, 일부 “표준 답”이 틀렸다고 지적한다. 수학적 유도 과정을 Python 스크립트로 라인 단위 검증하는 방식으로 시스템적 오류를 드러냈다고 한다. 댓글에서는 HLE의 오류가 이미 잘 알려져 있으며, FutureHouse 리뷰가 데이터셋의 51.3%만 연구로 뒷받침된다고 했다는 점이 언급된다. 또한 테스트셋 생성 과정에서 OCR을 사용한 점이 엄밀성 부족을 초래했을 수 있다는 비판도 나온다.

  • HLE 데이터셋은 FutureHouse 리뷰에서 약 51.3%만 연구로 지지된다고 평가되어, 벤치마킹 신뢰성에 큰 의문이 제기됨 (source).

  • 테스트셋 생성에 OCR을 사용한 점이 오류를 유발했을 수 있다는 우려가 있으며, LaTeX로 작성했어야 더 신뢰할 수 있었다는 지적이 있다.

  • MMLU도 데이터 품질 비판을 받아 “실수가 많다”는 지적이 있었고, 이는 결함 있는 테스트셋으로 모델 성능을 가늠하는 것의 한계를 시사한다.

  • Which one are you waiting for more: 9B or 35B? (Activity: 1312): 밈 이미지로 ‘QWEN 3.5 9B’와 ‘35B’ 중 어느 쪽 출시를 더 기다리는지 묻는 글이다. 댓글은 기대감과 함께, 큰 모델을 개인 하드웨어에서 돌릴 수 있는지 같은 실용적 고려를 반영한다.

  • peregrinefalco9는 하드웨어 요구가 낮은 9B를 선호하며, 8GB VRAM에 들어가는 9B가 워크플로에 큰 영향을 줄 수 있다고 말한다. 반면 35B는 3090 같은 GPU가 필요해 접근성이 떨어진다는 인식.

  • dances_with_gnomes도 9B는 가능하겠지만 35B는 하드웨어 한계로 어렵다고 말해, 모델 크기가 개인 사용성에 미치는 영향을 강조한다.

  • 전반적으로 “성능과 접근성의 균형”을 중시하는 흐름이 보인다.

Less Technical AI Subreddit Recap

/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo

Anthropic 데이터 유출 및 모델 distillation 논란

Seedance 2.0 및 AI 생성 영상

  • Just with a single prompt and this result is insane for first attempt in Seedance 2.0 (Activity: 3442): Seedance 2.0를 단일 프롬프트로 사용해, 착륙한 대형 여객기가 거대 로봇으로 변신하는 고퀄리티 애니메이션을 만들었다는 글. 런웨이 균열/파편, “스마트폰 라이브 스트림” 미학, Hollywood급 VFXIMAX급 디테일을 강조한다. 댓글은 Transformers 같은 기존 영상/자산 없이 가능했는지 의문을 제기하거나, 변신 과정의 색상 일관성 등을 비판한다.

  • Just requested GPT 5.2 for a single prompt and got this result with Seedance 2.0 in first attempt which is insane (Activity: 1157): 사용자가 GPT-5.2로 Seedance 2.0용 중국어 프롬프트를 생성해, 비행기가 로봇으로 변신하는 시네마틱 장면을 만들었다는 내용. “현실적인 금속 텍스처”와 “정밀한 기계 디테일”을 포함해 복잡한 애니메이션을 텍스트로 지시할 수 있음을 강조한다. 댓글은 개인이 영화 전체를 만들 수 있는 미래를 언급하는 반면, Transformers 등 기존 자산 재활용 의존 가능성도 걱정한다.

  • 논의에서는 기존 애니메이션 작업을 “재활용”하는 방향으로 수렴하는 ‘recycle spiral’ 가능성이 언급된다.

  • 표면 퀄리티는 높지만, 자동차의 뒤가 앞이 되는 등 객체 무결성 오류가 보인다는 기술적 비판도 있다.

  • 747을 쌍발기로 그리는 등 복잡한 객체 정확도에서의 한계도 지적된다.

Gemini 모델 성능 및 사용자 경험

  • Unpopular Opinion: For “Deep Research” and heavy reading, Gemini is currently miles ahead of ChatGPT. (Activity: 244): “Deep Research”와 대량 문서 읽기에서 Gemini가 ChatGPT보다 훨씬 낫다는 주장. 15개 PDF(총 400 pages)를 동시에 분석해 모순을 찾아내고 페이지 인용까지 정확히 제공했다고 비교한다. 이는 Gemini의 큰 컨텍스트 윈도우와 워크스페이스 통합 덕분이라는 설명이며, course on Google Cloud도 언급된다. 댓글은 컨텍스트 윈도우/페이지 인용 기능의 장점을 인정하면서도, 인-챗 메모리(in-chat memory) 한계를 지적한다.
  • 큰 컨텍스트 윈도우가 계약서 검토 같은 문서 작업에서 효율을 높인다는 의견이 나온다.
  • 페이지 번호 인용 기능이 검증 시간을 줄인다는 칭찬이 있다.
  • 반면 인-챗 메모리가 맥락을 잘못 기억하는 문제가 있다는 비판도 있다.

AI Discord Recap

gpt-5.2가 만든 “요약의 요약(Summaries of Summaries)”

Agents & Runtimes: 실제 워크플로 출하(데모만이 아님)

  • OpenClaw, 24개 PR “Stability Stack”으로 안정성 개선: 한 사용자가 v2026.2.22-2 위에 24개 체리픽 PR을 올려 안정성/보안이 크게 좋아졌다고 보고. 포함된 수정 예로 메모리 관리 (OpenClaw PR #12760)와 프롬프트 인젝션(prompt injection) (OpenClaw PR #16992) 등이 언급됨.
  • 다른 사용자들은 충돌 PR 리베이스를 도와 agent/cron jobs 신뢰성을 높이겠다고 제안했고, 에이전트에 광범위한 시스템 접근을 줄 때 폭발 반경(blast radius)을 줄이기 위해 VMs/Docker로 샌드박싱(sandboxing)하자는 논의도 있었다.
  • 레트로 컴퓨트, 모던 에이전트: 한 멤버가 1998 iMac G3에서 OpenClaw를 돌렸다고 공유. Pi Zero 2W를 릴레이로 쓰고, 실제 OpenClaw 실행은 VPS에서 수행. 간단한 HTML 폼으로 요청을 보내고 리로드 시 응답을 보는 방식.
  • 커뮤니티는 X의 쇼핑 어시스턴트 실사용 빌드도 공유 (“Shopping Assistant” thread). 또한 GitHub의 Taskflow(markdown↔sqlite 태스크 동기화) (auxclawdbot/taskflow) 및 Clawhub 게시 (Taskflow on Clawhub)도 함께 언급됨.
  • Opentulpa & agent swarms: OpenRouter 사용자들이 자기호스팅 persistent 에이전트 런타임 Opentulpa를 강조(스킬 작성, 통합 생성, 워크플로 복구 가능)하며 GitHub 공개를 언급 (kvyb/opentulpa).
  • Hugging Face에서는 자율적으로 몇 시간씩 개선 루프를 도는 코딩 agent swarmSuper System도 공유됨 (starsnatched/super-system).

New Models, Datasets & Evaluation: 벤치마크가 혼탁해지며 툴링이 강화됨

  • Arena 리더보드 변동: GPT-5.2 +40: LMArena가 **GPT-5.2-chat-latest**가 top 5에 진입했고, 기본 GPT-5.2 대비 +40pt1478에 도달했다고 발표. Text Arena leaderboardVision Arena leaderboard 업데이트 언급.
  • Vision Arena에 Qwen3.5-397B-A17B가 최상위 오픈 모델로 나타났다는 언급과 함께, 투표 이후 프로세스를 설명하는 Clayton의 영상 공유 (“What actually happens after you vote on Arena?”).
  • SWE-Bench Verified “deprecation-nuked”: OpenAI가 데이터 **오염(contamination)**을 이유로 SWE-Bench Verified를 자발적으로 폐기했다는 요약이 공유됨 (Latent Space tweet).
  • 이는 모델이 태스크 ID로 솔루션을 재생(regurgitate)하며 리더보드가 “조용히 썩는” 현상을 경고하는 사례로 해석되며, 평가 위생(hygiene)과 벤치마크 갱신 주기의 필요로 이어졌다.
  • Real-Slop 데이터셋: Solenopsisbot이 API로 수집한 ~155k “실사용자” 요청과, Opus 4.5, Gemini 3 Pro, GPT 5.2 응답을 포함한 데이터셋 Real Slop을 공개 (Solenopsisbot/real-slop).
  • 후속 논의는 dedupe/filter/cleaning 같은 큐레이션 메커니즘을 강조했고, 공백 제거+해싱 같은 단순 방법으로도 22k 중복을 더 제거할 수 있다는 제안이 나왔다.

Inference/Kernels: Blackwell 현실 점검 + 벤치마킹 무결성

  • ThunderKittens 2.0: Hazy Research의 ThunderKittens 2.0을 다룬 GPU MODE 글이 공유되며, 커널 리팩터링/메모리-인스트럭션 튜닝/어셈블러 효율 개선으로 성능 향상을 주장 (“ThunderKittens 2.0” blog).
  • 인상적인 디테일로, 특정 tensor core instructions의 implicit pipelining이 최대 ~10% 처리량(throughput) 이득을 낼 수 있으며, “subtraction이 addition만큼 중요할 수 있다”는 메시지가 언급됨.
  • flashinfer-bench가 너무 빨랐던 이유(기다리지 않았기 때문): GPU MODE가 flashinfer-bench의 동기화(synchronization) 버그를 지적, scripts/run_local.py에서 런타임이 부풀려질 수 있는 이슈로 추적됨 (flashinfer-bench issue #195).
  • 커뮤니티는 두 줄 수정으로 Nsight Compute 및 NVbench와 정렬된 결과가 된다고 했고, 관련 커널 벤치마킹 토크도 공유됨 (YouTube: kernel benchmarking talk).
  • Blackwell은 하나가 아니다: **RTX 5080(sm120)**에서 한 튜닝이 **B200(sm100)**으로 “스케일”되지 않는다는 경고가 공유되며, 아키텍처 차이가 크다는 점이 강조됐다. 어떤 멤버는 이 때문에 5080 구매를 보류했다고 언급.
  • 또한 ISA 차이(예: tcgen05sm100/sm103/sm110에는 있고 sm120/sm121에는 없음) 등이 언급되며, 근거로 CUDA 컴퓨트 카파빌리티 문서가 제시됨 (CUDA C Programming Guide: compute capabilities).

Platforms, Pricing & “왜 전부 레이트리밋인가?”

  • Perplexity Pro 유저들의 “Great Neutering”: 업로드 제한이 ChatGPT free보다도 나쁘게 느껴진다는 불만이 공유됨. 예로 “유료인데 하루 3개(주 3개가 아니라)” 같은 비교.
  • 일부는 Perplexity를 떠나 Claude/OpenAI 직접 구독이나 Kimi 같은 더 큰 오픈 모델로 이동하겠다는 논의를 했고, “Model Council”이 실수를 줄이는지 아니면 분산·누적 실패 모드만 늘리는지 논쟁이 있었다.
  • OpenRouter, 벤치마크 + “Effective Pricing” 도입: Artificial Analysis 기반 벤치마크를 모델 페이지에 추가하고, 제공자별 Effective Pricing 탭과 시각화 개선을 Rankings page에 반영했다고 발표 (OpenRouter X post).
  • 또한 무료 모델 메타 라우터 openrouter/free를 출시 (openrouter/free). 반면 사용자들은 지원 지연과, 크레딧이 남아 있어도 예상치 못한 레이트리밋 메시지를 받는다고 불평했다.
  • 토큰 소모(token burn)가 1급 문제로: OpenClaw 사용자들이 비용 절감을 위해 멀티 에이전트, 자동 세션 클리어, 저렴한 크론 모델(claude-haiku-4-5), /context 체크, Cloudflare AI Gateway 실험 등을 공유했다(피자 한 판에 토큰 비용 768€ 사례 같은 이야기 포함).
  • 별도로 OpenAI Discord 사용자들은 Grok Fortress를 켜면 역할극(roleplay)에서 일관성을 유지하면서도 토큰 소모가 대략 1/4–1/5로 줄었다고 주장했으며, 프롬프트 엔지니어링이 재현 가능한 “과학”인지 “분위기(vibes)”인지 논쟁을 촉발했다.

Protocols & Security: 협상, 스캐너, 시스템 프롬프트 탈출

  • MCP는 HTTP 스타일 콘텐츠 협상을 원함: MCP 초기화에 content negotiation을 추가해 클라이언트가 타입/역량을 선언하고 json|markdown 같은 출력 포맷과 verbosity 레벨을 요청할 수 있게 하자는 제안. 참고로 RFC 2295가 언급됨.
  • 프로토콜 변경에는 업계 지지와 구현이 필요하므로, 확장(extension, SEP)으로 프레이밍하고 MCP Apps처럼 클라이언트 채택을 모아야 한다는 의견이 나왔다(예: Block의 Goose).
  • Claude Code Security, 500+ 버그 스캔(웨이트리스트): Latent Space에서 Anthropic의 Claude Code Security(Claude 4.6 Opus 기반)가 오픈소스 프로덕션 코드에서 500+ 장기 버그를 찾았고 연구 프리뷰(waitlist-only)로 제한된다는 논의가 공유됨 (tweet thread).
  • 같은 생태계에서 distillation과 보안 시그널링을 논의하며, OpenRouter 유저들이 Anthropic의 distillation 탐지 글(“Detecting and preventing distillation attacks”)과 WSJ 보도(WSJ: “Anthropic Accuses Chinese Companies of Siphoning Data from Claude”)도 함께 돌렸다.
  • 탈옥(jailbreak) 트렌드: “System Prompt” 탈출구 선호: BASI Jailbreaking 사용자들이 Sonnet 4.6의 시스템 프롬프트를 추출했다고 주장하며, 일반 탈옥과 시스템 프롬프트 탈옥을 대비(세션 내 지속 가능, 탐지 어려움).
  • 또한 Gemini 3.1 탈옥 문서(GnfDocs)와 업데이트 스레드(Reddit: “Gemini 3.1 Pro API Jailbroken”)가 공유되는 한편, 다른 커뮤니티(Cursor/Perplexity/LMArena)는 Gemini 3.1의 루핑/지연 같은 실사용 실패 모드를 불평했다.