오늘의 요약

  • Figure가 8시간 로봇 근무 시연
  • Cline SDK와 LangChain 플랫폼 출시
  • Nous가 TST 2-3배 속도 향상 발표
  • OpenAI가 Codex 전환 혜택 제공
  • Anthropic 기업 채택률이 OpenAI 추월

Figure, 휴머노이드 로봇 8시간 자율 근무 시연

2026년 5월 13일 수요일
#Figure#OpenAI#Codex

헤드라인: Figure, 휴머노이드 로봇 8시간 자율 근무 시연

참고 링크: 544 Twitters, AINews’ website, AINews is now a section of Latent Space, opt in/out

Figure의 Brett Adcock은 Helix-02를 사용해 패키지 분류 작업에서 휴머노이드 로봇들이 8시간 자율 근무를 수행하는 장면을 공개했다. 로봇들은 카메라 픽셀을 기반으로 추론(inference)하고, 사람과 비슷한 속도인 약 3초/패키지로 작업하며, 온디바이스 추론(on-device inference), 네트워크화된 플릿 조율, 배터리 부족 시 자율 교체, 장애 시 자가 진단 및 유지보수 전환을 수행한다고 설명됐다. 이는 짧은 벤치마크 영상이 아니라 다중 로봇, 장시간, 무인 루프 오케스트레이션을 보여준 비교적 명확한 공개 시연이다.


AI Twitter Recap

Agent Infrastructure, Harnesses, and Developer Platforms

  • Cline, LangChain, Notion, Cursor가 모두 에이전트 플랫폼 영역으로 더 깊이 들어갔다: Cline은 재구축한 Cline SDK와 TUI, 에이전트 팀, 예약 작업, 커넥터를 갖춘 새 CLI를 오픈소스화하며, 자체 하네스를 맞춤형 코딩 에이전트를 위한 재사용 가능한 기반으로 포지셔닝했다. LangChain은 Interrupt에서 LangSmith Engine, SmithDB, Sandboxes, Managed Deep Agents, LLM Gateway, Context Hub, Deep Agents 0.6 등 대규모 에이전트 생애주기 인프라를 출시했다. 기술적으로 가장 주목할 부분은 SmithDB로, 중첩되고 장시간 실행되는 대형 페이로드 추적(trace)을 위한 관측성(observability) 데이터베이스이며, 핵심 워크로드에서 12-15배 빠른 접근을 제공한다고 한다. 팀은 이것이 Apache DataFusion and Vortex 위에 구축됐다고 밝혔다. 동시에 Notion’s External Agents API는 Claude, Codex, Cursor, Decagon, Warp, Devin 같은 서드파티 에이전트가 또 다른 사일로가 아니라 공유되고 검토 가능한 컨텍스트 레이어로서 Notion 내부에서 직접 작동하게 한다. Cursor는 복제된 저장소, 의존성, 버전 기록, 롤백, 범위 지정된 egress, 격리된 시크릿을 포함하는 완전 구성형 개발 환경으로 클라우드 에이전트를 확장했다.
  • 에이전트 UX는 채팅보다 장시간 상태, 스트리밍, 오케스트레이션으로 이동하고 있다: 여러 출시가 같은 설계 방향으로 수렴했다. Duet Agent몇 주 또는 몇 달 지속되는 작업을 위한 상태 머신 하네스를 제안하며, 압축(compaction) 대신 부모/하위 에이전트 조율과 메모리를 사용한다. LangChain의 OSS 업데이트는 streaming typed projections, checkpoint storage, code interpreter, harness profiles, and model-specific tuning을 추가했으며, 모두 단순 토큰보다 풍부한 에이전트 이벤트 스트림을 목표로 한다. Tabracadabra는 자동완성에서 모든 텍스트박스 안의 컨텍스트 인식 어시스턴트로 이동했고, VS Code는 Agents 창과 더 나은 다중 프로젝트 작업 검토를 도입했다. 이 출시들의 공통된 아키텍처 메시지는 프로덕션 에이전트가 무상태 프롬프트/응답 루프보다 내구성 있는 실행, 검사 가능한 중간 상태, 도구 네이티브 UI 표면을 점점 더 필요로 한다는 것이다.

Model Training, Architecture, and Data Efficiency

  • 사전학습 효율성과 아키텍처 실험이 가장 강한 연구 흐름이었다: Nous Research’s Token Superposition Training은 사전학습 초기 단계를 수정해 모델이 표준 다음 토큰 예측으로 돌아가기 전 연속된 토큰 묶음을 읽고 예측하게 한다. 이들은 추론 시점 아키텍처 변경 없이, 동일 FLOPs 조건에서 2-3배 wall-clock 속도 향상을 보고했으며, 270M부터 3B dense, 10B-A1B MoE까지 검증했다고 밝혔다. Jonas Geiping et al.은 현재 메시지 기반/채팅 학습이 에이전트를 단일 스트림에 과도하게 묶는다고 주장하며, 낮은 지연시간, 더 깔끔한 관심사 분리, 더 읽기 쉬운 병렬 추론/도구 사용을 주장하는 multi-stream LLM 논문을 공개했다. 논문과 코드는 here에 연결돼 있다. δ-mem은 동결된 full-attention 백본에 외부 온라인 연관 메모리를 붙이는 방식을 제안했으며, 8×8 state가 평균 점수를 1.10배 개선하고 non-δ-mem 기준선을 1.15배 앞섰다고 보고했다. 메모리 중심 벤치마크에서는 더 큰 향상이 있었다.
  • 후학습(post-training)/압축과 데이터 큐레이션도 주목할 결과를 냈다: NVIDIA의 Star Elastic은 한 번의 후학습 실행으로 여러 크기의 추론(reasoning) 모델 제품군을 만들 수 있으며, 제품군을 사전학습하는 것보다 360배 낮은 비용, SOTA 압축보다 7배 우수하다고 주장한다. Siddharth JoshiPratyush Maini가 강조한 Datology의 VLM 연구는 데이터 큐레이션만으로도 큰 멀티모달 성능 향상을 낼 수 있다고 주장한다. 2B에서 20개 공개 VLM 벤치마크 평균 +11.7점, InternVL3.5-2B 대비 약 10점 우위, 약 17배 적은 학습 컴퓨트, 그리고 Qwen3-VL-4B보다 3.3배 낮은 응답 FLOPs로 프런티어급에 가까운 4B 성능을 보고했다. 오픈 데이터 측면에서 Percy Liang은 다음 Marin 실행이 이미 18T 토큰을 혼합 데이터에 포함하고 있으며, 여전히 더 많은 사전학습, 중간학습, SFT 데이터를 찾고 있다고 말했다. 함께 제공되는 토큰 뷰어는 shared here에 있다.
  • 오픈 평가와 데이터셋 작업도 모델 구축과 함께 성숙하고 있다: Kevin Li’s SWE-ZERO-12M-trajectories는 가장 큰 오픈 에이전트 trace 데이터셋으로 제시된다. 규모는 112B 토큰, 12M trajectories, 122K PRs, 3K repos, 16 languages다. Victor Mustarllama-eval을 llama.cpp 커뮤니티 평가를 더 비교 가능하게 만드는 단계로 짚었다. 한편 Steve RabinovichSayash Kapoor는 신뢰할 만한 에이전트 평가에는 결과만 보는 지표가 아니라 로그 분석이 필요하다고 주장했다. 더 강한 에이전트가 숨은 벤치마크 버그와 reward-hacking 경로를 드러내기 때문이다.

Enterprise AI Pricing, Platform Competition, and Distribution

  • Anthropic과 OpenAI의 경쟁은 기업 배포와 개발자 락인 중심으로 더 날카로워졌다: Ramp data cited by Andrew Curran에 따르면 4월 기업 사용에서 Anthropic 34.4%, **OpenAI 32.3%**로, 기업 채택에서 처음으로 선두가 바뀐 것처럼 보인다. The Rundown도 같은 수치를 확산했다. 동시에 Anthropic은 요금제 경제성을 바꿨다. ClaudeDevs announced에 따르면 유료 Claude 요금제에는 Agent SDK, claude -p, GitHub Actions, 서드파티 SDK 앱 전반의 프로그래밍 방식 사용을 위한 전용 월간 크레딧이 제공된다. 파워 유저들은 이를 구독 보조형 하네스에 대한 큰 제한으로 즉시 해석했고, Theo, Jeremy Howard, Matt Pocock, Omar Sanseviero가 비판했다. Anthropic은 별도로 50% increase in Claude Code weekly limits를 7월 13일까지 제공하며 반발을 일부 상쇄했다. 이는 이전에 발표된 5시간 제한 2배 증가에 더해진 것이다.
  • OpenAI는 Codex 기업 인센티브로 공격적으로 대응했다: OpenAI DevsSam Altman은 향후 30일 안에 전환하는 기업 고객에게 Codex 사용 2개월 무료를 제안했다. OpenAI는 또한 Windows sandbox design write-up을 포함해 더 기술적인 플랫폼 세부사항을 공개했다. 이 글은 로컬 파일시스템/도구 접근을 갖춘 코딩 에이전트를 안전하게 실행하기 위해 로컬 사용자, 방화벽 규칙, ACL, 쓰기 제한 토큰, DPAPI, 헬퍼 실행 파일의 조합이 필요하다고 설명한다. 현재 경쟁 구도는 “최고 모델이 이긴다”보다 보조금 + 워크플로 제어 + 하네스 호환성에 더 가까워 보인다.
  • 기업 도입은 런타임/보안 보장과 점점 더 결합되고 있다: Perplexity는 VPC 수준 분리, 단기 프록시 토큰, 에이전트 행동 전 외부 콘텐츠 스캔을 갖춘 하드웨어 격리 샌드박스 아키텍처를 설명했고, 암호화와 자동 삭제에 관한 additional details도 제공했다. Aravind Srinivas는 이를 Perplexity가 기업 지식/리서치 플랫폼이 되는 데 필요한 기반으로 설명했다. 더 넓은 패턴은 에이전트 벤더들이 더 이상 지능만 파는 것이 아니라 경계가 정해진 실행 환경을 판다는 점이다.

Autonomous Science, Cyber Capability, and Robotics

  • 재귀적 자기개선은 아이디어에서 스타트업 클러스터로 이동했다: 가장 큰 단일 메타 테마는 과학을 자동화하고 안전하게 스스로 개선하는 AI를 만들기 위해 설립된 Recursive의 출범이었다. Richard Socher, Josh Tobin, Dominik Schmidt, Jenny Zhang, Shengran Hu의 출시 게시물은 이 팀이 open-endedness, AI Scientist, 연구 자동화 작업 출신 인력으로 구성됐음을 시사한다. 인접한 작업으로 Adaption’s AutoScientist는 프런티어 랩 밖에서 전체 학습-연구 루프를 자동화하는 것을 목표로 하며, Sarah Hooker는 대부분의 모델 학습 실패가 단순한 컴퓨트 부족보다 연구 루프의 취약성 때문이라고 주장했다.
  • 사이버 역량 평가는 계속 가파르게 상승하고 있다: 영국 AI Security Institute는 프런티어 모델이 완료할 수 있는 사이버 작업의 길이가 몇 달마다 두 배가 되고 있으며, 최근 모델들이 이전 추세를 넘어서고 있다고 밝혔다. Anthropic/Glasswing의 Logan GrahamClaude Mythos Preview가 AISI의 end-to-end 사이버 range 두 개를 모두 해결한 첫 모델이라고 말했다. 여기에는 Cooling Tower가 포함되며, 연구소의 2.5M-token 상한 아래 모든 작업을 통과한 유일한 모델이라고 한다. XBOW는 “token-for-token, unprecedented precision”을 발견했다고 전해졌고, 파트너 사용에서는 몇 주 만에 수천 개의 high/critical 취약점이 드러났다고 한다. scaling01의 독립 논평은 더 새로운 Mythos 버전이 사이버 range를 preview 기준선의 3/10 대비 6/10 완료했다고 주장했다.
  • 로보틱스는 구체적인 장기 배포 데모를 얻었다: Figure’s Brett AdcockHelix-02를 사용해 패키지 분류에서 휴머노이드 로봇이 8시간 자율 근무를 수행하는 장면을 스트리밍했다. 후속 세부사항에서는 로봇들이 카메라 픽셀을 기반으로 추론하고, 사람과 비슷한 속도인 약 3초/패키지로 작동하며, **온디바이스 추론(on-device inference)**을 수행하고, 네트워크 플릿으로 조율되며, 배터리가 부족하면 자율 교체하고, 필요 시 자가 진단 후 유지보수로 fail over한다고 설명했다 here. 이는 짧은 벤치마크 클립이 아니라 다중 로봇, 장시간, 무인 루프 오케스트레이션을 보여준 비교적 명확한 공개 시연 중 하나다.

Top tweets (by engagement)


AI Reddit Recap

/r/LocalLlama + /r/localLLM

  • Needle: We Distilled Gemini Tool Calling Into a 26M Model (Activity: 451): Cactus Compute는 “Simple Attention Network” 아키텍처를 사용하는 26M 파라미터 단일 샷 함수/도구 호출 모델 Needle을 오픈소스화했다. 이 구조는 attention + gating으로 구성되며 FFN/MLP가 없다. 도구 사용은 깊은 추론보다 검색/슬롯 추출/JSON 조립에 가깝다는 주장이다. 이 모델은 16 TPU v6e에서 27h 동안 200B 토큰으로 사전학습됐고, 45m 동안 2B Gemini 합성 함수 호출 토큰으로 후학습됐다. 소비자 기기에서 6000 tok/s prefill과 1200 tok/s decode를 주장하며, 단일 샷 함수 호출에서 FunctionGemma-270M, Qwen-0.6B, Granite-350M, LFM2.5-350M을 이긴다고 보고했다. 코드/가중치는 GitHub, Hugging Face에 MIT 라이선스로 공개됐고, 아키텍처 노트는 SAN writeup에 있다. 댓글에서는 Needle을 더 큰 LLM, 도구, RAG 파이프라인으로 요청을 전달하는 경량 라우터로 볼 수 있다고 평가하면서도, 같은 no-FFN/cross-attention 접근이 요약으로 일반화될 수 있는지 의문을 제기했다. 한 기술적 주의사항은 저장소에 Python pickle 파일이 포함된 것으로 보이며, 이는 코드 실행/보안 위험과 Python 종속 이식성 문제 때문에 권장되지 않는다고 지적했다.
  • I got a real transformer language model running locally on a stock Game Boy Color! (Activity: 1326): 이미지는 순정 Game Boy Color에서 TINYSTORIES Q8 GBC라는 로컬 transformer 데모가 실행되는 모습을 보여준다. 이는 Andrej Karpathy의 TinyStories-260KINT8/고정소수점으로 변환해 PC, Wi-Fi, 링크 케이블, 클라우드 추론 없이 기기에서 직접 실행했다는 게시물의 주장과 일치한다: image. 프로젝트는 GBDK-2020, MBC5 Game Boy ROM, 가중치용 bank-switched cartridge ROM, KV cache용 cartridge SRAM, 온디바이스 토큰화/프롬프트 입력을 사용한다. 작성자는 생성이 매우 느리고 강한 양자화(quantization)/근사 때문에 대부분 횡설수설하지만, transformer prefill + autoregressive 루프는 작동한다고 설명했다. 소스 코드: github.com/maddiedreese/gbc-transformer. 댓글은 기술적 논의보다 감탄이 많았고, 실용성은 없지만 매력적인 proof-of-concept로 봤다. 예를 들어 “무의미하다. 그러므로 필수적이다.” 같은 반응과 N64 같은 다른 레트로 하드웨어로 비슷한 실험을 포팅하는 데 대한 관심이 있었다.
  • Solar Powered Qwen 3.6 Server (Activity: 449): 한 사용자는 **Unsloth**의 UD-Q4_K_XL 빌드인 로컬 Qwen 27B GGUF 모델을 M1 Max 32GB에서 100k 컨텍스트로 실행하며 약 ~10 tok/s를 얻었다고 보고했다. 추론 서버는 3 × 100 W 태양광 패널이 Anker 1.25 kW 일체형 전원 장치에 전력을 공급하는 방식으로 구동된다. 추론 부하에서 관측 전력 소모는 ~80-85 W, 때로는 ~30 W까지 내려가며, 유휴 전력은 ≤5 W다. 사용자는 Hermesopencode 워크플로에서 성능이 “정말 좋다”고 말했다. 댓글은 주로 낮은 전력 소모 덕분에 Apple Silicon이 오프그리드 추론에 실용적이라는 점을 강조했고, 비-Mac 솔루션은 배터리를 너무 빨리 소모하며 특히 북부 기후에서는 겨울철 완전 오프그리드 운용이 어렵다고 언급했다.
  • Stop wasting electricity (Activity: 1104): 한 사용자는 RTX 4090에서 llama.cpp llama-serverQwen3.6-27B-UD-Q4_K_XL.gguf, --flash-attn on, -ngl all, -ctk q4_0 -ctv q4_0, -c 262144로 실행할 때 nvidia-smi -pl N 설정에 따라 실제 보드 전력이 구성한 한도를 따라간다고 보고했다. 관찰 결과, GPU 전력 제한을 낮추면 소비 전력을 약 **40%**까지 줄이면서도 decode/token-generation throughput에는 큰 영향이 없고, 열과 소음도 줄어든다고 한다. 한 댓글은 prefill이 더 민감하지만 450W에서 270W로 낮출 때도 모델에 따라 약 15-20%만 감소한다고 덧붙였다. 댓글에서는 decode throughput만 보면 전력 제한으로 인한 성능 저하를 숨길 수 있으므로 prefill/prompt-processingdecode 벤치마크를 분리해야 한다고 주장했다. 또 다른 사용자는 커넥터/열 문제 때문에 이미 RTX 5090에 전력 제한을 걸고 있으며, 이 결과를 보고 한도를 더 낮출 수도 있다고 말했다.

Open-Source Local Agent Interfaces

  • TextGen is now a native desktop app. Open-source alternative to LM Studio (formerly text-generation-webui). (Activity: 795): oobabooga/TextGentext-generation-webui에서 휴대용, 설치 불필요 Electron 데스크톱 앱으로 리팩터링됐다. Windows/Linux/macOS를 지원하며 자체 포함형 user_data 저장소와 CUDA, Vulkan, CPU-only, ROCm, Apple Silicon/Intel macOS 빌드를 GitHub releases로 제공한다. 이 앱은 LM Studio의 오픈소스 대안으로 자리매김하며, 외부 요청 0건, IQ4_KS/IQ5_KS 같은 새 양자화 유형을 위한 ik_llama.cpp 지원, ddgs 기반 내장 웹 검색, 승인 게이트가 있는 Python/HTTP/stdio MCP 도구 호출, Claude Code 지원을 포함한 OpenAI/Anthropic 호환 API, PyMuPDF 기반 PDF 추출, trafilatura 기반 웹 정리, Jinja2 채팅 템플릿 렌더링을 제공한다. 소스는 AGPLv3로 oobabooga/textgen에 있다. 주요 댓글은 기술적 논의보다 대체로 긍정적이었고, oobabooga에 대한 인지도와 LM Studio보다 더 프라이빗한 오픈 대안에 대한 수요를 강조했다.
  • Let’s build claude code from scratch! (Activity: 462): 이미지는 밈이 아니라 ~/projects/nano-claude에서 **“NANO CLAUDE”**로 브랜딩된 맞춤형 CLI 코딩 에이전트를 보여주는 기술적 터미널 스크린샷이다. “Claude Code · from scratch”라고 설명되며 사용자에게 코딩 요청을 입력하라고 안내한다. 게시물은 구현을 위한 build-from-scratch 튜토리얼 영상과 GitHub 저장소를 연결한다: YouTube, GitHub, 스크린샷은 here에 있다. 댓글에서는 주로 프로젝트 이름에 **“Claude”**를 사용하는 것이 Anthropic과 상표권 리스크를 만들 수 있다고 경고했으며, OpenClaw/Clawdbot 주변의 과거 이름 변경 압박을 언급했다. 다른 이들은 opencode 같은 비슷한 도구가 이미 있거나 Pi를 대안으로 제시했다.

Less Technical Subreddits

  • /r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo: 기술적 깊이가 낮은 하위 레딧 전반에서는 실제 AI 에이전트 실패 사례와 개인용 챗봇 배포에서 나타난 보안/프라이버시 이슈가 두드러졌다.
  • Inherited a 3-month old repo from a Vibe Engineer. Wrote the most satisfying PR in my career (Activity: 6187): image+10,197 추가−3,618,778 삭제라는 극단적인 PR diff를 보여주며, “agentic”/vibe coding으로 만들어진 3개월 된 백엔드 저장소가 생성되거나 불필요한 코드, 문서, 로그, 시크릿, 미사용 핸들러를 대량으로 축적했다는 게시물의 주장을 뒷받침한다. 작성자는 Claude를 사용해 1주일 만에 저장소를 다시 작성했고, 기능은 유지하면서 309k LOC, 240k 문서, 1M+ 마크다운 로그 라인, 220개 핸들러 중 실제 사용 약 20개, 40+개 시크릿 중 필요 2개뿐인 비대한 아키텍처를 더 깔끔한 백엔드와 통합 테스트로 대체했다고 말했다. 표시된 댓글은 대부분 “vibe engineer”라는 용어와 AI 생성 코드베이스를 AI-assisted coding으로 정리한다는 아이러니에 대한 농담이며, 제공된 상위 댓글에는 실질적인 기술 논쟁은 없었다.
  • I made an AI concierge for my wedding guests. The second most popular thing they did with it was try to jailbreak it. (Activity: 2003): 이미지는 Mauritius의 목적지 결혼식을 위해 만든 맞춤형 웨딩 AI concierge(“Aido”)의 사용 보고서 그림이다. API/MCP 서버를 통해 결혼식/여행 정보와 연결됐다고 한다. 보고서에는 719 세션, 8,678 메시지, 29 사용자, 그리고 가장 큰 범주로 진지한 물류 질문(35%)과 jailbreak/hack 시도(25%)가 표시돼, 낮은 위험의 개인 비서조차 적대적 프롬프트를 끌어들인다는 점을 보여준다. 이미지: AI Concierge Report Card. 댓글은 이 프로젝트가 일반 챗봇보다 흥미롭다고 봤지만, 단 29명의 사용자가 8,000개 넘는 메시지를 보냈다는 참여량과 jailbreak 시도가 두 번째로 큰 사용 사례였다는 점에 놀라고 재미있어했다.

AI Discord Recap

AI Discords

  • Discord 접근 종료: 안타깝게도 Discord가 오늘 접근을 차단했다. 이 형태로는 다시 가져오지 않을 예정이지만, 새로운 AINews를 곧 출시할 예정이다. 여기까지 읽어줘서 고맙고, 좋은 시간이었다.