Cursor SDK, 프로그래머블 에이전트 플랫폼으로 출시

헤드라인: Cursor SDK, 프로그래머블 에이전트 플랫폼으로 출시

참고 링크: 544 Twitters, AINews’ website, AINews is now a section of Latent Space, opt in/out

Cursor가 자사 IDE를 구동하는 런타임, 하네스(harness), 모델을 SDK 형태로 외부에 열면서 코딩 도구에서 프로그래머블 에이전트 인프라로 이동하고 있다. CI/CD, 자동화, 제품 내 임베디드 에이전트에 같은 실행 환경을 사용할 수 있게 된 것이 핵심이다. OpenAI Codex의 업무 플랫폼화, VS Code의 하네스 개선과 함께 코딩 에이전트 시장은 헤드리스(headless) 런타임, 프로그래머블 하네스, 사용량 기반 경제로 수렴하는 흐름을 보였다.

AI Twitter Recap

코딩 에이전트가 플랫폼으로: Codex, Cursor SDK, VS Code 하네스 업그레이드

OpenAI가 Codex를 코딩 도구에서 범용 작업 표면으로 전환 중: 오늘 가장 강한 제품 신호는 단순한 사용 열기가 아니라 지속 컨텍스트, 도구, 통합, 팀 배포를 둘러싼 기능 확장이었다. OpenAI는 코드 외에도 연구 종합, 스프레드시트, 의사결정 추적 같은 더 넓은 지식 작업에 Codex를 강조했다 (OpenAI, follow-up, follow-up); 6월 말까지 적격 Business/Enterprise 고객에게 좌석 비용 $0의 Codex 전용 좌석을 출시했다 (OpenAIDevs); Supabase (coreyching)와 구현 계획을 FigJam 보드로 바꾸는 Figma 플러그인 같은 통합도 추가했다 (OpenAIDevs). 커뮤니티 게시물도 앱 서버 사용과 더 풍부한 에이전트 워크플로를 언급했다 (gdb, aiDotEngineer).
성능 작업이 모델 지연시간에서 에이전트 루프 시스템 엔지니어링으로 이동: OpenAI는 Codex식 워크플로를 Responses API의 WebSocket 모드로 옮기면 도구 호출 사이에 상태를 따뜻하게 유지하고 반복 작업을 줄여 에이전트형 워크플로를 최대 40% 빠르게 만든다고 밝혔다 (OpenAIDevs, reach_vb, pierceboggan). VS Code도 워크스페이스 전반의 의미론적 인덱싱, 크로스 저장소 검색, 채팅 세션 인사이트, 스킬 컨텍스트, Copilot CLI 원격 제어, 프롬프트·스킬·지침을 다듬기 위한 프롬프트/에이전트 평가 확장 등 병렬 하네스 개선을 내놨다 (pierceboggan, pierceboggan, code). 핵심 흐름은 코딩 에이전트 UX가 이제 원시 모델 지능뿐 아니라 메모리, 검색(retrieval), 하네스 품질, 도구 오케스트레이션에 의해 좌우된다는 점이다.
Cursor가 명시적인 플랫폼 전략을 전개: 새 Cursor SDK는 Cursor를 구동하는 동일한 런타임, 하네스, 모델을 CI/CD, 자동화, 제품 내부 임베디드 에이전트에 사용할 수 있게 공개한다 (cursor_ai, starter projects, customer examples). 이는 Cursor를 좌석 기반 IDE 제품에서 프로그래머블 에이전트 인프라로 옮기는 변화라 주목할 만하며, @kimmonismus가 이 프레이밍을 잘 포착했다. Codex 앱 서버와 VS Code 하네스 작업까지 함께 보면, 이 범주는 분명 헤드리스 에이전트 런타임 + 프로그래머블 하네스 + 사용량 기반 경제로 수렴하고 있다.

에이전트 하네스 엔지니어링, LangGraph/Deep Agents, 프로덕션 AgentOps

하네스가 1급 최적화 계층으로 부상: 여러 게시물이 모델 품질만으로는 충분하지 않으며, 모델 주변 하네스가 프로덕션 성능을 결정하는 경우가 많다는 생각에 수렴했다. 가장 명확한 연구 사례는 Agentic Harness Engineering으로, 되돌릴 수 있는 컴포넌트, 압축된 실행 증거, 반증 가능한 예측을 통해 하네스 진화를 관찰 가능하게 만든다. 보고된 성과는 10회 반복에서 **Terminal-Bench 2 pass@1이 69.7%에서 77.0%**로 상승해 사람이 설계한 Codex-CLI 기준선 **71.9%**를 넘겼고, 모델 계열 간 전이와 SWE-bench Verified에서 토큰 사용량 12% 절감도 보였다 (omarsar0). 관련 연구인 HALO는 트레이스 분석으로 하네스 실패를 패치하는 재귀적 자기개선 에이전트를 설명하며, Sonnet 4.6에서 AppWorld를 73.7에서 89.5로 개선했다고 주장한다 (samhogan).
LangChain의 Deep Agents 제품군은 모델별 하네스 튜닝과 배포 가능성에 집중: 새 Harness Profiles를 통해 팀은 모델별 프롬프트, 도구, 미들웨어를 버전 관리할 수 있으며, OpenAI, Anthropic, Google 모델용 내장 프로필을 제공한다 (LangChain_OSS, LangChain, Vtrivedy10). LangChain은 또한 소수의 markdown/config 파일과 LangSmith 기반 추적을 사용하는 로우코드 배포 경로인 DeepAgents Deploy를 내놨다 (hwchase17). LangChain 직원들이 전한 더 넓은 메시지는 일관됐다. 폐쇄형 모델이 많은 에이전트 워크로드에 너무 비싸지고 있으므로 오픈 하네스, 오픈 평가, OSS 친화적 모델 조합이 중요하다는 것이다 (hwchase17, Vtrivedy10).
Cloudflare가 “소프트웨어로서의 에이전트” 스택을 계속 구체화: 실행 사다리 같은 아이디어와 더 구체적으로는 에이전트가 Cloudflare 고객이 될 수 있게 하는 기능, 즉 계정 생성, 도메인 등록, 유료 플랜 시작, 배포용 토큰 발급을 가능하게 하는 방향을 제시했다 (threepointone, Cloudflare). 이는 벤더들이 에이전트를 수동적 코파일럿으로만 보지 않고 비즈니스 워크플로를 직접 노출하기 시작했다는 의미 있는 신호다.

모델 출시와 벤치마크: Mistral Medium 3.5, Granite 4.1, Ling-2.6, 오픈 모델 가격 압박

Mistral Medium 3.5는 이날 가장 논쟁적인 모델 출시였다. 초기 논평은 이를 dense 128B 모델로 봤고 (scaling01), Unsloth는 약 64GB RAM에서 로컬 실행 가능한 비전 추론(vision reasoning) 모델이라고 설명하며 GGUF와 가이드를 공개했다 (UnslothAI). 반응은 크게 갈렸다. 일부는 128K 컨텍스트, 아키텍처 선택, 대형 중국 오픈 MoE 대비 가격을 비판했고 (eliebakouch, scaling01), 다른 이들은 Mistral이 원시 벤치마크 화려함을 좇기보다 의도적으로 엔터프라이즈 신뢰성/지시 따르기에 베팅하고 있다고 주장했다 (kimmonismus).
IBM Granite 4.1은 30B, 8B, 3B의 새 오픈 가중치, Apache 2.0 비추론 모델 3종을 추가했으며, 개방성과 토큰 효율성을 강하게 강조했다 (ArtificialAnlys). 두드러진 주장은 Granite 4.1 8B가 Artificial Analysis Intelligence Index에서 Qwen3.5 9B의 78M 출력 토큰 대비 단 4M 출력 토큰만 사용했고, AA Openness Index에서 61점을 기록했다는 점이다. 지능은 더 강한 경쟁 모델보다 뒤처지지만, 이 제품군은 비용과 투명성이 리더보드 순위보다 중요한 엔터프라이즈/엣지 배포를 정조준한 것으로 보인다.
오픈 가중치 경쟁 압박이 계속 강화: Ant OSS의 Ling-2.6-flash는 약 107B MoE, MIT 라이선스, 61.2 SWE-bench Verified, 강한 수학 점수를 가진 것으로 언급됐다 (nathanhabib1011); Ling-2.6-1T도 출시 첫날 vLLM 지원을 받았다 (vllm_project). 한편 Tencent Hunyuan은 Hy-MT1.5-1.8B-1.25bit를 오픈소스화했다. 이는 휴대폰용 440MB 완전 오프라인 번역 모델로, 33개 언어, 1,056개 번역 방향을 지원하며, 공격적인 **1.25비트 양자화(quantization)**를 통해 표준 MT 벤치마크에서 상용 API 및 235B급 모델과 동등하다고 주장한다 (TencentHunyuan). 시장 측면에서는 Qwen 3.5 Plus가 출력 토큰 $3/M (MatthewBerman), MiMo-V2.5 Pro가 Code Arena에서 M 토큰당 $1/$3로 파레토 프런티어를 이동시킨 사례처럼, 유능한 오픈 모델 가격이 얼마나 빠르게 떨어지는지를 여러 게시물이 강조했다 (arena).

추론, 커널, MoE 시스템: FlashQLA, Blackwell 위 vLLM, torch.compile, GLM-5 서빙

Qwen의 FlashQLA는 주목할 만한 장문맥 커널 출시: Alibaba는 TileLang 기반 고성능 선형 어텐션 커널 FlashQLA를 공개하며, 특히 소형 모델, 장문맥 워크로드, 텐서 병렬 구성에서 2-3배 forward 및 2배 backward 속도 향상을 보고했다. 설계는 게이트 기반 자동 카드 내 CP, 대수적 재구성, 융합된 워프 특화 커널을 중심으로 한다 (Alibaba_Qwen, benchmark thread). 이는 개인 기기에서의 에이전트형 AI를 명시적으로 겨냥하며, 장문맥 최적화가 클라우드 전용 인프라에서 엣지 친화적 런타임으로 이동하는 더 넓은 흐름과 맞아떨어진다.
vLLM과 Blackwell 공동 설계가 실제 처리량 이득으로 이어짐: vLLM은 NVIDIA HGX B300 기반 DigitalOcean 서버리스 추론에서 DeepSeek V3.2 230 tok/s, 0.96s TTFT로 Artificial Analysis의 출력 속도 1위를 기록했고, Qwen 3.5 397B에서도 강한 결과를 냈다고 보고했다. 최적화에는 NVFP4 양자화, EAGLE3 + MTP speculative decoding, 모델별 커널 융합이 포함됐다 (vllm_project). SemiAnalysis는 별도로 GB200에서 DeepSeek v4 Pro를 위한 vLLM 0.20.0과 MegaMoE 커널의 이득을 강조했다 (SemiAnalysis_). 이는 하드웨어/소프트웨어/모델 공동 설계가 공개적으로 보이는 지연시간 수치로 전환된 더 명확한 사례 중 하나다.
더 많은 엔지니어가 모델과 GPU 사이의 “중간 계층” 세부사항을 공유: torch.compile에 관한 유용한 스레드는 Dynamo → pre-grad → AOT autograd → post-grad → Inductor를 설명하고, 추론(inference) 최적화를 위해 커스텀 FX 패스를 주입할 위치를 짚었다 (maharshii). John Carmack은 GPU 라이브러리 성능이 여전히 매우 경로 의존적이고 들쭉날쭉하다는 점을 상기시키며, torch.linalg.solve_ex가 511×511에서 512×512로 갈 때 내부 경로가 달라져 CudaMalloc/Free 때문에 10배 회귀가 나타난 것으로 보인다고 언급했다 (ID_AA_Carmack, follow-up). Zhipu AI도 GLM-5 서빙 사후 분석을 공개해 KV cache race condition, HiCache 동기화 버그, LayerSplit을 자세히 설명했으며, 장문맥 코딩 에이전트 서빙에서 prefill 처리량을 최대 132% 개선했다고 보고했다 (Zai_org).

연구 신호: 지식 프로브, 웹 에이전트 벤치마크, 멀티모달/과학 인프라

**Incompressible Knowledge Probes (IKP)**는 더 도발적인 연구 스레드 중 하나다: @bojie_li는 1,400개 질문 / 188개 모델 / 27개 벤더에 대한 사실 지식 정확도가 모델 크기에 대해 강한 로그 선형 신호를 제공한다고 주장하며, 135M에서 1.6T 파라미터의 오픈 가중치 모델에서 R² = 0.917을 보고했다. 이 논문은 사실적 용량이 일부 “추론은 압축된다”는 서사처럼 시간이 지나도 압축되지 않는다고 주장하며, 적합 곡선을 사용해 폐쇄형 모델 크기를 추정한다. 추정치를 받아들이든 아니든, 이 작업은 블랙박스 평가도 여전히 아키텍처 규모 정보를 누출한다는 점을 상기시킨다는 데 가치가 있다.
웹 에이전트 평가는 pass/fail을 넘어 성숙 중: 새 Odysseys 벤치마크는 200개의 장기 지평 실제 인터넷 작업, 이진 성공 대신 루브릭 기반 평가, trajectory efficiency 지표를 도입한다. 최고 모델 성공률은 **44.5%**에 불과하고, 효율도 **1.15%**로 여전히 극히 낮다고 보고됐다 (rsalakhu, dan_fried). 이는 짧은 합성 작업보다 다단계 브라우징, 스프레드시트 작업, 오케스트레이션을 더 잘 반영하는 에이전트 벤치마크로 향하는 업계 흐름과 맞는다.
AI-for-science와 멀티모달 인프라에서 의미 있는 생태계 출시: Hugging Face는 78GB 유전체학, 11TB PDE 시뮬레이션, 100M 세포 프로필, 9T DNA 염기쌍 등을 포함한 오픈 과학 데이터셋/모델/챌린지의 큐레이션 허브 Hugging Science를 소개했다 (cgeorgiaw). Anthropic은 BioMysteryBench를 공개하며, 최신 Claude 모델이 전문가도 풀지 못한 어려운 생물학 데이터 분석 문제의 약 **30%**를 해결했다고 보고했다 (AnthropicAI). 멀티모달 측면에서는 Vista4D가 지속적 4D 장면 표현을 사용해 새 카메라 궤적에서 비디오를 “재촬영”하는 방식을 소개했고 (micahgoldblum), Sakana의 KAME는 저지연 프런트엔드 모델과 비동기 백엔드 LLM 오라클 신호를 결합해 음성-음성 시스템을 위한 탠덤 “생각하면서 말하기” 아키텍처를 제안했다 (SakanaAILabs).

상위 트윗 참여도 기준

Cursor SDK 출시: CI, 자동화, 임베디드 제품을 위한 프로그래머블 에이전트 런타임/하네스/모델 (cursor_ai).
Codex 모멘텀 / 플랫폼 확장: OpenAI가 Codex를 코딩을 넘어 더 넓은 작업 자동화로 밀고 있으며, 팀 배포와 통합도 확대 (OpenAI, OpenAIDevs).
Google 제품화 신호: Gemini가 이제 채팅에서 직접 다운로드 가능한 Docs, Sheets, Slides, PDF 등을 생성 가능 (sundarpichai, GeminiApp).
Q1 비즈니스 신호: Google은 Cloud +63% YoY, 강한 Gemini 모멘텀, 역대 최고 Search 쿼리를 보고했으며, 이는 “AI 수익화” 논지의 중요한 데이터 포인트 (sundarpichai).
심층 기술 롱폼: Dwarkesh가 Reiner Pope와 함께 가격, 방정식, 시스템 제약에서 훈련/서빙 전략을 추론하는 칠판 세션을 진행 (dwarkesh_sp).

AI Reddit Recap

/r/LocalLlama + /r/localLLM

mistralai/Mistral-Medium-3.5-128B · Hugging Face (Activity: 921): Mistral Medium 3.5는 256k 컨텍스트 창을 가진 dense 128B 파라미터 모델로, 지시 따르기, 추론(reasoning), 코딩 작업을 위해 설계됐다. 설정 가능한 reasoning effort, 멀티모달 입력 기능, 다양한 벤치마크에서의 강한 성능을 제공하며 Devstral 같은 이전 모델을 능가한다. 이 모델은 Modified MIT License로 오픈소스화됐고 여러 언어와 시스템 프롬프트를 지원한다. 최적 성능을 위해서는 vLLM 라이브러리로 추론(inference)하는 것이 권장된다. 자세한 내용은 here에서 볼 수 있다. 한 댓글 작성자는 Strix Halo에서 q4 양자화로 모델을 테스트하며 토큰 생성 속도를 보고하고 dense 아키텍처에 관심을 보였다. 또 다른 댓글은 이 모델이 dense 128B 파라미터 모델로서 갖는 틈새를 강조하며 Qwen 27B와 비교했다. IvGranite는 Strix Halo 구성에서 q4 양자화를 사용한 Mistral-Medium-3.5-128B 성능 지표를 공유했고, 생성 속도 46.70 tokens per second, 프롬프트 처리 속도 3.26 tokens per second, 한 테스트의 총 소요 시간 4.84 seconds를 보고했다. Grumd와 reto-wyss는 dense 모델의 틈새를 논의했으며, grumd는 128B dense 모델의 독특함을 언급했고 reto-wyss는 Qwen 27B 모델과 비교하며 어느 쪽이 더 dense한지 질문했다.
Mistral Medium 3.5 Launched (Activity: 326): Mistral Medium 3.5는 128B dense 모델로 출시됐으며, 지시 따르기, 추론, 코딩 기능을 통합한 점이 특징이다. 모델은 수정 MIT 라이선스의 오픈 가중치로 제공되지만, 상업적 사용에는 라이선스 비용 제한이 있다. 이 모델은 클라우드에서 비동기 코딩 작업을 지원해 병렬 세션 실행을 가능하게 하고, 복잡한 워크플로를 위한 Le Chat의 새 Work 모드를 도입한다. 자세한 내용은 Hugging Face와 Mistral’s announcement에서 볼 수 있다. 라이선스 조건을 두고 논쟁이 있었으며, 일부 사용자는 이를 “modified MIT license”라고 부르는 것이 일반 MIT 라이선스에는 없는 상업적 제한을 부과하므로 오해를 부른다고 주장했다. 모델의 파라미터 수와 기능도 논의됐고, 일부 사용자는 128B dense 아키텍처가 암시하는 상당한 컴퓨팅 자원을 지적했다.
Qwen 3.6 27B BF16 vs Q4_K_M vs Q8_0 GGUF evaluation (Activity: 995): 이미지는 Neo AI Engineer와 llama-cpp-python을 사용해 Qwen 3.6 27B 모델의 세 가지 양자화 변형 BF16, Q4_K_M, Q8_0 GGUF를 비교한 벤치마크를 제공한다. 벤치마크에는 코드 생성용 HumanEval, 상식 추론용 HellaSwag, 함수 호출용 BFCL이 포함됐다. Q4_K_M 변형은 BF16보다 처리량이 1.45배 빠르고, 피크 RAM 사용량이 48% 낮으며, 모델 크기가 68.8% 작으면서도 거의 동일한 함수 호출 점수를 유지해 실용적 성능이 두드러졌다. 반면 Q8_0은 HumanEval 점수가 약간 더 좋았지만 RAM과 속도 측면에서는 Q4_K_M보다 덜 효율적이었다. 평가 구성은 llama-cpp-python을 통한 GGUF, 컨텍스트 크기 32768, 체크포인트 기반 평가 실행을 포함했다. 댓글 작성자들은 양자화 변형 간 상세 비교를 높이 평가하는 한편, 오차 막대 부재와 잠재적 샘플링 오류를 지적하며 결과 정확성에 의문을 제기했다.
Qwen Introduced FlashQLA (Activity: 407): FlashQLA는 개인 기기의 에이전트형 AI를 위해 설계된 새 고성능 선형 어텐션 커널로, 2–3× forward 속도 향상과 2× backward 속도 향상을 제공한다. TileLang 기반이며, 게이트 기반 자동 카드 내 컨텍스트 병렬화(CP), 하드웨어 친화적 대수 재구성, TileLang 융합 워프 특화 커널을 특징으로 한다. 이 접근은 GDN 흐름을 CP와 backward 효율성에 최적화된 두 커널로 나누며, 큰 배치 크기에서는 추가 메모리 I/O 오버헤드가 있지만 엣지 기기와 장문맥 워크로드에서 실제 성능을 높인다. backward pass는 16단계 워프 특화 파이프라인으로 특히 최적화되어 2×+ 커널 수준 속도 향상을 달성했다. 자세한 내용은 blog와 code repository에서 볼 수 있다. 댓글에서는 H100 같은 고급 하드웨어에 적합하다는 의견과 일반 구성에서의 forward/backward 벤치마크 결과에 대한 관심이 있었다.
What it feels like to have to have Qwen 3.6 or Gemma 4 running locally (Activity: 766): 이미지는 Qwen 3.6이나 Gemma 4 같은 고급 AI 모델을 로컬에서 실행할 때의 권능감과 역량을 유머러스하게 표현한 밈이다. 게시물은 전문적 시나리오에서 이 모델들의 실용적 적용을 논의하며, 전통적으로 인간 전문가가 필요했던 작업을 효율적이고 전문가 수준으로 수행할 수 있음을 강조한다. 이미지는 이런 강력한 모델을 손에 넣는 것이 “내 손바닥 안의 태양의 힘” 같은 거대한 힘을 쥐는 것과 같다고 은유한다. 댓글은 번역과 창작 글쓰기에서 Gemma 4의 효과, 게임 개발에서 Qwen 3.6의 강점을 강조했다. 또 Granites와 Nemotrons 같은 작업 특화 미세조정(fine-tuning) 모델이 더 낮은 비용으로 더 효율적인 성능을 낼 수 있다는 의견도 있었다.
I’m done with using local LLMs for coding (Activity: 2387): 사용자는 OS/Docker 환경의 코딩 작업에서 Qwen 27B, Gemma 4 31B 같은 로컬 LLM을 Claude Code와 비교했다. 로컬 모델은 의사결정과 도구 호출 능력이 부족해 GitHub 저장소 Docker화 같은 작업을 효율적으로 수행하지 못하는 경우가 많았다. 사용자는 로컬 LLM이 docker build 같은 명령의 과도한 출력을 읽어 250k input tokens로 세션이 망가지는 문제를 언급했다. 프롬프트 캐시 실패로 긴 일시정지가 자주 발생하는 성능 문제도 있었다. 사용자는 로컬 모델이 자동화와 텍스트 기반 작업에는 여전히 유용하지만, 코딩 작업에서는 OpenRouter와 Kimi 같은 클라우드 모델에 비해 생산성 손실을 감수할 가치가 없다고 결론 내렸다. 댓글에서는 Unsloth’s guide 같은 설정 최적화의 중요성과 RTX 5090, Qwen3.6 35B/27B, OpenCode TUI, oh-my-opencode harness를 포함한 지원 기술 스택의 중요성이 언급됐다.
16x DGX Sparks - What should I run? (Activity: 1621): 이미지는 16대의 NVIDIA DGX Spark 유닛으로 구성된 홈랩을 보여주며, 대규모 DGX Spark Cluster로 구성하려는 의도가 담겨 있다. 구성에는 200Gbps FS 스위치와 QSFP56 DAC 케이블이 포함돼 고성능 컴퓨팅 환경을 시사한다. 사용자는 2TB 통합 메모리를 갖춘 강력한 클러스터에서 어떤 애플리케이션이나 워크로드를 실행할지 조언을 구했다. 커뮤니티 제안에는 vLLM으로 Kimi K2.6 실행, eugr의 nightly build 활용, Deepseek V4용 vLLM 미병합 PR 고려 등이 포함됐다. 이 구성은 높은 prefill 수치를 낼 것으로 예상되지만 토큰 생성 속도는 초당 20토큰으로 제한될 수 있다. 한 댓글은 DGX Spark를 팔고 대신 H100을 사라고 제안했다.

Less Technical AI Subreddits

The final nail in the coffin for entry level creative freelancers just dropped (Activity: 708): Anthropic은 Claude가 Python API를 통해 Blender를 제어할 수 있게 하는 Blender MCP connector를 공개했다. 이 통합으로 사용자는 자연어 명령을 사용해 3D 장면을 만들고 수정할 수 있으며, Blender 안의 “copilot”처럼 작동한다. 도구는 노드 설정 디버깅, 일괄 변경, 커스텀 도구 추가 같은 작업을 처리할 수 있어 제품 렌더링과 로우폴리 에셋 제작 같은 작업에서 엔트리급 프리랜서 필요성을 줄일 수 있다. 더 넓은 창작 파이프라인도 Claude와 연결 도구를 가진 한 명의 사용자가 스크립트 작성부터 최종 편집까지 관리할 수 있게 된다. 일부 댓글은 자동화가 양을 늘릴 수는 있어도 품질을 보장하지 않는다고 지적하며 결과 품질에 회의적이었다.
Claude now connects to Blender (Activity: 605): Anthropic의 AI 모델 Claude가 새 connector를 통해 Blender와 통합되어, 사용자가 Claude에서 직접 장면을 디버깅하고 도구를 만들며 변경사항을 일괄 적용할 수 있게 됐다. 이 통합은 Blender의 Python API를 활용해 지오메트리와 머티리얼 생성 같은 고급 작업을 가능하게 한다. connector는 Claude 데스크톱 앱의 Connectors Directory에서 추가할 수 있어 창작 전문가의 워크플로 효율성을 높인다. Blender는 최근 Anthropic이 최소 $280k를 기여하는 corporate patron으로 Development Fund에 합류했다고 발표했다. 댓글은 이 통합이 복잡한 장면 관리를 위한 Blender 사용자 경험을 크게 개선한다고 봤으며, Blender Python API의 방대한 기능 때문에 토큰 사용량이 클 수 있다는 추측도 있었다.
Talkie, a 13B LM trained exclusively on pre-1931 data (Activity: 3160): Talkie는 연구자 Nick Levine, David Duvenaud, Alec Radford가 개발한 13B 파라미터 언어 모델로, 1931년 이전 텍스트에서 나온 260B 토큰만으로 훈련됐다. 이 모델은 오래된 책, 신문, 과학 저널 같은 자료를 사용해 현대 데이터 없이 LLM이 지식을 어떻게 일반화하는지 조사하려 한다. 역사적 훈련 데이터에도 불구하고 Talkie는 언어와 수리 과제에서 유망한 결과를 보였고, 간단한 Python 학습의 초기 능력까지 보여 AI의 일반화 능력 이해에 기여할 가능성을 시사했다. 자세한 내용은 original article에서 볼 수 있다. 댓글 작성자들은 모델 출력의 시대적 진정성을 높이 평가했고, AI 일반화를 이해하려는 혁신적 접근에 열광했다.
Talkie: a 13B LLM trained only on pre-1931 text used Claude Sonnet to help test the model and judge its output (Activity: 1271): Talkie는 Alec Radford를 포함한 연구자들이 개발한 13B 파라미터 언어 모델로, 1931년 이전 텍스트만으로 훈련되어 현대 인터넷 영향에서 사실상 분리됐다. 이 모델은 현대 웹 이전의 독특한 데이터셋을 사용해 언어 모델의 암기와 일반화 균형을 탐구하려 한다. 특히 Claude Sonnet 4.6이 강화학습 파이프라인에 사용됐고, Claude Opus 4.6이 미세조정용 합성 대화를 생성해, 역사적 훈련 데이터에도 불구하고 현대 LLM에 의존하는 아이러니를 보여준다. 놀랍게도 Talkie는 문맥 내 예시에서 Python 코드를 생성할 수 있으며, 현대 프로그래밍 지식이 아니라 19세기 수학을 활용한다. 이 모델은 장기 예측, 발명, LLM 정체성 연구에 사용되고 있으며, 향후 더 큰 GPT-3 규모 빈티지 모델 계획도 있다. 두 모델 모두 Apache 2.0 licensed이며 Hugging Face에서 제공된다. 댓글은 Talkie가 미래 발명을 예측하는 능력과 Great War 같은 사건에 대한 역사적 관점에 흥미를 보였다.
DeepSeek V3.2 vs DeepSeek V4 (Activity: 167): 이미지는 OpenRouter의 리더보드를 보여주며, 언어 모델 사용 통계에서 DeepSeek V3.2가 DeepSeek V4 Flash보다 훨씬 높은 순위에 있음을 강조한다. DeepSeek V3.2는 1.21 trillion tokens를 처리했고 6% increase를 보였으며, DeepSeek V4 Flash는 317 billion tokens 수준이다. 이는 최신 버전 DeepSeek V4가 이용 가능함에도 사용자가 구버전을 선호한다는 점을 시사하며, Fireworks.ai의 언급처럼 비용 고려나 출시 초기 성능 문제 때문일 수 있다. 댓글은 DeepSeek V4가 1M context window 같은 고급 기능을 제공하지만 초기 문제가 있었고, 사용자가 전환에 조심스럽다고 지적했다. 일부 사용자는 초기 문제에도 DeepSeek V4가 state-of-the-art (SOTA)이며 GLM 5.1 같은 모델보다 복잡한 문제 해결에 뛰어나다고 평가했다.
$1.74 vs $5.00: DeepSeek-V4-Pro just made GPT-5.5 look like a luxury tax (Activity: 167): DeepSeek-V4-Pro는 1M input tokens당 $1.74라는 매우 경쟁력 있는 가격 모델을 제공해, 둘 다 1M input tokens당 $5.00인 GPT-5.5와 Claude Opus 4.7을 크게 낮춘다. V4-Pro 모델은 1.6 trillion parameters와 1M context window를 갖췄고 SWE-bench에서 80%+를 달성해 OpenAI 제품의 비용 효율성에 도전한다. 이 가격과 성능 조합은 모델 능력을 희생하지 않고 비용 효율성을 원하는 개발자에게 V4-Pro를 매력적인 대안으로 만든다. 댓글은 캐시 토큰 덕분에 컨텍스트 사용이 거의 무료이고 출력 토큰도 더 싸다며 DeepSeek-V4-Pro의 비용 효율성을 강조했다.

AI Discord Recap

AI Discords

Discord 접근 중단: 안타깝게도 Discord가 오늘 접근을 차단했다. 이 형식으로는 다시 가져오지 않겠지만, 곧 새 AINews를 출시할 예정이다. 여기까지 읽어줘서 고맙고, 좋은 여정이었다.

오늘의 요약