오늘의 요약

  • Microsoft가 7개 MAI 모델을 공개
  • MAI-Thinking-1 109쪽 보고서 공개
  • OpenAI가 Sites in Codex를 출시
  • Holo 3.1 로컬 모델 패밀리 공개
  • Harvey와 LangChain 검증 비용 절감

Microsoft, Build에서 7개 MAI 모델 공개

2026년 6월 2일 화요일
#Microsoft#MAI#Build#Codex#LocalAI

헤드라인: Microsoft, Build에서 7개 MAI 모델 공개

참고 링크: 544 Twitters, AINews’ website, AINews is now a section of Latent Space, opt in/out

Microsoft는 Build에서 추론(reasoning), 코드, 이미지, 음성 전사, 보이스를 아우르는 MAI 모델 패밀리를 공개하며, AI 플랫폼 기업이자 자체 프런티어 모델 연구소라는 위치를 동시에 강조했다. 특히 MAI-Thinking-1은 35B 활성 파라미터 MoE, 256K 컨텍스트, 무서드파티 증류(distillation) 없는 깨끗한 데이터 계보, 109쪽 기술 보고서로 연구자들의 주목을 받았다.


AI Twitter Recap

Top Story: Microsoft Build 요약과 새 MAI 모델 기술 세부사항

일어난 일

Microsoft는 Build를 통해 자신을 AI 플랫폼 기업이자 프런티어 모델 연구소로 포지셔닝했다. 광범위한 제품 출시와 함께 새 MAI 모델 패밀리에 대한 이례적으로 상세한 공개를 결합했다.

  • Microsoft AI는 추론(reasoning), 코드, 이미지, 음성 전사, 보이스에 걸친 7개의 새 MAI 모델을 발표했다. 주요 모델은 MAI-Thinking-1, MAI-Code-1-Flash, MAI-Image-2.5, MAI-Transcribe-1.5, MAI-Voice-2이며, 이는 @MicrosoftAI@mustafasuleyman에 따른 것이다.
  • 플래그십 추론 모델 MAI-Thinking-1은 Microsoft의 첫 추론 모델로 소개됐다. 깨끗한 데이터 계보서드파티 모델로부터의 증류(distillation) 0건을 강조했으며, 관련 게시물은 @mustafasuleyman, @baseten, @tuhinone, @HannaHajishirzi에서 나왔다.
  • Microsoft는 MAI-Thinking-1에 대한 109쪽 기술 보고서를 공개했다. 기술 독자들은 투명성 수준에 강하게 긍정적으로 반응했으며, 관련 반응은 @eliebakouch, @ethanCaballero, @nrehiew_, @yacinelearning, @stochasticchasm에서 나왔다.
  • Microsoft는 로컬 AI와 에이전트 네이티브 Windows도 강조했다. Build 메시지는 에이전트를 위한 보안 실행 계층, 새 Surface RTX Spark Dev Box, 더 넓은 Windows GPU 설치 기반에 대한 Windows AI 접근, Project Solara/Scout 같은 콘셉트 하드웨어를 부각했으며, @yusuf_i_mehdi, @TheTuringPost, @kimmonismus, @kimmonismus이 이를 요약했다.
  • Build에는 “에이전트 네이티브 소프트웨어 개발의 데스크톱 홈”으로 내세운 주요 GitHub Copilot 앱 발표도 포함됐다. 캔버스, 기기 간 연속성, 더 긴밀한 GitHub 에이전트 워크플로가 포함됐으며, @pierceboggan, @lukehoban, @techgirl1908의 반응에서 확인됐다.
  • Microsoft는 AI 에이전트를 위한 새로운 그라운딩/검색 API 스택인 Web IQ를 소개했다. 이 API들이 Copilot과 ChatGPT를 포함해 “오늘날 업계의 거의 모든 AI 에이전트와 챗봇”을 이미 구동한다고 @JordiRib1를 통해 주장했다.
  • Satya Nadella는 Build를 단일 제품 출시가 아니라 생태계의 순간으로 설명했고, Mustafa Suleyman은 이를 Microsoft 내부 “힐 클라이밍 머신”의 산출물로 설명했다. 관련 게시물은 @satyanadella, @mustafasuleyman, @nrehiew_의 반응이다.

MAI 모델 패밀리: 공개된 사실과 기술 세부사항

MAI-Thinking-1

  • Microsoft는 MAI-Thinking-135B 활성 파라미터 MoE이자 256K 컨텍스트 창을 가진 모델로 설명했다. 이는 @mustafasuleyman에 따른 것이다.
  • @scaling01의 별도 요약은 이 모델을 1T@35B 파라미터 모델, 30T 토큰 사전학습(pre-training), 8192 GB200 GPU로 학습한 모델이라고 설명했다. 이는 Microsoft 마케팅 문구라기보다 기술 보고서를 읽은 내용으로 보인다.
  • @kimmonismus도 이를 45B 활성 파라미터의 중형 MoE로 요약했지만, 이는 Mustafa가 직접 제시한 35B 활성 수치와 충돌한다. 트윗 묶음에서 더 권위 있는 수치는 공식 35B 활성 수치다.
  • Microsoft는 AIME 2025 97%, **SWE-Bench Pro 53%**를 주장했으며, Surge의 블라인드 인간 평가자들이 전반적으로 Sonnet 4.6보다 이를 선호했다고 밝혔다. 출처는 @mustafasuleyman@asadovsky다.
  • Microsoft는 이 모델이 MAIA 200에 최적화돼 있으며, MAI 모델을 엔드투엔드로 실행할 때 GB200 대비 달러당 성능 30% 향상, 와트당 성능 1.4배 향상을 제공한다고 밝혔다. 이는 @mustafasuleyman에 따른 것이다.
  • Microsoft와 파트너들은 서드파티 증류 없음, “깨끗한 데이터 계보”, Baseten을 통한 “100% eyes-off” 사후학습(post-training) 데이터와 기업 통제 미세조정(fine-tuning)을 반복해서 강조했다. 관련 출처는 @baseten, @tuhinone, @MicrosoftAI다.

MAI-Code-1-Flash

  • Microsoft는 VS CodeGitHub Copilot CLI를 위한 빠른 코딩 모델로 MAI-Code-1-Flash를 소개했다. 처음 발표한 이는 @pierceboggan이며, 이후 @mariorod1이 이를 부각했다.
  • @mustafasuleyman를 통한 공식 Microsoft 메시지에 따르면 Code-1-Flash는 단 5B 파라미터로 SWE-Bench Pro 51%를 달성했으며, Haiku급 크기/비용대에 가까운 모델로 포지셔닝됐다.
  • @scaling01의 경쟁 요약은 이를 137B 파라미터 MoE, 256K 컨텍스트, 10T+ 토큰 학습 모델이며 “Claude 4.5 Haiku보다 강하고 효율적”이라고 설명했다. 이는 전체 파라미터가 아니라 5B 활성 파라미터를 뜻할 가능성이 크다. 트윗들은 이 구분을 완전히 조율하지는 않지만, 함께 보면 훨씬 큰 MoE 안의 작은 활성 풋프린트를 암시한다.
  • 출시 시점의 가용성은 GitHub Copilot / VS Code 우선으로 강조됐다. 출처는 @scaling01@mariorod1다.

MAI-Image-2.5

  • Microsoft는 MAI-Image-2.5Flash 변형을 출시했으며, 두 모델 모두 리더보드 #2에 올랐다고 주장했다. @mustafasuleyman는 이미지 편집에서 이들이 Nano Banana 2를 넘어선다고 말했다.
  • 독립 리더보드 계정들도 높은 순위를 뒷받침했다. @arenaImage Edit Arena #2, 점수 1401, Nano Banana 2, Grok Imagine, ChatGPT Image Latest HF보다 +10점을 기록했다고 전했다.
  • @arena는 또한 MAI-Image-2.5가 “파레토 프런티어를 진전시킨다”고 말했다. 이는 해당 가격대에서 그 벤치마크 점수가 더 높은 모델이 없다는 뜻이다.
  • 배포 파트너들도 빠르게 뒤따랐다. 여기에는 @OpenRouter@fal이 포함된다.

MAI-Transcribe-1.5

  • @ArtificialAnlysMAI-Transcribe-1.5를 STT 프런티어에서 이례적으로 강한 속도/정확도 지점으로 보고했다. 수치는 실시간 대비 약 276배, AA-WER 2.4%, 리더보드 전체 #3다.
  • 이 모델은 영어, 프랑스어, 아랍어, 일본어, 중국어를 포함한 43개 언어를 지원하며, 이름이나 의학 용어 같은 희귀 용어를 위한 키워드 바이어싱도 지원한다. 이는 @ArtificialAnlys에 따른 것이다.
  • 가격은 Microsoft Foundry를 통해 오디오 1,000분당 $6로 보고됐다. 출처는 @ArtificialAnlys다.
  • OpenRouter도 같은 날 라이브로 가져온 세 MAI 출시 모델 중 하나로 이 모델을 열거했다. 출처는 @OpenRouter다.

MAI-Voice-2

  • MAI-Voice-2는 Microsoft의 “7개 모델” 묶음과 @OpenRouter의 가용성 게시물에 등장한다.
  • 트윗 묶음에는 Voice-2 자체에 대해 출시/가용성 외의 기술 세부사항은 거의 없다.

연구자들에게 중요했던 기술 보고서 세부사항

보고서가 두드러진 이유

  • 지배적인 기술 반응은 Microsoft가 이례적으로 상세한 프런티어 모델 보고서를 공개했다는 것이었다. @eliebakouch는 이를 “이 규모 모델로는 가장 투명한 보고서 중 하나”라고 불렀고, @nrehiew_는 “오늘날 LLM 학습을 위한 업데이트된 교과서 역할을 할 수 있다”고 했으며, @stochasticchasm는 “금광”이라고 불렀다.
  • 여러 독자는 보고서가 파이프라인 세부사항, 스케일링 래더 방법론, 데이터 큐레이션, 인프라 지표, MFU 수치를 공개했다는 점을 강조했다. @ethanCaballero, @eliebakouch, @nrehiew_의 찬사는 이 구체성에서 비롯됐다.

사전학습과 데이터

  • 논평 전반에서 반복된 주요 기술 주장은 MAI-Thinking-1이 사후학습뿐 아니라 공개된 파이프라인 전반에서 합성 데이터 없음증류 없음을 사용했다는 것이다. 출처는 @eliebakouch, @stochasticchasm, @HannaHajishirzi다.
  • @eliebakouch는 보고서가 Common Crawl과 사유 소스의 데이터를 명시하고, 도메인별 타깃 서브파이프라인, 대규모 추출/중복 제거 작업, 합성 데이터 없음이라는 의도적 선택을 언급한다고 말했다.
  • 스케일링 결정을 위해 쓰인 보고서 내부의 비공개 NLL 세트@eliebakouch에 의해 다음처럼 요약됐다:
    • 코드 50%
    • STEM 17.5%
    • 수학 17.5%
    • 일반 지식 10%
    • 다국어 5%
  • @eliebakouch는 스케일링 래더에서 아키텍처 승격이 Efficiency Gain (EG) 지표에 기반했다고 말했다. 이는 후보 모델의 손실에 맞추기 위해 기준 모델이 얼마나 많은 추가 컴퓨트를 필요로 하는지를 보는 지표다.
  • 같은 스레드는 대략 파라미터당 100/200 토큰에서의 어블레이션을 언급했으며, 이를 해당 설정에서 “Chinchilla 최적”에 가깝다고 설명했다. 다만 MoE 구조 때문에 dense 모델 휴리스틱과 다르다고 @eliebakouch에서 덧붙였다.

사후학습 / RL

  • 가장 많이 논의된 기술 선택은 Microsoft가 이전 추론 노출이 없는 체크포인트에서 RL을 시작한 것으로 보인다는 점이었다. 여러 독자가 이를 주목했다. @stochasticchasm는 이를 “매우 흥미로운 결정”이라고 했고, @stochasticchasm는 **AIME25 <20%에서 >95%**로 점프한 그래프에 반응했다.
  • @HannaHajishirzi는 “처음부터 클라이밍” 레시피를 단순한 레시피, 엄격한 과학, 자기증류(self-distillation), 인내, 훌륭한 인프라로 설명했다.
  • @soldni는 이 과정을 “거물들이 하듯 증류 없이 클라이밍”이라고 특징지었다.
  • 일부 독립 독자는 Microsoft가 여기서 의도적으로 피했더라도, 더 넓은 분야에서 합성 데이터는 에이전트 성능에 여전히 매우 가치 있다고 보고서에서 추론했다. 예시는 @stochasticchasm다.

데이터 큐레이션 / 심판 모델 / DSPy GEPA

  • DSPy/late-interaction 쪽의 상당한 관심을 받은 세부사항은 Microsoft가 사전학습 데이터 큐레이션과 품질 점수화에 GEPA / DSPy 최적화 LLM 심판 모델을 사용한 것으로 알려졌다는 점이다.
  • 이는 @bj2rn, @LakshyAAAgrawal, @lateinteraction이 강조했다.

인프라 / 활용률 / 하드웨어 공동 설계

  • Microsoft는 반복 단계별 정확한 MFU를 공개한 것으로 알려졌다. 여러 독자는 이 규모에서 거의 공유되지 않는 정보라고 말했다. 이는 @eliebakouch에 따른 것이다.
  • @scaling01는 학습 실행이 8192 GB200 GPU를 사용했다고 요약했다.
  • @eliebakouch는 보고된 와트당 처리량 약 40% 향상류의 수치를 “꽤 인상적이며 Microsoft 칩에 강세”라고 짚었다. 다만 이는 랙 수준 예산이나 서빙 설정을 가리킬 수 있으며 트윗 안에서 완전히 풀어 설명되지는 않았다.
  • Microsoft의 공식 프레이밍은 모델 설계를 MAIA 200 커스텀 실리콘과 연결하고, NVIDIA GB200 대비 더 나은 달러당 성능와트당 성능을 강조했다. 출처는 @mustafasuleyman다.
  • Build의 더 넓은 Windows/로컬 AI 내러티브도 다음과 같은 하드웨어 구체사항을 중심에 뒀다:
    • DGX Station에서 로컬로 실행되는 1조 파라미터
    • 128GB 통합 메모리
    • 110 TOPS AI 성능
    • 20개 CPU 코어
    • 70개 이상 PowerToys 유틸리티 출처는 @TheTuringPost다.
  • 반응들은 대형 모델의 로컬 실행도 지적했다. 예를 들어 @kimmonismusRTX Spark가 120B 파라미터 모델을 로컬로 실행한다고 언급했다.

모델 외 Build 제품/플랫폼 요약

GitHub Copilot 앱과 에이전트 네이티브 개발

  • GitHub는 GitHub Copilot 앱을 공개했다. @pierceboggan는 이를 에이전트 네이티브 소프트웨어 개발을 위한 데스크톱 표면으로 제시했다.
  • 핵심 주제에는 다음이 포함됐다:
    • 사용자와 에이전트 간 양방향 작업을 위한 캔버스, 출처 @Techmeme
    • CLI, 모바일, 웹, 로컬, 클라우드 전반의 연속성, 출처 @lukehoban
    • 에이전트 워크플로의 중심으로서 GitHub의 역할 확대. 이는 @techgirl1908@OrenMe에 반영됐다.
  • Copilot CLI도 탭, 내장 피드백/러버덕, 프롬프트 예약, 음성 입력을 갖춘 실험적 터미널 UI를 받았다. 출처는 @GHchangelog다.

에이전트 런타임으로서 Windows

  • Microsoft의 Windows 조직은 Build를 “더 빠른 개발자 실행, 에이전트를 위한 보안 실행 계층, 기기에서 로컬로 실행되는 무제한 지능”을 중심으로 설명했다. 출처는 @yusuf_i_mehdi다.
  • 여러 게시물은 Microsoft가 Windows를 단지 Azure가 아니라 에이전트를 위한 신뢰 실행 플랫폼으로 만들고 싶어 한다고 강조했다.
  • @TheTuringPostProject Solara에이전트 우선 기기를 위한 플랫폼으로 설명했으며, 콘셉트에는 다음이 포함됐다:
    • 데스크톱 AI 컴패니언
    • 카메라, 마이크, 센서, 보안 인증을 갖춘 웨어러블 배지
  • @kimmonismus는 이를 에이전트를 제어하기 위한 핸드헬드/데스크톱 기기로 보았고, 사람들이 독립형 OpenAI 하드웨어에 기대했던 것과 비교했다.
  • @kimmonismus는 별도로 Microsoft Scout를 “업무용 상시 개인 에이전트”로 강조했다.

Web IQ와 에이전트 검색

  • @JordiRib1Microsoft Web IQ웹페이지, 뉴스, 이미지, 동영상을 위한 AI 네이티브 그라운딩 API 제품군으로 발표했다.
  • 그의 프레이밍은 중요한 맥락이다. 기존 검색 엔진은 사람을 위해 만들어졌지만, Microsoft는 미래 검색 수요가 에이전트에서 나오며 인간 검색 트래픽보다 잠재적으로 1000배 많은 쿼리가 발생할 수 있다고 본다.
  • 그는 Web IQ가 Bing 스택에서 품질, 지연시간, 토큰 효율성을 위해 재설계됐으며, Copilot과 ChatGPT를 포함한 주요 챗봇을 이미 구동한다고 주장했다.

Foundry와 오픈 모델 배포

  • @jeffboudier는 Satya가 Microsoft Foundry에서 이용 가능한 모델이 11,000개 이상이며, 그중 10,928개가 Hugging Face에서 온다고 말했다고 전했다.
  • 이는 Build에서 Microsoft의 병행 정체성을 뒷받침한다. Microsoft는 퍼스트파티 모델 빌더이면서 동시에 대규모 멀티모델 호스팅/배포 플랫폼이다.

데이터센터와 컴퓨트에 관한 Build 메시지

  • 여러 관찰자는 Build에서 데이터센터 확장, 지역사회 반발, AI 인프라가 지역사회 전기 비용을 올리지 않으면서 확장될 수 있다는 Microsoft의 주장이 논의됐다고 언급했다. @kimmonismus@kimmonismus를 보라.
  • @scaling01는 Mustafa가 AI 컴퓨트가 향후 3년간 1000배 성장해, 오늘날 대략 5e27 FLOPs 수준의 프런티어 스케일이 2029년까지 5e30 FLOPs가 될 것이라고 말했다는 점을 강조했다.
  • @mustafasuleyman는 회사의 철학적 주제를 **“Humanist superintelligence”**로 요약했다.

사실과 의견

트윗 묶음의 사실 주장

  • Microsoft는 Build에서 7개의 새 MAI 모델을 출시했다: @MicrosoftAI
  • MAI-Thinking-1의 공식 지표는 35B 활성 MoE, 256K 컨텍스트, AIME 2025 97%, SWE-Bench Pro 53%, Sonnet 4.6 대비 블라인드 인간 선호다: @mustafasuleyman
  • MAI-Code-1-Flash의 공식 지표는 트윗 문구상 SWE-Bench Pro 51%, 5B 파라미터다: @mustafasuleyman
  • MAI-Image-2.5 순위 주장은 @arena가 독립적으로 되풀이했다.
  • MAI-Transcribe-1.5 속도/정확도 세부사항은 독립 벤치마크 계정 @ArtificialAnlys에서 나왔다.
  • Microsoft는 109쪽 기술 보고서를 공개했다: @eliebakouch

의견 / 해석

  • @teortaxesTex의 “Microsoft가 이제 진지한 모델을 학습하고 있나?”는 모델/보고서 품질에 대한 해석적 반응이지 독립 사실이 아니다.
  • 보고서가 “가장 투명한 것 중 하나”라거나 “업데이트된 교과서”라는 주장은 @eliebakouch@nrehiew_의 의견이다. 다만 많은 독자가 공유한 의견이기도 하다.
  • @kimmonismus@TheTuringPost는 Build를 클라우드 전용 AI에서 로컬 추론/에이전트로 향하는 전략적 전환으로 프레이밍했다. 이는 공식 표현이라기보다 분석이다.
  • @swyx@scaling01을 포함해 Microsoft가 Anthropic Mythos FLOPs를 “유출”했다는 게시물은 슬라이드에 대한 추측적 해석이며, 이후 같은 논평자 집단에서 반박됐다.

서로 다른 의견과 관점

지지적 견해

  • 기술 독자들은 보고서의 투명성과 Microsoft가 이 규모에서 보통 숨기는 세부사항을 공개하려 한 의지에 대체로 깊은 인상을 받았다: @eliebakouch, @nrehiew_, @ethanCaballero, @stochasticchasm
  • 일부는 MAI-Thinking-1을 Microsoft가 단순한 모델 리셀러나 애플리케이션 계층이 아니라 진정한 프런티어 랩이 되고 있다는 증거로 봤다. 예시는 @teortaxesTex, @echen, @NandoDF다.
  • 엔터프라이즈/플랫폼 지지자들은 특히 Baseten/Microsoft가 소유권과 통제를 중심으로 내세운 깨끗한 데이터 계보, 미세조정 가능성, eyes-off 사후학습 데이터 스토리를 선호했다: @baseten, @tuhinone

중립 / 분석적 견해

  • 여러 게시물은 출시를 응원하기보다 보고서를 읽고 풀어내는 데 집중했다. 특히 @stochasticchasm, @nrehiew_, @eliebakouch가 그랬다.
  • 일부 논평자는 벤치마크 해석에 신중했다. @kimmonismus는 Microsoft가 일반적으로 Sonnet 4.6과 비교한 것으로 보이며, Opus급 비교 가능성은 SWE Pro에만 해당한다고 지적했다.
  • @iScienceLuvr는 코딩/수학뿐 아니라 HealthBench Professional, MedXpertQA 같은 헬스 벤치마크 보고를 특히 높이 평가했다.

회의적 / 반대 견해

  • 일부는 특히 활성 파라미터와 외부 모델 비교를 둘러싸고 모든 수치와 비교가 올바르게 해석되고 있는지 의문을 제기했다.
  • 가장 눈에 띈 회의론은 명백한 **Mythos FLOP “유출”**에 관한 것이었다. @iScienceLuvr는 이것이 아마 유출이 아니라 추정치일 것이라고 제안했다. @scaling01는 이후 원래의 6.1e27 FLOP 수치가 비현실적이라고 주장하며 더 낮은 대안 추정치를 제시했고, @scaling01에서 정정을 게시했다.
  • zero synth / zero distillation이 최고의 에이전트 성능을 위한 장기 레시피가 맞는지에 대해서도 분야 내 암묵적 회의가 있었다. 예컨대 @stochasticchasm처럼 다른 곳에서 합성 데이터 차이를 강조하는 독자들이 이를 언급했다.

맥락: 왜 중요한가

  • Build 발표가 중요한 이유는 Microsoft가 더 이상 다음 역할만으로 만족하지 않음을 시사하기 때문이다:
    • Azure/OpenAI의 클라우드 호스트
    • GitHub의 개발자 표면
    • Copilot의 애플리케이션 셸 Microsoft는 자체 모델 패밀리, 실리콘 스택, 사후학습 플랫폼을 가진 퍼스트파티 프런티어 모델 개발자가 되려 한다.
  • 깨끗한 계보 / 무증류 강조는 전략적으로 중요하다. 이는 IP 출처, 향후 통제 가능성, 외부 연구소 의존성에 관한 엔터프라이즈 우려를 다룬다.
  • 로컬 AI 강조도 중요하다. Microsoft가 AI 전략을 Azure뿐 아니라 Windows와 기기 배포에 묶고 있기 때문이다. Build 메시지는 추론 모델, 플래너, 에이전트가 점점 클라우드뿐 아니라 온디바이스에서도 실행될 수 있다는 생각을 반복해서 밀었다: @TheTuringPost, @yusuf_i_mehdi
  • 109쪽 보고서가 중요한 이유는 프런티어 모델 투명성이 일반적으로 줄어들고 있기 때문이다. 특히 데이터, 인프라, 학습 방법론 주변에서 그렇다. 여러 연구자는 이 규모에서 공개 수준이 흔치 않다고 명시적으로 언급했다: @eliebakouch, @nrehiew_
  • Build 요약은 Microsoft가 스택의 모든 계층을 통합하려 한다는 점도 보여줬다:
    • 모델: MAI 패밀리
    • : MAIA 200
    • 클라우드: Azure + Foundry
    • OS: Windows 에이전트 런타임
    • 개발자 UX: Copilot 앱 / VS Code / CLI
    • 검색/그라운딩: Web IQ
    • 하드웨어 폼팩터: Solara / Scout 콘셉트
  • 이 조합 때문에 여러 관찰자는 이 행사를 일반 개발자 콘퍼런스라기보다 클라우드, 엣지, OS, 커스텀 모델을 아우르는 에이전트 플랫폼을 향한 조율된 움직임으로 묘사했다. 예시는 @satyanadella, @mustafasuleyman, @TheTuringPost다.

“Mythos FLOPs 유출” 미니 스토리

  • Build 중/후 일부 사용자는 Microsoft 슬라이드가 Anthropic의 루머 모델 Claude Mythos 학습 컴퓨트를 실수로 드러냈다고 주장했다. @swyx는 Mustafa가 FLOP 수를 유출했는지 물었다.
  • @scaling01는 픽셀 측정 기반 신뢰구간으로 슬라이드가 6.1e27 FLOPs를 암시한다고 추정했고, @kimmonismus는 이 수치가 대략 Gemini 3.1 Pro급 컴퓨트라고 언급했다.
  • 그 해석은 이후 @iScienceLuvr에 의해 도전받았다. 그는 이것이 아마 추정치일 것이라고 주장했다. 이어 @scaling013.37e26에서 1.46e27 FLOPs의 더 낮은 범위 모델 기반 추정치를 올렸고, 나중에 원래 숫자가 bogus였다고 @scaling01에서 말했다.
  • 이 에피소드는 주로 맥락으로 유용하다. Build의 컴퓨트/스케일링 메시지가 매우 상세했기 때문에 사람들이 발표 자료에서 경쟁사 학습 예산을 추론하려 들기 시작했다는 뜻이다.

개발자 도구, 에이전트, 코딩 워크플로

  • OpenAI는 Sites in Codex를 출시했다. 팀이 아이디어/문서/계획을 인증과 동적 데이터를 갖춘 배포된 내부 웹사이트/앱으로 바꿀 수 있게 하는 기능이며, 우선 비즈니스/엔터프라이즈 사용자에게 제공된다. 출처는 @OpenAI, @TheRohanVarma, @gdb다.
  • OpenAI는 또한 영업, 데이터 분석, 크리에이티브 제작, 제품 디자인, 상장 주식 워크플로 전반의 역할별 Codex 플러그인을 확장했다. 62개 앱과 110개 스킬에 접근할 수 있으며, 출처는 @OpenAI@OpenAIDevs다.
  • GitHub의 Copilot 앱과 에이전트 네이티브 소프트웨어 개발을 둘러싼 Microsoft의 Build 푸시는 이날 도구 뉴스의 중심이었다: @pierceboggan, @lukehoban, @GHchangelog
  • Anthropic은 Claude Platform용 CLI를 출시했고, Claude Code의 /fork를 정확한 컨텍스트와 프롬프트 캐시를 가진 백그라운드 에이전트를 실행하도록 업그레이드했다. 출처는 @ClaudeDevs@ClaudeDevs다.
  • Nous는 Hermes 에이전트를 위한 로컬/네이티브 데스크톱 표면인 Hermes Desktop을 출시했다. 출처는 @NousResearch, @Teknium, 이후 Tailscale/Ollama 통합 메모를 남긴 @Teknium@ollama다.
  • Cognition은 Devin Desktop을 출시했다. 로컬/클라우드 에이전트 관리와 로컬 계획에서 클라우드 실행으로의 핸드오프를 위한 에이전트 중립 데스크톱으로 포지셔닝됐다. 출처는 @cognition, @ScottWu46, @russelljkaplan다.

모델, 로컬 추론, 라우팅

  • H Company는 Qwen 스타일 아키텍처 기반의 로컬 컴퓨터 사용 모델 패밀리 Holo 3.1을 출시했다. 체크포인트는 0.8B에서 35B까지이며, 형식은 NVFP4, FP8, Q4 GGUF를 포함한다. 인기 요약은 35B 모델이 **AndroidWorld 79.3%**를 기록했다고 @TeksEdge에서 인용했고, 출시 트윗은 @hcompany_ai에서 나왔다.
  • Perplexity는 Perplexity Computer를 위한 **하이브리드 에이전트 추론(inference)**을 발표했다. 개인정보 보호와 토큰 효율성을 위해 작업을 온디바이스 로컬 모델과 프런티어 클라우드 모델로 나눈다. 출처는 @perplexity_ai@AravSrinivas다.
  • @ttunguz가 공유한 OpenRouter 데이터는 오픈웨이트 모델이 토큰 볼륨의 69.1%, 폐쇄형 모델이 **30.9%**임을 보여줬다.
  • 미래의 핵심 추상화로서 모델 라우팅에 관한 논평은 @ClementDelangue, @garrytan, @matanSF에서 나왔다. 반론은 @glennko에서 제시됐는데, 그는 엔터프라이즈 프로덕션 신뢰성이 일반 라우팅을 열성 사용자들이 생각하는 것보다 어렵게 만든다고 주장했다.
  • 로컬 AI UX 개선도 Hugging Face의 하드웨어 호환성 검사와 oMLX의 네이티브 macOS 앱 출시에서 나타났다. 출처는 @m_newhaus@jundotkim다.

연구와 평가

  • Google DeepMind는 과학을 위한 Gemini 기반 멀티에이전트 가설 생성 시스템 Co-Scientist를 발표했다. 간 섬유증 표적, ALS 접근법, 노화 관련 유전 단서 식별에 도움이 된 협업을 주장했다. 출처는 @GoogleDeepMind, @GoogleDeepMind, @GoogleDeepMind다.
  • 편집 가능한 과학 도표 생성을 위한 새 Crafter / CraftEditor 작업도 관심을 끌었다. 도표 제작과 정제를 위한 5개 에이전트 워크플로와 래스터-SVG 변환을 포함한다. 출처는 @HuggingPapers, @_akhaliq, @TheTuringPost다.
  • Tilde Research는 대각선 forget gate를 갖춘 RoPE-free attention 방식 Wall Attention을 소개했다. 4k에서 학습하고 200k+ 토큰으로 일반화하며 Triton 커널과 강한 디코드 처리량을 주장했다. 출처는 @tilderesearch다.
  • 정적 이미지 사전학습에 의존하지 않고 dynamics-awareness를 인코딩해 **실세계 OOD 성공률 +22.5%**를 주장한 로보틱스 비전 인코더가 @jbhuang0604에 올라왔다.
  • 주목할 새 평가/벤치마크:
    • 정밀 이미지 편집용 PaintBench. 최고 모델도 **17.1%**에 그쳤다. 출처는 @itskaixu다.
    • 비디오 상태 추적용 VSTAT. 프런티어 MLLM들이 변화하는 세계 상태 추적에 여전히 약하다고 주장한다. 출처는 @PinzhiHuang@sainingxie다.
    • 엔터프라이즈 데이터 워크플로를 위한 Data Agent Benchmark. 출처는 @sh_reya다.

추론, 인프라, 에이전트 시스템

  • Harvey와 LangChain은 법률 에이전트를 위한 저렴한 검증기 작업을 공유했다. DeepSeek V4 Flash가 기준별 모드에서 비용을 18배, 배치 모드에서 약 1000배 줄이면서 Opus 4.7과 94-96% 일치율을 유지할 수 있음을 보였다. 3,200개 RL rollout의 경우 검증 비용이 $18,000에서 $18로 줄었다. 출처는 @harvey, @hwchase17, @nikogrupen다.
  • W&B는 Weave를 에이전트 우선 관측성(observability)으로 재출시했다. 공통 harness 전반의 통합과 실패 모드 자동 탐지를 포함한다. 출처는 @wandb@neutralino1다.
  • Prime-RL은 교차 노드 prefix / KV cache 재사용을 위해 Mooncake Store를 vLLM과 통합했다. 에이전트 rollout에 핵심이라고 제시됐다. 출처는 @m_sirovatka다.
  • Together는 MiniMax-M3 서빙 최적화를 상세히 설명했다. KV-block-major sparse attention, paged decode, 최적화된 index scoring, 멀티모달 전처리를 통해 81-125% 처리량 개선을 언급했다. 출처는 @togethercompute다.
  • MiniMax 자체는 1M 컨텍스트, 네이티브 멀티모달리티, 데스크톱 컴퓨터 조작, MSA가 디코드 시간 중 attention 비중을 **약 30%에서 약 5%**로 낮춘다는 점을 강조했다. 출처는 @MiniMax_AI다.

생태계, 하드웨어, 산업 역량

  • Westmag는 미국산 로봇 액추에이터와 드론 모터를 만들기 위해 스텔스에서 나왔다. a16z가 주도하고 Founders Fund, Lux, NFDG, Menlo 등이 참여한 $11M 투자를 유치했다. 출처는 @boxcardavid, @packyM, @oyhsu다.
  • PyTorch는 NVIDIA가 네 개 오픈 모델 패밀리 전반에 허용적 AI 모델 라이선스 프레임워크 OpenMDW-1.1을 채택했다고 언급했다. 출처는 @PyTorch다.
  • Martin Scorsese는 Black Forest Labs와 함께 스토리보딩을 위한 FLUX의 좁은 범위 사전제작 활용을 공개 시연했다. 이는 생성형 대체라기보다 손그림 작업을 보완하는 탐색적 사용으로 설명됐다. 출처는 @robrombach@TheRundownAI다.

AI Reddit Recap

/r/LocalLlama + /r/localLLM

NVIDIA Nemotron 3 Ultra 및 RTX Spark 사양

  • NVIDIA announces Nemotron 3 Ultra (Activity: 669): 이미지는 NVIDIA가 Nemotron 3 Ultra를 발표하는 장면을 보여준다. “Frontier Smart” 벤치마크 표에서 550B 파라미터 오픈웨이트 모델로 제시되며, 에이전트 생산성, 코딩, 지시 따르기, 장문 컨텍스트 작업에서 GLM 5.1, Kimi K2.6, Qwen3.5와 비교된다. 한 댓글은 이것이 아마 MoE 550B-A55 모델일 것이라고 설명했고, 다른 댓글은 보고된 “artificial analysis score”가 48로, “frontier” 바로 아래이자 대략 MiniMax 2.7 범위라고 말했다. 이미지: https://i.redd.it/f79wu6dnml4h1.jpeg. 댓글 작성자들은 NVIDIA가 다른 오픈소스/오픈웨이트 모델과 벤치마크한 점을 긍정적으로 봤지만, 이를 잠재적으로 가장 강한 미국 오픈웨이트 모델로 포지셔닝하는 것 외에 깊은 기술 논쟁은 제한적이었다.

    • 댓글 작성자들은 NVIDIA Nemotron 3 UltraMoE 550B-A55 모델로 식별했다. 이는 전체 파라미터가 대략 550B이고 토큰당 활성 파라미터가 약 55B임을 시사한다. 기술 논의는 dense 프런티어급 출시라기보다 대형 오픈웨이트 mixture-of-experts 모델이라는 포지셔닝에 집중됐다.
    • 벤치마크 중심 댓글은 **Artificial Analysis 점수 48**을 인용했다. 이는 “frontier보다 한 단계 아래”이자 대략 MiniMax 2.7 범위라고 설명됐다. 또 다른 댓글은 NVIDIA가 다른 오픈소스/오픈웨이트 모델과 비교한 점을 언급했다. 공유된 링크에는 NVIDIA의 Nemotron-3-Ultra-Base usage cookbookLifeArchitect models table이 포함됐다.
    • NVIDIA가 Nemotron 3 Ultra를 Qwen3.5와 비교한 것에 회의도 있었다. 한 댓글은 더 강한 비미국 모델이나 더 넓은 프런티어 경쟁자에게는 지더라도 “최고의 open weight 미국 모델”로 보이게 하려고 비교 대상을 선택했을 가능성이 높다고 주장했다. 기술적 결론은 경쟁력 주장이 오픈웨이트, 미국산, 벤치마크 선택이라는 모델 하위집합에 크게 의존할 수 있다는 것이다.
  • RTX Spark does not have 600GB/s Bandwith (Activity: 693): 슬라이드는 NVIDIA의 RTX Spark Superchip600 GB/s 메모리 대역폭을 갖지 않는다는 점을 명확히 한다. 통합 메모리는 **128 GB LPDDR5X, 300 GB/s**로 표기되어 있으며, 600 GB/s는 Blackwell RTX GPU와 Grace CPU 사이의 NVLINK-C2C 대역폭을 가리킨다. 게시물은 600 GB/s를 메모리 대역폭으로 보도한 매체들이 Computex 슬라이드를 오독했다고 주장한다. 이미지에는 6144 CUDA 코어, 1 PFLOP FP4 AI 성능, 20코어 Grace CPU 등의 사양이 나온다. Image 댓글 작성자들은 대체로 제품 포지셔닝에 비판적이었다. 이를 약한 I/O를 가진 비싼 컷다운 칩이라고 불렀고, RTX 5070과의 비교에도 이의를 제기했으며, 한 댓글은 이것이 “3060 Ti보다 아래”라고 주장했다. NVIDIA의 CUDA lock-in에 대한 반복적 불만과 더 하드웨어 중립적인 대안에 대한 바람도 있었다.

    • 한 댓글 작성자는 보고된 600GB/s 대역폭이 미디어/LLM 전파 오류였을 가능성이 높다고 주장했다. GB10/N1/N1X가 열 설계 차이만 있는 동일한 기본 실리콘을 쓰는 것으로 보이기 때문이다. 이들은 패키지를 TSMC CoWoS 위에서 NVLink로 연결된 두 다이로 설명하며, GPU 다이에는 직접 I/O나 메모리 컨트롤러가 없고 CPU 다이가 메모리와 기타 I/O를 처리한다고 말했다.
    • 같은 기술 분석은 다이 가장자리 제약 때문에 더 많은 메모리 채널이 불가능해 보인다고 주장했다. GPU를 향한 CPU 다이 가장자리는 NVLink가 차지하므로 메모리 컨트롤러를 포함한 I/O에는 세 면만 남는다. 각 32-bit 메모리 채널에 필요한 물리적 “shoreline”을 기준으로, 설계가 4개 메모리 채널로 제한된다고 추정했다. 이는 GB10과 일치하며, 유일하게 가능성 있는 변화는 LPDDR 속도가 8533 MT/s에서 9500 MT/s로 오르는 것이라고 봤다.
    • 한 스레드는 NVIDIA 가격과 포지셔닝을 CUDA lock-in 문제로 프레이밍했다. 진짜 경쟁에는 CUDA에서 벗어나 하드웨어 중립 소프트웨어 스택으로 이동하는 것이 필요하다고 주장했다. 댓글 작성자는 LLM 보조 CUDA 의존 코드 포팅이 결국 대체 가속기를 더 쉽게 타깃하게 만들어 NVIDIA의 해자를 줄일 수 있다고 추측했다.

로컬 우선 AI 개인정보 보호와 검열 테스트

  • Minimax M3 appears to have no political censorship (Activity: 689): 이미지(screenshot)는 밈이 아니다. MiniMax M31989년 톈안먼 광장 시위에 관한 정치적으로 민감한 프롬프트에 비교적 검열 없는 요약으로 답하는 모습을 보여준다. 답변에는 계엄령, PLA의 탱크/실탄 사용, 민간인 사망, 국제적 비난, 중국 내 지속적 검열이 포함된다. 게시물은 이를 중국/CCP AI 편향 벤치마크의 예외 사례로 프레이밍한다. 작성자는 다른 MiniMax 모델들이 많은 중국 LLM에서 흔한 검열을 보인다고 말한다. 댓글 작성자들은 MiniMax M3가 싱가포르에서 호스팅되고, 검열 없는 베이스 모델과 외부 안전/콘텐츠 필터를 결합한 Mistral-style 설정을 사용하기 때문에 덜 검열될 수 있다고 추측했다. 다른 이들은 검열이 종종 이분법적 기능이라기보다 지정학적 정렬이라고 주장하며, QwenStepFun 같은 모델의 거부나 친CCP 상투 문구와 이 출력을 대조했다.

    • 여러 댓글 작성자는 Minimax M3의 동작을 Mistral-style moderation architecture일 가능성이 높다고 봤다. 즉 강한 거부 행동이 모델 가중치에 박혀 있다기보다, 검열 없는 base/chat 모델과 외부 안전 또는 콘텐츠 필터를 결합했다는 뜻이다. 한 댓글은 적대적이거나 세심하게 표현된 프롬프트가 안전 튜닝을 자주 우회할 수 있기 때문에, 직접적인 모델 검열은 자원 집약적이고 취약하다고 주장했다.
    • 기술적으로 관련 있는 벤치마크 주의점도 제기됐다. 중국 관련 정치 편향이나 검열 평가는 영어와 중국어 모두에서 실행해야 한다는 것이다. 댓글 작성자들은 응답 차이가 명시적 검열뿐 아니라 학습 데이터 분포를 반영할 수 있으며, 서구 모델도 정치적으로 민감한 주제에서 언어 의존적 행동을 강하게 보일 수 있다고 지적했다.
    • 사용자들은 모델 간 행동을 비교하며, Qwen은 특정 톈안먼 관련 프롬프트에 답변을 거부했고 StepFun은 강한 친중국 정부 부정식 응답을 생성했다고 주장했다. 스레드는 Minimax M3의 겉보기 무검열이 언어 전반에서 일관적인지, 아니면 영어에서만 보이는지 확인하기 위해 중국어로 같은 프롬프트를 테스트할 것을 제안했다.
  • Voice dictation should be free, open source, local first (Activity: 479): FreestylemacOS, Windows, Linux용 무료/오픈소스 음성 받아쓰기 앱의 초기 프리뷰를 출시하고 있다. GitHub 저장소 freestyle-voice/freestyle를 통해 클라우드 ASR로컬/온디바이스 모델을 모두 지원하며, Wispr Flow 같은 유료 도구의 개인정보 보호 우선 대안으로 포지셔닝한다. 유지관리자가 밝힌 기술 목표는 *“sub-second transcription latency”*와 강력한 후처리를 결합해, 모든 음성/오디오를 서버 쪽에 캡처하지 않으면서 프리미엄 UX에 접근하는 것이다. 댓글 작성자들은 기존 OSS 받아쓰기 도구, 특히 후처리 기능도 제공하는 cjpais/Handy와의 중복을 지적했다. 한 댓글은 Freestyle이 노력을 중복하기보다 그쪽에 기여해야 한다고 주장했다. 유지관리자는 기존 OSS 옵션이 유료 앱의 지연시간/UX에 미치지 못했다고 반박했고, 다른 댓글 작성자는 Handy의 더 보이지 않는 메뉴바 전용 상호작용 모델을 선호했다.

    • 한 댓글 작성자는 Handy(GitHub)를 후처리 기능을 가진 기존 오픈소스 받아쓰기 앱으로 지적하며, 중복 개발 대신 기여를 제안했다. 다른 댓글 작성자는 Handy가 지속적인 창 대신 메뉴바 아이콘만 있는 “보이지 않는” 백그라운드 유틸리티로 동작하기 때문에 UX를 선호한다고 말했다.
    • 프로젝트 작성자는 Freestyle의 동기가 성능과 UX 양쪽에서 Wispr Flow 같은 유료 도구를 따라잡는 것이라고 말했다. 구체적으로 sub-second transcription latency와 받아쓴 텍스트를 정리하는 강한 후처리를 목표로 하면서, 전사(transcription)를 개인정보 친화적이고 구독료 없는 방식으로 유지하려 한다.
    • DictaFlow 개발자는 “local-ish” 빠른 받아쓰기에서 핵심 구현 세부사항은 macOS, Windows, iOS 전반에서 전사를 현재 활성 텍스트 필드에 직접 삽입하는 것이라고 주장했다. 클립보드 기반 삽입, 중간 오디오 파일 워크플로, 앱 전환을 피해야 한다는 것이다.

Less Technical Subreddits

대상: /r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo

AI 공공 소유 제안

  • A proposed bill to give the public a 50% ownership stake in the largest AI companies in America. (Activity: 1729): Bernie Sanders 상원의원은 YouTube statement에서 제안된 American AI Sovereign Wealth Fund Act를 발표했다. 목표는 미국 대중에게 미국 최대 AI 기업의 50% 소유 지분을 부여하고, AI에서 파생된 경제적 가치 일부를 국부펀드로 보내는 것이다. 이 제안은 프런티어 AI 기업을 “수조” 달러의 부를 창출할 잠재 주체로 프레이밍하며, 주요 미국 기반 AI 기업들 사이의 소유/통제 집중을 겨냥한다. 댓글 작성자들은 대체로 이 제안을 데이터센터 금지나 AI 배치 저항보다 실용적인 대안으로 보았다. 일부는 AI가 대규모 노동 대체를 일으킨다면 재분배 메커니즘이 필요할 수 있다고 주장했다. 한 지지적 비유는 AI를 석유와 비교하며, 전략적 경제 자원에서 국가적 수익을 포착한 노르웨이의 국부펀드 접근을 모델로 들었다.

  • Bernie Sanders: A.I. Is a Public Resource. You Should Own Half of It. (Activity: 887): 링크된 Bernie Sanders의 NYT 의견 글은 소스가 **403 Forbidden**을 반환했고 기사 본문이 없어 기술적으로 요약할 수 없었다. 제목에 따르면 게시물은 AI를 공공 자원으로 프레이밍하고 대중이 일부 소유해야 한다고 제안한다. 즉 *“You Should Own Half of It”*이다. 그러나 구현 세부사항, 정책 메커니즘, 기술 주장은 접근할 수 없었다. 댓글은 짧고 대체로 지지적이었으며 이를 *“a sane take”*라고 불렀다. 동시에 자원 인프라 반론도 제기했다. AI가 공공재라면, 특히 공공요금 상승과 데이터센터 수요 속에서 왜 물과 전력에는 공공 소유가 이미 적용되지 않느냐는 질문이었다.

    • 한 댓글 작성자는 Sanders의 명시된 전제, 즉 AI 시스템이 인류의 축적 지식으로 학습됐다는 주장과 미국 한정 주권/공공 소유 메커니즘이 맞지 않는다고 주장했다. 이들은 불일치를 다음처럼 프레이밍했다. 도덕적 주장 = 학습 데이터와 지식에 기여한 전 세계 사람들, 법적 수단 = 미국 AI 기업에 대한 미국 세금 또는 지분 청구, 수혜자 = 전 세계 창작자, 연구자, 프로그래머, 언론인, 교육자가 아니라 미국 시민.
    • 상세한 비판은 구현 메커니즘에 초점을 맞췄다. 강제 50% 공공 지분은 AI 기업 가치가 상승하고, 배당이나 매각대금이 실제로 분배되며, 거버넌스가 공정하게 처리될 때만 공공 이익을 낸다는 것이다. 댓글 작성자는 가장 명확한 즉각적 효과가 학습 데이터 기여자에 대한 보장된 보상이 아니라 통제권이라고 강조했다. 즉 의결권 주식, 이사회 의석, 프런티어 AI 연구소에 대한 연방 영향력이다.
    • 또 다른 댓글 작성자는 AI 기반 생산성이 노동시장을 의미 있게 재구조화한다면 공공 서비스나 기본소득을 재원 조달하는 방식으로서 공공 소유를 원칙적으로 지지했다. 하지만 적대적 접근은 혁신을 억누를 수 있다고 경고했다. 이 정책은 CEO나 주주에게 단순히 징벌적으로 추출하는 것이 아니라 AI 연구소와의 공공-민간 파트너십으로 기능해야 한다고 주장했다.

Claude와 Gemini 신뢰성 문제

  • Rate limit reset (Activity: 1291): 이미지는 검증된 ClaudeDevs X 게시물의 스크린샷이다. 일부 Claude Code 세션이 과도한 병렬 subagent를 생성해 할당량을 빠르게 소진하는 버그를 수정한 뒤, 모든 Claude Pro와 Max 사용자의 5시간 및 주간 rate limit을 재설정한다고 발표했다: image. 기술적으로 이 문제는 runaway agent/tool-call orchestration과 관련돼 보인다. 댓글 작성자들은 *“endless tool call loops”*가 Max 플랜 세션 한도를 태웠다고 보고했고, 한 사용자는 “excessive parallel subagents”가 모두 Opus 4.8 인스턴스였다고 농담했다. 댓글은 한도에 걸려 reset을 관대하다고 본 사용자와, 한도에 걸리지 않았지만 Anthropic이 더 명확한 공지 없이 reset이나 운영 변경을 했다고 비판한 사용자로 갈렸다.

    • 한 사용자는 reset이 **“excessive parallel subagents”**와 관련될 수 있음을 나타내는 스크린샷을 공유했다. 작업 부하가 여러 Opus 4.8 인스턴스를 포함했다고 언급했다. 이는 rate-limit 이벤트가 일반 단일 스레드 프롬프팅이 아니라 높은 동시성 에이전트 실행으로 촉발됐을 수 있음을 시사한다.
    • 한 댓글 작성자는 주말 동안 tool-call loopsMax plan의 전체 세션 한도를 두 번 소진했고, 평소 사용량과 다르게 주간 할당량의 70% 이상으로 밀어 올렸다고 보고했다. 이는 runaway agent/tool invocation 행동이 실질적 실패 모드로서 할당량을 빠르게 고갈시킬 수 있음을 보여준다.
    • 또 다른 사용자는 주간 한도의 96%에 있었고 reset은 목요일까지 예정돼 있지 않아 20x 티어로 업그레이드할지 고민 중이었는데, 계정이 갑자기 0%로 돌아갔다고 말했다. reset은 비정상적 에이전트 동작의 영향을 받은 사용자들의 누적 주간 사용량을 사실상 지운 것으로 보인다.
  • WTF HAPPENING TO GEMINI?!!! (Activity: 1203): 이미지(JPEG)는 Gemini Pro가 정상적인 최종 답변만 반환하는 대신, 중간 칼로리/TDEE 계산이 포함된 중국어 라벨 “思维过程” (“thinking process”)를 노출한 것처럼 보이는 장면이다. 제목 “WTF HAPPENING TO GEMINI?!!!”와 selftext 맥락상, 이는 새로고침 후 모델이 코드나 chain-of-thought 스타일 추론을 예기치 않게 생성한, 가능성 높은 Gemini UI/model-output bug 또는 system-prompt leakage 유사 행동을 보고하는 게시물이다. 댓글 작성자들은 농담으로 Gemini가 “using deepseek api”라고 추측했고, 또 다른 사용자는 더 넓은 불안정성을 보고했다. 관련 없는 답변과 태국어/중국어 혼합 출력이 있었다는 것이다. 이는 사용자들이 이를 일회성 결함이 아니라 반복되는 Google/Gemini 신뢰성 문제로 인식함을 시사한다.

    • 여러 사용자는 Gemini가 관련 없는 답변과 예상치 못한 다국어 출력을 생성한다고 보고했다. 여기에는 관련 없는 프롬프트에도 태국어와 중국어가 섞인 응답이 포함됐다. 한 댓글 작성자는 이런 일이 “어제” 반복적으로 발생했다고 말하며, Google의 눈에 띄는 incident/status 커뮤니케이션이나 인정이 없었다고 비판했다.
    • 한 댓글 작성자는 문제가 token decoding / synchronization failure에서 비롯됐을 수 있다고 추측했다. 모델의 내부 숫자 토큰 스트림이 잘못된 Unicode/텍스트 출력으로 매핑되어 무작위 문자나 코드 같은 산출물이 생길 수 있다는 것이다. 이는 확인된 구현 세부사항이 아니라 추측으로 제시됐다.
    • Perplexity와의 비교도 나왔다. 한 사용자는 Perplexity가 때때로 중국어나 러시아어 단어를 설명 없이 삽입한다고 보고했고, underlying model이 명확히 공개되지 않아 디버깅이나 귀속이 어렵다고 언급했다.
  • Gemini Pro feels much worse than when it first released (Activity: 1018): imageGemini Pro가 출시 이후 저하됐다는 게시자의 주장을 보여주는 비기술적 Doge 밈이다. “Gemini at first release”는 코딩, 메모리, 논리, 컨텍스트, 속도, 이미지 생성에서 강한 모습으로, “Gemini these days”는 약하고 잘 잊으며 *“ask again later”*에 빠지는 모습으로 그려졌다. 게시물은 이를 ChatGPT PlusClaude 대비 유료 티어 품질 회귀로 프레이밍하지만, 벤치마크, 모델 버전 비교, 프롬프트 로그, 재현 가능한 테스트는 제공하지 않는다. 코딩, 컨텍스트 처리, 이미지 생성에 관한 주관적 경험만 제시한다. 댓글은 갈렸다. 일부 사용자는 Gemini의 이미지 생성과 간단한 글쓰기 작업도 더 나빠졌다고 동의하며 ChatGPT로 돌아갔다고 말했고, 다른 이들은 이것이 “rose tinted glasses”라고 주장했다. 한 댓글 작성자는 Gemini가 실제로 좋아진 것은 Gemini 2.5 무렵이라고 주장했다.

    • 여러 댓글 작성자는 Gemini Pro 품질 저하를 체감했다고 보고했다. 특히 약해진 image generation과 이메일 형식화 같은 단순 텍스트 작업의 낮은 성능을 언급했다. 한 사용자는 ChatGPT 이미지 생성이 첫 프롬프트부터 “creative agency adjacent outputs”를 만든다며 다시 ChatGPT로 전환했다고 말했다.
    • 기술적 불만은 짧은 컨텍스트 대화 메모리에 집중됐다. 한 사용자는 Gemini가 같은 채팅에서 불과 5-6 메시지 전의 정보를 잊는 경우가 있다고 보고했다. 이는 활성 세션 내 컨텍스트 유지나 지시 추적이 불안정할 수 있음을 시사한다.
    • 한 댓글 작성자는 비교가 모델 버전 역사에 영향을 받을 수 있다고 주장했다. 첫 “really good” Gemini 릴리스는 2025년 중반의 Gemini 2.5였으며, 그 이전 Gemini 버전은 상당히 약했다고 말했다. 또 다른 이는 오래된 AI 시스템이 보통 현재 시스템보다 못하기 때문에 향수를 “rose tinted glasses”로 프레이밍했다.

AI Discord Recap

접근 중단

  • Discord 접근 중단: 안타깝게도 Discord가 오늘 접근을 차단했다. 이 형태로는 다시 가져오지 않겠지만, 새 AINews를 곧 출시할 예정이다. 여기까지 읽어줘서 고맙고, 좋은 여정이었다.