오늘의 요약
- AMI Labs, $1.03B 시드로 출범
- LeCun, JEPA로 세계 모델 전략 강조
- 에이전트=모델+하네스(harness) 확산
- Gemini Embedding 2, 멀티모달 임베딩 공개
- Hugging Face, $8/TB 스토리지 버킷 출시
LeCun, AMI Labs 출범…세계 모델 위해 $1.03B 시드
헤드라인: LeCun, AMI Labs 출범…세계 모델 위해 $1.03B 시드
참고 링크: 544 Twitters https://news.smol.ai/ @smol_ai
무슨 일이 있었나
**Yann LeCun은 “현실 세계에 진짜 지능을 심는다”는 목표의 신규 스타트업 Advanced Machine Intelligence (AMI Labs)를 공식 공개했으며, 이례적으로 큰 $1.03B 시드 라운드(또는 €890M)와 보도 기준 **$3.5B 프리머니(pre-money valuation)가 함께 언급되며 “역대 최대급 시드”이자 “유럽 기업 기준 최대 시드일 가능성”으로 묘사되었습니다. 발표는 LeCun 본인이 “역대 최대급 시드 중 하나를 마쳤고 채용 중”이라고 밝힌 글 @ylecun과, CEO Alex Lebrun이 “현실 세계를 진정으로 이해하는” 시스템을 만들기 위한 “장기 과학적 노력”으로 미션을 프레이밍한 글 @lxbrun에서 직접 나왔습니다. 여러 보도는 핵심 사실로 수렴했는데, AMI의 목표는 언어 예측만을 스케일링(scaling)하는 것보다 ‘세계 모델(world modeling)’이 인간 수준 AI로 가는 길이라는 LeCun의 오랜 견해를 반영해, 물리적 세계를 이해하는 AI 모델을 구축하겠다는 것입니다 @TechCrunch @WIRED @business @Reuters @ZeffMax. 창립 및 시니어 팀에는 LeCun, CEO Alex Lebrun @lxbrun, 공동창업자/CSO Saining Xie @sainingxie, COO Laurent Solly @laurentsolly, 공동창업자 겸 Chief Research & Innovation Officer Pascale Fung @pascalefung 등이 포함되며, 세계 모델·표현 학습(representation learning)·사전학습(pretraining)·스케일링·비디오에 집중할 저명한 창립 연구자들이 대거 합류했습니다 @sanghyunwoo1219 @jihanyang13 @duchao0726 @zhouxy2017 @jingli9111.
사실 vs. 의견
트윗과 보도에서 공통으로 보고된 사실
- 자금 규모: $1.03B 시드 / €890M @ylecun @lxbrun @laurentsolly.
- 밸류에이션: 코멘터리/뉴스 요약에서 $3.5B 프리머니가 보고됨 @iScienceLuvr @ZeffMax.
- 회사의 테제(thesis): 언어만이 아니라 물리/현실 세계를 이해하는 AI 모델 구축 @TechCrunch @WIRED @Reuters.
- LeCun의 포지셔닝: “세계 모델”은 수년간의 공개적 테제이며, AMI는 이를 스타트업 스케일로 검증하는 수단 @ZeffMax @WIRED.
- AMI 리더들의 공식 문구: “현실 세계에 진짜 지능,” “인간 중심,” “지각(perceives)·학습(learns)·추론(reasons)·행동(acts)” @Brian_Bo_Li @pascalefung.
- 채용/거점: Pascale Fung이 파리를 명시 @pascalefung; 관측자들은 취리히도 언급 @giffmana.
- 유럽/프랑스 관점: 프랑스 미디어·정치권이 유럽/프랑스 AI 마일스톤으로 프레이밍 @BFMTV @France24_fr @EmmanuelMacron @NicolasDufourcq.
의견과 해석
- 지지 관점: LeCun이 오랫동안 주장해 온 ‘LLM 중심이 아닌 경로’를 입증할 자본과 팀을 마침내 확보했다는 평가 @teortaxesTex.
- 기술적으로 낙관: 세계 모델이 특히 구현(embodiment)/로보틱스에 “큰 도약”이며, AMI의 오픈 연구 자세가 매력적이라는 시각 @mervenoyann @ziv_ravid.
- 아키텍처 전쟁 프레이밍: 업계가 자기회귀(autoregressive) 언어 모델에 과도하게 의존하며 “잘못된 기초” 위에 쌓고 있다는 베팅으로 해석 @LiorOnAI.
- 회의적/중립: 세계 모델의 설득력 자체보다, JEPA 스타일이 이미 상용화가 진행 중인 LLM 중심 에이전트보다 더 빠르게 경제적으로 유용한 시스템으로 스케일될 수 있는지가 관건이라는 뉘앙스. 트윗 세트에서는 명시적 회의보다 “비전을 증명할 기회” 같은 표현으로 간접 반영 @teortaxesTex.
- 메타 코멘터리: AMI는 내부적으로 “전형적인 랩(lab)이 아니다”로 프레이밍됨 @sainingxie — 기존 프론티어 랩의 API-우선 스케일링 패턴과 차별화 시도 시사.
기술적 디테일: JEPA, world models, 그리고 next-token LMs와의 차이
AMI의 공개 서사는 LeCun의 JEPA/세계 모델 아젠다와 정렬돼 있습니다. 트윗에 구체 기술 디테일은 많지 않지만, 논의는 대체로 다음의 아이디어 스택을 강하게 가리킵니다:
- World models: 환경 동역학을 예측하는 잠재(latent) 예측 모델로, 압축된 상태 표현을 학습하고 원시 감각 스트림이 아니라 미래 상태/결과를 예측.
- JEPA: Joint Embedding Predictive Architecture. 2022년 LeCun이 소개했으며, 모든 픽셀/토큰을 복원(reconstruct)하는 대신 **압축된 잠재 공간(latent space)**에서 **추상 표현(abstract representations)**을 학습·예측하는 방식으로 언급됨 @LiorOnAI.
- JEPA를 생성(generative) 모델링보다 선호하는 동기:
- 현실 센서 스트림에는 **예측 불가능하거나 무의미한 엔트로피(entropy)**가 많음.
- 원시 픽셀/비디오 예측은 노이즈에 모델 용량을 소모해 비효율적.
- 잠재 추상(latent abstractions) 예측이 계획(planning), 제어가능성(controllability), 불변성(invariance)에 더 유리할 수 있음.
- 행동 조건부(action-conditioned) 세계 모델: 모델이 **행동의 결과(consequences of actions)**를 예측해야 한다는 핵심 확장을 언급 — 행동 전에 계획을 가능케 함 @LiorOnAI. 이는 수동적 시퀀스 모델링보다 모델 기반 RL/제어(model-based RL/control)에 더 가까움.
- 반복적으로 암시된 타깃 도메인:
- 로보틱스/구현(embodied) AI @mervenoyann
- 헬스케어 및 환각(hallucination) 감소 시스템 @kimmonismus
- 산업 공정 제어/안전 중요(safety-critical) 환경 @LiorOnAI
- 더 일반적으로, 물리 세계에서 지속 상태(persistent state), 인과(causality), 행동 결과를 추적해야 하는 시스템.
이는 LeCun의 ‘순수 자기회귀(autoregressive) LLM’에 대한 오래된 비판과 대체로 일치합니다:
- 텍스트 예측만으로는 접지된(grounded) 이해에 불충분,
- 세계는 부분적으로만 예측 가능,
- 지능형 에이전트는 계층적 표현과 잠재 공간 계획이 필요,
- 장기적으로는 비전/비디오/구현 데이터가 AI 진보를 주도.
팀 구성은 어떤 기술적 신호인가
창립 멤버 구성 자체가 기술적 단서입니다. 여러 합류 소식은 다음을 강조합니다:
- world models @sanghyunwoo1219 @zhouxy2017
- 사전학습·스케일링·비디오·표현(representation) @jingli9111
- 지지자들이 “vision 🐐s 팀”이라 부른 비전 중심 연구자 클러스터 @mervenoyann
이는 AMI가 ‘세계 모델’ 용어만 덧붙인 표준 LLM 스택이 아니라, 비전/비디오/자기지도(self-supervised) 표현 학습을 중시할 가능성을 시사합니다.
오픈 연구 포지션
여러 긍정적 반응은 오픈 릴리스/오픈 연구에 대한 기대를 언급했습니다 @mervenoyann @mervenoyann. JEPA/세계 모델은 역사적으로 제품(product)보다 학계(academic)에서 더 강한 트랙션을 보여왔기 때문에, ‘오픈’은 AMI의 채용과 생태계 형성에 중요할 수 있습니다. 다만 출범 시점에서는 ‘희망/열망’에 가깝고 아직 실증된 관행은 아닙니다.
반응 세트의 다양한 의견
강한 지지: “LeCun이 마침내 실험을 하게 됐다”
상당수 반응은 ‘LeCun이 전용 스타트업과 자본 기반을 얻어 세계관을 검증할 수 있게 됐다’는 안도감에 가깝습니다.
- “Yann이 자신의 비전을 증명할 기회를 얻었다” @teortaxesTex
- “매우 낙관적… 세계 모델은 큰 도약” @mervenoyann
- 팀 퀄리티와 오픈 연구 야망 때문에 “super bullish on AMI labs” @ziv_ravid
- “현실 세계를 이해하는 것이 고도 AI 시스템의 핵심” @duchao0726
이 진영은 AMI를 자기회귀 LMs + RLHF + 툴 사용 중심의 현 업계 균형에 대한 ‘오랜만의 대안축’으로 봅니다.
아키텍처 전쟁 프레이밍: “LLM은 단어를 예측, AMI는 현실을 모델링”
이 관점은 @LiorOnAI에서 가장 명시적으로 제시됐습니다:
- 언어 모델은 단어/토큰 위에서 작동하고,
- 현실은 연속적이며 감각-운동(sensorimotor)이고 부분적으로 예측 불가능하며,
- 생성 모델은 복원에 과적합(overfit)하고,
- JEPA는 대신 의미 있는 추상을 예측한다는 주장.
이는 트윗 세트에서 가장 명확한 ‘친 AMI’ 기술 논증으로, 환각·취약성·접지된 계획 부재를 단지 스케일 부족이 아니라 “목표 함수(objective)가 잘못됨”의 증상으로 다룹니다.
실용적 중립: “논지는 매력적이지만 이제는 출하해야 한다”
몇몇 반응은 축하하되 맹신하지는 않습니다:
- “비전을 증명할 기회를 얻었다” @teortaxesTex
- “핵심 질문… PyTorch인가 JAX인가” @giffmana
후자는 단순한 농담성 인프라 잡담을 넘어서, 대규모 세계 모델 학습을 실전화(operationalize)하려면 생태계 선택이 필요하다는 지점을 반영합니다. 신생 스타트업이 새로운 세계 모델 훈련을 스케일로 수행하려면 다음 중 하나를 택해야 합니다:
- 빠른 연구 반복과 폭넓은 채용 친숙도를 주는 (PyTorch), 또는
- 대규모 함수형(functional)·SPMD 컴파일러 스택을 밀어붙일 수 있는 (JAX).
AMI 밖의 더 넓은 시뮬레이션/세계 모델 열기
AMI 출범은 이미 “시뮬레이션이 다음 프론티어”라는 담론 속에 착지했습니다. Percy Liang은 다음 큰 기회가 시뮬레이션 모델로 “사회를 도커 컨테이너에 넣는 것”일 수 있다고 주장했습니다 @percyliang. 이는 AMI 자체와 직접 관련은 없지만, ‘토큰 모방(token imitation)’에서 ‘환경·상호작용의 모델 기반 예측(model-based prediction)’으로 넘어가야 한다는 정서가 LeCun의 테제를 더 공명하게 만드는 배경입니다.
맥락: 지금 왜 중요한가
AMI는 많은 업계 인사들이 ‘사실상 결론 났다’고 여겨온 질문을 다시 여는, 고프로파일·고자본 시도이기 때문에 중요합니다: 다음 토큰(next-token) 예측이 고도 지능으로 가는 중심 경로인가, 아니면 유용하지만 궁극적으로 좁은 하부기반(substrate)인가?
타이밍이 주목되는 이유
출범 시점은 다음 조건이 겹칩니다:
- LLM과 코딩 에이전트가 상업적으로 성공했고,
- 멀티모달 시스템이 빠르게 개선 중이며,
- 로보틱스/자율/세계 모델 담론이 재부상하고,
- 텍스트/코드 벤치마크의 개선이 곧바로 물리 세계 역량으로 이어지지 않을 수 있다는 인식이 커지고 있음.
이는 최근 프론티어 담론이
- 에이전트/하네스/툴 사용,
- 추론(reasoning) RL,
- 코딩 자동화,
- 추론(inference) 인프라 에 크게 좌우되는 상황에서 특히 두드러집니다. AMI는 “텍스트 모델의 래퍼(wrapper)를 더 잘 만드는 것”이 아니라 현실 세계의 접지된 표현 학습과 예측 모델링이 다음 프론티어라는 명시적 베팅입니다.
LeCun이 독보적인 이유
LeCun은 수년간 공개적으로 다음을 주장해 왔습니다:
- 인간/동물 지능은 세계에서의 관찰과 행동으로 학습되며,
- 언어는 너무 저대역폭(low-bandwidth)이고 파생적이라 주요 학습 신호가 되기 어렵고,
- 시스템은 잠재 변수(latent-variable) 세계 모델과 계획이 필요하다는 것.
그 영향력 때문에 LeCun은 “LLM만으로 AGI에 간다”는 주장에 가장 눈에 띄는 회의론자 중 하나였습니다. 따라서 AMI는 단순 신생 기업이 아니라, 이 분야의 대표적 인물 중 한 명이 가진 ‘반(反) 토큰-극대주의(anti-token-maximalist)’ 관점을 지금까지 가장 직접적으로 제도화한 사례로 볼 수 있습니다.
유럽/프랑스 함의
프랑스/유럽에서의 정치·제도권 반응은 이례적으로 강했습니다:
- Macron은 AI에서 “새 페이지”이자 “la France des chercheurs, des bâtisseurs”로서의 성취로 축하했습니다 @EmmanuelMacron
- Bpifrance의 Nicolas Dufourcq는 “글로벌 AI를 혁신”할 수 있는 회사를 지원하는 프랑스의 자부심을 강조했습니다 @NicolasDufourcq
따라서 AMI는 연구 스타트업을 넘어 유럽의 전략적 AI 챔피언으로도 포지셔닝되고 있습니다.
관련 AMI/세계 모델 트윗과 각 포인트
- @TechCrunch: $1.03B 조달 및 세계 모델 프레이밍의 헤드라인 확인.
- @BFMTV: 프랑스어 주류 미디어의 ‘역사적 조달’ 프레이밍.
- @WIRED: 물리 세계 숙련이 인간 수준 AI로 가는 길이라는 LeCun의 장기 테제를 맥락화.
- @business: Bloomberg의 조달 규모 확인.
- @iScienceLuvr: $3.5B 프리머니 수치 추가.
- @sainingxie: AMI는 “전형적인 랩이 아니다,” Xie가 공동창업자/CSO로 합류.
- @lxbrun: CEO 발표; 현실 세계 이해를 향한 장기 과학적 노력.
- @ZeffMax: LeCun이 세계 모델에 ‘올인’한다는 요약.
- @teortaxesTex: “비전을 증명할 기회.”
- @Brian_Bo_Li: “현실 세계에 진짜 지능” 슬로건.
- @sanghyunwoo1219: 세계 모델 작업을 위해 Day 1 합류.
- @laurentsolly: COO 발표; 자금과 “다음 AI 프론티어 모델” 반복.
- @mavenlin: 팀 멤버의 열의로 창립 벤치의 두께를 시사.
- @crystalsssup: Saining Xie 존재가 AMI의 진정성을 보여준다는 코멘트.
- @ylecun: 공식 공개; “역대 최대급 시드,” 유럽 기업 중 최대일 가능성.
- @jihanyang13: 창립팀 합류 발표.
- @giffmana: AMI가 PyTorch vs JAX 어느 쪽이 될지 질문.
- @France24_fr: 프랑스 미디어의 “패러다임 전환” 프레이밍.
- @TheRundownAI: “언어 모델을 넘어 세계 모델을 구축” 요약.
- @pascalefung: Fung이 CRIO로 합류; 인간 중심 AI, 지각·학습·추론·행동 강조.
- @EmmanuelMacron: 정치적 지지 및 국가 전략 프레이밍.
- @franceinter: 일자리/AI 변혁에 대한 LeCun의 broader claim 확산.
- @mervenoyann: 구현 연구에 대한 도약으로서 세계 모델을 낙관, 오픈 스탠스 선호.
- @kimmonismus: 헬스케어/Nabla 상용화 각도 및 환각 위험 프레이밍.
- @pascalefung: 파리(Paris) 팀 채용.
- @zhouxy2017: 세계 모델 작업의 창립 멤버.
- @Reuters: AMI를 “대안적 AI 접근”으로 지칭.
- @NVIDIAAI 및 관련 Thinking Machines/NVIDIA 포스트는 AMI와 무관하여 제외.
- @chris_j_paxton: 거점 목록에 Bay Area 부재를 지적, 지리적 차별화 시사.
- @giffmana: **취리히(Zürich)**가 거점 중 하나임을 보충.
- @lilianweng: “스케일에서 차세대 하드웨어로 더 나은 인간-AI 협업 기술 구축.” 간접적이지만 AMI 궤도 합류로 명확.
- @Yuchenj_UW: LeCun의 세계 모델 스타트업과 Meta의 Moltbook 인수 대비로, 장기 기반 베팅 vs 단기 에이전트/소셜 제품 대비를 강조.
- @LiorOnAI: JEPA와 잠재 공간 예측 모델링의 의미를 가장 명시적으로 설명.
- @sainingxie: 감사/응답으로 지속적 관여를 확인(정보량은 적음).
- @NandoDF @DrJimFan @denisyarats: 축하 인사(정보량은 낮지만 존중의 신호).
결론
AMI Labs는 “자기회귀 언어 모델 스케일링이 AGI로 가는 유일/지배적 경로”라는 생각에 대한 현재까지 가장 강한 제도적 도전으로 보입니다. $1.03B 시드, $3.5B 프리머니, 세계 모델·비전 중심의 엘리트 팀, 프랑스/유럽의 전략적 백업 같은 하드 팩트는 매우 구체적인 반면, 기술적 약속은 아직 대체로 ‘테제 수준’입니다: JEPA 스타일의 잠재 예측 세계 모델이 현실 센서 데이터로부터 학습해, 모든 노이즈를 복원하지 않고도 계획/행동을 뒷받침한다는 주장. 지지자들은 이를 ‘다음 패러다임’으로 보며, 중립 진영은 LeCun의 LLM 비판이 제품과 벤치마크로 현금화(cash out)되는지로 평가할 것이고, (명시적으로 드러나지 않더라도) 회의적 관점은 시장이 현재 스택 주변으로 닫히기 전에 세계 모델이 빠르게 개선되는 LLM 에이전트들을 실제로 앞설 수 있는지로 판단할 것입니다.
AI Twitter Recap
에이전트, 코딩 워크플로, 그리고 “builder vs reviewer” 변화
- 소프트웨어 조직 구조가 변하고 있다는 테마가 타임라인 전반에 걸쳐 나타났습니다: 구현(implementation)이 더는 병목이 아니고, 리뷰(review)·아키텍처(architecture)·제품 판단(product judgment)이 병목이라는 주장 @renilzac @clairevo @dexhorthy. 엔지니어는 점점 제품 감각을 가진 builders 또는 시스템 사고를 가진 reviewers로 분화된다는 프레이밍 @radek__w @ZhitaoLi224653.
- 에이전트 하네스(agent harness)가 주요 실무 개념으로 부상: “Agent = Model + Harness” — 파일시스템, 메모리, 브라우저, 라우팅, 오케스트레이션, 샌드박스가 실제 제품 표면이라는 주장 @Vtrivedy10 @techczech @AstasiaMyers @omarsar0.
- 툴링 업데이트도 이 흐름을 반영:
- 정책 집행과 워크플로 가이드를 위한 VS Code Agent Hooks @code
- 디자인↔코드 루프를 닫는 GitHub/Figma MCP @github
- 프로덕션화를 단순화하는 LangGraph deploy 및 LangGraph 1.1 @LangChain @sydneyrunkle
- 에이전트 기반 앱 빌딩/스케일 인프라를 더하는 Together MCP server 및 Together GPU Clusters @togethercompute @togethercompute
- 단순 자동화 루프를 더한 Ollama scheduled prompts in Claude Code @ollama
- 제품 반응은 기대와 경계로 갈렸습니다:
- Perplexity Computer가 루틴한 지식노동과 마케팅 작업을 대체한다는 강한 창업자(use case) 주장 @GabbbarSingh @AravSrinivas @AravSrinivas
- “AI 작성 코드 비율(%)” 최적화나 코드 이해 포기 경고 @karrisaarinen @dexhorthy.
- UX가 원시 성능만큼 중요: Claude Code/Hermes/OpenClaw 사용자들이 신뢰, 피드백 루프, 메모리, 인터페이스 표현이 체감 역량을 좌우한다고 반복 언급 @StudioYorktown @sudoingX @cz_binance.
벤치마크, eval, 그리고 신뢰성 연구
- Cameron Wolfe는 LLM eval을 더 신뢰 가능하게 만드는 실무 통계 스레드를 게시: 점수는 표본 평균(sample mean), 표준오차(standard error)=표준편차/√n, 그리고 평균만이 아니라 95% 신뢰구간(confidence intervals)=x̄ ± 1.96×SE 보고를 권장 @cwolferesearch @cwolferesearch.
- 새 벤치마크 작업은 접지(grounding)와 인간 타당도에 초점:
- 아부(sycophancy)를 겨냥한 Opposite-Narrator Contradictions @LechMazur
- OfficeQA Pro: 엔터프라이즈 접지 추론은 여전히 어렵고, 프론티어 에이전트도 <50% @kristahopsalong @DbrxMosaicAI
- SWE-bench Verified는 메인터이너 현실 대비 과대평가일 수 있음: 그레이더 통과 PR 중 메인터이너가 병합하겠다고 한 비율은 약 절반 @whitfill_parker @joel_bkr
- AuditBench: 숨겨진 행동을 주입한 56개 LLM으로 정렬(aignment) 감사(auditing) 평가 @abhayesian
- CodeClash: 장기 코딩/계획을 프로브; 상위 모델도 지속적 에이전트 적대 설정에서 여전히 성능이 낮음 @OfirPress @OfirPress
- 추론 트레이스(Reasoning traces)의 해석가능성(interpretability)은 여전히 논쟁적: 한 논문 요약은 “thinking steps”의 **97%+**가 장식적이며 CoT 모니터링이 신뢰하기 어렵다고 주장 @shi_weiyan.
모델, 인프라, 그리고 학습 시스템
- Megatron Core MoE가 대규모 MoE 학습의 오픈 프레임워크로 큰 주목을 받았고, DeepSeek-V3-685B에 대해 1233 TFLOPS/GPU를 주장 @EthanHe_42 @eliebakouch. DeepSeek 스타일 MoE 학습 효율이 점점 커머디티화된다는 코멘터리 @teortaxesTex.
- Gemini Embedding 2가 Google의 첫 완전 멀티모달 임베딩 모델로 출시:
- 텍스트/이미지/비디오/오디오/문서에 대한 단일 임베딩 공간
- 텍스트 입력 8,192 토큰
- 100+ 언어
- MRL로 출력 차원 3072 / 1536 / 768
- 요청당 최대 이미지 6장, 비디오 120초, PDF 6페이지 @OfficialLoganK @_philschmid @googleaidevs.
- Hugging Face Storage Buckets 출시: Xet 중복제거(deduplication) 기반의 S3 유사 가변(mutable) 스토리지로, 체크포인트, 로그, 트레이스, eval 출력, 에이전트 아티팩트 용도를 표방. 시작 가격 $8/TB/month @victormustar @huggingface @Wauplin.
- 기타 주목할 모델/시스템 릴리스:
- RWKV-7 G1e: 13B/7B/3B/1B @BlinkDL_AI
- Hume TADA 오픈소스 TTS: 1,000+ 테스트 샘플에서 콘텐츠 환각 0, 유사 LLM-TTS 대비 5배 빠름, 2,048 tokens ≈ 700s 오디오 @hume_ai
- Phi-4-reasoning-vision-15B: 컴팩트 오픈 멀티모달 모델로 언급 @dl_weekly
- Baseten/Harvard의 prefix-caching 협업으로 추론 효율 개선 @chutes_ai
자율 연구, AlphaGo 계보, 그리고 재귀적 개선
- AMI 외의 가장 강한 메타 테마는 자동화된 ML 연구:
- Karpathy의 autoresearch 개념 — 하룻밤 실험 루프(코드 편집, 짧은 학습, 지표 기반 채택/폐기)가 널리 논의됨 @NerdyRodent @_philschmid
- Yuchen Jin은 Claude 기반 “chief scientist” 루프를 11+ 시간, 568 실험, 8 GPUs로 돌리며, 광범위 탐색→집중 정련→강한 검증으로 진행되는 패턴을 관찰 @Yuchenj_UW
- Karpathy는 멀티-에이전트 연구 협업의 다음 레이어로 “에이전트를 위한 GitHub”인 AgentHub를 시사 @karpathy @Yuchenj_UW
- AlphaGo 10주년이 많은 회고를 촉발:
- Demis Hassabis는 AlphaGo의 탐색/계획 아이디어가 AGI와 과학에서 여전히 핵심이라고 주장 @demishassabis
- Google/DeepMind는 AlphaGo를 AlphaEvolve 및 더 넓은 컴퓨트/과학 최적화와 연결 @Google @GoogleDeepMind
- Noam Brown류의 프레이밍: 현 추론 모델이 AlphaGo 레시피(모방→추론 시 탐색→RL)를 따른다는 주장 @polynoamial
- 재귀적 자기개선(RSI) 담론도 지속:
- Schmidhuber의 메타러닝/RSI 작업 재부상 @SchmidhuberAI
- 비지도 RLVR에서 단순한 재귀 개선은 현재 한계에 부딪힌다는 코멘터리 @teortaxesTex
역량 이정표, 응용, 그리고 배포
- 특히 눈에 띈 주장: FrontierMath 오픈 문제가 AI 도움으로 풀렸을 가능성. 처음엔 GPT-5.4 Pro가 풀었다는 사용자 주장으로 시작해, 검증된다면 AI가 FrontierMath 오픈 문제를 처음 푼 사례일 수 있다는 관측으로 확산 @spicey_lemonade @kevinweil @GregHBurnham @AcerFur.
- Google은 긴급 진료(urgent care) 워크플로에서 AMIE의 **전향적 임상 연구(prospective clinical study)**를 보고: 블라인드 평가에서 전반적으로 PCPs와 유사한 감별 진단/관리 계획 품질을 보였지만, PCPs가 실용성·비용 효율에서 우위(p=0.003, p=0.004) @iScienceLuvr.
- Gemini가 적용된 Google Sheets가 SpreadsheetBench에서 **70.48%**로, 인간 전문가에 근접한 능력으로 묘사됨 @GoogleAI.
- Google Workspace/Gemini 롤아웃이 Docs/Sheets/Slides/Drive로 확대: Sheets 작업 9배 빠름, AI 생성 슬라이드 레이아웃, Drive 레벨의 문서 간 답변 주장 @Google @sundarpichai.
- Microsoft는 2025년 Copilot 모바일 사용자 대화(500k+ 분석)에서 건강이 #1 토픽이라고 보고 @mustafasuleyman.
- Sharon Zhou는 프로덕션에서 AI 커널 최적화가 초인(superhuman) 성능을 보였다고 주장 — 자동 GPU 포팅/최적화가 곧 실용화될 수 있다는 시사 @realSharonZhou.
AI Reddit Recap
/r/LocalLlama + /r/localLLM
Qwen Model Releases and Benchmarks
-
Qwen3.5-35B-A3B Uncensored (Aggressive) — GGUF Release (Activity: 337): Hugging Face에서 Qwen3.5-35B-A3B Aggressive가 공개됐으며,
0/465 refusals를 내세우는 ‘완전 무검열(fully uncensored)’ 버전으로, 성격 변화 없이 역량을 유지한다고 주장합니다.BF16,Q8_0,Q6_K등 다양한 양자화(quantization) 포맷을 제공하며, 멀티모달 입력(텍스트/이미지/비디오)과262K컨텍스트 길이를 지원합니다. Gated DeltaNet과 softmax를3:1로 결합한 하이브리드 어텐션을 사용하고, MoE(mixture of experts)로256 experts중 토큰당8+1을 활성화합니다. 최적 성능을 위해 특정 샘플링 파라미터와llama.cpp의--jinja플래그 사용을 권장합니다. 댓글에서는 ‘무검열화(uncensoring)’ 기법이 무엇인지 묻는 질문이 눈에 띄며, 수정 과정의 기술적 관심이 드러납니다.- 모델 무검열화 기법에 대한 투명성 요구가 나타났고, guiopen은 어떤 방식으로 이를 달성했는지 질문합니다.
- Velocita84는 ‘역량 손실 없음’ 주장에 대해 KLD(Kullback-Leibler Divergence) 평가로 정량적 근거가 필요하다고 지적합니다.
- Long_comment_san은 무검열화가 아키텍처마다 별도 조정이 필요한지, 표준 절차가 있는지 등 기술 난이도를 질문합니다.
-
Qwen 3.5 0.8B - small enough to run on a watch. Cool enough to play DOOM. (Activity: 635): 스마트워치에서도 돌릴 수 있을 정도로 작은 Qwen 3.5 0.8B로 VLM 에이전트를 구현해 VizDoom에서 DOOM을 플레이한 사례를 다룹니다. 스크린샷을 받아 그리드를 오버레이하고, 비전 모델이 ‘shoot’/‘move’ 툴로 행동을 결정하는 단순한 접근입니다. 기본 상황에서는 올바른 열(column)을 골라 킬을 내는 등 성능이 괜찮지만, ‘defend_the_center’ 같은 복잡한 상황에서는 탄약(ammo) 보존에 어려움을 겪습니다. 구성은 Python, VizDoom, 그리고 LM Studio로의 HTTP 호출이며, M1 Mac에서 스텝당
10 seconds지연이 있습니다. 작성자는 툴 호출에 ‘reason’ 필드를 추가해 탄약 보존을 개선 중이라고 합니다. 댓글은 작은 모델로 게임을 한다는 새로움과 다른 모델/게임 확장 가능성에 관심을 보입니다.- ethereal_intellect는 Typing of the Dead/Monkeytype 같은 타이핑 게임에 연결해 WPM/FPS를 재겠다는 아이디어를 말하며, LMStudio GPU 테스트에서
0.16mstime to first token을 언급합니다. - mitchins-au는 DOOM을 플레이하는 모델을 위한 기존 벤치마크 하네스가 있다고 언급해, 평가 가능성을 시사합니다.
- No_Swimming6548는 하이엔드 GPU에서 실시간으로 가능한지 질문하며, 실시간 게임 응용 가능성을 암시합니다.
- ethereal_intellect는 Typing of the Dead/Monkeytype 같은 타이핑 게임에 연결해 WPM/FPS를 재겠다는 아이디어를 말하며, LMStudio GPU 테스트에서
-
Qwen-3.5-27B-Derestricted (Activity: 401): Hugging Face에 올라온 Qwen-3.5-27B-Derestricted는
28 billion parameters규모이며BF16/F32텐서 타입을 지원합니다. 최근 한 달 다운로드가95 times로 언급됐고, 아직 추론 제공자(inference providers)에 의해 배포되진 않았습니다. ‘검열이 거의 없는(uncensored)’ 성격으로 폭넓은 질의에 제한 없이 응답한다는 관찰이 나옵니다. 모델은 실험 단계로, UGI Leaderboard 성능을 근거로 일관성(coherence)과 지능(intelligence)에 대한 평가가 진행 중이라는 설명이 있습니다. 댓글에서는 제작자가 피드백을 요청하며 용어(uncensored/abliterated/derestricted/heretic)의 구분을 논의합니다.- ‘무검열’ Qwen-3.5-27B가 민감한 질문에도 망설임 없이 답했다는 테스트가 공유되며, 역량과 윤리적 제약 사이 균형을 문제 삼습니다. 예시로 Hugging Face도 언급됩니다.
- 제작자 Arli_AI가 27B 변형을 포함한 Qwen 3.5 실험에 대한 피드백을 요청하며, 모델 카드 부재가 초기 단계임을 시사합니다.
- ‘uncensored’, ‘abliterated’, ‘derestricted’, ‘heretic’ 같은 용어가 서로 다른 제한 수준을 나타낸다는 논의가 이어지며, ‘Heretic 1.2’가 더 진전된 버전일 수 있다는 언급이 나옵니다.
Local LLM Experiences and Challenges
-
I regret ever finding LocalLLaMA (Activity: 498): 학습 보조로 AI를 쓰다가
MI50s같은 하드웨어를 구입하고, 양자화(quantization)를 실험하며, LocalLLaMA/ LM Studio 등 로컬 AI 기술로 깊게 빠져드는 여정을 서술합니다. Qwen, Gemini 등 다양한 모델을 만지며, 엔지니어링 밖에서는 니치(niche)하지만 개인적으로는 강한 매력을 느꼈다는 내용입니다. 댓글에서는 로컬 AI가 엔지니어링 외부에서 과소평가되며, 장기적 파급이 Linux와 유사할 수 있다는 비유가 나옵니다. -
How I topped the Open LLM Leaderboard using 2x 4090 GPUs — no weights modified. (Activity: 535): 2x RTX 4090으로 Qwen2-72B의 특정 ‘중간 7개 레이어 블록’을 복제(가중치 변경 없음)해 Open LLM Leaderboard 1위를 달성한 접근을 설명합니다. 단일 레이어 복제나 과도한 레이어 복제는 효과가 없었고, 사전학습(pretraining)이 ‘이산적 기능 회로(discrete functional circuits)’를 만들어내며 연속된 블록 단위로 보존돼야 한다는 가설을 제시합니다. 상세는 blog post에 있습니다. 댓글은 중간 레이어 군집이 효과적이라는 경험과, 구현 방식(메모리 사전 복제 vs 런타임 루프) 질문 등을 포함합니다.
- Arli_AI는 연속된 중간 레이어가 유리한 경향을 언급하며, ‘중간 추론 피질(middle reasoning cortex)’ 관찰과 맞닿는다는 반응을 보입니다.
- sean_hash는 레이어 복제의 성공이 ‘베이스 모델 학습의 결함’을 드러낼 수 있으며, fine-tuning 대비 의미를 질문합니다.
- Hanthunius는 레이어를 메모리에 미리 복제했는지, 런타임에서 루프를 추가했는지 구현 디테일을 묻습니다.
-
Anyone else feel like an outsider when AI comes up with family and friends? (Activity: 653): 기술 전문가와 대중 인식 사이 괴리를 다룹니다. 모델을 다루는 당사자는 센세이셔널한 헤드라인 기반의 불신/혐오를 경험하고, 이를 바로잡으려 하면 방어적이거나 폄하처럼 보이기 쉬워 대화가 어렵다고 합니다. 비기술권은 창의성, 과장(hype), 신뢰(trust) 문제로 AI를 부정적으로 보는 경향이 있으나, 그 근거가 깊은 이해에 기반하지 않을 수 있다는 지적이 나옵니다. 댓글은 감정적·사회적 요구를 고려한 커뮤니케이션의 중요성을 강조합니다.
- ttkciar는 배우자 포함 많은 사람이 기술 사실보다 미디어의 과장에 의해 의견을 만든다고 말하며, ‘AI Winter’는 기술이 아니라 태도/자금의 문제라는 점을 강조합니다.
- Krowken은 일자리 대체, 교육에서의 인지 오프로딩(cognitive offloading), AI 생성 콘텐츠 범람, RAM 비용 상승, 딥페이크 포르노, 챗봇의 치료 대체 등 기술/사회 이슈를 폭넓게 언급하면서도 LLM의 유용성을 인정합니다.
- Heavy-Focus-1964는 복잡한 주제에서 기술 지식을 전달하는 커뮤니케이션 스킬 자체가 중요하다고 말합니다.
AI Hardware and Performance Discussions
-
Genuinely curious what doors the M5 Ultra will open (Activity: 591): 데이터센터/소비자/워크스테이션/Apple Silicon을 포함한 GPU 비교 이미지가 공유되며, VRAM, 메모리 타입, 버스 폭, 대역폭 등을 비교합니다. Apple M5 Ultra는 LPDDR5X로
819 GB/s대역폭이 강조되어, 대역폭이 고급 GPU에 근접하면서 더 큰 모델을 다루기 쉬워질 수 있다는 관측이 나옵니다. 또한 M3 Ultra 등 향후 Apple 설계가~1200GB/sec까지 갈 수 있다는 추측과, 5090 같은 차세대 GPU와의 경쟁 구도가 언급됩니다. 댓글은 RTX 6000 PRO Blackwell96GB VRAM부재 지적과, 고가에 대한 농담을 포함합니다.- TokenRingAI는 M5 Ultra 메모리 속도를
1200GB/sec수준으로 추정하며 5090 바로 아래라는 관측을 덧붙입니다. - sine120은 고성능 작업에 최소
128GB통합 메모리 필요성을 강조하고, Qwen3.5-122B와 Coder-Next를128GB M5 Max대상으로 언급하지만 가격 대비 정당화가 어렵다고 말합니다. - false79는 비교에서 RTX 6000 PRO Blackwell
96GB VRAM이 빠졌다고 지적합니다.
- TokenRingAI는 M5 Ultra 메모리 속도를
-
Happy birthday, llama.cpp! (Activity: 243):
llama.cpp의 기념일을 축하하며, Meta의 초기 LLaMA 모델 유출 이후 시작된 프로젝트가 초기에 수 토큰/초에 불과하던 성능에서, sub-7B 모델, >200k 컨텍스트, fine-tuning 지원 등으로 크게 발전했다고 회고합니다. 양자화(quantization)와 C++ 리라이트 등의 공로가 언급되며, 더 자세한 기술 내용은 original commit에서 확인할 수 있습니다. 댓글은 특히 양자화의 기여를 강조합니다.- sean_hash는 Mac Mini에서 70B를 대화 속도로 돌리게 만든 핵심이 C++ 리라이트보다 양자화였다고 강조합니다.
- Kornelius20는 대학 워크스테이션에서 모델을 토렌트로 받으며 시작한 경험이 커리어에 영향을 줬다고 회고합니다.
- Weak_Engine_8501는 로컬 하드웨어에서 모델을 돌릴 수 있게 만든 혁신에 감사를 표합니다.
-
karpathy / autoresearch (Activity: 396): Andrej Karpathy가 ‘autoresearch’라는 연구 자동화 접근을 소개합니다. 단일 GPU의 nanochat 간소 구현에서, 에이전트가 밤새 LLM 학습 설정을 자율적으로 수정하고 짧게 학습·평가해 개선을 누적하는 흐름입니다. 핵심은
program.md파일로 에이전트를 가이드하는 방식으로, 파이썬 파일 직접 조작이 아니라 자연어 문서로 연구 전략을 ‘프로그래밍’하는 패턴이 워크플로를 바꿀 수 있다는 논의가 나옵니다. 댓글은 새로움/영향에 대한 회의와,program.md패턴의 의미에 대한 긍정이 함께 나타납니다.- 일부는 Karpathy의 트랜스포머/AGI 프레임에 대한 비판을 제기하며, 대안으로 GraphMERT 같은 뉴로심볼릭(neurosymbolic) 방향을 언급합니다.
program.md패턴이 연구 전략을 마크다운 문서에 인코딩해 에이전트가 실행하게 한다는 점에서 ‘패러다임 시프트’일 수 있다는 평가가 나옵니다.- nanochat 리더보드 변화가 베이지안 최적화(Bayesian optimization)와 유사하다는 관측과, 대규모 학습으로의 스케일링 병목은 여전히 컴퓨트라는 지적이 있습니다.
Less Technical Subreddits
대상: /r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo
Autonomous AI Research and Development
-
Andrej Karpathy’s Newest Development - Autonomously Improving Agentic Swarm Is Now Operational (Activity: 515): Andrej Karpathy가 자율 개선 에이전트 스웜(agentic swarm)으로 모델 검증 손실을 줄이기 위해
20개 변경을 수행했고, “Time to GPT-2” 지표를2.02시간→1.80시간으로 줄여11%개선했다고 공유했습니다. 시스템은 “try → measure → think → try again” 루프를 자율 실행했고, 사람 개입 없이 더 빠르게 학습에 도달했다는 주장입니다. 자세한 내용은 Karpathy’s nanochat project에서 확인할 수 있습니다. 댓글은 자율성 자체에 주목합니다.- SECONDLANDING는 11% 내외의 효율 개선을 ‘AI가 연구 루프를 수행해 수동 튜닝을 앞선 사례’로 봅니다. GitHub.
- Worldly_Expression43는 Opus 4.6으로
pgvector기반 RAG 파이프라인을 자율 최적화한 경험(3배 빠름)을 공유합니다.
-
Andrew Karpathy’s “autoresearch”: An autonomous loop where AI edits PyTorch, runs 5-min training experiments, and continuously lowers its own val_bpb. “Who knew early singularity could be this fun? :)” (Activity: 839): Karpathy의 “autoresearch”는 5분 훈련 실험을 반복하는 루프로 아키텍처/옵티마이저/하이퍼파라미터를 자동 최적화해
val_bpb를 낮추는 접근입니다. git feature branch에서 자율 커밋을 쌓아 개선 설정을 발견하면 기록합니다. 시각화에서 각 점(dot)은 완전한 LLM 학습 실행을 의미하며, 단일 GPU용 미니 레포로 약630 lines of code라고 설명합니다. 자세한 내용은 original post에서 확인할 수 있습니다. 댓글은 재현/스케일링과 ‘연구 자동화’ 가능성에 관심을 보입니다.- Kaarssteun은 8시간 37회 실험으로 0.8b 모델이 이전 1.6b 대비 19% 개선된 경험을 공유합니다.
- Karpathy는 depth 12에서 찾은 개선이 depth 24로도 전이됐다고 확인하며, ‘time to GPT-2’ 리더보드 엔트리를 언급합니다.
- Alarming_Bluebird648는 에이전트가 자신의 git 브랜치를 관리하며 val_bpb를 낮추는 접근을 ‘아키텍처 서치’로 확장할 가능성을 논합니다.
-
Yann LeCun unveils his new startup Advanced Machine Intelligence (AMI Labs) — and raises $1.03B (Activity: 836): Yann LeCun이 Alexandre LeBrun과 함께 Advanced Machine Intelligence (AMI) Labs를 공동 설립했고, world models를 JEPA로 개발하기 위해
$1.03 billion을 조달했다고 합니다. 이는 환각 등 현재 LLM의 한계를 다루려는 장기 연구 프로젝트로 포지셔닝되며, 즉각적 제품/매출을 기대하지 않는다고 설명합니다. 투자자로 NVIDIA, Samsung, Bezos Expeditions 등이 언급됩니다. TechCrunch 댓글은 LeCun의 ‘과장 없는’ 접근에 호감을 보입니다.- AMI Labs가 $5B+ 밸류를 모색한다는 언급과 함께, 추가로 TechCrunch를 인용하는 코멘트가 있습니다.
- $1.03B는 대규모 컴퓨트와 새로운 아키텍처 실험을 가능케 하는 수준의 베팅이라는 해석이 나옵니다.
- LeCun이 AI 능력에 대해 과장을 피하는 인물이라는 평판과, AMI에서도 실용적/스케일 가능한 접근을 기대하는 의견이 있습니다.
-
Figure robot autonomously cleaning living room (Activity: 1758): Figure AI가 휴머노이드 로봇 Helix 02가 거실을 자율적으로 정리(cleaning/tidy)하는 데모를 공개했습니다. 중력과 다양한 신체 부위를 활용해 장난감을 바구니에 넣고, 리모컨으로 TV를 끄는 등 물리 상호작용 이해가 향상된 듯한 장면이 포함됩니다. 중간 처리 단계가 줄어 더 효율적/유연해졌다는 인상이 있으며, 지시의 추상도와 일반화 능력에 대한 투명성이 중요하다는 논쟁이 뒤따릅니다. Source.
- 중력을 활용해 물체를 떨어뜨리는 등 물리 상호작용 이해가 향상된 사례로 평가됩니다.
- ‘tidy up the room’ 같은 고수준 명령에서 얼마나 자율 추론했는지 vs 사전 프로그래밍인지가 핵심 쟁점입니다.
- 엔터테인먼트성 데모(백플립 등)에서 실용적 작업으로 이동했다는 점이 긍정적으로 언급됩니다.
-
800,000 human brain cells, in a dish, learned to play a video game (Activity: 2605):
800,000개의 인간 뇌세포를 in vitro로 배양해 비디오 게임 Pong를 학습·플레이하게 한 실험을 소개합니다. Cortical Labs의 ‘DishBrain’으로, 뉴런을 컴퓨터 칩과 통합한 생물-컴퓨팅 인터페이스입니다. 시간이 지나며 플레이가 개선되어 기초적 학습/의사결정의 형태를 시사하며, 신경망 이해와 고도 AI 개발에 함의가 있을 수 있다고 설명합니다. 댓글은 윤리/철학적 질문을 함께 제기합니다.
Claude Code Review and Features
-
Introducing Code Review, a new feature for Claude Code. (Activity: 819): Anthropic이 Claude Code의 Code Review 기능을 Team/Enterprise 사용자 대상으로 소개했습니다. 병목인 코드 리뷰를 완화하기 위해 멀티 에이전트 리뷰로 버그를 잡는다고 하며, 내부적으로 PR의 ‘실질적(substantive) 리뷰 코멘트’ 비중이
16%→54%로 늘었고, 잘못된 지적 표시가1%미만이라고 주장합니다. 큰 PR(1,000+ 라인)에서84%가 표면적 발견을 내고, 평균7.5개 이슈를 제시한다고 합니다. 리뷰는 약20 minutes, 비용$15–25로, 속도보다 깊이를 지향하며 인간 리뷰어를 돕지만 자동 승인하지는 않는다고 설명합니다. 자세한 내용은 here. 댓글은 비용과 타깃(엔터프라이즈)에 주목합니다.- PR당
$15–25비용과~20 minutes소요가 스타트업/소규모 팀에는 부담이라는 지적이 있습니다(10–15 PR/day면~$300/day추정). - 결국 인간 리뷰어가 필요하다는 점이 비용 절감 매력을 낮춘다는 의견이 있습니다.
- Anthropic 상태 페이지 언급을 통해, 수개월간 내부 테스트 후 공개된 것으로 보인다는 코멘트가 있습니다.
- PR당
-
Bringing Code Review to Claude Code (Activity: 457): Claude Code의 Code Review가 에이전트 팀으로 PR의 버그를 심각도별로 식별/랭킹하고, 고신호 요약 코멘트와 인라인 플래그를 제공한다는 내용입니다. Team/Enterprise 대상으로 연구 프리뷰/베타이며, 비용은 PR 크기/복잡도에 따라
$15–25정도로 토큰 기반 과금이라고 합니다. 더 자세한 내용은 blog post. 댓글은 가격 대비 가치에 대한 논쟁을 포함합니다.$15–25가 높고, 토큰 과금이라 예측이 어렵다는 우려가 있습니다.- 더 가벼운 대안으로 Claude Code GitHub Action이 언급됩니다.
- 일부는 에이전트와 개인 역량으로 유사 리뷰를 수행할 수 있다고 봅니다.
-
Introducing Code Review, a new feature for Claude Code. (Activity: 891): Claude Code의 Code Review가 연구 프리뷰로 제공되며, 내부 수치로
16%→54%(실질 코멘트 비중),1%미만(오지적), 대형 PR에서84%(발견), 평균7.5이슈 등을 반복합니다. 약20 minutes소요,$15–25비용으로 깊이를 지향하며, 인시던트 예방 관점의 가치 제안을 합니다. 상세는 here. 댓글은 커스텀 자동화와의 비교를 포함합니다.- 커스텀 슬래시 커맨드로 더 빠르고 저렴하게 리뷰를 자동화할 수 있다는 주장.
- 기존
/review커맨드와 무엇이 다른지 차별점 질문. - GitHub 레포의 이슈 #6235에 대한 대응 부재를 지적하는 코멘트가 있습니다.
-
I used Claude Code to build a USB dongle that auto-plays Chrome Dino — no drivers, no host software, just a $2 board and two light sensors (Activity: 653): $2 보드와 2개의 LDR 센서로 Chrome Dino를 자동 플레이하는 ATtiny85 USB 동글 제작 사례입니다. USB HID 키보드로 동작해 드라이버/호스트 소프트웨어가 필요 없고, V-USB HID 스택과 펄스 폭 엔벨로프 측정으로 적응형 타이밍을 구현했습니다. 펌웨어는
avr-gcc로 작성된 베어메탈 C이며, 크기는2699 bytes라고 합니다. Claude Code가 펌웨어(장애물 분류/타이밍)에 도움을 줬고, Codex가 코드 리뷰로 버그를 잡았다는 언급이 있습니다. 링크: GitHub Repo, Blog. -
Hands down the best guide to Claude Cowork (Activity: 1483): Claude AI의 Chat/Cowork/Projects 3모드 비교 가이드 이미지를 소개합니다. 접근/설정/기능 차이, 필요한 스킬, 컨텍스트 처리 등을 비교하며, Cowork/Projects가 Pro Plan을 요구한다는 점을 명시합니다. 댓글에서는 Chat 모드가 ChatGPT처럼 메모리를 유지한다는 언급과, 비교표에 Claude Code를 포함해달라는 의견이 나옵니다.
AI Model Performance and Benchmarks
-
Benchmarking Model Performance: Launch Day vs. Current API Generations (Activity: 189): Gemini 3.1 Pro의 두 시점 출력 비교 이미지로, 시간이 지나 품질이 저하된 듯 보인다는 주장을 소개합니다(2월 2026 vs 5월 2026). 다만 LLM은 확률적(stochastic)이므로 단일 비교로 결론 내리기 어렵고, 여러 번 반복 실행이 필요하다는 논의가 이어집니다.
- 한 댓글은 날짜별로 약 30회 실행해 분산을 고려해야 한다고 말합니다.
-
ChatGPT vs Gemini vs Claude vs Perplexity: I gave them $1k each to trade stocks. After 9 weeks, ChatGPT went from frozen in cash to +21% (one stock doubled) (Activity: 492): 9주 동안 ChatGPT, Gemini, Claude, Perplexity에 각
$1,000을 주고 Alpaca API로 자동 주식 거래를 시킨 실험을 소개합니다. ChatGPT가+21.1%로 선두(헬스케어 주식 올인, IOVA/ACHC 급등 영향)였고, Perplexity는 현금 보유로+1.1%, Gemini/Claude는 각각-6.6%/-11.5%로 부진했다고 합니다. 같은 기간 S&P 500은-1.5%. 실험 자동화와 결과 로그는 GitHub에 공개돼 있습니다.- 결과가 우연일 수 있으니 같은 모델을 여러 인스턴스로 반복해 통계적으로 검증하자는 의견이 있습니다.
- 랜덤 컨트롤(다트 던지기 등)을 포함하자는 제안도 나옵니다.
- 의회 의원 거래를 추적해 모방하는 전략을 모델이 수행할 수 있지 않겠냐는 아이디어가 있습니다.
-
16+ AI Image Models: The Showdown — Midjourney v7, GPT Image 1.5/Mini, Nano Banana Pro/2/1, Kling Kolors v3.0/v2.1, Seedream 5.0 Lite/4.6/4.5/4.1/4.0, Imagen 4, Qwen Image, Runway Gen4 — Same Prompt, Side by Side (Activity: 96): 동일 프롬프트로
16+이미지 모델(예: Midjourney v7, GPT Image 1.5/Mini, Nano Banana, Kling, Seedream, Imagen 4, Qwen Image, Runway Gen4)을 비교한 글을 소개합니다. 디테일, 색 정확도, 스타일 차이를 비교하며, Midjourney v7는 첫인상(연극적 효과)이 강하지만 확대하면 디테일이 부족하다는 비판이 언급됩니다. 전체 글은 here.
AI Discord Recap
공지
- Discord가 오늘 접근을 차단해, 이 형태로는 더 이상 Discord 수집을 제공하지 않는다고 합니다. 다만 새로운 AINews를 곧 출시할 예정이며, 여기까지 읽어준 독자에게 감사 인사를 남겼습니다.