GPT-5.5, 장기 사이버 평가 상위권 진입

헤드라인: GPT-5.5, 장기 사이버 평가 상위권 진입

참고 링크: 544 Twitters, AINews’ website, AINews is now a section of Latent Space, opt in/out

GPT-5.5는 장기 사이버 공격 시뮬레이션에서 end-to-end 완료 사례를 만들며 Claude Mythos Preview와 비슷한 성능권에 들어섰다. 동시에 OpenAI는 ChatGPT 계정 보안을 강화했고, Codex는 코딩 도구를 넘어 문서, 슬라이드, 스프레드시트, 리서치, 계획 수립까지 다루는 범용 컴퓨터 작업 에이전트로 확장됐다.

AI Twitter Recap

OpenAI의 GPT-5.5, Codex 확장, 사이버 역량 평가

GPT-5.5가 장기 사이버 작업에서 신뢰할 만한 최상위권에 진입: UK AI Security Institute는 GPT-5.5가 다단계 사이버 공격 시뮬레이션 중 하나를 end-to-end로 완료한 두 번째 모델이 됐다고 보고했다. 후속 게시물들은 이 평가에서 Claude Mythos Preview와 대략 비슷한 수준임을 강조했다. @scaling01은 GPT-5.5의 평균 통과율 **71.4%**와 Mythos의 **68.6%**를 언급했고, @cryps1s는 GPT-5.5가 TLO 체인을 2/10회 해결한 반면 Mythos는 3/10회였다고 밝혔다. @polynoamial은 추론(inference) 예산이 100M tokens를 넘은 뒤에도 성능이 계속 개선돼 아직 뚜렷한 포화가 보이지 않는다고 강조했다. 이는 Anthropic이 공격적 사이버 자동화에서 독보적 우위를 가졌다는 기존 서사를 실질적으로 바꾼다. OpenAI는 이 흐름에 맞춰 제품 측 보안 릴리스도 내놨다. Advanced Account Security for ChatGPT는 피싱 저항 로그인과 강화된 계정 복구를 추가했다.
Codex가 코딩을 넘어 일반 컴퓨터 작업으로 이동: OpenAI는 Codex의 대규모 업데이트를 출시하며 이를 “컴퓨터로 수행하는 모든 작업을 위한, 모두를 위한” 제품으로 명시했다. 메인 발표는 역할 기반 온보딩, 앱 연결, 문서, 슬라이드, 스프레드시트, 리서치, 계획 수립을 아우르는 워크플로를 강조했다. @ajambrosino는 이 업데이트를 작업별 동적 UI, 20% 더 빠른 컴퓨터/브라우저 사용, 개선된 슬라이드/시트 처리, 덜 어색한 핸드오프라고 요약했다. @AriX는 업데이트 후 Computer Use가 42% 더 빨라졌다고 짚었다. Sam Altman은 “big upgrade for codex today! try it for non-coding computer work.”라고 출시를 확산시켰다. 더 큰 패턴은 OpenAI가 단순 모델 성능이 아니라 “computer-use agent” UX를 제품화하고 있다는 점이다.
벤치마크 차이는 점진적이지만 경제적으로 의미 있음: Artificial Analysis는 GPT-5.5 Pro가 CritPt에서 GPT-5.4 Pro를 근소하게 넘는 새 SOTA를 기록했다고 보고했다. 핵심은 원점수가 아니라 그 개선을 프런티어 과학 평가에서 약 60% 낮은 비용과 토큰 사용량으로 달성했다는 점이다. 이는 GPT-5.5 계열이 극적인 지능 단절보다는 고가치 워크플로에서 더 강한 신뢰성과 효율성을 겨냥한다는 넓은 관측과 맞아떨어진다.

오픈 웨이트 모델 동향: Qwen3.6, Tencent Hy3-preview, Grok 4.3, Ling 2.6 1T

Qwen3.6 27B가 이날 가장 중요한 오픈 웨이트 릴리스로 보임: Artificial Analysis는 Qwen3.6 27B를 150B 파라미터 미만 새 오픈 웨이트 선두로 평가했으며 Intelligence Index 46점으로 Gemma 4 31B와 이전 Qwen 변형들을 앞섰다. 핵심 세부사항은 Apache 2.0, 262K context, 네이티브 멀티모달 입력, 단일 H100에 들어가는 BF16 가중치다. 동반 모델인 35B A3B MoE는 43점을 기록해 3B 활성 파라미터 전후에서 가장 강한 오픈 모델이 됐다. 단점은 출력 토큰 기준 추론 비용이 비싸다는 점이다. AA는 Qwen3.6 27B가 평가 묶음에서 약 144M output tokens를 사용했고 Gemma 4 31B보다 대략 21배 비싸다고 추정했다. 그래도 크기 대비 성능에서는 눈에 띄는 진전으로 보인다.
Tencent의 Hy3-preview는 경쟁력은 있지만 동급 최고는 아님: Artificial Analysis는 Hy3-preview를 총 295B / 활성 21B MoE, 256K context, 제한적 상업 사용 커뮤니티 라이선스를 가진 모델로 설명했다. AA Intelligence Index에서는 42점을 받아 Qwen3.6 27B, DeepSeek V4 Flash, GLM-5.1 같은 최근 오픈 경쟁 모델에 뒤졌다. 가장 흥미로운 강점은 CritPt로, GLM-5.1과 같은 **4.6%**를 기록해 전체 순위 대비 과학적 추론(scientific reasoning)이 평균보다 나아 보였다.
xAI의 Grok 4.3은 에이전트 벤치마크에서 크게 개선되고 더 저렴해짐: Artificial Analysis는 Grok 4.3이 Intelligence Index 53점으로 Grok 4.20 v2보다 4점 올랐고, GDPval-AA에서 1500 Elo로 크게 뛰었다고 측정했다. AA는 이전 버전 대비 입력 가격이 약 40%, 출력 가격이 약 60% 낮아졌다고도 보고했다. GDPval-AA에서는 여전히 GPT-5.5에 크게 뒤지지만, 사소한 리비전이 아니라 실제 시스템 및 사후학습(post-training) 개선처럼 보인다.
Ant Group의 Ling 2.6 1T는 프런티어 지위보다 비용 효율을 겨냥: Artificial Analysis는 Ling 2.6 1T를 1T 파라미터 비추론(non-reasoning) 모델로 포지셔닝했으며 점수는 34점이었다. GPQA/HLE 수치는 준수하고 벤치마크 실행 비용은 약 $95로 낮았다. 단점은 신뢰성이다. AA는 AA-Omniscience에서 92% hallucination rate를 보고했다.

DeepSeek 멀티모달/비전 작업, GUI 에이전트, 학습 규모 추정

DeepSeek의 멀티모달 방향은 computer-use 에이전트와 강하게 결합된 듯함: @nrehiew_는 DeepSeek이 V4-Flash에 비전을 학습시킬 때 모델이 추론 중 bounding boxes와 point coordinates를 직접 출력하게 한다고 강조하며, 이를 일반 VLM 작업보다 computer-use 지향 설계로 해석했다. 두 번째 게시물은 논문의 “visual primitives” 작업이 광범위한 멀티모달 이해보다 브라우저/컴퓨터 사용에 직접 대응한다고 주장했다 (link). 이 해석은 DeepSeek이 별도 “V4-Flash-Vision”을 내기보다 비전 가중치를 메인 V4 라인에 다시 통합할 수 있다는 @teortaxesTex의 관측과도 맞다.
저장소 삭제 자체가 뉴스가 됨: 릴리스 뒤 @teortaxesTex와 @arjunkocher를 포함한 여러 관찰자는 DeepSeek의 “Thinking with Visual Primitives” 저장소가 사라졌다고 언급했다. 이 트윗들에서는 명확한 설명이 나오지 않았지만, 해당 작업이 시각 추론(visual reasoning)과 GUI grounding의 구체적 레시피를 시사했기 때문에 삭제는 더 큰 관심을 끌었다.
스케일링 논의는 프런티어 사전학습(pretraining)에 매우 큰 토큰 수가 쓰인다는 쪽을 가리킴: @teortaxesTex는 100T tokens 초과가 이제 프런티어 모델에서 이상하지 않다고 주장하며, 가상의 100T-token DeepSeek V4를 “V4 + 2 more epochs”로 추정했다. @nrehiew_는 약 100B 활성 모델에 대해 약 150T tokens와 약 9e25 pretraining FLOPs를 대략 계산했고, 보수적 MFU 기준 OpenAI급 100K GB200 클러스터에서 약 14일이면 가능한 실행이라고 제안했다. 이는 추정이지만, 실무에서 “frontier-scale”이 무엇을 뜻하는지 보정하는 데 유용하다.

에이전트 인프라, 하네스 엔지니어링, 협업형 에이전트 시스템

모델 중심 과시에서 하네스 중심 엔지니어링으로 분명한 전환: Cursor는 에이전트 하네스를 테스트하고 튜닝하는 방식에 대한 강한 글을 냈다. 초점은 일반 벤치마크 주장이 아니라 런타임, 평가, 성능 저하 복구, 모델별 커스터마이징이었다. @Vtrivedy10는 Cursor 글을 에이전트 빌더 전반에서 수렴 중인 설계 패턴과 연결했다. 모델별 맞춤 프롬프트/도구, 오프라인+온라인 평가 혼합, dogfooding, 컨텍스트 윈도를 주된 컴퓨트 경계로 다루는 방식이다.
LangChain은 배포와 멀티테넌트 에이전트 인프라를 계속 패키징: @hwchase17는 deepagents.toml을 통한 설정 기반 클라우드 배포 흐름인 DeepAgents deploy를 소개했다. agent, sandbox, auth, frontend 섹션을 다룬다. LangChain 직원들의 관련 게시물은 멀티유저 배포에서 데이터 격리, 위임된 자격증명, RBAC를 위한 agent-server 패턴을 자세히 설명했다 (example). 이는 데모를 엔터프라이즈 소프트웨어로 바꾸는 지루하지만 중요한 층이다.
협업형 멀티에이전트 작업공간이 더 구체화됨: @cmpatino_는 Hugging Face buckets와 Spaces를 이질적 에이전트 무리가 메시지, 산출물, 진행 상황을 교환하는 공유 백엔드로 쓰는 Agent Collabs를 소개했다. 주목할 점은 단순히 “에이전트들이 협업한다”가 아니라, 약한 에이전트도 유용한 검증 작업에 기여하고 자원이 더 많은 에이전트가 비싼 실험을 맡게 하는 가벼운 조정 프리미티브다.

보안, 공급망, 계정 강화

오픈소스 패키지 침해는 여전히 급박한 운영 리스크: Socket은 인기 PyPI 패키지 **lightning**의 2.6.2 및 2.6.3 버전이 침해됐다고 보고했다. 악성 코드는 import 시 실행되고 Bun을 다운로드하며, 자격증명 탈취를 겨냥한 11 MB 난독화 JavaScript payload를 실행했다. @theo는 이 사건을 추가 패키지 침해(intercom-client on npm)와 Linux zero day와 연결하며 소프트웨어 공급망 공격의 속도가 빨라지고 있다고 주장했다.
보안 스캐너가 일급 AI 제품이 되는 중: Anthropic은 Claude Security를 출시했다. @kimmonismus와 이후 @_catwu는 이를 취약점 발견을 검증하고 수정안을 제안하는 Opus 4.7 기반 저장소 취약점 스캐너로 설명했다. Cursor도 Cursor Security Review를 내놓아 상시 PR 리뷰와 예약 코드베이스 스캔을 포함했다. 이는 모델 벤더들이 기존 devsecops 카테고리로 직접 이동하는 가장 분명한 사례 중 하나다.

참여도 기준 상위 트윗

OpenAI Codex가 일반 지식 작업으로 확장: OpenAI’s Codex announcement와 Sam Altman’s follow-up은 이날 가장 큰 제품 게시물이었다. “코딩 에이전트”에서 “computer-use agent”로 전략적 전환을 시사했다.
GPT-5.5의 사이버 평가 결과가 중요했음: UK AISI’s thread는 참여도가 높은 기술 게시물 중 하나였고 Anthropic Mythos와의 비교 구도를 바꿨다.
Qwen은 모델뿐 아니라 해석 가능성 도구도 출시: Qwen-Scope는 Qwen 모델용 sparse autoencoders 공개 제품군으로, 원시 모델 가중치보다 feature steering, debugging, data synthesis, evaluation에 초점을 둔 드문 릴리스였다.
Anthropic은 대규모 지침/아첨성 연구를 발표: their analysis of 1M Claude conversations는 행동 연구를 Opus 4.7과 Mythos Preview의 학습 변경과 직접 연결했다. 사후학습 루프가 더 제품화되고 데이터 기반으로 바뀌고 있다는 중요한 신호다.

AI Reddit Recap

/r/LocalLlama + /r/localLLM

AMD in-house ryzen 395 box coming in June (Activity: 1061): AMD AI Dev Day 발표 이미지에는 6월 출시 예정인 AMD Ryzen 395 box가 등장했다. 이 장치는 128GB 통합 메모리를 갖추고 “Ryzen AI Max”를 활용해 200 billion models를 네이티브 지원한다고 주장한다. 발표에서 Lenovo 언급이 있어 Lenovo 제조 제품처럼 보이지만, 한 엔지니어는 본질적으로 128GB를 단 Ryzen 395일 뿐 추가 변경은 없다고 확인했다. 댓글에서는 128GB unified RAM에서 200B model을 실행하는 실용성에 회의적이었다. Linux에서도 사용 가능한 VRAM이 약 116GB라 충분하지 않을 수 있다는 지적, AMD가 새 하드웨어보다 drivers/ROCm 개선을 먼저 해야 한다는 의견, 512GB 통합 메모리가 필요하다는 반응이 나왔다.
AMD Halo Box (Ryzen 395 128GB) photos (Activity: 467): Ryzen 395와 128GB RAM을 탑재한 AMD Halo Box가 Ubuntu를 실행하는 모습으로 공개됐다. 이 장치에는 프로그래머블 라이트 스트립이 있어 커스터마이징이 가능하지만, CD-ROM 드라이브가 없고 클러스터링용 고속 포트도 없다. 댓글에서는 고성능 컴퓨팅 환경에서 빠른 인터커넥트 부재가 제약이 될 수 있고, AMD 제품의 메모리 대역폭 확대 요구가 계속된다고 지적했다. 작은 폼팩터는 공간 효율과 휴대성에는 장점이지만 확장성과 냉각에는 제약이 있을 수 있다.
Qwen-Scope: Official Sparse Autoencoders (SAEs) for Qwen 3.5 models (Activity: 393): Qwen-Scope는 Qwen 3.5 models용 Sparse Autoencoders(SAEs) 모음으로, 2B부터 35B MoE까지 모든 레이어의 내부 특징을 매핑하도록 설계됐다. 모델 내부 개념 사전처럼 작동해 refusal 같은 특정 특징을 억제하는 Surgical Abliteration, 원하는 개념을 활성화하는 Feature Steering, 토큰이 유발하는 내부 방향을 찾는 Model Debugging 같은 정밀 개입을 가능하게 한다. 릴리스는 Apache 2.0 license지만 Qwen 팀은 안전 필터 제거에 쓰지 말라고 권고했다. 도구는 Space demo와 technical paper에서 소개됐다. 댓글에서는 dense 27B 모델을 위한 최대급 오픈소스 해석 가능성 도구일 수 있다는 점과 Qwen 3.6용 유사 도구에 대한 기대가 나왔다.
Qwen 3.6 35b a3b is INSANE even for VRAM-constrained systems (Activity: 480): 이 게시물은 AMD 7700 XT, 32GB DDR4 RAM, Ryzen 5 5600을 갖춘 VRAM 제약 시스템에서 로컬 LLM Qwen 3.6 35B-A3B의 성능을 다뤘다. 사용자는 i1-q4_k_s quant, 128k context, flash attention, Q8_0 KV quantization 설정으로 웹 스크래퍼 버그 수정과 스크린샷을 포함한 README 업데이트 같은 복잡한 코딩 작업을 처리했다고 밝혔다. 이 모델은 Gemma 3, Gemma 4, Qwen 2.5 Coder가 실패한 작업을 실패한 tool call 없이 수행했다. 댓글에서는 추가 experts를 CPU로 옮기고 KV cache를 GPU에 맞춰 30 t/s 이상을 얻는 최적화, 소비자 VRAM에서 코딩 워크플로를 돌릴 가능성, policy reasoning 벤치마크에서 35B A3B가 27B보다 높은 96 대 92를 기록했다는 비교가 나왔다.
mistralai/Mistral-Medium-3.5-128B · Hugging Face (Activity: 1120): Mistral Medium 3.5는 instruction-following, reasoning, coding 작업을 위해 설계된 dense 128B 파라미터 모델이며 256k 컨텍스트 윈도를 가진다. 텍스트와 이미지를 포함한 멀티모달 입력을 지원하고 요청별 reasoning effort를 설정해 빠른 응답과 복잡한 추론 사이를 전환할 수 있다. 다국어, 시스템 프롬프트를 지원하며 Modified MIT License로 공개됐다. Mistral Medium 3.1과 Devstral 2를 대체하며 통합 아키텍처에서 향상된 성능을 약속한다. 복잡한 작업에는 reasoning_effort를 “high”로 두고 temperature 0.7을 쓰는 것이 권장됐다. 댓글에서는 Strix Halo에서 llama.cpp build 8967로 mistral-medium-3.5-128b-q4를 실행한 결과 3.26 t/s 생성 속도와 46.70 t/s 프롬프트 처리 속도가 공유됐고, 128B dense 모델의 독특한 위치와 Qwen 27B 같은 모델과의 비교가 논의됐다.
Mistral Medium 3.5 Launched (Activity: 369): Mistral Medium 3.5는 instruction-following, reasoning, coding 기능을 통합한 128B dense 모델로 출시됐다. 오픈 웨이트로 제공되며, 월 매출이 $20M를 넘는 기업에는 상업 사용 시 라이선스 비용을 요구하는 modified MIT license가 적용된다. 이 모델은 클라우드에서 여러 비동기 코딩 세션을 병렬로 실행할 수 있고, Le Chat의 복잡한 워크플로용 Work mode를 도입한다. 자세한 내용은 Hugging Face와 Mistral’s announcement에서 확인할 수 있다. 댓글에서는 이 라이선스를 “modified MIT license”라고 부르는 것이 전통적 MIT 조건과 다르기 때문에 오해를 부른다는 논쟁이 있었다.

Less Technical Subreddits

Launched My First App Using Claude (Activity: 654): 사용자는 Claude로 만든 차량 관리 앱을 출시했다. 비용 추적, 맞춤형 정비 일정, 연료 추적, showroom mode, Claude API 기반 AI assistant를 제공한다. 앱은 프런트엔드 중심이고 로컬 데이터 저장을 사용하지만 API 호출에는 데이터베이스가 필요하다. 개발자는 Play Store 버전을 작업 중이며 성장을 위한 피드백을 요청했다. App Link. 댓글에서는 영국에서 경찰도 쓰는 Vehicle Smart와 비교하며 정비 기능이 더 잘 만들어진 것 같다는 평가, Swift, Expo, Tauri 중 무엇으로 만들었는지에 대한 질문, 휴대폰 분실 시 데이터 손실을 막기 위한 클라우드 저장과 PII 보호 필요성이 나왔다.
The final nail in the coffin for entry level creative freelancers just dropped (Activity: 940): Anthropic은 Claude가 Python API를 통해 Blender를 제어할 수 있게 하는 Blender MCP connector를 공개했다. 이 통합은 자연어 명령으로 3D 장면을 만들고 수정하게 하며 Blender 안에서 “copilot”처럼 작동한다. 노드 설정 디버깅, 일괄 변경, 커스텀 도구 추가 등을 처리할 수 있어 제품 렌더와 low-poly asset 제작 같은 초급 프리랜서 작업 수요를 줄일 수 있다. 댓글 일부는 AI 산출물 품질에 회의적이었고, 저품질 게임과 앱이 늘어날 수 있다고 봤다. 다른 댓글은 이 발표의 중요성을 과장된 미디어식 논의로 치부했다.
Claude is my SEO strategist, content engine, and CTO. From 0 to 10,000 active users in 6 weeks, $0 on ads. (Activity: 1039): Reddit 이미지에는 Claude와 Lovable 같은 AI 도구로 만든 marketplace Agensi의 분석 대시보드가 보인다. 대시보드는 광고비 없이 6주 만에 10,000 active users, 263.3% 증가, 9,900 new users, 262.0% 증가를 보여준다. 성장은 Claude를 SEO, content strategy, AEO(answer engine optimization)에 전략적으로 활용해 Google Search Console 데이터를 분석하고 키워드 빈틈과 콘텐츠 구조를 최적화한 결과로 설명됐다. 댓글 일부는 진위와 독창성에 회의적이었고, “generic AI slop”이나 스팸일 수 있으며 게시물 자체도 AI가 썼는지 의심했다.
How not to run an ai company (Activity: 934): 이미지는 AI 회사의 상태 대시보드를 보여주며 여러 서비스가 “Major Outage”를 겪는 모습이다. 대상 서비스는 claude.ai, Claude Console, Claude API, Claude Code, Claude Cowork, Claude for Government이며 uptime은 98.69%부터 99.88%까지다. 이는 AI 회사가 안정적 성능을 목표로 할 때 서비스 신뢰성을 유지하는 운영상의 어려움을 시사한다. 댓글에서는 이런 장애가 첨단 AI 회사에 흔한 일인지, “go fast and break things” 접근의 일부인지, 성숙한 SaaS 회사에는 부적절한지 논쟁했다.
I wasn’t ready for DeepSeek V4 (Activity: 176): 이미지는 DeepSeek V4 대시보드로 지출, 토큰 사용량, 캐시 절감액 같은 지표를 보여준다. 총 지출은 $1,050.86, 캐시 절감액은 $3,351.43로 상당한 비용 효율을 시사한다. 대시보드는 DeepSeek Chat, DeepSeek V4 Pro, DeepSeek V4 Flash를 비교하며 V4 Flash가 이전에 사용하던 Claude 모델을 포함한 다른 모델보다 우수하다고 강조한다. 댓글에서는 V4 모델의 가격, 속도, 효율 개선이 혁명적이며 시장이 아직 잠재력을 충분히 인식하지 못했다고 봤다. 어떤 대시보드나 앱을 사용했는지에 대한 호기심도 있었다.
Deepseek V4 pro reminds me of Claude 4.6 sonnet (Activity: 175): 게시물은 Deepseek V4 Pro를 Claude 4.6 Sonnet과 비교하며 창의성과 코딩, 특히 HTML 작업 능력을 논했다. preview 단계인 만큼 잠재력은 있지만 roleplay 일관성과 character adherence에 어려움이 있고, 0.6 같은 낮은 temperature에서도 지시를 무시하는 경우가 있다고 했다. 사용자는 대부분 작업에서 Kimi K2.6을 선호한다고도 언급했다. 댓글에서는 DeepSeek V4 Pro가 roleplay에서 캐릭터 특성과 장면 일관성을 유지하기 어렵다는 문제, 일반 코딩과 디버깅에서는 Qwen 3.6 Plus가 강하지만 Rust 코드와 상세 코드 분석에서는 DeepSeek이 낫다는 비교, Hermes 플랫폼에서 Opus 4.7보다 실수가 적었다는 경험담이 나왔다.
bro this is too cheap i think finally i have a respect for the deepseek (Activity: 132): 게시물은 DeepSeek 가격을 논하며 낮은 비용이 DeepSeek V4 Flash 가격인지, 아니면 연말까지 비쌀 것으로 예상되는 Pro 버전과 관련 있는지 질문했다. 수정 내용에는 Pro 버전이 현재 할인 중이라고 적혔다. 댓글에서는 저렴한 가격이 일시 할인인지 근본적 가격 전략 변화인지, 캐시 히트가 출력 토큰 비용에 영향을 미치는지 논의했다. DeepSeek의 disk-based KV cache가 몇 시간 유지돼 일반적인 5분 캐시보다 견고하고 캐시된 입력을 거의 무료로 만들어 비용 효율을 높인다는 의견도 있었다. 다만 DeepSeek V4의 creative writing 성능은 이전 버전보다 낮아졌지만 RP와 agentic tasks에는 여전히 효과적이라는 평가가 나왔다.
ICML 2026 Decision [D] (Activity: 1124): 게시물은 ICML 2026 결정 공개를 기다리는 분위기를 다뤘다. 커뮤니티는 OpenReview 같은 플랫폼을 계속 확인하며 최신 정보를 기다리고 있다. 이는 학회 결정 기간에 연구자들이 겪는 높은 긴장과 불안을 보여준다. 댓글은 반복적으로 플랫폼을 확인하는 행동을 유머러스하게 반영했다.
Seems ICML is rejecting MANY unanimous positively rated papers [D] (Activity: 202): 게시물은 ICML 리뷰 프로세스에 대한 우려를 제기했다. rebuttal 단계에서 리뷰어들이 긴 논의를 피하려고 점수를 조정해야 한다는 압박을 느끼며, 이로 인해 점수가 논문 merit를 반드시 반영하지 않는다는 주장이다. 제한된 수용 규모 때문에 만장일치로 긍정 평가를 받은 논문도 많이 거절된다고 했다. 저자는 독립 평가를 제공한 뒤 Area Chairs(ACs)가 품질과 일관성을 평가하고 경계 사례만 논의하는 더 단순한 피어리뷰로 돌아가자고 제안했다. 댓글에서는 평균 4.5나 4/4/4/4처럼 높은 점수의 논문이 거절된 사례, AC가 만장일치 긍정 리뷰를 명확한 appeal mechanism 없이 뒤집는 듯한 구조, rebuttal에서 우려를 해결했는데도 같은 문제가 거절 사유로 다시 등장했다는 불만이 나왔다.
Chinese nexus/network in A* conferences rejecting non chinese papers [D] (Activity: 112): 게시물은 최상위 AI 학회 리뷰에서 중국 네트워크와 관련된 족벌주의 및 편향 의혹을 제기했다. 작성자는 중국 리뷰어들이 중국 저자 논문을 선호할 수 있고 WeChat 같은 앱을 통한 조율이 가능하다고 주장했다. 예시로 한 리뷰어가 중국 저자의 작업을 인용하지 않은 데 불만을 표했다는 사례가 들렸다. IJCAI 26 같은 학회에서 중국 대학의 연구 품질이 낮은 논문이 수락되는 반면 비중국 저자는 더 혹독한 비판을 받는다는 주장도 있었다. 댓글에서는 중국 연구자들 사이의 상호 리뷰와 정보 공유 의혹, 리뷰 과정 중 한 중국 연구자가 내부 정보를 알고 있다는 듯 연락했다는 경험담, ECCV에서 중국 co-author 논문은 리뷰를 받았지만 본인은 리뷰 초대를 받지 못했다는 관찰이 나왔다.

AI Discord Recap

AINews

Discord 접근 종료: 안타깝게도 Discord가 오늘 접근을 차단했다. 이 형태로는 다시 가져오지 않을 예정이지만, 새로운 AINews를 곧 출시할 예정이다. 여기까지 읽어줘서 감사하며, 좋은 여정이었다.

오늘의 요약

헤드라인: GPT-5.5, 장기 사이버 평가 상위권 진입

AI Twitter Recap

OpenAI의 GPT-5.5, Codex 확장, 사이버 역량 평가

오픈 웨이트 모델 동향: Qwen3.6, Tencent Hy3-preview, Grok 4.3, Ling 2.6 1T

DeepSeek 멀티모달/비전 작업, GUI 에이전트, 학습 규모 추정

에이전트 인프라, 하네스 엔지니어링, 협업형 에이전트 시스템

보안, 공급망, 계정 강화

참여도 기준 상위 트윗

AI Reddit Recap

/r/LocalLlama + /r/localLLM

Less Technical Subreddits

AI Discord Recap

AINews