GPT 리얼타임 2 공개 | AI 한 주 뉴스 30+가지 총정리 (2026.05.11)

“GPT 5급 추론이 들어간 음성 AI가 등장하고, 빅테크는 1,100명을 해고하고 1,111명의 AI 인턴을 새로 뽑았다.” 단 한 주 만에 일어난 일이다.

2026년 5월 둘째 주, OpenAI는 GPT 리얼타임 2 시리즈 음성 모델 3종을 공개했고, Anthropic은 SpaceX의 데이터센터를 통째 빌렸으며, Google은 또 새로운 오픈소스 모델을 풀었다. 그리고 Cloudflare가 던진 인력 재편 신호는 “AI 시대의 직업이 무엇인가”라는 질문을 다시 던졌다. 이번 한 주, AI 업계에서 일어난 30가지 이상의 핵심 뉴스를 한 자리에 정리한다.

📌 이번 주 한눈 요약

OpenAI: GPT 리얼타임 2 / 트랜슬레이트 / 위스퍼 + GPT-5.5 인스턴트 + 코덱스 CLI 리모트
Anthropic: SpaceX 콜로서스(22만 GPU) 계약 + 사용 한도 2배 + Ollama 통합
Google: Gemma 4 MTP(속도 3배) + 비하인드 의혹 + Gemini 3.1 Flash Lite + Webhook + 헬스앱
중국·오픈소스: Kimi K2.6 / ERNIE 5.1 / DeepSeek V4 온디바이스 / HiDream 이미지
SubQ: 1,200만 토큰 컨텍스트 모델 등장 (검증 중)
로봇·하드웨어: Boston Dynamics 물구나무 / Figure F03 협업 / AirPods 내장 카메라
인력 시장: Cloudflare 1,111명 인턴 vs 1,100명 감축 + Robert Martin “코딩 시대는 끝났다”
METR 벤치마크: 최신 모델, 인간 전문가 16시간 작업 수행 가능

🚀 1. OpenAI — GPT 리얼타임 2 시리즈가 가장 큰 사건

① GPT 리얼타임 2 — GPT-5급 추론이 음성에 들어왔다

음성 대 음성으로 소통하는 모델이면서, 그 안에 GPT-5급 추론 능력이 네이티브로 통합됐다. 기존에는 음성→텍스트 변환 → GPT-5 입력 → 결과 텍스트 → 다시 음성 합성이라는 복잡한 파이프라인을 거쳐야 했지만, 모든 과정이 하나의 모델로 통합됐고 응답 속도가 압도적이다.

핵심은 함수 호출(Function Calling)·MCP 서버 연동까지 음성으로 가능하다는 점. “삼성전자 현재 주가 알려줘”라고 말로 시키면 종목코드 005930을 조회해서 현재가를 음성으로 답변까지 한 번에 처리한다.

② GPT 리얼타임 트랜슬레이트 — 실시간 통번역 전용

70개 입력 언어 → 13개 출력 언어로 실시간 번역을 처리한다. 행사장에서 귀에 꽂는 동시통역기를 API 하나로 구현할 수 있는 수준. 지연(latency)도 거의 없다.

③ GPT 리얼타임 위스퍼 — 실시간 음성→텍스트

스트리밍 중 모든 언어로 실시간 자막을 생성한다. 오픈소스 데모 ‘AutoPresso’에서는 자막 생성과 동시에 발화 내용을 즐시 슬라이드로 그려내는 사례까지 등장했다.

④ GPT-5.5 인스턴트 — 환각률 52.5% 감소

5.5의 속도 개선 버전. 내부 평가 기준 의학·법률·금융 같은 고위험 프롬프트의 환각성 주장 52.5% 감소, 부정확한 주장 37.3% 감소. 사진·STEM·웹 질문 응답 품질도 개선됐다.

⑤ 코덱스 CLI — 리모트 컨트롤

스마트폰에서도 데스크탑 코덱스 세션을 이어서 작업할 수 있게 됐다. AI 코딩의 모바일 연속성이 확보된 셈.

⑥ 가격 정리

모델	가격
GPT 리얼타임 2 (입력)	100만 토큰당 $32
GPT 리얼타임 2 (출력)	100만 토큰당 $64
GPT 리얼타임 트랜슬레이트	시간당 과금(토큰 X) · 약 시급 2,800~3,000원
GPT 리얼타임 위스퍼	입력 위주 저렴

트랜슬레이트가 시간 단위 과금이라는 점이 특이하다. 토큰 계산이 어려운 실시간 스트리밍에 최적화된 가격 정책으로 보인다.

🟣 2. Anthropic — SpaceX와 22만 GPU 계약, Ollama 통합

① 콜로서스 데이터센터 컴퓨트 계약

Anthropic이 SpaceX와 콜로서스 데이터센터 전체 컴퓨트 용량 사용 계약을 체결했다. 이로써 22만 개 이상의 엔비디아 GPU에 접근하게 됐다.

일론 머스크가 OpenAI 견제를 위해 SpaceX 컴퓨팅을 제공했다는 해석도 있고, 구글의 Anthropic 투자설과 맞물려 흥미로운 구도가 만들어지고 있다.

② 클로드 사용 한도 2배 확대

구독제 사용자의 5시간 사용량 제약이 2배로 확대됐고, 피크 시간대 한도 축소가 제거됐다. Pro·Max 구독자가 가장 체감할 변화다.

③ 클로드 앱에서 Ollama 지원

로컬 모델 실행 도구 Ollama가 클로드 앱 내에서 직접 연결 가능해졌다. 로컬 GPU가 있는 사용자는 토큰 한도 소진 시 로컬 모델로 폴백해서 사실상 무료에 가까운 운용이 가능하다.

🔵 3. Google — Gemma 4 MTP, 그리고 비하인드 의혹

① Gemma 4 MTP — 멀티토큰 예측으로 3배 빨르게

Gemma 4의 새 변형 모델이 멀티토큰 예측(Multi-Token Prediction, MTP) 기법으로 추론 속도를 최대 3배 가속했다. 품질·추론 논리 저하 없이 속도만 향상된 점이 핵심.

② 의혹: 원래 은폐 → 커뮤니티가 파헤쳄다

Gemma 4 MTP는 원래 배포판에서 제거된 채 은폐 상태였다고 한다. 커뮤니티가 리버스 엔지니어링으로 발견했다. 같은 흐름에서 122B 파라미터 모델도 삭제됐다는 정황이 나왔다.

“상용 API의 경쟁력을 위협하기 때문에 의도적으로 너프했다”는 추측, 혹은 “Google I/O를 위해 아껰 둔 것”이라는 긍정적 추측 양쪽이 나오고 있다.

③ Gemini 3.1 Flash Lite

구분	가격(100만 토큰)
텍스트 입력	$0.25
오디오 입력	$0.5
출력	$1.5

④ Gemini API — Webhook 기능 출시

오래 걸리는 AI 작업이 끝나면 지정 URL로 콜백을 보내준다. 긴 체인의 에이전트 워크플로우 구현이 한결 편해진다.

⑤ DeepMind: 이미지 모델 / 수학 모델

이미지 모델(코드명 ‘Mondrian’)은 아레나에서 제한 테스트 중이며 GPT 이미지 2 수준의 품질이 확인됐다. Frontier Math Tier 4 벤치마크에서 DeepMind의 ‘AI Co-Mathematician’이 Claude 4.7·GPT-5.5 대비 압도적인 점수를 기록했다.

⑥ Google Health 앱 출시

Google이 2.4조 원에 인수했던 Fitbit이 Google Health 앱으로 통합됐다. 신규 웨어러블 디바이스와 연계되며, Google AI Pro·Ultra 플랜에 자동 포함된다.

⑦ Chrome 4GB AI 모델 동의 없이 설치 — 논란

크롬 사용자 디렉터리에 약 4GB 가중치 파일이 동의 없이 생성됐다는 사실이 발견돼 논란이 됐다. 온디바이스 AI 가중치 사전 탑재 전략이지만 동의 절차 누락은 별개의 문제다.

⑧ Pomelli Catalog · Stitch 업데이트

Google Labs의 마케팅용 AI ‘Pomelli’에 카탈로그 기능이 추가돼 제품 URL 입력만으로 캐페인 이미지 자동 생성이 가능. ‘Stitch’는 네이티브 이미지 생성 품질 대폭 업그레이드 + Google I/O 관련 ‘something big’ 예고.

🟡 4. 중국·오픈소스 — Kimi · ERNIE · DeepSeek · HiDream

① Kimi K2.6 — 코딩 챌린지에서 클로드·GPT-5.5·Gemini를 이겼다

오픈 모델 Kimi K2.6이 코딩 챌린지 평가에서 Claude·GPT-5.5·Gemini 프론티어 모델들을 제쳤다. 누구나 다운로드해서 쓸 수 있는 오픈 모델이라는 점이 충격적.

② 바이두 ERNIE 5.1

Opus 4.6, Gemini 3.1과 일부 벤치마크에서 상회하는 점수가 나왔다. 중국 모델이 프론티어급에 본격 진입.

③ DS4 — DeepSeek V4 Flash를 맥북에서

Redis 창립자가 공개한 DS4는 158B 파라미터의 DeepSeek V4 Flash를 M3 Max 128GB 맥북에서 2비트 양자화로 로컬 실행한다. M3 Max 기준 속도 약 58.52 토큰/초, 생성 26.68 토큰/초.

④ HiDream — 8B 오픈소스 이미지 모델

Artificial Analysis 기준 Flux 2를 뛰어넘는 성능. 텍스트 표현이 깨지지 않으며 리얼한 이미지 생성이 가능하다.

🟢 5. SubQ — 1,200만 토큰 컨텍스트의 등장 (검증 중)

기존 100만 토큰 컨텍스트의 12배인 1,200만 토큰 윈도우를 가진 모델 SubQ가 공개됐다. 책 120권 분량. 100만 토큰 기준 Flash Attention 대비 52배 빠르고, Opus 비용의 5% 미만이라고 한다. 검증이 끝나면 RAG·청크 분할이 필요 없어지는 패러다임 전환이 가능하다.

🛠 6. 에이전트·툴 — 오픈소스의 약진

Hermes 에이전트 — OpenRouter 토큰 사용량 1위. 메모리 강화된 OpenCode 계열.
Unity AI — 오픈 베타. 내장 에이전트 + MCP 연동 + 레퍼런스 기반 3D 모델 생성 데모.
로컬 3D 모델 생성 — GPU만 있으면 AI 3D 채터를 무료로. 게임 개발 가속화.
OpenScreen — 월 $29 / 연 $9 Screen Studio의 오픈소스 대안.
Grok 컴퓨터 — 파일 시스템 + CLI 액세스 기능 공개.

🤖 7. 하드웨어·로봇 — 카메라 단 에어팟, 협업하는 휴머노이드

① Apple AirPods — 내장 카메라 테스트

내장 카메라가 들어간 차세대 AirPods가 테스트 후반 단계에 있다. 시리의 시각 센서 역할을 해서 화면 없이도 주변 환경에 대한 맥락적 질문이 가능해진다.

② Boston Dynamics — 물구나무 영상

휴머노이드 로봇이 물구나무를 서서 균형을 유지하다가 천천히 내려오고 다시 올라가는 영상이 공개됐다. 움직임이 매우 부드러워졌다는 평.

③ Figure F03 — 풀리 오토노머스 협업

F03 휴머노이드 두 대가 의자 정리·옷걸이·이불 정리를 협업으로 수행하는 영상이 공개됐다. 1배속이며 풀리 오토노머스. 각 로봇이 자체 카메라로 방을 읽고 “동작만으로 파트너의 의도를 추론”한다는 설명.

④ 일본 — 감정 유대를 위한 로봇 혀

일본 연구진이 인간과 동물 간의 감정적 유대 촉진을 목적으로 한 부드러운 로봇 혀를 개발 중이다.

📉 8. 인력 시장 충격 — Cloudflare가 던진 신호

① AI 인턴 1,111명 vs 직원 1,100명

Cloudflare가 AI 인턴 1,111명 신규 채용 + 기존 직원 1,100명 감축을 동시에 발표했다. 단순 수치 차원의 교체가 아니라 “AI 네이티브 인재” 중심으로 회사 구성을 재편한다는 시그널이다.

② “코드를 직접 짜던 시대는 끝났다” — 클린 코드 저자의 선언

Clean Code 저자 Robert Martin이 “개발자가 직접 코드를 짜는 시대는 끝났다”는 메시지를 영상으로 공개했다. 개발자의 역할이 코드 작성에서 설계·검증·맥락 부여로 빠르게 이동하고 있다는 신호.

📊 9. METR 벤치마크 — AI는 인간 16시간 작업을 처리한다

METR은 새로운 모델이 나올 때마다 “인간 전문가가 몇 시간 동안 할 일을 처리할 수 있는가”를 측정한다. 결과는 충격적.

모델	인간 전문가 작업 시간 환산
GPT-5	약 3시간 23분
Claude Opus 4.6	11시간 59분
최신 프론티어 모델	약 16시간
소프트웨어 태스크 한정	Gemini 3.1 등 약 3시간

“GPT-6가 나오면 1년 작업도 수행할 것이고, 나중에는 10년 작업도, 결국에는 농경시대 이후 인류 문명이 수행한 모든 작업을 따라잡을 것.” — 커뮤니티에 도는 농담이지만 증가 속도 자체는 진짜다.

🔚 10. 그래서 이번 주의 의미는?

이번 한 주를 한 줄로 압축하면: “음성으로 GPT-5를 부를 수 있게 됐고, 인간 16시간 작업을 AI가 따라잡았으며, 빅테크는 사람을 교체하기 시작했다.”

핵심 흐름은 셋이다.

모달리티 통합 — 음성·텍스트·이미지·코드가 한 모델로 묶인다. GPT 리얼타임 2가 그 첫 번째 분기점.
컴퓨트 군비 경쟁 — Anthropic의 SpaceX 계약, Google의 비공개 모델 의혹, 중국의 추격. 모든 빅랩이 동시에 가속 페달을 밟고 있다.
인력 구조 재편 — Cloudflare 사례와 Robert Martin의 선언이 같은 방향을 가리킨다. AI 네이티브 인재 중심 조직 재구성.

“AI를 잘 쓰는 1인 창업자”가 살아남는 시대라는 영상의 결론도 같은 맥락이다. 도구를 익히는 것보다 도구로 어떤 가치를 만들 것인가의 시대로 빠르게 이동 중.

여러분이 이번 주 가장 충격이었던 뉴스는 무엇인가요? 댓글로 남겨주세요. 👇

※ 본 글은 유튜브 채널 ‘조코딩’의 2026년 5월 둘째 주 AI 뉴스 정리 영상을 바탕으로 재구성한 의견 콘텐츠입니다. 각 모델의 정확한 사양·가격·출시 시점은 OpenAI·Anthropic·Google·DeepSeek 등 각 공식 채널 발표를 반드시 참고하세요.