AI Frontier

EP 81

DeepSeek이 바꿔버린 모든 것: MoE와 RLVR, 2025년 AI 회고

· 노정석, 최승준, 김성현 · 1:11:40

EP 81. DeepSeek이 바꿔버린 모든 것: MoE와 RLVR, 2025년 AI 회고

오프닝: 2025 회고와 2026 전망 00:00

00:00 노정석 녹화를 하고 있는 오늘은 2025년 12월 27일 토요일 아침입니다. 2025년이 이제 드디어 끝나가고 있습니다. 정말 많은 일들이 있었는데요. 2025년이 특히나 이렇게 변화의 속도가 너무 가팔랐기 때문에 한번 recap을 하고 그리고 2026년에 어떤 일이 일어날지 한번 예상해 보는 건 좋을 것 같아서 성현님 모시고 소중한 시간 갖게 되었습니다. 성현님, 어서 오십시오.

DeepSeek-R1 이후: RLVR·에이전트 포스트트레이닝 00:29

00:29 김성현 2025년 회고를 이런 형태로 하게 될 줄은 몰랐네요. 그렇지만 재미있는 기회가 될 것 같습니다. 2025년에 정말 많은 일이 있었던 것 같기는 합니다. 그런데 이 회고를 해보려고 다시 과거의 기록들 같은 것들을 쭉 살펴보니까 생각보다 그렇게 많은 변화가 있었던 것 같지 않기도 하더라고요.

2025년 초에 있었던 R1, DeepSeek 사건으로 한 번 패러다임이 확 전환된 이후에 그 이후에 있었던 일은 점진적인 발전에 가까운 것 같기는 합니다. RLVR과 에이전트 포스트트레이닝이라는 새로운 패러다임이 등장했고 2025년 초에, 2025년 내내 그 패러다임을 발전시키고 이해하고 탐색하는 것으로 2025년이 지나간 것 같긴 합니다.

학술적인 것과는 약간의 별개로 혹은 학술적인 것과 걸쳐서 있었던 일 중에서 가장 흥미로운 것은 수많은 오픈 프런티어 모델들이 등장했다는 게 가장 큰 지점인 것 같습니다. DeepSeek, MiniMax, Z.ai, Xiaomi, Tencent, Moonshot, Ant, Alibaba, Meituan 등등 수많은 기업들이 모델을 공개했고

2025 변화 #1: 중국발 오픈 프런티어 모델 붐과 주도권 01:20

01:40 김성현 이 모델들이 단순히 이전 같은 경우에는 70B, 커도 70B 정도 되는 규모의 Llama 2 정도 규모의 모델을 개발해서 공개하는 형태가 많았는데, 2025년에 공개된 모델들은 거의 대부분 프런티어 혹은 준 프런티어 수준의 모델들입니다. 그리고 이 기업들이 대부분 프런티어를 노리고 있어요. 이게 저는 가장 큰 2025년의 변화라고도 생각합니다.

2024년 같은 경우에는 우리가 할 수 있는 자원 내에서 할 수 있는 정도로 하자. 그리고 그게 프런티어라기보다는 소위 좀 더 작은 모델들이라거나 효율적인 모델들이라거나 이런 것에 대한 관심이 높았고 관심이 높았다기보다는 그게 한계였다고 생각할 수도 있겠죠. 그랬던 것 같은데 2025년에는 그런 모델들이 거의 줄어들었습니다. 모델을 공개하는 거의 대부분의 주요 회사들은 대부분 프런티어급을 노리고 있고 더 큰 모델, 더 강력한 모델들을 노리고 있어요. 그리고 이게 저는 사고나 흐름의 굉장히 큰 변화라고 생각합니다.

02:42 최승준 다 중국이에요.

02:44 노정석 써주신 모델은 전부 100% 중국 아닌가요?

02:50 김성현 네, 100% 다 중국입니다. 중국 외의 모델들 중에서 프런티어 모델이라고 부를 만하면서 인상적인 결과를 만든 모델이 나온 게 거의 없습니다. Llama 4 같은 게 있었는데 Llama 4는 별로 인상적인 흔적을 남기지 못했고요. 이제 연말쯤에 Mistral이 어떤 모델을 내려고 하고 있긴 한데 그건 이제 프런티어급 모델은 오픈 모델이 아니었던 것 같습니다. 그래서 중국이 다 주도를 했죠. 그리고 중국은 비교적 제약된 컴퓨팅 파워 속에서 또 다들 프런티어를 노리고 더 다음 단계로 나아가려고 하고 있습니다. 그게 중대한 패러다임의 전환인 것 같아요. 더 이상 작고 적당한 모델에 대한 관심은 그렇게 높지 않은 것 같습니다. 다들 더 고성능의 모델, 더 큰 모델을 추구하고 있는 것 같아요. 그리고 이게 저는 2025년의 가장 큰 변화 중 하나라고 생각합니다. 정말 수많은 다양한 기업들이 모델을 만들고 있죠.

03:39 노정석 중국밖에 없네요. 정말

03:43 김성현 중국밖에 없습니다. 특히 모델을 공개하는 경우는 중국밖에 없습니다.

DeepSeek이 바꿔버린 것: 모두가 프론티어를 노린다 03:47

03:47 김성현 그리고 이런 변화가 가능했던 이유는 사실 중국은 결국 여전히 연산력에서 굉장히 제약이 많은 상황인데 그렇게 생각하면 이 연산력 내에서 할 수 있는 걸 하자, 작은 모델, 좀 강력한 모델을 만들자, 이런 흐름이 있었다고 하면, 이 작은 연산력으로도 프런티어급을 노릴 수 있다는 것이 증명이 되었기 때문에 이런 변화가 생겼다고 볼 수 있을 것 같아요.

거기에서 가장 큰 역할을 한 게 여전히 DeepSeek이라고 생각합니다. DeepSeek이 제한된 연산 자원, 800~2,000대 분량 정도의 연산 자원으로도 프런티어를 노릴 수 있다는 걸 보여줬고 그게 증명되고 나니까 모두가 그렇다면 프런티어를 노려야겠다는 쪽으로 전환되기 시작했죠. 모두가 더 큰 모델, 더 강력한 모델로 나아가기 시작한 거죠.

MoE 그래프 해설: dense vs MoE, 연산 배수 04:34

04:34 최승준 이 그래프는 어떻게 읽어야 되는 건가요?

04:40 김성현 사실 이 그래프를 넣을까 말까 굉장히 고민을 많이 했는데요. 어떻게 직관적으로 이해할 수 있을까 생각해 보면 가장 연한 하늘색 부분이 어떻게 보면 소위 dense model이라고 보시면 됩니다. 그리고 위의 이 선들이 MoE 모델들이라고 보시면 될 것 같아요. 여기 이 legend가 좀 잘못되어 있는데 이게 MoE 모델들입니다. 이 그래프가 굉장히 중요하고 임팩트가 있는 게 밑에 있는 것이 학습 연산량이거든요. 학습 연산량이 10의 24승 정도라고 하면 프런티어 모델에는 조금 못 미치는 정도의 연산 규모입니다. 이 연산 규모에서 MoE 모델의 성능은 dense model에 비해서 7배 이상이라는 겁니다. 다르게 말하면 10의 24승의 연산력을 쓴 모델로 비교했을 때 dense model에 비해서 MoE 모델은 dense model의 7배 정도의 연산력을 부은 것과 비슷한 성능을 낸다는 겁니다. 그러니까 dense model에 10의 24승 연산력을 썼을 때 똑같은 연산력을 써서 MoE를 만들면, MoE 모델을 만들면 7 곱하기 10의 24승 정도의 성능이 나온다는 거죠. 이게 굉장히 임팩트가 있는 게, 학습 연산량이 증가할수록 이 배수가 커집니다. 이건 굉장히 드문 현상이거든요. 모델에서는 사실 직선으로 두 배가 유지된다는 것만으로도 엄청난 발견인데 지금까지 알려진 바로는 MoE 모델 같은 경우는 학습 연산량이 증가하면 증가할수록 이 배수가 더 커집니다. 그러니까 더더욱 좋아지는 거죠. dense model에 비해서 MoE 모델을 쓰지 않을 이유가 사라집니다. 이제 이렇게 되면 쓰지 않으면 이상해지는 거죠.

sparsity와 compute multiplier: 왜 MoE가 유리한가 06:14

06:14 최승준 그런데 MoE 모델이 세 가지가 있다는 이게 왜 분리가 되어 있는 거죠.

06:24 김성현 이게 sparsity라고 부르는 건데요. 전체 파라미터 중에서 실제로 한 번 inference 토큰을 예측할 때 쓰는 파라미터 수의 비율이라고 보시면 됩니다.

06:32 최승준 더 잘게 쪼개진 것, 뭐 그런 느낌인 건가요?

06:35 김성현 네, 예를 들면 이건 전체 파라미터 중에 4분의 1만 쓰는 거죠. 그런데 위에 있는 건 전체 파라미터 중에 50분의 1만 쓰는 겁니다. 예를 들면 사용하는 파라미터 수가 적어지면, 사용하는 파라미터 수가 적어지면 적어질수록, 혹은 더 희소해질수록 이 승수라고 표현해야 할까요? compute multiplier라고 표현하는데 compute multiplier, 연산 배수는 더 커지는 겁니다. 기울기가 더 커지고 있죠. 이건 물론 FLOPs로 계산하는 거기 때문에 실제 추론의 조건이라든지 메모리 대역폭 같은 것들을 고려하면 반드시 이렇게 되지는 않기는 합니다. 그렇지만 순수하게 학습 연산량 측면에서만 봐도 이런 형태의 패턴이 나타난다는 것 자체가 굉장히 놀라운 일이죠.

07:20 최승준 scaling law까지는 아니지만 약간 비슷한 느낌적인 느낌이 있네요.

07:26 김성현 일종의 scaling law입니다. 이것도 scaling law가 두 가지 component가 있는데 exponent라고, 제곱의 승수라고 부르는 exponent가 있고 그 앞에 계수가 있는데 exponent가 변화하는 형태의 패턴이 되면 이런 것들이 나타납니다. 그렇게 되면 이건 쓰지 않으면, 소위 말해 쓰지 않으면 이상한 형태의 기술적 발전이 되죠. MoE가 그런 역할을 했습니다.

MoE 대세와 DeepSeek 레시피의 확산 07:48

07:51 김성현 2024년까지만 해도 MoE 모델은 드물었는데 지금 2025년에 나오는 모델들은 거의 대부분 MoE 모델입니다. 소위 엣지 디바이스 같은 사례를 제외하면 다 MoE 모델이고 GPT-OSS 같은 모델만 해도 상당히 희소한 MoE 모델이었습니다. 그리고 이 MoE의 레시피를 잘 정립한 것이 DeepSeek의 굉장히 큰 기여입니다. 그리고 어떻게 보면 DeepSeek이 설계한 아키텍처가 이전 세대의 Llama 같은 아키텍처가 되어서 그 베이스 아키텍처가 되었습니다.

그래서 Kimi 같은, Moonshot의 Kimi 같은 모델의 경우에는 DeepSeek 아키텍처를 굳이 개선하려고 노력하는 게 불필요하다. 이 아키텍처는 충분히 좋기 때문에 이 아키텍처의 기본적인 구조를 그대로 끌고 가면 된다, 이런 얘기를 하면서 그대로 채택해 버리는 형태의 작업도 했고, Mistral도 아마 비슷한 행동을 했던 것 같습니다. 그만큼 굉장히 잘 정립된 MoE 아키텍처를 DeepSeek이 선구자적으로 개발했고 이걸 통해서 모두가 이 아키텍처를 쓰면 이 아키텍처를 채택하면 우리의 굉장히 제한된 연산력만으로도 GPT-4 그 이상을 노릴 수 있다는 걸 경험을 했죠. 이게 굉장히 중요한 컴포넌트였습니다.

MoE의 원리: 희소성·모듈화·라우팅 관점 09:01

09:01 노정석 MoE는 참 직관적으로는 ‘그래, 그러면 좋겠지’라고 이해가 되지만 그럼에도 불구하고 또 이해가 안 되는 그런 영역이긴 해요. 이게 저희가 expert라고 하면 수학은 이 expert가 하고 과학은 이 expert가 하고 이런 식으로 생각하기 쉬운데 사실은 그렇지 않잖아요. 매 토큰마다 전부 다른 expert 라우팅을 타고 그 안에서도 share되는 거 있고 7개 동시에 activation되고 이런 것들이 전부 hyperparameter로 구성돼 있잖아요. 성현님, 이게 MoE에 이론적인 배경 같은 게 좀 밝혀진 건 있나요? 이게 왜 되는지.

09:37 김성현 최근에 MoE 모델 같은 경우는 희소성이라고 보는 게 가장 좋을 것 같습니다. 희소성이라는 개념으로 생각하는 게 굉장히 좋을 것 같고 굉장히 잠재적인 모듈이 수백 개가 있다고 할 때 실제로 매번 쓰는 것들은 그 모듈 중 일부만 쓰는 거죠. 이런 상황을 희소하다고 표현할 수 있습니다. 그리고 그 희소성을 통해서 실제 매번 사용하는 연산의 양은 제한되어 있죠. 왜냐하면 실질적으로 사용하는 파라미터는 그중에서 일부만 사용하니까요. 그건 고정되어 있습니다. 전체 파라미터는 굉장히 많기 때문에 그리고 매번 경우에 따라서, 어떤 토큰에 따라서 다른 모듈을 사용하기 때문에 실제 전체 파라미터가 증폭되는 효과가 있다고 볼 수 있습니다. 설명이 좀 어려운 것 같긴 한데요.

10:26 노정석 네, 어렵죠. 어려운데 이거 설명이 참 애매합니다.

10:34 최승준 그냥 막연하긴 한데 이게 모듈화되어 있고 직교적이어서 조합 가능한 그런 느낌도 있는 건가요?

10:38 김성현 네, 그렇습니다. 조합 가능성을 열어준 게 DeepSeek이기도 한데요. 모듈화되어 있고 그중 각각의 모듈 중 일부만 쓴다. 경우에 따라서 그렇지만 모듈이 굉장히 여러 개 준비되어 있기 때문에 전체 시스템의 측면에서는 굉장히 큰 모델의 효과를 낸다 이렇게 생각할 수 있을 것 같습니다. 23년, 24년에도 MoE가 좋은 방향이라는 생각을 많이 했지만 이렇게 좋을 거라는 생각은 다들 못 했던 것 같습니다. GPT-4가 MoE라는 게 알려진 시점에서도 계속 경험이 쌓이다 보니까 그냥 좋은 정도가 아니라 ‘너무 좋은 것 같은데?’ 하는 느낌이 드는 거죠.

11:13 최승준 이게 1번이군요, 2025년에.

11:17 김성현 MoE가 1번입니다. 그리고 이 모든 모델들이 이제 MoE로 변화했고 MoE가 아닌 모델들이 굉장히 드문 상황이죠.

11:23 최승준 정석님이 리뷰하셨던 Kimi k2에서도 MoE에서 단위로 쪼갠 게 굉장히 많았던, 몇천 개였나요?

11:32 노정석 아니요, 몇백 개 수준입니다. DeepSeek보다 더 숫자를 늘린 걸로 그렇게 했는데 전체적인 아키텍처는 똑같았고 성현님이 아까 말씀하셨던 저 sparsity 관련한 효율이 어느 정도가 optimal인지 이런 실험들 몇 개 했었던 것 같습니다.

11:46 최승준 중요한 키워드가 또 sparsity가 되는 거네요. MoE와 연결돼서.

11:53 노정석 2025년 1번으로 꼽아주신 게 MoE고요. MoE는 Mixture of Experts, expert들을 섞었다 이런 뜻입니다.

11:58 최승준 이름이 좀 이상해요. 쭉쭉 가보시죠.

2025 변화 #2: RLVR 공개와 추론 모델의 확산 12:01

12:03 김성현 그리고 그다음은 RLVR일 것 같고요. 이게 o1의 방법을 거의 공개해 버리면서 이게 엄청난 큰 변화를 만들어줬고 이것 또한 결국 DeepSeek이 해준 일이었습니다.

12:14 노정석 그러니까요.

12:15 최승준 참 생각해보면 놀랍네요.

12:19 노정석 큰일 했어요. 24년 말에 DeepSeek-V3 페이퍼가 나오면서 MoE나 이런 것들을 규정했고 RLVR이 2025년 1월에 DeepSeek-R1이라는 모델이 나오면서 그 페이퍼와 함께 나온 방법론이었죠.

12:38 김성현 사실 DeepSeek의 영향력은 오히려 과소평가된 것 같기도 합니다. 이거 자체가 패러다임과 시장의 상황을 너무 크게 바꾼 것 같아요. 그리고 RLVR이라는 방법, 검증 가능한 방식으로 정답을 사용해서 보상을 주면 추론이 학습된다. 2024년 내내 사람들이 탐색했던 것들 가운데서 생각할 수 있는 가장 단순한 방법으로 이 방법의 핵심에 종지부를 찍어줬죠. 그리고 이게 o1의 방법에 대한 강력한 단서를 주면서 이걸 기반으로 o1와 같은 추론 모델들을 개발하는 게 가능해졌습니다. 추론 자체가 모델의 성능을 굉장히 크게 올렸고 또 에이전트 포스트트레이닝이라고 하는 것들의 하나의 방면을 열어줬죠.

추론이라는 게 단순히 수학 문제를 열심히 생각해서 푼다는 것뿐만 아니라 모델이 도구를 사용하고 어떤 외부 환경과 상호작용하고 그리고 그 상호작용한 걸 통해서 에이전트로서 어떤 작업을 수행하는 그 과정 전체에 대해서 RLVR이라는 개념 하에서 보상을 주고 모델을 학습시키면서 모델 자체가 에이전트로서 학습되기 시작하는 겁니다.

이거 자체가 굉장히 큰 영향을 미쳤고 지금 시장에서 영향을 미쳤고 지금 나오고 있는 프런티어 모델들은 이전 같은 경우는 예를 들어서 간단하게 base pre-training만 한 다음에 post-training을 살짝 해준다. instruction following post-training을 살짝 해준다는 것만으로도 모델을 자랑스럽게 낼 수 있었다고 하면 지금 모델들은 에이전트 포스트트레이닝과 추론 같은 것들이 굉장히 기본적으로 탑재되게 됐죠. 이것 자체가 굉장히 큰 변화를 일으켰고 그리고 모델의 사용성이나 가능성 측면에서 엄청나게 큰 변화를 일으켰습니다. 에이전트 모델들이 실제 시장에서 어떤 임팩트를 미쳤는지는 굳이 강조하지 않아도 될 것 같습니다. 지금 나와 있는 코딩 에이전트라든지 여러 가지 모든 에이전트들이 다 이런 에이전트 포스트트레이닝을 통해서 가능해진 결과이죠.

14:27 최승준 그러면 이렇게 말하면 어폐가 있나요? RLHF가 챗봇을 만들기 위한 post-training이었다면 RLVR은 에이전트를 만들기 위한 post-training이다.

14:39 김성현 네, 그리고 RLVR을 통해서 모델을 에이전트로 학습시키는 것이 가능해졌다고 생각할 수 있을 것 같습니다.

14:43 노정석 이것과 관련해서는 저희가 성현님 지난 세션에서 이 이야기들을 한번 깊게 들어갔던 기억이 나고 정말 재미있는 세션이었으니까 한 번 더 궁금하신 분들은 그 성현님의 지난 세션 한번 들어보시면 좋을 것 같습니다.

14:56 최승준 근데 그때는 에이전트 포스트트레이닝이라는 용어를 쓰진 않으셨던 것 같긴 하거든요.

15:04 김성현 네, RLVR이 에이전트로서 어떻게 연결되는지를 얘기하지 않긴 했었죠. 예를 들면 이렇습니다.

RLVR로 에이전트를 학습시키는 방식: 도구 사용·최종 결과 평가 15:07

15:11 김성현 모델이 에이전트로서 기능을 하려면 모델한테 여러 가지 도구가 주어져야 되죠. 예를 들어서 어떤 도구를 호출해서 편집기를 사용한다든지 소스 코드, 코딩 에이전트라고 하면 소스 코드 repository 내에서 코드를 읽고 파일을 읽고 거기에 대해서 변경 사항을 쓰고 이런 것들이 모두 도구를 통해서 일어나죠.

이 도구를 통해서 모델이 외부와 상호작용을 하는 겁니다. 이 과정에서 그렇다면 모델이 어떻게 이걸 잘할 수 있게 할 수 있을까, 학습을 시킬 수 있을까, 이렇게 도구를 사용해서 원하는 작업을 수행할 수 있도록 어떻게 학습을 시킬 수 있을까 생각해보면 RLVR이 그것들에 대해서 굉장히 간명한 해답을 하나 준 겁니다.

모델이 일단 도구를 사용할 수 있게 해준 다음에 모델이 도구를 어떻게 사용할 것인가, 이 부분은 논외로 하고 최종 결과물을 가지고 평가하자, 이 패러다임으로 전환되는 겁니다. 그러니까 어떤 코딩 작업이라고 하면 코딩 작업의 최종 결과물, 이것이 만족스러운 결과물이 나오는지를 평가하는 겁니다. 예를 들어서 unit test라든지 unit test가 대표적이겠죠. unit test를 통해서 코딩을 제대로 잘했는지 최종 결과물을 검증할 수 있겠죠. 그러면 그 최종 결과물에 이르기까지의 과정 같은 것들은 일단 사람이 굳이 생각하지 않는 겁니다. 모델이 알아서 도구를 사용하고 어떻게든 그 도구 사용을 통해서 그런 결과물에 도달하도록 만드는 거죠. 그리고 원하는 결과물에 도달했다면 보상을 주는 겁니다. 이걸 통해서 RLVR을 통해서 에이전트 포스트트레이닝이 일어나게 됩니다. 물론 이건 굉장히 단순화된 거고 cold start 문제라든지 여러 가지 문제가 있겠지만 기본적인 아이디어는 이렇습니다. 이걸 통해서 최종 결과물만 가지고 평가하는 걸 통해서 모델이 에이전트로서 학습되는 것이 가능해진 겁니다. 이전이라고 하면 이 모든 것들을 다 설계해야 되겠죠.

16:58 최승준 이 그래프는 뭐죠?

17:00 김성현 그래프는 사실 RLVR을 잘 설명해 줄 수 있는 그래프가 뭐가 있을까 고민해 봤는데 마땅한 게 없더라고요. DeepSeek-V3.2 논문에서 그냥 학습과 모델의 RL 학습과 함께 성능이 향상되는 그 결과를 하나 가져왔습니다. 이거는 좀 더 구체적으로는 환경을 합성으로 만들어서 RL 학습을 한 결과인데 그게 중요하지는 않은 디테일일 것 같고요.

17:30 노정석 x축이 training step이고 왼쪽은 그거에 따른 성능 지표,

17:35 김성현 성능 변화 지표입니다.

17:37 노정석 benchmark 지표네요. 저는 지난번에 성현님이 해주셨던 세션 과연 RL이, 이 RLVR이 어떤 영향을 미치는 건가에 대한 고찰을 지난번 해주셨는데 그게 저한테는 정말 인상 깊었거든요. 원래 이 베이스라인에 가지고 있는 능력들이었는데 RL을 통해서 그 능력들을 잘 꺼낼 수 있도록 해주는 거다라는 게 이제 저는 가장 큰 러닝으로 좀 남았습니다.

18:04 김성현 그와 관련된 이야기를 이제 조금 더 할 수 있게 될 것 같습니다. 그리고 이제 제가 맨 처음 서두에 말씀드렸던 게 어떤 새로운 패러다임의 전환이 있었고 RLVR이라는 패러다임의 전환이 있었고 그것에 대한 이해, 2025년 자체가 그것에 대한 이해를 넓히고 개선하고 발전시키는 것으로 많은 시간을 사용했다고 생각합니다.

2025년 RL 인프라의 급성장과 안정화 과제 18:22

18:26 김성현 이거는 약간 모델의 성능과는 좀 다른 문제일 텐데 RL 관련해서 굉장히 흥미롭게 나타난 것 중 하나는 RL 인프라의 발전입니다. LLM RL이라는 게 굉장히 성가신 요구 사항을 가지고 있습니다.

그러니까 모델을 학습할 수 있어야 되기 때문에 학습 인프라가 있어야 되고요. 이 모델을 가지고 실제로 생성을 하고 환경과 상호 작용을 해야 되기 때문에 생성하는 샘플링 엔진 인프라가 있어야 됩니다. 샘플링 결과를 통해서 환경과 상호작용해서 환경에서 어떤 변화나 결과를 얻어내는 그런 인프라가 존재해야 됩니다. 그리고 그 인프라들 사이가 전부 연결되어 있습니다. 학습 결과가 샘플링 엔진으로 넘어가고 샘플링 엔진의 샘플이 환경으로 넘어가고 환경에서 얻어낸 결과가 다시 학습으로 넘어갑니다. 그런데 실제 인프라적인 측면에서는 하나만 하기도 굉장히 어렵거든요. 그 학습하는 것, 이 파트 하나만 떼놓고 이것을 효율적으로 하는 것 자체도 굉장히 어려운 일입니다. 이게 pre-training 인프라에서 거의 전부였죠. 그런데 그것뿐만 아니라 굉장히 이질적인 인프라들이 상호 작용하게 됐습니다. 빠르게 모델을 학습해야 되고 샘플 생성도 빨라야 되고 빠르게 학습과 생성이 전환돼야 되고 빠르게 평가하고 보상을 부여해야 되고 그리고 이 모든 과정이 정확해야 됩니다. 이 과정에서 약간의 오차가 있다고 하면 그게 학습을 저해한다는 연구들이 굉장히 많이 나왔습니다. 2025년 동안, 그런데 빠른 것과 정확함을 동시에 가져가기는 늘 어려운 일이죠. 그런데 이게 굉장히 새로운 많은 문제를 야기했습니다. 그리고 MoE가 주류가 되면서 MoE RL을 어떻게 안정적으로 할 것인가, MoE 모델을 어떻게 안정적으로 RL 학습을 할 것인가, 이것 자체도 굉장히 중요한 화제가 됐습니다. 그런데 굉장히 어려운 문제인데 중국 쪽에서 달라붙어서 그런지 굉장히 빠르게 발전하더라고요. 이게 2025년에 있었던 일들 중에 굉장히 중요한 한 축이었다고 생각합니다.

그리고 RL에 대한 이해가 굉장히 크게 발전했습니다. RL에 대한 이해 중 한 가지 축으로는 RL 방법의 개선 같은 것도 많이 있을 것 같아요. RL이 대체 어떻게 일어나는가, 이 RL이 일어날 때 LLM에는 대체 어떤 변화가 일어나는 건가, 왜 LLM을 가지고 RL이 이렇게 잘 되는 건가, 이런 연구들이 굉장히 많이 나왔습니다.

그런데 그 RL에 대한 이해 측면에서 굉장히 흥미로운 연구 중 하나라고 생각하는 건, 제가 개인적으로 흥미로운 연구 중 하나라고 생각하는 건 LLM이나 RL이 처음 등장했을 때 초기부터 나왔던 문제가 RL은 새로운 능력을 부여할 수 있는 건가 혹은 기존의 능력을 끌어내는 것일 뿐인가였습니다. 그러니까 기존에 있었던 능력인데 파묻혀 있었던 거죠. 그래서 그걸 끌어올리는 거다. 그리고 이게 아마 거의 전부인 것 같다는 게 초기에 많이 나왔던 얘기였습니다. 그런데 이 부분에 대한 이해가 깊어지면서 RL이 부여하는 새로운 능력에 대한 아이디어가 생겼습니다. 그게 이제 atomic skill이라고 부르는 원자적인 능력이라는 것과 이 원자적인 능력을 조합하는 능력에 대한 부분입니다.

atomic skill vs 조합 능력: RL이 해주는 일에 대한 새로운 이해 21:10

21:18 김성현 원자적인 능력이라고 하면 사칙연산 같은 거라 생각할 수 있을 것 같아요. 사칙연산 같은 부분이 원자적인 능력이고 이 사칙연산들을 잘 조합해서 어떤 더 복잡한 문제를 푸는 능력, 이것이 조합의 능력이라고 볼 수 있을 것 같습니다. 이 원자적인 능력도 중요하고 이 능력을 조합하는 능력도 분명히 중요한 능력입니다. 지금 사람들이 RL에 대해서 어떻게 생각하고 있냐면 이런 원자적인 능력은 pre-training에서 배운다고 생각합니다. 사칙연산 같은 능력은 pre-training 과정에서 배우는 거죠. 그런데 RL을 통해서 어떤 능력을 배울 수 있냐면 이 pre-training에서 배웠던 능력을 조합하는 능력을 모델이 배울 수 있다고 생각하고 있습니다.

21:55 최승준 그거 아까 MoE 때 얘기했던 거랑 비슷한 거 아니에요?

22:01 김성현 MoE하고는 좀 다릅니다. 이거는 사칙연산 같은 어떤 단순한 기본적인 능력들이 있을 텐데 이 기본적인 능력 자체를 RL이 학습하기는 좀 어렵다고 보고 있고요. 그런데 이 기본적인 능력을 순서에 맞게 조합해서 어떤 새로운 문제를 풀 수 있게 해주는 능력, 이런 조합하는 능력은 RL을 통해서 학습하는 거, 할 수 있는 것 같다는 얘기를 합니다. 이게 RL에 대한 이해 측면에서 2025년에 있었던 가장 흥미로운 주제 중 하나인 것 같기도 합니다.

22:28 최승준 네, 지금 제가 듣기에는 이 스킬 1, 2, 3로 가는 게 뭔가 좀 다른 부분이네요. 이게 중요한 건가요?

22:38 김성현 스킬 1, 스킬 2, 스킬 3, 이것들은 다 독립적인 스킬이라고 생각할 수 있습니다. 이것은 굳이 이 문제뿐만 아니라 다른 문제에서도 등장하는 스킬들이겠죠. 이 스킬들은 pre-training에서 배운다고 보통 많이 생각합니다. 이 개별적인 기술들은 pre-training에서 배우는 거죠. 그런데 실제로 문제를 풀려면 이 스킬들을 잘 조합해야 됩니다.

23:03 최승준 이게 조합, 조합인가요? 약간 체이닝한 느낌, 하나로 해서 해보고 그것을 다음으로 이어가고 이런 느낌인 건가요?

23:05 김성현 예, 체이닝이 어떤 조합의 한 가지 사용 방식이겠죠. 이 스킬의 결과를 가지고 다음 스킬을 연결하고 그다음 스킬, 이 스킬의 결과를 다음 스킬에 다시 연결하고 이런 형태의 조합이라고 생각할 수 있습니다. 예를 들어서 간단한 사칙연산 문제라고 하더라도 사칙연산을 다양하게 조합하는 것을 통해서 많은 작업을 할 수 있잖아요. 그러면 그 사칙연산의 개별적인 기술들은 있지만 그 기술들을 어떻게 조합할 것인가, 이것도 또 다른 형태의 능력이라고 볼 수 있습니다. 그리고 이 조합하는 능력을 RL이 부여해 주는 것 같다는 얘기를 많이 합니다. 그리고 이 이해를 통해서 pre-training과 소위 mid-training, post-training을 우리가 어떻게 이해해야 되는가에 대한 것들이 이해가 많이 증진됐죠. 물론 atomic skill, 즉 원자적인 스킬이라는 걸 대체 어떻게 정의해야 되는 것인가가 좀 미묘하기는 합니다. pre-training에서 atomic skill을 배운다는데 atomic skill이라는 게 대체 뭐 어떤 건가. 단순히 사칙연산뿐만 아니라 더 많은 것들과 관련될 수도 있을 거거든요. 더 큰 단위일 수도 있을 거고, 그런 부분에 대해서는 아직 이해해야 될 부분이 많이 있기는 합니다.

그렇지만 이를 통해서 모델이 어떻게 개선될 수 있을지, 그리고 RL이 어떤 작업을 해주는 것인지에 대한 많은 이해가 생겼죠. RL을 통해서 조합하는 능력을, 조합하는 능력이 생긴다고 하면 pre-training에서는 그러면 이런 원자적인 능력들 같은 것들을 많이 함양하고 이런 기본적인 능력들을 잘 갈고닦으면 그러면 모델이 더 강력해지고 더 많은 것을 할 수 있겠네, 이런 이해들이 생기는 거죠.

24:40 최승준 이게 경험적인 관찰인 건가요? RL이 왜 새로운, 그러니까 조합하는 능력을 가지게 되는지는 모르는 거죠.

24:43 김성현 예, 거기까지는 이제 이론적으로 분석되어 있지는 않고요. 경험적으로 어떤 좀 단순한 형태의 세팅을 통해서 경험적인 결과를 얻은 겁니다. 그러니까 RL을 통해서 모델이 기본적인, 예를 들면 이런 겁니다. 기본적인 능력이 없으면 RL 자체가 잘 안 된다, 그런 기본적인 능력이 있으면 이것들을 조합하고, 조합하는 조합의 길이가 더 긴 길이로, 더 복잡하게 조합하는 능력들이 RL을 통해서 생긴다, 이런 것들을 이제 경험적으로 검증을 한, 경험적으로 검증을 한 겁니다. 이게 실제 조금 단순한 세팅에서 분석을 하는 경향이 많이 있어서 이게 실제로 어떤 영향을 미치는지 같은 것들은 좀 더 생각해 볼 필요가 있긴 합니다.

그렇지만 벌써 사람들은 어떤 사람들은 이제 pre-training이라든지 mid-training 단계에서 이런 원자적인 능력들, 에이전트에 필요한 원자적인 능력들을 개별적으로 잘 부여하는 데 집중해 보자, 이런 형태의 사고의 전환 같은 것들이 벌써 일어나고 있는 것 같습니다. 왜냐하면 그런 원자적인 능력들이 잘, 에이전트에 필요한 능력들이 잘 주입되면 그걸 조합하는 건 RL로 할 수 있다, 이런 아이디어가 생기는 거죠.

12:14 노정석 그러니까요.

25:51 최승준 mid-training이 domain specific한 훈련을 시키는 쪽이었나요?

25:56 김성현 미드 트레이닝이 잘 정의되어 있는 개념은 아닙니다. 그런데 포스트 트레이닝으로 넘어가기 전에 포스트 트레이닝을 도와줄 수 있는 학습을 한다고 볼 수 있을 것 같고요. 그렇기 때문에 포스트 트레이닝 아래에서 어떤 조합하는 능력을 학습한다고 하면 미드 트레이닝 측면에서는 이런 원자적인 능력을 학습에 집중해서 학습시키자 이런 형태의 흐름이 가능하게 됐죠.

그리고 RL에 대한 이해가 이렇게 깊어지면서 여러 가지 문제들에 대해서 답을 할 수 있게 된 것 같습니다. 그래서 RL을 통해서 우리가 원래 모델링 못 하던 것들을 할 수 있게 되는 거야? 이런 문제들, 더 복잡한 문제를 풀 수 있게 되는 게 맞아? 이런 문제들에 대해서 답을 할 수 있게 됐죠.

RL을 통해서 그런 것들이 가능한 것 같다. RL의 연산력이 늘어나면 늘어날수록 더 복잡한 문제들을 개별 기술들의 조합을 통해서 풀 수 있게 될 거다, 이런 것들에 대해서 조금 더 낙관적인 전망을 가질 수 있게 된 것 같습니다. 단순히 기존의 능력을 끌어내는 것뿐이다라기보다는요. 기존의 능력을 끌어내는 것뿐이다라고 본다면 약간 ‘프리트레이닝에서 없는 건 안 되는 거 아니야?’ 약간 이렇게 생각하게 되겠죠. 그렇지만 프리트레이닝이 바깥으로 나아갈 수 있다는 것들이 증명이 되어가고 있는 것 같습니다.

27:06 노정석 그러니까요. 저희도 근데 그건 웃긴 얘기인데 고등학교 때 배운 수학 시험들 다 이렇게 구성돼 있잖아요. 유제를 통해서 기본적인 스킬들은 다 배우지만 뒤에 연습 문제의 그 다양함을 경험하면서 뭔가 유용성이 증가하잖아요.

27:21 최승준 아직도 유제라는 표현이 있나요? 고등학교?

27:29 노정석 사실 유제만 깊게 이해해도 사실은 삼라만상을 풀 수 있지만 뒤에 연습 문제 한 30개를 풀어봐야 시험을 볼 수 있죠.

27:33 김성현 실제로 해보지 않으면 배울 수 없는 것들이 그리고 그걸 통해서 실제로 이런 기술들을 문제에 맞게 쓰는 방법을 배울 수 있는 거죠. 그게 아마 RL의 가장 큰 역할이라고 지금 사람들이 생각하고 있습니다.

27:48 노정석 2025년은 RL의 해였네요. MoE와 RL은 사실은 또 다른 레이어의 이야기니까 아키텍처에 대한 부분과 이제 위에서 학습, 어떤 커리큘럼의 이야기니까 다른 부분이고요. RL이 정말 큰 이슈였습니다. 2025년, 예.

“진정한 RL” 논쟁과 LLM RL의 의미 28:01

28:01 최승준 이게 진짜 RL이냐 아니냐에 대한 논란은 이제 끝난 건가요?

28:08 김성현 여전히 있습니다. 여전히 존재하고 있습니다. 여전히 갈등은 있고 여전히 RL, 약간 근본이 있게 RL 하는 사람들은 이건 진정한 RL이 아니다라는 얘기를 계속하고 있고요. 근데 잘 모르겠습니다. 저는 약간 진정한 RL을 추구하는 것이, 진정한 RL이라고 말하는 것이 얼마나 의미 있는가 하는 생각도 들기도 하고요. 그리고 RL이 정말로 그 이전 단계의 RL이 정말로 좋은 문제를 다 잘 풀 수 있는 방법이었는가? 사실 프리트레이닝을 통해서 LLM RL이라는 형태를 통해서 할 수 있는 것들이 굉장히 넓어진

28:39 최승준 일단 그렇죠. 강력한 prior를 활용하는 거죠.

28:42 김성현 예, prior를 사용하는 거고 사실 그게 아니었다면 지금같이 문제를 푸는 건 분명히 불가능했을 거라고 봅니다. atomic skill이라든지 스킬이라든지 스킬을 조합한다든지 이런 문제들은 RL에서 크게 관심을 받는 주제는 아니었을 겁니다. 그렇지만 LLM을 통해서 이런 관점이 가능해졌고 이 관점을 통해서 생각했을 때 조합하는 능력을 배운다고 하면 이제 LLM 프리트레이닝에서 배우는 atomic skill 같은 능력들을 함양하는 게 굉장히 중요하구나 이런 생각을 역으로도 할 수 있겠죠. 정석님께서 말씀하신 것처럼 2025년 정말 RL의 해였던 것 같습니다. 모두가 이제 RL에도 관심을 갖게 됐고 RL을 해야 된다는 걸 다 깨달았고 인정하고 받아들이게 됐고 또 연구들도 RL을 효율적으로 할 수 있는 인프라를 만들고 RL의 방법들을 개선하고 조금 더 좋은 objective를 만들고 또 RL에 대한 이해를 높이고 도대체 무슨 일이 일어나는 건지에 대한 이해를 높이고 또 RL을 위해 필요한 어떤 미드 트레이닝 같은 준비 작업에 대해서 개선을 하고 이런 모든 것들이 이제 결국은 RL과 관련된 주제였죠. 그리고 앞서 다시 말씀드렸던 것처럼 다시 한번 말씀드리지만 이런 이해를 넓히고 기반을 닦고 그다음에 기술을 갈고닦는 것들, 연마하는 것이 2025년에 있었던 중요한 일이었던 것 같습니다.

그래서 약간 아이러니하게도 2025년에 패러다임 시프트라든지 경천동지할 사건 같은 것들이 여러 번 있었다면 재밌었겠지만 그 사건은 사실 초반에 집중된 것 같아요. DeepSeek 모멘트에 집중된 것 같고 그 나머지 부분은 어떤 경천동지할, 와, 이 패러다임이 완전히 변화했어! 이런 느낌보다는 연마의 시간이었지 않았나 하는 생각이 들었습니다.

30:23 노정석 그렇죠. 그 방법론이 스케일을 내는 그런 시간이었다고 봐야 될 것 같습니다. 2025년의 후반부는.

30:30 최승준 그런데 레시피가 이렇게 알려져 있는데 왜 미국하고 중국밖에 못 한 거예요?

30:36 김성현 글쎄요. 그건 저도 잘 모르겠습니다. 누가 트위터에 그런 글을 썼던데요. DeepSeek이 레시피 다 알려줬는데 그리고 중국에서는 그 레시피 기반으로 다 하고 있는데 왜 중국에서밖에 안 나오지? 뭐 이런 얘기를 하더라고요. 그렇지만 아마 그건 의지의 문제였을 수도 있고 여러 가지 환경이나 자원의 문제가 있을 수도 있을 것 같기도 하고 그렇습니다. 그런데 조금 더 시간이 지나면 결과물 같은 게 나오지 않을까요? 한국에서도 이제 RLVR 같은 것들을 하고 있으니까요.

31:06 노정석 네, 저희 옆에서 많이 보고 있지 않습니까? 이 능력들이 좋아지는 거를.

논문 밖 레시피: 데이터·인프라·암묵지 경쟁 31:11

31:17 노정석 이게 승준님이 중요한 말씀하셨는데 사실 성현님과 저희가 이야기하는 어떤 페이퍼상에서 바라보는 방법론이 이렇다, intuition은 이렇다, 이런 것들이 어떻게 보면 빙산의 일각이라고 봐야 될 것 같아요.

사실은 ‘아, 그게 저런 모양을 하고 있구나’라고 하지만 그 아래에는 데이터셋의 정제, 그다음에 그 computation infrastructure, 그리고 아까 성현님이 보여주셨던 사실 굉장히 RL 때문에 복잡해진 모델의 트레이닝 파이프라인이 있는데 저희가 이런 것들을 다 퉁쳐서 소위 레시피라고 부르고 있는 건데 이러한 것들이 좀 뭐라고 해야 될까요? 페이퍼에 깔끔하게 쓰이지 않는 굉장히 많은 암묵지 형태를 가지고 있는 것 같아요. ‘저거 저렇게 하이퍼파라미터 이런 식으로 하면 저기서 망해, 여기서 망해’라고 하는 그런 것들이 경험을 해본 사람들의 머릿속에 잘 가지고 있는 것 같거든요. 그래서 그런 레시피의 전체를 가지고 있는 사람들의 몸값이 그렇게 비싼 것 같아요.

32:11 김성현 특히 드러나지 않는 것들이 데이터와 관련된 부분이죠. 이제 프리트레이닝 데이터 때도 그렇지만 이제 포스트 트레이닝을 하기 위한 데이터를 어떻게 만들어야 되는가, 이 부분은 더더욱 숨겨져 있는 지식이고 사실 이 부분에서 많은 기업들이 경쟁하고 있을 겁니다. 자체적으로 어떤 기술들을 개발하고 데이터를 이렇게 만들어야 된다는 노하우를 쌓고 그리고 이 노하우가 결국 최종 프로덕트, 제품의 퀄리티로 드러나는 거죠. 그러니까 어떻게 보면 프런티어 기업들은 그걸 가지고 경쟁하고 있다고 볼 수도 있습니다. 지금 예를 들어서 코딩 에이전트를 더 잘 만드는 것이 목표라고 하면 이 코딩 에이전트를 만들기 위해서 만들어야 하는 좋은 데이터가 있을 텐데 그 데이터를 어떻게 만들어야 되는지, 어떤 형태여야 되는지 이런 것들은 숨겨져 있는 노하우죠. 그것들은 아마 직접 해보고 경험해서 개선해 나가는 수밖에 없을 겁니다. 그리고 그런 지식도 숨겨져 있는 지식이죠.

33:02 최승준 그게 사람한테 들어 있고 dirty engineering일 수 있으니까 결국에는 그 사람들이 있는 코호트에서 이게 작동한다는 거죠. 중국이나 미국이나.

33:11 김성현 예, 그런데 다만 제 생각에는 이렇게 수많은 기업들이 그 경지에 도달하고 있는 걸 보면 어떤 제반 조건 같은 것들이 갖춰져 있으면 그러니까 이것들이 어떤 크리티컬한 비밀을 모르면 절대 알 수 없다, 이런 것이 아니라 어떤 환경이나 조건이 갖춰져 있으면 약간 어폐가 있을 수도 있지만 누구나 도달할 수 있는 것이 아닌가 하는 생각이 듭니다. 할 수 있다, 분명히 비밀을 모르면 못 한다기엔 너무 많은 기업들이 하고 있다, 이렇게 생각이 됩니다. 그리고 그런 측면에서는 점점 더 모델이 연구적인 대상이라기보다는 점점 더 제품에 가까워지고 있죠. 연구적인 측면에서는 한 90% 도달하면 괜찮을 수도 있습니다. 네, 제품으로서 성공적이기 위해서는 더더욱 갈고닦고 99%, 99.9%를 노려야 하잖아요. 그리고 그런 측면에서 제품으로서 AI 모델을 받아들이는 그 관점 같은 것들이, 그리고 그런 문화 같은 것들이 중요하게 작용을 하고 있지 않나 생각합니다. 제품을 만들듯 AI 모델을 만들어야 되고 제품을 만들듯 연구 개발을 해야 되는 거겠죠.

프런티어의 기준: 모델 크기보다 학습 방법·데이터 34:17

34:17 노정석 성현 님이 아까 저희 그 중국계 프런티어 모델들 얘기하면서 이렇게 쭉 다 중국 모델들은 다행히 모델 크기나 아키텍처 등이 다 공개돼 있잖아요. 프런티어 모델이다라고 하면 예를 들어 저희가 Opus나 Gemini Pro나 이런 경우에는 1T급에서 1T에서 2T, 그러니까 1,000B에서 2,000B 사이의 모델일 거다라는 추정이 있고 DeepSeek이나 Kimi가 발표하는 모델도 600B에서 700B, 그리고 저 아래 Sonnet이라든지 Gemini Flash 같은 경우에는 100B 언더일 거다, 이런 추정들이 있고 그 사이에 모델들이 많이 나오고 있잖아요. 그런데 사실은 30B만 넘어가도 지금 인간 수준에서는 구분하기 어려울 정도로 굉장히 똑똑한 게 보이는데 성현 님의 머릿속에서 이 프런티어의 모델 사이즈와의 어떤 연관 관계 어떻게 파악하고 계세요? 모델 사이즈가 이 정도는 돼야 프런티어고 이런 정도가 어느 정도의 분기점일 것 같고, 감을 가지고 계신지 좀 궁금해서 여쭤봐요.

35:23 김성현 모델 크기 자체보다는 사실 그 모델을 어떻게 학습시키고 만들었느냐가 프런티어에 더 중요한 문제일 것 같긴 합니다.

근데 이전이라고 하면 DeepSeek 같은 경우도 600B 정도가 넘어가는 모델이었고 600B에서 1T 정도는 돼야 된다고 생각할 수 있을 것 같은데 지금 MiniMax라든지 Z.ai라든지 이런 모델들은 100B 정도, 총 파라미터 100B고 실제 activate되는 실제 사용 파라미터는 10B 정도 되는 굉장히 작은 모델들인데 그 모델들도 굉장히 흥미로운 결과들을 많이 내고 있는 것 같습니다. 그리고 아마 말씀하셨던 것처럼 Flash나 Sonnet 같은 게 100B 정도 되는 모델이라고 하면 100B 정도 되는, 전체 파라미터 100B 정도 되는 모델에서도 이미 프런티어의 자취 같은 것들을 볼 수 있지 않나 하는 생각을 합니다. 그리고 그 모델들을 잘 훈련시키면 굉장히 실제로 의미 있는 작업들을 수행할 수 있는 것 같고요.

12:14 노정석 그러니까요.

36:11 김성현 그 이하는 잘 생각을 안 하는 것 같긴 합니다. 대체로.

36:18 노정석 대략 지금은 이제 100B 정도에서도, 이 정도 모델에서도 이제 프런티어의 어떤 향취가 묻어나는 거고.

36:22 김성현 잘 만들면요.

36:23 노정석 예, 돈 많은, 자원이 많은 분들은 이제 더 높은 크기의 어떤 영역들을 탐색하고 계실 거고.

36:29 김성현 예, 그리고 100B라고 하지만 실제 사용되는 파라미터는 한 10B 정도거든요. 이거 굉장히 작은 모델들입니다. 어떻게 생각하면.

36:36 노정석 MoE 때문에 가능한.

36:38 김성현 MoE 때문에 가능하죠. MoE 때문에 가능하고 MoE 이상으로 여러 가지 어떤 모델의 학습 방법이라든지 이해가 굉장히 깊어졌기 때문에 가능한 것 같긴 합니다. 100B 정도 되는 모델이면 결국 이전에 70B 모델과 큰 차이가 나는 규모는 아니거든요. 근데 그 정도 규모에서도 이제 굉장히 흥미로운 것들이 가능해진 거죠. 이거는 어떤…

37:04 최승준 제가 잘 모르는 부분이긴 한데 그러면은 프런티어에서 예전에 GPT-4가 2T 정도 됐다고 했을 때가 결국에는 서빙 한계랑 관련이 있었던 거잖아요. 근데 요즘이라고 치면 실제로는 4T, 4T 이런 정도에서도 MoE가 되면 서빙할 수 있는 거예요?

37:24 노정석 그냥 Bay Area 실리콘밸리에서 떠도는 얘기로는 지금 현재 Opus급의 프런티어들이 1T 정도라고 그래요. 1T.

37:29 최승준 근데 그게 결국에는 서빙 한계랑 맞물려 돌아가는 거긴 맞죠?

37:33 노정석 그렇게 볼 수도 있는데 진짜 그런지는 저희가 알 수 없죠. 네.

37:38 김성현 서빙의 난점 같은 것도 있을 수 있을 것 같은데 그 부분은 전 잘 모르겠습니다. 예.

37:43 노정석 Long story short, 얘기해 보면 결국은 이 딥러닝이나 이런 우리가 보고 있는 모델의 발전상, 결국은 다 데이터 문제다라는 얘기로 심하게 환원하시는 분들도 있습니다. 최근에 있었던 NeurIPS의 그래서 최예진 교수님이 키노트 하셨는데 그 데이터가 전부다라는 이야기 한번 강하게 하셨던 기억이 납니다.

38:03 김성현 최근에 들었던 표현인데 모델은 제품이고 데이터는 모델이다, 이 표현을 누가 했던데 저는 그 말 맞는 말이라고 생각합니다. 데이터가 중요하죠. 데이터가 중요하다는 걸 부정하는 AI 연구자들이나 엔지니어들은 전혀 없겠지만 그렇지만 늘 데이터가 제일 중요하다는 걸 강조해 줘야 약간 잊지 않게 되죠.

38:23 노정석 그리고 데이터의 품질에 사실 엄청난 노력들을 하고 있거든요. 프런티어 랩들이, 그리고 이번에 발표된 Nemotron paper도 tech paper의 거의 반 이상이 데이터 얘기예요. 하이퍼파라미터라든지 아키텍처나 이런 얘기는 거의 안 해요. 자기네가 데이터셋 이거 만드는데 어떠한 노력을 했는가, 이런 거에 굉장히 많은 편을 할애합니다.

38:47 김성현 딥러닝에서 언제나 데이터가 제일 중요한 문제였죠. 절대 잊어서는 안 되는데 데이터가 중요하다는 얘기를 계속한다는 것 자체가 자꾸 사람들이 잊어버리게 되긴 하거든요. 데이터가 제일 중요하다는 걸.

38:58 노정석 네, 저희도 보는 입장에서 그림이라든지 아키텍처라든지 뭘 이렇게 했더니 이렇게 됐다고 하는 거에 관심이 더 많이 갈 수밖에 없죠. 재밌으니까요.

39:06 김성현 근데 이제 데이터를 갈고닦는 게 정말 늘 중요한 문제였고, 그리고 또 product의 관점에서 제품의 관점에서 보면 제품을 만들기 위한 데이터를 제품이 될 수 있을 정도로 데이터를 향상시키는 것이 굉장히 중요한 문제가 될 것이고 지금도 그럴 겁니다.

39:21 노정석 그 Nemotron paper에서도 마지막으로 하나 사족만 달면 데이터를 가공하는데 대부분 Qwen 30B짜리 모델로 가공했더라고요. 예.

39:33 김성현 역설적이지만 그 오픈 모델들이 데이터 가공에 대해서 굉장히 큰 역할들을 해주고 있습니다.

39:37 노정석 대부분 맞습니다. 예.

39:42 김성현 모델을 만들려면 데이터가 있어야 되는데 데이터를 만들려면 모델이 있어야 되기 때문에 그 첫 단계의 모델 역할들을 이제 오픈 모델들이 해주고 있죠.

39:49 최승준 지금 데이터 가공인가요? 생성인가요?

39:55 김성현 둘 다입니다. 예, 둘 다, 둘 다 점점 더 모델 기반으로 가고 있기 때문에 모델이 필요한데. 그런데 이제 여기까지가 2025년에 대한 소감이었고.

40:02 노정석 MoE와 RL의 해였다.

2026 전망 ① 스케일업: 더 큰 pre-training과 active 파라미터 40:06

40:06 김성현 설명드린 정도로 이제 다뤄봤고요. 그 다음 단계를 생각하고 있는데, 지금 다음 단계에서 모든 기업들이 원하고 있는 건 특히 저는 중국 기업들이 원하고 있는 게 스케일업이라고 생각합니다.

다들 스케일업에 대한 아쉬움이 묻어나는 것 같아요. 아, 모델을 좀 더 키울 수 있으면, pre-train을 좀 더 대규모로 할 수 있으면 좋을 텐데. RL을 충분히 해본 것 같고 이 경험을 기반으로 pre-training을 좀 더 스케일업을 해 볼 수 있으면 좋겠는데. 저는 약간 이런 동기들이 technical paper들에서 묻어 나오는 것 같습니다. 다들 중국 기업들이 원하고 있고 더더욱더 원하게 되는 게 원래 사람들이 하기 힘든 걸 더 원하게 되잖아요. 지금 중국 같은 경우는 어쨌든 연산력 제약이 있다 보니까, 연산력에 제약이 있기 때문에 더더욱더 이걸 갈망하고 있는 것 같습니다. 그리고 그런 의미에서는 스케일업이 내년에는 아마 분명히 나올 거라고 생각을 하고요. 그건 자연스러운 흐름일 것 같습니다. 그리고 지금 나와 있는 모델보다 더 크고 더 오래 학습된 모델들이 아마 등장하게 될 거라고 생각합니다.

40:57 노정석 스케일업을 성현 님, 조금만 더 자세히 설명해 주시면, 성현 님이 여기서 얘기하신 스케일업은 뭘 의미하신 걸까요? 하드웨어 연산 자원의 확장, 그로 인한 모델 크기의 증가, 데이터셋의 증가, RL 환경의 증가, 이런 모든 것들을 이야기하시는 건가요?

41:14 김성현 예, 모든 것들을 이야기할 텐데 여기서 좀 더 중요한 건 모델의 기본 사이즈, 기본 체급에 가깝습니다. 그거는 pre-training의 체급하고 좀 더 가까울 것 같아요. 그러니까 모델이 지금 1T, 2T 이렇게 얘기를 하지만 대부분 모델의 실제 사용되는 파라미터는 앞서 말씀드린 것처럼 10B 혹은 30B, 40B, 50B 이 정도 규모거든요. 100B 이하입니다. 실제 사용되는 규모는. 전체 파라미터가 1T, 2T라고 하면 그중에서 한 100B 정도만, 100B 이하만 사용된다고 볼 수 있을 것 같습니다. 근데 RL을 하다 보니까 이 생각이 드는 거죠. 이 정도 규모에서도 이렇게 잘 되면 더 키우면 어떻게 될까, 100B가 아니라 200B, 300B active 파라미터를 가져가면 어떻게 될까, 이 생각을 분명히 하게 될 겁니다. 그리고 pre-training이 지금 길이가 중국 모델 같은 경우는 15T 정도 토큰으로 학습을 합니다. 15T 정도 이렇게 된다면 한 50T, 100T 학습을 하면 어떻게 될까, 이 생각을 하게 되는 이 생각을 하게 되는 겁니다. 그러면 그때는 어떤 일이 일어날까 물론 어떤 일이 일어날지는 해보지 않았으니까 잘 모릅니다. 그렇지만 한 단계 더 점프를 할 가능성 같은 것들을 예상하고 있는 거죠. 점프를 할 수 있겠다. 예, 그래서 이 스케일업을 하고 다들 원하고 있다고 봅니다. 연산력이 더 주어져서 더 큰 규모로 모델을 학습할 수 있다면 그 큰 규모의 모델을 통해서 더 강력한 RLVR과 에이전트 학습이 가능할 텐데 이런 생각을 하고 있는 겁니다.

42:37 최승준 그런 이야기가 여기 링크의 약간 중국 쪽 팟캐스트인가 보죠?

42:41 김성현 아, 이거는 좀 다른 이야기입니다. 이 이야기는 DeepSeek 그 테크니컬 리포트들에서 최근에 좀 나오고 있는 이야기입니다. 프리트레이닝을 더 강화할 수 있으면 좋겠다 이런 얘기들을 언급하고 있습니다. 더 롱 컨텍스트를 다뤘으면 좋겠고 모델이 더 컸으면 좋겠고, 사실 DeepSeek-V3에서도 흥미로웠던 포인트 중 하나가 모델이 커지기 때문에 RLVR이 더 잘 되는 이 효과들을 경험했거든요. 아, R1의 측면, R1 논문에서 그러니까 작은 모델로는 잘 안 되는데 더 큰 모델로 하니까 RLVR이 갑자기 좀 잘 되기 시작한 거죠. 이런 것도 관측했는데 그러면 여기서만 그런 점프가 일어날까? 더 큰 모델에서는 안 되던 것들이 더 되는 거 아니야? 이런 것들을 당연히 생각하게 될 겁니다.

43:20 최승준 11월에 Gemini 3가 결국에는 프리트레이닝 돌파가 되게 중요했다는 얘기가 있었잖아요. 결국 마찬가지 방향이네요.

43:31 김성현 예, 마찬가지 방향입니다. 프리트레이닝 방법 개선도 있겠고 프리트레이닝의 규모 자체의 개선도 있을 거고요. 그런 부분들을 다들 의식하고 있는 것 같습니다. 다들 원하고 있는 부분이죠.

43:40 최승준 프리트레이닝에서 스케일업을 하면 RL의 스케일업이나 또는 성능 향상이 당연히 따라올 것이다.

43:44 김성현 네, 당연히 따라올 거다. 그리고 이 성능 향상이 점수가 올라가는 정도가 아니라 안 되던 것이 되는 것 형태로 등장할 가능성이 굉장히 높죠.

43:50 최승준 심지어 새로운 능력이 창발할지도 모르는 거고, 새로운 능력이 나올 수도 있고요.

43:56 김성현 그게 이제 요즘 중국 기업들이 2026년에 원하고 있는 목표 중 하나일 겁니다. 그래서 어떻게든 이제 더 많은 연산력을 끌어모으려고 노력하고 있고 H200을 살까 말까 고민하고 다들 그러고 있을 겁니다. 그리고 계속 나왔던 얘기지만, 늘 했던 얘기가 지금 방법으로도 계속하다 보면 경제적 가치가 창출될 거라는 얘기를 많이 하잖아요.

그것처럼 지금 방법의 연장으로 성능을 계속 고도화하고 도메인을 확장하고 더 안 됐던 것들을 더 많이 하고 예를 들어서 화이트칼라 업무라고 하는 것들로 확장해 나가고, 과학 같은, 실제 과학 같은 경우는 실제 실험이 필요할 텐데 그 실험이 필요한 것과도 연결해서 에이전트 학습을 해보고 이렇게 도메인을 확장하는 것들은 굉장히 자연스러운 목표일 겁니다. 당연히 이건 안 할 이유가 없고 당연히 할 만한 목표이겠죠.

병목은 데이터: 99%→99.9%로 가는 롱테일 문제 44:40

44:44 김성현 그런데 제일 큰 병목은 데이터 문제가 될 겁니다. 이 팟캐스트도 어젠가 그저께 나온 팟캐스트인데 여기서 하는 얘기도 그렇습니다. 지금 프런티어 기업들이 어마어마한 자원 같은 것들을 좋은 데이터를 만드는 데 쓰고 있는데 이게 언제까지 이걸 해야 되는 건가 이거 자체가 너무 어렵다는 생각이 들 수밖에 없습니다.

그러니까 모델을 통해서, 에이전트를 통해서 더 복잡한 일을 하게 된다면 더 복잡하고 더 퀄리티 높은 일을 하게 된다면 데이터 자체도 더 복잡하고 퀄리티가 더 높아야 합니다. 그러면 데이터를 더 높은 퀄리티로 더 다양한 데이터를 만들어내야 하는 건데 거기에 엄청난 자원이 투자될 거고 병목이 되는 거죠. 여기 이 팟캐스트에서는 자율주행과 비슷한 문제라고 비유를 하는데, 그게 제일 흥미로운 비유인 것 같습니다. 어느 정도까지 되게 만드는가. 나는 90% 정도의 자율주행을 쉽게 할 수 있는데 이제 99%, 99.9%를 만들려고 하면 수많은 엣지 케이스들, 코너 케이스들 그리고 롱테일에 존재하는 데이터들을 수집해야 하는 거죠. 끊임없이 데이터를 수집하고 수집해서 조금씩 조금씩 올려 나가야 합니다. 그것 자체가 엄청나게 큰 병목이죠. 이걸 언제까지 이렇게 할 수 있을까 하는 생각이 들 거고 이걸 돌파할 수 있는 방법이 있지 않을까 하는 생각을 하게 될 겁니다. 그리고 이게 지금 개발의 속도를 아마 지연시키는 가장 큰 문제일 거라고 생각합니다.

45:58 최승준 약간 샛길일 수 있는데, 중국 쪽 팟캐스트의 담론이 얘기가 상당히 좋은가 봐요. 황동성 님이 번역해 주신 거 저도 봤는데 얘기들 수준이 되게 프런티어에 닿았다 그런 느낌이랄까요? 얘기들이 상당히 흥미롭더라고요.

중국 팟캐스트로 보는 프런티어 담론 46:03

46:17 김성현 모든 에피소드가 저한테 흥미로웠던 건 아닌데 굉장히 흥미로운 얘기들이 많이 있습니다. 로보틱스라든지 AI라든지 그리고 거기서 그냥 연구자들이 와서 이야기를 하거든요. 예를 들어서 이런 팟캐스트 같은 경우에는 놀랍게도 그냥 CEO급이 아니라 연구자들, Chief Scientist라든지 이런 급의 연구자들이 와서 지금 자기들이 풀고 있는 문제는 뭐고 무엇을 중요하게 생각하는지 이런 언급들을 많이 하거든요. 그런데 그런 정보는 저는 사실 영어권에도 그렇게 흔하지는 않은 것 같습니다.

46:54 노정석 근데 이건 또 최예진 교수님이 그 키노트에서 농담 삼아 얘기하신 건데 지금의 이 프런티어는 미국에 있는 중국인과 중국에 있는 중국인이 만들어 가고 있다.

47:00 김성현 그리고 이제 중국 쪽에서 나오는 Chief Scientist라든지 이런 연구자들은 결국 프런티어 기업에 속해 있는 연구자들이기 때문에 프런티어 기업 내부에 대한 이야기를 좀 들어볼 수 있는 기회도 됩니다. 그래서 저는 굉장히 좋은

47:11 최승준 그러니까 중국 쪽 뉴스도 봐야 된다는 거잖아요.

47:17 김성현 네, 중국 쪽, 관심이 있다면 살펴보면 굉장히 배울 만한 것들이 많이 있는 것 같습니다.

47:24 노정석 네, 팟캐스트 이름부터 심상치 않네요. 샤오위저우, 병음은 모르겠는데 소우주(小宇宙)인 것 같아요, 이거.

47:28 김성현 팟캐스트 제목이 ‘Language is World’, ‘언어는 세계다’ 이런 형태였던 것 같습니다. 굉장히 흥미롭습니다. 이 에피소드도 굉장히 흥미로운데 이게 트랜스크립트 같은 걸 공유하기도 조금 애매해서 내용을 공유해 드리기 좀 어렵긴 하네요.

47:41 노정석 중국어 대화죠?

47:43 김성현 예, 중국어입니다.

47:44 최승준 근데 이제는 번역해서 볼 수 있으니까

47:46 노정석 네, 중국어 대화 트랜스크립트로 뽑아서 그걸 영어나 한국어로 바꿔서 볼 수 있죠.

47:51 김성현 저는 영어로 번역해서 보고 있습니다.

47:55 노정석 네, 사실상 중국어-영어 번역이 거의 완벽해서 보는 데 무리는 없을 것 같습니다. 예.

48:00 김성현 Gemini 3가 잘해주고 있습니다. 그리고 여기까지는 지금까지 패러다임의 확장인 것 같고요. 그 패러다임의 확장을 넘어서 아예 다른 패러다임을 생각해보는 게 저는 여전히 중요하다고 생각합니다. 그리고 제가 바라는 것 혹은 기대하는 것은 내년에는 새로운 패러다임의 면모가 보이는 것이기도 하고요.

2026 전망 ② 더 자율적인 에이전트와 인터페이스 변화 48:05

48:21 김성현 그런데 새로운 패러다임과 관련해서 굉장히 중요한 부분이 보다 자율적인 에이전트가 저는 경제적 가치 창출에 굉장히 중요한 문제일 거라고 생각합니다. 지금 코딩 에이전트도 굉장히 자율적으로 많이 해주고 있지만 사람이 계속 지시하잖아요. 지시하고 결과물이 나왔을 때 마음에 안 들면 수정을 요구하고 이런 식의 피드백이 돌아가는데 그것 자체도 굉장히 많은 것들을 자동화해주고 있지만 좀 더 강력한 경제적 가치를 창출하기 위해서는 더 자율적이어야 한다고 생각합니다. 그러니까 에이전트가 알아서 코드를 개선하는 거죠. 그냥 에이전트에게 맡겨 놓으면 에이전트가 알아서 코드를 계속 최적화하는 겁니다. 사람이 지시하지 않아도 예를 들면 그런 걸 생각할 수 있겠죠. 돌려놓으면 밤새 사람의 다음 지시가 있을 때까지 알아서 코드를 개선하고 더 많은 기능을 추가하고 코드를 계속 최적화하는 거죠. 더 나아가면 아예 프로젝트를 완성하는 정도의 자율적인 에이전트를 생각해볼 수 있겠죠. 그렇게 되면 그런 에이전트가 창출하는 가치가 지금의 코딩 에이전트에 비해서도 엄청나게, 질적으로 훨씬 더 클 거라고 생각합니다. 그리고 그렇게 되어야만 저는 진정한 경제적 가치가 창출될 것 같거든요. 모델이 알아서 작업을 할 수 있어야만 사람은 자율성이 있잖아요. 자율성으로 알아서 코드를 개선하고 알아서 기능을 구현하는데 그런 기능들이 에이전트에게도 존재해야만 더 큰 경제적 가치로 이어질 거라고 생각합니다.

49:40 노정석 저는 개인적으로 이건 되는 문제라고 보고 있습니다. 이게 지금 이미 많은 사람들이 Harness를 통해서 이걸 흉내 내고 있잖아요. 예, 근데 얘가 그냥 단일 모델 안에서 이런 자율성을 가지고 계속 액션을 이어가는 거, 이것도 곧 되는 문제 아닐까요?

49:57 김성현 저는 이게 되기를 원하는 문제이기도 합니다. 될지 안 될지는 저는 여기에서 계속해서 이제 기술적인 문제들은 이 단계로 넘어가기 위한 기술적인 문제들 같은 걸 생각해 봐야 할 것 같은데, 저는 되기를 바라는 문제에 가깝습니다.

그리고 이런 에이전트가 등장하면 지금은 결국 아직도 여전히 채팅 인터페이스에 가깝죠. 사람이 지시를 하면 그 지시에 따라서 어떤 작업을 하고 다음 지시를 기다리고, 이런 형태의 인터페이스일 텐데 이런 에이전트는 인터페이스의 흐름 자체가 변할 겁니다. 에이전트는 알아서 계속 일을 하고, 그러면 그때그때 결과물, 중간 결과를 보고 사람이 어떤 피드백을 주는 형태로 변하겠죠. 에이전트는 계속해서 일을 하고요.

그런 패러다임의 변화 같은 것들이 일어나면 좋겠다는 생각을 합니다. 그리고 지속 학습이 되겠죠. 앞서 중국 팟캐스트 같은 경우는 이렇게 표현하더라고요. 지금 실리콘밸리에서는 그리고 San Francisco Bay Area에서는 전부 지속 학습 얘기를 하고 있고 이게 제일 큰 화제고, 다들 여기에 관심을 갖고 있다고요.

2026 전망 ③ continual learning: 모델이 ‘무엇을’ 배울지 스스로 찾기 50:42

51:00 김성현 네, 지속 학습이 저는 굉장히 중요한 패러다임의 변화일 거라고 생각하고, 이거는 데이터의 문제와도 관련이 있습니다. 앞서 말씀드렸던 것처럼 데이터를 다 만들어 주기 너무 어렵다고 말씀을 드렸잖아요. 그러면 사람이 데이터를 만들어서 학습하는 게 아니라, 모델이 알아서 데이터를 발견해서 학습을 하면 좋겠다는 생각을 하게 되죠. 그게 지속 학습하고도 관련이 됩니다.

지속 학습이라는 게 계속해서 그냥 데이터를 추가해 준다는 정도를 넘어서, 여기서 말하는 지속 학습은 모델이 알아서 학습하는 것에 가깝다고 볼 수 있을 것 같습니다. 그렇게 되면 사람이 각 시나리오에 대해서, 그리고 각 복잡한 상황에 대해서 모두 데이터를 만들어 줄 필요가 있는 게 아니라, 모델이 알아서 그 시나리오에 대해서 데이터를 알아서 만들거나 해서 학습하는 형태가 되겠죠.

그런데 이 지속 학습 문제에 대해서 여러 가지 기술적인 제약이 있겠지만, 많은 사람이 생각하는 건 어떤 in-context learning을 확장해야 하나, 이런 부분들을 많이 생각하지만, 저는 더 중요한 문제는 모델이 무엇을 배울 건가, 그걸 왜 배울 건가, 이것들을 발견하는 게 지속 학습의 가장 중요한 컴포넌트라고 생각합니다.

학습을 할 수 있다는 것 자체가 중요한 게 아니라, 학습을 할 수 있는 능력이 있을 때 그걸 사용해서 실제 상황에서 어떤 중요한 것들을 학습하는 능력이 필요한 거죠. 학습 자체가 가능한 게 중요한 게 아니라, 실제 상황에 던져졌을 때 필요한 것들을 배우는 능력, 이게 필요한 거죠. 그리고 이게 아마 패러다임의 변화로 이어지는 가장 중요한 컴포넌트일 거라고 생각합니다.

52:28 노정석 이제 SF 같은 일이 일어나겠네요. 모델이 자신의 학습을 스스로 제어하는.

52:33 최승준 그럼 지금 2026년 얘기니까, 성현 님의 이것에 관련된 확률은 어느 정도인가요?

52:39 김성현 50% 정도.

52:43 최승준 50%, 2026년에 50% 정도로 continual learning이 될 수도 있다.

52:45 김성현 예, continual learning에 최소한 아주 중요한 컴포넌트가 등장할 수 있다는 생각을 합니다. 왜냐하면 다들 연구하고 있다고 하거든요. 연구하고 있다고 하고, 상당히 OpenAI 같은 경우는 이 부분에 대해서 상당히 발전되어 있다고도 하고, 이런 얘기들이 나오는 걸 보면 그게 어떤 면모일지는 2026년 정도에는 볼 수 있지 않을까요? 저는 그렇게 기대하고 있습니다. 약간 희망 섞인 기대인 것 같기도 한데요. 그렇습니다.

self-play의 난점과 ‘흥미로운 문제’ 생성의 어려움 53:10

53:10 김성현 그리고 RL과 관련해서 늘 자주 나오는 게 소위 self-play라는 거죠. 알파고 같은 측면에서 알파고가 self-play를 통해서 모델 성능이 향상된 사례가 사람들에게 인상이 강하게 남아 있기 때문에 그 self-play를 통해서, 이것도 데이터와 관련된 문제죠. 데이터가 제공되지 않아도 모델이 알아서 학습할 수 있는 이런 것들을 개발할 수 있으면 좋지 않을까 하는 기대를 많이 합니다. 그런데 우리가 다루고 있는 수학 문제라든지 에이전트 코딩이라든지 이런 문제는 바둑 같은 형태의 게임이 아니죠. 이건 zero-sum game이 아니기 때문에 self-play를 구현하는 건 굉장히 어렵습니다.

예를 들면 이렇습니다. 문제를 만드는 에이전트가 있고, 그 만들어진 문제를 해결하는 에이전트가 있다고 하면, 문제를 만드는 에이전트는 점점 더 어려운 문제를 만들고, 문제를 해결하는 에이전트는 점점 더 어려운 문제를 풀어가면서 상호작용하며 모델이 발전하는, 이런 것들을 생각해 볼 수 있겠죠. 그러면 문제를 작성하는 에이전트는 계속해서 더 어려운 문제를 만들어 낼 겁니다. 더 어려운 문제를 만들수록 보상을 얻게 되겠죠. 그런데 여기에 함정이 있습니다. 바둑 같은 경우는 모르겠는데, 수학 문제를 생각해 보면 정답률 0%의 문제를 만들기는 너무나 쉽습니다. 그냥 말도 안 되는 문제를 만들면 되거든요. 그러면 0%처럼 마냥 어려운 문제를 만들지 말고, 아주 적당한 수준의 문제를 만들자. 정답률이 반 정도 나오는, 절반 정도의 문제를 만들자. 그런데 이것도 굉장히 쉽습니다. 예를 들어 사칙연산을 한다고 하면, 사칙연산의 길이를 계속 늘려서 난이도를 조정한다거나 하는 것들이 가능해지거든요. 이게 말해주는 건 self-play가 우리가 흥미롭게 생각하는 문제에 대해서는 작동시키기가 상당히 어렵다는 걸 보여주는 겁니다. 중요한 건 정답률을 낮춰서 더 어려운 문제를 만드는 게 중요한 게 아니라, 사람이 봤을 때 흥미로운 문제를 만들어야 하는 거죠. 정말 가치가 높은 문제를 만들어야 하는 거죠. 이 문제가 굉장히 어려운 문제고, 많은 연구자가 붙어 있는 문제이기도 합니다. 그리고 최근에 나온 논문들에서 하는 생각은 사람과 정렬되어 있지 않으면 이건 안 된다, 사람과 모델이 정렬되어 있지 않으면 이건 안 된다, 이런 생각들을 많이 하고 있습니다.

55:27 최승준 지금 2번에서 말씀하신 거하고 약간 공명하는 부분이 있네요. 한 층이 더 올라가서, 지금 층위에서 하나 더 올라가는 것들이 둘 다 2번에도 있고 3번에도 있는 거네요. 배움을 배우는 것하고 지금도 non-trivial한 것, 호기심을 가지거나 하여튼 문제 자체를 만들어 내는 게 지금 관건이라는 거잖아요.

내적 동기·인간 정렬로 수렴 55:42

55:45 김성현 그래서 저는 이 세 가지 문제가 이 문제로 수렴하는 것 같습니다. 내적 동기, 인간과의 정렬. 이 문제로 수렴하는 것 같습니다. self-play를 할 때도 사람이 보기에 흥미로운 문제를 만들어야 하죠. 그리고 모델 자체도 그런 동기가 있으면 좋을 것 같습니다. 예를 들어 사람도 수학 문제를 만들고 그 문제를 풀어보잖아요. ‘이건 흥미로운 문제다’라는 감각이 있는 거죠. continual learning, 즉 지속 학습도 그렇습니다. 사람이 어떤 걸 배울 때는 ‘아, 이게 흥미롭다’, ‘이걸 배우면 문제를 푸는 데 쓸 수 있겠다’ 하는 이런 동기가 있는 거죠. 자율적인 에이전트 같은 경우도 그렇습니다. 예를 들어 최적화 같은 문제를 생각했을 때도, 사람은 코드를 봤을 때 ‘아, 이걸 좀 더 최적화할 수 있으면 좋겠다’, ‘이런 기능을 추가하면 좋겠다’ 하는 동기가 있는 거죠.

56:27 최승준 맞아요.

56:28 김성현 그리고 모델에 그런 동기가 부여된다면, 그 동기는 사람의 목표와 가치하고 정렬이 되어 있어야 할 겁니다. 사람이 보기에 가치 있는 동기를, 가치 있는 것을 추구하는 동기가 모델에 부여되어야 하는 거죠.

56:42 최승준 이거 저희가 약간 Ilya Sutskever 편에서 감정이 value function이다, 그거하고도 관련이 있는 건가요?

56:50 김성현 약간은 관련이 있을 수도 있을 것 같습니다. 감정과 동기는 반드시 일치하는 건 아니지만, 또 많은 경우에 굉장히 강력하게 연관되어 있기도 하죠. 정서와 동기의 문제는 심리학에서는 정서는 좀 일시적인 것이고, 동기는 훨씬 더 장기적인 것이라고 봤던 것 같기는 합니다. 그렇지만 상당 부분 연관되어 있죠. 왜냐하면 우리가 동기를 느끼는 것에 대해서는 감정도 강하게 결합되니까요. 예, 그런 모든 것들이 관련되어 있고, 아마 Ilya Sutskever의 SSI나 미라 띵킹 머신이라든지 기타 그런 회사들 같은 경우도 다 이런 것들에 관심이 많이 있다는 소문이 도는 것 같습니다. 그리고 저는 이 문제가 2026년에 그 면모가 보였으면 좋겠다고 생각하는데요. 2026년에 면모가 보인다면, 가장 중요한 패러다임 전환이 이것과 관련해서 나타나지 않을까 생각합니다.

그리고 그랬을 때 우리가 겪을 에이전트의 변화는 굉장히 크지 않을까 생각합니다. 예를 들어 RLVR 이전에, 지금의 코딩 에이전트 이전 단계에서도 분명히 에이전트들이 있었잖아요. RLHF 모델을 가지고도 만든 에이전트들이 있었습니다. 그런데 그 에이전트에 비해서 지금의 코딩 에이전트가 훨씬 강력하고 훨씬 큰 경제적 가치를 창출하고 있죠. 그런데 그다음 이게 패러다임 전환을 통해서 에이전트가 질적으로 변화한 겁니다. 네, 그다음 패러다임의 전환과 결합된 에이전트가 창출할 가치는 그 이전에 지금의 코딩 에이전트와는 저는 질적으로 다를 것 같습니다. 그리고 훨씬 유용하겠죠.

58:17 최승준 골치 아픈 일이죠, 사실.

58:19 김성현 네, 골치 아픈 일이죠. 그렇죠.

투자·버블·FOMO: 2026에 필요한 질적 도약 논리 58:21

58:21 김성현 그리고 저는 이게 아마 지금의 어마어마한 투자금을 설명할 수 있는 정도의 가치를 창출하는 데는 전 필수적인 요소가 아닐까 하는 생각을 합니다. 그러니까 지금 다들 의심하고 있는 것이 투자금이 이렇게 큰데, 그래서 이걸로 충분한 가치를 창출할 수 있어?‘를 묻고 있잖아요. 네, 도메인 확장이라든지 지금의 성능 개선 같은 경우도 그것도 충분히 그런 가치를 창출하는 데 가치를 확장하는 데 도움이 되겠지만 저는 아마 이 모든 투자를 설명하기 위해서는 패러다임 전환이 있어야만 그리고 그에 따른 질적인 개선이 있어야만 가능하지 않을까 하는 생각을 합니다.

58:57 노정석 뭐 Elon Musk나 아니면 Sam Altman이나 정확하게 성현 님이 방금 말씀하신 그런 취지로 얘기해요. 그 사람들은 이제 AI가 창출하는 가치가 거의 무한에 가깝게 증가할 것이기 때문에 그냥 무한의 풍요가 온다, 그래서 전체적인 부의 관점에서는 그렇게 얘기하는데 이 안에서, 어떤 그 시스템 안에서 돈을 벌어먹고 살던 사람들한테는 그게 지금 단기적으로는 큰 충격일 거거든요.

59:24 최승준 저는 hyperstition이라는 말이 떠오르는데요. 그거, 자기 충족적인 예언. 그러니까 지금 이게 투자금을 정당화하려면 그 지경에 도달해야 되기 때문에, 지금 이게 맞으려면 이런 일이 2026년에는 마일스톤으로 찍혀야 된다는 논리인 거잖아요.

59:44 김성현 제 생각에는 그렇습니다. 지금 투자를 정당화하기 위해서는 지금도 계속 AI 버블 같은 얘기가 나오고 있는데 이런 형태의 혁신이 있지 않으면 2026년에 점진적인 개선 정도로는 많은 의심을 사지 않을까 하는 생각을 합니다. 저는 물론 점진적인 개선으로도 충분하다, 이런 얘기도 계속 나오겠지만요.

59:59 노정석 아까 승준 님이 성현님한테 질문했던 거에 확률은 50%다라고 답한 것과 이것과 또 정확하게 연관이 있습니다. 아마 이 50% 이상의 확률로 2026년에 무언가 또 진보가 일어나게 될 것 같습니다.

1:00:13 최승준 그러면 이제 또 FOMO가 생기는 거죠.

1:00:20 노정석 네, 그런데 그게 당연하다고 생각하고 저희도 계획을 짜야 될 것 같아요. 지금 뭐 이미 아까 스케일에 대한 욕구 때문에 반도체 이거 거품 아닙니까? 순환 출자 아닙니까? 이렇게 얘기하는 거, 논리적으로 사람들은 그렇게 이해하고 싶겠지만 사실은 그렇게라도 해서 더 돌아야 되는 인센티브가 활발하게 돌고 있는 거거든요.

1:00:24 김성현 거품…

1:00:40 노정석 거품이라고 생각하세요? 성현 님, 승준 님, 우리끼리 얘기해 볼까요? 거품이다?

1:00:47 최승준 제 의견이라기보다는 저번에 저희 Demis Hassabis 편 얘기했을 때는 일부 거품은 섞여 있다, 뭐 그런 얘기를 했었죠, Demis Hassabis는.

1:00:55 노정석 네, 그런데 전환기에는… 성현 님, 말씀하십시오.

1:00:58 김성현 저는 사실 이걸 보면서 인류의 기술 발전사에서 이런 상황이 있었는가 하는 생각을 하게 되기는 하더라고요. 새로운 이 기술을 계속 발전시켜서 그 기술의 발전이 투자를 정당화해야 되는 상황. 이런 상황이 인류의 기술사에 있었던가 하는 생각을 하게 되더라고요. 그런데 FOMO라는 표현이 맞는 것 같습니다. 그러니까 지금 나와 있는 기술은 아니죠. 지금 완성되어 있는 기술은 분명히 아닙니다. 그런데 그 기술이 개발될 가능성이 0이 아니라고 하면 그리고 누군가가 그 기술을 개발하고 누군가는 개발하지 못한다고 하면 그때의 파급 효과를 굉장히 크게 보고 있다는 생각이 있을 거라 생각합니다. 그런 의미에서 어떤 일종의 AI 전쟁이 되는 거죠. 이 기술의 개발에 성공할지 않을지는 잘 알 수 없습니다. 분명 저도 50%라고 찍었지만 아무런 사전 정보가 없는 상태에서 하는 얘기입니다.

그런데 만약 기술 개발에 누군가 성공한다면 그 파급 효과, 거기서 나오는 경제적 가치 같은 것들이 너무 상상할 수 없을 정도로 커서 거기에서 패배한다는 것을 별로 생각하고 싶지 않은 상황이 된 것 같습니다. 그래서 그 상황을 막기 위해서 남아 있는 모든 돈을 끌어다가 경쟁을 하고 있는 거죠. 제가 계속 다시 한번 말씀드리면 저는 이런 상황 같은 것들이 인류의 역사에 있었나, 전례가 있었는가 하는 생각을 하게 됩니다. 그런데 지금 느끼고 있는 사람, 그 행위자들이 느끼고 있는 감정은 그런 게 아닐까 생각합니다.

AI 전쟁 비유: Manhattan Project·Apollo Project 1:02:20

1:02:20 노정석 그런 비슷한 사례들이 몇 번 있지 않았을까요?

1:02:24 김성현 네, 분명히 있긴 있었을 것 같거든요.

1:02:30 노정석 맨해튼 프로젝트, 아폴로 프로젝트. 그 당시로는 말도 안 되는 천문학적인 돈이 들어간 건데 그때는 모두 주체가 국가였는데 지금은 민간 기업들이 국가를 초월하는 수준까지 사실 커져 있는 거잖아요. 네, 그래서 이 게임도 먼저 1등 한 사람이 뒷사람들의 사다리를 다 걷어찰 확률이 있는 거고 네, 그리고 저희가 핵 개발 사례에서 보듯이 그 핵우산을 가지고 있었던 국가들만 한 세기를 강대국으로 살았잖아요.

그것과 똑같은 논리이지 않을까 싶어요. 저희가 한 명의 인간으로서 생각하기에는 너무 큰 담론이긴 한데 또 여기서 이제 ‘도망’의 콘셉트가 또 나옵니다. 우리는 그럼 어떻게 해야 되는가? 네, 우리는 ‘어떻게 해야 되는가’가 남습니다. 그 안에서 현실을 살아야 되는 우리는 어떻게 해야 될 것인가라는 질문은 여전히 크게 남습니다.

저희 2025년 시작할 때 시니어, 주니어, 코딩 에이전트가 얼마나 좋아질 건가, 뭐 이런 얘기했는데, 지금 2025년이 끝나는 시점에 사람들의 담론은 Andrej Karpathy가 또 포스팅도 했던데, 이제는 무언가 prior를 가지고 있었던 시니어들보다 그냥 AI 툴을 처음부터 접한 네이티브들, AI 네이티브 주니어들이 훨씬 일을 잘한다. 그런데 성현 님이 방금 말씀하셨던 모델이 스스로 이런 자율성을 갖게 된다고 하면 이 이야기들도 또 다 끝나는 거거든요.

1:03:53 최승준 그렇죠. 지금 세 가지 말씀하신 게 징조라도 나타나도 사실 되게 임팩트 있는 것들이거든요. 그게 또 하나씩이 아니라 맞물려 돌아가는 거라서 하나 되면 나머지가 따라올 가능성이 있는 것들인데 그거 골치 아픈 거예요, 되게.

개인의 태도: 불확실성 속에서 즐기기와 unlearning 1:04:07

1:04:07 노정석 그래서 성현 님은 어떻게 살려고 생각하고 계세요? 갑자기 이런 질문 훅 던져서 죄송한데, 이런 세상을 이렇게 표표히 바라보시는 입장에서 나는 어떻게 살아야 된다는 생각들을 가끔은 하실 거잖아요.

1:04:21 김성현 그냥 저는 즐기기로 했습니다.

1:04:25 최승준 그거 어디서 많이 들어본 얘기인데요. 피할 수 없으면 즐겨라. 정석 님도 비슷한 얘기했었죠.

1:04:32 김성현 네, 그냥 사실 이 모든 것들이 예상에 달린 것이기도 하고요. 아직 여전히 불확실성은 남아 있고 이렇게 될 것인가 되지 않을 것인가 같은 것들이 남아 있긴 한데, 그냥 즐기기로 했습니다. 앞으로가 예상이 불가능해지는 것 같아요. 특히 이렇게 완전히 어떤 확률적인 것에 모든 결과물이 걸려 있다고 할 때는 더더욱 예상이 어려운 것 같습니다. 그래서 그냥 저는 즐기기로 했습니다.

1:04:59 최승준 그런데 예상하기는 어렵지만 이게 모든 게 경쟁을 통해서 이후의 과정을 펼쳐내고 있기 때문에 그 결과물이 나올지는 모르더라도 부산물이 나오는 건 확실하거든요. 추구의 과정이 있기 때문에 상당한 수준의 부산물들이 나올 가능성이 있다. 저는 이제 그렇게 보고 있습니다. 하나는 예상할 수 있겠네요. 2025년에 ‘아, 이거 됐다’ 싶은 것을 unlearning할 가능성이 매우 높다.

1:05:21 김성현 네, 그럴 수 있죠. 지금 에이전트 AI 제품에 대해서 많은 것들이 그런 것 같습니다. 다들 ‘이건 아직 안 되네.’ 약간 안 되는 것에 집중하잖아요. 아직 안 되기 때문에 아직 기회는 남아 있다. 그런데 그런 것들을 다 버리고 생각해야 될 가능성도 있겠죠.

1:05:40 노정석 두 스텝, 세 스텝 앞에 있는 걸 찍고 이걸 하겠습니다라고 해야 말이 되는 그런 상황입니다.

1:05:43 최승준 그렇죠. 분명히 내년에 ‘어, 이거 잘 작동했던 거고, ‘이거 익숙한 건데 계속하면 안 되나?‘라는 생각이 드는 지점이 있을 것 같아요. 배우기 싫은데 어쩔 수 없이 이걸 또 따라가야 되는구나.

1:05:56 노정석 이런 얘기는 2026년에 들어가면 한번 하시죠.

1:06:01 최승준 이거 지금 한 해의 마지막을 조금 우울하거나 애매한 쪽으로 가고 있는 거 아니에요? 저희 즐겁게 마무리해야 되는데.

1:06:11 노정석 저희 첫 번째 팟캐스트 2년 반 전에 승준 님과 제가 시작할 때 제목이 ‘Geoffrey Hinton의 우울’이었거든요. 그런데 그분이 저희보다 훨씬 앞서서 관조하시는 분이잖아요. 저희가 못 본 걸 다 보셨을 테고, 그분이 그때 2년 반 전에 그렇게 얘기하신 것들이 많은 부분이 현실화됐고,

1:06:33 김성현 기술 발전 자체에 집중하면 제일 나름 즐거울 것 같습니다. 기술의 발전 자체는 ‘오, 이런 게 된다고?’ ‘정말로 이런 경지에 도달한다고?’ 이렇게 집중할 수 있을 것 같아요. 네, 거기에 파생될 수 있는 사회적인 영향 같은 것들… 생각하게 되면 조금 마음이 무거워지죠.

1:06:44 노정석 네, 동호인으로 살면 너무 즐거운데 이제

1:06:49 최승준 저의 삶은 중첩돼 있죠. 동호인으로도 살지만 이제 현생도 살아야 되니까 어쨌든 2025년에 이랬습니다.

정리: 2025는 MoE·RL, 2026은 스케일·새 패러다임 1:06:57

1:06:59 노정석 2025년을 요약했고 2026년은 이거보다 더 빠른 변화가 예상될 거고 그거에 어떤 큰 방향성은 성현님이 좀 짚어주셨는데 첫 번째가 스케일, 이 스케일에 대한 투자는 멈출 생각이 전혀 없다는 것이 하나였고 또 두 번째로는 지금까지의 무언가의 어떤 패러다임이 아닌 다른 단절적인 다음 레이어의 패러다임이 왠지 나올 텐데라고 말씀 주셨고 그거에 이제 지속 학습, 그리고 또 하나가 뭐였죠? 그걸 짚어주신 것 같습니다.

1:07:36 김성현 다 관련되어 있는 문제인데, 이제 지속 학습이라든지 self-play라든지 혹은 뭐, 그걸 통해서 이루어진 더 자율적인 에이전트들 같은 것들이 될 것 같습니다.

1:07:44 최승준 그게 코딩 에이전트만 말하는 게 아니잖아요. co-scientist 느낌일 수도 있고, ‘co’가 빠질 수도 있고

1:07:48 김성현 네, 그렇죠. 이거 당연히 더 큰 가치를 창출하려면 최소한 화이트칼라 직업이라고 하는 것들까지 넘어가야 될 것 같습니다. 그리고 아마 사실 이게 어떤 형태로 구현될지 모르겠지만 만약에 구현이 가능하다면 거기에 대해서도 굉장히 큰 도움이 될 거라고 생각합니다. 왜냐하면 지금은 그런 업무들에 대해서 하나하나 데이터를 만들어 줘야 되잖아요. 포토샵 하는 방법, 쓰는 방법 이런 것들을 다 가르쳐줘야 될 텐데 모델이 알아서 배울 수 있다고 하면 알아서 모델이 동영상 보고 포토샵 쓰는 방법을 배워가지고 포토샵을 쓰고 이런 일이 일어날 수도 있겠죠.

엔딩: 새해 인사 1:08:24

1:08:24 노정석 자, 그러면 이제 저희 한 해를 좀 마무리를 하고 저희도 끝내볼까요? 네, 또 성현님한테 배우고 나니까 머릿속이 또 몽글몽글해져 가지고 이런저런 생각들이 막 씨실과 날실처럼 얽히고 있습니다. 네, 매주 토요일 이렇게 제가 그 두 분한테 이런 거 배울 수 있는 게 저한테는 제 인생에 정말 큰 복이에요. 감사드립니다.

1:08:45 최승준 물론 저도 그렇습니다. 일단 이야기 자체가 너무 재미있었던 것 같아요. 오늘도 성현 님이 아주 흥미로운 스토리라인으로 꾸며주셔 가지고 이거를 직조해 주셔서 되게 몰입해서 들을 수 있었습니다. 한 해가 좀 약간 차르륵 돌아간 느낌이었어요. 또 하지만 2026년, 이게 또 도파민 나오는 시기 아닙니까? 너무 또 흥미롭고 무슨 일이 펼쳐질지 기대됩니다. 1월은 또 무슨 일이 펼쳐질지, AlphaGo 주간 근처에서는 무슨 일이 펼쳐질지, Google I/O 근처에서 무슨 일이 펼쳐질지, 이거 다 기대되거든요.

1:09:17 노정석 이제 당장 다음 주 1월 중순만 되면 막 또 쏟아지기 시작할 것 같습니다. 그렇죠.

1:09:20 최승준 네, 그러면 저희도 그 즈음에 다시 뵙기로 하고 이제 쉬러 가야죠. 성현 님도 뭐 마지막 코멘트 하고 싶으신 말 있으실까요?

1:09:36 김성현 특별한 건 아니고요. 저도 매년 이즈음 회고를 한 번씩 계속 썼었던 것 같은데 이제 그 회고를 이런 형태로 할 수 있게 된 게 굉장히 저한테 재미있는 일인 것 같고요. 그리고 저는 회고를 쓰면서 꼭 내년에 무슨 일이 일어날까 예측을 썼었거든요. 아마 그 습관이 남아서 여기서도 회고를 하면서 내년 2026년에 무슨 일이 일어날까를 쓰게 된 것 같아요. 그만큼 불확실성이 있으니까 어떤 일이 일어날지를 기대하면서 2026년을 맞이하면 재밌지 않을까 하는 생각이 듭니다.

1:10:05 노정석 그래도 뭐, 저희는 인간의 틀에 갇혀 있으니까 건강하시고요. 네, 2026년 저는 이 건강과 관련한 비즈니스에 더 많은 투자를 해보려고 생각하고 있습니다.

1:10:12 최승준 다음에는 해를 넘겨서 봬야겠네요.

1:10:14 노정석 네, 2025년 한 해 수고하셨습니다. 성현님, 승준님 감사드리고요. 저희 2025년 정말 정말 즐거웠습니다. 힘들기도 했지만 너무너무너무 즐거웠고요. 2026년은 이거보다 더 빠르게 변할 것 같아서 저희 단단하게 마음먹어야 될 것 같고 더 열심히 살아야 되겠다는 그런 생각하게 됩니다. 그리고 또 저희 구독자님들, 도망자 연합의 구독자분들께도 너무나도 감사드립니다. 자, 승준 님, 성현님도 마지막으로 한마디씩만 하시고 저희 마무리하시죠.

1:10:49 최승준 네, 한 해 동안 저도 굉장히 즐겁고 매주 토요일이 물론 피곤할 때도 있습니다만 너무 자주 볼 때는 그런데 늘 기대되는 시간이었거든요. 그래서 같이 이야기 나누고 같이 보는 풍경, 다르게 보는 풍경에 대해서 이야기 나눌 수 있어서 너무 즐거웠던 시간이었고요. 이거를 늘 지켜봐 주시는 구독자분들을 의식하는 것 자체도 되게 도움이 되는 것 같더라고요. 그래서 늘 감사하다는 말씀드리고 싶습니다. 2026년 새해 모두 새해 복 많이 받으시길 바라겠습니다.

1:11:18 김성현 네, 저는 이 팟캐스트에서 1년을 채우지는 않았지만 그래도 계속 팟캐스트에 참여할 수 있어서 감사했고요. 그리고 2025년에 대해서 이러쿵저러쿵 얘기를 많이 했지만 그래도 여전히 기술적으로 굉장히 흥미로운 한 해였던 것 같습니다. 2026년 새해에도 새해 복 많이 받으시고 건강하시길 바랍니다.

1:11:33 노정석 모두 건강하시고 저희 새해에 뵙겠습니다.

1:11:36 최승준 새해에 뵙도록 하겠습니다.

1:11:38 노정석 네, 수고하셨습니다.