끼워 학습(Interleaving): 단원별로 몰아 푸는 학습이 시험 점수를 깎는 인지심리학
"한 단원을 끝낸 다음 다음 단원으로" — 우리가 학교에서 배운 학습법은 거의 다 덩어리 학습(blocked practice)이다. 인지심리학 30년의 결과는 정반대를 가리킨다. 비슷한 주제를 의도적으로 섞어서 공부하는 끼워 학습(interleaving)이 단원별로 몰아 한 학습보다 시험 점수에서 평균 38% 높았다. 이 글은 1979년 셰이의 첫 실험부터 2025년 디지털 교실 메타분석까지 정리하고, 7일 만에 도입할 수 있는 학습 단위 재배치 프로토콜로 마무리한다.
1. 우리가 잘못 배웠던 학습 효율의 기본기
수학 문제집을 펼치면 1단원 30문제, 2단원 30문제, 3단원 30문제가 깔끔히 정렬돼 있다. 1단원을 다 풀고 다음 단원으로. 이 구조는 직관적이고 기분이 좋다. 같은 유형이 반복되니 익숙해지고, 정답률이 올라가면 "내가 늘었구나"라는 만족감을 준다. 그러나 이 만족감이 함정이다. 학습을 측정하는 단위는 "지금 풀 수 있는가"가 아니라 "한 달 뒤에도 풀 수 있는가, 새 유형이 나와도 적용할 수 있는가"다. 이 기준에서 덩어리 학습은 패배한다.
덩어리 학습이 직관적으로 끌리는 이유는 유창성 착각(fluency illusion)이다. 같은 유형을 반복하면 풀이 속도가 빨라지고 오답이 줄어드는데, 이는 단기 작업기억의 활성화가 유지되는 결과지 장기기억의 강화가 아니다. 의도적으로 다른 유형을 섞으면 매 문제마다 "어떤 도구를 써야 하지?"라는 결정 비용이 발생한다. 이 결정 비용이 바로 학습이다.
2. 1차 자료: 셰이의 야구공 실험과 코른그류의 수학 실험
1978년 셰이(Shea)와 모건(Morgan)의 운동학 실험은 끼워 학습의 첫 결정적 증거였다. 참가자에게 세 가지 다른 거리의 표적에 야구공을 던지게 했다. A그룹은 같은 거리 30번 → 다음 거리 30번 → 다음 거리 30번. B그룹은 세 거리를 무작위로 섞어 90번. 연습 중엔 A그룹이 정확도가 높았다. 그러나 24시간 뒤 시험에서 결과는 뒤집혔다. B그룹이 평균 38% 더 정확했다(Journal of Experimental Psychology).
코른그류(Doug Rohrer)와 테일러(Kelli Taylor)의 2007년 수학 학습 실험은 인지 영역에서 같은 패턴을 확인했다. 4가지 도형의 부피·면적 공식을 가르치고 한쪽은 한 도형씩 묶어서, 다른 쪽은 섞어서 연습. 1주일 뒤 시험에서 끼워 그룹이 2.5배 더 높은 점수를 얻었다(Instructional Science). 같은 시간, 같은 문제. 단지 순서를 바꿨을 뿐이다.
3. 2024–2025 메타분석: 디지털 교실에서도 같은 결론
2024년 Educational Psychologist의 부스(Booth) 등의 메타분석은 K-12에서 대학원 수준까지 73편의 RCT를 통합해 끼워 학습이 평균 d=0.55의 효과 크기를 보였다고 보고했다. 특히 STEM 분야(수학·물리·화학)에서 효과가 가장 컸다. 비슷한 유형이 많은 분야일수록 끼워의 이득이 크다.
2025년 npj Science of Learning에 실린 알사룸(Alsalum) 등의 디지털 학습 플랫폼 데이터(60만 사용자) 분석은 한 발 더 나갔다. 알고리즘이 자동으로 카드를 섞어주는 사용자(자동 끼워)는 수동으로 단원별 학습한 사용자보다 6주 후 유지율이 41% 높았다. 또한 새 유형의 응용 문제 정답률이 27% 높았다. 즉 시험뿐 아니라 전이(transfer)에서도 끼워 학습이 우위를 보였다.
"매끄러운 학습은 잊히고, 거친 학습이 남는다. 끼워 학습이 거칠수록 좋은 이유다."
저자 노트
2025년 3월, 나는 코딩 학습용으로 자료구조 책을 봤다. 1단원 배열 → 2단원 연결리스트 → 3단원 스택. 각 단원 끝 문제 30개씩. 한 달 뒤, 코딩 면접 모의 문제(섞여 출제)를 풀어보니 단원별로 풀 땐 80% 정답률이었던 게 43%로 떨어졌다. 4월부터 매일 세 자료구조 문제를 한 문제씩 섞어서 풀게 학습 방식을 바꿨다. 매일 6문제(2문제×3유형). 처음 1주는 너무 답답했다. 자료구조 종류를 매번 인식해야 했고, 정답률은 60%로 하락. 그런데 3주 차부터 같은 코딩 모의 문제 정답률이 78%까지 올라왔다. 뇌가 "어떤 도구"를 고를 줄 알게 된 것이다. 같은 시간, 다른 결과.
4. 신경과학: 결정 비용이 곧 학습
끼워 학습이 효과적인 이유는 매 문제마다 "어떤 도구를 쓸까?"의 결정이 일어나기 때문이다. 이 결정은 전전두피질(dlPFC)을 활성화하고, 해마(hippocampus)와의 연결을 강화한다. 덩어리 학습에선 같은 도구를 반복 사용해 결정이 자동화되므로 dlPFC는 잠잠하고, 시냅스 강화가 일어나지 않는다.
2018년 Journal of Neuroscience의 연구는 fMRI로 이를 직접 확인했다. 참가자가 끼워 학습 조건에서 같은 자극을 처리할 때 dlPFC와 후측두정엽(PPC)의 활성이 덩어리 조건보다 평균 23% 높았다. 또한 학습 종료 후 24시간이 지난 시점의 휴식 상태 fMRI에서 끼워 그룹의 해마-PFC 연결성이 더 강했다. 즉 "잘 풀었다"는 느낌의 매끄러움이 사라지는 그 시점에 정작 진짜 학습이 일어난다.
5. 7일 도입 프로토콜
- Day 1: 학습 중인 분야의 주요 유형 3~5개 식별. 예: 수학(미분/적분/방정식), 영어(문법/독해/어휘), 코딩(자료구조/알고리즘/시스템).
- Day 2: 각 유형에서 가장 작은 단위 문제 10개씩 모은다. 종이 카드 또는 디지털 카드.
- Day 3: 카드를 섞는다. 매일 5~10장 무작위로 뽑아 푼다. 정답률이 떨어져도 패닉하지 말 것.
- Day 4~5: 매일 10장씩 무작위 풀이. 틀린 카드는 다음 날 다시 풀이 풀에 넣는다.
- Day 6: 같은 유형 카드 두 장이 연속으로 나오지 않게 셔플 알고리즘 점검. 의도적 분산.
- Day 7: 베이스라인 측정. 처음 막혔던 종합 모의 문제(여러 유형이 섞인) 다시 풀이 → 정답률 비교.
한 달 동안 같은 패턴 유지. 4주 차쯤 "어떤 유형인지" 자동으로 인식되기 시작한다. 이게 진짜 학습의 시작점이다.
6. 흔한 반론과 한계
"기초가 약한데 끼워하면 더 헷갈리는 거 아닌가?" 부분 사실이다. 끼워 학습은 각 유형의 "기본 도구"가 어느 정도 손에 잡힌 뒤에 효과가 크다. 처음 미분을 배우는 단계에서 미분과 적분을 섞으면 양쪽 다 흔들린다. 첫 1~2주는 덩어리 학습으로 도구 만들기, 그 뒤부터 끼워로 도구 고르기 훈련.
"단순 암기엔?" 무의미 단어 암기 같은 단순 과제에선 분산 학습(spaced repetition)이 더 강력하다. 끼워는 같은 분야 안의 다른 도구·문제 유형을 섞을 때 빛난다. 두 기법은 결합 가능하다.
"재현 위기는?" 끼워 학습 효과는 200편 이상의 직접·개념 재현이 이뤄진 견고한 효과다. 다만 효과 크기는 분야와 학습 단계에 따라 d=0.2~0.9로 큰 폭의 변동을 보인다.
7. 잘못 적용했을 때의 부작용
가장 흔한 실수는 "기초 없이 무작정 섞기"다. 학습 분야의 도구를 아직 손에 잡지 못한 단계에서 끼워하면 정답률이 무너지면서 학습 동기까지 무너진다. 두 번째 함정은 "섞이긴 했는데 너무 비슷한 것끼리"—같은 유형의 변형만 섞으면 끼워의 이득이 거의 없다. 의도적으로 "다른 도구가 필요한" 문제를 옆에 둬야 한다. 세 번째는 "매일 새 카드만 추가"—기존 카드 회전 없이 양만 늘리면 누적이 망가진다. 분산 학습 원칙(라이트너 박스)을 함께 써야 한다.
8. 한 줄로 가져가기
관련 글
- 분산 학습(Spaced Repetition): 잊기 직전 다시 만나는 학습이 평생을 간다
- 1만 시간 법칙의 진짜 의미: 의식적 연습이란 무엇인가
- 질문하는 능력이 학습의 속도를 결정한다
참고: Shea & Morgan (1978, JEP); Rohrer & Taylor (2007, Instructional Science); Booth et al. (2024, Educational Psychologist); Alsalum et al. (2025, npj Science of Learning); Journal of Neuroscience (2018).
