적폐청산이 필요한 이유 '팃포탯'의 교훈

영국 해군의 공식 명칭은 ‘The Royal Navy’이다. 영국 공군은 ‘The Royal Air-Force’다. 왕립 해군이요 왕립 공군이다. 예외가 있다. 영국 육군은 ‘Royal Army’가 아니라 그냥 ‘British Army’라고 한다. 유럽의 경우, 근대로 접어들며 생기는 상비군이 현대 군대의 원형이 된다. 영국 최초의 상비군은 찰스1세 시절 창설되었다. 찰스1세는 시대정신과는 이미 멀어진 왕권신수설을 확고히 믿었던 답답한 군주였다. 의회파와 왕당파 간의 내란(청교도 혁명)이 발생하면서, 그는 무력해졌다. 왕권은 인간 따위가 주는 것이 아니라 믿었지만, 그가 믿던 신이 자신의 왕권을 지켜주지는 않았다. 1647년 초, 찰스 1세는 의회파에 의해 처형된다.

영국 육군에 ‘Royal’이 붙지 않는 이유

사실, 영국의 상비군은 찰스 1세 시절 창설되었다지만 창설자가 찰스 1세는 아니었다. 상비군을 만든 사람은 올리버 크롬웰이었다. 신형군(New Model Army)이라고 불렀던 이 부대는 찰스 1세의 처형을 이끌어 낸 의회파의 강력하고 현실적인 힘으로 작용했다. 하지만 크롬웰이 죽고 나서 상황은 완전히 바뀌게 된다. 크롬웰이 죽고 나서야 공식적으로 왕위에 오를 수 있었던 찰스 2세는 1660년에 근위여단만 남기고 신형군을 아예 해체해 버렸다. 이후 권리장전(1689)에 따라 군통수권은 의회로 넘어가게 된다. 군 통수권도 의회로 넘겨진 상황이지만 영국 왕실의 입장에서 보면 영국 육군의 시조는 왕권을 부인하고 선왕을 처형한 “반란군 놈의 새끼들”일 수밖에 없었다. 응징해야 마땅했을 것이다. 육군을 아예 없애지는 못 할 터, 최소한 그 반란군의 이름에 ‘왕립’을 붙이지는 못 하게 했던 것이다. 군주제에서 공화제로 바뀌었어도 왕실의 복수는 그대로 인정되고 있는 셈이다.

크롬웰 생전, 의회파에게서 받았던 만큼 그대로 돌려주지 못 했던 왕실은 그 다음 단계(크롬웰 사후, 군주제에서 공화제로 바뀐 상황)에서라도 잊지 않고 응징하려 했던 것이다. 350년이 지난 오늘도 영국 육군은 명예로운 이름을 회복하지 못 하고 있다. ‘신사의 나라’라고 말들 하지만 이런 걸 보면 참 지독하고 집요한 사람들의 나라인거다.

죄수의 딜레마와 응징의 필요성

게임이론, 죄수의 딜레마 얘기다. 서로를 믿고 협력하면 모두에게 이익이 된다는 걸 다 알고 있다. 알고는 있지만 상대를 믿지 못해 죄수는 배반을 선택한다. 둘 다 침묵하면 가장 합리적으로 형량을 낮게 받을 수 있지만 죄수들은 폭로를 시작한다. 결국 손익의 총합에선 최악의 결과를 낳는다. 이런 경향을 수학자 앨버트 터커(Albert W. Tucker)는 죄수의 딜레마라고 이름 붙였다. 배반은 사실상 최선의 전략대안이 된다, 죄수의 딜레마 게임이 한 번으로 끝난다면. 상대방이 어떤 선택을 하던 배반하는 것이 자신에겐 가장 이득이 크게 되기 때문이다. 분명 배신은 단기적으로는 수지맞는 장사가 된다.

하지만 인간세상, 단 한번으로 끝나는 게임이 몇이나 되나? 인생의 게임이야말로 토너먼트 보다는 리그전에 가깝다. 바로 이 점에서 천재 수학자 폰 노이만(John von Neumann)은 온전한 죄수의 딜레마는 존재하기 힘들다고 지적했다. 왜냐면 사람들의 지속적인 의사소통과 인간관계를 고려해 보면 게임이 단 한번으로 끝나는 경우는 거의 없기 때문이니까. 1회성으로 끝나지 않는 계속적인 상호작용을 모형화한 것이 ‘반복적 죄수의 딜레마 게임(iterated prisoner’s dilemma game)’이다.

1980년, 정치학자 로버트 액설로드(Robert Axelrod)는 반복적인 죄수의 딜레마 게임에서 최대 이익을 얻을 수 있는 로직을 겨뤄 보는 컴퓨터 게임 대회를 열었다. 양쪽 모두 협력하면 각 3점, 한쪽 협력-다른 쪽 배신엔 0점과 5점, 양쪽 모두 배반 땐 각 1점씩을 주는 식이다. 물론 최다득점자가 우승하는 대회였다. 1차 대회 때엔 15개의 로직이 제출됐는데 우승한 로직은 달랑 4줄짜리 프로그램이었다. 액설로드는 1차 대회의 결과를 널리 알리고 더 큰 규모로 2차 대회를 개최하였다. 두 번째 대회에는 훨씬 더 많은 프로그램이 제출되었다. 참가자 모두는 1차 대회의 결과를 잘 알고 있었다. 2차 대회 때는 무려 63개의 프로그램이 출품됐는데도 우승한 프로그램은 지난 번 대회 때와 같은 로직이었다. 그 로직은 이미 참가자들이 다 알고 있던 로직이었는데도 말이다. 승자는 제출된 전략 중 가장 단순한 로직인 ‘팃포탯’(Tit For Tat)이었다.

팃포탯 전략, 받는 대로 돌려주기

팃포탯은 어떤 전략인가? 이것은 첫 게임에선 우선 협력하고, 다음부터는 상대가 하는 대로 따라하는 전략이다. ‘tit과 tat’은 ‘가볍게 치기’를 의미한다. ‘tit for tat’은 ‘상대가 치면 나도 친다’는 뜻이다. 받은 대로 돌려준다는 얘기다. ‘되갚음, 응징, 보복’이라고도 할 수 있다. ‘상호성의 법칙(law of reciprocality)’이다. ‘오는 말이 고와야 가는 말이 곱다’는 속담이나 ‘눈에는 눈, 이에는 이(an eye for an eye, a tooth for a tooth)’라는 말이 여기에 해당한다. 상대방이 하는 대로 되갚아 주는 것이 팃포탯이다.

반복적 죄수의 딜레마 게임에서 팃포탯은 맨 처음 협력으로 시작하고, 그 다음부터는 상대가 앞에서 선택한 전략을 그대로 선택해 돌려주는 전략이다. 즉 상대가 협력하면 나도 협력하고 상대가 배반하면 나도 배반하는 것이다. 이 단순한 전략이 최대의 이익을 얻을 수 있는 로직이다. 게임이 진행되는 동안 팃포탯 전략은 상대보다 한 번도 더 좋은 점수를 얻지 못했다. 늘 한 발 늦은 대응이니까. 상대가 먼저 배반하면 상대는 5점을 획득하지만 나는 그 단계에서는 0점이 되니까. 하지만 최종 누계에선 팃포탯이 항상 최고의 점수를 획득했다. 결과적으로 모든 상대에게서 협력을 이끌어냈기 때문이었다. 배신하면 반드시 응징 당하고 협력하면 꼭 보상받게 되는 이 프로그램과 경쟁했던 상대는 모두 협력을 선택했다.

대회의 데이터를 분석한 결과, 팃포탯 전략을 성공으로 이끈 특성은 4가지로 나타났다.

①협력: 상대가 협력하면 무조건 협력하고 불필요한 갈등을 일으키지 않는다.

②응징: 상대의 예상치 않은 배반에는 즉각 보복한다.

③용서: 상대의 도발을 응징한 후에는 용서한다.

④행동의 명확성: 상대가 내 행동 패턴에 적응할 수 있도록 명확하게 행동한다.

다양한 해석이 가능하지만 ‘용서’가 가장 중요한 특성이라고 보는 경우가 많다. 반복적 죄수의 딜레마 게임에서 성적을 결정하는 가장 중요한 요소가 용서라는 것이다. 용서는 상대의 배신에 대해서는 바로 응징을 가하지만, 응징이 이루어지고 나면 다음 게임에서는 과거를 털고 다시 협력하는 관용성을 의미한다. 한 번 응징하고 나면 과거는 과거로 잊어버리자는 것이다. 사실, 용서하지 않는 전략은 모두 성적이 좋지 않았다. 용서가 없으니 한 번 배반하면 복수와 재복수가 계속 이어졌고 그로 인해 다 같이 망하는 결과를 가져왔기 때문이다.

학습 능력이 팃포탯을 가능케 해

반복적 죄수의 딜레마 게임에서는 협력이 최선의 전략이다. 하지만 인간은 이기적이다. 이기적인 인간들이 참여하는 게임에서 이타성만을 기대하지는 못 한다. 무조건적인 협력은 기대하기가 어렵다는 것이다. 따라서 협력할 수 있는 조건을 갖춰주고 협력하는 것이 나에게도 유리하다고 깨닫게 만드는 것이 필요하다. 그러니까 때로는 단호히 응징하고 때로는 명확하게 협력해야 한다. 인간의 학습능력을 이용해야 하니까 그렇다. 팃포탯 전략이 효과를 가지는 이유는 인간의 학습능력 때문이다.

게임 참가자의 경우, 배신하면 응징을 받고(즉, 처벌) 협력하면 무조건적인 협력(즉, 보상)을 받게 됨을 경험하게 된다. 경험을 통해 학습하게 되는 것이다. 처벌과 보상에 따라 행동이 강화되는 것이다. 게임 참가자는 팃포탯 대응에 따라 명확한 교훈을 얻게 되고 그 결과 처벌을 피하기 위해서라도 혹은 보상을 받기 위해서 결국 협력적인 태도를 취하게 된다. 온 몸으로 그걸 깨달았으니 당연히 그렇게 변하게 된다.

그렇다면 게임에 참가하지 않은 사람들은 어떻게 될까? 몸소 경험해서 학습한 참가자 말고 게임에 참가하지 않은 많은 사람들에게는 어떤 영향을 미치게 되는 것일까? 역시 학습능력이 발휘된다. 사람은 자신에게 행해지는 자극만으로 학습하는 존재가 아니다. 행동주의로만 설명되는 존재에 불과하진 않다. 인간은 관찰을 통한 학습이 가능한 존재다. 직접 경험하지 않아도 내가 아닌 다른 사람을 통해서, 내가 참여하지 않은 역사적 사실을 통해서도 모방학습이나 관찰학습(대리학습)을 할 수 있는 존재이다. 내가 직접 겪지 않았어도 ‘아, 이러면 인생 망치겠구나.’, ‘이렇게 하면 손해 보는 것 같아도 결국 서로 좋은 거구나.’를 교훈으로 얻을 수 있는 존재다.

그래서 팃포탯은 중요하다. 반역사적, 반민족적, 반시대적 행동을 선택한 자들에게는 마땅한 응징을 내리고 무도한 자들에 맞서 힘들게 싸운 분들에게는 걸맞은 보상이 이뤄져야 하는 것이 학습되기 때문이다. 팃포탯은 당사자 말고도 우리 모두에게 교훈으로 학습된다. 예우의 대상이 되어야 할 훌륭한 분들이 걸맞은 보상조차 없이 어렵게 사는 모습이 몇 번만 보여 지게 되면 우리들은 학습하게 된다. 대의를 위해 희생해도 본인만 손해인 것이라고 결론 내리게 된다. 이런 잘못된 생각을 교훈으로 간직하고, 선택의 순간 그 교훈대로 행동하게 된다. JFK는 이렇게 말했다. “한 나라가 어떤 나라인지는 그 나라가 어떤 인물을 배출하는지 뿐 아니라 그 나라가 어떤 사람들을 예우하고 기억하는가에 의해서 결정된다”라고.

응징없는 관용은 실패한다

팃포탯 전략은 간단하다. 처음에는 상대방에 대해 무조건적으로 협력한다. 그러나 이를 악용하려는 상대에 대해서는 단호하게 응징한다. 하지만 응징한 다음에는 곧바로 용서한다. 그리고 이러한 일관성 있는 행동원칙을 상대방에게 각인시킨다. 협력을 얻기 위해서는 응징만큼 용서도 중요하다. 하지만 이것을 관용이 제일 중요하다고 받아들여선 안 된다. 먼저 그리고 반드시 배신에 대한 응징이 있어야 하고 그 다음 단계에 관용이 있어야 한다는 얘기다. 지난 일 모두 용서하자는 것이 팃포탯 전략은 아니다.

팃포탯 전략은 개개인 차원에서는 그나마 쓰기 쉽지만 현실 정치나 역사의 흐름에서 적용되기는 쉽지 않다. 왜냐면 정치나 역사의 경우 즉각적인 응징은 언제나 어렵기 때문이다. 상대의 배신이 일어났을 때 배신이 일어난 바로 그 단계에서 즉각적으로 보복하기가 어렵다. 배신자들은 배반을 한 그 단계에서는 대부분 권력과 위세를 지닌 강자이기 때문이다. 그래서 응징이 가능한 시점은 그들이 배반을 하고 누릴 것 다 누린 이후의 다음 단계에 오기 마련이다. 세상이 바뀌고서야 겨우 가능하게 된다. 일제 강점기 다음의 독립국가, 군사정권 다음의 문민정부가 그런 다음 단계에 해당할 것이다. 더 큰 문제는 전 단계에 가졌던 그들의 힘이 세상이 바뀌었다고 바로 약해지지는 않는다는 것이다. 그들은 혼자에서 시작했더라도 세력이 되어 있기 마련이다.

이전 단계에 있었어야 할 응징을 오지 않을 것 같던 다음 단계에 직면하게 되는 그들은 정교한 커뮤니케이션을 구사한다. 응징을 피하려 하는 것이다. ‘청산이 아니라 보복이다’란 얘기로 생각의 틀을 자신들에게 유리한 방향으로 제시한다. ‘지금은 새로운 단계/시대/상황이다’라고 오히려 강변하기도 한다. 그러니까 ‘지금의 잣대로 과거를 재단할 수는 없다’라고 하면서 ‘바로 잡으려면 왕위를 찬탈한 수양대군도 처벌해야 하는 것 아니냐’고 강변하기도 한다. 좀 더 정교한 언사로는 ‘인적 청산이 중요한 것이 아니라 시스템을 바꿔야 한다.’는 말도 있다. 세월이 많이 흘렀어도 배신이 일어난 단계에 가하지 못 했던 응징은 다음 단계에서라도 반드시 필요하다. 당사자의 문제가 아니라 이건 하나의 공동체가 건전하게 유지되기 위한 학습의 문제이니까.

‘청산이 아니라 보복’이라고 우기면 ‘보복이 아니라 법 집행’이라고 받아 쳐야 한다. ‘현재의 잣대로 과거를 재단할 수 없다’고 하면 ‘이전 단계에서 잘 먹고 잘 살았던 것까지는 어쩔 수 없더라도 지금 그것 때문에 잘 먹고 잘 사는 것은 안 된다’라고 해야 한다. ‘인적 청산하면 안 되고 시스템을 바꿔야 한다’고 하면 ‘개인이 민족과 국가를 배신하면 시간이 한참 흘렀어도 그 개인이 반드시 응징 받는다는 것을 시스템으로 만들려 하는 것’이라고 얘기해야 한다. 알베르 카뮈는 말 했다. ‘어제의 범죄를 벌하지 않는 것, 그것은 내일의 범죄에 용기를 주는 것’이라고. 악착같이 찾아내고 끝까지 응징해야 한다. 그래야 학습이 일어나게 된다.

황부영기자의 인기기사 전체보기

적폐청산이 필요한 이유 '팃포탯'의 교훈

영국 육군에 ‘Royal’이 붙지 않는 이유

죄수의 딜레마와 응징의 필요성

팃포탯 전략, 받는 대로 돌려주기

학습 능력이 팃포탯을 가능케 해

응징없는 관용은 실패한다

적폐청산이 필요한 이유 '팃포탯'의 교훈

"난 평균 이상" 워비곤 호수엔 누가 빠지나

끝내지 못하면 기억은 지워지지 않는다