본문 바로가기
심리학

도박꾼이 슬롯머신을 떠나지 못하는 심리 '조작적 조건 형성'

by 7hinking 2024. 4. 7.

1930년대 말에 스키너는 조직적 조건 형성이라는 새로운 학습 이론을 내놓았습니다. 스키너는 연합을 통한 학습을 최초로 체계적으로 연구한 유명 학자 이반 파블로프를 매우 존경했고, 그의 연구를 기반으로, 연합만이 아니라 행위의 결과도 행동을 바꾼다는 사실을 밝혔습니다.

 

※ 스키너 : 버러스 프레더릭 스키너(Burrhus Frederic Skinner, 1904년 3월 20일~ 1990년 8월 18일)는 미국의 심리학자입니다. 하버드대학교에서 1958년부터 1974년 은퇴할 때까지 심리학과의 교수였던 그는 행동주의 심리학자로 교육과 심리학에 많은 영향을 끼쳤는데요. 스키너는 "스키너의 상자"로 불리는 조작적 조건화 상자를 만들어 연구한 것으로 유명하며, 행동주의 심리학을 발전시키는데 일조했습니다. 스키너는 행동의 실험적 분석을 목적으로 하는 실험 연구 학과를 창시했으며 심리학에 있어 연관된 변수에 의한 반응률에 대한 연구를 발전시켰습니다. 그가 또한 주창한 강화이론에 대한 이론을 만들기 위해 행동의 반응률을 측정하는 누적합산기도 만들기도 했습니다. 그의 연구는 20세기의 가장 영향력있는 심리학적 연구로 인정 받고 있으며 21권의 책과 180편의 글을 남겼습니다.

 

※ 이반 파블로프 : 러시아의 생리학자. 개가 주인의 발자국 소리만 들어도 침을 분비한다는 것을 발견하고 '조건 반사'로서 뇌의 작용에 대해 연구하였으며, 소화와 신경지배의 연구로 1904년 노벨생리 ·의학상을 수상하였습니다.

 


결과를 통한 학습

스키너는 우리가 강화(reinforcement)와 처벌(punishment)을 통해 학습한다고 주장했습니다. 보상을 받은(강화) 행동은 반복할 가능성이 높고, 처벌을 받은 행동은 반복할 가능성이 낮다는 것입니다. 하지만 조작적 조건 형성은 바람직한 행위를 한 동물이나 사람에게 단순히 보상을 주는 것보다 더 복잡한 과정입니다. 스키너는 “정적positive 강화를 실행하는 방식은 실행하는 횟수보다 더 중요하다”라고 말했는데, 강화와 처벌은 다양한 형태로 시행되고 다양한 일정으로 적용될 수 있습니다.

스키너에 따르면 강화와 처벌 모두 정적일 수도 있고 부적(negative)일 수도 있습니다. 사람이 정적 처벌을 받을 수 있다는 말이 모순처럼 들릴 수도 있지만 이 경우에 정적이라는 말은 ‘좋다’거나 ‘즐겁다’는 뜻이 아닌 것입니다. 이는 어떤 물체나 행동이 상황에 더해진다는 뜻이되는거죠. 부적 처벌이나 강화는 무엇인가 없어지는 상황입니다. 정적 강화는 예를 들어 반복하기를 바라는 행동에 대한 보상으로 사탕을 주거나 칭찬하는 것입니다. 부적 강화는 불쾌한 자극을 제거하여 행동을 보상하는 것으로, 아침에 일어나서 짜증 나는 알람 소리를 멈추기 위해 알람 시계를 끄는 경우를 예로 들 수 있습니다.


스키너의 실험상자 - 유기체의 행동

스키너는 하버드대학교에서 강화와 처벌이 행동에 미치는 영향을 연구하고자 ‘조작적 조건 형성 장치’를 개발했습니다. 학생들은 이 장치를 ‘스키너 상자’라고 불렀지만 정작 스키너 본인은 이 이름을 달가워하지 않았다고 하는데요.


스키너 상자에는 동물이 누르면 강화를 위해 먹이 같은 보상을 받을 수 있는 지레나 스위치가 있었습니다. 연구자는 먹이가 나오도록 지레나 스위치의 조작 속도를 바꿀 수 있었으며, 또한 이 상자는 빛이나 심상, 소리 같은 자극을 심어서 동물이 반응하게 했고, 상자 바닥에 전기가 흐르게 해서 어떻게 부적 강화(불쾌한 감전 제거)가 행동을 강화하는지 보여주었습니다. 스키너의 연구 결과는 1938년에 내놓은 책 《유기체의 행동》에 발표됐습니다.


스키너는 이 상자를 사용해 주로 쥐나 비둘기 같은 동물이 지레나 스위치를 누르는 속도는 파블로프가 주장한 것처럼 고전적 조건 형성에서 선행하는 자극이 아니라, 스위치를 누른 뒤에 무엇이 따라오는지에 달려 있다는 사실을 증명했습니다. 또한 스키너는 스키너 상자를 이용해 다양한 강화에 대한 비율의 효과를 조사했는데요. 만약 동물이 행위를 완료할 때마다 강화를 받으면(연속적 강화), 보상에 익숙해져서 싫증을 내고 더 이상 행위를 반복하지 않고 중단할 수 있었습니다. 이 현상을 가리켜 ‘소거(extinction)’라고 합니다. 스키너는 강화가 어떤 영향을 미치는지 알아보기 위해 다양한 강화를 시도했습니다.

■ 고정 비율 계획 : 동물은 특정한 횟수만큼 행위를 실행한 다음에 먹이를 받는다. 예를 들어 비둘기가 스위치를 다섯 번 쫄 때마다 먹이를 받는다.
■ 변동 비율 계획 : 동물은 임의의 횟수만큼 반응한 다음에 강화를 받는다.
■ 고정 간격 계획 : 동물은 정해진 시간이 흐른 다음에 강화를 받는다.
■ 변동 간격 계획 : 동물은 임의의 시간이 흐른 다음에 먹이를 받는다.

스키너는 강화를 예측할 수 없는 변동 비율 계획에서 소거 현상이 가장 늦게 일어난다는 사실을 발견했습니다. 이 지식은 우리 일상생활에 중요하게 적용됩니다. 동물 훈련사들은 이런 정보를 사용하여 보상을 주는 시기나 종류를 조절하는 등 대상 동물에게 주는 강화를 바꾸어 원하는 결과를 얻을 수 있었습니다. 예를 들면 만약 개가 자기 이름을 부를 때 반응하면 반드시 치즈를 받는다는 사실을 알게 되면, 어느 날 자기가 쫓으려 했던 다람쥐보다 치즈가 덜 흥미롭다고 판단할 수도 있습니다. 그러나 만약 자기 이름을 불러서 갔을 때 어떤 보상을 받을지 정확히 모른다면 뭔가 흥미로운 보상을 얻을지도 모른다는 생각에, 기꺼이 다람쥐를 포기하는 선택을 할 것입니다.


이런 도박과의 연관성은 사람에게도 적용할 수 있습니다. 슬롯머신은 변동 비율 계획과 같은 원리로 작동하는데요. 도박꾼은 아무것도 받지 못하기 일쑤지만 가끔씩 작은 보상을 받고, 드물게는 상당한 보상을 받기도 합니다. 그런 불확실성 때문에 도박꾼들은 계속해서 손잡이를 당기게 되는 것입니다.


비둘기 프로젝트

제2차 세계대전 당시 미국의 행동주의자 B. F. 스키너는 비둘기가 유도하는 미사일을 개발하는 프로젝트 ‘비둘기[이는 나중에 프로젝트 ‘오르콘Orcon(유기 조종organic control의 줄임말)’로 바뀌었다]’를 시도했습니다.

 
이 프로젝트에서는 비둘기를 스크린 앞에 세워두고 목표물을 쪼도록 가르쳤고, 비둘기는 목표를 쫄 때마다 씨앗을 받았는데요. 목표물이 경로에서 벗어나면 스크린의 옆으로 이동하고, 비둘기는 이를 쪼아서 화면 중심으로 되돌리고 그 대가로 보상을 받았습니다. 이 프로젝트의 의도는 미사일이 목표물을 향하도록 유지해서 격추를 성공시키는 것이었습니다. 하지만 더욱 정교해진 전자 유도 시스템을 선호하게 되면서 이 프로젝트는 중단됐습니다.