__>

심리학개론

심리학개론/조작적 조건화

Inferno.1 2020. 12. 5. 00:05

조작적 조건화는 스키니(Skinner)에 의해 가장 체계적으로 연구되었다. 그 는 고전적 조건화와 조작적 조건화를 개념적으로 명확히 구분하기도 하였다. 스키너의 이러한 업적에는 많은 사람이 영향을 미쳤는데, 그중 한 사람이 손다이크(Thorndike)였다. 미국에서 심리학을 공부한 손다이크는 당시 자극과 반응의 관계를 연구한 러시아 심리학자들과는 달리, 행동과 그 결과의 관계성에 대해 연구하였다. 이러한 연구를 위해 그는 이른바 문제상자(puzzle box)라는 것을 만들었다. 문제상자는 고양이를 그 속에 넣었을 때 고양이가 나무 페달을 밟아 문을 열 수 있도록 고안되었다. 행동과 결과의 관계성을 연구하기 위해 손다이크는 문제상자 안에 배고픈 고양이를 넣어 두고 밖에는 생선을 놓아 두었다. 그리고 이 상황에서 고양이가 문제상자를 빠져나오는 데 걸리는 시간을 측정하였다. 처음에는 고양이가 곧바로 페달을 밟지 않아 문을 열고 나오지 못한 채 여러 가지 관련 없는 행동들을 하였다. 그러나 결국에는 우연히 페달을 밟아서 문제상자를 빠져나오게 되었다. 이러한 시행을 거듭하면 할수록 고양이가 문제상자를 빠져나오는 데 걸리는 시간은 점점 단축되었다. 이 현상을 손다이크는 효과의 법칙(Law of effect)'이라 불렀다. 즉, 이는 만족스러운 결과를 가져오는 행동은 강해지고 불만족스러운 결과를 가져오는 행동은 약해지는 현상을 말한다. 손다이크의 실험에서 보면, 문제상자의 문을 열고 결과적으로 바깥에 있는 생선을 먹을 수 있게 한 페달을 밟는 행동은 강해졌고, 문제상자 안에 그대로 남아있게 한 다른 여러 행동은 약해졌다. 손다이크는 이러한 전체적인 과정을 도구적 조건화(instrumental conditioning)라고 불렀는데, 이는 행동이 어떤 결과를 초래하는 데 도구적 역할을 하였기 때문이다.

 

1) 조작적 조건화의 원리

손다이크에게서 영향을 받은 스키너는 도구적 조건화라는 용어 대신 조작 적 조건화(operant conditioning)라는 용어를 사용하였다. 이는 사람들이 바람직한 결과를 이끌어 내기 위해 단지 어떤 자극에 수동적으로 반응하는 것이 아니라 환경에 능동적인 '조작'을 가한다( operate on the environment)는 의미에서 나왔다. 스키너가 연구한 조작적 조건화의 원리로는 정적 강화(positive reinforcement), 부적 강화(negative reinforcement), 소거(extinction), 처벌(punishment) 등을 들 수 있다.

 

정적 강화와 부적 강화

정적 강화란 어떤 특정한 행동 뒤에 즉각적으로 주어지는 자극으로 인해 이후 그 행동의 빈도가 증가하는 과
정을 말한다. 여기서 행동의 빈도를 증가시킨 자극을 강화인(reinforcer)이라고 한다. 정적 강화의 예는 우리 주위에서 얼마든지 찾아볼 수 있다. 예를 들어, 어린아이가 어머니의 심부름을 하고 난 뒤 어머니한테서 과자를 받았다. 이후에 이 어린 아이는 어머니의 심부름을 더 자주 했다. 이때 심부름 행동의 증가는 정적 강화에 의한 것이라고 할 수 있다.
부적 강화는 행동의 빈도를 증가시킨다는 측면에서는 정적 강화와 동일하다. 그러나 그 과정에는 정적 강화와 약간의 차이가 있다. 정적 강화는 행동의 결과로 어떤 자극이 주어짐으로써 이후 그 행동의 빈도가 증가하는 반면, 부적 강화는 행동의 결과로 어떤 자극이 없어짐으로써 이후 그 행동의 빈도가 증가하는 과정을 말한다. 예를 들어, 도피행동(escape behavior)이나 회피 행동(avoidance behavior)이 이에 해당된다. 도피행동이란 어떤 혐오 자극이 이미 존재하고 있을 때 특정 행동을 함으로써 그 혐오 자극을 제거하는 경우를 말한다. 예를 들어, 방 안의 공기가 너무 더울 때 창문을 여는 행동은 더운 공기라는 혐오적인 상황을 없앤다는 의미에서 도피행동이라고 할 수 있다. 그리고 창문을 여는 행동은 이후 다시 방 안이 더울 때 일어날 가능성이 높다는 점에서 부적 강화를 받았다고 할 수 있다.
회피행동이란 도피행동처럼 혐오 자극이 현재 존재하고 있지는 않지만 미리 어떤 행동을 함으로써 혐오적인 상황이 닥치지 않게 하는 경우를 말한다. 예를 들어, 철수가 TV를 보면 어머니가 항상 잔소리를 한다고 가정하자. 만약, 철수가 어머니의 잔소리를 듣기 싫어 아예 미리 TV를 켜지 않고 공부하러 간다면 이는 회피행동이라고 할 수 있다. 이러한 회피행동 역시 부적 강화의 예가 될 수 있다. 왜냐하면 TV를 보는 상황에서 어머니의 잔소리를 혐오 자극이라고 할 수 있으므로 TV를 끄고 공부하러 감으로써 혐오 자극인 어머니의 잔소리를 듣지 않아도 되기 때문이다.

 

강화인의 종류

정적 강화 및 부적 강화에서 행동의 빈도를 증가시키는 역할을 하는 강화인에는 여러 가지가 있다. 무조건 강화인(unconditioned reinforcers)이라고도 불리는 이차적 강화인(secondary reinforeers) 이 행동의 빈도를 증가시키는 효과는 일차적 강화인과 연합됨으로써 생긴다. 예를 들면, 돈이라는 것은 돈을 사용해 본 경험이 없는 어린이들에게는 아무런 소용이 없다. 그러나 좀 더 성장한 어린이들에게 돈은 다양한 종류의 일차적 강화인과 관련되어 있기 때문에 강화인의 효과가 있는 것이다. 그리고 일차적 강화인과 관련되어 있는 돈과 같은 다양한 종류의 이차적 강화인을 일반화된 조건 강화인(generalized conditioned reinforcers)이라고 한다.
지금까지 언급한 강화인은 주로 환경상의 자극이나 사건 등 물질적인 것이었다. 그러나 물질적인 것이 아니더라도 강화인의 역할을 할 수 있다. 프리막(Premack, 1962)은 물질적이지 않은 행동이 강화인의 역할을 할 수 있다는 사실을 발견하였다. 프리막에 의하면, 발생 확률이 높은 행동을 발생 확률이 낮은 행동을 증가시키기 위한 강화인으로 사용할 수 있다. 예를 들면, 아이들에게 만화를 볼 기회와 공부할 기회를 동시에 준다면 아마도 그들은 만화 보는 것을 더 선호할 것이다. 여기서 만화 보는 것은 발생 확률이 높은 행동이고, 공부하는 것은 발생 확률이 낮은 행동이다. 이러한 프리막의 원리에 따라 아이들로 하여금 공부를 더 하도록 만들기 위해서는, 공부(저 확률 행동)를 어느정도 한 후에 만화를 보게 해 주면(고 확률 행동) 공부하는 행동이 증가될 수 있다.

 

강화 스케줄

강화인이 어떤 행동을 형성하고 유지하는 데 중요한 역 할을 하는 것은 사실이지만, 강화 스케줄에 따라 행동의 학습 속도, 패턴, 지속성 등은 달라진다. 강화 스케줄이란 간단히 말해서 어떤 행동 후에 나오는 강화인이 어떤 방식으로 제공되느냐에 관한 것이다. 예를 들어, 특정 행동을 학습시키고자 할 때 그 행동이 나올 때마다 매번 강화인을 제공한다면, 이것은 계속적 강화(continuous reinforcement: CRF)다. 심리학자들이 인간이나 동물의 행동을 연구하기 위해 사용하는 강화 스케줄에는 계속적 강화 이외에도 수없이 많은 종류가 있다. 그러나 여기서는 가장 기초적인 몇 가지 강화 스케줄만 살펴보도록 하자.
행동이 나올 때마다 매번 강화를 주는 계속적 강화 이외의 강화는 모두 간헐적 강화(intermittent reinforcement)라고 볼 수 있다. 즉, 간헐적 강화란 행동이 일어날 때마다 매번 강화가 주어지지 않는 경우를 총칭하는 것이다. 간헐적 강화는 다시 비율 스케줄(ratio schedule)과 간격 스케줄(interval schedule)로 나뉜다. 비율 스케줄에서는 강화인의 제공 방식이 유기체의 반응에 따라 결정되는 반면, 간격 스케줄에서는 유기체의 반응뿐 아니라 시간에도 기초를 두고 있다. 비율 스케줄은 다시 고정비율(fixed-ratio: FR)과 변동비율(variable ratio: VR) 스케줄로 나뉘는데, 고정비율 스케줄은 매 n번째의 반응 때마다 강화인이 주어지는 스케줄이다. 예를 들면, FR 3이라는 스케줄은 특정 행동을 세 번 했을 때마다 강화인이 한 번씩 주어지는 스케줄이다. 따라서 앞서 언급한 계속적 강화(CRF)는 FR 1과 동일한 스케줄이다. 반면에 변동비율 스케줄에서는 평균적으로 n번째의 반응 때마다 강화인이 주어지지만, 정확하게 몇 번째 반응에 강화인이 주어지는지는 알 수 없다. 다만, 정해진 시간 내의 반응 수와 강화인 수를 계산해 보면 평균적으로 n번째의 반응 때마다 강화인이 주어지는 경우다. 예를 들어, VR 5를 보면 어떤 경우에는 3번째 반응에 강화인이 주어질 수 있고, 어떤 경우에는 10번째 반응에 강화인이 주어질 수 있다. 그러나 반응 수를 합하고 이를 강화인 수로 나누게 되면 평균적으로 다섯 번의 반응 때마다 한 번의 비율로 강화인이 주어진다.
간격 스케줄도 고정간격(fixed-interval: FI)과 변동간격(variable-interval: VR) 스케줄로 나뉜다. 고정간격 스케줄에서는 어떤 정해진 시간이 지난 후에 나타나는 첫 번째 반응에 강화인이 주어지고, 그 시점으로부터 정해진 시간이 다시 지난 후의 첫 번째 반응에 강화인이 주어지게 된다. 예를 들어, FI 30초의 스케줄에서는 30초가 경과하기 전에 나온 반응은 아무런 강화를 받지 못하고, 30초가 지난 후 첫 번째 반응에 강화가 주어지며, 그 시점에서 다시 30초가 지난 후의 첫 번째 반응에 강화가 주어지는 식으로 진행된다. 변동간격 스케줄에서는 평균적으로 어떤 정해진 시간이 지난 후의 첫 번째 반응에 강화인이 주어지고, 그 시점에서 다시 평균적으로 정해진 시간이 지난 다음의 첫 번째 반응에 강화인이 주어지는 형식으로 진행된다. 예를 들어, VI 10초의 스케줄이 있다면 어떤 경우에는 10초가 지난 후 첫 번째 반응에 강화인이 주어질 수 있고, 어떤 경우에는 15초가 지난 후 첫 번째 반응에 강화인이 주어질 수 있다. 그러나 총 반응 시간을 주어진 강화인 수로 나누면 평균적으로 10초가 지난 후 첫 번째 반응에 한 번의 비율로 강화인이 주어진다.
지금까지 언급한 네 가지 스케줄은 반응 패턴과 반응률에서 차이가 있다. 우선 고정비율과 고정간격 스케줄에서는 강화를 받은 후 일시적으로 반응이 중단되는 특성이 있다. 그 이유는 강화인의 제공에 대한 예측이 어느 정도 가능하기 때문이다. 이에 비해 변동비율과 변동간격 스케줄에서는 반응이 중단되지 않고 지속적으로 나오는 특성이 있다. 이는 강화인의 제공에 대한 예측이 불가능하기 때문이다. 그리고 비율 스케줄과 간격 스케줄을 비교하면 일반적으로 비율 스케줄이 간격 스케줄보다 더 높은 반응률을 가져온다. 비율 스케줄에서는 시간이 아니라 반응 수에 따라 강화인이 주어지도록 되어 있기 때문이다.