2015년 2월 15일 일요일

실수는 예방하는 것이 아니라 관리하는 것이다

바람은 계산하는 것이 아니라 극복하는 것이다. -남이, <최종병기 활>에서


여러분들이 실수에 대해 갖는 느낌은 어떻습니까? 어떻게든 피해야 하고 알려지면 망신이다에 가깝습니까, 아니면 좋은 학습의 기회가 될 수 있다에 가깝습니까? 여러분의 조직 문화는 어느쪽에 가까우리라 생각하십니까?

미국 산림청의 산불 정책이 10년도 전에 바뀐 것 아십니까? 예전에는 산불 예방을 강조했습니다. 그렇지만 이제는 꼭 그렇지 않습니다. 왜냐하면 산불 예방 때문에 더 심각한 산불이 날 수 있다는 걸 알기 때문입니다. 불(불 대신 화재라고 재앙을 암시하게 쓰면 안됨) 생태학에서는 불을 인위적으로 억제하면 오히려 그 지역에 가연성 물질이 과도하게 축적되게 해서 결과적으로 한번 불이 나면(어떻게든 불을 막을 수는 없기 때문에) 엄청난 규모의 불이 나게 할 수 있다고 설명합니다. 실제로 자연상태에서는 적절한 시기에 작은 규모의 불이 나서 이런 큰 규모의 불이 잘 나지 않습니다.

이 분야의 전문가인 론 와키모토는 불 공개 정책 관련하여 미의회에서 일부러 불을 질러야 할 수도 있음을 증언했죠. 그래서 산불 구호도 좀 바뀌었고, 이제는 불 예방에서 불 관리 쪽으로 초점이 바뀌었습니다.

라마누잔의 연구에서는 의학계의 실수(미국에서 의료사고로 죽는 사람 숫자가 교통사고로 죽는 사람보다 많습니다)에 대해 이런 면을 보여주는 좋은 예가 있습니다. 미 중서부의 유명한 병원인데, 2006년 신생아실의 아이들에게 헤파린(혈액 항응고제)을 기준치의 1000배 투여하는 일이 발생합니다. 1주일에 걸쳐 5명의 간호사가 총 6명의 아이들에게 그렇게 투여를 했고, 그 아이 중 3명이 죽고 나머지 3명도 심각한 손상을 입었습니다. 더 놀라운 점은 그 병원에 2001년 헤파린 과다 투여로 비슷한 사고가 있었고(그 때는 환자가 사망하지는 않고 적절한 후속 조치가 되었음), 이 사고를 계기로 안전 프로그램을 운영했고 그런 면에서 훌륭한 병원으로 인정되고 있었다는 점이죠. 특히 헤파린에 대해서는 실수를 예방하는 조치를 취했습니다.

그러나 조사에 따르면 이 병원의 안전 프로세스가 너무 신뢰할 만(reliable)했기 때문에 이 사건이 벌어졌습니다. 약사가 헤파린을 준비할 때 새로운 SOP에 의해 실수할 여지가 없어졌다고 믿은 간호사들은 더 이상 약 투여시의 확인을 신경쓰지 않게 되었죠(실제로 그 방법이 효과적이기도 했고요, 그 사건 전까지는).




실수관리

마이클 프레제(Michael Frese)는 회사에서의 실수 문화에 대해 연구를 했습니다. 그에 따르면 실수 문화에는 크게 두 가지가 있습니다. 실수 예방과 실수 관리. 실수 예방은 행동에서 실수로 가는 경로를 차단하려고 합니다. 즉, 실수를 저지르지 말라고 요구합니다. 근데, 사실 이것이 불가능에 가깝습니다. 전문가도 1시간에 평균 3-5개의 실수를 저지른다고 합니다.

그런데, 왜 우리 세상은 그렇게 엉망이 아닐까요? 그것은 전문가들이 실수를 조기에 발견하고 빠른 조치를 취할 수 있기(early detection & quick recovery) 때문입니다. 이렇게 실수는 어떻게든 할 수 밖에 없다. 대신 그 실수(예컨대 코딩하다가 == 대신 =를 쳤다든지)가 나쁜 결과(서버가 도미노 현상을 내며 죽는다든가, 그걸로 수술 기계가 오동작을 해서 사람이 다치거나)로 되기 전에 일찍 발견하고 빨리 고치면 된다는 겁니다. 이 태도를 실수 관리라고 합니다. 사실 하나의 경로가 더 있는데, 이미 결과가 난 실수에 대해서는 학습을 통해 다음 행동할 때 이렇게 하자는 계획을 세우기도 합니다(이를 2차적 실수 예방이라고 함).

실수 예방 문화에서는 실수를 한 사람을 비난하고, 처벌하고, 따라서 실수를 감추고 그에 대해 논의하기 꺼리며 문제가 생겼을 때 협력도 덜하게 됩니다. 반대로 실수 관리 문화에서는 실수가 나쁜 결과를 내기 전에 도와서 빨리 회복하는 것을 돕고, 실수를 공개하고, 실수에 대해 서로 이야기하고 거기에서 배우는 분위기가 생깁니다.


이 부분이 굉장히 중요한데, 실수 연구의 역사를 보면, 초기에는 기술적인 부분만 보다가 그 다음에는 인간적인 부분(결국 80%가 사람 실수라든지)을 보다가(특히 1979년 쓰리마일섬의 사고가 계기가 되었음), 이제는 문화적인 부분(컬럼비아호 사고가 계기가 되었음)을 이야기 합니다. 소위 심리적 안전감(psychological safety)이라고 하는 것이 이 문화의 일부입니다. 항공 분야에서도 이것이 중요해서 CRM(Crew Resource Management) 등에서 이런 부분의 개선을 가져올 수 있었죠.

그런데, 이런 실수 관리 문화가 회사에 정말 도움이 될까(나쁜 일이 벌어지지 않게 하는 것도 비용이 많이 들텐데 비용 대비 효과가 어떤가) 하는 의문점을 가질 수 있습니다. 여기에 대해서 연구가 있습니다. 우선 회사 문화가 실수 예방보다 관리에 가까울수록 그 기업의 혁신 정도가 더 높습니다. 그리고 실수 관리 문화일수록 회사의 수익성(총자산이익률로 계산)이 더 높습니다. 왜 이런 현상이 나타날까요? 이유는 간단합니다. 실수가 없으면 학습하지 못합니다(고로 직원들에게 실수하지 말라고 하는 조직은 학습하지 말라고 하는 지시를 하는 것과 같습니다). 이는 학습이론의 기본입니다. 즉, 실수 관리를 하는 문화일수록 학습을 더 잘합니다.

자 그러면 이걸 조직과 개인 차원에서 활용하는 간단한 방법을 몇가지 알려드리겠습니다. 조직 차원의 이야기는 회사의 정책을 바꾸고 사용하는 언어를 바꾸고 경영자나 임원의 의사소통방식을 바꾸고 하는 등의 좀 더 굵직굵직한(그리고 중요한) 것들이 있지만, 문화적으로 작게 시작할 수 있는 것을 소개하려고 합니다.



실수 축제

첫번째는 “실수 축제”라는 걸 하는 것인데 이 행사의 구조를 응용하면 여러 곳에 활용하실 수 있을 겁니다.

1. 업무 중(혹은 상황이 여의치 않으면 점심시간) 대략 한 두 시간 내외(인원수에 따라 바뀌어야 함)의 시간을 잡습니다.

2. 될 수 있으면 다양한 업무 분야(혹은 다양한 프로젝트 관련) 사람들이 모이게 합니다.

3. 먹을 것, 마실 것을 준비해 두어 분위기를 부드럽게 만듭니다.

4. 행사의 취지(집단적 학습)를 설명합니다.

5. 각자 “실수 기억하기” 양식(A4 한장)을 받고 거기에 글을 채웁니다. 시간에 따라 조절할 수 있는데 처음에는 한 사람당 한 장만 쓰게 합니다.

6. 양식은 다음을 참고로 합니다.

· 제목 : 이 실수에 기억하기 좋은 이름을 붙입니다.

· 관련인 : 해당 실수에 관련있는(결과에 영향을 주거나 받거나) 사람들을 적습니다

· 타임라인 : 가로로 수평선을 그리고 어느 시점에 실수가 발생했고, 언제 최초 감지 되었고, 언제 최초 회복 작업을 시작했는지 표시합니다. 그 외에 중요한 사건들이 있으면 역시 표시합니다.

· 실수 시점 분석: 실수 시점에 대한 자세한 설명입니다. 구체적으로 실수가 무엇이었는지. 원래는 뭘 했어야, 혹은 안했어야 했는지를 적고, 왜 그런 실수가 일어났는지 적습니다.

· 감지(detect) : 무엇을 보거나 듣고 처음 실수를 감지했는지. 그리고 당시에 어떤 (부정적) 미래가 펼쳐지리라 추측했는지.

· 회복(recover) : 회복을 위해 무엇을 했는지. 당시 다른 옵션은 무엇이 있었는지. 왜 그 옵션을 선택했는지.

· 결과 : 그 후에 결과적으로 어떻게 되었나.

· 교훈 : 다음번에 비슷한 실수를 어떻게 더 빨리 감지할 수 있을지, 어떻게 더 빨리 회복할 수 있을지, 혹은 실수 발생 전 시점의 행동 자체를 어떻게 교정하면 좋을지.

7. 3-5명 정도가 한 그룹이 되도록 나눕니다. 처음 그룹은 되도록 같은 프로젝트, 같은 전문성을 가진 사람끼리 모이게 합니다.

8. 한 사람씩 자신의 실수를 소개합니다. 자신이 채운 양식(특히 “타임라인”)을 보여주며 설명을 합니다.

9. 같은 그룹에서 듣는 사람들은 아래 세 가지의 질문 혹은 의견을 말합니다(이 때 아래 목록에 없는 비난, 질책이 나오지 않게 진행자가 주의할 것):

· 해당 사건, 실수의 순수 팩트를 묻는 질문 (왜보다는 누가, 무엇이나 언제, 어디서, 어떻게 같은 질문이 좋음)

· “나도 실은…” 종류의, 자신도 비슷한 (혹은 “그 정도는 장난이야” 같은 더 심한) 실수를 한 적이 있다는 이야기. 너무 길지 않도록 주의.

· 감지와 회복 면에서 이렇게 했더라면 어땠을까, 혹은 다음에는 이렇게 해보는 건 어떤가 같은 제안.

10. 한 사람의 실수로 대략 10-30분 정도 이야기를 나누면 적당합니다.

11. 동일 그룹 내에서 한 명 더 실수를 공유합니다. (시간이 부족하면 스킵 가능)

12. 이번에는 아까 같은 그룹이었던 사람들을 만나지 않으면서 새롭게 그룹을 형성하게 합니다. 여기에서 다시 실수 공유하기를 반복합니다(위 7번부터).

13. 전체 인원수에 따라, 그리고 시간 제약에 따라 몇 번을 반복하고 난 뒤,

14. 이번 달(혹은 올해) 최고의 실수 투표를 합니다. 기준은 “우리가 배울 점이 많은 실수”라고 설명을 해줍니다.

15. 최고 득표를 한 실수에 대해 시상을 합니다(비싸지 않지만 내 돈 주고 살 것 같지 않은 재미난 상품, 혹은 근처 카페의 음료권 등이면 충분합니다). 수상자 소감을 합니다.

16. 맨 처음 만들었던 그룹으로 돌아옵니다. 그리고 그 그룹 내에서 소감을 나눕니다.

17. 그룹별 소감을 돌아가며 발표하고 마칩니다.

위 실수 축제에는 사실 많은 이론과 연구 내용이 압축적으로 들어가 있습니다. 전체가 아니더라도 부분적으로 사용하시는 것도 효과를 볼 수 있다고 생각합니다. 해보시면 아시겠지만 참가자들이 정말 재미있어하고 몰입해서 시간가는 줄 모릅니다.

이 행사에서 꼭 지켜야하는 부분은 심리적 안정감을 해치지 않고, 더 높일 수 있어야 한다는 겁니다. 간식 같은 걸 곁들여서 비공식적 행사인 듯 느끼게 만드는 것도 이 때문입니다. 이 부분을 놓치면 몇 시간을 해도 행사가 비효과적입니다. 그리고 신뢰가 이미 심각하게 깨어진 조직이라면 이 행사를 하는 걸 좀 더 조심스럽게 생각해 보셔야 할 겁니다.

이번에는 개인 수준에서 할 수 있는 것을 소개드리겠습니다. 세 가지인데, 역시 응용하면 조직 차원에서도 효과적으로 쓸 수 있습니다.



실수 노트

개인적 차원에서 할 수 있는 첫 번째는 실수 노트 입니다.

간단하게 말하면 중고등학교 때 많이들 쓰는 오답 노트 같은 겁니다. 본인이 뭔가 중대한 실수를 한 게 있다 싶으면 그날 실수가 일단락 되고 난 후에 노트에 기록을 합니다. 외부적 사건의 순서 같은 것 외에도 인지적인 부분을 많이 써야 합니다. 위 실수 축제의 양식을 참고하면 좋습니다. 기본적으로는 중대한 의사결정(이 결정 때문에 그 이후의 행로가 다르게 펼쳐졌다고 할 수 있는)을 내린 시점이나, 상황판단(situation awareness, 아 이 산이 아닌갑다 같은)이 바뀐 지점 중심으로 정리해 보면 좋습니다. 저는 삽질 노트라고 하는데, 제가 30분 이상 삽질한 것이 있다 싶으면 꼭 이 노트(개인 위키)에 적습니다. 적기 시작한지 10년 이상 된 것 같습니다(오늘도 낮에 한 편 썼네요 ^^;).

그리고 중요한 것은, 실수 분석에서 끝나지 않고 그래서 다음에는 어떻게 할까까지 생각해 보아야 합니다. 자세한 내용은 위 실수 축제를 참고하세요.



하마터면 사건과 외삽법

두 번째는 외삽법(extrapolation)이라고 부르는 기법입니다. 말이 좀 어렵습니다. 선분이 있을 때 그걸따라 더 연장하는 걸 말합니다. 이 기법은 전문성 연구에서 나왔습니다. 전문가가 빨리 되는 데에 매우 효과적인 방법 중 하나입니다. 개인뿐만 아니라 조직 차원에서도 활용할 수 있습니다.

소위 니어 미스(near miss)라고 하는 게 있습니다. 저는 “하마터면 사건“이라고 부릅니다. 실수가 있어서 하마터면 사건(위 실수 모형에서 “결과”에 해당)가 날 뻔 했는데 다행히 큰 일이 없었던 사건들을 일컫습니다. 이 니어 미스를 공유하는 것의 가장 큰 장점은 심리적 안정감을 갖기가 비교적 쉽다는 겁니다. 아무래도 누가 비난하거나 할 확률이 낮겠죠. 두 번째 큰 장점은 빈도수가 많다는 겁니다. 전문성을 획득하기 위해서는 비슷한 종류의 사건이 여러번 일어나야 합니다. 학습의 기본은 반복입니다. 그런데, 그런 사건이 한 번도 발생하지 않는다면 학습은 요원할 수 밖에 없습니다. 그러나 안타깝게도 중대한 사건들은 그리 흔하지 않습니다. 그래서 학습이 없어 더 위험한 겁니다. 그러나 하마터면 사건은 자주 있습니다. 찾아보면 아주 많습니다. 이걸 활용하면 학습이 가능합니다.

예를 들어 미연방항공청의 ASRS(Aviation Safety Reporting System)가 좋은 예가 될 겁니다. 거기에는 하마터면 사건이 데이터베이스화 되어 저장되고 있습니다. 이 시스템의 특징은 보고자가 자신의 신분을 밝히지 않아도 되며, 밝히더라도 그 신분은 보호되며, 심지어는 그 실수가 규정을 어긴 것이라고 해도 당사자는 보호받습니다(의도적이지 않았고, 범죄가 아니었다면). 이 ASRS를 통해 항공산업은 안전성 면에서 많은 발전을 했다는 것을 어느 누구도 부인하기 힘들 겁니다. 이런 부분은 다른 산업에서 본받을만 하지요.

개인적으로는, 하루 일과를 마무리할 때 오늘의 하마터면 사건을 생각해 봅니다. 만약 하나도 생각이 안난다면 뭔가 잘못된 겁니다. 하루 8시간 이상 일을 하는 사람이라면 분명 하마터면 사건이 몇 개는 있습니다. 내가 만약 그 때 이걸 대신 이렇게 했더라면, 혹은 운이 안좋아 일이 이렇게 진행되었다면 개고생 했을텐데 하는 거를 찾는 겁니다. 그리고 거기에서 상상의 나래를 펼칩니다.

1. 그 때 운이 좋았는데 뭐 하나가 잘못되었더라면 엄청난 개고생을 했을까?

2. 그 개고생은 어떤 식으로 펼쳐졌을까? 어떤 도미노 현상을 일으켰을까?

3. 만약 그 개고생이 펼쳐졌더라면 내가 어떻게 빨리 알아챌 수 있었을까?

4. 만약 그 개고생이 펼쳐졌더라면 내가 어떻게 빨리 회복할 수 있었을까?

5. 내가 평소 일을 하는 방식을 수정하거나, 혹은 실수를 저지른 후 감지, 회복하는 과정에서 교정할 것이 있을까?

6. 역시 앞에서 이야기한 실수 축제나 실수 노트의 내용을 여기에 접목해서 할 수 있습니다.



전문가 인터뷰와 회복력의 네 가지 요소

개인 차원에서 할 수 있는 세 번째 방법입니다. 우선 회복력 이야기를 합시다. 공학 분야에서도 이 실수 관리 문화와 비슷한 이야기가 점차 많아지고 있습니다. 공학에서는 이걸 회복력(resilience)이라는 용어로 부르고 있죠. 이 분야의 권위자 중 한 명인 에릭 홀네이겔(Erik Hollnagel)은 회복력이 네 가지의 능력으로 구성된다는 이야기를 합니다.


모니터링 – 대응하기 – 배우기 – 예상하기

모니터링은 중요한 사건이 벌어지기 전의 약한 신호(weak signal)를 감지하는 능력을 말합니다. 대응하기는 그걸 감지했을 때, 혹은 사고가 터졌을 때 위급 상황 하에서 빨리 거기에 맞게 대응해서 회복하는 능력을 말합니다. 배우기는 과거의 성공 혹은 실패 사례에서 배워서(그리고 남과 공유해서) 앞으로의 행동을 조율하는 겁니다. 예상하기는 앞으로 어떤 일(성공이건 실패건)이 벌어질 잠재성이 있다는 걸 예상해서(과거에서 배우기를 토대로 하여) 그에 맞춰 행동을 조율하는 것입니다.

자기 분야의 (주변에서 어렵지 않게 찾을 수 있는) 전문가를 찾아서 이 사람의 실수 관리 능력에 대해 인터뷰를 합니다. 이 때 이 네 가지 능력 모형이 도움이 될 수 있습니다.

많은 사람들이 착각하는 것 중 하나가, 전문가의 능력을 배우려면 그 사람이 답할 수 있는 범위 내에서 구해야 한다고 생각하는 것입니다. 하지만 실제 그 사람의 전문성의 핵심은 그 사람이 모르는 상황을 접했을 때 어떻게 행동하는가 하는 걸 보면 알 수 있습니다. 진짜 전문가와 비전문가의 차이는 여기에서 확 벌어집니다. 전문가가 실수를 어떻게 찾고 어떻게 대처하는가, 차후에 행동을 어떻게 조정하는가를 배워야 합니다.

여기에서 특히 감지하는 부분이 중요합니다. 난생 처음 먹는 종류의 고기를 먹으러 갔습니다. 종업원이 고기 몇 점을 불판에 올려주고 갑니다. 근데, 언제 먹어야 될지 모르겠습니다. 그래서 물어봅니다. 돌아오는 답이 “익으면 드세요“라면 어떻겠습니까? 우리에게는 언제 익었는지 판단할 전문성이 없습니다. 많은 전문가들이 이 부분을 간과해서 교육이 실전에서 비효과적인 경우가 허다합니다. 문제가 터졌을 때 뭘 할지를 배우는 걸 넘어서 문제를 감지하는 것도 배워야 합니다.

인터뷰를 할 때에는 앞서 이야기한 실수 축제, 실수 노트, 하마터면 사건과 외삽법 모두의 내용을 총동원하셔야 할 겁니다.

이상 여러가지 방법을 편의상 조직 차원, 개인 차원으로 나눠 이야기하긴 했으나 사실 그런 차원 구분 없이 응용 가능합니다. 이 방법들을 잘 활용하는 데에도 기술이 필요하긴 한데, 다른 기술과 마찬가지로 꾸준히 연습하면 더 많은 도움을 얻을 겁니다.

물론 이 방법 외에도 많습니다. 교육을 하는 분이라면 고려해볼만한 방법으로는 실수 훈련이 있습니다. 보통 교육에서는 학생들의 실수를 최소화하도록 설계합니다. 교육 중에 실수를 적게 해야 실전에서 실수가 적을 거 아니겠냐는 논리죠. 하지만 연구결과는 반대입니다. 교육 중에 실수를 더 유도해야 오히려 응용력이 더 높아지고(교육학에서는 전이transfer라고 함) 실수가 줄어듭니다. 다양한 실수를 경험하는 걸 격려하고, 실수 사례를 배우고, 실수시에 어떻게 대처하는가를 가르치는 교육이 더 효과적이라는 연구 결과가 많습니다. 그래서 개인적으로는 전문가에게 실수 대처법을 배우는 것이 중요하지요.

마지막으로 누구나 한 번 쯤은 겪어 봤을 실수 예방 문화의 단면을 보여주는 사례로 이야기를 마칠까 합니다.

모 팀에서는 개발자별로 서버를 수십대씩 관리하고 있었습니다. 그런데 새벽에 서버 하나가 죽었나 봅니다. 아침에 부장이 화가 나서 팀장을 자기 방으로 불렀습니다. 욕을 좀 먹었겠죠. 팀장이 그 방을 나오자 마자 했던 행동이 저한테는 좀 충격이었습니다. “XXX 누구 담당인가요?”

그 때부터 개발자들은 갑자기 바빠지기 시작했습니다. 각자 키보드에 머리를 조아리고 내 서버인지 아닌지 확인하기에 바빴거든요. 시간이 조금 흐르자 한 두 명씩 밝은 얼굴로 자리를 털고 일어나 주변의 (역시 밝은 얼굴의) 동료에게 커피 한 잔 하러 가자고 권합니다. 사람이 한 명 두 명 줄어듭니다. 마지막에 한 명이 손가락에 땀나도록 키보드를 치고 있더군요.

나중에 그 팀장은 팀 퍼포먼스 문제로 팀원으로 좌천당했습니다.

춢처: 애자일 이야기

댓글 없음:

댓글 쓰기