스타트업/사업기획

코호트 분석. 격리? 무슨 뜻일까, 공부해보자.

반포한강공원 2020. 3. 24. 10:04

Cohort

코로나19 때문에 "코호트 격리"라는 말이 뜬다.

원래 의료계 용어인데 널리 쓰이니까 좀 생소하긴 하다.

그런데 이거 마케팅에도 쓰인다.

데이터분석이나 엔지니어링에도 중요하게 쓰이니까 한 번 공부해두고 넘어가자.

 

코호트 Cohort

단어의 탄생은 "로마군대"란다.

600 ~ 1,000명 규모니까 "연대"급이다. 

... 라는 건 넘어가자. 전혀 중요하지 않다.

 

이게 통계학으로 넘어온다.

실험할 때 1개 그룹을 1,000개 정도로 묶는다.

그래야 예외치도 보이고 평균도 뽑을 수 있고 분산도 보인다.

그래서 Cohort 라는 말이 쓰이기 시작한다.

 

사전적인 의미로는, "동질집단".

같은 성질을 가진 집단이라는 뜻이다.

"동일집단"이라고도 부르는데 엄밀히 말하면 다르다.

하지만 대충 쓰자.

 

뭐가 동질인지는 연구자 마음이다.

그냥 하나의 그룹일 뿐이다.

더 정확히 말하면, "실험연구가 가능한 샘플그룹"을 말한다.

 

코호트 DB

의료계에서 쓰는 용어다.

심근경색 환자만 100명 정도 모아놓은 DB다.

동질집단이니까 굳이 심근경색이 아니어도 상관없다.

동질집단이니까 굳이 100명이 아니어도 상관없다.

클 수도 있고 작을 수도 있다.

 

왜 모았을까?

추적관찰하기 위해서 모은 거다.

감염 1일차, 2일차 ... 이렇게 진행경과를 보기 위해서

치료 1일차, 2일차 ... 이렇게 치료경과를 보기 위해서

코호트 DB가 구축된다.

 

"이번에 코호트 DB를 구축하자."

"몇 명 정도가 좋을까요?"

"100 명 이상은 되어야 올바른 관측이 될거 같아."

"증상은 어느 정도까지 포함시킬까요?"

"초기 증상이 나타나면 모두 포함시키는 걸로 하자."

이런 식의 대화가 된다.

 

중요한 건 ...

이게 실험자료라 비싸다.

제약업계에선 없어서 못산다.

내가 만든 약이 실험식 밖에서 잘 듣는지 추적할 길이 없다.

하루 먹고 낫는 사람도 있고,

일주일 먹어도 안낫는 사람들이 있다.

 

증상이나 상황이 복잡하기 때문에 미리 연구계약을 할 수도 없다.

약을 팔아야 하는데 현실효과를 측정할 수 없다니 얼마나 답답할까?

이게 입증되어야 해외에다 팔텐데 말이다.

 

이런 식이다.

코호트 DB는 가치가 매우 높다.

 

코호트 격리

우리나라 말로 하자. "그룹 격리".

한 그룹를 통째로 격리하는 거다.

약간 전문틱하게 말하면, "동질집단 격리"다.

환자들만 격리될 수도 있고, 의사 간호사까지 격리될 수 있다.

제일 이상적인 건 의사, 간호사까지 묶어서 격리시키는거다.

물론 치료제는 계속 공급된다.

하지만, 의사와 간호사까지 묶이니까 안좋다.

 

격리는 접촉전파를 막기 위해 실시한다.

전염성이 강한 질병에 감염되었을 경우 한다.

그러니 병문안 가면 안된다.

 

관찰, 기록

코호트 격리는 반드시 관찰이 동반된다.

관찰은 왜 하는걸까?

"기록"과 "분석"을 분리시키기 위해서다.

 

"기록"은 짧다. 그 순간이 아니면 못한다.

"분석"에는 시간이 오래 걸린다.

그래서 동시에 하면 분석은 실패한다.

 

기록은 전문가가 하면 좋다.

분석해야 할 당사자가 필요한 데이터를 수집하는거다.

하지만 현장에선 많은 사람들이 해야 한다.

그래서 기록지가 만들어지는거다.

 

기억하자.

기록은 "전문가"가 하면 좋다.

 

코호트 분석

IT업계로 넘어왔다.

 

하드웨어는 코호트랄게 없다.

공장 내 제품이라면 전수조사를 하면 되고,

판매된 제품도 정식A/S센터를 통해 수리된다.

기술집약제품이라 사설수리채널이 선호되지 않는다.

따라서 따로 코호트DB를 구축할 필요가 없다.

 

소프트웨어는 어떨까?

프로그램 작업(CRDU)에는 "통계"가 들어가지 않는다.

데이터 추세를 보는거라면 "단순통계"면 충분하다.

평균이랑 그래프만 그려주면 된다.

 

하지만, 뭔가를 읽으려고 하면 "분석"이 들어가야 한다.

사내 데이터라면 "전수조사"를 할 수 있다.

우리에겐 Hadoop 이 있으니까.

 

하지만, 사외 데이터라면?

인터넷서비스를 쓰는 불특정 다수라면?

그들이 왜 우리제품을 사는지, 왜 사다말고 나가는지 알 수 없다.

 

개발자 입장에선 1도 안중요하지만,

마케터나 CEO 입장에서 매우 매우 매우 중요하다.

고객의 반응을 알아야 제품을 팔 수 있으니까.

 

그래서 클릭을 하거나 물건을 살 때, 로그를 남기도록 작업한다.

Google Analytics로 로그를 보낸 다음 여러가지 분석을 하는거다.

 

Google Analytics

사이트를 뒤져보면 "잠재고객" - "코호트분석"이란 게 있다.

한글로는 "동질집단분석"이다. 

 

새 "세그먼트"를 눌러보면 IT용어로 "세그먼트"가 정리되어 있다.

직접 트래픽, 사이트 검색자수,  구매자수 등등...

 

하지만, 다소 공학적인 용어다.

인문학적인 마케팅세계에서 알고 싶은 건 이런거다.

20대 여자, 30대 여자 맘카페 회원, 20대 남자 중 서울지역 거주자 등등...

 

음...

점점 복잡해진다.

코호트 이야기하려다 데이터 이야기를 하게 생겼다.

이 포스팅에선 넘어가자.

 

암튼 이런 게 궁금해졌다면 이제 "데이터분석"에 관심을 가지게 된거다.

스스로 구글링을 좀 더 해보자.

 

시사점. 데이터 분석

시사점이 뭘까?

코호트 ...

결국 데이터분석을 통해 시사점을 얻고자 하는거다.

어떻게 해야 분석을 잘할수 있을까?

몇가지 요령이 있다.

 

첫째, "기록"과 "분석" 시점을 분리시킨다.

기록은 그순간 최대한 많이 하고,

분석은 최대한 오랫동안 여러사람이 한다.

 

깊이 들여다보려면 조사계획, 조사설계도 중요하지만,

그럴여유가 없을 땐 아무렇게라도 기록하자.

기록하지 않으면 분석할 수 없고,

분석할 수 없다면 예방하거나 대응할 수 없다.

 

둘째, "기록"은 전문가가 한다.

단순업무라고 알바한테 맡기면 안된다.

알맹이 없는 게딱지가 된다.

 

쉽게 말하면 "로그설계"는 전문가가 한다.

초보자한테 시키지 않는다.

들여다 볼 게 없다면 안해도 된다.

하지만, 잘 정리하는 습관만큼은 기르자.

 

분석할 사람이 정리하면 더욱 좋다.

그런 사람이 없다면, 가장 가까운 사람이 정리해 놓자.

그래야 뭐라도 기회가 생긴다.

 

끝.

반응형