교육콘텐츠
쉽게 이해할 수 있는 의사결정나무와 데이터 예측



즐겁게 게임을 하던 친구! 엄마가 오시기 전에 무사히 공부방으로 들어갑니다.

이 친구는 여러 날 동안 엄마가 집에 오는 상황을 경험하면서 엄마가 집에 도착하는 요일, 시간 등의 정보를 모을 수 있었어요.



이렇게 의미 있는 정보조각을 ‘데이터’라고 부르는데, 이러한 데이터를 조건별로 나누어서 엄마가 언제 집에 오시는지 예상할 수 있는 논리구조를 만든 것이지요. 이와 같은 논리구조를 바로 의사결정나무라고 부릅니다.





의사결정나무란?






여기 반려동물 데이터가 있는데, 이 데이터로 어떤 반려동물을 키우면 좋을지 알아볼 수 있는 의사결정 나무를 만들어보겠습니다.

왼쪽 표의 조건을 의사결정나무의 질문으로 가져와 볼게요. 매일 먹이를 줘야 하는지에 대한 질문으로 시작해서 YES라고 응답을 하면 혼자서도 잘 노는 동물인지, 그리고 NO라고 응답을 한 경우에는 동물의 집을 청소해줘야 하는지 물어보면 이렇게 각 질문에 따라 다른 결과가 나오게 됩니다.







의사결정나무의 가지는 어떻게 나누어야 할까?


의사결정나무는 데이터 안에서 비슷한 특성을 가진 데이터끼리 묶어줄 수 있도록 특성을 찾아내고 그 특성이 마디가 되어 데이터가 나누어지게 됩니다. 그래서 뿌리 마디에는 서로 다른 가진 데이터가 같이 있지만, 가지가 뻗어 나갈수록 비슷한 특성을 가진 데이터로 정리될 수 있는 것이죠.




이처럼 의사결정나무는 순도가 높아질수록 데이터 특성을 찾아 가지를 나누어 간답니다. 

앞서 보았던 반려동물 의사결정나무는 이렇게 가지를 나누어 갈수록 순도가 높아지는데요. 가지를 나누는 질문을 살펴봅시다.




고양이가 결과로 나오기까지의 질문을 살펴보면, 2개의 마디를 거쳤네요. 이번에는 질문이 다르게 구성된 B 나무를 볼게요.





새로운 질문도 있고, 질문의 순서도 다른데 B 나무는 고양이가 나오기까지 4개의 마디나 거쳐야 해서 A 나무보다 비효율적이지요? 이렇게 A 나무처럼 마디의 질문을 잘 정하고 배치해야 의사결정나무가 똑똑하게 만들어져요.




의사결정나무의 활용



데이터 분석 과정을 쉽게 보여주는 의사결정나무는 인공지능 예측모델로도 활용이 되는데요. 데이터를 학습하여 데이터 특성을 찾아 의사결정나무를 만들고 이를 통해 새로운 데이터를 예측할 수 있습니다. 예를 들어 심장병 환자들의 의료 데이터를 학습하여 심장병에 영향을 미치는 여러가지 요인들을 분석하여 의사결정나무를 완성하게 되면 심장병의 위험을 예측할 수 있지요.




또한 상품을 판매하는 기업들은 과거 판매 데이터를 학습시켜 새로운 제품의 판매 결과를 예측하는 의사결정나무를 만들어 사용하기도 합니다.

이처럼 다양한 산업에서 의사결정나무를 활용하고 있는 이유는 의사결정나무가 분석 결과뿐만 아니라 예측 과정을 시각적으로 간단하고 쉽게 보여주기 때문이에요. 그리고 의사결정나무가 더욱 똑똑한 예측을 위해 발전되면서 여러 알고리즘이 나왔답니다. 그 중에는 랜덤포레스트, 그레디언트 부스팅, XGBoost 등도 있답니다.










시간이 지날수록 의사결정나무와 같이 인공지능 예측 모델은 점점 더 다양해지고 예측력 또한 높아지고 있습니다. 우리가 생각하지 못한 놀라운 예측, 가까운 미래에 가능해지지 않을까요?


의사결정나무와 데이터 예측에 대해 더 자세히 알고 싶다면?

지금 바로 아래 영상을 확인하세요!