어렵지만 따라하면 성공하는 필수 엑셀 함수
이전 포스팅에서 데이터 전처리의 중요성에 대해 반복하여 설명드렸는데요. 오늘은 데이터 전처리 전 데이터의 경향성을 보는 방법에 대해 말씀드리고자 합니다.
먼저 데이터를 하나 보겠습니다.
왼쪽의 숫자들을 보면 이게 뭐가 뭔지 모릅니다. 근데 이 숫자가 3000개 5000개 되면 더 파악하기 어렵습니다. 더군다나 빅데이터 개념으로 접근을 하면 수만개 수준을 너넘어서는 수준이 됩니다. 이렇게 큰 숫자들을 보면 일단 막막한데, 별거 없습니다. 숫자 영역을 선택하고 엑셀에서 차트-수염상자 를 하면 오른쪽 그래프가 나옵니다. 그래프에서 가온데 박스에서 우클릭 레이블 추가 하면 사진과 같은 이미지가 나옵니다. 이제 경향성 파악 끝났습니다.
박스플롯 (수염상자)를 보는 가장 큰 이유는 숫자들의 경향성을 보는 것입니다. 소위 말하는 4분위를 보는 건데 보통 최소값, 1사 하위 25% 값, 중위수(2사), 3사 상위 25%, 최대값(4사)
아래부터 최소값:20, 1사 50, 중위수 62.5, 3사 77.5 최대값 100 끝났습니다. 이렇게 경향성을 보는 것입니다. 그럼, 이제 전처리로 와서 전처리 진행에 앞서,이렇게 경향을 보면 숫자의 최소값과 최대값이 실제 필요할까요? 이른바 극단치라 불리우는 이런 숫자들은 사실 필요 없습니다. 특히 마케팅에서는 이러한 값을 보여주는 것은 우리의 목표가 아니기에 드랍을 해도 좋습니다. 저는 매우 종종 항상 드랍 합니다. 극단치는 필요 없습니다. 구체적으로 극단치의 값들이 평균, 최빈값, 중앙값 하고 벗어난 수준을 보는데 (보통 기준으로부터 Z점수가 ±3 또는 ±2.5 벗어나는 경우, 사분위에서 1.5배 이상인 경우, 평균에서 표준편차 3배 이상 등이 있습니다. ) 이제 이 차트를 보고 파악하는 수준은 이정도면 충분 합니다. 딱 4분위만 보시고 그 다음 극단치를 제거 할지 말지 그냥 임의 설정 하셔도 좋습니다. 왜냐하면 우리는 실제 그렇게 높은 수준의 경교함을 요구하지 않기 때문입니다.
이렇게 데이터 전처리 전 박스플롯을 통해 경향성을 파악하고 극단치를 제거함으로써, 데이터의 품질을 높이고 분석의 정확도를 향상시킬 수 있습니다.
.
.
.
생성형인공지능, LLM, 일잘러, RAG응용, 챗지피티 를 활용해서 프로 일잘러 되기 출간 준비중~~!!