google-site-verification=tiTpc7g9EFArxomgX7IqEflz-fp4nI0F2jLaMkFLPoQ
다양한 데이터를 기반으로 따라 하면 성공하는 다중회귀 판매예측 방법
(앞선 글에 이어)
VIF 계산식=VIF(Column 1) = 1 / (1 - R²)
이제 VIF 값을 다 구했으니 VIF 값을 기준을 말씀 드리면
VIF 값이 1에 가까우면 다중공선성 없음
VIF 값이 5이상이면 다중공선선이 존재 함.
VIF 값이 10 이상이면 다중공선성이 매우 높음
이 기준에 의해 VIF 값만 보면 컬럼1,2,5는 검토가 필요합니다. 이때 VIF 값이 높은 것을 기준으로 독립변수를 하나씩 제거 하고 회귀분석을 반복하고 이때 결정계수가 가장 높은 것을 선택하는 것입니다. 그러니까 VIF 값이 높으면 제거 대상이지만 무조건 제거는 아니라는 이야기입니다.
구체적으로 VIF 값을 구하기 전에 먼저 전체 다중회귀를 한 이유가 각 독립변수별 P값을 알기 위함입니다. VIF 이전에 P 값이 높으면 사용할 필요가 없습니다.
즉 컬럼1이 VIF 값이22으로 높아 다중공선성이 있지만 P 값이 0.0052 로 의미 있는 컬럼입니다.
컬럼2는 VIF 값이 20으로 높아 다중공선성이 있지만 P값이 0.00057로 의미 있는 컬럼 입닏.
컬럼5는 VIF 값이 22로 높아 다중공선성이 있고 P 값이 0.35로 0.05 보다 높으니 이건 제거대상입니다.
이제 회귀식을 다시 하는데 이때 컬럼 1과 컬럼2는 하나씩 제거를 하거 하면서 설명력이 높은 즉 결정계수가 높은 것을 최종 방정식으로 결정하면 됩니다. (또는 PCA를 해도 됩니다.)
컬럼 5를 제거하고 회귀식을 다시 돌리면
결정계수가 제거 안할시 0.99 1제거 0.97 2제거 0.96
전부 우수해서 저는 모두 사용하고자 합니다.
진짜 마지막입니다.
혹시 이 데이터들의 분포가 선형인지 비선형인지 확인 하셨나요? 확인 안했습니다.
그래서 선형인지 비선형인지 확인하고 비선형이면 조치를 해야합니다. 정확하게 선형 비선형 관계를 파악하기 위해서는 잔차를 구하고 이를 이용해서 Q-Q플롯을 그려야 하지만 엑셀은 지원하지 않습니다. 그래서 가능한 것은 다른 챕터에서 확인했던 거듭제곱을 구해서 확인 하는 방법입니다. 본 챕터에서는 거듭제곱을 구하고 그것을 기준으로 P 값을 확인 한다음 P 값이 0.005 이상이 있으면 비선형 관계라 할수 있습니다.
P 값을 보면 전부 0.005 미만으로 선형관계임이 확인되어 앞서 도출한 회귀식을 그냥 사용하면 될 것 같습니다.
글을 쓰다 보니 매우 많은 양이 되었습니다. 하지만, 따라하면 성공합니다.
아래는 참조 영역으로 제가 본문 작성 후 편집하는 과정에서 추가하였습니다.
참조1)
빅데이터 관점에서는 각 모델 별 이러한 차이는 의미가 매우 강합니다. 설명력 즉 R 값이 0.0001 정도 차이도 크게 차이가 납니다. 이유는 간단합니다. 각도기 생각 하시면 되는데요 이 데이터간 차이를 보려면 얼마나 거리가 있는지 없는지를 보는 것 이해되실 것입니다. 근데 이런 데이터가 너무 많으면 0.001도 차이가 나도 도착지점에서는 엄청난 거리 차이가 있습니다. 빅데이터는 지금은 의미가 많이 희석되었지만, 처음 빅데이터 개념 나왔을 때에는 최소 1T 급 데이터를 빅데이터라 했습니다. 이런 기준으로 엑셀 데이터를 생각 하면 엑셀 데이터가 1T가 되려면 왠만한 중견기업도 쉽지 않습니다. 그래서 대부분의 기업이 이러한 실무 프로젝트 자체가 빅데이터 개념이 아니므로 대략적인 차이는 그냥 뭉게고 가도 된다는 말씀드리기 위한 개념으로 설명드렸습니다.
다운로드
상호작용,자기상관,다중회귀,다중공선성 모두 하나의 주소입니다.
https://blog.naver.com/wang5177/223542080655
.
.
.
생성형인공지능, LLM, 일잘러, RAG응용, 챗지피티 를 활용해서 프로 일잘러 되기 출간 준비중~~!!