google-site-verification=tiTpc7g9EFArxomgX7IqEflz-fp4nI0F2jLaMkFLPoQ
다양한 데이터를 기반으로 따라 하면 성공하는 다중회귀 판매예측 방법
(앞선 글에 이어) 다양한 데이터를 기준으로 다중회귀 분석하기 3
이제 엑셀에서 충분히 회귀식을 할 수 있는 것을 확인하였으니 다음 작업을 하겠습니다.
생성형이 가르쳐준대로 (본 예시에는 보여드리지 않았으나 생성형 인공지능을 참조 하시면 됩니다. 그리고 이미 앞서서 많이 연습 했습니다.)
데이터-데이터분석-회귀방정식 클릭 하시면
Y축 입력범위 설명을 다시 드리면 이것은 종속변수입니다. 종속변수는 우리가 알고 싶은 결과 값이므로 그 결과값에 해당되는 것이 원본 데이터에서 ‘직원수당 우리제품 매출’입니다. 이 데이터를 블록을 잡고
X축 입력 범위 설명을 드리면, 이건 독립변수입니다. 즉 우리가 종속변수를 얻기 위해 넣어야 할 데이터 들입니다. 고객사 매출부터 서비스 4 까지가 전부 독립변수입니다. 하지만 서비스 4는 뭐다? ‘다중공선성’ 때문에 제외하고 모델을 돌리는 겁니다. 그래서 출력 범위 설정하시고. 이때 필요한 것은 ‘잔차’ 꼭 활성화시키고 ‘확인’클릭 그럼 아래처럼 나옵니다.
요약출력과 잔차가 출력되었는데 이것 또한 생성형을 시켜서 해석하기 전에 먼저 제대로 보는 방법 말씀드립니다.
결정계수 또는 조정된 결정계수가 0.9 이상으로 매우 높은 설명력을 보여 줍니다. 즉 90%이상 수준으로 설명 가능하다는 이야기입니다. 그러니 신뢰할 수 있습니다.
분산분석에서 ‘유의한 F’ 값이 ‘5.2E-12’ 인데 이건 숫자가 너무 길어서 줄어든 것이고 매우 높은 수준에서 분산분석에 대해 설명해 주므로 의미가 있다 라고 판단합니다.
본 챕터에서 ‘분산분석’에 대해서 앞서서 간단하게 다루고 다시 등장을 했는데, 분산분석은 데이터 집단간 데이터 집단내 변동을 비교 분석하는 것입니다. 분산분석은 집단간 평균의 차이가 있는지 없는지 확인하는 것입니다. 그래서 집단 간 평균의 차이가 없다면 그것은 같은 것이고 (네이버 광고, 인스타광고) 집단간 차이가 있다면 이것은 다른 것입니다. 그렇다면 분산분석을 이야기 하면서 바로 예시를 든 ‘네이버 광고, 인스타광고’ 예시에서 분산분석이 아닌 상관분석을 하고 그 다음 T 검정을 돌렸습니다. 하지만 이번에는 상관이 아닌 분산 이라고 했습니다. 즉 평균의 차이를 보는 것은 같은데, 상관 2개간 비교를 중심으로 선형과계에서의 변수가 어찌 편하는지를 보는 것이고 분산분석은 세 개 이상의 그룹간 평균차이가 있는지 보는 것이고 각 집단간 영향력 정도를 보는 것입니다. 새로운 용어가 나와서 잠깐 어려워 졌는데, 여하튼 분석결과 각 변수간 서로 다른 것이라고 확인을 했습니다.
다음 포스팅에 이어서 계속
.
.
.
생성형인공지능, LLM, 일잘러, RAG응용, 챗지피티 를 활용해서 프로 일잘러 되기 출간 준비중~~!!