google-site-verification=tiTpc7g9EFArxomgX7IqEflz-fp4nI0F2jLaMkFLPoQ LLM( 생성형) 업무효율화, 업무활용, 인공지능 활용하여 일잘 하는법 127

상세 컨텐츠

본문 제목

LLM( 생성형) 업무효율화, 업무활용, 인공지능 활용하여 일잘 하는법 127

카테고리 없음

by 홍승민경영컨설팅(주) 2024. 11. 23. 10:19

본문

다양한 데이터를 기반으로 따라 하면 성공하는 다중회귀 판매예측 방법

 

 

(앞선 글에 이어)

상관분석을 통한 상관계수로부터 다중공선성 확인하는 방법 1

독립변수를 잡고 상관분석을 진행합니다. 그럼 결과가 아래와 같이 나옵니다.

 

1. 대각선의 값들은 모두 1입니다. 이는 각 변수가 자기 자신과 완벽한 상관관계를 가짐을 의미합니다.

2. Column 1과 Column 2는 0.96의 상관계수를 가집니다. 이는 매우 강한 양의 상관관계를 나타냅니다.

3. Column 1과 Column 5도 0.95의 높은 상관관계를 보입니다.

4. Column 2와 Column 5 역시 0.96으로 매우 강한 상관관계를 가집니다.

5. Column 3은 Column 1, 2, 5와 비교적 강한 상관관계(0.71-0.81)를 보입니다.

6. Column 4는 다른 모든 열들과 매우 약한 상관관계(0.09-0.20)를 보입니다. 이는 Column 4가 다른 변수들과 거의 관련이 없음을 의미합니다.

 

각 독립변수들이 무지 막지하게 상관이 있습니다. 그렇다면 우리는 이런 것을 보고 아~ 다중공선성이 존재 하겠구나 하고 생각해야 합니다.

 

이제 각 독립변수별 회귀식을 진행한 하 VIF 값을 구하겠습니다.

VIF 값은 전체 데이터에서 원래의 종속변수를 제거하고 독립변수간 다중선형회귀를 보는 것이므로 독립변수간 다중회귀를 한 후 결정계수를 기준으로 계산합니다.

 

VIF 식 =VIF(Column 1) = 1 / (1 - R²)

VIF 구하는 과정은 엑셀에서 하기 양이 많이 있습니다. 보통 엑셀에서는 안하고 통계 도구를 이용합니다. 저는 판다스를 이용해서 합니다. 하지만 본 책에서는 엑셀로 해야 하니 일이 많아도 엑셀로 하였습니다. 먼저, 각 독립변수별 P 값을 확인 하겠습니다.

 

1.전체 다중회귀 결과

 

각 독립변수별 P 값기준으로 제거 대상 우선순위 결정을 위해서 먼저 전체 회귀식을 구합니다. P 값을 보니 0.05보다 높아서 의미가 없는 것은 X3,X4,X5입니다. 하지만 X4는 숫자가 정확하게 못 쓴다하기는 조금 그렇습니다. 하지만, X3,X5즉 영업직원숫자와 고객만족도는 크게 적용되지 않습니다.

 

이제 각 종속변수인 판매숫자를 제외하고 각 독립변수별 다중회귀를 구합니다.

 

(다음 포스팅에 이어서 계속)

.

.

.

생성형인공지능, LLM, 일잘러, RAG응용, 챗지피티 를 활용해서 프로 일잘러 되기 출간 준비중~~!!

 

728x90