google-site-verification=tiTpc7g9EFArxomgX7IqEflz-fp4nI0F2jLaMkFLPoQ
다양한 데이터를 기반으로 따라 하면 성공하는 다중회귀 판매예측 방법
(앞선 글에 이어) 다양한 데이터를 기준으로 다중회귀 분석하기 2
용어 하나만 확인하고 가겠습니다. 우리가 회귀방정식을 만들때, 숫자가 아닌것을 통계에 활용할때가 있습니다. 위 예시에서는 제조업, 서비스1,2,3,4, 같은 경우 업종이기에 숫자로 표현이 불가능 합니다. 하지만 통계에 넣기 위해서 업종에 해당되면 1 해당 안되면 0 으로 표현 하였습니다. 이렇게 숫자로 표현 어려운 이름표 형식의 변수를 ‘명목형 변수’ 명목척도라고 하며 이렇게 숫자로 바꾸는 방법을 이진변수 처리 명목형 변수 라고 하며 보통 ‘더미변수’ 라고 합니다. 이때 제조업,서비스업1,2,3,4 는 총 4가지 종류에 한정이 되어 있어 범주형 데이터입니다. 범주형 데이터는 종종 ‘다중공선성’이 나타나게 되므로 이중 하나는 생략하고 방정식을 돌립니다. 자세한 설명은 아래 ‘다중공선성’ 파트에서 자세하게 다루겠으며 일단 따라 하시면 됩니다.
이제 생성형을 동시에 사용하면서 할 것입니다. 앞서서 했던 방법과 조금 다르게 CoT 라는 방법을 약간 차용해서 하겠습니다.
Input
너는 엑셀을 활용한 통계 전문가야
마치 어린아이에 설명해주듯 답변해줘
첨부파일 참조해서
어떤 방법으로 ‘직원수당 우리 제품 매출’을 예측할 수 있는지 가르쳐줘
Output
엑셀을 활용하여 '직원수당 우리 제품 매출'을 예측하기 위한 방법은 다음과 같습니다. 회귀 분석을 통해 예측할 수 있으며, 여기서는 기본적인 선형 회귀 분석 방법을 소개합니다.
1. 데이터 준비
생략
Input
첨부파일 다시 확인해봐
Output
첨부파일을 바탕으로 '직원수당 우리 제품 매출'을 예측하는 방법에 대해 다시 설명드리겠습니다. 기본적으로 회귀 분석을 활용하여 예측할 수 있으며, 이를 통해 독립 변수들이 종속 변수에 어떤 영향을 미치는지 분석할 수 있습니다. 다음은 엑셀을 이용한 회귀 분석 절차입니다.
생략
출처: ‘라온’ service base by AI:DRIVE with HBC data 27w, 2024 2turns
생성형이 답변한 내용들을 보면, 먼저 선형회귀 분석 방법으로 한다고 하네요. 이건 잘못된 답변입니다. 왜 잘못되었을까요? 앞서서 설명 드린 것 중에, 종단조사 횡단조사 말씀드렸습니다. 현재 우리가 가지고 있는 데이터는 일시적인 시점에 수집한 데이터 즉 횡단데이터입니다. 하지만 선형회귀는 시계열 데이터 즉 종단조사입니다. 그래서 선형회귀를 사용하지 못합니다. 그래서 다시 물어봤고 두 번째로 회귀분석을 한다고 나왔는데 다중회귀 분석을 ‘회귀분석’으로 해서 했습니다. 이는 엑셀에는 ‘다중회귀’ 라는 것이 없고 ‘회귀분석’을 이용해서 ‘다중회귀’를 하기 때문에 그렇게 답변한 것으로 추측 합니다.
일반적인 생성형에 물어 보면 인공지능은 바로 ‘다중회귀’를 가르쳐 줄 수 있습니다. 하지만 ‘다중회귀’ 라는 용어를 안쓰고 ‘회귀분석’ 이라는 용어를 쓴 이유를 추측하면 예시를 든 서비스는 제 데이터를 기반으로 RAG를 돌리기에 그리고 엑셀에서는 다중회귀가 아니라 회귀분석으로 다중회귀 까지 한 번에 되기 때문에 이런 선행학습 그리고 RAG로 인해서 그런 것이 아닌가 추측 합니다. 보통 일반적인 생성형에 이런 질문을 하면서 ‘엑셀’이라는 단어를 사용하지 않으면 다중회귀를 말해 주며 엑셀이 아닌 파이썬 이나 통계 프로그램을 통해 얻는 다중회귀를 가르쳐 줍니다.
다음 포스팅에 이어서 계속
.
.
.
생성형인공지능, LLM, 일잘러, RAG응용, 챗지피티 를 활용해서 프로 일잘러 되기 출간 준비중~~!!