>
솔직히 인과관계만 보자면 회귀분석만으로도 충분하다고 생각한다.
하지만 데이터 분석을 통해 우리가 알고 싶은 것은 가설의 검증도 있지만, 앞으로 어떻게 될 것인가 하는 추측. 즉, 예측을 하는 단계까지 알고 싶은 거다.
그렇기에 회귀분석은 기본이고, 시계열 분석이나 이동 평균 분석, 자기상관함수 분석, 푸아송분포도, t-test, z-test 등 다양한 기법을 통해 분석하는 것이다.
하지만 기본은 회귀분석이다.
회귀분석 하나만 잘해도 왠만한 추정은 가능하다.
솔직히 상관관계 분석도 안하는 기업들이 수두룩한데, 회귀분석까지 가능하다? 대한민국 1% 안에 드는 실력있는 마케터라 확신한다.
잘하면 0.1%의 실력자일 수도 있다.
그렇다면 회귀분석이란 무엇인가?
여러 변수간의 관계성을 수학적으로 추정하고 설명하는 것이다. 즉, 변수간 관계성을 "추정"하기 때문에 "예측"이 가능해진다는 것을 의미한다.
회귀분석에 필요한 것은 무엇일까?
1) 종속변수 : 예측하고 싶은 변수, 즉 결과값이다. (한마디로 기준!)
2) 독립변수 : 종속 변수에 영향을 주는지 알아보기 위한 변수 (혹은 변수들)이다.
※ 상관관계는 2개의 변수로만 비교가 가능했다. 하지만 회귀분석은 2개 이상의 변수를 통해 확인할 수 있다. 이는 매우 중요한 포인트다.
그렇다면 회귀분석은 어떤 것들이 있을까?
그래프는 아래 이미지처럼 나타난다.
1) 단순선형 : 선형적(직선) 특성을 지니는 종속변수 1개, 독립변수 1개만을 가지고 분석하는 것.
ex) 매출에 광고비가 영향을 주는가?
2) 다중선형 : 선형적(직선) 특성을 지니는 종속변수 1개에 독립변수 2개 이상이 영향을 주는지 검증하는 것.
ex) 매출에 광고비, 클릭수, 노출수가 영향을 주는가?
3) 다항회귀분석 : 종속변수의 결과를 예측하는 분석법.
※ 다중선형에서 비선형(곡선)까지 확인할 수 있는 것. 독립변수의 제곱해서 종속변수의 결과를 예측한다.
[참고]
선형적 인과관계 : 원인 → 결과가 하나의 방향으로만 흐르고, 원인에 대한 결과의 비가 일정함.
비선형적 인과관계 : 원인 → 결과가 서로 양 방향으로 흐르고, 원인에 대한 결과의 비가 일정하지 않으며, 시작점이 어디냐에 따라 다름.
ex) 시간에 따른 광고비 증액시 매출 변동폭을 예측
4) 로지스틱 회귀분석 : 종속변수가 이진적 특성을 나타날 때 사용하는 분석법.
※ 주로 CRM이나 퍼널별 연관성 분석할 때 사용
ex) 쿠폰에 반응한 고객들은 남성인가? 여성인가?
다만 아래 내용은 주의해야한다.
1) 선형성 : 선형성을 지니고 있는가에 대한 여부
2) 독립성 : 각 지표들or잔차들은 독립적이어야 함.
3) 정규성 : 잔차가 비슷한 패턴을 보여야 함.
4) 일관성 : 잔차의 퍼짐 정도가 일정해야 함. 어떤 값들은 잔차가 크고, 다른 값은 작다면 일관성이 없으므로 신뢰도가 낮게 됨.
※ 잔차 : 실제값과 예측한 값의 차이
[참고사항]
경험상 정확한 예측을 위해선 최소 3년에서 5년치의 데이터가 있어야 좋다.물론 1년 이하의 적은 데이터로도 예측은 가능하나 오차범위가 크다. 특히 프로모션이나 성장률 등의 변수가 영향을 끼치기에 더더욱 정확한 예측이 어렵다.
자, 그렇다면 우리는 어떻게 분석해야할까?
보통 R통계분석을 사용한다. 하지만 너무 복잡하다.
솔직히 파이썬 코딩 공부는 물론 수학적 지식도 필요하다. 그렇기에 쉽게 접근하기 어렵다.
그럼에도 불구하고 우리에게는 희망이 있다.
챗GPT가 있기 때문이다.
하지만 챗GPT에게 명령을 하려면 기본적인 용어는 할 수 있어야 한다.
그래야 원했던 정보를 정확하게 알 수 있기 때문이다.
챗GPT에게 엑셀파일을 주고, 원하는 예측을 해달라고 요청하자. 알아서 데이터 전처리와 가공을 통해 보여줄 것이다.
물론 그냥 분석만해줘, 예측해줘 라고만 하면 보기 힘든 내용이 나올 수 있다. 그렇기에 보기 좋게 시각화도 해달라는 명령을 내려야 한다.
우선 이정도만 해도 충분히 훌륭하다.
물론 파이썬 언어와 SQL공부를 해서 직접 계산할 수 있으면 더욱 좋다.
챗GPT의 경우 똑똑한데, 의도를 제대로 못읽는 경우가 많아서 결국 명령을 계속 내려야 하는 경우가 많다. 그리고 토큰의 한계 때문인지 어느 정도 파일이 크면 제대로 분석을 못하는 경우도 있다.
그렇기 때문에 분석해줄 때 코드도 같이 제공해주는데, 해당 코드를 이해하고 조금 수정할 수 있을 정도면 데이터분석 전문가로 활동해도 무방하다고 생각한다.
물론 그런 거 없이도 할 수 있다면 정말 대한민국 0.1%가 아닌 0.0001% 안에 드는 마케터이지 않을까 싶다.
[로그분석] GA4, GTM 계정 생성 (1) | 2024.11.02 |
---|---|
수익한계분석, 가장 효율적인 마케팅비용은 얼마일까? (0) | 2024.10.25 |
ChatGPT와 함께하는 상관 관계 분석 (0) | 2024.10.24 |
제발 상관관계와 인과관계 차이 좀 구분하세요! (ft. 상관관계 분석 방법) (1) | 2024.10.24 |
코호트(동질집단) 분석이란? (0) | 2024.10.23 |