1. EDA(탐색적 데이터 분석)
1-1. EDA가 뭔데..?
- 가공하지 않은 원천의 데이터를 있는 그대로 탐색하고 분석하는 기법, 기술통계와 데이터 시각화를 통해 데이터의 특성을 파악.
- 주의사항 : 극단적인 해석은 피해야 하며 지나친 추론이나 자의석 해석도 지양해야 함!!!
1-2. EDA의 목적
- 데이터의 형태와 척도가 분석에 알맞게 되어있는지 확인 → 이를 sanity checking이라고 함.
- 데이터의 평균, 분산, 분포, 패턴 등의 확인을 통해 데이터 특성 파악
- 데이터의 결측값(NULL)이나 이상치(noise) 파악 및 보완
- 변수 간의 관계성 파악
- 분석 목적과 방향성 점검 및 보정
1-3. 엑셀을 활용한 EDA
- EDA를 하는 가장 간단하면서 효과적인 방법 → 데이터 샘플을 1,000개씩 뽑아서 엑셀에 붙여놓고 변수와 설명 리스트와 함께 눈으로 살펴보기!
- 파이썬, R, SAS 등의 데이터 가공 및 시각화 기능이 아무리 좋다 하더라도 적은 데이터를 다룰 때는 엑셀만큼 사용자 친화적이고 효율적인 프로그램이 없음.
2. 공분산과 상관성 분석
2-1. 상관 분석 하는 이유?
- taget과 input의 관계는 물론 input변수들 간의 관계도 살펴봐야 함.
- 독립 변수의 변화에 따른 종속 변수의 변화량을 크게하여 통계적 정확도를 감소시키는 다중공선성을 방지할 수 있음.
- 데이터에 대한 이해도를 높일 수 있음.
- 상관 분석을 하기 위해서 데이터가 등간이나 비율 척도이며, 두 변수가 선형적 관계라는 기본 가정을 둠.