데이터 분석
데이터를 받으면 제일 먼저 해야할 일
공길이의 숨겨진 세상
2023. 7. 25. 15:59
모든 데이터에 행해야할 분석
1. 데이터 내용, 구조, 타입을 파악해야한다.
R에서 dplyr::glimpse() 함수가 유용하다.
데이터 구조를 파악할 수 있는 str(),
데이터의 맨 앞 부분을 보여주는 head(), 데이터의 맨 뒷 부분을 보여주는 tail()
2. 데이터의 요약 통계량을 summary로 파악한다.
3. 결측치가 있는지 summary로 살펴 본다.
4. 무작정 시각화를 해본다.
plot(), piars()를 돌려보면 좋다.
데이터의 관측치가 많을 때는 실행시간이 길으니 dplyr::sample_n() 함수등을 사용해 표본화 해본다.
데이터의 변수가 10개 이상많을 때에는 10열씩 구분하여 살펴보는것도 유용하다