상세 컨텐츠

본문 제목

데이터를 받으면 제일 먼저 해야할 일

데이터 분석

by 메타샤워 2023. 7. 25. 15:59

본문

모든 데이터에 행해야할 분석

 
 
1. 데이터 내용, 구조, 타입을 파악해야한다. 
R에서 dplyr::glimpse() 함수가 유용하다. 
데이터 구조를 파악할 수 있는 str(),
데이터의 맨 앞 부분을 보여주는 head(), 데이터의 맨 뒷 부분을 보여주는 tail()
 
2. 데이터의 요약 통계량을 summary로 파악한다.
 
3. 결측치가 있는지 summary로 살펴 본다.
 
4. 무작정 시각화를 해본다.
plot(), piars()를 돌려보면 좋다.
데이터의 관측치가 많을 때는 실행시간이 길으니 dplyr::sample_n() 함수등을 사용해 표본화 해본다.
데이터의 변수가 10개 이상많을 때에는 10열씩 구분하여 살펴보는것도 유용하다

관련글 더보기