상세 컨텐츠

본문 제목

R 데이터 변환의 의미

데이터 분석

by 메타샤워 2023. 7. 25. 16:09

본문

다양한 데이터의 소스들로부터 R로 불러와서, 결합하고, 결측값과 특이값을 확인한 후 처리하고,

 
필요한 데이터만 선별적으로 선택 혹은 제거한 후 분석의 목적과 필요에 따라서, 그리고 데이터의
 
형태에 따라서 R에서는 다양한 데이터 변환 작업을 수행하게 된다.
 
 
고급 분석가와 그렇지 않은 분석가가 나뉘는 부분, 데이터 엔지니어와 데이터 분석가가 나뉘어지는
 
부분이 여기서 부터 이지 않을까 싶다. 업에 대한 지시와 더불어 분석의 목적과 분석의 기법에 대해서
 
정확히 알아야 하고, 데이터의 형태가 그에 맞는지, 맞지 않다면 어떻게 변환을 해야하는지 알아야 하기
 
때문이다. 그리고 데이터변환을 하는데 있어 통계적인 기본지식이 필요하다보니 여기 부터는 프로그래
 
밍을 잘하지만 통계를 잘 모르는 데이터 엔지니어의 경우 어려움을 겪기 시작한다.
 
 
이 변환 작업에는 많은 시간과 노력이 필요하다. 그래서 데이터분석을 업으로 삼으려고 생각했던
 
사람이라도 소위 데이터 전처리, 데이터 변환의 부단한 과정에 대해서 재미를 느끼지 못하면 오래
 
견디지 못하고 다른 커리어로 전향을 하기도 한다. 그만큼 본격적인 통계/데이터마이닝 과정에 진입
 
하기 위한 전초 단계로 중요하지만 쉽지 않은 많은 과정이다.
 
 
 
모델링을 하는데 있어 분석 목적에 유의미하고 적합한 파생변수를 개발하고 input으로 넣는 것이
 
정말 중요하다. 개념적 정의, 조작적 정의를 통해 파생변수를 개발하는 과정에 필수 요소로 필요한
 
이론적 지식을 나열 해보고자 한다.
 
 
데이터의 변환
 
(1) 표준화
(2) 정규분포화
(3) 범주화
(4) 개주 축소 (샘플링)
(5) 차원 축소 (변수제거)
(6) 시그널 데이터 압축
 
6개의 카테고리로 구분하였다. 대략적으로 봤을대 (1) 표준화, (2) 정규분포화, (3) 범주화는 데이터
분호나 속성을 변화시키는 기법이고 (4) 개수축소, (5) 차원축소, (6) 시그널 데이터 압축은 데이터
크기를 축소하는 기법이 되겠다.

관련글 더보기