빅데이터. 빅데이터라고 주위에서 말도 많고 또 그런 시대라하며 여러 강의, 도서, 회사, 마케팅, 사짜(?) 들이 판을 치고 있는거 같습니다. 최근 몇 년간 데이터 저장 및 처리 비용이 엄청나게 낮아지면서 생성되는 데이터의 종류, 양이 무척이나 다양해졌습니다.
데이터 분석가, 데이터 과학자 라고 불리는 직업군이 주목을 받게 된것도 사실상 위 배경에서 데이터가 무궁무진하니 이런 데이터를 잘 선별할수 있는 눈을 가진 사람이 필요하고 곧 새로운 비지니스 시장을 찾아 낼수 있는 사람들이 필요하게 된겁니다.
헤드헌팅 시장에서도 데이터과학자에 대한 수요가 점점 커지고 있는걸 보면 이들의 몸값도 상당히 올라가고 있는 추세 일겁니다. 하버드의 한 기업 잡지에서는 이미 몇년전에 데이터 과학자를 21세기의 가장 섹시한 직업이라고 표현했고, 2020년대가 되면 특정 영역에서는 데이터 과학자에 대한 수요가 공급을 훨씬 초과하는 현상이 발생할 것이라고 예측도 했었다고 합니다.
이렇게 HOT한 직업군이기 때문에 종종 데이터 과학자가 되려면 어떤 분야의 지식, 기술이 필요한지 묻는 사람들이 있습니다. 이런 직업이 되기 위한 역량이 어떤게 있을지 약간 러프하게 다뤄보겠습니다.
데이터 과학자 (데이터분석가)는 어떤 일을 하는가??
기업마다 조금씩 다르겠지만, 데이터 분석가의 가장 중요한 역할은 의사결정권자가 새로운 사업 결정을 할수 있도록 적잘한 시기에 대한 정보를 제공하는 역할입니다.
여기서의 정보라함은 기술 통계적인 데이터 (평균,합계등등)에서 부터, 보다 복잡한 현상을 해석하고 예측하는 모델에 이르기 까지 다양합니다. 데이터 분석가의 전문성이 높아질수록 보다 정교하면서 설명력/예측력이 높은 정보를 제공할수 있게 되겠죠.
데이터 분석가에게 필요한 역량 4가지
데이터 분석가는 의사 결정을 위한 "정보"를 제공하는 사람이라고 했습니다.
데이터 분석가에게는 이러한 말씀드린 정보 ( 기술 통계적인 정보에서 예측 모델까지 통칭)를 제공하기 위한 핵심 역량입니다.
1. 데이터에 대한 다차원적인 이해
가트너는 빅데이터의 특징을 4V 라고 정의 한바 있습니다. 데이터가 복잡하고 빠르고 더 방대해졌다 뭐 이런 뜻은 분석가가 아니더라도 다 아는 이야기죠., 결국 데이터가 더 어려워졌다라는 것이고 데이터 자체에 대한 기본적인 이해 없이는 좋은 분석가가 될수 없습니다.
데이터 분석가는 데이터베이스에서 자신의 원하는 데이터를 추출할 수 잇어야 합니다. 회사마다 DB구조가 다르고 주로 분석하는 영역이 다르기는 하지만 대부분 RDBMS를 사용하기 때문에 어떤 분야라던지 SQL에 대한 이해는 필수적이고 요즘엔 MongoDB같은 NoSQL을 사용하는 곳에 늘어나고 있기 때문에 JSON에 대한 지식도 필수적입니다.
2. 통계 및 분석 방법에 대한 이해
코세러에서 가장 인기있는 강좌중 하나인 Data Science 전공의 교수진들은 한때 "데이터 과학자라는 말은 단지 통계학잘르 멋있게 부르는 말에 불과하다"는 말을 한적이 있습니다.
머신러닝, 딥러닝을 비록한 최근의 다양한 분석 방법이 통계학적 기반을 가지고 있다는 것을 생각하면 수긍할 말입니다. 데이터 분석을 하기 위해서는 통계적 지식이 필수적이다 라는 말이죠
물론 기존의 통계학에만 정통해서는 데이터 분석 업무를 잘 수행해 내기 힘듭니다. 계속해서 다양항 분석기법들이 쏟아져 나오고, 기존의 분석기법들이 업그레이드 되고 있으니까요
다양한 분석 기법을 습득하기 위해 추천해 드리는 방법은 자주 사용되는 분석 기법을 정리해 놓은 책을 읽거나, 온라인 강의를 통해 분석 방법론의 유형과 기본개념에 대해 익혀두는것입니다.
지도학습, 비지도학습 영역 별로 자주 사용되는 기본 분석 방법론을 알아가는 것은 그리 어려운 일이 아닙니다.
최신 분석 방법에 대해 계속 업데이트 받기 위해서는 데이터 분석과 관련된 커뮤니티에 가입하거나, 유명한 데이터 분석가 중 마음에 드는 사람의 블로그를 팔로잉 하는것도 좋은 방법입니다.
물론 데이터 분석 방법은 다양하고, 점점 깊어지는 추세이기 때문에 대략적인 분석방법을 아는 것 만큼이나 자신의 전문 영역을 확보하는 것도 중요합니다.
3. 분석 Tool 에 대한 이해
엑셀에는 다양한 기능이있고, 사용하기 매우 편리하지만, 고도화된 머신러닝을 위한 기능을 모두 제공하진 않습니다. 따라서 데이터 분석가는 분석을 위한 전문 Tool을 사용할 수 있어야 합니다.
데이터 분석을 위한 다양한 Tool들이 있습니다. 자신과 잘 맞는다고 생각하는 Tool을 정해서 정확하게 익히시길 추천합니다. 가장 자주 사용되는 분석 Tool은
R, Python, SAS, SPSS, QGIS, Tablueau, 등등이 있습니다.
4. 비지니스 커뮤니케이션
데이터 분석가에게는 커뮤니케이션을 잘하는 것이 다른 직업군모다 더욱 중요합니다. 데이터가 다른 여러 부서와 관련이 되어 있기 때문이기도 하고, 분석 결과가 또한 다른 부서, 의사 결정자가 활요하기 때문이다.
커뮤니 케이션에는 여러가지 영역이 있고, 중요하지 않은 영역은 물론 없지만 아래위 같이 두가지로 정의 할수 있을것 같습니다.
문제 정의 능력
무엇을 해결하고자 하는지 명확하게 알지 못하면 문제를 해결할수 없죠. 실제로 문제를 해결했다고 하더라도 해결했는지 조자 모를수도 있습니다.
그렇기 때문에 분석을 시작하기 전에 달성하고자 하는 목적 및 비지니스 임펙트가 무엇인지를 구체적으로 정의하는 것이 중요합니다.
사전에 기본적인 문제 해결 방법론과 데이터 분석의 기본적인 문제유형을 습득하고 있어야 유관부서나 의사결정자와 문제에 대한 정의를 할 때 정말로 해결해야 할 문제가 무엇인지에 대한 협의를 이끌어 낼 수 있습니다.
결과 전달 능력 ( 시각화와 스토리텔링 )
데이터 분석의 결과를 필요한 사람/부서에서 잘 이해할 수 있도록 전달하는 것 또한 필수적인 스킬중 하나입니다. 이를 위해서 잘 구성된 스토리라인을 적절히 시각적으로 보여주는것이 필요합니다.
스토리텔링의 영역에서는 데이터가 어떻게 받아들여질지, 이해관계자 입장에서 쉽게 이해할수 잇도록 계속 고민하는 것이 필요합니다.
데이터 시각화 영역에서는 간단한 데이터 분석의 결과를 전달할때 PPT나 엑셀 그래프도 여전히 자주 사용되지만, 최근에는 tableau나 ggplot패키지 등 괜찮은 시각화 Tool들이 많아지고 있습니다.
데이터 분석에는 다양한 업무 영역이 있고, 영역 별로 전문성도 점점 심화되는 추세이지만, 위 4가지 영역은 어떤 분야의 데이터 사이언티스트에게나 필수적인 스킬셋입니다.