빅데이터 기술분류 및 현황 보고서 : KBD 자료 본문
http://www.bigdataforum.or.kr/?act=bbs&subAct=view&bid=report&page=1&order_index=intSeq&order_type=desc&list_style=list&seq=889
에 대한 얘기가 있다는데 너무 자료가 방대하므로 (용량 101MB) 그림 위주로 훑어보자..
가장 관심 분야인 빅데이터 분석 기술 부분만 일부 발췌 (p41)
5) 빅데이터 분석 기술
가. 정의
- 빅데이터 분석은 대량의 데이터로부터 숨겨진 패턴과 알려지지 않은 정보간의 관계를 찾아내기 위한 과정
- 비즈니스 영역에서 주로 수행되는 빅데이터 분석의 목적은 데이터 과학자들에 의해 분석된 정보를 토대로 기업의 의사결정을 수행하는 것
- 주로 빅데이터 분석을 위하여 크게 데이터 마이닝과 예측 분석 등이 고려되며, NoSQL 데이터베이스, 하둡과 맵리듀스 등의 관련 기술이 있음
- 따라서 빅데이터 분석은 더 짧은 시간 안에 보다 더 많은 정보를 빅데이터로부터 추출하는 것을 목표로 함
라. 빅데이터 분석의 분류 : 비즈니스 분석, 고급 분석
- 비즈니스 분석
. 현재의 현상과 결과적인 관점을 제시하는데 추점을 두는 것으로 데이터의 생성부터 폐기까지, 전사적인 범위에서 기업의 미래를 예측할 수 있어야 함
. 통계, 예측, 최적화 등을 통하여 단순히 OLAP 툴을 사용하는 BI와는 확연히 다른 분석 결과를 제공
- 고급 분석
. 고급 분석은 대용량의 데이터로부터 숨겨진 패턴을 발견하고 상황을 예측
. 비즈니스 혹은 그 밖의 상황을 예측하고 효율적인 의사 결정을 지원하기 위해 구조화 및 비구조화 된 복잡한 형태의 데이터에서 요인들 간의 상관관계와 의미 있는 데이터의 패턴을 식별하고 에측하기 위한 모든 기법과 기술들을 포괄
. 빅데이터를 활용하는 기업들은 쿼리와 리포팅 그리고 데이터 마이닝에서부터 예측 분석까지 다양한 분석 기술을 활용
마. 빅데이터 분석 기술
< 통계 분석 >
. 불확실한 상황에서 현명한 의사 결정을 하기 위한 자료 수집, 분류, 분석, 해석, 발표의 체계
. 통계는 다양한 분석에서 활용되는 기술로써, 통계적인 컴퓨팅에 사용되는 R, SAS 등을 통하여 다양한 통계 기법으로 분석할 수 있음
. 다양한 통계 기법을 통하여 목적에 맞는 가장 정확하고 효율적인 통계 분석을 수행할 수 있음
< 데이터 마이닝 >
. 분류 (classification) : 데이터 분석의 가장 기본적인 형태로써, 데이터 마이닝에서 분류란 분류 결과가 알려진 유사 데이터를 사용하여 규칙들을 찾아낸 다음, 그 규칙들을 분류, 결과가 알려지지 않은 해당 데이터에 적용하는 것
. 추정(estimation) : 분류는 '예, 아니오' '남, 여' 등의 이산형 결과를 다루지만 이에 반해 추정은 연속적인 결과를 다룸
. 예측 (prediction) : 데이터를 통하여 만들어진 예측 모형을 이용하여, 자료의 특정한 속성을 예측
. 데이터 축소 (data reduction) : 대량의 변수 혹은 레코드들을 작은 변수군 또는 레코드 집합으로 병합하는 과정으로써, 분별력이 있는 데이터 분석이 되기 위해서는 일반적으로 복잡한 데이터를 데이터 축소를 통하여 단순한 데이터로 정제하여야 함
. 데이터 탐색 (data exploration) : 비슷한 정보를 내포하고 있는 서로 유사한 변수들은 이를 통합하여 하나의 단일 변수로 병합하여 데이터를 완전하게 이해할 수 있도록 하는 과정임
- 데이터 마이닝의 수행 단계
. Sampling : 적절한 양의 표본을 원 자료로부터 추출하는 단계로써, 시간/비용의 절약과 함께 효율적 모형 구축에 필수적임
. Exploration : 여러 가지 자료의 탐색을 통해 기본적인 정보를 획득하는 단계
. Modification : 데이터의 효율적인 사용을 위한 변수의 변환, 수량화, 그룹화 등을 통하여 데이터를 변환하는 단계
. Modeling : 데이터 마이닝의 핵심으로써, 분석 목적에 따라 적절한 기법을 사용하여 예측 모형을 만드는 단계
. Assessment : 모형화 결과에 대한 신뢰성, 유용성 등을 평가하는 단계로써, 리프트 도표, ROC (Receiver operating Characteristic) 곡선, 이익 도표 등이 있음
- 데이터 마이닝 주요 기법
. OLAP (On-Line Analytical Processing)
. 군집 분석 (Cluster Analytics)
. 연결 분석 (Link Analytics)
. 사례 기반 추론 (Case- Based Reasoning)
. 연관성 규칙 발견 (Association Rule Discovery)
. 인공 신경망 (Artificial Neural Network)
. 의사 결정 나무 (Decision Tree)
. 유전자 알고리즘 (Genetic Algorithm)
< 텍스트 마이닝 >
- 좁은 의미로는 불명확하고 찾기 힘든 텍스트 기반의 데이터 (문서)로부터 새로운 정보를 발견할 수 있도록 관련 방법을 제공하는 기술이며, 넓은 의미로는 이와 관련된 정보 검색, 정보 추출, 정보 체계화, 정보 분석을 모두 아우르는 Text-processing 기술 및 처리 과정을 의미
- 텍스트 마이닝이란 구조화되지 않은 대규모의 텍스트 집합으로부터 새로운 지식을 발견하는 과정으로 텍스트 문서 전처리 및 패턴 분석 등의 단계를 가지며, 순환 구조로써 계속적인 피드백을 수행
- 텍스트 마이닝의 수행 단계
. (Text 문서) 텍스트 마이닝의 소스로써 주로 사용되는 Text 문서는 DB Contents 혹은 텍스트 기반의 문서들이 있음
. (Text 전처리) 문서 내에 표현되어 있는 단어/구/절에 해당하는 내용을 언어 분석 처리 과정을 가공할 수 있는 데이터로 표현
. (의미 정보 변환) 전처리된 데이터 중 의미 있는 정보를 선별하여 저장
. (의미 정보 추출) 복잡한 의미정보의 표현을 단순화하고 도메인에 적합한 정보를 문서의 의미 데이터로 저장
. (패턴 및 경향 문석) 의미 데이터를 기반으로 문서를 자동으로 군집화 하거나 분류하는 등의 정보 재생산
. (정보 표현 및 평가) 새롭게 생성된 정보를 사용자에게 시각화 툴로 효과적으로 표현하며, 평가 과정을 통해 텍스트 마이닝의 처리 과정 중 문제가 되는 부분을 수정 및 보완하여 품질 및 성능을 높이는 데 사용
< 예측 분석 >
- 과거 자료와 변수 간의 관계를 이용하여 관심이 되는 변수를 추정하는 것으로써 앞서 언급된 통계 분석, 데이터 마이닝 및 텍스트 마이닝 기술들을 기반으로 예측 분석을 수행
- 예측 분석의 목표는 과거의 데이터나 사건으로부터 미래에 발생 가능한 상황이나 사건을 예측하여 선제적인 의사 결정을 지원
- 예측 분석은 데이터 마이닝의 기법 중 하나지만 빅데이터를 분석하고 활용하기 위하여 비즈니스적 필요성에 의해 많이 연구 및 개발되고 있음
- 최근 예측 분석을 위한 도구 및 솔루션이 오픈 소스로 개발되고 있으며, 이들은 보다 더 많은 형태이ㅡ 비정형 데이터를 지원하기 위해 연구 및 개발되고 있음
- 시계열 분석 기법은 대표적인 비즈니스 예측 분석 기법 중 하나로, 시간의 흐름에 따라 순서대로 관측되어 시간의 영향을 받게 되는 자료를 분석하여 예측하는 기술
. 추세 분석 (trend analysis) : 기술적 분석의 출발점으로써 다항 회귀 모형과 유사한 모형을 가정하고 모수의 추정을 통해 예측값을 구하는 분석법
. 평활법 (smoothing method) : 현재로부터 가장 최근에 관측된 자료에는 큰 가중값을 주고, 과거로 갈수록 그 가중값의 크기를 줄여 나가는 일종의 가중 평균을 이용한 예측 방법
. 자기회귀누적이동평균 (ARIMA) 모형에 의한 분석법 : 현 시점의 관측값을 과거의 관측값들과 백색 잡음이라고 불리는 오차들의 형태로 표현하는 모형으로써, 박스-젠킨스모형이라는 이름으로 가장 많이 사용되고 있음
< 최적화 >
- 주어진 가능한 결과들에 대한 평가를 수행하여 최적의 결과를 도출하는 것으로 비즈니스 환경에서 취할 수 있는 여러 가지 대안들 중 제시된 전략을 평가하고 최적의 대안을 선택하도록 도와줄 수 있는 필수적인 분석 기술임
< 평판 분석 >
- 소셜 미디어 등의 정형/비정형 텍스트의 긍정, 부정, 중립의 선호도를 판별하는 분석 기술임
- 주로 특정 서비스 및 상품에 대한 시장 규모 예측, 소비자의 반응, 입소문 분석 등에 활용됨
< 소셜 네트워크 분석 >
- 소셜 네트워크 연결 구조 및 연결 강도 등을 바탕으로 사용자의 명성 및 영향력을 측정하는 기술로써 수학의 그래프 이론에 뿌리를 두고 있음
- 주로 마케팅을 위하여 소셜 네트워크 상에서 입소문의 중심이나 허브 역할을 하는 사용자 (영향력 있는 사용자로서 인플루언서라고도 함)를 찾는데 주로 활용됨
< 그 밖에 실시간 분석, 준실시간 분석 등과 같은 정확성 보다는 분석 속도에 초점을 두는 분석 기술 >
- 분석에 필요한 모든 가용한 데이터를 활용하여 사용자의 요청에 대한 분석을 수행하고 빠르고 적시에 지식 (분석 결과)을 제공해 줄 수 있는 분석 기법
- 실시간 분석 등을 위하여 인-데이터베이스 분석, 인-메모리 분석, 다중 프로세스를 활용하는 MPP 등과 같이 보다 빠른 지원 기술을 이용
바. 빅데이터 분석 도구
< R >
- 오픈소스 프로젝트 R은 통계 계산 및 시각화를 위한 언어 및 개발 환경을 제공하며, R 언어와 개발 환경을 통해 기본적인 통계 기법부터 모델링, 최신 데이터 마이닝 기법까지 구현/개선이 가능
- R은 S 언어에서 파생된 통계적 컴퓨팅 언어로 다양한 통계 기법과 수치 해석 기법을 지원하고 패키지를 통하여 기능 확장이 용이하여 다양한 통계 및 분석 분야에 사용됨
- 현재 통계적 컴퓨팅 언어로 다양한 통계 분석에 용이한 R을 이용하여 다양한 빅데이터 분석 및 예측 분석 등을 포함한 고급 분석 기술들이 연구 개발되고 있음
< 빅쿼리 (BigQuery) >
- 빅쿼리는 구글의 대용량 데이터를 처리할 수 있도록 개발된 쌍방향 서비스로 사용자 혹은 개발자 등은 SQL과 같은 익숙한 쿼리문 등을 이용해 인사이트를 전달할 수 있음
- 빅쿼리를 이용하기 위해서는 먼저 이용자가 데이터 세트를 구글 시스템에 업로드 하고, 빅쿼리 API를 이용하여 이에 대한 쿼리를 던지는 방식으로 이용함
- 구글 클라우드 스토리지와 함꼐 이용할 수 있으며, 최대 2TB에 이르는 비압축 데이터를 구글 스토리지에 올려 무료로 분석할 수 있음
- 빅쿼리 엔진은 70TB에 이르는 비압축 데이터를 한 번에 읽을 수 있는 특징
< 프레스토 (Presto) >
- 페이스북에서 개발한 빅데이터 분석 도구인 프레스토는 하둡을 위한 SQL 처리 엔진으로 데이터 분석가가 기존의 SQL 언어로 대용량의 데이터를 대화형 분석을 수행할 수 있도록 해줌
- 프레스토는 클라우데라의 임팔라, 아파치 타조 등과 유사하게 SQL 조회를 빠르게 할 수 있도록 개발된 빅데이터 분석 도구임
사. 빅데이터 분석 기업
- SAS, IBM 등 많은 기업들이 빅데이터 분석 솔루션을 개발 및 연구 중
- 비즈니스 분석을 위한 통합 솔루션의 기반을 다지고 보다 빠르고 정확하게 데이터를 분석하기 위한 기술들을 개발하고 있음
- 대표적인 통합 분석 솔루션인 SAS Analytics의 경우 데이터/텍스트 마이닝, 데이터 시각화, 콘텐트 분류, 예측, 모델 관리 및 전개, 경영 과학 (최적화), 품질 개선, 통계 등과 같이 대부분의 분석 기술 통합 제공
ㄱ
'Work & Life > Research- Bigdata' 카테고리의 다른 글
데이터 전문가 온라인 교육 (0) | 2015.12.02 |
---|---|
알기쉬운 빅데이터 분석·활용 가이드 v1.2 (KBD 자료) (0) | 2015.12.02 |
빅데이터 전문가 : 전망과 현황 (0) | 2015.12.02 |
Google 애널리틱스 공인 전문가 자격(IQ) 정보 (0) | 2015.09.24 |
통계적 중요도 계산하기 - Excel 계산기 (0) | 2015.09.24 |