728x90

SPARK

- 범용 분산처리 플랫폼, 맵리듀스, 스톰과 동일한 스트리밍 처리, SQL 기반의 쿼리 수행

- 하둡과 연동, 파이썬, 자바 등 다양한 언어 지원

- Driver, Workers, Cluster manager(YARN)으로 이루어짐

- RDD Operation : Transformation(데이터를 변경하여 새로운 RDD 생성), Action

STORM

- 분산처리 플랫폼, Nimbus, Supervisors, Zookeeper, 작업노드로 구성

- Nimbus : 작업 노드에 있는 슈퍼바이저에게 작업 분배. 사용 가능한 슈퍼바이저의 현황 파악 및 관리

- Zookeeper : 노드 간 통신 및 작업 진행 상태 관리. 클러스터의 설정과 상태 관리. 님버스와 슈퍼바이저에게 작업 상황 및 클러스터 상태 정보 제공

- Supervisors : 작업 노드의 데몬. 님버스에서 할당받은 작업 수행

- Storm 네트워크 구조의 구성요소 : Spout(데이터 소스를 처리하는 시작 노드의 역할, 입력 데이터를 볼트로 전달), Bolt(스파우트에서 전달받은 데이터 처리, 수행 결과를 복수의 노드에 전달)

데이터의 효율적인 검증 절차

- 데이터 품질관리 요소 검증 -> 데이터 무결성 검증 -> 데이터 비식별화 조치

Fluentd

- 데이터 수집 소프트웨어, 반 또는 비정형 데이터셋 수집

- 로그 수집을 해야 하는 서버에 설치. 서버에서 로그 수집 및 중앙 로그 저장소로 전송

HDFS

- 일반적으로 클러스터에 2개의 네임 노드 구축

- 네임 서버는 파일의 메타 정보 보관

- 클라이언트로부터 특정 파일에 요구가 발생한 경우 파일을 보관하는 블록들에 대한 정보를 통해 실제 데이터 제공

- 데이터 접근은 데이터 노드를 통해 이루어짐. 파일은 블록으로 나누어 데이터 노드에 저장.

- 데이터 블록 관리 : Name node , 데이터 블록 저장 : Data Node

HIVE

- 하둡 상에 구축된 정형화된 데이터 관리 시스템. HDFS를 스토리지로 사용

- 테이블은 HDFS의 실제 디렉토리로 관리. 실제 데이터는 파일로 관리

- Metastore : 테이블 정보 저장, 데이터는 HDFS에 저장

- HCatalog : HIVE에서 생성한 테이블이나 데이터 모델을 피그나 맵리듀스에서 이용. 하둡으로 생성한 데이터를 위한 테이블 및 스토리지 관리 서비스

정형 데이터의 품질관리 요소

- 정확성(연 매출액은 월 매출액의 합과 일치), 완전성(not null), 일관성(코드값은 코드테이블에 정의), 유일성(고객의 이메일 주소는 유일해야 함), 유효성(주민번호 형식)

비정형 데이터의 품질관리 요소

- 기능성(자막, 사운드 내용), 신뢰성(결함 발생 횟수), 사용성(선명한 영상과 자막), 효율성(기준 시간 내 동영상 로딩), 이식성(운영 환경 및 플레이어 호환 여부)

데이터 수집 오픈소스

- Flume, Scribe, Chukwa

데이터 분석 플랫폼

- S4, Storm

데이터 할당 분석 수행 오픈소스

- Hadoop, Hive, Pig, Mahout

군집관리 및 모니터링 오픈소스

- Zookeeper, Cloumon, Hue

군집화 알고리즘

- 병합적 또는 상향식 군집, 분할식 또는 하향식 군집

비계층적 군집

- k-means, k-medoids, DBSCAN, 자기조직화지도, Fuzzy

확률기반 군집

- Gauss 혼합 모형

Holdout Cross Validation

- 데이터 집합을 서로 겹치지 않는 훈련집합과 시험집합으로 무작위 구분

- 훈련집합을 Training, Validation으로 구분하기도 함

ROC 곡선

- 혼동행렬의 값에서 FP와 TP 사이의 관계를 표현.

- 목표변수 범주 값 분류 시 긍정과 부정 범주의 변화 판단. 기준값의 변화에 따른 참긍정과 거짓긍정 비율 변화 분석

Lift(향상도)

- 무작위로 선택한 경우보다 데이터마이닝을 통해 예측력이 높아진 비율

- 1보다 작으면 우수한 규칙으로 평가

- P(X and Y) / (P(X) * P(Y))

Support(지지도)

- 전체 거래 중에서 어떠한 항목이 포함되었는가에 대한 거래 빈도

- P(X and Y) / n

Confidence(신뢰도)

- X규칙이 발생하면 Y규칙이 발생할 확률이 높다고 말할 수 있는 비율

- count(X, Y) / count(X)

728x90

+ Recent posts