본문 바로가기

과목/빅데이터

빅 데이터 강의

실리콘밸리를 가라, 구글 입사 서류를 써라


크게 세가지 분야

데이터 프로그래머 : 데이터 분석용 프로그램 작성 파이썬 자바 스칼라 사용

데이터 분석가 : 데이터 마이닝, 인공지능, 통계학. 데이터 타입(수치형, 카테고리) 어떤 알고리즘을 적용하는 것이 맞는지 방법론 구성

데이터 아키텍트 : 데이터 분석을 위해 어떤 구조를 쓸 것인가. 하둡, 스파크를 알아야 함. 빅데이터에서는 RDBMS 포맷을 쓰지 않음 Nosql Hbase 카산드라 사용함.


세가지 분야를 다 할 줄 알면 데이터 사이언티스트.

보통 데이터 프로그래머와 분석가를 분리하지 않음.


빅 데이터의 이해

2007년부터 데이터 생산량이 저장 공간을 넘어섬. 기존의 데이터를 삭제해야할 시기가 옴. 이 데이터를 분석 관리하기 위해 하둡이 나오기 시작함.


뉴칼라 : 인공지능 시스템을 디자인, 응용할 수 있는 사람


키로, 메가, 기가, 테라, 페타, 엑사, 제타, 유타

작년 전세계적으로 한해 7.9제타바이트의 데이터 발생


1분에 구글에서 200만개 질문이 발생함. 쿼리가 일어나면 검색하고 결과를 전송해야하기 때문에 큰 시스템임. 네바다주의 구글 데이터 센터에서 전력의 80%를 먹음. 후버댐에서 물을 끌어와서 쿨링함.


빅 데이터라고 해서 무조건 large data set은 아님. 관계가 없거나 큰 데이터면 빅 데이터..

RDBMS에서는 조인을 하지만 이런 연관을 찾기 힘든 것이 non-relational data


빅데이터 프레임워크 하둡. 어떻게 잘 저장하고 잘 분석 관리할 것인지.


빅데이터 4가지 구성요소

3V1C

Volume, Variety, Complexity, Velocity


경제적 전망 : 예전에는 log는 개방했지만 현재는 돈이 되기 때문에 오픈하지 않음. 빅데이터를 핸들링하기 힘들다. 'ㅋ','ㅋㅋ'의 차이마저도 분석해야 함. ontology를 업데이트하기 위해 노력함. 데이터 분석비용보다 데이터 그 자체가 더 비싸다.


가치 창출 : 데이터가 분야별(소셜, 기업, 금융, 통신, 안보, 의료)로 나뉘어져 있지 않고 하나의 플랫폼(분석 서비스 응용 및 시각화, 분석 워크 플로우 시스템, 분석 서비스 컴포넌트, 분석 기술 인프라, 데이터 수집/통합/관리 인프라, 클라우드 컴퓨팅 인프라)에 녹여 저장한다. 여러 곳에 있는 데이터를 로컬에 있는 것처럼 사용하는 클라우드 컴퓨팅을 사용한다. 


데이터를 저장 관리하는 아키텍쳐(프레임워크 ex 하둡)가 저렴할수록 이윤이 증가한다. 하둡은 오픈소스, 안정성이 높다.


물리적으로 나뉘어 있는 데이터를 하나인 것처럼 합쳐서 보여주는 것이 파일 시스템, 어느 디스크에 어느 섹터에 어느 블록에 있는지.

여러 컴퓨터에 데이터가 떨어져 있으면 arm 대신 TCP/IP를 사용하면 된다. Distribute File System.


하둡은 크게 HDFS, MapReduce로 구성되어 있다. 분산되어 있는 컴퓨터를 하나로 해 줌.


빅데이터 활용 예 : 미국 - 국토보안, 치안(DNA 분석), 의료(Pillbox.org), 한국 - 센서 달린 파이프를 달아 수자원 모니터링


빅데이터 생태계 기술들

RDBMS는 무결성을 지키기 위해 타입 맞추고 Primary 키 만드는 등의 작업을 해야한다. 데이터를 저장할 때마다 스키마에 맞는 지 검증한다.

빅데이터는 데이터 규모도 크고 속도도 빨라서 저런 검증을 하면 별로 안좋다. 레코드의 수가 많아서 join하면 시스템 부하가 발생한다.

하둡은 저비용으로 확장성, 고가용성, 결함 허용성(fault tolerance, 결함 극복이 아닌 결함을 참아냄).


Hive는 하둡에 저장되어 있는 파일을 sql 쿼리문으로...

Hbase는 하둡에서 동작하는 분산 관리 시스템 

데이터를 모아주는.

mahout(코끼리 운전사) 하둡에서 사용하는 인공지는 lib의 모음 

주키퍼 : 하둡 관리사


'과목 > 빅데이터' 카테고리의 다른 글

NoSQL RDBMS 비교  (0) 2018.07.28
Hadoop Mapreduce 개요  (0) 2018.05.02
MongoDB Aggregation  (0) 2018.04.28
MongoDB Indexing  (0) 2018.04.28
MongoDB sort  (0) 2018.04.28