국립부경대학교 | 빅데이터융합전공

Big data 관련기사

작성자,작성일,첨부파일,조회수로 작성된 표
[다음블로그 21.03] [빅데이터분석기사] 빅데이터 이해
작성일 2021-08-21 조회수 535
첨부파일
- 빅데이터 산업

 

인프라 영역데이터 수집, 저장, 분석, 관리 등의 기능을 담당하는 컴퓨터, 단말기, 네트워크, 서버, 스토리지 등의 하드웨어 관리, 분석 도구 등의 소프트웨어 포함
서비스 영역교육, 컨설팅, 솔루션, 데이터 정보 및 제공, 데이터 처리 서비스 제공

 

- 빅데이터 도입 및 활용 효과

경제, 공공, 사회 및 기타 전 영역에서 산업 경쟁력 제고

생산성 향상

기능 혁신 등을 통한 새로운 가치 창출

 

-Business Process

다양한 시스템과 비즈니스 요소들을 넓게 분산되어 있고 Customized되어 있는 복잡하고 역동적인 실체

고객에게 가치를 전달하는 데 필요한 모든 순차적, 병렬적 활동들의 집합

 

-소셜 네트워크 분석의 활용 사례

사용자 행동 분석

커뮤니티 주요 영향자 분석

사용자 간 링크 예측

 

-빅데이터 서비스 모델

빅데이터 비즈니스 모델

분석 플랫폼 관점에서 레벨 분류

하드웨어빅데이터 저장
소프트웨어데이터 분석
애플리케이션새로운 비즈니스 기회 발굴
사용자와의 커뮤니케이션
분석결과의 서비스

 

-데이터 수집 작업을 위한 고려 사항

데이터 수집 가능성용이성
데이터 보안개인정보, 지적 재산권 여부 등
데이터의 정확성데이터 품질의 적절성
데이터 수집 난이도데이터의 존재 위치, 유형, 용량, 비용, 정제 과정의 복잡성을 고려한 데이터 탐색
획득 비용 

 

-전자상거래 사이트에서 발생되는 원천 데이터

일간 API 트래픽 건수

Voice of Customer 처리 현황

전자상거래 사이트 장애 및 처리 내역

 

-외부 데이터

소셜 데이터

정책 및 시사 토론 사이트에서 발생하는 데이터

장비들 사이에서 발생하는 센서 데이터

경제, 의료, 정책, 과학 등 공공 LOD 데이터

 

-외부 데이터 수집

특정 기관의 담당자와 협의를 통한 수집

데이터를 제공하는 전문 업체를 통한 수집

ETL 작업을 위한 솔루션 구매 비용을 먼저 고려해야 한다.

ETL: Extract(추출) Transform(변환) Load(적재)

외부 데이터 수집 비용 및 난이도는 내부 데이터보다 높다.

외부 조직과 협의하여 데이터를 구매하거나 웹상의 오픈 데이터를 수집하며

일반적으로 외부 환경에 대한 통제가 어려워 별도의 서비스 관리 정책이 요구된다.

 

-내부 데이터

ERP, CRM 등 서비스 시스템에서 수집된 데이터

네트워크 및 서버 등의 장비에서 수집된 데이터

고객 VOC 접수, 고객 포털 시스템에서 수집된 데이터

 

-내부 데이터 수집

보통 내부 시스템에 원천 데이터가 존재한다.

조직 내에서 상호 협의를 토대로 데이터를 수집한다.

데이터 수집 시 기술적 제약이 상대적으로 적다.

 

-반정형 데이터

정형적인 데이터 구조를 따르지 않지만, 어의적 요소(단어나 말의 뜻)를 분리시키고 데이터 내의 레코드와

필드의 계층 구조가 있게 하는 태그나 다른 마커를 포함하는 정형 데이터

HTML, XML, JSON, RSS, 웹로그 등

 

-정형 데이터

로그 데이터, 업무 처리, 매개 거래, 시계열 데이터, 매출액 등

 

-정형 데이터 수집 기술

API, ETL, FTP, ODBC(Open Database Connectivity)

 

-정형 데이터 저장 시스템

Sybase, MS-SQL, Oracle RDB

 

-비정형 데이터 수집 기술

Crawler, HTTP Protocol 수집, Parsing 기법, RSS(Rich Site Summary)

 

-비정형 데이터

사전에 정의된 데이터 분석 모델을 가지고 있지 않으며

데이터의 구조와 형태가 데이터마다 다르고 정형화되지 않은 문서, 영상, 음성 등을 주로 의미한다.

도서, 저널, 문서, 메타 데이터, 건강기록, 아날로그 데이터, 이미지, 파일 이메일 본문, 웹페이지, 워드 문서,

채팅, 단문메시지, 블로그, 트위터, 페이스북, 카톡 등

 

-Cube Data

특정시간 동안 저장된 로그 데이터 정보

 

-JSON

Javascript Object Notation

자바스크립트를 위해 객체 형식으로 자료를 표현하는 경량의 데이터 교환 방식

 

-Data Warehouse

전사적인 차원에서 대규모로 데이터를 구축하는 저장소

데이터웨어하우스를 구축하기 위하여 다양한 데이터 변환 도구를 활용하며 ETL 과정을 수행하고

소스 데이터로부터 데이터를 받아 웨어하우스에 적재한다.

 

-Data Mart

소규모로 분할하여 구축, 이용하는 자료 저장소

전사적으로 구축된 데이터웨어하우스로부터 특정 주제, 부서 중심으로 구축된 소규모 단일 주제의 데이터웨어하우스

주제별로 데이터 마트를 구축하여 사용한다.

 

-EAI

Enterprise Application Integration

기업 내 또는 기업 간의 정보 연계를 위하여 사용되는 기술로 통합적으로 데이터를 관리한다.

 

-데이터베이스

상호관계가 있는 자료들을 하나의 통합된 저장소에 논리적으로 저장한 것

 

-Web Mining

인터넷을 이용한 웹서비스의 다양한 패턴을 발견하기 위해 사용된다.

웹로그를 이용하여 사용자가 언제 접속하고 어떤 경로를 거쳐 제품을 조회하고 구매했는지를 분석한다.

방문자에 대한 시간, 방문 페이지 정보, 사용 기기 및 브라우저 등의 정보를 얻을 수 있다.

주요기술

웹로그 분석 
웹콘텐츠 마이닝웹페이지의 유용한 데이터, 정보, 지식을 마이닝하고 추출, 통합하는 방법
웹구조 마이닝 

 

-데이터 품질 점검 항목

데이터의 분량, 완전성, 일관성, 정확성

 

-Mongo DB

NoSQL 저장 시스템

반정형, 비정형 데이터를 저장하기에 적합

오픈소스 DBMS로서 Embedded Data Model 지원

Join 연산 필요 없음

빠른 질의 처리 위한 인덱스 지원

분산 시스템 환경에서 자동 Failover 지원

자동 Sharding 지원

중복된 데이터 집합에 대한 일관적인 읽기 기능 지원

라이브러리용 드라이버 지원

우수한 질의 인터페이스

 

-CouchDB

View 개념을 자주 이용하는 경우 활용

 

-Sharding

샤딩

데이터 저장 및 관리 시 높은 성능과 가용성을 보장한다.

NoSQL에서 주로 사용, 기존 관계형 데이터베이스 시스템에서 파티셔닝 개념과 동일하다.

 

-Config 서버

MongoDB 사용하여 Sharding 기법을 적용하는 경우 샤드 클러스터의 메타 데이터를 저장하는 서버

 

-NoSQL

대용량 데이터베이스를 저장하기 위하여 전통적인 RDBMS보다 상대적으로 제한이 적은 데이터 모델을 기반으로

수평적 확장성, 데이터 복제, 간편한 API, 일관성 보장 등의 장점을 갖는다.

Mongo DB, Cassandra, HBase 등

저장방식

Key-value Database: 키와 해당 키 값의 쌍으로 저장하는 데이터 모델(아마존의 Dynamo)

 

-데이터베이스 용어

TupleTable에서 행을 나타내는 말, 레코드
Domain하나의 속성이 취할 수 있는 값의 집합
Degree차수, 속성들의 수
Attribute속성, Table에서 열을 나타내는 말, 필드
Cardinality하나의 Relation에서 튜플의 개수

 

 

-분산파일시스템

저사양의 서버들을 활용하여 대용량, 분산, 데이터 집중형의 애플리케이션을 지원하며,

사용자들에게 고성능의 Fault-tolerant 환경을 제공한다.

HDFS, GoogleFs

빅데이터를 확장 가능한 분산파일 형태로 저장한다.

 

-RDBMS

Relational Database Management System

관계형 데이터베스 시스템을 이용하며, 주로 정형 데이터를 저장하고 기존에 운영 중이던 

Legacy 시스템으로 부터 수집, 추출한 데이터를 대량으로 저장할 때 많이 이용된다.

 

-빅데이터를 저장, 처리하기 위한 하드웨어 설계 방법

분산 컴퓨팅대용량의 데이터를 분석하기 위해 두 대 이상의 컴퓨터를 이용하여 적절히 작업을 분배하고
다시 조합하며, 일부 작업에 문제가 생겼을 경우 문제가 발생된 부분만 재처리가 가능하도록 설계
사용자가 원하는 데이터를 찾고자 할 때 분산 데이터 소스로부터 빠르게 정보를 추출하는 것이 가능하다.
병렬 컴퓨팅 
클라우드 컴퓨팅동적으로 확장할 수 있는 가상화 자원들을 인터넷으로 서비스하는 기술
인터넷 웹 기반 컴퓨팅 기술
Utility Data Server에 프로그램을 두고 필요 시 컴퓨터 등에 불러와서 사용
인터넷 IT자원 사용
문서 작성, 저장 장치를 통한 데이터 저장 가능
소프트웨어, 인프라, 플랫폼 서비스로 발전

 

-클라우드 컴퓨팅 서비스

SaaS, PaaS, IaaS

IaaSInfrastructure as a Service
클라우드 컴퓨팅 서비스에서 고성능 컴퓨팅이 가능한 서버나 대용량 저장장치를 제공해준다.
SaaSSoftware as a Service
사용자가 인터넷을 통해 서비스 제공자에게 접속하여 애플리케이션을 사용하고 사용한 만큼 비용을 지불한다.
서비스가 운용되고 있는 서버에 대해 우영체제, 하드웨어, 네트워크는 제어할 수 없고 오직 소프트웨어만 사용 가능
PaaSPlatform as a Service
사용자가 서비스 제공자로부터 개발할 수 있는 환경을 제공 받고,
개발이 완료된 애플리케이션을 제 3의 사용자에게 제공하는 서비스

 

-Cloud File System

클라우드 컴퓨팅 환경에서 가상화 기술을 이용한 Distributed File System으로 불린다.

 

-Hadoop

데이터 배치 처리

아파치 소프트웨어 재단에서 관리

대규모 분산처리 프레임워크

Google File System(GFS), MapReduce 기반으로 둔 클론 소프트웨어

수집된 데이터를 저장하기 위해 HDFS(Hadoop File System)을 사용한다.

 

-HDFS

분산파일시스템으로 활용한다.

Name Node마스터 노드
파일 이름, 권한 등의 속성 기록
Data Node슬레이브 노드
일정한 크기로 나눈 블록 형태로 데이터 저장

 

-YARN

Yet-Another-Resource-Negotiator

Hadoop의 Mapreduce 처리 부분을 새롭게 만든 자원 관리 플랫폼

Resource Manager마스터 노드
Node Manager슬레이브 노드
노드와 자원 상황 감시

리소스 매니저에 노드를 요청하여 컨테이너를 동작시킨다.

 

 

-MapReduce 데이터 처리 과정

1. MapKey-value 형태의 데이터 취합
2. Shuffle데이터 통합
3. Reduce맵처리된 데이터 정리

 

-GPGPU

General Purpose Computing on Graphics Processing Unit

그래픽 처리 장치(GPU)를 전통적으로 중앙처리장치(CPU)가 맡았던 응용 프로그램들의 계산에 사용하는 기술

그래픽 가속기의 중심인 화상처리 장치의 성능이 중요시되면서 출현

이미지 연산 처리에 특화됨

별도의 메모리를 사용하기도 함

CUDA 통합 개발 환경 이용

머신러닝과 딥러닝을 이용한 이미지, 음성 인식 등에 활용

 -EC2

Elastic Computer Cloud

안전하고 크기 조정이 가능한 컴퓨팅 파워를 클라우드에서 제공하는 웹서비스로서

개발자가 더 쉽게 웹 규모의 클라우드 컴퓨팅 작업을 할 수 있도록 설계되었다.

 - 빅데이터와 비즈니스 모델 

(1) 빅데이터 활용 사례 

구글 검색 기능, 월마트 매출 향상, 질병 예후 진단 등 의료분야, 실시간 교통정보 수집, 기후정보, 각종 지질활동, 국가 안전 확보 활동, 정치인과 연예인의 SNS 활용 등 

(2) 7가지 빅데이터 활용 기본 테크닉 

① 연관규칙 학습(Association rule learning) : 변인 간에 상관관계 유무 파악 

② 유형분석 (Classification tree Analysis) : 범주 분류 

③ 유전 알고리즘 (Generic algorithms) : 최적화 필요한 문제 해결책을 자연선택, 돌연변이 등과 같은 매커니즘 통해 점진적으로 진화 

i.g. 최대 시청률 얻기 위해 어떤 프로그램 어떤 시간대에 배치, 택배 차량 배치 등

④ 기계 학습 (Machine Learning) : 알려진 특성을 활용 '예측'에 초점 

⑤ 회귀분석 (Regression analysis) : 독립변수 변화 -> 종속변수 변화 확인 -> 변인관계 파악 

i.g. 구매자 나이와 차량 타입의 관계 

⑥ 감정분석 (Sentiment analysis) : 특정 주제에 대한 말이나 글의 감정 분석 i.g. 고객 평가 

⑦ 소셜 네트워크 분석(Social network analysis) : 인플루언서 파악, 영향력 파악, 소셜 관계 파악 

 

  

다음 [한국금융 21.08] 신한카드, '데이터 거버넌스팀' 신설…데이터 경제 선도
이전 [노컷뉴스 21.08] 부산시, 데이터산업 생태계 조성에 627억원 투입