[다음블로그 21.03] [빅데이터분석기사] 빅데이터 이해 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
작성일 | 2021-08-21 | 조회수 | 535 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
첨부파일 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
- 빅데이터 산업
- 빅데이터 도입 및 활용 효과 경제, 공공, 사회 및 기타 전 영역에서 산업 경쟁력 제고 생산성 향상 기능 혁신 등을 통한 새로운 가치 창출
-Business Process 다양한 시스템과 비즈니스 요소들을 넓게 분산되어 있고 Customized되어 있는 복잡하고 역동적인 실체 고객에게 가치를 전달하는 데 필요한 모든 순차적, 병렬적 활동들의 집합
-소셜 네트워크 분석의 활용 사례 사용자 행동 분석 커뮤니티 주요 영향자 분석 사용자 간 링크 예측
-빅데이터 서비스 모델 빅데이터 비즈니스 모델 분석 플랫폼 관점에서 레벨 분류
-데이터 수집 작업을 위한 고려 사항
-전자상거래 사이트에서 발생되는 원천 데이터 일간 API 트래픽 건수 Voice of Customer 처리 현황 전자상거래 사이트 장애 및 처리 내역
-외부 데이터 소셜 데이터 정책 및 시사 토론 사이트에서 발생하는 데이터 장비들 사이에서 발생하는 센서 데이터 경제, 의료, 정책, 과학 등 공공 LOD 데이터
-외부 데이터 수집 특정 기관의 담당자와 협의를 통한 수집 데이터를 제공하는 전문 업체를 통한 수집 ETL 작업을 위한 솔루션 구매 비용을 먼저 고려해야 한다. ETL: Extract(추출) Transform(변환) Load(적재) 외부 데이터 수집 비용 및 난이도는 내부 데이터보다 높다. 외부 조직과 협의하여 데이터를 구매하거나 웹상의 오픈 데이터를 수집하며 일반적으로 외부 환경에 대한 통제가 어려워 별도의 서비스 관리 정책이 요구된다.
-내부 데이터 ERP, CRM 등 서비스 시스템에서 수집된 데이터 네트워크 및 서버 등의 장비에서 수집된 데이터 고객 VOC 접수, 고객 포털 시스템에서 수집된 데이터
-내부 데이터 수집 보통 내부 시스템에 원천 데이터가 존재한다. 조직 내에서 상호 협의를 토대로 데이터를 수집한다. 데이터 수집 시 기술적 제약이 상대적으로 적다.
-반정형 데이터 정형적인 데이터 구조를 따르지 않지만, 어의적 요소(단어나 말의 뜻)를 분리시키고 데이터 내의 레코드와 필드의 계층 구조가 있게 하는 태그나 다른 마커를 포함하는 정형 데이터 HTML, XML, JSON, RSS, 웹로그 등
-정형 데이터 로그 데이터, 업무 처리, 매개 거래, 시계열 데이터, 매출액 등
-정형 데이터 수집 기술 API, ETL, FTP, ODBC(Open Database Connectivity)
-정형 데이터 저장 시스템 Sybase, MS-SQL, Oracle RDB
-비정형 데이터 수집 기술 Crawler, HTTP Protocol 수집, Parsing 기법, RSS(Rich Site Summary)
-비정형 데이터 사전에 정의된 데이터 분석 모델을 가지고 있지 않으며 데이터의 구조와 형태가 데이터마다 다르고 정형화되지 않은 문서, 영상, 음성 등을 주로 의미한다. 도서, 저널, 문서, 메타 데이터, 건강기록, 아날로그 데이터, 이미지, 파일 이메일 본문, 웹페이지, 워드 문서, 채팅, 단문메시지, 블로그, 트위터, 페이스북, 카톡 등
-Cube Data 특정시간 동안 저장된 로그 데이터 정보
-JSON Javascript Object Notation 자바스크립트를 위해 객체 형식으로 자료를 표현하는 경량의 데이터 교환 방식
-Data Warehouse 전사적인 차원에서 대규모로 데이터를 구축하는 저장소 데이터웨어하우스를 구축하기 위하여 다양한 데이터 변환 도구를 활용하며 ETL 과정을 수행하고 소스 데이터로부터 데이터를 받아 웨어하우스에 적재한다.
-Data Mart 소규모로 분할하여 구축, 이용하는 자료 저장소 전사적으로 구축된 데이터웨어하우스로부터 특정 주제, 부서 중심으로 구축된 소규모 단일 주제의 데이터웨어하우스 주제별로 데이터 마트를 구축하여 사용한다.
-EAI Enterprise Application Integration 기업 내 또는 기업 간의 정보 연계를 위하여 사용되는 기술로 통합적으로 데이터를 관리한다.
-데이터베이스 상호관계가 있는 자료들을 하나의 통합된 저장소에 논리적으로 저장한 것
-Web Mining 인터넷을 이용한 웹서비스의 다양한 패턴을 발견하기 위해 사용된다. 웹로그를 이용하여 사용자가 언제 접속하고 어떤 경로를 거쳐 제품을 조회하고 구매했는지를 분석한다. 방문자에 대한 시간, 방문 페이지 정보, 사용 기기 및 브라우저 등의 정보를 얻을 수 있다. 주요기술
-데이터 품질 점검 항목 데이터의 분량, 완전성, 일관성, 정확성
-Mongo DB NoSQL 저장 시스템 반정형, 비정형 데이터를 저장하기에 적합 오픈소스 DBMS로서 Embedded Data Model 지원 Join 연산 필요 없음 빠른 질의 처리 위한 인덱스 지원 분산 시스템 환경에서 자동 Failover 지원 자동 Sharding 지원 중복된 데이터 집합에 대한 일관적인 읽기 기능 지원 라이브러리용 드라이버 지원 우수한 질의 인터페이스
-CouchDB View 개념을 자주 이용하는 경우 활용
-Sharding 샤딩 데이터 저장 및 관리 시 높은 성능과 가용성을 보장한다. NoSQL에서 주로 사용, 기존 관계형 데이터베이스 시스템에서 파티셔닝 개념과 동일하다.
-Config 서버 MongoDB 사용하여 Sharding 기법을 적용하는 경우 샤드 클러스터의 메타 데이터를 저장하는 서버
-NoSQL 대용량 데이터베이스를 저장하기 위하여 전통적인 RDBMS보다 상대적으로 제한이 적은 데이터 모델을 기반으로 수평적 확장성, 데이터 복제, 간편한 API, 일관성 보장 등의 장점을 갖는다. Mongo DB, Cassandra, HBase 등 저장방식 Key-value Database: 키와 해당 키 값의 쌍으로 저장하는 데이터 모델(아마존의 Dynamo)
-데이터베이스 용어
-분산파일시스템 저사양의 서버들을 활용하여 대용량, 분산, 데이터 집중형의 애플리케이션을 지원하며, 사용자들에게 고성능의 Fault-tolerant 환경을 제공한다. HDFS, GoogleFs 빅데이터를 확장 가능한 분산파일 형태로 저장한다.
-RDBMS Relational Database Management System 관계형 데이터베스 시스템을 이용하며, 주로 정형 데이터를 저장하고 기존에 운영 중이던 Legacy 시스템으로 부터 수집, 추출한 데이터를 대량으로 저장할 때 많이 이용된다.
-빅데이터를 저장, 처리하기 위한 하드웨어 설계 방법
-클라우드 컴퓨팅 서비스 SaaS, PaaS, IaaS
-Cloud File System 클라우드 컴퓨팅 환경에서 가상화 기술을 이용한 Distributed File System으로 불린다.
-Hadoop 데이터 배치 처리 아파치 소프트웨어 재단에서 관리 대규모 분산처리 프레임워크 Google File System(GFS), MapReduce 기반으로 둔 클론 소프트웨어 수집된 데이터를 저장하기 위해 HDFS(Hadoop File System)을 사용한다.
-HDFS 분산파일시스템으로 활용한다.
-YARN Yet-Another-Resource-Negotiator Hadoop의 Mapreduce 처리 부분을 새롭게 만든 자원 관리 플랫폼
리소스 매니저에 노드를 요청하여 컨테이너를 동작시킨다.
-MapReduce 데이터 처리 과정
-GPGPU General Purpose Computing on Graphics Processing Unit 그래픽 처리 장치(GPU)를 전통적으로 중앙처리장치(CPU)가 맡았던 응용 프로그램들의 계산에 사용하는 기술 그래픽 가속기의 중심인 화상처리 장치의 성능이 중요시되면서 출현 이미지 연산 처리에 특화됨 별도의 메모리를 사용하기도 함 CUDA 통합 개발 환경 이용 머신러닝과 딥러닝을 이용한 이미지, 음성 인식 등에 활용 -EC2 Elastic Computer Cloud 안전하고 크기 조정이 가능한 컴퓨팅 파워를 클라우드에서 제공하는 웹서비스로서 개발자가 더 쉽게 웹 규모의 클라우드 컴퓨팅 작업을 할 수 있도록 설계되었다. - 빅데이터와 비즈니스 모델 (1) 빅데이터 활용 사례 구글 검색 기능, 월마트 매출 향상, 질병 예후 진단 등 의료분야, 실시간 교통정보 수집, 기후정보, 각종 지질활동, 국가 안전 확보 활동, 정치인과 연예인의 SNS 활용 등 (2) 7가지 빅데이터 활용 기본 테크닉 ① 연관규칙 학습(Association rule learning) : 변인 간에 상관관계 유무 파악 ② 유형분석 (Classification tree Analysis) : 범주 분류 ③ 유전 알고리즘 (Generic algorithms) : 최적화 필요한 문제 해결책을 자연선택, 돌연변이 등과 같은 매커니즘 통해 점진적으로 진화 i.g. 최대 시청률 얻기 위해 어떤 프로그램 어떤 시간대에 배치, 택배 차량 배치 등 ④ 기계 학습 (Machine Learning) : 알려진 특성을 활용 '예측'에 초점 ⑤ 회귀분석 (Regression analysis) : 독립변수 변화 -> 종속변수 변화 확인 -> 변인관계 파악 i.g. 구매자 나이와 차량 타입의 관계 ⑥ 감정분석 (Sentiment analysis) : 특정 주제에 대한 말이나 글의 감정 분석 i.g. 고객 평가 ⑦ 소셜 네트워크 분석(Social network analysis) : 인플루언서 파악, 영향력 파악, 소셜 관계 파악
|
다음 | [한국금융 21.08] 신한카드, '데이터 거버넌스팀' 신설…데이터 경제 선도 |
---|---|
이전 | [노컷뉴스 21.08] 부산시, 데이터산업 생태계 조성에 627억원 투입 |