본문 바로가기

D.S/DE

220211금 - 데이터웨어하우스 개념

728x90

 

 

  • 개인적인 공부를 위해 짜집기한 글.

위키가 제일 도움이 되었고, 많이 가져왔다.

DW는 하나의 툴이 아니고 데이터분석을 위한 데이터 관리 시스템이라 보면 되겠군..

 

참조

 

 

데이터 웨어하우스란?

  • 비즈니스 인텔리전스(BI) 활동, 특히 분석 작업을 지원하도록 설계된 일종의 데이터 관리 시스템
  • 데이터 웨어하우스는 오로지 쿼리와 분석을 수행하기 위해 개발된 것으로, 주로 대량의 과거 데이터를 포함한다.
  • 데이터 웨어하우스에 있는 데이터는 일반적으로 애플리케이션 로그 파일이나 트랜잭션 애플리케이션과 같은 다양한 출처에서 수집된다
  • 특화된 데이터뿐만이 아니라 기업 활동 전반에 필요한 모든 정보를 일원화해 관리
  • 병렬 서버의 등장과 자기 디스크 장치의 대용량화•저가격화로 인해 가능하게 되었음

 

데이터 웨어하우스의 구성

  • 원시 데이터 계층 - 데이터 웨어하우스 계층 - 클라이언트 계층으로 구성
  • 단순히 저장소가 아닌 데이터만이 아닌 분석 방법까지도 포함하여 조직 내 의사 결정을 지원하는 정보 관리 시스템을 의미

 

애저의 DW : 이미지출처

관리 방법론

경영자의 의사 결정을 지원하는 데이터의 집합체로 4가지 특징을 지님

  • 주제 지향적(subjectoriented)
    • 데이터를 주제별로 구성하여 최종 사용자(end user)와 전산에 약한 분석자라도 이해하기 쉬운 형태로 가공.
    • 운영시스템은 재고 관리, 영업관리 등과 같은 기업운영에 필요한 특화된 기능을 지원하는 데 반해, 데이터 웨어하우스는 고객, 제품 등과 같은 중요한 주제를 중심으로 그 주제와 관련된 데이터들로 조직된다.
    • 기업의 운영시스템과 분리되며, 운영시스템으로부터 많은 데이터가 공급된다. 데이터 웨어하우스는 여러 개의 개별적인 운영시스템으로부터 데이터가 집중된다. 기본적인 자료 구조는 운영시스템과 완전히 다르므로 데이터들이 데이터 웨어하우스로 이동되면서 재구조화되어야 한다. 운영시스템과 데이터 웨어하우스는 근본적으로 다르며, 두 개의 매우 상이한 시스템을 요구한다.
  • 통합적(integrated)
    • 데이터가 데이터 웨어하우스에 들어가면서 일관적인 형태(데이터의 일관된 이름짓기, 일관된 변수 측정, 일관된 코드화 구조 등)로 변환되는 것
    • 신뢰할 수 있는 하나의 버전 (one version of truth) 제공. 기존 운영시스템의 대부분은 항상 많은 부분이 중복됨으로써 하나의 사실에 대해 다수의 버전이 존재하게 된다. 그렇지만 데이터 웨어하우스에서 이러한 데이터는 전사적인 관점에서 통합된다.
  • 시계열적(timevarient)
    • 일정 기간 동안 정확성을 나타냄
    • 일, 월, 년 회계기간등과 같은 정의된 기간과 관련되어 저장된다. 운영시스템의 데이터는 사용자가 사용하는 매순간 정확한 값을 가진다. 즉 바로 지금의 데이터를 정확하게 가지고 있을 것이 요구된다. 반면 웨어하우스의 데이터는 특정 시점을 기준으로 정확하다.
    • 데이터 웨어하우스는 일정한 시간 동안의 데이터를 대변하는 것으로 snap shot과 같다고 할 수 있다. 따라서 데이터 구조상에 '시간이 아주 중요한 요소로 작용한다.
  • 비휘발적(nonvolatile)
    • 데이터가 적재되면 일괄 처리(batch) 작업에 의한 갱신 이외에는 삽입이나 삭제 등의 변경이 수행되지 않음
    • 데이터 웨어하우스는 읽기 전용 데이터베이스로서 갱신이 이루어지지 않는다. 웨어하우스 환경에서는 프로덕션 데이터 로드(Production Data Load)와 활용만이 존재하며, 운영시스템에서와 같은 의미의 데이터의 갱신은 발생하지 않는다.
  • (추가) 쉬운 접근성
    • 컴퓨터 시스템 혹은 자료 구조에 대한 지식이 없는 사용자들이 쉽게 접근할 수 있어야 함. 조직의 관리자들과 분석가들은 그들의 PC로부터 데이터 웨어하우스에 연결될 수 있어야 한다.

 

aws의 내용.

데이터 웨어하우스의 이점

  • 정보에 기반한 의사 결정
  • 여러 소스의 데이터 통합
  • 과거 데이터 분석
  • 데이터 품질, 일관성 및 정확성
  • 트랜잭션 데이터베이스와 분석 처리를 분리하여 두 시스템 모두의 성능을 향상

 

DW, DB, 데이터 레이크(DL)

  • 일반적으로 비즈니스는 데이터베이스, 데이터 레이크 및 데이터 웨어하우스의 조합을 활용하여 데이터를 저장 및 분석함. DW에서는 데이터를 테이블 형식으로 구성을 많이 하지만 꼭 테이블로 저장할 필요는 없다. 빅데이터 분석, 전체 텍스트 검색 및 기계 학습과 같은 일부 애플리케이션에서는 반정형 또는 비정형인 경우에도 데이터에 엑세스할 수 있음
  • DW는 데이터 분석을 위해 특별히 설계되었으며 대량의 데이터를 읽어 데이터 전반에 걸친 관계와 추세를 파악하는 작업이 포함됨.
  • DL는 정형, 반정형 및 비정형 데이터를 비롯한 모든 데이터에 대한 중앙 저장소임.

 

 

 

구축

해시넷 참조

반응형