본문 바로가기

용어/IT관련

데이터 웨어하우스 [data warehouse, DW]

데이터 웨어하우스의 정의와 특성

데이터 웨어하우스는 1980년대 중반 IBM이 자신이 하드웨어를 판매하기 위해 처음으로 도입했던 개념으로, IBM은 인포메이션 웨어하우스(Informationn Warehouse)라는 용어를 사용하였다. 이후 이 개념은 많은 하드웨어, 소프트웨어 및 툴 공급 업체 들에 의해 이론적, 현실적으로 성장하였으며, 1980년대 후반 Inmon이 데이터 접근 전략으로 데이터 웨어하우스 개념을 사용함으로써 많은 관심과 집중을 받게 되었다.
가장 대표적인 정의는 Inmon(1992)의 것으로 그는 데이터 웨어하우스를 '기억의 의사 결정 과정을 지원하기 위한 주제 중심 적이고 통합적이며 시간성을 가지는 비휘발성 자료의 집합'으로 정의하고 있다. 또한 Kelly(1994)는 전사적 데이터 웨어하우스를 '기업 내의 의사 결정 지원 어플레케이션들을 위한 정보기반을 제공하는 하나의 통합된 데이터 저장공간'으로 정의하고 있다. 이것은 기업 내의 상이한 많은 어플리케이션 들이 동일한 정보를 공유하게 하는 웨어하우스의 측면을 강조하고 있다.

한편 포우(Poe,1994)는 데이터 웨어하우스를 운영시스템과 연계하여 '의사결정 지원에 효과적으로 사용될 수 있도록 다양한 운영 시스템으로부터 추출, 변환, 통합되고 요약된 읽기 전용 데이터베이스'로 정의하고 있다.

이상의 정의들로 보면 데이터 웨어하우스는 의사결정에 필요한 정보처리 기능을 효율적으로 지원하기 위한 통합된 데이터를 가진 양질의 데이터베이스로서, 다음과 같은 특성을 가진다.
  
 
1.  웨어하우스 데이터는 비즈니스 사용자들의 의사결정 지원에 전적으로 이용된다. 즉 웨어하우 스가 존재하는 가장 일차적인 이유는 사용자의 의사결정을 지원하기 위한 것이다. 
2.  기업의 운영시스템과 분리되며, 운영시스템으로부터 많은 데이터가 공급된다. 데이터 웨어하우스는 여러 개의 개별적인 운영시스템으로부터 데이터가 집중된다. 또한 데이터 웨어하우스의 기본적인 자료 구조는 운영시스템의 그것들과 완전히 다르므로 데이터들이 데이터 웨어하우스로 이동되면서 재구조화되어야 한다. 운영시스템과 데이터 웨어하우스는 근본적으로 다르며, 두 개의 매우 상이한 시스템을 요구한다. 데이터 웨어하우스는 이와 같은 논리적인 측면에서뿐만 아니라 물리적인 측면에서도 분리되어야 하는 이유가 있다. 
3.  데이터 웨어하우징은 전사적 모델이 기초하여 통합된다. 기존 운영시스템의 대부분은 항상 많은 부분이 중복됨으로써 하나의 사실에 대해 다수의 버전이 존재하게 된다. 하나의 객체를 지칭하는 다양한 이름이 존재하거나 데이터가 가지는 의미가 서로 다르다. 데이터 웨어하우스에서 이러한 데이터는 전사적인 관점에서 통합된다. 즉 데이터 웨어하우스는 신뢰할 수 있는 하나의 버전 (one version of truth)을 사용자에게 제공한다.
4.  시간성 혹은 역사성을 가진다. 즉 일, 월, 년 회계기간등과 같은 정의된 기간과 관련되어 저장된다. 운영시스템의 데이터는 사용자가 사용하는 매순간 정확한 값을 가진다. 즉 바로 지금의 데이터를 정확하게 가지고 있을 것이 요구된다.반면 웨어하우스의 데이터는 특정 시점을 기준으로 정확하다. 웨어하우스 내의 데이터는 스냅샷 데이터로서 묵시적으로나 명시적으로 시간 항목을 가지며, 장기간에 걸쳐 존재한다. 
5.  주제 중심적이다. 데이터 웨어하우스는 전통적인 데이터베이스와 근본적으로 구분된다. 데이터 웨어하우스는 고객, 제품 등과 같은 중요한 주제를 중심으로 그 주제와 관련된 데이터들로 조직된다. 
6.  컴퓨터 시스템 혹은 자료 구조에 대한 지식이 없는 사용자들이 쉽게 접근할 수 있어야 한다. 
7.  데이터 웨어하우스는 읽기 전용 데이터베이스로서 갱신이 이루어지지 않는다. 운영 시스템 환경에서는 추가·삭제·변경과 같은 갱신작업이 레코드 단위로 지속적으로 발생한다. 웨어하우스 환경에서는 프로덕션 데이터 로드(Production Data Load)와 활용만이 존재하며, 운영시스템에서와 같은 의미의 데이터의 갱신은 발생하지 않는다.
  
 
이러한 이유로 데이터 웨어하우스를 보완하기 위해 데이터 마트의 개념이 나타나게 되었으며, 데이터 마트는 데이터 웨어 하우스 환경을 구성하는 중요한 요소로 자리잡고 있다.

회사의 각 사업부문에서 수집된 모든 데이터(또는 중요한 데이터)에 관한 중앙창고라 할 수 있다. 이 용어는 W.H. Inmon에 의해 처음 사용되었다. 하지만, IBM은 가끔 이 용어 대신에 정보창고라는 의미의 "information warehouse"라는 용어를 쓴다.

아울러 데이터 마이닝이나 의사결정지원시스템(DSS)은 데이터 웨어하우스의 활용이 필요한 응용프로그램 들이다. 

출처 : Tong - kionias님의 IT 관련 정보통

'용어 > IT관련' 카테고리의 다른 글

[펌] 웹에서 한글문제  (0) 2008.08.05
OLAP 란?  (0) 2008.08.05
SOA란 무엇인가?  (0) 2008.06.16
SOA  (0) 2008.06.07
rss  (0) 2008.06.07