Data Mining

최근, 다양한 응용 분야에서 데이타베이스가 대형화됨에 따라 사용자는 의사 결정이나 추진 전략 결정을 위하여 저장된 개별적인 데이타보다는 전체 데이타의 의미와 경향을 이용하고자 하는 움직임을 보이고 있다. 데이타 마이닝(data mining)은 이러한 사용자의 요구를 만족시키기 위하여 데이타베이스내에서 유용한 지식을 찾아내는 작업을 의미하며, 지식 발견(knowledge discovery) 혹은 데이타베이스 탐사(database exploration) 등으로도 불리운다. 데이타 마이닝 분야가 최근 들어 각광을 받고 있는 이유는 70년대에 이르러 데이타베이스 구축된 이후 지속적으로 정보가 축적됨에 따라 현재의 데이타베이스가 대량의 다양한 정보를 함축하고 있기 때문이다. 이러한 거대한 데이타베이스내에서 사용자가 쉽게 예측할 수 없는 전체적인 경향에 해당되는 숨겨져 있는 종합 정보를 추출해 냄으로써 의사 결정의 중요한 자료로서 활용할 수 있다. 데이타 마이닝 분야는 비교적 짧은 역사를 가지지만, 최근 연구 활동이 급속도로 활발해져서 97년도 IEEE Data Engineering Conference, ACM SIGMOD Conference, Very Large Data Bases Conference 등 데이타베이스 분야의 가장 권위있는 세 개의 학술대회에서 전체 논문의 약 10-20%에 해당하는 논문들이 발표되고 있으며, 각종 패널 세션에서 2,000년대의 유망 분야로서 선정되고 있다. 뿐만 아니라 Knowledge Discovery and Data Mining Conference, Data Mining and Knowledge Discovery Journal 등 이 분야만을 전문적으로 다루는 학술대회와 전문 학술지도 계속 출현하고 있어 이 분야의 발전 가능성을 짐작할 수 있다.

데이타 마이닝(data mining)은 연관 규칙(association rules), 순차 패턴(sequential pattern), 일반화 및 요약(generalization and summarization), 분류(classification), 아웃 라이어(outliers), 유사성(similarity)에 대한 마이닝으로 세분화된다. 본 DKE 연구실에서는 이들 중 시계열 데이타베이스(time-series databases)에서의 유사성 마이닝(similarity mining)에 연구의 초점을 맞추고 있다.

시계열 데이타베이스란 시간의 흐름에 따라 변화되는 각 객체에 관한 정보를 차례로 저장한 데이타베이스를 의미하며, 유사성 마이닝은 이러한 순차 데이타베이스내의 객체들 중 시간 흐름에 따르는 변화의 추세가 유사한 객체들의 집합을 찾아내는 작업이다. 예를 들어, 데이타베이스내에 각 기업의 주식에 관한 가격의 변동이 월별로 기록되어 있다고 하자. 저장된 데이타베이스내에서 월별 가격 변동이 유사한 기업들을 파악할 수 있다면, 이는 투자자들에게 매우 유용한 투자 정보가 될 것이다. 이와 같이, 유사성 마이닝은 향후 기업, 은행, 증시, 음악 등 시간의 변화에 따라 함께 변하는 값을 가지는 다양한 응용 분야에서 널리 활용될 것으로 예상된다. 1999년부터 2000년까지 미국 IBM Watson Research Center의 방문 연구, 미국의 UCLA 대학의 Wesley Chu 박사 그룹, 연세대학교 박상현 교수 그룹, 한림대학교 윤지희 교수 그룹과의 공동 연구를 통하여 이 분야의 중요한 신기술들을 창출하고 있다.

< 핵심 기술 >


  • 유사성 마이닝을 위한 전체 프레임워크 정립
    • 정규화 변환 지원
    • 이동 평균 변환 지원
    • 스케일링 및 시프팅 변환 지원
    • 타임 워핑 변환 지원 
       
  • 하부 자료 구조로써 사용되는 인덱싱 기술
    • 다차원 인덱스 지원
    • 인덱스 기반 검색 지원
    • 물리적 데이터베이스 설계 지원 
       
  • 다차원 화일을 이용한 효율적인 마이닝 기술
    • 질의 처리 알고리즘
    • 변환 지원 기술 
       
  • 병렬화 알고리즘의 개발을 통한 성능 개선 기술
    • 클러스터 시스템 기반 서버 아키텍쳐 지원
    • 병렬 알고리즘 지원