본문 바로가기
Tech/DAP

데이터 표준화(데이터 표준화 수립)

by Augustine™ 2018. 6. 2.
반응형

데이터 표준 수립


 

1. 데이터 표준화 원칙 정의

 먼저 데이터 표준화 요구 사항을 수집한다. 표준화 요구사항은 인터뷰, 설문조사 등을 통해서 조사를 한다. 이 때, 특정 영역에 대한 데이터 표준 요구 사항을 조사할 때 해당 영역을 오랫동안 관리하여 온 담당자보다는 해당 영역에 대해 익숙치 않은 관련자의 관점이 오히려 더 유용하다. 

그 다음 현행 정보시스템에 적용되어 있는 데이터 표준에 대한 원칙을 수집한다. 주로 개발 지침 문서(객체에 대한 명명 규칙 등)를 통해 수집하며, 수집된 데이터 표준 원칙 자료를 토대로 현행 정보시스템에서 적용하고 있는 데이터 표준 대상 및 관리 항목을 도출한다. 

데이터 표준 개산 방안 정의시, 반드시 전사적인 관점에서 접근하며, 전사적 관리의 필요성을 검토하여 관련 데이터 표준 대상 또는 대상별 관리 항목을 신규로 정의하거나 정의 대상에서 제외한다.

표준화 정의서

1) 공통원칙

  • 관용화된 용어를 우선하여 사용한다. -> 관용화된 용어를 사용함으로써 이해 당사자간 의사소통이 명확해진다.
  • 한글명에 대해 복수개의 영문명을 허용하지 않는다. -> DB 물리명을 정의할 때 여러개의 영문명 선택 시 애매모호해질 수도 있기 때문이다.
  • 한글명, 영문명 부여시 특수문자 사용과 띄어쓰기는 하지 않는다. -> 정보시스템간 데이터 인터페이스 시, 데이터 변환 오류가 발생될 우려가 있다.

2) 표준용어

  • '~일자', '~일' 등 날짜를 의미하는 용어는 '~일자'로 통일한다. -> 동일한 의미의 '날짜'에 대해 '일자'로 통일함으로써 의미 전달이 명확해진다.
  • 용어의 길이는 한글12자, 영문 24자 이내로 제한한다.->DB에 반영할 때 길이에 대한 제약사항이 존재한다.

3) 표준코드

  • 코드 속성 명칭에 대해 맨 끝에 '코드'를 붙여 사용한다. -> 명칭만으로도 코드 속성을 인지할 수 있어 가독성이 좋아진다.
  • 코드는 전사모델에서 유일하게 정의한다.->중복하여 사용할 경우 데이터 중복 및 데이터 불일치가 발생할 수 있기 때문이다.

4) 표준 도메인

  • 표준 도메인은 기본적으로 Number, String, Datetime으로 한다. -> 동일 데이터 유형에 대해 데이터 타입을 일관성 있게 관리해서 데이터 입력 오류를 방지하기 위해서이다.

 

2. 데이터 표준 정의

1) 표준 단어 사전 정의

 기존 데이터 모델 및 용어집을 통해 해당 기관에서 사용되고 있는 모든 단어를 추출한다. 추출된 단어는 단어 종유와 유형을 분류하고 업무 정의 및 용도를 고려하여 표준 단어를 정의한다. 표준 단어 사전을 정의할 경우 이음동의어, 동음이의어 처리에 주의해아 한다. 또한 정의된 표준 단어는 정의된 표준화 원칙을 참고하여 영문명과 영문 약어명을 정의한다.

표준 단어 관리 기준

  • 표준성 : 정보시스템, 일반적인 업무에서 사용되는 단어에서 추출하되, 너무 업무적인 용어의 사용은 최소화해서, 정보시스템 특성에 부합되도록 한다.
  • 일반성 : 일반인도 해당 단어의 의미를 이해할 수 있는 수준이어야 한다.
  • 대표성 : 당연히 표준 단어는 대표성을 가져야 한다.

표준 단어 정의

현행 용어 수집 -> 단어 분할(의미를 갖는 최소 단위로 분할) -> 단어 정련 -> 표준 단어 사전 도출

 2) 표준 도메인 사전 정의

 표준 도메인 관리 기준

  • 표준성 : 전사 차원에서 공통적으로 사용되는 속성을 대상으로 정의한다.
  • 유일성 : 동일한 내용의 중복 도메인이 서로 다른 이름으로 선언되지 않도록 관리한다.
  • 업무 지향성 : 지나치게 일반화하기 보다는 업무의 특성을 충분히 반영할 수 있도록 관리한다.

표준 도메인 정의

  • 가급적이면 업무적으로 의미가 있는 도메인명을 부여한다.
  • 기존 데이터와의 호환성 및 범용성을 위하여 그룹핑된 용어들에게 부여된 데이터 타입 길이 중 가장 큰 데이터 타입 길이를 표준으로 정한다.

 3) 표준 코드 사전 정의

표준 코드 관리 기준

  • 재사용성 : 표준 코드는 정부, 공공기관에서 정의한 코드를 재사용하는 것이 더 효과적이다.
  • 일관성 : 코드는 업무 범위 내에서 가능한 유일하게 정의되어야 한다.
  • 정보 분석성 : 가능한 범위의 데이터는 모두 코드화하여 관리한다.

표준 코드 정의

  • 현행 코드 수집 : 단독 코드 테이블, 통합코드 테이블, 애플리케이션 등에서 수집한다.
  • 현행 코드 상세 분석 : 수집한 코드를 비교 분석하여, 통합 가능한지 판단한다.
  • 표준 코드 정의 : 분석을 통해 식별된 통합 대상 코드의 코드 인스턴스를 정련하여 통합한다.

4) 표준 용어 사전

표준 용어 관리 기준

  • 표준성 : 표준으로 사용되는 용어를 우선하여 사용한다.(전사 차원의 혼란을 최소화 할 수 있다.)
  • 일반성 : 지나치게 업무 지향적인 용어는 자제해야 한다.
  • 업무지향성 : 업무 범위 내에서 약어를 사용하거나 별도로 정의하여 사용할 수 있다.

 

반응형

댓글