도서 개발 공부/정보 처리 기사 필기

3. 데이터베이스 구축 - 데이터 전환

캐티시 2022. 4. 9. 22:01

120. 데이터 전환 (ETL)

: 운영 중인 기존 정보 시스템에 축적되어 있는 데이터를 추출(Extract)해 개발할 정보 시스템에서 운영 가능하도록 변환(Transform)한 뒤, 적재(Load)하는 일련의 과정

  • 각 주요 과정의 이름을 이용해 추출, 전환, 적재 과정이라고도 함
  • 데이터 이행(Data Migration) 또는 데이터 이관이라고도 함

데이터 웨어 하우스에서의 데이터 전환 과정


121. 데이터 전환 계획서

: 데이터 전환이 필요한 대상을 분석하여 데이터 전환 작업에 필요한 모든 계획을 기록하는 문서

 

- 데이터 전환 계획서의 주요 항목

 

1. 데이터 전환 개요

- 항목

  • 데이터 전환 목표 : 간단하고 명료하게 정의
  • 주요 성공 요인 : 데이터 전환의 성공적 완수를 위해 필요한 주요 요인
    • ex) 프로젝트 일정 계획에 따른 품질관리 활동 실시, etc.
  • 데이터 전환 작업 시의 전제 조건 및 제약 사항

 

2. 데이터 전환 대상 및 범위

: 단위 업무별로 데이터 전환 대상 정보와 해당 업무에 사용되는 테이블 수, 데이터 크기를 기술

 

3. 데이터 전환 환경 구성

- 항목

  • 원천 시스템/목적 시스템 구성도 : 서버, 스토리지, 네트워크 등을 포함한 구성도를 작성
  • 전환 단계별 디스크 용량 산정 : 전환 검증, 시험, 본 전환의 단계별로 요구되는 파일 공간과 DB공간을 산정

 

4. 데이터 전환 조직 및 역할

: 데이터 전환을 수행하고 그 결과를 검증할 작업자를 명세, 작업자별 역할을 상세히 기술

 

5. 데이터 전환 일정

: 데이터 전환 및 검증 작업별로 상세하게 일정을 수립하여 작성

  • 효과적인 의사소통과 일정 관리를 위해 도식화하여 작성

 

6. 데이터 전환 방안

-항목

  • 데이터 전환 규칙 : 데이터 전환 과정에서 공통으로 적용할 규칙과 그 설명을 기술
    • ex) 본 전환 시 동시 수행 프로세스 수, DDL 수행 성능 강화, DW 초기 적재 시 분산 처리 성능 강화
  • 데이터 전환 절차 : 데이터 전환의 각 절차를 체계적이고 상세하게 기술하고 데이터 흐름도를 작성

데이터 전환 절차의 예시

  • 데이터 전환 방법 : 단위 업무별 데이터 전환 방법을 전제 조건과 함께 기술
  • 데이터 전환 설계
    • 업무별로 전환 대상과 전환 제외 대상을 기술
    • 원천 시스템 테이블과 목적 시스템 테이블의 매핑 정의서 작성
  • 전환 프로그램 개발 계획 및 테스트 계획
    • 전환 프로그램은 목록별로 프로그램 입력 정보, 중간 생성 정보, 출력 정보, 담당자 등을 작성
    • 전환할 세부 데이터 항목을 전환 프로그램 목록별로 작성
    • 전환 프로그램 테스트는 체크리스트를 기반으로 실시하고 실시 결과를 전환 시나리오에 반영
  • 전환 프로그램 계획 : 선 전환/본 전환/후 전환으로 분리해 계획 수립
    • 대용량 데이터 테이블은 사전에 전환
    • 본 전환에 대한 세부 절차는 시간대별로 상세히 작성
    • 본 전환 이후에 전환을 수행해도 되는 대상을 정의하고 후 전환 계획 수립
    • 전환 작업별로 전환 시나리오 작성
  • 데이터 검증 방안 : 데이터 전환 이후 정합성 검증과 예상 문제 대응을 위해 전환 단계별 검증 방안 수립

123. 데이터 검증

: 원천 시스템의 데이터를 목적 시스템의 데이터로 전환하는 과정이 정상적으로 수행되었는지 여부를 확인하는 과정

 

1) 데이터 전환 검증의 분류

- 검증 방법에 따라

  • 로그 검증 : 전환 과정에서 작성하는 추출, 전환, 적재 로그를 검증
  • 기본 항목 검증 : 로그 검증 외 별도 요청 항목에 대해 검증
  • 응용 프로그램 검증 : 응용 프로그램을 이용해 정합성 검증
  • 응용 데이터 검증 : 사전에 정의된 업무 규칙을 기준으로 정합성 검증
  • 값 검증 : 숫자 항목의 합계, 코드 데이터의 범위, 속성 변경에 따른 값 등을 검증

 

- 검증 단계에 따라


124. 오류 데이터 측정 및 정제

- 고품질의 데이터 운영 및 관리를 위해 원천 데이터 및 전환된 데이터의 품질을 분석하고 오류를 파악해서 데이터 정제 작업을 수행하는 과정

데이터 품질 분석 오류 데이터 측정 오류 데이터 정제     

 

1. 데이터 품질 분석

: 오류 데이터를 찾기 위해 원천 및 목적 시스템 데이터의 정합성 여부를 확인

  • 원천 시스템 데이터의 정합성 항목
    • 필수 항목에 해당하는 데이터가 모두 있는가?
    • 데이터의 유형을 올바르게 관리되는가?
    • 업무 규칙에 위배되는 정보는 없는가?
    • 보고서의 값과 실제 데이터 값이 일치하는가?
    • ...
  • 목적 시스템 데이터의 정합성 항목
    • 보고서 항목 및 통계 수치
    • 샘플링을 통한 항목 확인
    • ...

 

2. 오류 데이터 측정

: 데이터 품질 분석을 기반으로 정상 데이터와 오류 데이터의 수를 측정하여 오류 관리 목록을 작성

  • 정상 데이터 : 전환 대상 범위의 데이터를 업무 영역별, 테이블별로 구분하여 수량을 측정
  • 오류 데이터 : 업무별로 오류의 위치와 유형을 확인해 수량을 측정

 

3. 오류 데이터 정제

: 오류 관리 목록의 각 항목을 분석하여 원천데이터를 정제하거나 전환 프로그램을 수정

 

- 오류 데이터 분석

: 오류 관리 목록 내 각 오류 데이터를 분석하여 오류 상태, 심각도, 해결 방안을 확인

  • 오류 상태
    • Open : 오류가 보고만 되고 아직 분석되지 않음
    • Assigned : 개발자에게 오류를 전달함
    • Fixed : 개발자가 오류를 수정함
    • Closed : 수정된 오류에 대해 테스트를 재수행하여 오류가 발견되지 않음을 확인
    • Deferred : 오류 수정을 연기
    • Classified : 담당자들이 보고된 오류가 오류가 아님을 확인
  • 심각도
    • 상 : 데이터 전환을 수행할 수 없는 오류
    • 중 : 데이터 전환 전반에 영향을 미치는 오류
    • 하 : 데이터 전환에 직접적인 영향은 없으나, 상황에 맞지 않는 용도 및 배치 오류
  • 해결 방안
    • 수정 가능한 오류의 경우 오류의 해결 방안 작성
    • 수정 불가능한 오류의 경우 고객과의 협의 결과 작성

 

- 오류 데이터 정제

: 확인된 오류 데이터 분석을 통해 원천 데이터를 정제하거나 전환 프로그램을 수정


125. 데이터 정제 요청서 및 정제 보고서

1) 데이터 정제 요청서

: 원천 데이터의 정제와 전환 프로그램의 수정을 위해 데이터 정제와 관련된 전반적인 내용을 작성한 문서

  • 오류 관리 목록을 기반으로 데이터 정제 요건 목록 작성
  • 데이터 정제 요건 목록의 항목별로 데이터 정제 요청서 작성

 

1. 데이터 정제 요건 목록

: 오류 관리 목록의 각 항목에 대해 정제 유형을 분류하고 현재의 정제 상태를 정의한 것

  • 정제 유형
    • 완전성 : 업무상 반드시 필요한 자료의 누락 ex) 학생 정보에 학번이 누락된 경우
    • 유효성 : 항목의 값이 유효하지 않음 ex) 생년월일이 현재 날짜 이후인 경우
    • 일치성 : 상호 관련있는 항목이 서로 다름 ex) 생년월일과 나이가 일치하지 않는 경우
    • 유일성 : 서로 달라야하는 항목의 값이 동일함 ex) 서로 다른 학생의 학번이 같은 경우
    • ....
  • 정제 방법
    • 원천 : 원천 데이터의 정제가 필요
    • 전환 : 전환 프로그램의 수정이 필요
    • 모두 : 원천 데이터 정제와 전환 프로그램 수정이 필요
  • 상태 : 정제 진행 상태 ex) 요건 제기, 검토, 조치, 확인, etc.

 

2. 데이터 정제 요청서

: 발생한 오류의 수정을 위한 정제 요청의 전반적인 내용을 해결 방안과 함께 작성한 문서

 

- 예시 항목

  • 정제 ID (정제 ID, 정제 제목, 정제 유형 및 상태, 관련 테이블, etc.)
  • 데이터 정제 요청 (요건 요청 팀 및 요청자, 요청일자, 세부 요청 내용, etc.)
  • 데이터 정제 검토 (1차/2차/3차 검토 내용)

 

3. 데이터 정제 보고서

: 데이터 정제 요청서를 기반으로 원천 데이터가 정상적으로 정제되었는지 확인한 결과를 작성한 문서

  • 정제 요청 데이터와 정제된 데이터 항목을 직접 비교하여 확인
  • 정제된 데이터를 데이터 전환 프로그램을 이용해 전환한 후 오류 발생 여부 확인 및 목적 데이터베이스에 저장된 데이터 확인
  • 정제된 데이터의 확인 결과를 반영한 데이터 정제 보고서를 정제 ID별로 작성
  • 이외 오류 데이터의 원인. 실제 데이터 정제 건수, 향후 대응 방안 등 포함