3. 데이터베이스 구축 - 데이터 전환
120. 데이터 전환 (ETL)
: 운영 중인 기존 정보 시스템에 축적되어 있는 데이터를 추출(Extract)해 개발할 정보 시스템에서 운영 가능하도록 변환(Transform)한 뒤, 적재(Load)하는 일련의 과정
- 각 주요 과정의 이름을 이용해 추출, 전환, 적재 과정이라고도 함
- 데이터 이행(Data Migration) 또는 데이터 이관이라고도 함
121. 데이터 전환 계획서
: 데이터 전환이 필요한 대상을 분석하여 데이터 전환 작업에 필요한 모든 계획을 기록하는 문서
- 데이터 전환 계획서의 주요 항목
1. 데이터 전환 개요
- 항목
- 데이터 전환 목표 : 간단하고 명료하게 정의
- 주요 성공 요인 : 데이터 전환의 성공적 완수를 위해 필요한 주요 요인
- ex) 프로젝트 일정 계획에 따른 품질관리 활동 실시, etc.
- 데이터 전환 작업 시의 전제 조건 및 제약 사항
2. 데이터 전환 대상 및 범위
: 단위 업무별로 데이터 전환 대상 정보와 해당 업무에 사용되는 테이블 수, 데이터 크기를 기술
3. 데이터 전환 환경 구성
- 항목
- 원천 시스템/목적 시스템 구성도 : 서버, 스토리지, 네트워크 등을 포함한 구성도를 작성
- 전환 단계별 디스크 용량 산정 : 전환 검증, 시험, 본 전환의 단계별로 요구되는 파일 공간과 DB공간을 산정
4. 데이터 전환 조직 및 역할
: 데이터 전환을 수행하고 그 결과를 검증할 작업자를 명세, 작업자별 역할을 상세히 기술
5. 데이터 전환 일정
: 데이터 전환 및 검증 작업별로 상세하게 일정을 수립하여 작성
- 효과적인 의사소통과 일정 관리를 위해 도식화하여 작성
6. 데이터 전환 방안
-항목
- 데이터 전환 규칙 : 데이터 전환 과정에서 공통으로 적용할 규칙과 그 설명을 기술
- ex) 본 전환 시 동시 수행 프로세스 수, DDL 수행 성능 강화, DW 초기 적재 시 분산 처리 성능 강화
- 데이터 전환 절차 : 데이터 전환의 각 절차를 체계적이고 상세하게 기술하고 데이터 흐름도를 작성
- 데이터 전환 방법 : 단위 업무별 데이터 전환 방법을 전제 조건과 함께 기술
- 데이터 전환 설계
- 업무별로 전환 대상과 전환 제외 대상을 기술
- 원천 시스템 테이블과 목적 시스템 테이블의 매핑 정의서 작성
- 전환 프로그램 개발 계획 및 테스트 계획
- 전환 프로그램은 목록별로 프로그램 입력 정보, 중간 생성 정보, 출력 정보, 담당자 등을 작성
- 전환할 세부 데이터 항목을 전환 프로그램 목록별로 작성
- 전환 프로그램 테스트는 체크리스트를 기반으로 실시하고 실시 결과를 전환 시나리오에 반영
- 전환 프로그램 계획 : 선 전환/본 전환/후 전환으로 분리해 계획 수립
- 대용량 데이터 테이블은 사전에 전환
- 본 전환에 대한 세부 절차는 시간대별로 상세히 작성
- 본 전환 이후에 전환을 수행해도 되는 대상을 정의하고 후 전환 계획 수립
- 전환 작업별로 전환 시나리오 작성
- 데이터 검증 방안 : 데이터 전환 이후 정합성 검증과 예상 문제 대응을 위해 전환 단계별 검증 방안 수립
123. 데이터 검증
: 원천 시스템의 데이터를 목적 시스템의 데이터로 전환하는 과정이 정상적으로 수행되었는지 여부를 확인하는 과정
1) 데이터 전환 검증의 분류
- 검증 방법에 따라
- 로그 검증 : 전환 과정에서 작성하는 추출, 전환, 적재 로그를 검증
- 기본 항목 검증 : 로그 검증 외 별도 요청 항목에 대해 검증
- 응용 프로그램 검증 : 응용 프로그램을 이용해 정합성 검증
- 응용 데이터 검증 : 사전에 정의된 업무 규칙을 기준으로 정합성 검증
- 값 검증 : 숫자 항목의 합계, 코드 데이터의 범위, 속성 변경에 따른 값 등을 검증
- 검증 단계에 따라
124. 오류 데이터 측정 및 정제
- 고품질의 데이터 운영 및 관리를 위해 원천 데이터 및 전환된 데이터의 품질을 분석하고 오류를 파악해서 데이터 정제 작업을 수행하는 과정
데이터 품질 분석 | ▶ | 오류 데이터 측정 | ▶ | 오류 데이터 정제 |
1. 데이터 품질 분석
: 오류 데이터를 찾기 위해 원천 및 목적 시스템 데이터의 정합성 여부를 확인
- 원천 시스템 데이터의 정합성 항목
- 필수 항목에 해당하는 데이터가 모두 있는가?
- 데이터의 유형을 올바르게 관리되는가?
- 업무 규칙에 위배되는 정보는 없는가?
- 보고서의 값과 실제 데이터 값이 일치하는가?
- ...
- 목적 시스템 데이터의 정합성 항목
- 보고서 항목 및 통계 수치
- 샘플링을 통한 항목 확인
- ...
2. 오류 데이터 측정
: 데이터 품질 분석을 기반으로 정상 데이터와 오류 데이터의 수를 측정하여 오류 관리 목록을 작성
- 정상 데이터 : 전환 대상 범위의 데이터를 업무 영역별, 테이블별로 구분하여 수량을 측정
- 오류 데이터 : 업무별로 오류의 위치와 유형을 확인해 수량을 측정
3. 오류 데이터 정제
: 오류 관리 목록의 각 항목을 분석하여 원천데이터를 정제하거나 전환 프로그램을 수정
- 오류 데이터 분석
: 오류 관리 목록 내 각 오류 데이터를 분석하여 오류 상태, 심각도, 해결 방안을 확인
- 오류 상태
- Open : 오류가 보고만 되고 아직 분석되지 않음
- Assigned : 개발자에게 오류를 전달함
- Fixed : 개발자가 오류를 수정함
- Closed : 수정된 오류에 대해 테스트를 재수행하여 오류가 발견되지 않음을 확인
- Deferred : 오류 수정을 연기
- Classified : 담당자들이 보고된 오류가 오류가 아님을 확인
- 심각도
- 상 : 데이터 전환을 수행할 수 없는 오류
- 중 : 데이터 전환 전반에 영향을 미치는 오류
- 하 : 데이터 전환에 직접적인 영향은 없으나, 상황에 맞지 않는 용도 및 배치 오류
- 해결 방안
- 수정 가능한 오류의 경우 오류의 해결 방안 작성
- 수정 불가능한 오류의 경우 고객과의 협의 결과 작성
- 오류 데이터 정제
: 확인된 오류 데이터 분석을 통해 원천 데이터를 정제하거나 전환 프로그램을 수정
125. 데이터 정제 요청서 및 정제 보고서
1) 데이터 정제 요청서
: 원천 데이터의 정제와 전환 프로그램의 수정을 위해 데이터 정제와 관련된 전반적인 내용을 작성한 문서
- 오류 관리 목록을 기반으로 데이터 정제 요건 목록 작성
- 데이터 정제 요건 목록의 항목별로 데이터 정제 요청서 작성
1. 데이터 정제 요건 목록
: 오류 관리 목록의 각 항목에 대해 정제 유형을 분류하고 현재의 정제 상태를 정의한 것
- 정제 유형
- 완전성 : 업무상 반드시 필요한 자료의 누락 ex) 학생 정보에 학번이 누락된 경우
- 유효성 : 항목의 값이 유효하지 않음 ex) 생년월일이 현재 날짜 이후인 경우
- 일치성 : 상호 관련있는 항목이 서로 다름 ex) 생년월일과 나이가 일치하지 않는 경우
- 유일성 : 서로 달라야하는 항목의 값이 동일함 ex) 서로 다른 학생의 학번이 같은 경우
- ....
- 정제 방법
- 원천 : 원천 데이터의 정제가 필요
- 전환 : 전환 프로그램의 수정이 필요
- 모두 : 원천 데이터 정제와 전환 프로그램 수정이 필요
- 상태 : 정제 진행 상태 ex) 요건 제기, 검토, 조치, 확인, etc.
2. 데이터 정제 요청서
: 발생한 오류의 수정을 위한 정제 요청의 전반적인 내용을 해결 방안과 함께 작성한 문서
- 예시 항목
- 정제 ID (정제 ID, 정제 제목, 정제 유형 및 상태, 관련 테이블, etc.)
- 데이터 정제 요청 (요건 요청 팀 및 요청자, 요청일자, 세부 요청 내용, etc.)
- 데이터 정제 검토 (1차/2차/3차 검토 내용)
3. 데이터 정제 보고서
: 데이터 정제 요청서를 기반으로 원천 데이터가 정상적으로 정제되었는지 확인한 결과를 작성한 문서
- 정제 요청 데이터와 정제된 데이터 항목을 직접 비교하여 확인
- 정제된 데이터를 데이터 전환 프로그램을 이용해 전환한 후 오류 발생 여부 확인 및 목적 데이터베이스에 저장된 데이터 확인
- 정제된 데이터의 확인 결과를 반영한 데이터 정제 보고서를 정제 ID별로 작성
- 이외 오류 데이터의 원인. 실제 데이터 정제 건수, 향후 대응 방안 등 포함