인증대상
구분 | 세부내용 |
정형 데이터 |
|
반정형 데이터 |
|
비정형 데이터 |
|
준비사항
구분 | 세부내용 | |
데이터 베이스 / 데이터 세트 | 테이블 정의서 | 테이블명, 엔티티 정보등을 정의한 문서 |
컬럼 정의서 | 컬럼 정보를 정의한 문서 | |
코드 정의서 | 컬럼에 기재된 각 코드 정보를 정의한 문서 | |
ERD(객체관계도) | 각 엔티티 간의 관계도 | |
컬럼에 적용된 도메인 규칙 및 업무 규칙 | 각 컬럼별로 연관성을 분석 할 수 있는 문서 | |
데이터 파일 | 컬럼 정의서 | 컬럼 정보를 정의한 문서 |
코드 정의서 | 컬럼에 기재된 각 코드 정보를 정의한 문서 | |
컬럼에 적용된 도메인 규칙 및 업무규칙 | 각 컬럼별로의 연관성을 분석할 수 있는 문서 | |
Ai학습데이터 | 데이터 소개서 | 데이터 소개내용, 객체데이터의 출처 등이 표기된 문서 |
항목정의서 | 데이터의 일반사항(유형,용량 등), 메타데이터 등이 표기된 문서 |
심사항목
구분 | 데이터 품질기준 | 심사항목명 | 설명 |
필수 심사항목 | 완전성 | 데이터 값 완전성 | 레코드 내 데이터 아이템의 완전성 |
레코드 완전성 | 데이터 파일 내 레코드의 완전성 | ||
유효성 | 구문 유효성 | 도메인에 정의된 값·집합에 대한 근접 비율 | |
의미 유효성 | 의미론적 측정에서 데이터 값의 정확도 비율 | ||
범위 정확성 | 최대값 또는 최소값 내에 존재하는 정도 | ||
관계 유효성 | 컬럼과 컬럼 간 존재하는 관계 규칙의 준수 정도 | ||
일관성 | 참조 무결 일관성 | 참조 관계에 있는 테이블 간 데이터 일관성 | |
선택 심사항목 | 유효성 | 데이터 값 정밀성 | 명세서에 따른 데이터 포맷의 정밀성 |
일관성 | 데이터 포맷 일관성 | 데이터 표현 형식이 표준화되어 일관된 정도 | |
공통 어휘 일관성 | 데이터 사전에 정의된 공통 어휘의 사용 일관성 | ||
정확성 | 메타 데이터 정확성 | 메타 데이터 내용을 정확하게 정의한 정도 | |
데이터 값 정확성 | 기대되는 데이터 값과 실제 데이터 값의 일치성 | ||
접근성 | 표준 기반 데이터 접근성 | 값과 포맷이 표준, 협약, 규정에 부합하는 정도 | |
유일성 | 데이터 값 유일성 | 중복이 허용되지 않는 값들이 유일한 정도 |
구분 | 데이터 품질기준 | 심사항목명 | 설명 |
필수 심사항목 | 완전성 | 데이터파일 레코드완전성 | 요구명세서나 상품 설명서에 기술된 데이터의 수 대비 실제 데이터 비율 |
레코드 완전성 | 데이터 세트에 빈 데이터 아이템이 없는 데이터 레코드의 비율 | ||
메타 데이터 값 완전성 | 비정형 객체에 대한 메타 데이터 내 필수 항목이 Not Null인 데이터의 비율 | ||
유효성 | 데이터 구조 구문 유효성 | 비정형 객체에 대한 메타데이터나 라벨링 데이터의 구조가 정의된 구조에 적합한 데이터의 비율 | |
데이터 포맷 유효성 | 비정형 객체가 정의된 파일의 포맷에 적합한 데이터 비율 | ||
파일 유효성 | 비정형 객체 중 실제 활용할 수 있는 파일의 비율 | ||
정확성 | 구문 정확성 | 비정형 객체에 대한 메타데이터나 라벨링 데이터 내 속성(컬럼)값이 명세서 기준 구문적으로 정확한 값을 갖는 데이터 아이템의 비율 | |
메타 데이터 정확성 | 비정형 객체의 메타 데이터의 값이 정확한 비율 | ||
유일성 | 객체 유일성 | 동일한 객체 데이터가 존재하는 비율 | |
선택 심사항목 | 완전성 | 어노테이션 완전성 | 학습용 데이터의 경우, 객체 데이터에 라벨이 존재하는 비율 (학습용 데이터의 경우 필수 항목으로 적용) |
특징 완전성 | 데이터 세트의 지정(요구)된 특징에 대하여 null 데이터 값이 없는 데이터 아이템의 비율 | ||
유효성 | 관계 유효성 | 비정형 객체의 속성과 메타데이터/어노테이션 데이터의 속성들 간의 규칙이 존재하는 경우, 규칙에 맞는 데이터 아이템의 비율 | |
데이터 값 정밀성 | 데이터 명세서에 요구되는 정밀도 만족하는 데이터 값의 비율 | ||
데이터 속성 유효성 | 비정형 객체 데이터의 속성이 기준에 적합한 비율 | ||
범위 유효성 | 메타데이터 또는 어노테이션 데이터의 속성 값이 요구되는 범위 안에 포함되는 비율 | ||
시간 유효성 | 비정형 객체 데이터의 생성 또는 수집 시간이 기준 시간을 만족하는 비율 | ||
어노테이션 유효성 | 학습데이터의 경우, 어노테이션 데이터의 어노테이션 값이 기준을 만족하는 비율(예: 바운딩박스 크기, 정해진 카테고리 또는 라벨링 기준 등) | ||
일관성 | 공통 어휘 일관성 | 데이터 사전에 정의된 용어(terms)로 사용되는 공통 인식 어휘 비율 | |
데이터 포맷 일관성 | 동일한 데이터 아이템의 데이터 포맷을 준수하는 데이터 아이템 비율 | ||
정확성 | 어노테이션 정확성 | 학습 데이터의 경우, 어노테이션 데이터가 정확한 비율 | |
주제 정확성 | 비정형 객체가 주어진 주제(컨텍스트)를 반영하는 비율 | ||
접근성 | 데이터 포맷 접근성 | 일반적인 데이터 포맷으로 의도된 사용자가 데이터나 정보에 접근할 수 비율 | |
표준기반 데이터 접근성 | 표준, 협약 또는 규정에 부합해야 하는 전체 데이터 아이템의 비율 | ||
유일성 | 레코드 유일성 | 데이터 세트의 중복 레코드 비율 |
인증기준
판정기준
- 데이터 구성의 복잡도에 따라 데이터 유형을 구분
데이터 유형 | 기준 |
Complex-Type | 필수 항목 모두 적용, 선택 항목 3개 이상 적용 |
Normal-Type | 필수 항목 모두 적용, 선택 항목 3개 미만 적용 |
Simple-Type | 필수 항목 일부 적용 |
- 심사 결과 데이터 품질에 따라 등급 구분
데이터 유형 | 기준 |
Class A | 데이터 품질 점수(정합율) 0.99 이상 |
Class B | 데이터 품질 점수(정합율) 0.97 이상 |
Class C | 데이터 품질 점수(정합율) 0.95 이상 |
서울시 금천구 가산디지털1로 168 C동 1105호(우림라이온스벨리1차) 데이터품질인증센터 TEL 02-6748-4958 (이창희 상무) / 02-6748-4960 (장종수 주임) FAX 02-2026-3818 E-MAIL dqc@casit.co.kr Copyright CAS Corp. All rights reserved. |