인증대상

  • 데이터 내용 인증은 데이터의 내용과 구조를 일정한 품질 기준에 따라 심사하고 수준을 평가하여 인증함. 데이터베이스, 데이터세트의 데이터 내용 인증을 수행하는 경우 데이터 구조를 인증 심사범위에 포함함.
  • 데이터 내용 인증의 대상 데이터 유형은 정형데이터, 반정형데이터, 비정형로 구분하고 각 데이터 유형별 특징에 따라 인증 심사 기준, 절차, 방법을 정의함.
구분세부내용
정형
데이터
  • (데이터 대상) 데이터 형식과 구조가 명확하여 데이터 검색, 선택, 갱신, 삭제 등의 연산수행이 용이
  • (데이터 예시) 고정된 컬럼에 저장되는 테이블(관계형 데이터베이스), 행과 열로 데이터 속성이 정의되어 있는 스프레드시트, 콤마로 구조가 결정되는 CSV 데이터 등
반정형
데이터

  • (데이터 특징) 데이터의 구조 정보를 데이터 내용과 함께 제공하는 파일 형식의 데이터로서 데이터의 구조와 형식 확장 용이
  • (데이터 예시) HTML(HyperText Markup Language), XML(eXtensible Markup Language), JSON(JavaScript Object Notation), RDF(Resource Description Framework) 등
비정형
데이터
  • (데이터 특징) 명확한 형식과 구조가 존재하지 않는 데이터로, 데이터 내용 인증에 적용하는 비정형데이터는 비정형 객체와 객체를 정의하는 메타데이터로 구성
  • (객체 예시) 미디어 파일(동영상 파일, 오디오 파일, 이미지 파일 등), 문서 파일(word, ppt, pdf 등), 로그 파일, 구조화되지 않은 텍스트, SNS 게시글, 이메일 본문 등

준비사항

구분세부내용
데이터 베이스
/
데이터 세트

테이블 정의서
테이블명, 엔티티 정보등을 정의한 문서
컬럼 정의서컬럼 정보를 정의한 문서
코드 정의서컬럼에 기재된 각 코드 정보를 정의한 문서
ERD(객체관계도)각 엔티티 간의 관계도
컬럼에 적용된 도메인 규칙 및 업무 규칙각 컬럼별로 연관성을 분석 할 수 있는 문서
데이터 파일컬럼 정의서컬럼 정보를 정의한 문서
코드 정의서컬럼에 기재된 각 코드 정보를 정의한 문서
컬럼에 적용된 도메인 규칙 및 업무규칙각 컬럼별로의 연관성을 분석할 수 있는 문서
Ai학습데이터데이터 소개서
데이터 소개내용, 객체데이터의 출처 등이 표기된 문서
항목정의서
데이터의 일반사항(유형,용량 등), 메타데이터 등이 표기된 문서

심사항목


  • 과학기술정보통신부에서 제정한 「데이터 산업진흥 및 이용 촉진에 관한 기본법」에 지정된 품질기준 따라 심사하여 인증합니다.
-데이터 내용(정형 데이터) 심사항목
구분데이터
품질기준
심사항목명
설명
필수
심사항목
완전성데이터 값 완전성레코드 내 데이터 아이템의 완전성
레코드 완전성
데이터 파일 내 레코드의 완전성
유효성구문 유효성
도메인에 정의된 값·집합에 대한 근접 비율
의미 유효성
의미론적 측정에서 데이터 값의 정확도 비율
범위 정확성
최대값 또는 최소값 내에 존재하는 정도
관계 유효성
컬럼과 컬럼 간 존재하는 관계 규칙의 준수 정도
일관성

참조 무결 일관성

참조 관계에 있는 테이블 간 데이터 일관성
선택
심사항목
유효성

데이터 값 정밀성

명세서에 따른 데이터 포맷의 정밀성
일관성

데이터 포맷 일관성

데이터 표현 형식이 표준화되어 일관된 정도
공통 어휘 일관성
데이터 사전에 정의된 공통 어휘의 사용 일관성
정확성

메타 데이터 정확성

메타 데이터 내용을 정확하게 정의한 정도

데이터 값 정확성

기대되는 데이터 값과 실제 데이터 값의 일치성
접근성

표준 기반 데이터 접근성

값과 포맷이 표준, 협약, 규정에 부합하는 정도
유일성데이터 값 유일성중복이 허용되지 않는 값들이 유일한 정도
- 데이터 내용(비정형 데이터) 심사항목
구분데이터
품질기준
심사항목명
설명
필수
심사항목
완전성

데이터파일 레코드완전성

요구명세서나 상품 설명서에 기술된 데이터의 수 대비 실제 데이터 비율
레코드 완전성
데이터 세트에 빈 데이터 아이템이 없는 데이터 레코드의 비율

메타 데이터 값 완전성

비정형 객체에 대한 메타 데이터 내 필수 항목이 Not Null인 데이터의 비율
유효성

데이터 구조 구문 유효성

비정형 객체에 대한 메타데이터나 라벨링 데이터의 구조가 정의된 구조에 적합한 데이터의 비율
데이터 포맷 유효성
비정형 객체가 정의된 파일의 포맷에 적합한 데이터 비율
파일 유효성
비정형 객체 중 실제 활용할 수 있는 파일의 비율
정확성

구문 정확성

비정형 객체에 대한 메타데이터나 라벨링 데이터 내 속성(컬럼)값이 명세서 기준 구문적으로 정확한 값을 갖는 데이터 아이템의 비율
메타 데이터 정확성
비정형 객체의 메타 데이터의 값이 정확한 비율
유일성
객체 유일성
동일한 객체 데이터가 존재하는 비율
선택
심사항목
완전성어노테이션 완전성

학습용 데이터의 경우, 객체 데이터에 라벨이 존재하는 비율

(학습용 데이터의 경우 필수 항목으로 적용)
특징 완전성
데이터 세트의 지정(요구)된 특징에 대하여 null 데이터 값이 없는 데이터 아이템의 비율
유효성관계 유효성
비정형 객체의 속성과 메타데이터/어노테이션 데이터의 속성들 간의 규칙이 존재하는 경우, 규칙에 맞는 데이터 아이템의 비율
데이터 값 정밀성
데이터 명세서에 요구되는 정밀도 만족하는 데이터 값의 비율
데이터 속성 유효성
비정형 객체 데이터의 속성이 기준에 적합한 비율
범위 유효성
메타데이터 또는 어노테이션 데이터의 속성 값이 요구되는 범위 안에 포함되는 비율
시간 유효성
비정형 객체 데이터의 생성 또는 수집 시간이 기준 시간을 만족하는 비율
어노테이션 유효성
학습데이터의 경우, 어노테이션 데이터의 어노테이션 값이 기준을 만족하는 비율(예: 바운딩박스 크기, 정해진 카테고리 또는 라벨링 기준 등)
일관성공통 어휘 일관성
데이터 사전에 정의된 용어(terms)로 사용되는 공통 인식 어휘 비율
데이터 포맷 일관성
동일한 데이터 아이템의 데이터 포맷을 준수하는 데이터 아이템 비율
정확성어노테이션 정확성
학습 데이터의 경우, 어노테이션 데이터가 정확한 비율
주제 정확성
비정형 객체가 주어진 주제(컨텍스트)를 반영하는 비율
접근성데이터 포맷 접근성
일반적인 데이터 포맷으로 의도된 사용자가 데이터나 정보에 접근할 수 비율

표준기반 데이터 접근성

표준, 협약 또는 규정에 부합해야 하는 전체 데이터 아이템의 비율
유일성레코드 유일성
데이터 세트의 중복 레코드 비율

인증기준


  • 심사 항목 적용 기준에 따라 복잡도를 고려하여 3가지 유형으로 구분하고, 심사 결과 데이터 품질에 따라 3가지 등급으로 구분하여 판정함

판정기준

- 데이터 구성의 복잡도에 따라 데이터 유형을 구분

데이터 유형기준
Complex-Type
필수 항목 모두 적용, 선택 항목 3개 이상 적용
Normal-Type
필수 항목 모두 적용, 선택 항목 3개 미만 적용
Simple-Type
필수 항목 일부 적용

- 심사 결과 데이터 품질에 따라 등급 구분

데이터 유형기준
Class A
데이터 품질 점수(정합율) 0.99 이상
Class B
데이터 품질 점수(정합율) 0.97 이상
Class C데이터 품질 점수(정합율) 0.95 이상

개인정보처리방침  공평성 선언서

서울시 금천구 가산디지털1로 168 C동 1105호

(우림라이온스벨리1차) 데이터품질인증센터

TEL : 02-6748-4958 (이창희 상무)

/ 02-6748-4960 (장종수 주임)

FAX 02-2026-3818

E-MAIL dqc@casit.co.kr 


Copyright CAS Corp. All rights reserved.

개인정보처리방침  공평성 선언서


서울시 금천구 가산디지털1로 168 C동 1105호(우림라이온스벨리1차) 데이터품질인증센터 

TEL 02-6748-4958 (이창희 상무) /  02-6748-4960 (장종수 주임)  FAX 02-2026-3818 E-MAIL  dqc@casit.co.kr 


Copyright CAS Corp. All rights reserved.