공공데이터라는 표현을 들어본 적이 있을 것입니다. 개발하면서 공공 데이터를 가져오기 위해 API를 사용해본 개발자라면 공공데이터라는 단어를 들어보았을텐데요. 오늘은 정확히 공공데이터란 무엇인지 정의와 뜻에 대해 알아보겠습니다.
1. 공공데이터 정의 4가지
① 「전자정부법」 제 2조 제 6호에 따른 행정정보
- 행정기관 등이 직무상 작성, 취득하거나 관리하는 자료로써 전자적 방식으로 처리 되어 부호, 문자, 음성, 음향, 영상 등으로 표현된 것
② 「국가정보화 기본법」 제 3조 제1호에 따른 정보가운데 공공기관이 생산한 정보
- 특정 목적을 위해 광 또는 전자적 방식으로 처리 되어 부호, 문자, 음성, 음향 및 영상 등으로 표현된 모든 종류의 자료 또는 지식 중 공공기관이 생산한 정보
③ 「공공기록물 관리에 관한 법률」 제20조제1항에 따른 전자기록물 중 대통령령으로 정하는 전자기록물
- 웹기록물 및 행정정보 데이터 세트 등의 기록정보 자료
④ 그 밖에 대통령령으로 정하는 자료 또는 정보
결론적으로 공공데이터라는 것은 공공기관이 업무를 수행하면서 취득한 결과물로써 다양한 형태의 모든 정보 그리고 자료가 그 대상이라고 할 수 있습니다. 이러한 공공데이터는 저장되는 형태에 따라 크게 2가지로 나눌 수 있습니다.
2. 개방 공공데이터의 유형
크게 DBMS에 저장하는 데이터베이스 유형과 전자화된 파일 File형태 2가지의 유형이 있는데요. 각각은 아래와 같은 종류들이 있습니다.
① 데이터베이스 형태
- 버스운행정보DB, 기상관측DB, 공간정보DB 등
② 전자화된 파일 형태
- 주차장정보, 범죄 통계, 인구 통계 등
3. 기계 판독이 가능한 형태란 무엇인가
참고로, 공공데이터가 외부로 제공될 때는 기계 판독이 가능한 형태로 제공되어야 한다고 명시되어 있습니다. 이 때 기계 판독이 가능한 형태란 외부에서 공공데이터를 읽고, 수정하고, 변환, 추출이 가능한 형태를 의미합니다. 즉, 데이터를 받아서 '가공까지'가능한 형태를 의미합니다. 기계 판독이 가능한 형태는 총 5단계가 있습니다.
구분 |
1단계 |
2단계 |
3단계 |
4단계 |
5단계 |
기계 판독이 가능한 형태
|
미충족 (공공데이터 포털 등록 불가) |
최소충족포맷 |
오픈포맷 |
||
특징 |
특정 소프트웨어에서, 읽기만 가능 (수정, 변환 X)
|
특정 소프트웨어에서 읽기, 수정, 변환 가능 |
모든 소프트웨어에서 읽기, 수정, 변환 가능 |
URI를 기반으로 데이터 속성 관계를 기술하는 데이터 구조 |
웹상의 다른 데이터와 연결, 공유 가능 |
예시 |
|
HWP, XLS, JPG, PNG, WMV, MPEG, MP3, SWF |
CSV, JSON, XML |
RDF |
LOD |
- 기계 판독 불가 : PDF
(우리가 매우 널리 사용하는 PDF의 경우에는 보시는 것처럼 기계판독이 불가능합니다. 읽기만 가능할 뿐 수정, 변환이 안되기 때문입니다.)
- 모든 소프트웨어에서 자유롭게 수정하기 위해서는 결국 오픈포맷(3단계 이상)으로 제공되어야 합니다.