자료

수, 영상, 단어 등의 형태로 된 의미 단위이다.
(데이터에서 넘어옴)

자료(資料, data, 데이터, 문화어: 데타)는 문자, 숫자, 소리, 그림, 영상, 단어 등의 형태로 된 의미 단위이다. 보통 연구나 조사 등의 바탕이 되는 재료를 말하며, 자료를 의미있게 정리하면 정보가 된다. 자료(data)와 정보(information)는 서로 교환되어 사용하는 경우가 많다. 하지만 자료와 정보의 의미는 다르다.

여러 종류의 자료 중 일부.

즉, 자료는 또한 "주어진" 자료의 정신에 반대하여 높은 해석상의 본질을 가진 인문학 (특히 발전되어가는 digital humanities) 에 사용되어 오고있다. 가능성의 엄청난 수와 그 주의를 지향하게한 하위 집단간의 구별을 위해 Peter Checkland는 용어 "capta" ("~을 취하다"라는 뜻을 가진 라틴어 "capere"로 부터온)를 소개했다.[1]‘Johanna Drucker’는 인문학이 지식의 생성이 "놓여있고, 불완전하고, 구성적인" 과 같다고 단언함과, 자료의 사용은 별개이거나 관찰자 독립적인 현상과 같은 역효과를 일으키는 추정들을 소개하기 위함이라고 주장했다.[2] 구성요소와 같은 관찰의 역할을 강조하기 위한 단어인 capta는 인문학에서의 시각적 묘사들을 위한 자료의 대안으로 제공되었다.

개요

데이터에서 관측되는 개별 대상을 (관측) 단위 혹은 케이스라고 하며 관측된 특성을 변수 또는 필드라 부른다. 특성의 값은 관찰값 또는 관측치이다. 데이터는 하나 이상의 변수에 관한 관찰값의 모음이다. 데이터를 정리하는 방법은 기술통계와 추측통계가 있으며 기술통계는 descriptive로 데이터를 수치나 표, 그래프 등으로 요약하며 데이터의 특성을 드러내는 통계다. 추측통계는 inferential로 불확실한 데이터에 관해 추측하고 그 신뢰성을 계량화하는 방법이다. 일반인들도 사용하는 데이터 수집 방법으론 유한모집단에서 n개의 개체로 이루어진 가능한 모든 부분집합 각각이 모두 선택될 확률이 같도록 수집하는 단순랜덤표집이 있다. 표준편차를 평균으로 나눈 변이계수는 데이터 변동의 단순한 측도로 많이 사용된다.

데이터적 공간인 표본공간은 보통 반복될 수 있는 우연에 의해 구성되는 전체집합을 의미하며 전사건이라 불릴 수도 있다. 근원사건은 원소의 개수가 하나인 집합이다. 통계적 확률은 반복될 수 있는 우연을 정리한 시행에 의해서 구할 수 있으며 경험적 확률로 불릴 수도 있다. 이는 이론적 혹은 수학적 확률과 같은 뜻이 아니다. 데이터에 관한 직접적인 학문을 분류할 때 이론적 확률의 비중이 증가하면 데이터 사이언스이며 경험적 확률을 자주 다루면 통계학이다.

구분

자료는 질적 자료와 양적 자료로 구분된다.

질적 자료

질적 자료(qualitative data, 정성적 자료)는 수치로 측정이 불가능한 자료이다. 분류 자료 또는 범주형 자료(categorical data)라고도 한다.

예: 전화번호, 등번호, 성별, 혈액형, 계급, 순위, 등급, 종교 분류 등. 명목형 자료와 순서형 자료가 존재한다.

양적 자료

양적 자료(quantitative data, 정량적 자료)는 수치로 측정이 가능한 자료이다. 또는 수치적 자료(Numerical data)라고 하기도 한다.예: 온도, 지능지수, 절대온도, 가격, 주가지수, 실업률, 매출액, 기업내 과장의 수 등. 연속형 자료와 이산형 자료가 존재한다.

양적자료의 한계

양적자료는 풍부한 의미를 상실할 여지를 비롯해서 수치가 갖는 약점도 있다. Parsimony(간결성)의 문제를 갖는 것이다. 수치화되지 않는 개념을 양화하기 위해서는 개념이 무엇을 뜻하는지 명확히 할 필요가 있다. 그러나 이러한 개념을 측정하는 데 어떤 것을 포함할 것인가의 선택의 문제에 집중하게 되면 선택한 요소의 의미를 제외한 다른 모든 의미들이 배제된다. 그렇기에 어떤 정교한 양적 측정도 이에 상응하는 질적 기술에 비해 의미가 덜할 수밖에 없다.

같이 보기

각주

외부 링크