정보과학(information science ; informatics)

인간사회 및 기계·생물체에서의 정보의 형태·전송·처리·축적에 관한 이론 또는 기술을 연구하는 분야. 20세기 중반 이후 과학·기술의 발전을 특징짓는 최대의 요소는 컴퓨터의 등장이다.
고체물리학(固體物理學)을 기초로 하는 전자공학의 급속한 발전으로 이 기술은 눈부신 진보를 이룩하고 있다.
이 컴퓨터과학·전자공학·통신공학의 진보를 토대로「정보」의 과학·기술이 발전함으로써「정보과학」이라는 고유의 논리를 가진 새로운 학문체계가 탄생했다.
〔정보과학의 탄생〕정보과학은 세 사람의 과학자 N.위너, C.E.섀넌, J.L.von 노이만의 업적으로 탄생 되었다.
48년 위너는 그의 저서 《사이버네틱스 (Cybernetics)》에서,「제어(制御)」와「통신」에 관한 새로운 학문인 사이버네틱스의 형성을 제창, 정보과학의 이념적 선구가 되었다.
같은해 섀넌은「정보이론」을 발표, 통신계(通信系)의 정보이론을 체계화했다.
45년에 노이만은 프로그램 내장방식(內藏方式)의 컴퓨터를 제안, 정보과학을 구성하는 물질적 조건의 주체가 되는 디지틀 컴퓨터 기계의 발전에 결정적인 역할을 했다.
이와 같은 섀넌에 의한 통신과 정보의 이론, 위너에서 비롯되는 제어·예측의 이론. 노이만으로 대표되는 디지틀 정보처리 및 자동기계 이론 등이 이후 정보과학의 전면적 전개의 바탕을 이루었다.
①정보이론 : 어렸을 때 누구나 경험했던「실 전화 놀이」는 실을 통한 역학적 진동에 의한 직접적인 정보의 전파이다.
전화는 이 역학적 진동을 전기신호로 변환한 것이고, 무선전신은 공간에서의 전자기파(電磁氣波)의 전파를 이용한 것이다.
섀넌에서 비롯되는 정보이론은 이 모든 경우에 적용되는 일반적인 수학적 형식을 구체적으로 전개한다.
S.F.모스에 의한 모스부호는 본질적으로 YES/NO의 이치논리적(二値論理的)이다.
이것이 약 1세기를 지나 통신계의 정보전달의 일반적 수학이론이라는 형태로 나타난 것이다.
②제어와 예측 : 오늘날 로봇이나 매직핸드는 생산현장에 널리 등장하고 있다.
이것이 물체를 잡는동작은 뇌가 목적물에 대해 일정한 예측을 하고 정보신호가 신경을 통해 전해짐으로써 근육의 운동을 제어하는 일련의 팔의 기능의 시뮬레이션이다.
위너가 생체를 사이버네틱스 기계로 보았을 때의 관점이 바로 이것이다.
③컴퓨터·정보처리 : 예컨대 날마다 접하는 일기예보는 관측 데이터에 토대를 두고 일정한 계산을 거쳐 나온다.
여기서는 관측 시스템의 정확성과 계산의 신속성이 요구된다.
컴퓨터가 등장하게 된 직접적인 계기는 제2차 세계대전중에 고사포의 신속한 탄도계산(彈道計算)의 필요성 때문이었다.
H.홀러리스가 천공카드식 전기통계기(電氣統計機)를 발명, 1890년 미국의 국세조사(國勢調훌)에서 총인구를 그해 안에 집계하는 데 성공한 것은 그때까지 1회의 국세조사를 집계하는 데 무려 7년 반이 소요된 것에 비하면 엄청난 상징적인 사건이었다.
오늘날의 컴퓨터는 진공관을 1만 8,800개나 사용한 최초의 컴퓨터인 에니악(ENIAC, 1946년)과는 비교할 수 없을 정도로 계산속도가 빠르다.
컴퓨터는 그 자체가 자동기계로서의 정보처리기계이다.
현재 가장 발달되어 있는 정보처리장치가 디지틀 컴퓨터인데, 이 경우 정보는 모두 YES/NO의 2원기호계열(二元記號系列)로 환원되어 파악된다.
정보량의 단위로서 사용되는 비트(bit)가 2자택일(二者擇一)에 대한 것이라는 사실에 대응한다.
예컨대 어떤 수계(水系)의 댐 유량제어(流量制御)시스템이나 제철소의 생산관리 시스템의 경우 등 그 중심에는 대형 컴퓨터와 이것에 연계된 프로세스 컴퓨터와 그 밖의 각종 단말기기의 네트워크 시스템이 있으며, 여기서 파악되는 정보는 모두 2원기호로 표현되어 있다.
정보 중에는 화상(畵像)정보·음성정보 등 본질적으로 디지틀적이 아니라 아날로그적인 정보가 있는데, 인간이 관여하는 정보는 오히려 후자 쪽이 많다고도 할수있다.
이제까지 실용면에서는 이 정보들을 디지틀적으로 근사(近似)시킬 수 있는 방향으로 추구되어 왔으나, 앞으로는 이것과 병행해 아날로그 컴퓨터가 더욱 개발될 것으로 기대된다.
또한 인공지능적 요소를 가진 5세대 컴퓨터의 연구가 진전되고 있다.
이것은 이제까지의 컴퓨터에 비해 질적으로 새로운 요소를 포함하는 것이다.
오늘날 정보처리 분야에서 가장 발전되어 있는 것이 정보처리기술인데, 그 적용 대상도 더욱 확대되어 가고 있다.
④정보과학의 장래 : 정보과학의 앞으로의 전개는 컴퓨터의 하드웨어로서의 측면뿐만 아니라 소프트웨어로서의 측면, 나아가 정보처리기술의 전면적 전개가 더욱 큰 비중을 차지하게 될 것이다.
이와 함께 사회적인 영향은 예컨대 노동과정에서의 자동화와 같은 직접적인 영향에 그치지 않고, 정보화된 사회에서의 여론 통제의 운제 등 사회발전의 근본에 관계되는 문제로서 이미 제기되고 있다.
이런 점에서 인문·사회과학을 포함한 발전 또한 앞으로의 과제로서 더욱 크게 요구되고 있다.
〔통신계의 모델〕정보이론에서 통신계의 모델은[그림 1]과 같은 블록선도(線圖)로 나타낼 수 있다.
정보원(情報源)은 구체적으로는 인간이나 기계인데, 온갖 정보가 메시지 또는 메시지 계열의 형태로 정상적(定常的)으로 발생한다.
메시지는 구두로 하는말, 기록된 말, 기호·도표, 또는 회화나 음악 등을 포함한다.
수신자는 이 정보를 받는 인간 또는 기계를 나타낸다.
송신기는 메시지를 통신로(通信路)에 적합한 신호로 변환해 발신한다.
이 신호는 통신로를 통해 수신기로 보내지고, 수신기는 신호로써 메시지를 재구성한다.
예컨대 전화의 경우, 통신로는 전선이며, 선호는 전선상의 변화하는 전류이다.
송신기는 음압(音壓)의 변화를 전류의 변화로 변환하는 조작을 하고, 수신기는 그 반대의 조작을 한다.
통신로에서는 대개의 경우 여러 요인으로 신호가 변형되거나 잡음이 들어가거나 하므로 수신측의 통보가 송신측의 통보와 반드시 일치한다고 할수는 없다.
통신로에서 받은 이러한 신호의 변화는 모두잡음이라 불린다.
송신기는 정보원으로부터의 메시지를 부호계열(符號系列)로 변환하므로 부호기(encoder)라고도 불리며, 수신기는 해독기(解讀器 : decoder)라고도 불린다.
부호기는 정보원 메시지가 지니는 장황성을 되도록 제거해 낭비가 없는 부호로 변환하는 역할과, 통신로의 성질에 따라 잡음에 의한 전송의 잘못을 가능한 한 적게 하도록 부호화하는 2가지 역할을 가진다.
부호기는 이 2가지 기능에 대응해 정보원 부호기와 통신로 부호기로 나누어 설계되는 경우가 많다.
해독기도 역시 통신로 해독기와 수신자 해독기로 나누어진다.
〔정보량〕이제 메시지를 잇따라 발생하는 정보원이 있고, 이 정보원으로부터 메시지의 발생은 축차확률적(逐次確率的)으로 이루어진다고 하자. n개의 메시지 ,…,
을 각각 확률
으로 발생하는 정보원을 완전사상계(完全事象系)로 해서
으로 나타낸다. 완선사상계란 집합 {,…,
}에서 시행(試行)마다 그 중의 단 하나가 일어나는 것(예컨대 주사위를 던졌을 때 1, 2, 3, 4, 5, 6의 어느 한 면이 나오는 것)을 말한다. 이 X에 대해 정해지는 양
를 정보원 X에 관한「정보량」이라 한다. H(X)는 통계열역학(統計熱力學)에서의 엔트로피와 비례상수를 제외하고는 형식적으로 같으며, 섀넌의 엔트로피 라고도 한다.
수신자는 정보원 X(그 통계적 성질은 알고 있는 것으로 한다)로부터 하나의 메시지를 받는데, 그것을 받기 전에는 어느 메시지를 받는지 불확정적이다.
H는 이 불확정성을 표현하는 양이다.
예컨대 정보원 X에서 어떤 p 하나가 1일 경우(이라 한다), H(X)=0으로 계산된다.
즉, X로부터 나타나는 메시지가 UI이라는 것을 알고 있고, 따라서 X에 불확정성이 없다. 이 경우 수신에 의해 얻어지는 정보량은 0이다.
다음에, 어느 메시지도 같은 확률()로 나타날 때 H는 최대가 되며, logn과 같다.
이것은 분명히 n개의 메시지 중에서 어느 메시지가 얻어지느냐에 대해 가장 불확정한 경우이다.
이 경우 수신자에게는 알 수 없었던 것이 수선에 의해 확정되는 것이므로, 그 수신은 최대의 정보량을 가져다 줄 것이다.
이와 같이 정보이론은 정보원에 관한 불확정도 H를 정보의 양적(量的) 척도로 삼는다.
정보량 H는 온갖 가능한 메시지 중에서 어느 하나의 메시지를 다른 것으로부터 구별해 선택할 때 필요한 선택절차의 복잡도(複雜度)를 표현한다.
가장 간단한「선택」은 2가지의 가능한 사상(事象)이 있고 그 양자가 똑같은 확률로 일어날 때, 그 어느 한쪽을 선택하는 일이다(예컨대 동전을 던질 때 앞면이냐 뒷면이나 하는 식의 선택). 이 선택이 가장 단순한 정보이다.
앞면이 나올 확률과 뒷면이 나올 확률은 똑같이 1/2이므로, 로그(對數)의 밑을 2로 하면 H(X)=1이 된다.
이 단위를 비트라고 한다.
다시 앞의 예로 돌아가, n개의 메시지가 같은 확률로 일어나는 특별한 경우를 생각하자. 그 정보량은 H(X)=logn비트로 계산되는데, 이것은 n개의 가능성에서 하나를 골라내는데 필요한2자택일의 조작(2개의 그룹으로 나누어 그 한쪽을 고르는) 횟수이다.
예컨대 메시지의 수가 8개일 경우, 8개 중에서 1개를 선택하는 절차를 다음과 같이 생각할 수 있다.
먼저 8개의 메시지를 4개씩의 2그룹으로 나누어(양자는 같은 확률이다) 한쪽을 선택하고, 다음에 선택된 그룹의 4개를 2개씩의 그룹으로 나누어 한쪽을 선택한 후, 마지막으로 남은 2개의 어느 한쪽을 선택한다.
이 경우의 2자택일의 조작 횟수는 3이며, 이것은 정보량 H의 값(log8=3)과 일치한다.
정보량의 정의에서 로그 표현을 쓰는 것은 정보량의 덧셈 성질 때문이다.
예컨대 하나의 간단한 개폐조작(開閉操作)을 하는 계전기(繼電器)는 단지 2개의 메시지만을 선택하는 단위정보(1비트)를 처리할 수 있다.
하나의 계전기가 단위정보를 처리하는 것이라면, 3개의 계전기는 그 3배인 3단위의 정보를 처리한다.
이와 같은 표현을 충족시키는 것은 로그 측도(側度)이다.
실제로 3개의 계전기가 처리할 수 있는 것은 8개의 메시지이며, 그 정보량은 3비트(log8=3)로 표현된다.
정보이론에서의 정보 개념은 정보량 H의 정의를 기초로 하며, 일반적으로 쓰이는 정보라는 말의 뜻과 혼동해서는 안된다.
정보량은 정보원의 확률적 구조에 의해 결정되는 양으로서, 메시지가 본래 그 속에 포함하고 있는 구체적인 의미·내용은 고려하지 않는다.
〔조건부 엔트로피와 상호정보량〕이 제 사상계(事象系) X에 또하나의 사상계 Y가 관련되어 있는 경우를 생각해 본다.
사상계 X와 Y가 독립적이 아니고 그사이에 어떤 관계가 있는 경우, Y를 알 수 있으면 X에 관한 정보를 얻을 수 있다.
따라서 Y를 알았을 때 X의 불확정도는 감소할 것이다.
사상계 Y가 일어났을 때 X에 관한 불확정도를 H(X | Y)라 쓰고, 이것을 조건부 엔트로피라 한다.
H(X | Y)는 Y를 알고 있을때 X에 대해 얼마만큼 불확정한가를 측정하는 양이다.
일반적으로 새넌의 부등식 H(X)H(X | Y)가 성립된다.
상호 정보량은 다음 식으로 정의된다.
I(X : Y)=H(X)-H(X | Y) 섀넌의 부등식에서, 상호정보량 I(X ; Y)는 항상 음(陰)이 아니라는 것을 알 수 있다.
이제 X를 통신로로의 입력, Y를 그 출력이라 한다. 이때 상호정보량 I(X ; Y)는 주어진 통신로를 통해 얻어지는 정보량(또는 전송된 정보량)을 나타낸다.
H(X| Y)는 통신로의 출력 Y를 안후에 아직도 남아 있는 입력 X에 관한 불확정도 이므로, 통신로 중에 잡음의 영향 없이 송신선호가 틀림없이 전해질 때는 H(X |Y)=0이 되어, 전송된 정보량 I(X ; Y)는 입력의 엔트로피 H(X)와 같다.
〔정보원 부호화와 통신로 부호화〕문자의 집합을 알파벳이라 하고 a로 나타내며, 이 문자에 번호를 붙여 a={am}이라 쓴다.
어떤 통신로를 통해 이 알파벳 문자의 계열을 보낼 수 있다고 가정한다.
정보원 X의 메시지를 전송하기 위해서는 n개의 메시지 a
을 a문자로 표현해야 한다.
예컨대 전신에서는 메시지(문자)를 O ={0, 1}(전류의 유무)로 표현해 전송한다.
각 메시지 a를 a의 문자로 이루어지는 계열에 대응시켜
로 변환하는 것을 부호화(coding)라 한다.
우변의 를 부호어(符號語), 그 길이 N
를 부호어 길이, 이 부호어의 모임을 부호라 부른다.
0과 1과 같은 2종류뿐인 기호의 계열로 이루어지는 부호를 2원부호라 하고, 정보원 기호계열을 일정한 길이의 블록으로 구획해 각 블록마다 통신기호계열을 할당하는 방법을 블록 부호화라 한다.
①정보원 부호화정리(定理) : 통신의 효율을 높이기 위해서는 부호어길이 N는 짧은 것이 좋다.
1메시지 당의 평균 부호어길이
가 통신의 효율을 측정하는 척도가 된다.
를 작게 하기 위해서는, 모스 전신과 같이 발생확률이 작은 메시지에는 긴 부호어를, 발생확률이 큰 메시지에는 짧은 부호어를 할당한다.
다만, 각 부호어는 서로 구별할 수 있도록 부호화해야 하므로, 에는 하한(下限)이 있다.
통신로에 잡음이 없어 수신측이 문자 a를 정확히 수신할 수 있을 때, 다음과 같은 정보원 부호화정리(섀넌의 제1부호화정리)가 성립한다.
즉, 「평균부호어 길이 가
을 만족시키는 부호화가 가능하다.」이 정리는 부호어의 평균길이는 정보원의 엔트로피에 의해 결정되는 값 H(X)/logm 이하로는 할 수 없다는 것, 반대로 엔트로피 한계에 얼마든지 가까운 부호화의 방법이 존재한다는 것을 나타낸다.
이 경우의 최적부호의 구체적 구성법으로는 D.A.허프만의 부호화법이 있다.
②통신로 부호화정리 : 보통 통신로에는 잡음이 있으므로 전송되는 정보에 오류가 발생한다.
통신로 부호기의 중요한 역할은 가능한 한 잘못이 적은 신뢰성 높은 전송을 가능하게 하는 일이다.
어떤 통신로(통신로의 잡음 특성, 전송대역 등)가 주어졌을 때, 이 통신로를 통해 전송할 수 있는 최대 정보량을 통신로용량(容量)이라 하는데, 이 용량 C를 단위시간당 상호정보량에 의해
로 정의한다.
여기서 p(X)는 정보원 X의 확률분포를 나타내며, max는 가능한 모든 정보원에 관한 최대값을 취한다는 것을 의미한다.
{H(X)-H(X | Y)}는 전송속도이며, 이것을 R로 쓴다.
조건부 엔트로피 H(X | Y)를 특히「애매도」라 한다.
통신로 부호화정리(섀넌의 제2부호화정리)는 다음과 같다.
「통신로용량이 C(비트/초)인 이산적(離散的) 통신로에서, 어떤 정보원을 R(비트/초)의 속도로 부호화하고, 이 통신로를 통해 전송한다. 만약 R가 C보다 작다면 이 정보원의 정보를 얼마든지 작은 애매도(또는 오류확률)로 전송하는 부호화의 방법이 존재한다」[그림 2].이제 통신로에 기억이 없다고 하고, 수신신호의 평균 오류확률을 P라 하면, 이 P
가 P
exp{ -NE(R)}로 억제될수 있는 블록 부호화의 방법이 존재한다.
N은 블록 길이이고, E(R)는 신뢰성 함수라 하며 통신로의 특성에만 의존한다.
E는 R가 통신로용량 C보다 작을 때 양(陽)이 되므로, 이 부등식은 전송속도가 일정하고 N을 크게 함으로써 오류확률을 얼마든지 작게 할 수 있음을 나타낸다.
〔정보처리〕정보처리란 컴퓨터를 중축으로 한 정보처리기계에 의해 이루어지는 정보의 일련의 처리, 즉 정보의 발생·표현·변환·전달·축적·검색 등의 처리를 말한다.
정보처리이론은 수학일반·물리학·논리학·언어학 등의 기초과학 분야에 바탕을 두고, 전자공학·통신공학·기계공학 등의 개별공학 분야와 관련을 가지면서, 정보이론·이산계수학(離散系數學)·알고리즘 이론·오토마톤·언어이론·계산의 이론·시스템 이론 및 인공지능에 관한 기초이론 등의 분야로 이루어진다.
①정보이론 : 정보를 다루는 이론적 체계로 앞서 설명한 바와 같다.
②이산계수학 : 논리수학·집합론·군론(群論)·그래프이론·불 대수(Boolean algebra ; 논리를 기호화해 그 결합을 대수연산으로 나타낸 체계) 등을 내용으로 하는데, 정보처리기계의 구성요소인 정보회로(조합회로 · 순서회로 등)의 설계이론으로서의 역할을 비롯, 데이터 구조의 표현, 네트워크 내의 플로문제, 스케줄링 문제, 스위칭 이론 등의 발전에 기여 하고, 알고리즘 이론의 중요한 토대가 되어 있다.
③알고리즘 이론 : 정보처리장치에 의해 어떤 문제군(問題群)에 속하는 모든 문제를 일련의 유한회(有閑回)의 조작에 의해 일반적으로 풀 수 있을 때, 이 일련의 조작을 이 문제군에대한 알고리즘이라 한다.
④오토마톤과 언어이론: 언어이론과 결합한 오토마톤 기초이론, 즉 오토마톤-언어이론의 체계는 정보처리 기초이론의 핵심이 된다.
오토마톤 이론은 정보처리기계의 전형적인 모델로서 충분한 해석이 이루어지는 유한 오토마톤을 계기로 한 자동기계의 이론이다.
그것은 기호변환·처리와 논리연산(論理演算)의 형식적 테두리 안에서 알고리즘 이론을 방법론적 기초로 삼아, 스위칭 이론에 의한 그 정보회로의 설계·해석과 입력계열의 집합에 관한 정규표현(正規表現)의 연구도 포함해 정보처리의 중요한 기초적 이론이 된다.
언어이론은 의미론(semantic ; 언어의 의미에 관한 이론)과 구문론(syntax ; 언어에서 의미를 배제한 단어의 집합으로서의 결합방식을 문제삼는 형식언어론)을 통한 언어구조의 구명에 의해 오토마톤과 결부시킴으로써 기계번역(機械飜譯)·패턴인식·학습기계·증식기계(增殖機械)등 으로 오토마톤을「진화(進化)」시킨다.
⑤계산의 이론 : 계산이란 일반적으로 기호계열 등으로 표현된 정보의 변환·처리를 말한다.
계산의 이론은 알고리즘 이론, 오토마톤-언어이론 외에 프로그램이론, 프로그래밍 방법론, 계산량(計算量)의 평가이론 등을 포함한 정보처리 기초이론을 집대성하는 위치에 있으며, 계산기계의 설계와 컴파일러 구성 등으로의 구체적·기술적 방법을 제시하고, 나아가 프로그램언어와 알고리즘의 조직적 설계, 기능평가 등에 불가결한 이론으로 되어 있다.
프로그램 이본은 정보처리기계로 정보를 처리하는 데 길잡이가 되는 프로그램에 관한 이론적 기반을 만들며, 프로그래밍 방법론을 포함한 소프트웨어 공학의 중심이론이다.
⑥시스템 이론 : 시스템이란 상호작용하고 있는 여러 요소로 이루어지는 복합체이며, 동시에 그 상호작용을 통해 단일 계(系)로 통합되어 있다고 생각할 수 있는 모든 것이다.
시스템 이론은 시스템의 복잡한 현상을 설명하는 이론적 테두리로서의 수학적 시스템 이론, 시스템에 주어진 목적을 달성하기 위한 기능 및 기능합성을 분석·설계하는 기술로서의 시스템 공학 및 과학방법론이나 인식론과도 관련되는 철학적 측면으로서의 시스템 철학의 세 영역으로 구성된다.
이 이론은 전체성·종합성·계층적 질서성·종국성(終局性)·목적론적 성격 등을 중심적 견지로 삼는다.
⑦인공지능에 관한 이론 : 인공지능의 연구는 인간의 사고·문제해결·학습·언어·인지·이해 등의 지적 능력을, 정보처리의 이론·방법을 이용해 장치·시스템으로서의 기계에 실현하는 것을 목적으로 한다.
이 이론은 지식표현·추론기구(推論機構)·학습이론, 지식베이스의 관리와 그 시스템 등 이른바「지식공학」이라 불리는 분야의 이론을 중심으로 하고 있다.

본 저작물은 공공누리 출처표시+상업적 이용금지 에 따라 이용할 수 있습니다.
- 다음
- 정사면체구조(regular tetrahedral structure) 2010.08.23
- 이전
- 적색근(red muscle) 2010.08.23
