1950년 앨런 튜링에 의해 개발된 튜링 테스트(turing test)는 인간의 것과 동등하거나 구별할 수 없는 지능적인 행동을 보여주는 기계의 능력에 대한 테스트다. 튜링은 인간 평가자가 인간과 같은 반응을 일으키도록 설계된 기계 사이의 자연 언어 대화를 판단할 것을 제안했다. 평가자는 대화의 두 파트너 중 한 명이 기계라는 것을 알고 모든 참가자는 서로 분리될 것이다. 대화는 컴퓨터키보드와 화면과 같은 텍스트 전용 채널로 제한되어, 그 결과는 단어를 연설로 렌더링하는 기계의 능력에 좌우되지 않을 것이다.[1] 평가자가 기계와 인간을 확실하게 구분할 수 없는 경우, 그 기계는 시험에 합격했다고 볼 수 있다. 시험 결과는 기계의 질문에 대한 정답을 제시하는 능력을 평가하는 것이 아니라, 기계가 제시하는 답이 얼마나 인간다운 대답인지를 평가한다.
이 테스트는 튜링이 맨체스터 대학에서 일하던 1950년 논문 "컴퓨팅 기계와 지능"에서 소개되었다.[2] "기계가 생각할 수 있는가?"라는 질문을 고려해 볼 것을 제안한다"는 말과 함께 열린다. "생각"은 정의하기 어렵기 때문에 튜링은 "문제와 밀접한 관련이 있고 비교적 모호하지 않은 단어로 표현되는 다른 단어로 질문을 대체한다.[3] 튜링은 두 선수의 정확한 성을 결정하기 위해 심문자가 다른 방에서 남녀에게 질문을 하는 "임상 게임"이라는 3인 게임이라는 관점에서 문제의 새로운 형태를 설명한다. 튜링의 새로운 질문은 다음과 같다: "임상 게임에서 마치 인간처럼 생각할 수 있는 컴퓨터가 있는가?" 튜링이 제시한 이 질문은 인간이라면 손쉽게 대답할 수 있는 질문들이다. 논문의 나머지 부분에서 튜링은 "기계들이 생각할 수 있다"는 명제에 대해서 반대이론들을 제시했다.[4]
튜링이 튜링테스트를 제시한 이후에, 튜링테스트는 이후 인공지능의 역사에 막대한 영향을 끼쳤고, 많은 비판 또한 받아왔다. 그렇게 튜링테스트는 인공지능 이론에서 중요한 개념이 되었다.
역사
철학적 배경
"기계가 생각하는 것이 가능한가?"에 대한 의문은 오랜 역사를 가지고 있는데, 이것은 마음의 이원론자와 물질주의 관점의 구별에 확고히 자리잡고 있다. 데카르트는 1637년에 썼던 "방법서설"에서 튜링 테스트의 형태를 먼저 제시했다.
우리 신체와 닮아있고 우리 행동들을 도덕적으로 가능한 만큼 모방하는 기계들이 설령 있다고 해도, 그렇다고 해서 그것들이 진정한 인간일 수는 전혀 없다는 것을 알아낼 수 있는 아주 확실한 두 가지 수단이 우리에게 늘 있다는 것이다. 그 첫째는, 우리가 다른 이들에게 우리 생각들을 밝히기 위해 하는 것처럼, 그 기계들은 결코 말들을 사용할 수도 없고, 그것들을 조합해서 다른 기호를 사용할 수도 없다는 것이다. …… 심지어 그 기관들에 어떤 변화를 일으키는 물질적인 작용들에 따라 몇 가지 말을 하도록 만들어진 어떤 기계를 생각할 수는 있다. 이를테면 그 기계의 어떤 곳에 손을 대면 말하려고 하는 것이 무엇이냐고 묻는다든가, 다른 곳에 손을 대면 아프다고 소리친다든가, 이와 비슷한 것들이다. 그러나 그 기계가, 가장 멍청한 인간도 할 수 있는 것처럼, 자기 앞에서 말해지는 모든 것의 의미에 응답하기 위해 말들을 다양하게 배치한다고 생각할 수는 없다[5].
여기서 데카르트는 기계는 인간의 상호 작용에 반응할 수 있는 능력이 있다고 지적하지만, 그러한 자동자는 어떤 인간이 할 수 있는 방식으로 그들이 있는 곳에서 말한 것들에 적절하게 반응할 수 없다고 주장한다. 따라서 데카르트는 적절한 언어 반응의 불충분함을 인간과 기계를 구분하는 것으로 정의함으로써 튜링 테스트를 우선시한다. 데카르트는 미래의 기계가 그러한 부족함을 극복할 수 있을지도 모른다는 가능성을 고려하지 못하고 있으며, 따라서 그가 그것의 개념적인 체계와 기준을 우선시한다고 해도 튜링 테스트를 제안하지는 않는다.
"만약 그들이 모든 것에 대답할 수 있는 앵무새를 발견한다면, 주저하지 않고 현명한 존재라고 주장할 것이다."[6]
이것은 그가 이것에 동의한다는 것을 의미하는 것이 아니라, 그것은 그 당시에 이미 물질 주의자들의 일반적인 주장이었다는 것을 의미한다.
이원론에 따르면, 마음은 비정형적이므로, 순수하게 물리적인 용어로 설명될 수 없다. 물질 주의에 따르면, 마음은 물리적으로 설명될 수 있고, 이것은 인공적으로 만들어진 마음의 가능성을 열어 준다.
1936년 철학자 A. J. 에이어는 다른 사람들의 일반적인 철학적 질문에 대해 생각했다.그 내용은 "우리는 어떻게 다른 사람들도 우리가 하는 것과 같은 의식적인 경험을 가지고 있다는 것을 알 수 있을까?"라는 내용이다.그의 저서인 "책,언어,진실 그리고 논리"에서, 에이어는 의식 있는 사람과 무의식적인 기계를 구별하는 프로토콜을 제안했다:"의식하는 것처럼 보이는 물체가 실제로 의식적인 존재가 아니라 오직 더미 혹은 기계를 만족시키지 못한다는 것을 주장하기 위해 내가 가질 수 있는 유일한 근거는 그것은 그것이 경험적인 테스트들 중 하나를 충족시키지 못한다는 것이다[7]. (의식의 유무가 결정된다.)" (이 제안은 튜링 테스트와 매우 유사하지만 지능보다는 의식과 관련이 있다. 게다가 에이어의 인기 있는 철학적 고전이 튜링 테스트에 익숙한지는 확실하지 않다.) 다시 말하면, 어떤 것이 의식 테스트에 실패하면 의식이 없는 것이다.
1956년 인공 지능(AI)연구가 시작되기 전 영국 연구원들은 10년 이상'기계 지능'을 연구해 왔다.[8] 이것은 앨런 튜링을 포함한 영국 사이버 물리학자들과 전자 공학자들의 비공식 그룹인 비율 클럽 회원들 사이에서 공통적인 주제였다.[9]
튜링은, 특히, 적어도 1941년부터 기계 지능의 개념에 도전해 왔고[10], 1947년 그가 '컴퓨터 지능'이라는 말을 가장 먼저 언급한 것 중 하나였다.[11]튜링의 보고서인 "지능형 기계(IntelligentMachinery)"에서 그는 "기계가 지능적 행동을 보일 수 있는지 여부에 대한 질문"을 조사했고[12], 이 조사의 일환으로, 향후 테스트의 선구자로 여겨질 수 있는 것을 제안했다.
아주 나쁘지 않은 체스 게임을 할 컴퓨터를 만들어 내는것은 어려운 일이 아니다. 이제 세명의 남자 A,B,C를 실험 대상으로 삼는다. A와 C는 체스를 잘 못하고 B는 기계를 조작하는 사람이다. 약간의 움직임을 전달하기 위해 두개의 방이 사용되고, C는 A혹은 컴퓨터와 체스게임을 시작한다. C는 누가 본인과 체스를 두고있는지 구별하는 것이 매우 어렵다는 것을 알게 될 수도 있다.[13]
"컴퓨터 기계와 지능"(1950년)은 튜링이 처음 출판한 논문으로 기계 지능에만 초점을 맞추었다. 튜링은 1950년 논문을 시작으로,"기계가 생각할 수 있는가?"[14]라는 질문을 고려할 것을 제시했다. 튜링이 강조하듯이, 그러한 질문에 대한 전통적인 접근법은 "기계"와 "지능"이라는 용어를 모두 정의하면서 정의로 시작하는 것이다. 튜링은 그렇게 하지 않기로 선택한다. 대신에 그는 질문을 "그것과 밀접하게 관련되어 있고 상대적으로 모호하지 않은 단어로 표현되는 " 새로운 질문으로 대체한다.[15] 본질적으로 그는 "기계가 생각할 수 있는가?"에서 "기계가 우리가(생각하는 실체로서) 할 수 있는 것을 할 수 있는가?"로 질문을 바꿀 것을 제안한다. 튜링은 이 새로운 질문의 장점은 '인간의 신체적 능력과 지적 능력 사이에서 상당히 뚜렷한 선을 긋는다'는 것이라고 주장한다.[16]
튜링은 이러한 접근법을 보여 주기 위해,"모방 게임"으로 알려진 파티 게임에서 영감을 받은 테스트를 제안한다. 이 게임에서 남성과 여성은 각기 다른 방으로 가고 손님들은 일련의 질문을 쓰고, 타이핑해서 보낸 답을 읽음으로써 서로를 구분하려고 노력한다. 이 게임에서 남자와 여자는 모두 손님들에게 그들이 다른 사람이라는 것을 납득시키는 것을 목표로 한다.(Huma Shah는 이 2인 버전의 게임은 단지 독자들에게 기계-인간의 질문-대답 테스트를 소개하기 위해 튜링으로 제시되었다고 주장한다.[17]) 튜링은 자신의 새로운 게임 버전을 다음과 같이 설명했다.
이제 우리는 "기계가 이 게임에서 A의 일부를 차지하면 어떻게 될까요?"라고 질문한다. 질문자는 남자와 여자가 경기를 할 때처럼 종종 이런 식으로 경기를 할 때 잘못된 결정을 할까? 이러한 질문들이 우리의 원래"기계가 생각할 수 있는가?"를 대체한다.[18]
이 논문의 후반부에서 판사가 컴퓨터와 남자하고만 대화하는 것과 관련된 "동등한"대안을 제시한다. 이러한 공식들 중 어느 것도 오늘날 더 널리 알려진 튜링 테스트 버전과 정확하게 일치하지 않지만, 1952년에 세번째 테스트를 제안했다. 튜링이 BBC 라디오 방송에서 논의한 이 버전에서, 배심원은 컴퓨터에 대한 질문을 하고, 컴퓨터의 역할은 배심원의 상당한 비율이 컴퓨터가 진짜 사람이라고 믿게 만드는 것이다.[19]
튜링의 논문은 9가지 추정적 반대 의견을 고려했다. 여기에는 논문이 발표된 이후 수년 간 제기된 인공지능에 대한 모든 주요 주장이 포함된다.[20]
엘리자베스와 패리
1966년 조세프 와이젠바움은 튜링 테스트를 통과한 것처럼 보이는 프로그램을 만들었다. ELizA라고 알려진 이 프로그램은 키워드에 대한 사용자의 입력된 의견을 조사하는 것으로 작동했다. 키워드가 발견되면 사용자의 설명을 변환하는 규칙이 적용되고 결과 문장이 반환된다. 키워드를 찾을 수 없는 경우, ELizA는 일반적인 대문자로 또는 이전 설명 중 하나를 반복하여 응답한다.[21] 게다가, 와이젠바움은 로제리아 정신 치료사의 행동을 모방하기 위해 ELizA를 개발했고, ELizA는 "현실 세계에 대해 거의 아무것도 모르는 자세를 자유롭게 취할 수 있게 했다."[22] 이러한 기술들로, 와이젠바움의 프로그램은 어떤 사람들을 속여서 그들이 실제 사람과 대화하고 있다고 믿게 할 수 있었고, 어떤 사람들은 "ELizA가 인간이 아니라고 확신하기가 매우 힘들었다."[23] 따라서, 일부 사람들은 ELizA가 튜링 테스트를 통과할 수 있는 프로그램중 하나라고 주장한다.[24][25] 하지만 이 견해는 지금까지도 격한 논쟁이 오고가고 있는 상황이다.
케네스 콜비는 1972년 PARRY를 만들었는데, 이 프로그램은 "우아한 태도를 지닌 ELizA"로 묘사되었다.[26] 그것은 와이젠바움에 의해 채택된 것과 유사한(더 발전된)접근법을 사용하여 편집증적 정신분열증의 행동을 모형화하려고 시도했다. 이 작업을 검증하기 위해 패리는 1970년대 초에 튜링 테스트의 변형을 사용하여 테스트를 받았다. 경험이 풍부한 정신과 의사들이 텔레 프린터를 통해 패리를 실행하는 실제 환자들과 컴퓨터들의 조합을 분석했다. 33명의 정신과 의사들로 구성된 또 다른 그룹이 그 대화 내용을 담은 녹취록을 보여 주었다. 그리고 나서 두 그룹은 어떤"환자"가 인간이고 어떤 것이 컴퓨터 프로그램인지를 확인하도록 요청 받았다.[27] 정신과 의사들은 정확한 신원 확인은 48퍼센트밖에 하지 못 했다. 이는 무작위 추측과 일치하는 수치이다.[28]
21세기에, 이러한 프로그램들의 버전들은 계속해서 사람들을 속이고 있다. 악성 프로그램인 '사이버 오버'는 인터넷 사용자들에게 자신의 신원에 대한 정보를 공개하거나 악성 콘텐츠를 컴퓨터에 전달할 웹 사이트를 방문하도록 유도함으로써 이들을 먹잇감으로 삼고 있다.[29] 이 프로그램은 "개인 정보를 수집하기 위해 온라인 상에서 관계를 찾는 "사람들에게 추파를 던지는 "발렌타인스 위험"으로 떠올랐다[30]
뢰브너 상은 1991년 11월에 열린 첫번째 대회와 함께 실용적인 튜링 테스트를 위한 연례 플랫폼을 제공했다.[31] 그것은 HughLoebner에 의해 계약되어 있다. 미국 매사추세츠 주에 있는 케임브리지 대학 행동 연구소는 2003년 대회까지 상을 조직했다. Loebner가 설명했듯이, 이 경쟁이 만들어진 한가지 이유는 적어도 부분적으로는 40년 동안 튜링 테스트를 수행한 사람이 아무도 없기 때문이다.[32]
1991년의 첫번째 뢰브너 상 대회는 대중 매체와 학계 모두에서 튜링 테스트의 실행 가능성과 그것을 추구하는 가치에 대한 새로운 논의를 이끌었다.[33] 첫번째 대회는 순진한 질문자들을 속여 엉뚱한 신분을 만든 식별할 수 없는 지능이 없는 어리석은 프로그램이 우승되었다. 이는 튜링 테스트의 몇가지 단점을 강조한다(아래에서 설명). 인간 타자의 실수를 흉내 내는 데 성공했고,[34] 미숙한 질문자들은 쉽게 속아 넘어갔으며, AI연구자들 중 일부는 이번 실험이 좀 더 성과 있는 연구에서 벗어난 것이라고 생각하고 있다.[35]
은상과 금상은 단 한번도 수상한 적이 없다. 하지만, 이 대회는 심사 위원들의 의견에 따르면, 그 해의 참가자들 중에서 "가장 인간적인 "대화 행동을 보여 주는 컴퓨터 시스템 때문에 매년 동메달을 수여해 왔다. 최근 세 차례에 걸쳐 인공 언어 인터넷 컴퓨터 회사(ALI.E.)가 동메달을 획득했다(2000,2001,2004).
뢰브너 상은 대화 지능을 테스트한다. 우승자는 일반적으로 챗봇 프로그램 또는 인공적인 전환 실체(ACE)이다. 초기 뢰브너 상 규칙은 대화를 제한했다. 각각의 참가자들은 한가지 주제에 대해 대화를 나누었고,[36] 따라서 질문자들은 개체 상호 작용당 한줄의 질문으로 제한되었다. 1995년 뢰브너 상을 위해 제한된 대화 규칙이 폐지되었다. 판사와 실체 간의 상호 작용 기간은 뢰브너상에서 다양했다. 뢰브너 2003에서, Surrey대학에서, 각 평가관은 5분 동안 실체, 기계, 또는 숨어있는 인간들과 상호 작용할 수 있도록 허용되었다. 2004년과 2007년 사이에 뢰브너상에서 허용된 상호 작용 시간은 20분 이상이었다.
형태
사울 트라이거는 튜링 테스트의 기초적인 형태은 최소 3가지라고 주장하는데, 그 중 2개는 "컴퓨팅 기계와 지능"에서 제공되고 1개는 "표준 해석"에서 제공된다고 한다.[37]
표준 해석"이 튜링으로 기술되는 것인지, 아니면 그의 논문을 잘못 해석한 것인지에 대한 논쟁이 있지만, 이 세가지 버전은 동등하지 않으며, 그들의 강점과 약점은 구별된다.
Huma Shah는 튜링 그 자신이 기계가 생각할 수 있는지에 대해 우려했고 이것을 조사할 수 있는 간단한 방법을 제공했다고 지적한다:인간-기계 질문-대답 세션을 통해서. Shah는 튜링이 설명한 하나의 모방 게임이 두가지 다른 방법으로 실용화될 수 있다고 주장했다. 첫째, 일대일 질문 시스템 테스트와 둘째)질문자에 의해 동시에 인간과 기계를 비교하는 것이다.[38] 튜링 테스트는 성능 용량에서 개별성의 테스트이기 때문에, 언어 버전은 비언어적(로봇)뿐만 아니라 언어적인(로봇)인간의 모든 수행 능력을 자연스럽게 된다.[39]
모방 게임
튜링의 원래 기사는 세명의 플레이어가 참여하는 간단한 파티 게임을 설명한다. A참가자는 남자이고 B참가자는 여자, C참가자는 남자일수도 있고 여자일수도 있다. 모방 게임에서 C참가자는 A나 B를 볼 수 없고, 필기를 통해서만 의사 소통을 할 수 있다. A와 B에게 질문을 함으로써, C선수는 어떤 참가자가 남자이고 어떤 참가자가 여자인지 알아내려고 한다. A의 역할은 질문자를 속여 잘못된 결정을 내리게 하는 것이고, B는 질문자가 올바른 결정을 내리도록 돕는 역할이다.[40]
튜링은 다음과 같은 질문을 한다.
이 게임에서 기계가 A의 일부를 연기하면 어떻게 될까요? 질문자는 남자와 여자가 경기를 할 때처럼 종종 이런 식으로 경기를 할 때 잘못된 결정을 할까요? 이러한 질문들이 우리의 원래"기계가 생각할 수 있는가?"를 대체한다.[41]
두번째 버전은 나중에 튜링의 1950년 논문에 등장했다. 기존의 모방 게임 테스트와 유사하게, A플레이어의 역할은 컴퓨터에 의해 수행된다. 그러나 B참가자의 역할은 여자말고 남자에 의해 수행된다.
이 버전에서 플레이어 A(컴퓨터)와 플레이어 B는 모두 질문자를 속여 잘못된 결정을 내리게 하려고 한다.
표준 해석
튜링 테스트의 목적은 컴퓨터가 평가관이 컴퓨터를 인간으로 믿도록 속일 수 있는지를 판단하는 것이 아니라 컴퓨터가 인간을 모방할 수 있는지 여부를 판단하는 것이다. 이 해석이 튜링에 의해 의도된 것인지에 대해서는 약간의 논쟁이 있지만, 스터렛은 이 해석이 의도된 것이어서 두번째 버전과 이 버전을 연결하는 반면[42], 트라이거와 같은 다른 버전은 그렇지 않다고 믿는다. 그럼에도 불구하고 이것은 "표준 해석"으로 볼 수 있는 결과를 가져왔다. 이 버전에서 A선수는 컴퓨터이고 B선수는 어느 한쪽 성별의 사람이다. 평가관의 역할은 누가 남자이고 누가 여자인지를 결정하는 것이 아니라, 어떤 것이 컴퓨터이고 어떤 것이 인간인지를 결정하는 것이다.[43] 표준 해석의 근본적인 문제는 질문자가 어떤 응답자가 인간이고 어떤 응답자가 기계인지 구별할 수 없다는 것이다. 지속 기간에 관한 문제가 있지만, 일반적으로 표준 해석에서는 이러한 제한을 합리적인 것으로 간주한다.
모방 게임 vs 표준 튜링 테스트
튜링 테스트의 대안적 공식 중 어떤 것을 의도하는지에 대해 논란이 발생했다. 스터렛은 1950년 논문에서 두개의 뚜렷한 시험이 도출될 수 있다고 주장한다. 그리고 그것은 튜링의 발언을 가속화하는 것이다. 그것들은 동등하지 않다. 파티 게임을 사용하고 성공 빈도를 비교하는 테스트를 "원래의 모방 게임 테스트"라고 부르는 반면, 인간과 기계의 의사 소통을 하는 인간 심판으로 구성된 테스트는 "표준 튜링 테스트"라고 부르는데, 스터렛은 이것이 두번째 버전이 아닌 "표준 해석"과 동일하다는 점을 지적한다. 모방 게임의 유혹 스터랫은 표준 튜링 테스트(STT)가 비평가들이 언급한 문제를 가지고 있지만, 대조적으로 정의된 원래 모방 게임 테스트(OIG테스트)는 중요한 차이 때문에 대부분의 테스트에 영향을 받지 않는다고 생각한다. STT와 달리 기계 지능의 기준을 설정할 때는 인간의 성과를 기준으로 삼지만 인간의 성과와 유사하지는 않다. 남자는 OIG시험에 실패할 수 있지만, 실패는 자원의 부족을 나타내는 지능 시험의 덕이라고 주장된다. OIG시험은 단지"인간 대화 행동 시뮬레이션"만이 아니라 지능과 관련된 자원을 필요로 한다. OIG시험의 일반적인 구조는 심지어 가짜 게임들의 비언어적인 버전들과 함께 사용될 수도 있다.[44]
그러나 다른 작가들은 그가 제안한 모방 게임의 파티 버전을 사용하는 것은 능력이 아니라 그 모방 게임의 상대적인 성공 빈도의 기준에 근거한다는 튜링의 진술을 고려하는 방법을 구체적으로 언급하지 않고 모방 게임 그 자체를 시험이라고 제안하는 것으로 해석했다.
사이긴은 최초의 게임이 컴퓨터의 참여를 숨기기 때문에 덜 편향된 실험 디자인을 제안하는 방법일지도 모른다고 제안했다. 컴퓨터와 남자가 아닌 척 해야 하는 것처럼 모방 게임도 표준 해석에서 찾아볼 수 없는 사회적 해킹을 포함하고 있다.
평가관은 컴퓨터에 대해 알아야 하는가?
실험실 시험의 중요한 부분은 조율자가 있어야 한다는 것이다. 튜링은 그의 테스트에서 질문자가 참가자 중 한명이 컴퓨터라는 것을 알고 있는지 여부를 명확히 하지 못한다. 그러나 튜링 테스트를 통과할 수 있는 기계가 있다면 이중 블라인드 제어가 필요하다고 가정하는 것이 안전할 것이다.
원래의 모방 게임으로 돌아가서, 그는 오직 A선수를 기계로 교체할 것이며, C참가자는 그 사실을 알지못한다. 이것은 테스트의 실행과 결과에 큰 차이를 만든다. 1994-1999년 사이에 열린 AI콘테스트에서 로베너의 일대일상을 이용한 그리컨 격언 위반을 조사한 실험적인 연구에서, 사이긴은 컴퓨터 관련 사실을 알고도 모르는 참가자들의 반응 사이에 상당한 차이가 있다는 것을 발견했다.[45]
강점
관리 용이성,그리고 단순성
튜링 테스트의 힘과 매력은 단순함에서 비롯된다.심리학, 현대 신경과학의 철학은 기계에 적용할 수 있을 만큼 정밀하고 일반적인 '지능'과 '생각'의 정의를 제공할 수 없었다.
이러한 정의 없이는 인공 지능 철학의 핵심적인 질문에 답할 수 없다. 튜링 테스트는, 불완전할지라도, 적어도 실제로 측정할 수 있는 무언가를 제공한다. 그렇기 때문에, 어려운 철학적 질문에 답하는 것은 실용적인 시도이다.
광범위한 주제
시험 형식은 평가관이 기계에 광범위한 지적 직무를 부여할 수 있도록 한다. 튜링은 "질문과 대답 방법은 우리가 포함시키고자 하는 인간 노력의 거의 모든 분야를 도입하기에 적합한 것으로 보인다"고 썼다.[46] John Haugeland는 "단어를 이해하는 것만으로는 충분하지 않다,주제를 이해해야한다"라고 덧붙였다.[47]
잘 설계된 튜링 테스트를 통과하려면 기계가 자연스러운 언어, 이성을 사용해야 하고, 지식과 학습을 사용해야 한다. 테스트는 비디오 입력뿐만 아니라 물체를 통과할 수 있는 "탈출구"를 포함하도록 확장될 수 있다. 이로 인해 기계가 잘 설계된 비전과 로봇을 능숙하게 사용한다는 것을 입증할 수 있다. 이러한 것들은 모두 인공지능 연구가 해결하고자 하는 거의 모든 주요 문제들을 보여 준다.
Feigenbaum테스트는 튜링 테스트에서 사용할 수 있는 다양한 주제를 활용하도록 설계되었다. 튜링의 질문-답변 게임은 제한된 형태로, 기계를 문학, 화학 등 특정 분야의 전문가의 능력과 비교한다. IBM의 왓슨 기계는 인간 지식에 대한 인간의 텔레비전 퀴즈 쇼,제퍼디 쇼에서 흥행에 성공했다.
약점
튜링은 튜링 테스트가 지능의 척도로 사용될 수 있다는 것을 명시적으로 진술하지 않았다. 그는 "생각"이라는 단어에 대해 명확하고 이해할 수 있는 대안을 제시하기를 원했는데, 이는 그가 "생각하는 기계"의 가능성에 대한 비판에 답하고 연구가 진전될 수 있는 방법을 제안하기 위해 사용할 수 있다.
그럼에도 불구하고 튜링 테스트는 기계의 "사고 능력"또는"지능"의 척도로 제안되었다. 이 제안은 철학자들과 컴퓨터 과학자들로부터 비판을 받아 왔다. 그것은 평가관이 그것의 행동을 인간의 행동과 비교함으로써 기계가 "생각" 하고 있는지 여부를 판단할 수 있다고 가정한다. 이러한 가정의 모든 요소, 즉 평가관의 판단의 신뢰성, 행동만 비교하는 가치 및 기계를 인간과 비교하는 가치에 대해 의문이 제기되었다. 이 같은 점 등을 고려해 일부 AI연구원들은 이번 실험이 자신들의 분야와 관련이 있는지 의문을 제기했다.
인간의 지능 vs 지능의 일반적인 비교
튜링 테스트는 컴퓨터가 지능적으로 동작하는지 여부를 직접적으로 테스트하지 않는다. 그것은 단지 컴퓨터가 인간처럼 행동하는지 여부를 테스트한다. 인간의 행동과 지적인 행동이 정확히 같은 것은 아니기 때문에 이 테스트는 두가지 방법으로 지능을 정확하게 측정하지 못할 수 있다.
튜링 테스트는 기계가 지능에 상관 없이 모든 인간 행동을 실행할 수 있도록 요구한다. 그것은 심지어 모욕에 대한 민감성, 거짓말에 대한 유혹, 또는 단순하게 타이핑 실수의 빈도와 같이 전혀 지능적이라고 여겨지지 않을 수도 있는 행동들에 대해서도 시험한다. 기계가 이러한 무지한 행동을 상세히 모방할 수 없다면 시험에 불합격하는 것이다.
이코노미스트는 1992년 로버너 상 1차 대회 직후 발표한 '인공적 어리석음'이라는 제목의 기사에서 이 같은 반론을 제기했다. 이 기사는 첫번째 뢰브너 우승자의 승리는 적어도 부분적으로는 "사람의 타이핑 실수를 모방하는 "능력 때문이라고 지적했다. 튜링 자신은 프로그램이 더 나은 게임의 "게이머"가 되기 위해 프로그램이 그들의 출력에 오류를 추가한다고 제안했다.
어떤 지적인 행동은 비인간적일때도 있다.
튜링 테스트는 어려운 문제를 해결하거나 독창적인 통찰력을 도출하는 능력과 같은 매우 지능적인 행동을 테스트하지 않는다. 사실, 그것은 특히 기계의 한 부분에 대한 속임수를 필요로 한다: 만약 기계가 인간보다 더 똑똑하다면 그것은 고의적으로 너무 지적으로 보이는 것을 피해야 한다. 만약 인간이 푸는 것이 실질적으로 불가능한 계산적인 문제를 해결한다면, 평가관은 프로그램이 인간이 아니라는 것을 알게 될 것이고, 기계는 테스트를 통과하지 못하게 될 것이다.
인간의 능력을 넘어서는 지능을 측정할 수 없기 때문에, 이 테스트는 인간보다 더 지능적인 시스템을 만들거나 평가하는 데 사용될 수 없다. 이 때문에 초기능 시스템을 평가할 수 있는 몇가지 시험 대안이 제안되었다.[48]
튜링 테스트는 대상이 어떻게 동작하는지, 즉 기계의 외부 동작과 엄격히 관련된다. 이런 점에서, 정신 연구에는 행동 주의적이거나 기능 주의적인 접근이 필요하다. ELizA의 예는 시험을 통과하는 기계가 생각하거나 전혀 생각하지 않고 기계적 규칙의 간단한(그러나 큰)목록을 따름으로써 인간의 행동을 흉내낼 수 있다는 것을 제시한다.
John Searle는 기계가 "실제로"생각하는 것인지 아니면 단순히 생각을 흉내내는 것인지를 결정하기 위해 외부 행동을 사용할 수 없다고 주장했다. 그의 주장은 튜링 테스트가 지능의 운영상의 좋은 정의라고 해도, 기계가 마음, 의식, 또는 의도를 가지고 있다는 것을 나타내지 않을 수 있다는 것을 보여 주기 위한 것이다. (통찰력은 생각의 힘이 무언가에 관한 것이라는 철학적 용어이다.)
실제로 시험 결과는 컴퓨터의 지능이 아니라 질문자의 태도, 기술등에 의해 쉽게 좌우될 수 있다.
튜링은 평가관이 시험을 설명할 때 필요한 정확한 기술과 지식을 구체적으로 밝히지 않았지만,"평균 평가관"이라는 용어를 사용했다."평균 평가관은 5분간 질문을 받은 후에 제대로 식별할 확률이 70%를 넘지 않을 것이다."[50]
EliZA 같은 챗봇프로그램은 의심하지 않는 사람들을 계속해서 속여 자신들이 인간과 소통하고 있다고 믿게 만들었다. 이런 경우에,"질문자"들은 그들이 컴퓨터와 상호작용하고 있다는 가능성도 인식하지 못한다. 성공적으로 인간으로 보이기 위해서는 기계가 어떠한 지능도 가질 필요가 없으며 단지 인간의 행동과 외형적으로 닮기만 하면 된다.
초기 뢰브너 상 대회는 기계에 쉽게 속은 "세련되지 않은 "질문자들을 사용했다. 2004년부터 뢰브너 상 주최자들은 질문자들 사이에 철학자, 컴퓨터 과학자, 언론인들을 배치해 왔다. 그럼에도 불구하고, 이러한 전문가들 중 일부는 기계에 속아 왔다.[51]
마이클 셔머는 인간에게 기회가 주어질 때마다 인간이 아닌 물체를 인간으로 간주하는 것을 계속해서 선택하고 있다고 지적한다. 그들은 차와 이야기하고, 욕구와 의도를 자연의 힘(예:자연은 진공을 싫어한다)에 맡기고, 태양을 지성으로 인간과 같은 존재로 숭배한다. 만약 튜링 테스트가 종교적인 사물에 적용된다면, 그렇다면, 무생물 상, 바위, 그리고 장소는 역사를 통해 지속적으로 테스트를 통과해 왔다는 주장을 펼쳤다.
인간의 의인화 경향은 질문자들이 그것을 피하도록 특별히 훈련 받지 않는 한 튜링 테스트의 기준을 효과적으로 낮춘다는 것이다.
튜링 테스트의 한가지 흥미로운 특징은 연합 효과의 빈도인데, 인간이 질문자에 의해 기계로 잘못 식별될 때이다. 질문자들이 인간의 반응으로 기대하는 것이 반드시 인간에게 전형적인 것은 아니라는 것이 제기되어 왔다. 결과적으로, 일부 개인은 기계로 분류될 수 있다. 그러므로 이것은 경쟁하는 기계에 유리하게 작용할 수 있다. 인간들은 "행동하라"는 가르침을 받지만, 때때로 그들의 대답은 심문자가 기계가 말하기를 기대하는 것과 더 비슷하다.[52] 이것은 인간이 "인간답게 행동하도록"동기를 부여 받도록 하는 방법에 대한 의문을 제기한다.
침묵
튜링 테스트의 중요한 측면은 기계가 자신의 말로 스스로를 기계로 표현해야 한다는 것이다. 그런 다음 평가관은 기계를 정확하게 식별하여"정확한 식별"을 해야 한다. 그러나 대화 중에 기계가 계속 조용하다면, 평가관이 계산된 추측을 통해서만 기계를 정확하게 식별할 수 있다. 심지어 실험의 일부로 평행/숨어있는 인간을 고려하는 것도 종종 인간이 기계로 오인될 수 있기 때문에 상황에 도움이 되지 않을 수 있다.[52]
비효율과 비관리:튜링 테스트와 AI연구
메인 스트림 AI연구원들은 튜링 테스트를 통과하려는 시도는 더 생산적인 연구에서 벗어나는 것에 불과하다고 주장한다.[53] 튜링 테스트는 실제로 학문적이거나 상업적인 노력의 초점이 아니다. 스튜어트 러셀과 피터 노비히는 다음과 같이 썼다. AI연구원들은 튜링 테스트 통과에 거의 관심을 기울이지 않았다.[54] 여기에는 몇가지 이유가 있다.
첫째, 그들의 프로그램을 테스트하는 더 쉬운 방법들이 있다. 현재 인공 지능 관련 분야에 대한 대부분의 연구는 자동화된 스케줄링, 물체인식 또는 물류와 같은 일반적이고 구체적인 목표를 목표로 하고 있다. AI연구원들은 문제를 해결하는 프로그램의 지능을 테스트하기 위해 직접 과제를 내준다. 러셀과 노르비그는 비행의 역사와 유사한 점을 제안한다. 비행기들은 새와 비교하는 것이 아니라 얼마나 잘 나는지에 의해 시험된다. 그들은 "항공 공학 교과서는 그들의 분야의 목표를 비둘기처럼 날아서 다른 비둘기들을 속일 수 있는 기계를 만드는 것으로 정의하지 않는다"고 썼다.[54]
둘째로, 인간의 실제와 같은 시뮬레이션을 만드는 것은 AI연구의 기본적인 목표를 달성하기 위해 해결될 필요가 없는 그 자체로 어려운 문제이다. 믿을 수 있는 인간의 캐릭터들은 예술, 게임, 또는 정교한 사용자 인터페이스의 작품에서는 흥미로울 수 있지만 지능을 이용하여 문제를 해결하는 기계를 만드는 과학의 일부는 아니다.
튜링은 인공지능의 철학을 논의하는 데 도움이 되는 명확하고 이해하기 쉬운 예를 제공하고자 했다. 존 매카시는 AI철학이 과학 철학과는 달리 AI연구에 더 이상 영향을 미치지 않을 것으로 보고 있다.[55]
인지 과학
Robert M. French(1990)는 평가관이 인지 과학에 의해 연구된 인간 인지의 낮은 수준(즉, 무의식)과정을 보여 주는 질문을 함으로써 인간과 인간이 아닌 상호 작용자를 구별할 수 있다고 주장한다. 이러한 질문들은 인간의 사고 형성의 정확한 세부 사항들을 보여 주고, 인간이 하는 것처럼 세상을 경험하지 않는 한 컴퓨터의 베일을 벗길 수 있다.
다른 용례
튜링테스트를 활용한 다양한 활용방법이 오랜시간에 걸쳐서 현실에서도 그 용례를 찾아볼수가 있다.
튜링테스트는 인간평가자가 기계와 인간을 구분하는 것이라면,역(逆)튜링 테스트는 반대로 기계가 인간과 기계를 구분하는 형태의 튜링테스트의 변형된 형태이다. 영국의 정신분석학자 비온의 저서에서 한가지 예시를 찾아볼 수 있다.[56]
그의 2000년 저서에서 튜링 테스트와 관련된 여러 가지 다른 독창적인 점들 중에서, 문학자인 Peter Swirski는 자신이 'Swirski 테스트'라고 명명한 것에 대해, 특히 역 튜링 테스트라는 개념에 대해 자세히 논의했다. 그는 모든 표준적인 반대가 표준적인 버전에서 시작된 것은 아니더라도 대부분 극복할 수 있다고 지적했다.
이 아이디어를 계속 진행하고 있던, R.D. Hinshelwood[57]는 마음을 "마음을 인식하는 장치"라고 묘사했다. 도전 과제는 컴퓨터가 인간 또는 다른 컴퓨터와 상호작용하는지를 판단할 수 있는 것이다. 튜링이 답변을 시도했지만 아마도 우리가 전형적으로 인간으로 정의하는 방식으로 "생각" 할 수 있는 기계를 정의할 수 있을 만큼 충분히 높은 표준을 제시할 수 있는 원래 질문의 연장선이다.
CAPTCHA는 역 튜링 테스트의 한 형태이다. 웹사이트에서 일부 작업을 수행할 수 있도록 허용하기 전에 사용자에게 왜곡된 그래픽 이미지의 영숫자가 표시되고 해당 문자를 입력하도록 요청한다. 이는 자동화된 시스템이 사이트를 남용하는 것을 방지하기 위한 것이다. 그 이유는 왜곡된 이미지를 정확하게 읽고 재현할 수 있을 정도로 충분히 정교한 소프트웨어가 존재하지 않기 때문에(또는 일반 사용자가 이용할 수 없기 때문에), 그렇게 할 수 있는 모든 시스템은 사람일 가능성이 높다.
생성 엔진의 패턴을 분석하여 CAPTCHA를 어느 정도 정확하게 뒤집을 수 있는 소프트웨어는 CAPTCHA가 생성된 직후 개발되기 시작했다.[58] 2013년, 바이카리우스의 연구원들은 구글, 야후, 페이팔의 CAPTCHA문제를 최대 90%까지 해결할 수 있는 시스템을 개발했다고 발표했다.[59] 2014년에 구글 엔지니어들은 99.8%의 정확도로 캡차 문제를 해결할 수 있는 시스템을 시연했다.[60] 2015년 구글의 클릭 사기 왕이었던 Shuman Ghosemajumder는 다양한 형태의 사기를 가능하게 하기 위해 수수료를 지불하고 캡차 도전을 물리칠 사이버 범죄 사이트가 있다고 말했다.[61]
전자 건강 기록
ACM의 커뮤니케이션에서 출판된 서한[62]은 합성 환자 모집단을 생성하는 개념을 설명하고 가짜 환자와 실제 환자 간의 차이를 평가하기 위해 튜링 테스트의 변형을 제안한다. 이 서한에는 "HER의 경우 인공적으로 생성된 환자와 실제 살아 있는 환자를 쉽게 구별할 수 있지만, 기계가 스스로 그러한 결정을 내릴 수 있는 지능을 줄 수 있는가?"라고 기술되어 있고, 또한 이 서한에는 "가짜 환자의 신원이 공중 보건 문제가 되기 전에 합법적인 것"이라고 기술되어 있다. EHR시장은 더 나은 데이터 신뢰성과 진단 가치를 보장하기 위해 튜링 테스트와 같은 기법을 적용함으로써 이익을 얻을 수 있다. 따라서 새로운 기술은 환자의 이질성을 고려해야 하며 더 큰 복잡성을 가질 가능성이 있다."
최소 지능형 신호 테스트
최소 지능형 신호 테스트는 "튜링 테스트의 최대 추상화"로 크리스 맥키스트리에 의해 제안되었으며, 이 테스트에서는 바이너리 응답(true/false또는 yes/no)만 허용되며, 사고 능력에만 초점을 맞출 수 있다. 그것은 의인화 편견과 같은 문자 채팅 문제를 제거하고, 인간의 지능을 초과하는 시스템을 허용하는, 무분별한 인간의 행동을 모방할 필요가 없다. 하지만 질문들은 그들 스스로 서야 하고, 그것을 질문보다는 IQ테스트처럼 만들어야 한다. 그것은 일반적으로 인공 지능 프로그램의 성과를 측정할 수 있는 통계 자료를 수집하는 데 사용된다.[63]
허터 상
허터 상 주최자들은 자연어 압축은 튜링 테스트를 통과하는 것과 같은 어려운 AI문제라고 생각한다.
데이터 압축 테스트는 대부분의 버전 및 튜링 테스트의 변형에 비해 다음과 같은 장점이 있다.
그것은 두 기계 중 어느 것이 "더 지능적"인지를 직접 비교하는 데 사용될 수 있는 하나의 숫자를 제공한다.
컴퓨터가 판사에게 거짓말을 할 필요는 없다.
데이터 압축을 테스트로 사용할 때의 주요 단점은 다음과 같다.
이런 식으로 인간을 시험하는 것은 불가능하다.
이 테스트에서 어떤 특정한 "점수"가 인간 수준의 튜링 테스트를 통과하는 것인지는 알려지지 않았다.
튜링테스트의 미래에 대한 예측
튜링은 기계가 결국 테스트를 통과할 것이라고 예측했다.튜링은 2000년이 되면, 약 100MB의 저장장치가 있는 기계들이 5분간의 시험에서 인간판사의 30%를 속일 수 있을 것이고, 사람들은 더 이상 "생각하는 기계"라는 문구를 모순된다고 생각하지 않을 것이라고 추정했다.[3]그는 또한 기계 학습이 강력한 기계를 만드는 데 중요한 부분이 될 것이라고 예측했는데, 이것은 인공 지능 분야의 현대 연구원들이 그럴 듯하다고 생각하고있는 내용이다.[64]
19번째 중서부 인공지능과 인지 과학 회의에 제출된 2008년 논문에서, Shane T. Mueller박사는 "인지 10종"이라고 불리는 변형된 튜링 테스트가 5년 안에 완료될 수 있을 것이라고 예측했다.[65]
미래 학자 레이 커즈와일은 수십년에 걸친 기하 급수적인 기술 성장을 예측함으로써 튜링 테스트가 가능한 컴퓨터가 가까운 미래에 생산될 것이라고 예측했다. 1990년에 그는 2020년을 전후로 하는 시기일 것이라 예측했고.[66] 2005년에는 그의 추정치를 2029년으로 수정했다.[66]
Long Bet Project는 컴퓨터가 2029년까지 긴 튜링 테스트를 통과할 것인지에 대해 미치 카퍼(비관주의자)와 레이 커즈와일(낙관주의자)사이에 2만달러의 내기를 걸었다. LongNow 튜링 테스트에서 세명의 튜링 테스트 심판은 각각 4명의 튜링 테스트 응시자(즉, 컴퓨터와 세명의 튜링 테스트 인간 사진)의 온라인 인터뷰를 2시간 동안 수행하여 총 8시간의 면접을 실시한다. 베팅은 조건을 상세하게 명시한다.
↑Turing originally suggested a teleprinter, one of the few text-only communication systems available in 1950. (Turing 1950, 433쪽) harv error: 대상 없음: CITEREFTuring1950 (help)