학술 논문 속 ‘뒤틀린 문구(Tortured phrases)’: 정의와 이를 탐지하고 피하는 법

야틴드라 요시 | 2023년10월30일 | 조회수 502

일상적으로 디지털 거래 방식을 사용하는 사람들에게 캡차(CAPTCHA) 코드는 새롭거나 어려운 것이 아닙니다. 코드를 구성하는 숫자나 문자가 화면에 아무리 이상하게 보이거나 왜곡돼 보여도 인간의 뇌는 실수를 거의 하지 않습니다. 하지만, 겉보기에는 간단해 보이는 이 작업은 고도로 발전된 인공지능(AI)도 물리칠 수 있습니다. 캡차(CAPTCHA)는 "Completely Automated Public Turing test to tell Computers and Humans Apart (컴퓨터와 인간을 구별하기 위한 완전 자동화된 공개 튜링(Turing) 테스트)"의 줄임말이며, 실제로 효과적인 테스트입니다. 이론 컴퓨터 과학과 AI의 아버지로 여겨지는 영국 수학자 앨런 튜링(Alan Turing)의 이름을 따서 명명되었습니다.

이것이 왜 AI에게 어려운 일일까요? 주어진 문자의 본질적인 특성이 무엇인지 알고 있어야 하고, 표시되어 있는 동안에 그 문자나 숫자를 빠르고 자신 있게 식별해야 하기 때문에 어렵습니다. 예를 들면, 대문자 A는 기본적으로 밑이 빠진 삼각형이지만 "V"는 같은 것이 거꾸로 되어 있는 모양입니다.

자, 이것이 도전적인 일이라면, 단어의 의미를 해석하는 것이 얼마나 어려울지 생각해보세요. 왜냐하면 그 의미의 일부는 종종 인접한 단어나 맥락을 통해 알 수 있기 때문입니다. 그루초 막스(Groucho Marx)의 유명한 농담을 예로 들어봅시다. "Time flies like an arrow; fruit flies like a banana." 이것을 ‘이해하기’ 위해서, 당신은 "flies"가 첫 번째 문장에서는 동사이고, 두 번째 문장에서는 명사이며, "like"는 첫 번째 문장에서 접속사이지만, 두 번째 문장에서는 동사라는 것을 알아야 합니다. 여러분은 많은 단어들이 하나 이상의 의미를 가지고 있다는 것을 깨달았을 것입니다.

plant는 녹색 식물을 의미할 수도 있고 공장을 의미할 수도 있습니다. coach는 강사 또는 많은 사람들이 함께 여행하는 버스를 의미할 수 있습니다. 검색창에 'bank'라는 단어를 입력하면서 금융기관을 마음 속으로 떠올릴 수 있지만, 검색은 로봇이 수행하며, 로봇은 이 단어를 강 경계, 둑, 제방을 의미하는 것으로 해석하고 이에 대한 결과도 포함할 수 있습니다.

연구자들이 논문을, 그것도 외국어로 발표해야 한다는 압박을 받고 있다는 점을 감안할 때, 영어를 구사하지 않는 많은 연구자들은 모국어로 논문을 작성한 후에 소프트웨어 프로그램을 사용하여 영어로 번역을 할 수도 있습니다. 하지만 이 글을 통해 그 일이 결코 쉽지 않다는 것을 확인할 수 있을 것입니다. 어려움은 주로 두 가지 이유 때문에 발생합니다.

(1) 원래 언어의 단어들도 여러 가지 의미를 가지고 있으며, 컴퓨터는 항상 의도한 의미에 해당하는 단어들을 선택하지 않을 수 있습니다.

(2) 짝을 이룬 단어(들)에 따라 의미가 달라집니다. 어떤 쌍은 적절하고 어떤 쌍은 그렇지 않은데, 컴퓨터는 그 차이를 알 만큼 똑똑하지 않습니다. 간단한 단어쌍들을 예로 들면, artificial intelligence(인공지능), big data (빅데이터), random value (랜덤값) 등이 있습니다. 아주 간단하지만, 만약 이것들이 counterfeit consciousness (위조 의식), colossal information (복잡한 정보), irregular esteem (불규칙적인 판단)이라고 한다면 어떨까요? 이러한 단어쌍들은 결코 올바른 영어에서는 발생하지 않습니다.

사실, 이 단어쌍들은 너무 이상하고 희귀해서 이와 유사한 이상한 문구들이 일부 컴퓨터 과학자들의 호기심을 불러일으켰습니다. 그들은 마이크로프로세서와 마이크로시스템 그리고 몇몇 학술지에서 이런 문구들을 찾았습니다.¹ 추가 조사 결과, 이 문구들은 아마도 자동 번역/패러프레이즈 기능을 사용한 결과로 추정되었습니다.

이러한 소프트웨어는 모국어가 아닌 언어, 보통 영어로 연구 논문을 작성하는 연구자들에게 또다른 장애물이 됩니다. 이 '번역 표절'은 '유사성 비율'을 낮추기 위한 것으로, 이를 위해서는 저자들은 논문에서 언급된 문구를 피하면서, 동일한 의미를 전달하지만, 같은 단어를 사용하지 않는 문구로 대체해야 하는데, 영어에 대한 이해도가 낮으면 이는 더욱 어려운 작업이 됩니다. 여기에서 뒤틀린 문구(tortured phrases)나 이상한 영어 문구가 등장하게 됩니다.

컴퓨터 과학자들이 '뒤틀린 문구'라는 이름표를 붙인 이상한 문구들을 계속 조사한 결과, 위에서 언급한 문구들을 비롯하여 더 많은 문구들이 500여 편의 논문에 집중되어 있는 것을 발견하였습니다. 검색을 용이하게 하기 위해 카바낙(Cabanac)을 주도로 하는 컴퓨터 과학자들은 Problematic Paper Screener²라는 소프트웨어 패키지를 개발했습니다. 이는 "도둑을 잡기 위해 도둑을 사용"하듯이, 뒤틀린 문구나 이상한 영어 구문이 포함된 논문을 추적하는 데 사용되는 도구입니다. 논문 발간에 대한 압박감이 증가함에 따라 이러한 번역 표절은 더욱 널리 사용될 가능성이 높습니다. 2022년 1월까지 이들 컴퓨터 과학자들은 평판이 좋은 피어리뷰 학술지의 3,200편에 가까운 논문에서도 뒤틀린 문구나 이상한 영어 문구가 포함된 것을 확인했습니다.³

기술은 크게 발전했습니다. 50여년 전에, 필립 브로튼(Phillip Broughton)은 "체계적인 유행어 기획자(Systematic Buzz Phrase Projector)"를 발표했습니다.⁴ 이것은 30개의 유행어를 단순하게 3열 10행으로 배열한 표였으며, 각 열의 셀에는 위에서 아래로 0부터 9까지의 번호가 매겨져 있습니다. 인상적으로 들리지만 의미는 없는 문구를 생성하기 위해, 여러분이 해야 하는 일은 단지 세 자리 숫자를 생각한 다음, 열을 가로질러 각 숫자에 해당하는 단어를 사용해서 세 단어 문구를 만드는 것이었습니다. 그 후 실제 내용이 전혀 없지만 일반 논문으로 통과할 수 있는 연구 논문 전체를 생성할 수 있는 프로그램이 등장했습니다. 그 중 일부는 출판되기도 했습니다.

이력서에 가능한 한 빨리 더 많은 논문을 추가하고 싶은 연구자들은 이러한 수단에 의존할 수 있지만, 이는 해결책이 될 수 없습니다. 이러한 논문은 추적될 수 있으며, 저자는 논문을 철회해야 할 뿐 아니라 해당 논문을 통해 얻은 모든 혜택을 잃을 수도 있습니다. 또한 이러한 관행은 매우 비윤리적이며, 학술 출판의 근간인 신뢰를 약화시킵니다. 컴퓨터 프로그램을 사용하여 전체 논문을 생성하는 경우는 드물지만, AI 기반 도구를 사용하여 '유사도 비율'을 낮추는 것은 점점 더 일반화되고 있으며, AI를 사용하여 탐지하기도 점점 더 쉬워지고 있습니다.

연구자들이 출판한 논문 실적만으로 연구자를 평가하는 한, 뒤틀린 문구나 논문을 생성하는 소프트웨어와 이러한 패키지의 사용을 탐지하는 소프트웨어 간의 경쟁은 계속될 가능성이 높습니다. 이 경쟁을 완화시키는 책임은 연구자들을 평가하는 이들과 연구자 자신에게도 있다고 할 수 있습니다. 전자는 연구자들을 평가하기 위해 더 나은 방법을 고안해야 하는 한편, 후자는 이러한 부정적인 수단의 사용을 피하고, 더 나은 글쓰기를 위해 노력하거나 필요한 경우, 학술 교정/번역 서비스의 도움을 받을 수 있습니다.

1 Else H. 2021. “Tortured phrases” give away fabricated research papers. Nature 596: 328–329 [https://www.nature.com/articles/d41586-021-02134-0]

2 https://www.irit.fr/~Guillaume.Cabanac/problematic-paper-screener

3 Cabanac G, Labbé C, and Magazinov A. 2022. “Bosom peril” is not “breast cancer”: How weird computer-generated phrases help researchers find scientific publishing fraud [https://thebulletin.org/2022/01/bosom-peril-is-not-breast-cancer-how-weird-computer-generated-phrases-help-researchers-find-scientific-publishing-fraud/]

4 Broughton P. 1968. How to win at wordsmanship: the systematic buzz phrase projector. Newsweek (8 May): 104 [https://www.gsrc.ca/buzzword.htm]

스크랩하기

해당 기사를 스크랩해보세요!

지식은 모두에게 함께 공유되어야 한다는 것이 에디티지 인사이트의 이념입니다. 해당 사이트에서 제공되는 모든 기사는 Creative Commons license로 재포스팅 및 스크랩이 가능합니다. 아래의 가이드라인만 유념해주신다면 언제든지 무료로 에디티지 학술 전문가의 지식을 가져가실 수 있습니다!

주의 : 에디티지 학술 전문가들은 해당 콘텐츠를 만들기 위해 많은 시간과 노력을 쏟고 있습니다. 기사를 스크랩 및 재포스팅 하실 때는 명확한 출처를 남겨주시기 바랍니다.
이미지 재사용: 이미지를 원본이 아닌 편집 재사용하실 때는 에디티지 인사이트의 허가가 필요합니다.

코드를 복사하셔서 기사 공유를 원하시는 사이트에 적용하시면 에디티지 인사이트 기사를 가장 쉬운 방법으로 공유하실 수 있습니다.

<h2>학술 논문 속 ‘뒤틀린 문구(Tortured phrases)’: 정의와 이를 탐지하고 피하는 법 </h2> 일상적으로 디지털 거래 방식을 사용하는 사람들에게 캡차(CAPTCHA) 코드는 새롭거나 어려운 것이 아닙니다. 코드를 구성하는 숫자나 문자가 화면에 아무리 이상하게 보이거나 왜곡돼 보여도 인간의 뇌는 실수를 거의 하지 않습니다. 하지만, 겉보기에는 간단해 보이는 이 작업은 고도로 발전된 인공지능(AI)도 물리칠 수 있습니다. 캡차(CAPTCHA)는 "Completely Automated Public Turing test to tell Computers and Humans Apart (컴퓨터와 인간을 구별하기 위한 완전 자동화된 공개 튜링(Turing) 테스트)"의 줄임말이며, 실제로 효과적인 테스트입니다. 이론 컴퓨터 과학과 AI의 아버지로 여겨지는 영국 수학자 앨런 튜링(Alan Turing)의 이름을 따서 명명되었습니다. 이것이 왜 AI에게 어려운 일일까요? 주어진 문자의 본질적인 특성이 무엇인지 알고 있어야 하고, 표시되어 있는 동안에 그 문자나 숫자를 빠르고 자신 있게 식별해야 하기 때문에 어렵습니다. 예를 들면, 대문자 A는 기본적으로 밑이 빠진 삼각형이지만 "V"는 같은 것이 거꾸로 되어 있는 모양입니다. 자, 이것이 도전적인 일이라면, 단어의 의미를 해석하는 것이 얼마나 어려울지 생각해보세요. 왜냐하면 그 의미의 일부는 종종 인접한 단어나 맥락을 통해 알 수 있기 때문입니다. 그루초 막스(Groucho Marx)의 유명한 농담을 예로 들어봅시다. "Time flies like an arrow; fruit flies like a banana." 이것을 ‘이해하기’ 위해서, 당신은 "flies"가 첫 번째 문장에서는 동사이고, 두 번째 문장에서는 명사이며, "like"는 첫 번째 문장에서 접속사이지만, 두 번째 문장에서는 동사라는 것을 알아야 합니다. 여러분은 많은 단어들이 하나 이상의 의미를 가지고 있다는 것을 깨달았을 것입니다. plant는 녹색 식물을 의미할 수도 있고 공장을 의미할 수도 있습니다. coach는 강사 또는 많은 사람들이 함께 여행하는 버스를 의미할 수 있습니다. 검색창에 'bank'라는 단어를 입력하면서 금융기관을 마음 속으로 떠올릴 수 있지만, 검색은 로봇이 수행하며, 로봇은 이 단어를 강 경계, 둑, 제방을 의미하는 것으로 해석하고 이에 대한 결과도 포함할 수 있습니다. 연구자들이 논문을, 그것도 외국어로 발표해야 한다는 압박을 받고 있다는 점을 감안할 때, 영어를 구사하지 않는 많은 연구자들은 모국어로 논문을 작성한 후에 소프트웨어 프로그램을 사용하여 영어로 번역을 할 수도 있습니다. 하지만 이 글을 통해 그 일이 결코 쉽지 않다는 것을 확인할 수 있을 것입니다. 어려움은 주로 두 가지 이유 때문에 발생합니다.  (1) 원래 언어의 단어들도 여러 가지 의미를 가지고 있으며, 컴퓨터는 항상 의도한 의미에 해당하는 단어들을 선택하지 않을 수 있습니다.  (2) 짝을 이룬 단어(들)에 따라 의미가 달라집니다. 어떤 쌍은 적절하고 어떤 쌍은 그렇지 않은데, 컴퓨터는 그 차이를 알 만큼 똑똑하지 않습니다. 간단한 단어쌍들을 예로 들면, artificial intelligence(인공지능), big data (빅데이터), random value (랜덤값) 등이 있습니다. 아주 간단하지만, 만약 이것들이 counterfeit consciousness (위조 의식), colossal information (복잡한 정보), irregular esteem (불규칙적인 판단)이라고 한다면 어떨까요? 이러한 단어쌍들은 결코 올바른 영어에서는 발생하지 않습니다. 사실, 이 단어쌍들은 너무 이상하고 희귀해서 이와 유사한 이상한 문구들이 일부 컴퓨터 과학자들의 호기심을 불러일으켰습니다. 그들은 마이크로프로세서와 마이크로시스템 그리고 몇몇 학술지에서 이런 문구들을 찾았습니다.1 추가 조사 결과, 이 문구들은 아마도 자동 번역/패러프레이즈 기능을 사용한 결과로 추정되었습니다.  이러한 소프트웨어는 모국어가 아닌 언어, 보통 영어로 연구 논문을 작성하는 연구자들에게 또다른 장애물이 됩니다. 이 '번역 표절'은 '유사성 비율'을 낮추기 위한 것으로, 이를 위해서는 저자들은 논문에서 언급된 문구를 피하면서, 동일한 의미를 전달하지만, 같은 단어를 사용하지 않는 문구로 대체해야 하는데, 영어에 대한 이해도가 낮으면 이는 더욱 어려운 작업이 됩니다. 여기에서 뒤틀린 문구(tortured phrases)나 이상한 영어 문구가 등장하게 됩니다. 컴퓨터 과학자들이 '뒤틀린 문구'라는 이름표를 붙인 이상한 문구들을 계속 조사한 결과, 위에서 언급한 문구들을 비롯하여 더 많은 문구들이 500여 편의 논문에 집중되어 있는 것을 발견하였습니다. 검색을 용이하게 하기 위해 카바낙(Cabanac)을 주도로 하는 컴퓨터 과학자들은 Problematic Paper Screener2라는 소프트웨어 패키지를 개발했습니다. 이는 "도둑을 잡기 위해 도둑을 사용"하듯이, 뒤틀린 문구나 이상한 영어 구문이 포함된 논문을 추적하는 데 사용되는 도구입니다. 논문 발간에 대한 압박감이 증가함에 따라 이러한 번역 표절은 더욱 널리 사용될 가능성이 높습니다. 2022년 1월까지 이들 컴퓨터 과학자들은 평판이 좋은 피어리뷰 학술지의 3,200편에 가까운 논문에서도 뒤틀린 문구나 이상한 영어 문구가 포함된 것을 확인했습니다.3 기술은 크게 발전했습니다. 50여년 전에, 필립 브로튼(Phillip Broughton)은 "체계적인 유행어 기획자(Systematic Buzz Phrase Projector)"를 발표했습니다.4 이것은 30개의 유행어를 단순하게 3열 10행으로 배열한 표였으며, 각 열의 셀에는 위에서 아래로 0부터 9까지의 번호가 매겨져 있습니다. 인상적으로 들리지만 의미는 없는 문구를 생성하기 위해, 여러분이 해야 하는 일은 단지 세 자리 숫자를 생각한 다음, 열을 가로질러 각 숫자에 해당하는 단어를 사용해서 세 단어 문구를 만드는 것이었습니다. 그 후 실제 내용이 전혀 없지만 일반 논문으로 통과할 수 있는 연구 논문 전체를 생성할 수 있는 프로그램이 등장했습니다. 그 중 일부는 출판되기도 했습니다. 이력서에 가능한 한 빨리 더 많은 논문을 추가하고 싶은 연구자들은 이러한 수단에 의존할 수 있지만, 이는 해결책이 될 수 없습니다. 이러한 논문은 추적될 수 있으며, 저자는 논문을 철회해야 할 뿐 아니라 해당 논문을 통해 얻은 모든 혜택을 잃을 수도 있습니다. 또한 이러한 관행은 매우 비윤리적이며, 학술 출판의 근간인 신뢰를 약화시킵니다. 컴퓨터 프로그램을 사용하여 전체 논문을 생성하는 경우는 드물지만, AI 기반 도구를 사용하여 '유사도 비율'을 낮추는 것은 점점 더 일반화되고 있으며, AI를 사용하여 탐지하기도 점점 더 쉬워지고 있습니다. 연구자들이 출판한 논문 실적만으로 연구자를 평가하는 한, 뒤틀린 문구나 논문을 생성하는 소프트웨어와 이러한 패키지의 사용을 탐지하는 소프트웨어 간의 경쟁은 계속될 가능성이 높습니다. 이 경쟁을 완화시키는 책임은 연구자들을 평가하는 이들과 연구자 자신에게도 있다고 할 수 있습니다. 전자는 연구자들을 평가하기 위해 더 나은 방법을 고안해야 하는 한편, 후자는 이러한 부정적인 수단의 사용을 피하고, 더 나은 글쓰기를 위해 노력하거나 필요한 경우, <a href="https://www.editage.co.kr/?utm_source=editageinsights&amp;utm_medium=article&amp;utm_campaign=editage-insights-tortured-phrases--kr" target="_blank">학술 교정/번역</a> 서비스의 도움을 받을 수 있습니다. 1 Else H. 2021. “Tortured phrases” give away fabricated research papers. Nature 596: 328–329 [<a href="https://www.nature.com/articles/d41586-021-02134-0]">https://www.nature.com/articles/d41586-021-02134-0]</a>2 <a href="https://www.irit.fr/~Guillaume.Cabanac/problematic-paper-screener">https://www.irit.fr/~Guillaume.Cabanac/problematic-paper-screener</a>3 Cabanac G, Labbé C, and Magazinov A. 2022. “Bosom peril” is not “breast cancer”: How weird computer-generated phrases help researchers find scientific publishing fraud [<a href="https://thebulletin.org/2022/01/bosom-peril-is-not-breast-cancer-how-weird-computer-generated-phrases-help-researchers-find-scientific-publishing-fraud/]">https://thebulletin.org/2022/01/bosom-peril-is-not-breast-cancer-how-weird-computer-generated-phrases-help-researchers-find-scientific-publishing-fraud/]</a>4 Broughton P. 1968. How to win at wordsmanship: the systematic buzz phrase projector. Newsweek (8 May): 104 [<a href="https://www.gsrc.ca/buzzword.htm]">https://www.gsrc.ca/buzzword.htm]</a> <a href="https://www.editage.co.kr/insights/tortured-phrases-what-they-are-how-they-are-detected-and-how-to-avoid-them">학술 논문 속 ‘뒤틀린 문구(Tortured phrases)’: 정의와 이를 탐지하고 피하는 법 </a>는 <a href="https://www.editage.co.kr/insights/">에디티지 인사이트</a>에서 제공되었습니다.

위 코드를 복사하시어 원하시는 곳에 다시 포스팅 하실 수 있습니다.