[2022.09.14]진화하는 악성 댓글, AI가 걸러준다!

부제 : St. Patrick을 활용한 댓글 필터링 기술

진화하는 악성 댓글

유튜브나 SNS를 볼 때 불쾌한 댓글들 때문에 눈쌀이 찌푸려지는 경우가 많습니다. 욕설 가득한 악성 댓글들부터, 원하지 않는 광고 댓글까지… 유쾌하고 건전한 댓글들은 영상을 보는 데에 재미를 더해주지만, 지나친 혐오를 담는 댓글들은 컨텐츠에 방해가 되고 다른 이들의 혐오를 조장하기까지 합니다.

유튜버들은 건전한 댓글 문화를 만들기 위해 자신의 영상에 달리는 악플과 광고들을 직접 지우는 작업이 필요합니다. 유튜브에서 제공하는 자동 필터링 기능을 활용할 수 있지만, 이는 한계가 있습니다. 이 기능은 사용자가 차단할 단어들을 입력하면 이것이 포함된 댓글을 자동으로 삭제해주는 기능입니다. 하지만 모든 종류의 댓글를 파악하여 직접 입력하기는 매우 비효율적이고, 악랄한 광고들은 더욱 교묘하게 변형이 되어서 등장합니다.

예를 들어, ‘세끈한 누나 레전드 핫 직캠’ 이라는 댓글을 차단하고 싶습니다. 그래서 ‘세끈한'을 차단 단어로 설정하였는데…

새끈한 누나 레전드 핫 직캠 섹끈한 누나 레ㅣ전드 핫 직캠 ㅅㅔ끈한 누나 레전드 핫 직캠 ㅅH끈한 누나 레;전드 핫 직캠 ㅅㅓㅣ끈한 누나 레전드 hot 직캠

이런 기출 변형 댓글들이 귀신처럼 다시 생겨납니다. 이렇게 무한정으로 변형되는 단어들을 일일이 차단 단어로 설정해주는 것은 너무 어려워 보입니다.

또한 ‘누나' 혹은 ‘레전드’를 차단 단어로 잡기에는, 이 단어들이 포함된 정상적인 댓글까지 지워버릴 수도 있습니다.

인공지능을 활용한다면 댓글의 전체적인 의미를 파악하여 해당 댓글이 차단의 대상인지 아닌지를 자동으로 판단할 수 있습니다. 사용자가 악성 댓글을 직접 찾아볼 필요도 없이요!

TUNiB의 Safety Check 엔진

튜닙의 Safety Check 모델은 이러한 작업을 아주 섬세한 수준까지 가능하게 해줍니다. 문장을 입력하면 해당 문장의 혐오 표현, 혐오 대상, 혐오 정도, 민감주제, 그리고 순화된 표현까지 분석해줍니다.

▶ Toxicity

혐오 대상 및 분류는 성혐오, 인종/출신지, 직업, 연령, 정치, 종교, 외설 등 11가지로 아주 섬세한 분석이 가능합니다. 이를 활용한다면, 차단하고 싶은 주제의 댓글만 필터링 할 수도 있습니다. 예를 들어 정치적인 주제의 영상을 올려서 정치적인 것에 대해서는 자유롭게 발언할 수 있는 댓글 환경을 조성하고 싶습니다. 클릭을 유도하는 외설적인 표현을 제외하고는 발언의 제약을 최소화하고 싶다면, 외설로 탐지되는 댓글만 차단할 수 있습니다.

혐오 정도는 4단계로 ‘정상’, ‘주의’, ‘명백’, ‘심각’으로 판단될 수 있습니다. 원하는 혐오 정도에 따라 다르게 필터링하도록 설정할 수도 있습니다. 적당한 수위의 댓글들은 허용하되, ‘명백'이나 ‘심각'으로 판별되는 댓글들은 걸러지도록 할 수 있겠죠.

▶ Moderated & Highlight

튜닙의 모델은 여기서 더 나아가, 혐오 표현 하이라이팅과 순화된 표현까지 제공합니다. 문장에서 혐오 표현이 어디에서 사용되었는지, 그 표현이 무엇에 대한 혐오 표현인지를 하이라이팅을 통해 알려줍니다. 그리고 그 표현들을 순화된 표현으로 바꾸어서 제공해줍니다.

이를 활용한다면 댓글을 그냥 통째로 지워버리는 것이 아니라, 작성자의 의도는 전달하되 혐오의 의미만 제거해서 필터링 해줄 수 있습니다. 이렇게 한다면 작성자들의 표현의 자유가 지나치게 억압되지 않으면서도 건전한 댓글을 유지할 수 있습니다.

▶ Sensitive Topics

민감주제는 혐오 분류와 다르게, 혐오의 내용이 담기지 않았더라도 민감한 주제와 관련된 문장일 경우에 탐지합니다. 현재는 정치, NSFW, 종교, 마약, 의학조언까지 5가지 항목으로 탐지됩니다. 민감주제의 활용 방안에 대해 더 자세히 알고 싶다면, 기존 게시물을 확인해보세요! https://tunib.tistory.com/entry/1-메신저-상-민감주제-탐지

댓글 필터링 기능 적용

튜닙의 Safety Check 모델을 댓글을 필터링하기 위해 적용한다면 어떤 모습일까요? 아래와 같이 차단해야할 광고들 뿐만 아니라, 악성 댓글까지 걸러낼 수 있습니다.

사용 목적에 맞게끔 혐오 정도나 혐오 분류에 따라 필터링할 수도 있고, 순화된 표현으로 댓글을 바꿔줄 수도 있습니다. 이를 통해 운영자가 직접 댓글을 하나하나 삭제해야하는 수고를 덜 수 있고, 쉽고 간편하게 건전한 댓글 문화를 형성할 수 있습니다.

튜닙의 Safety Check 모델을 활용한 댓글 필터링 기능은 영상 댓글 뿐만 아니라 SNS 게시물 댓글, 뉴스 기사 댓글, 게시판 댓글 등등 다양한 곳에서 활용될 수 있습니다.

튜닙의 데모 페이지에서 직접 사용해보세요!

https://demo.tunibridge.ai/safety

TUNiBridge Demos

demo.tunibridge.ai

'TECH' 카테고리의 다른 글

[2022.08.30] 불편한 이야기는 그만..! (0)	2022.08.30
[2022.01.10] 2가지 새 데이터셋 공개 (0)	2022.01.10
[2021.12.21] OSLO 공개! (0)	2021.12.21
[2021.10.28] Large-scale language modeling tutorials with PyTorch (0)	2021.11.04
[2021.09.18] TUNiB-Electra 공개 (0)	2021.11.04