본문 바로가기

TECH

(10)
[2022.09.14]진화하는 악성 댓글, AI가 걸러준다! 부제 : St. Patrick을 활용한 댓글 필터링 기술 진화하는 악성 댓글 유튜브나 SNS를 볼 때 불쾌한 댓글들 때문에 눈쌀이 찌푸려지는 경우가 많습니다. 욕설 가득한 악성 댓글들부터, 원하지 않는 광고 댓글까지… 유쾌하고 건전한 댓글들은 영상을 보는 데에 재미를 더해주지만, 지나친 혐오를 담는 댓글들은 컨텐츠에 방해가 되고 다른 이들의 혐오를 조장하기까지 합니다. 유튜버들은 건전한 댓글 문화를 만들기 위해 자신의 영상에 달리는 악플과 광고들을 직접 지우는 작업이 필요합니다. 유튜브에서 제공하는 자동 필터링 기능을 활용할 수 있지만, 이는 한계가 있습니다. 이 기능은 사용자가 차단할 단어들을 입력하면 이것이 포함된 댓글을 자동으로 삭제해주는 기능입니다. 하지만 모든 종류의 댓글를 파악하여 직접 입력하..
[2022.08.30] 불편한 이야기는 그만..! 불편한 이야기는 그만..! St. Patrick 민감주제 필터링 기술 친구들과 즐겁게 이야기하다가 불편한 주제가 나오면 자리를 피하고 싶을 때가 있죠? 욕설이 가득하거나 혐오를 담은 그런 대화는 아니지만, 굳이 얘기하고 싶지 않은 그런 주제들이 있을 겁니다. 이는 메신저에서 대화할 때에도 마찬가지 입니다. 메신저 상에서 민감한 주제에 대한 이야기는 나누고 싶지 않을 때, 저희 St. Patrick이 도와줄 수 있습니다. 어떤 경우에 사용할 수 있을지 사연을 통해 알아볼까요? 저에겐 정치에 관심이 아주 많은 친구가 있습니다. 정치 얘기를 아주 좋아해서 만날 때마다 그 날의 시사 이슈를 읊어주고 토론하기를 좋아합니다. 처음에는 저에게도 꽤 유익한 대화들이 많았어요. 하지만 흥미롭게 얘기 나눌 수 있는 것도 ..
[2022.01.10] 2가지 새 데이터셋 공개 2가지 새 데이터셋을 공개하게 되어 소개해 드립니다. 작년에 있었던 인공지능 그랜드 챌린지 중 두 개의 과제에 튜닙이 참여했었는데요, 이 대회는 여느 대회와 다르게 별도의 학습 데이터를 제공하지 않아, 참여팀들이 각자 학습 데이터를 만들어야 했습니다. 저희도 나름 공을 들여 학습 데이터와 validation 데이터를 만들었었습니다. 이제 대회가 끝나 이 데이터를 좀 더 보완하여 커뮤니티에 공개하기로 결정했습니다. 하나는 자연어로 된 수학문제에 대해 풀이법을 파이썬 코드로 생성하는 과제를 위한 데이터구요, (https://github.com/tunib-ai/KMWP) 다른 하나는 대화를 보고 그 클래스(위협 여부, 위협은 4개의 세부 클래스)를 예측하기 위한 데이터입니다. (https://github.co..
[2021.12.21] OSLO 공개! 안녕하세요. 튜닙의 머신러닝 엔지니어 고현웅입니다. 이번에 저희가 그동안 개발해오던 라지스케일 모델링 프레임워크 OSLO를 오픈소스로 공개했습니다.OSLO는 3D 병렬화, 커널최적화, 대용량 데이터 처리 등, 라지스케일 모델링에 필요한 여러가지 기술들을 제공합니다. OSLO의 가장 큰 특징은 기존의 Megatron-LM 기반의 프레임워크들과는 다르게 Hugging Face Transformers를 기반으로 설계 되었다는 점인데요. 이로 인해 Model Hub와 연동이 가능합니다. 예를 들어 Hub에 올라와 있는 GPTJ 등의 모델을 다운로드 받아서 손쉽게 파인 튜닝 할 수 있습니다. 더 자세한 정보는 다음 깃헙 링크를 확인해주세요! https://github.com/tunib-ai/oslo GitHub ..
[2021.10.28] Large-scale language modeling tutorials with PyTorch Parallelformers (https://github.com/tunib-ai/parallelformers)의 저자 고현웅 님이 10월 28일 오후 한국과학기술정보연구원(KISTi)들을 대상으로 온라인 강연을 했습니다. 본 강연은 Large Scale의 데이터 병렬처리 컴퓨팅에 대한 소개와 튜토리얼로 진행되었는데요, 아래에 발표 내용이 요약되어 있습니다. 발표자료는 여기(https://github.com/tunib-ai/large-scale-lm-tutorials)서 보실 수 있습니다. GitHub - tunib-ai/large-scale-lm-tutorials: Large-scale language modeling tutorials with PyTorch Large-scale language mode..
[2021.09.18] TUNiB-Electra 공개 TUNiB-Electra 안녕하세요. TUNiB AI 엔지니어 김수환입니다. 이번에 TUNiB에서 [TUNiB-Electra]() 모델을 공개했습니다. 🎉 🎉 이번 공개에서는 한-영 bilingual 모델과 한국어 모델을 각각 Small/Base 사이즈로 공개했으며, Hugging Face transformers 라이브러리로 쉽게 이용이 가능합니다. 해당 포스트 혹은 TUNiB-Electra에 대해 궁금한 부분이 있으시다면 언제든지 kaki.ai@tunib.ai 로 문의해주세요. GitHub Repo: TUNiB Electra의 등장 배경을 소개합니다. TUNiB Electra를 제작하게 된 두 가지 동기가 있습니다. 첫 번째 동기는 현재 공개된 한국어 사전학습 인코더 모델들은 대부분 monolingua..
[2021.08.02] BlenderBot 2.0_TUNiB 안녕하세요. TUNiB의 NLP Engineer 나영윤이라고 합니다. 최근 FAIR(Facebook AI Research)에서 BlenderBot 1.0 의 문제들을 어느정도 해결한 BlenderBot 2.0을 발표하였습니다. 이번 블로그 글은 BlenderBot1.0 은 어떠한 문제점이 있었고 BlenderBot 2.0은 해당 문제를 어떻게 해결했는지 살펴보고자 합니다. 1. Long-term Memory 문제를 해결하지 못했다. Meena, BlenderBot 1.0과 같은 최신 Open-domain 챗봇은 어느정도의 공감능력과 사람 같은 대화를 생성해 내는 능력을 보여주었습니다. 또한 GPT-3는 충분히 많은 데이터와 모델 사이즈를 키워 모델에 적절한 프롬프트를 주면 여러 태스크도 해결 할 수 있다..
[2021.07.26] Parallelformers: Journey to deploying big models_TUNiB Hi, I am Hyunwoong Ko, a machine learning engineer in TUNiB. Recently, TUNiB publicly released Parallelformers, an efficient model parallelization library for web server deployments. In this article, I’d like to discuss how Parallelformers came into being and its operating mechanism. If you have any questions feel free to contact me at kevin.ko@tunib.ai. Introducing the creation of Parallelforme..