Showing

허깅페이스 한국어 데이터셋 본문

컴퓨터 공학, 전산학/인공지능,딥러닝

허깅페이스 한국어 데이터셋

RabbitCode 2024. 11. 12. 20:47

 

한국어 자연어 처리(NLP)와 관련된 다양한 작업을 수행하기 위해서는 적합한 모델을 선택하는 것이 중요하다. 한국어 감성 분석, 질문-답변, 텍스트 생성, 기계 번역 등의 NLP 태스크를 수행하기 위해서는 충분한 데이터셋이 필요하다. 아래에 소개된 모델들은 한국어 데이터셋으로 학습된 모델들이다.

이 모델들이 사용한 데이터셋의 상세한 정보는 각 모델의 공식 문서나 출처에서 확인할 수 있다.

 

 

1. sangrimlee/bert-base-multilingual-cased-nsmc

한국어 감성 분석을 위해 "sangrimlee/bert-base-multilingual-cased-nsmc" 모델을 사용할 수 있다.

https://huggingface.co/sangrimlee/bert-base-multilingual-cased-nsmc

 

sangrimlee/bert-base-multilingual-cased-nsmc · Hugging Face

BERT multilingual basecased finetuned with NSMC This model is a fine-tune checkpoint of bert-base-multilingual-cased, fine-tuned on NSMC(Naver Sentiment Movie Corpus). Usage You can use this model directly with a pipeline for sentiment-analysis: >>> from t

huggingface.co

 

nsmc는 네이버 영화 리뷰 데이터셋(네이버 감성 분석 코퍼스)이다.

이 데이터셋은 네이버 영화 리뷰의 감성 분석을 위해 만들어졌으며, 긍정과 부정 리뷰를 구분하는 데 사용된다.

모델은 네이버 영화 리뷰 데이터로 학습된 BERT 모델을 사용하여 텍스트의 감정을 분석하는 기능을 제공한다.

 

 

2. klue/bert-base-mrc

한국어 질문-답변(QA) 작업을 위해 "klue/bert-base-mrc" 모델을 사용할 수 있다.

 

https://huggingface.co/ainize/klue-bert-base-mrc

 

ainize/klue-bert-base-mrc · Hugging Face

bert-base for QA Code: See Ainize Workspace klue-bert-base-mrc DEMO: Ainize DEMO klue-bert-base-mrc API: Ainize API Overview Language model: klue/bert-base Language: Korean Downstream-task: Extractive QA Training data: KLUE-MRC Eval data: KLUE-MRC Usage In

huggingface.co

klue는 한국어 언어 이해 평가(KLUE) 프로젝트의 약자로, KLUE는 한국어 자연어 처리(NLP)를 위한 다양한 태스크와 데이터를 제공하는 프로젝트이다.

 

3. skt/kogpt2-base-v2

SKT에서 파인튜닝한 한국어 GPT-2 모델인 "skt/kogpt2-base-v2"도 있다.

이 모델은 SKT AI 연구팀이 한국어 데이터를 사용해 GPT-2를 학습시켜 생성된 모델이다. 

https://huggingface.co/skt/kogpt2-base-v2

 

skt/kogpt2-base-v2 · Hugging Face

📚 sappho192/ffxiv-ja-ko-translator-demo 🏃 Unggi/kogpt2-generation-for-wrting-education 📉 jhchoi8984/skt-kogpt2-base-v2 📉 sappho192/aihub-ja-ko-translator-demo

huggingface.co

코드에서 text라는 입력 문장을 기반으로 새로운 문장을 생성하는 작업을 수행한다.. 이를 통해 텍스트 생성(Text Generation) 작업을 할 수 있다.

4. Helsinki-NLP/opus-mt-ko-en

 

Helsinki-NLP/opus-mt-ko-en" 모델을 불러와 한국어 텍스트를 영어로 번역할 수도 있다.

https://huggingface.co/Helsinki-NLP/opus-mt-ko-en

 

Helsinki-NLP/opus-mt-ko-en · Hugging Face

🚀 Helsinki-NLP/opus-translate 🔥 fantaxy/Stable-Audio-Open-Zero 🌖 fantaxy/blogger-send-webhook-auto-image 😻 ginipick/FLUX-Prompt-Generator

huggingface.co

 

Seq2Seq(Sequence-to-Sequence) 번역 모델을 사용하는  AutoModelForSeq2SeqLM과 AutoTokenizer를 활용, 사용된 opus-mt-ko-en 모델은 Helsinki-NLP에서 제공하는 한국어-영어 번역을 위한 모델이다.

generate 메서드를 사용하여 입력된 문장을 번역하는 작업을 수행한다.