corlab에서 한글 처리 문제 질문드립니다. (GPT-2를 이용한 text 생성 모델에 한글 적용)

질문 포럼분류: 강의 관련 질문corlab에서 한글 처리 문제 질문드립니다. (GPT-2를 이용한 text 생성 모델에 한글 적용)
성진희 질문함 3년 전

안녕하세요. 좋은 강의 감사드립니다.
제가 GPT-2를 이용한 text 생성 모델을 구글 콜랩에서 돌릴려고 하는데요

Train a GPT-2 Text-Generating Model w/ GPU – Colaboratory (google.com)

문제가 한글 문서를 넣으면 다음과 같이 깨져서 나옵니다.
인터넷에서 검색해서 찾은 어린왕자 txt를 다운로드 했습니다.
https://m.blog.naver.com/PostView.nhn?blogId=dmsah10&logNo=40068395879&proxyReferer=https:%2F%2Fwww.google.com%2F

그러나 제가 가지고 오면 다음과 같이 깨져서 나오는데요,
이런 한글 문제는 어떻게 처리해야 할까요?

View post on imgur.com

인터넷 검색으로 찾아 본걸로 해도 안되구요

file_name = “어린왕자-dmsah10.txt” encoding = ‘euc-kr'”
이렇게 해도 안되구요.

도움 부탁드립니다.

1 답변
샵투 스탭 답변함 3년 전

안녕하세요. 상세하게 질문주셔서 감사드립니다.
말씀주신 대로 적용하니 한글이 깨지는 군요. 그래서 저는 위의 한글.txt파일을 unicode 로 저장해서 했습니다.
그러면 한글이 안깨지는 군요.
제가 적용한 에디터는 edit plus였습니다.

  1. unicode로 말씀주신 txt 변환

View post on imgur.com

2. corlab에서 확인

View post on imgur.com

shop2school 제휴 문의1-302-613 -1812 |이메일 info@shop2world.com | 법인명: SHOP2WORLD, INC. | 2801 CENTERVILLE RD 1ST FLOOR PMB 8085 WILMINGTON DE 19808 USA.