Today, I will

캐글에서 데이터를 가져오기 본문

Computer Science/인공지능,딥러닝

캐글에서 데이터를 가져오기

Lv.Forest 2024. 9. 30. 20:30

 

위 캡처 데이터를 캐글로부터 가져오는 과정을 기록한다.

 

내 프로필 > 세팅 > API > create New Token을 누르면 json(유저키)을 받을 수 있다.

 

복사해서...

우분투에서 작업하기 때문에 home으로 그대로 복사해서 넣어준다.

홈에서 캐글 인스톨

ubuntu@you:~$ mkdir ~/.kaggle
ubuntu@you:~$ cp kaggle.json ~/.kaggle/kaggle.json
ubuntu@you:~$ chmod 600 ~/.kaggle/kaggle.json

위 명령어 뜻은 다음과 같다.

mkdir ~/.kaggle

    • ~/.kaggle 디렉토리를 생성. ~는 홈 디렉토리를 나타내므로, 사용자 홈 디렉토리 내에 .kaggle이라는 폴더를 만든다. .kaggle은 숨김 폴더로, 주로 Kaggle API 관련 설정 파일이 저장되는 위치
  1. cp kaggle.json ~/.kaggle/kaggle.json
    • 현재 디렉토리에 있는 kaggle.json 파일을 ~/.kaggle/ 디렉토리로 복사. 이 파일은 Kaggle API에 접근하기 위한 인증 정보(토큰)를 포함한다. Kaggle API를 사용하려면 반드시 이 파일을 적절한 위치에 두어야 한다.
  2. chmod 600 ~/.kaggle/kaggle.json
    • ~/.kaggle/kaggle.json 파일의 권한을 설정한다. 600은 해당 파일을 소유자만 읽고 쓸 수 있게끔 설정하는 권한이다. 이 작업을 통해 다른 사용자가 이 파일을 열람하지 못하도록 보안 수준을 강화할 수 있다.

그 다음 캐글로부터 데이터를 가져온다.

ubuntu@you:~$ kaggle competitions download -c santander-product-recommendation

https://www.kaggle.com/competitions/santander-product-recommendation/data

 

Santander Product Recommendation

Can you pair products with people?

www.kaggle.com

해당 홈페이지에서 경연참가를 해주어야 데이터를 다운로드 받을 수 있다.

다운로드를 받았으면 zip 파일을 풀어주어야 한다.

 

zip 파일을 다 풀어준 다음에는 code 나 콘솔로 확인해볼 수 있다.

 

살펴보면 알 수 있다시피 결측치도 보이므로, 데이터 전처리가 필요하다는 것을 알 수 있다.