Apa itu Google Colab?
Google Colab atau Collaboratory adalah layanan cloud computing gratis dari Google yang memungkinkan para pengguna untuk membuat dan mengeksekusi kode Python secara online. Dalam Google Colab, pengguna dapat mengakses sumber daya komputasi yang sangat besar seperti CPU, GPU, dan TPU untuk menjalankan kode machine learning dan deep learning.
Dalam Colab, pengguna dapat membuat sebuah notebook Python yang berisi kode dan dokumentasi untuk dijalankan dan dimodifikasi. Namun, ketika menggunakan Colab untuk proyek machine learning, setiap pengguna memerlukan dataset yang cukup besar untuk melatih modelnya. Jadi, bagaimana cara menghosting dataset agar dapat digunakan di Google Colab? Simak penjelasannya di bawah ini.
Apa itu Hosting Dataset?
Hosting dataset merupakan cara untuk menyimpan dataset secara online agar dapat diakses dari mana saja dan kapan saja. Hosting dataset sangat penting bagi para peneliti dan pengembang machine learning karena dataset yang cukup besar tidak bisa disimpan pada komputer pribadi biasa. Dalam hal ini, hosting dataset memungkinkan kita untuk menyimpan dataset di dalam server yang dapat diakses oleh banyak orang.
Hosting dataset yang kita gunakan pada Google Colab biasanya menggunakan Google Drive atau GitHub. Dengan meng-host dataset di Google Drive atau GitHub, dataset akan lebih mudah diakses dan digunakan pada Google Colab.
Cara Hosting Dataset untuk Google Colab Menggunakan Google Drive
Pertama-tama, buatlah sebuah folder di dalam Google Drive untuk menyimpan dataset yang akan di-hosting. Setelah itu, buka Colab dan buatlah sebuah notebook Python. Pada bagian pertama dari notebook, tambahkan kode berikut ini untuk menghubungkan Google Drive dengan Colab:
from google.colab import drivedrive.mount('/content/drive')
Setelah itu, upload dataset yang ingin di-hosting ke dalam folder yang sudah dibuat tadi di Google Drive. Kemudian, buat sebuah variabel untuk menampung path dari dataset tersebut di Google Drive. Contohnya seperti ini:
dataset_path = '/content/drive/My Drive/Folder Dataset/nama_dataset'
Setelah itu, kita sudah siap untuk menggunakan dataset pada Colab. Contohnya, bisa menggunakan kode berikut ini:
import pandas as pddf = pd.read_csv(dataset_path)
Dalam contoh di atas, kita menggunakan pandas untuk membaca dataset dalam format CSV. Namun, kamu juga bisa menggunakan library lain seperti numpy, keras, atau tensorflow untuk membaca dataset dalam format yang berbeda.
Cara Hosting Dataset untuk Google Colab Menggunakan GitHub
Selain menggunakan Google Drive, kita juga bisa meng-host dataset di GitHub agar lebih mudah diakses dan didistribusikan. Untuk meng-host dataset di GitHub, kamu hanya perlu membuat sebuah repository baru yang berisi dataset tersebut.
Setelah repository sudah dibuat, kamu bisa membuat sebuah file Python yang berisi kode untuk mengakses dataset di GitHub. Dalam file tersebut, kamu perlu menambahkan link url dari raw file dataset yang ada di GitHub. Contohnya seperti ini:
dataset_url = 'https://raw.githubusercontent.com/user/repo/master/dataset.csv'df = pd.read_csv(dataset_url)
Dalam contoh di atas, kita menggunakan pandas untuk membaca dataset dalam format CSV yang ada di GitHub. Namun, kamu juga bisa menggunakan library lain untuk membaca dataset dalam format yang berbeda.
Kesimpulan
Hosting dataset adalah langkah penting dalam proyek machine learning karena memungkinkan kita untuk mengakses dataset dari mana saja dan kapan saja. Dalam Google Colab, kita bisa menggunakan Google Drive atau GitHub untuk meng-host dataset. Dalam artikel ini, kita telah membahas cara meng-host dataset menggunakan kedua platform tersebut. Semoga artikel ini bermanfaat bagi para pengguna Google Colab yang sedang melakukan proyek machine learning.