Read this README in English.
IndoNLG adalah sebuah koleksi sumber untuk riset dalam topik Natural Language Generation (NLG) untuk Bahasa Indonesia dengan 6 jenis downstream task. Kami menyediakan kode untuk mereproduksi hasil dan model besar yang sudah dilatih sebelumnya (IndoBART dan IndoGPT2) yang dilatih dengan kumpulan tulisan berisi sekitar 4 miliar kata dalam 3 bahasa: Indonesia, Sunda, dan Jawa (Indo4B-Plus) dan lebih dari 25 GB dalam ukuran data teks. Proyek ini awalnya dimulai dari kerjasama antara universitas dan industri, seperti Institut Teknologi Bandung, Universitas Multimedia Nusantara, The Hong Kong University of Science and Technology, Universitas Indonesia, Gojek, Prosa.AI, dan DeepMind.
IndoNLG telah diterima oleh EMNLP 2021 dan Anda dapat menemukan detailnya di paper kami https://arxiv.org/pdf/2104.08200.pdf. Jika Anda menggunakan komponen apa pun di IndoNLG termasuk Indo4B-Plus, IndoBART, atau IndoGPT2 dalam pekerjaan Anda, harap kutip makalah berikut:
@inproceedings{cahyawijaya-etal-2021-indonlg,
title = "{I}ndo{NLG}: Benchmark and Resources for Evaluating {I}ndonesian Natural Language Generation",
author = "Cahyawijaya, Samuel and Winata, Genta Indra and Wilie, Bryan and Vincentio, Karissa and Li, Xiaohong and Kuncoro, Adhiguna and Ruder, Sebastian and Lim, Zhi Yuan and Bahar, Syafri and Khodra, Masayu and Purwarianti, Ayu and Fung, Pascale",
booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing", month = nov, year = "2021",
address = "Online and Punta Cana, Dominican Republic",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.emnlp-main.699",
pages = "8875--8898",
}
Pastikan anda mengecek pedoman kontribusi dan hubungi pengelola atau buka issue untuk mengumpulkan umpan balik sebelum memulai PR Anda.
Download dan unzip dataset dari [Tautan]
- Panduan untuk memuat model IndoBART dan menyempurnakan model pada tugas Machine Translation.
- Cek disini: tautan
Dimohon untuk memeriksa [tautan ini] (https://github.com/indobenchmark/indonlu/tree/master/submission_examples). Untuk setiap tugas, ada format yang berbeda. Setiap file pengiriman selalu dimulai dengan kolom index
(id sampel pengujian mengikuti urutan set pengujian yang disamarkan).
Untuk pengiriman, pertama-tama Anda perlu mengganti nama prediksi Anda menjadi pred.txt
, lalu membuat file menjadi zip. Setelah itu, Anda perlu mengizinkan sistem untuk menghitung hasilnya. Anda dapat dengan mudah memeriksa kemajuan anda di tab hasil
Anda.
Kami menyediakan akses ke kumpulan data pra-pelatihan kami yang besar.
- Indo4B-Plus Dataset Upscaled (~25 GB tidak dikompresi, 9.4 GB dikompresi) [Link].
Kami menyediakan Pretrained Language Model IndoBART dan IndoGPT [Link].
Kami menyediakan toolkit untuk menggunakan IndoNLGTokenizer di [Link].