youngster.id - Perusahaan teknologi asal Rusia Yandex meluncurkan YaFSDP, sebuah metode open-source untuk melatih model machine learning bahasa atau LLM (Large Language Model) yang memungkinkan AI generatif untuk berinteraksi dengan pengguna secara real-time.
Saat ini, YaFSDP merupakan metode paling efektif dalam melatih LLM dibanding metode Fully Sharded Data Parallel (FSDP) lainnya yang tersedia di publik karena mampu meningkatkan efektivitas komunikasi graphics processing unit (GPU) dan mengurangi penggunaan memori.
Perlu diketahui bahwa FSDP merupakan metode pelatihan LLM yang menggunakan sejumlah unit processing untuk mengolah data secara paralel. Dengan YaFSDP, kecepatan bisa ditingkatkan hingga 26% dibandingkan dengan FSDP biasa, tergantung pada arsitektur dan jumlah parameter. Sehingga, waktu pelatihan untuk LLM bisa dikurangi sekaligus menghemat penggunaan sumber daya GPU hingga 20%.
Mikhail Khruschev, Senior Developer Yandex dan Tim YaFSDP mengatakan, sebagai bagian dari komitmen untuk berkontribusi pada komunitas artificial intelligence (AI) global, Yandex membuat YaFSDP tersedia untuk umum bagi para pengembang LLM dan penggemar AI di seluruh dunia.
“Saat ini, kami secara aktif bereksperimen dengan berbagai model arsitektur dan ukuran parameter untuk memperluas manfaat dari YaFSDP. Kami sangat senang bisa berbagi perkembangan terbaru dalam pelatihan LLM dengan komunitas machine learning (ML) global. Besar harapan kami ini bisa berkontribusi pada peningkatan aksesibilitas dan efisiensi bagi para peneliti dan pengembang AI generatif di seluruh dunia,” jelas Mikhail, Selasa (11/6/2024).
Saat ini, engineer atau insinyur serta peneliti Indonesia sedang fokus pada pengembangan LLM untuk penggunaan di sektor publik, administrasi pemerintahan dan pertahanan, termasuk sektor keuangan dan asuransi. Kementerian Komunikasi and Informatika telah bekerjasama dengan AI Singapore, sebuah program nasional Pemerintah Singapura dalam pengembangan AI, untuk membuat LLM open-source dalam Bahasa Indonesia.
Di sektor keuangan, pelaku industri perbankan telah menggunakan LLM untuk penyelenggaraan layanan chatbot dalam Bahasa Indonesia dan bahkan sejumlah bahasa daerah agar bisa meningkatkan kualitas customer service, marketing dan sales.
YaFSDP dibuat dengan tujuan untuk mendukung engineer atau insinyur dan peneliti Indonesia dalam upaya mempercepat pengembangan kegunaan LLM dengan menyediakan metode open-source yang bisa meningkatkan optimalisasi pemanfaatan jaringan, mengurangi beban memori sekaligus menurunkan biaya pelatihan LLM melalui pengurangan kebutuhan sumber daya komputasi.
Pelatihan LLM merupakan proses yang memakan waktu dan menggunakan sumber daya besar sekaligus intensif. Engineer atau insinyur yang mendalami pembelajaran mesin dan perusahaan yang mengembangkan sendiri LLM-nya perlu investasi besar untuk waktu dan sumber daya GPU dalam melatih model pembelajaran mesinnya. Tentu ini akan memakan biaya yang tidak sedikit. Semakin besar modelnya, semakin besar pula waktu dan biaya yang dibutuhkan untuk pelatihannya.
YaFSDP Yandex bekerja dengan menghilangkan inefisiensi komunikasi GPU, memastikan bahwa pelatihan hanya membutuhkan memori prosesor yang diperlukan dan membuat interaksi GPU tidak terganggu.
YaFSDP mengoptimalkan kecepatan dan kinerja pembelajaran, memungkinkan pengembang AI di seluruh dunia untuk menggunakan lebih sedikit daya komputasi dan sumber daya GPU saat melatih model mereka. Misalnya, dalam skenario pra-pelatihan yang melibatkan model dengan 70 miliar parameter, YaFSDP mampu menghemat biaya penggunaan sumber daya sekitar 150 GPU antara $0,5 hingga $1,5 juta (tergantung pada penyedia atau platform GPU virtual yang digunakan) per bulannya.
YaFSDP merupakan metode FSDP yang disempurnakan sehingga mampu mengungguli pelatihan LLM pada tahapan pelatihan yang paling banyak menggunakan komunikasi seperti pra-pelatihan, penyelarasan, dan perbaikan. Ketika dipakai pada model LLM open source seperti Llama 2 dan Llama 3 dengan 70 miliar parameter (70B), YaFSDP menunjukkan peningkatan yang signifikan dalam hal kecepatan pelatihan sebesar 21% (untuk Llama 2 70B) dan 26% (untuk Llama 3 70B).
“YaFSDP telah menunjukkan hasil yang mengesankan pada model yang menangani 13 hingga 70 miliar parameter, dengan kinerja yang sangat kuat pada kisaran 30 hingga 70 miliar. Saat ini, kami melihat bahwa YaFSDP paling cocok untuk model open-source yang digunakan secara luas berdasarkan arsitektur LLaMA,” tutup Mikhail.
Sejatinya, YaFSDP bukanlah alat open-source pertama dari Yandex. Perusahaan ini sebelumnya telah membagikan beberapa alat lain yang telah menjadi populer di kalangan komunitas ML, termasuk: CatBoost, sebuah perpustakaan berkinerja tinggi untuk meningkatkan gradien pada pohon keputusan atau decision trees; YTsaurus, platform big data untuk distribusi penyimpanan dan pemrosesan; AQLM, salah satu algoritma kuantisasi, atau pemetaan input dengan nilai set besar ke dalam output dengan kelompok set lebih kecil, tercanggih untuk kompresi ekstrim model bahasa besar, yang dikembangkan bersama oleh Yandex Research, HSE University, IST Austria, dan NeuralMagic; Petals, perpustakaan yang dirancang untuk menyederhanakan proses pelatihan dan penyempurnaan LLM, yang dikembangkan melalui kolaborasi antara Yandex Research dengan HSE University, University of Washington, Hugging Face, ENS Paris-Saclay, dan Yandex School of Data Analysis. (*AMBS)
Discussion about this post