BioBERT: Model bahasa untuk mengerti artikel biomedis

hendra s ismanto
3 min readAug 16, 2020

Perkembangan machine learning yang sangat pesat membawa inovasi baru dalam bidang biomedis. Permasalahan seperti banyaknya artikel biomedis yang dipublikasikan setiap hari mengakibatkan kita sulit untuk mencari hal-hal penting di dalam tiap artikel. Dengan bantuan model bahasa pembelajaran mesin, kita bisa menyelesaikan permasalahan tersebut.

Para peneliti dari Korea Selatan memanfaatkan model bahasa terdahulu dari Google yaitu BERT (Bidirectional Encoder Representations from Transformer) untuk menyelesaikan masalah seperti pengenalan nama entitas, ekstraksi hubungan, dan menjawab pertanyaan seputar bidang biomedis.

Cara melatih dan menyetel BioBERT

Kenapa BERT tidak bisa dengan terpercaya menyelesaikan tugas-tugas tersebut diatas?

Hal ini dikarenakan bidang biomedis memiliki kosakatanya sendiri dan jarang ditemukan pada korpora (kumpulan kalimat) umum yang dipakai BERT yaitu Wikipedia berbahasa Inggris dan buku online.

Lalu bagaimana cara melatih model bahasa BioBERT?

Bobot latih dari BERT dipakai untuk BioBERT (pre-train).

Ada 4 jenis kombinasi dataset yang dipakai oleh peneliti untuk melihat pengaruh setiap dataset yaitu:

  • Normal BERT (Wiki + Book)
  • Wiki + Book + PubMed
  • Wiki + Book + PMC
  • Wiki + Book + PubMed + PMC

BioBERT menggunakan tokenizer berupa Wordpiece Tokenizer. Tokenizer merupakan cara untuk memisahkan kalimat menjadi kata dan kata menjadi pecahan kata yang kemudian di ubah menjadi angka. Wordpiece Tokenizer membantu menyelesaikan masalah seperti kata yang tidak ada di dalam kosa kata yang menjadi acuan untuk mengubah menjadi angka. Contoh yang dipakai adalah Immunoglobulin menjadi I ##mm ##uno ##g ##lo ##bul ##in.

Setelah seluruh kata diolah dan berubah menjadi angka, BioBERT siap di latih. Naver Smart Machine Learning (NSML) (Sung et al., 2017) digunakan untuk melatih BioBERT. Delapan buah NVIDIA V100 (32GB) GPU sebagai perangkat keras yang digunakan untuk melatih BioBERT.

Setelah pelatihan selesai, BioBERT bisa apa?

Setelah pelatihan selesai, BioBERT mengerti tentang tata bahasa Inggris dari dataset yang diberikan. Untuk memberikan nyawa ke BioBERT (agar dapat dipakai untuk tugas spesifik), dataset spesifik digunakan untuk menyetel agar dapat menyelesaikan tugas spesifik.

Dataset untuk pengenalan nama entitas:

NCBI Disease (Doğan et al., 2014); 2010 i2b2/VA (Uzuner et al., 2011); BC5CDR (Li et al., 2016); BC5CDR (Li et al., 2016); BC4CHEMD (Krallinger et al., 2015); BC2GM (Smith et al., 2008); JNLPBA (Kim et al., 2004); LINNAEUS (Gerner et al., 2010); Species-800 (Pafilis et al., 2013)

Dataset untuk ekstraksi hubungan:

GAD (Bravo et al., 2015); EU-ADR (Van Mulligen et al., 2012); CHEMPROT (Krallinger et al., 2017)

Dataset untuk menjawab pertanyaan:

BioASQ 4b-factoid (Tsatsaronis et al., 2015); BioASQ 5b-factoid (Tsatsaronis et al., 2015); BioASQ 6b-factoid (Tsatsaronis et al., 2015)

Lalu hasilnya bagaimana untuk setiap tugas-tugas tersebut?

BioBERT yang dilatih dengan Wiki + Book + PubMed + PMC dapat menyelesaikan tugas yang diberikan dengan baik dibanding model bahasa lain dan juga BERT sendiri.

Referensi utama:

Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim, Chan Ho So, Jaewoo Kang, BioBERT: a pre-trained biomedical language representation model for biomedical text mining, Bioinformatics, Volume 36, Issue 4, 15 February 2020, Pages 1234–1240

--

--