Dalam linguistik komputasi dan pemrosesan bahasa alami, disambiguasi makna atau pengawataksaan makna (bahasa Inggris:word-sense disambiguationcode: en is deprecated , disingkat WSD) adalah proses mengidentifikasi makna atau indra yang tepat dari suatu kata polisemi atau homonim yang digunakan dalam suatu kalimat atau konteks tertentu.
Proses pengawataksaan ini bertujuan untuk menghilangkan ketaksaan (ambiguitas) leksikal agar teks menjadi awataksa (tidak ambigu) bagi sistem komputer. Pengawataksaan makna merupakan salah satu masalah terbuka paling fundamental sekaligus paling sulit dalam bidang kecerdasan buatan karena bahasa manusia sangat bergantung pada konteks dan intuisi budaya.
Dampak dan penerapan
Keberhasilan algoritme pengawataksaan makna memiliki dampak yang sangat krusial terhadap performa berbagai aplikasi teknologi bahasa hilir, antara lain:
Penerjemahan mesin: Memastikan kata yang memiliki makna ganda diterjemahkan dengan tepat sesuai konteksnya. Sebagai contoh, kata bahasa Inggris "bank" harus diterjemahkan menjadi "tepi sungai" atau "lembaga keuangan" tergantung kalimat di sekitarnya; atau kata bahasa Indonesia "bisa" yang dapat berarti "dapat" (can) atau "racun" (venom).
Relevansi mesin pencari: Menyaring hasil pencarian di internet agar sesuai dengan maksud sejati pengguna, bukan sekadar mencocokkan kata kunci secara mentah.
Pemecahan anafora: Membantu komputer dalam menentukan rujukan kata ganti (seperti "ia", "mereka", "itu") secara tepat di dalam dokumen teks yang panjang.
Koherensi teks dan inferensi: Mendukung sistem pemahaman komputer dalam membangun kepaduan informasi dan melakukan penarikan kesimpulan logis dari suatu teks teks ilmiah atau hukum.
Pendekatan dan teknik
Secara umum, teknik yang dapat diterapkan untuk menyelesaikan ketaksaan makna kata dikelompokkan menjadi tiga metode utama:
Metode berbasis kamus (Kekayaan Pengetahuan): Memanfaatkan rujukan dari sumber leksikal terstruktur yang sudah ada, seperti kamus, tesaurus, atau jejaring leksikal komputasional seperti WordNet. Contoh klasik dari pendekatan ini adalah Algoritme Lesk, yang menghitung tumpang-tindih kata antara konteks kalimat dengan definisi yang ada di kamus.
Metode pembelajaran mesin terbimbing (Supervised): Melatih suatu penggolong (classifier) matematika menggunakan korpus data teks yang telah dianotasi atau diberi label makna secara manual oleh para pakar bahasa. Dari berbagai metode yang ada, pembelajaran mesin terbimbing merupakan algoritme yang mencatat tingkat keberhasilan dan akurasi tertinggi sampai saat ini.
Metode tanpa bimbingan (Unsupervised): Melakukan penggolongan makna murni berdasarkan pola kemunculan bersama kata (co-occurrence) di dalam teks tanpa menggunakan data pelatihan atau kamus eksternal. Metode ini mengelompokkan kata-kata ke dalam klaster-klaster makna yang berbeda secara otomatis.
Ketepatan di tingkat kasar, seperti membedakan homograf murni yang maknanya sangat berbeda jauh, telah berhasil melewati 90%. Namun, ketepatan di tingkat yang lebih halus, seperti membedakan nuansa polisemi yang tipis dan saling beririsan, masih menjadi tantangan besar dengan tingkat akurasi yang berkisar antara 59%–69%.[1][2]
Bagi bahasa-bahasa selain bahasa Inggris, termasuk bahasa Indonesia, tantangan terbesar dalam pengembangan sistem pengawataksaan makna ini adalah keterbatasan sumber daya leksikal komputasional (seperti WordNet bahasa Indonesia yang belum sekompleks versi bahasa Inggris) serta kelangkaan korpus teks berskala besar yang telah dianotasi secara manual.