Secara sebagian besar, Soundex banyak dihubungkan pada hal yang berurusan dengan pencarian namaindividu terutama nama keluarga,[2] sebagai contoh pada pendataan sensus dan tugas tertentu yang terdapat kesalahan penulisan disebabkan kesamaan bunyi.[3]
Soundex awal dikembangkan tahun 1900-an oleh Robert C. Russell dan Margaret King Odell.[8] Russell memperoleh paten pertama pada tahun 1918,[9] sebelum komputer dikenal luas, kala itu Soundex menangani persoalan sensus Amerika Serikat yaitu menemukan individu bersumber nama mereka.[10]
Sistem Soundex berguna terutama bagi mereka yang mencari leluhur di Amerika.[7] Pada tahun 1930-an, berbagai variasi Russell Soundex yang dikenal Soundex "Amerika" telah digunakan kepada beberapa federal rekam sensus Amerika Serikat.[6] Digunakan pada seluruh sensus antara tahun 1880, 1900 dan 1920, sementara pada tahun 1910 hanya digunakan di beberapa wilayah.[6][7] Mereka yang mencari leluhur dalam rekam sensus perlu familier dengan sistem penyandian Soundex.[7]
Soundex bekerja dengan mengubah susunan karakter ke dalam kode bunyi atau fonetik yang konsisten sebanyak empat karakter. Meskipun susunan karakter berbeda, tetapi terjadi pengucapan serupa maka akan menjadi kode bunyi yang sama.[11] Sebagian besar sistem Soundex bergantung pada konsonan, sementara tidak menyertakan huruf vokal pengecualian terletak di huruf pertama.[5] Sebagai contoh, kata dengan ejaan bervariasi yang merepresentasi nama seperti Sherman, Sharman, Sirman akan diubah menjadi kode S-655.[7] Susunan karakter yang dapat diubah ke kode bunyi tidak wajib merepresentasi sebuah nama, contoh lain seperti kata 'laper' yang dapat diidentifikasi sebagai kata 'lapar'.[11]
Pencantuman kode bunyi atas algoritma Soundex pada Bahasa Indonesia telah mengalami pengembangan yaitu dengan aturan:[11]
Huruf
Kode
A, I ,U, E, O, H
0
F, V
1
S, X, Z
2
L
3
R
4
M, N
5
B, D, P, T
6
C, G, J, K, Q
7
W, Y
8
Salah satu penerapan algoritma Soundex dapat melalui proses yakni:[3]
Mengganti seluruh susunan karakter kecuali huruf pertama ke dalam kode bunyi
Menghilangkan semua kode 0 yang bertujuan meniadakan huruf vokal
Mengembalikan empat karakter pertama dari susunan karakter yang dihasilkan
Kala kode bunyi tidak mencapai empat karakter, maka kode yang lain ialah 0.[11]
Adaptasi berbeda terhadap Soundex dapat diterapkan bergantung pada studi bahasa.[3] Bila pada bahasa tertentu belum terdapat struktur secara bunyi bahasa pula dapat diusulkan kepada sistem.[4]
Limitasi
Soundex dimulai atas rancangan pengucapan bahasa Inggris yang hanya mendukung 26 karakter huruf A ke Z,[12] akan tetapi dalam bahasa tertentu seperti pada bahasa Sindhi yang banyak melibatkan abjad Arab memerlukan pengembangan berlainan.[13]
Selain itu, string atau susunan karakter yang diperkirakan jauh dari kemiripan dapat menghasilkan kode Soundex yang sama, seperti 'Smith', 'Saint', 'Snead'.[12]
Beberapa sistem penyandian, seperti algoritma Metaphone ialah pengembangan dari Soundex.[6]
Aplikasi
Penerapan yang sudah banyak dikenal atas Soundex ialah pada federal sensus Amerika Serikat.[1] Lebih dari itu, penerapan paling umum terhadap sistem Soundex ialah pada aplikasi pemeriksa ejaan yang diterapkan pada bahasa Inggris dan sejumlah bahasa lain. Pada bahasa Sindhi, diketahui satu faktor kesalahan ejaan paling banyak berlangsung pada kata dengan bunyi yang serupa.[13] Merupakan satu keuntungan dari penerapan Soundex.[7]
Awal kala perangkat seluler mulai masif, diikuti pertumbuhan pemakaian layanan pesan SMS yang menimbulkan analisis terhadap pesan teks menjadi cukup penting. Soundex pula dapat meningkatkan pencarian antara teks SMS hubungan dengan kosakata standar pada bahasa Inggris maupun bahasa Spanyol.[3]
Salah satu aplikasi pemeriksa ejaan melibatkan akan pencarian nama dalam pangkalan data dengan jumlah besar, sebagai contoh, dalam hal operator telekomunikasi yang mewakili operator telepon dalam mendapati nomor teleponpelanggan berdasarkan atas perkiraan ejaan nama pelanggan.[7] Menjadi lumrah saat Soundex masih sangat populer di antara berbagai vendor pangkalan data,[10] antara lain mencakup karakteristik standar pada Oracle, MySQL, dsb.[4]
123
Dilts, David (30 Juli 2008). "Soundex Genealogy" (Wiki). FamilySearch. Diakses tanggal 7 Juni 2020.
12"Soundex" (Definisi). Lexico Oxford Dictionary. Diarsipkan dari asli tanggal 2020-06-03. Diakses tanggal 3 Juni 2020.
12345
Sojka, Petr; Horak, Aleš; Kopecek, Ivan; Pala, Karel (September 2012). Text, Speech and Dialogue: 15th International Conference, TSD 2012, Brno, Republik Ceko. Springer-Verlag Berlin Heidelberg. hlm.48–49. ISBN3-6423-2790-7.
123
Koneru, K; Pulla, V; Varol, C (2016). Performance Evaluation of Phonetic Matching Algorithms on English Words and Street Names Comparison and Correlation (Prosiding Konferensi Internasional ke-5 pada Data Management Technologies and Applications (DATA 2016)). SCITEPRESS Science and Technology Publications, Lda. ISBN978-989-758-193-9.