JAKARTA, SELASA – Kita semua tahu kalau spam itu menyebalkan dan merugikan. Tapi tidak semua dari kita tahu cara mengidentifikasi sampah e-mail yang tidak diinginkan tersebut. Akibatnya mungkin saja kita terjebak mengklik link yang berbahaya.
Salah satu cara paling efektif menangkal spam yang dilakukan vendor-vendor keamanan adalah mengelompokkan pesan berdasarkan kata kunci dan frasa yang mencirikan spam. Dengan cara ini sistem bisa dengan cepat melakukan konfigurasi untuk memblokir spam jenis baru dengan tingkat deteksi false positif yang rendah.
Nah, dalam rangka cara identifikasi spam, pada 16 November 2010 pengembang konten keamanan dan solusi manajemen ancaman Kaspersky Lab menerima paten US Patent and Trademark Office nomor 7.836.061 dari Amerika Serikat atas teknologinya yang memanfaatkan kata kunci atau frasa.
Seperti apa sih metoda yang dipatenkan Kaspersky Lab? Begini. Pesan teks elektronis diklasifikasikan atas daftar hierarkis dari kategori pesan yang dikenal sebagai rubricator. Setiap pesan teks yang masuk dikategorikan dengan menghitung jumlah relatif untuk setiap kategori yang berisi istilah-istilah kunci yang ada di pesan, dan kemudian menentukan tingkat kesamaan dari masing-masing template. Jika pesan teks berisi sejumlah kata kunci, atau cukup mirip dengan salah satu template yang ditentukan, serta cocok dengan salah satu kategori, maka pesan tersebut termasuk spam.
Metode ini juga memungkinkan pembuatan kategori pesan secara manual melalui istilah kunci atau template. Setiap kategori dapat dikelompokkan menjadi subkategori agar klasifikasinya lebih tepat. Agar kategorinya lebih sederhana, pesan teks dapat diidentifikasi sebelumnya menggunakan teknik tertentu, seperti deteksi bahasa otomatis, menghapus kata-kata yang sering digunakan, seperti artikel atau preposisi, serta menyaring setiap gangguan.
Klasifikasi daftar hierarkis dilakukan oleh user kan??
Dengan kata lain, metodenya dimonopoli oleh Kaspersky dan pengguna jadi cuma bisa pakai metode ini kalau pakai Kaspersky atau ada perusahaan lain yang rela bayar uang royalti ?
Intinya masih pengenalan dan pemberian score ke kata tertentu kan, seberapa bedanya sama yang biasa dipakai (Bayes bukan sebutannya?)