Cek Similarity Gratis: Autoscript Hapus Kemiripan Kata Kunci
Man-teman pembaca setia kumiskiri! Udah pada tau belum nih, ada script untuk cek similarity gratis buat bersihin kata kunci yang punya kembaran? Namanya aja udah keren! Jadi, script ini tuh dibuat pake bahasa Python plus pake sentuhan Algoritma Pengelompokan Aglomeratif sentence transformers.
Nah, buat ente-ente semua yang lagi kerepotan urusin kembaran kata kunci, script Cek Similarity Gratis ini bisa banget bantuin ente. Ayok, baca terus ya man-teman!
Cara Kerja Script Cek Similarity Gratis
Sebelum ane masuk ke langkah-langkah yang serius, yuk ane bahas logika unik dari script ini. Biar pas lagi jalanin script-nya, ente udah paham dan nggak dibuat bingung lagi.
Bacain Kata Kunci dari Format File CSV
Jadi, script cek similarity gratis ini pertama-tama bakal baca daftar kata kunci dari file CSV. Coba bayangkan kayak lagi bacain cerpen seru gitu, cuma ini tentang kumpulan kata kunci yang nanti bakal jadi bahan ‘perjodohan’.
Bikin Karakter Unik buat Kata Kunci
Bakal manfaatin aglomeratif sentence transformers buat bikin karakter unik buat setiap kata kunci. Model jaringan saraf yang udah dilatih sebelumnya ini bisa ngubah teks jadi vektor numerik, kayak bikin paspor buat setiap kata kunci gitu loh. Script ini pake model paraphrase-distilroberta-base-v1 buat tujuan itu.
Menghitung Kemiripan Tiap Kata Kunci
Script untuk cek similarity gratis ini bisa hitung matriks kemiripan buat embedding kata kunci, pake metrik kemiripan kosinus. Jadi, hasilnya itu nilai kemiripan kosinus yang berkisar dari 0 sampe 1. Kalo 0 berarti nggak mirip sama sekali, kalo 1 berarti kembar abis. Sama kayak ente yang lagi ngitung seberapa mirip ente sama mantan.
Algoritma Pengelompokan Aglomeratif
Berdasarkan matriks kemiripan tadi, script untuk cek similarity gratis ini pake algoritma pengelompokan Aglomeratif buat kelompokin kata kunci yang mirip-mirip. Jadi, kayak bikin kelompok buat anak-anak yang punya kesamaan hobi. Asik, kan?
Tentuin Threshold
Eh, tapi nggak semuanya dijadiin satu pengelompokan. Di sini ente bisa tentuin ambang batas kemiripan. Kalo dua kata kunci lebih mirip dari ambang ini, keduanya bakal dijodohin, yang satu dihapus. Kayak atur yang sejodoh di acara kencan gitu.
Dua File Output Unik
Script untuk cek similarity gratis nggak pelit karena bisa bikin dua file output buat ente yang bisa digunain untuk riset kata kunci untuk postingan blog atau web ente. Ini dia dua file pentingnya:
- File “unique_keywords.csv” isinya daftar kata kunci yang masih bisa ngerantau di dunia maya setelah yang mirip diusir.
- File “keywords_output.xlsx” buat informasi lengkap tentang kata kunci yang dihapus, yang diselamatkan, dan seberapa mirip tiap-tiap keyword. Yang dihapus dikasih warna kuning biar lebih greget.
Langkah Menjalankan Script Cek Similarity Gratis
Setelah paham gimana kerja script untuk cek similarity gratis ini, sekarang ente langsung aja eksekusi. Nggak usah bingung-bingung, mending langsung dijalanin aja! Yuk cekicroot croot crooot
Langkah 1: Bikin Daftar Kata Kunci
Pas mau memulai menjalankan script cek similarity gratis ini, tugas pertama yang perlu ente lakuin ialah menyiapkan topik atau kata kunci mau ente targetkan.
Misal, ente mau targetin kata kunci utama tentang “kata kata motivasi”. Dari kata kunci utama tersebut ente perlu melakukan pencarian kata kunci yang punya relevansi. Pake tools kayak Twinword, Dojo atau KeywordSheeter bisa memudahkan pencarian.
Nah, kalo udah dapet hasilnya? Proses selanjutnya, masukkan semua daftar kata kunci ke tabel Excel, dan jangan lupa simpan dengan nama “keywords“.
Langkah 2: Siapin Akun Google Colab
Biar script ini bisa bekerja makin maksimal, ente perlu akun Google Colab. Yang udah punya akun, langsung masuk aja. Yang belum, bisa bikin akunnya dulu. Langkah-langkahnya kayak di gambar, tinggal ikutin aja.
Google Colab -> Menu File -> Klik New Notebook
Langkah 3: Masukkan Script
Kalo Google Colab udah siap, masukkan script yang udah disiapin. Jangan bingung, tinggal copy-paste aja. Terus, klik tombol play, dan tunggu prosesnya selesai sebelum melanjutkan ke langkah berikutnya.
# Script untuk mengimport semua perpustakaan yang diperlukan !pip install sentence-transformers import csv import numpy as np from sklearn.cluster import AgglomerativeClustering from sklearn.metrics.pairwise import cosine_similarity from sentence_transformers import SentenceTransformer from openpyxl import Workbook from openpyxl.styles import PatternFill from tqdm import tqdm
Proses import model yang dibutuhkan udah selesai nih, selanjutnya ente perlu upload keyword yang udah ente sedia sebelumnya. Gampang, tinggal ikutin gambar di atas.
# Proses Upload Keyword yang sudah disediakan from google.colab import files uploaded = files.upload()
Proses upload selesai nih, selanjutnya script perlu membaca semua keyword yang udah di-upload. Gampang, tinggal ikutin gambar di atas.
# Deteksi kata kunci dari file CSV tanpa header csv_file = "keywords.csv" with open(csv_file, newline='', encoding='utf-8') as f: reader = csv.reader(f) keywords = [row[0] for row in reader]
Setelah semua keyword udah terdeteksi, tambahkan kode baru lagi untuk mendapatkan hasil penghapusan keyword berdasarkan kemiripannya.
Catatan: Agar hasil lebih maksimal untuk bisa mendeteksi keyword berdasarkan semua jenis bahasa, ente perlu merubah beberapa aturan script. “paraphrase xlm-r-multilingual-v1”. Penjelsan secara spesifik bisa cek di Metatext.
model = SentenceTransformer("paraphrase-xlm-r-multilingual-v1") def get_embedding(keyword): keyword_embedding = model.encode([keyword])[0] return keyword_embedding # Get embeddings for all keywords with progress bar print("Generating embeddings...") keyword_embeddings = [get_embedding(keyword) for keyword in tqdm(keywords)] # Compute similarity matrix similarity_matrix = cosine_similarity(keyword_embeddings) # Ask user for similarity threshold threshold = float(input("Enter the similarity threshold (0 to 1, default: 0.8): ") or 0.8) # Perform clustering clustering = AgglomerativeClustering(n_clusters=None, affinity="precomputed", linkage="average", distance_threshold=1-threshold) clusters = clustering.fit_predict(1 - similarity_matrix) # Prepare Excel output output_filename = input("Enter the output Excel file name (default: keywords_output.xlsx): ") or "keywords_output.xlsx" workbook = Workbook() sheet = workbook.active sheet.title = "Keywords" header = ["Removed Keyword", "Retained Keyword", "Similarity"] sheet.append(header) # Define color formatting yellow_fill = PatternFill(start_color="FFFF00", end_color="FFFF00", fill_type="solid") unique_keywords = [] # Process clusters and write results to Excel with progress bar print("Processing clusters and writing results...") for cluster_id in tqdm(set(clusters)): cluster_indices = np.where(clusters == cluster_id)[0] cluster_embeddings = [keyword_embeddings[i] for i in cluster_indices] centroid = np.mean(cluster_embeddings, axis=0) closest_index = min(cluster_indices, key=lambda i: np.linalg.norm(keyword_embeddings[i] - centroid)) retained_keyword = keywords[closest_index] unique_keywords.append(retained_keyword) # Write removed keywords with yellow background for i in cluster_indices: if i != closest_index: removed_keyword = keywords[i] similarity = similarity_matrix[i, closest_index] row = [removed_keyword, retained_keyword, similarity] sheet.append(row) for cell, fill in zip(sheet[sheet.max_row], [yellow_fill, yellow_fill, yellow_fill]): cell.fill = fill # Save the Excel file workbook.save(output_filename) # Save unique keywords to a new CSV file with open("unique_keywords.csv", "w", newline='', encoding="utf-8") as f: writer = csv.writer(f) for keyword in unique_keywords: writer.writerow([keyword]) print(f"Unique keywords saved to unique_keywords.csv") print(f"Results saved to {output_filename}") print(f"Total unique keywords: {len(unique_keywords)}") print(f"Total removed keywords: {len(keywords) - len(unique_keywords)}")
Jaga-jaga alias antisipasi jika terjadi error saat menjalankan script, ente-ente semua bisa clomot Backup Script
Waktu script untuk cek similarity gratis ini jalan, ente bakal diminta masukin similarity threshold (ambang batas kemiripan). Secara default, sistem resetnya di 0.8, tapi saran saya, mending masukin aja angka 0.9 biar yang dihapus lebih akurat. Ketik 0.9 terus enter.
Untuk mengakhiri semua proses dan dapetin hasil, masukkan nama sesuai keinginan. Biar nggak bingung, bisa ikutin contoh di gambar.
Selanjutnya, buat tau hasil dari semua proses yang udah ente lakuin, tinggal klik icon folder di pojok kiri bawah, terus cari file yang namanya “unique_keywords.csv”. Kalo penasaran sama kata kunci apa aja yang udah dihapus, bisa ente lihat di file “katamotivasi.xlsx”.
Catatan: Kalo ente mau coba jalanin lagi script dengan daftar keyword yang baru, pastiin isi folder dalam keadaan kosong biar nggak bentrok
Biar Makin yahut plus keyword yang ente dapatin makin unik, ente perlu baca step selanjutnya di tutorial clustering keyword
Jadi, itulah beberapa penjelasan cara kerja dan langkah menjalankan script untuk cek similarity gratis yang bisa ente-ente semua praktekan. Nggak cuma gampang dijalanin, script untuk cek similarity gratis juga bisa ente gunain buat hapus semua kata kunci yang punya kemiripan secara otomatis dan akurat.
Oke deh kalo gitu, mudah-mudahan pembahasan ane kali ini bisa kasih manfaat buat man-teman pembaca setia kumiskiri. selamat berpraktek ria dan selamat mencoba man-teman!
Sumber: Similarity Check Advanced