Cek Similarity Gratis: Autoscript Hapus Kemiripan Kata Kunci

Cek Similarity Gratis: Autoscript Hapus Kemiripan Kata Kunci
cek similarity gratis

Man-teman pembaca setia kumiskiri! Udah pada tau belum nih, ada script untuk cek similarity gratis buat bersihin kata kunci yang punya kembaran? Namanya aja udah keren! Jadi, script ini tuh dibuat pake bahasa Python plus pake sentuhan Algoritma Pengelompokan Aglomeratif sentence transformers.

Nah, buat ente-ente semua yang lagi kerepotan urusin kembaran kata kunci, script Cek Similarity Gratis ini bisa banget bantuin ente. Ayok, baca terus ya man-teman!

Cara Kerja Script Cek Similarity Gratis

Sebelum ane masuk ke langkah-langkah yang serius, yuk ane bahas logika unik dari script ini. Biar pas lagi jalanin script-nya, ente udah paham dan nggak dibuat bingung lagi.

Bacain Kata Kunci dari Format File CSV

Jadi, script cek similarity gratis ini pertama-tama bakal baca daftar kata kunci dari file CSV. Coba bayangkan kayak lagi bacain cerpen seru gitu, cuma ini tentang kumpulan kata kunci yang nanti bakal jadi bahan ‘perjodohan’.

Bikin Karakter Unik buat Kata Kunci

Bakal manfaatin aglomeratif sentence transformers buat bikin karakter unik buat setiap kata kunci. Model jaringan saraf yang udah dilatih sebelumnya ini bisa ngubah teks jadi vektor numerik, kayak bikin paspor buat setiap kata kunci gitu loh. Script ini pake model paraphrase-distilroberta-base-v1 buat tujuan itu.

Menghitung Kemiripan Tiap Kata Kunci

Script untuk cek similarity gratis ini bisa hitung matriks kemiripan buat embedding kata kunci, pake metrik kemiripan kosinus. Jadi, hasilnya itu nilai kemiripan kosinus yang berkisar dari 0 sampe 1. Kalo 0 berarti nggak mirip sama sekali, kalo 1 berarti kembar abis. Sama kayak ente yang lagi ngitung seberapa mirip ente sama mantan.

Algoritma Pengelompokan Aglomeratif

Berdasarkan matriks kemiripan tadi, script untuk cek similarity gratis ini pake algoritma pengelompokan Aglomeratif buat kelompokin kata kunci yang mirip-mirip. Jadi, kayak bikin kelompok buat anak-anak yang punya kesamaan hobi. Asik, kan?

Tentuin Threshold

Eh, tapi nggak semuanya dijadiin satu pengelompokan. Di sini ente bisa tentuin ambang batas kemiripan. Kalo dua kata kunci lebih mirip dari ambang ini, keduanya bakal dijodohin, yang satu dihapus. Kayak atur yang sejodoh di acara kencan gitu.

Dua File Output Unik

Script untuk cek similarity gratis nggak pelit karena bisa bikin dua file output buat ente yang bisa digunain untuk riset kata kunci untuk postingan blog atau web ente. Ini dia dua file pentingnya:

  • File “unique_keywords.csv” isinya daftar kata kunci yang masih bisa ngerantau di dunia maya setelah yang mirip diusir.
  • File “keywords_output.xlsx” buat informasi lengkap tentang kata kunci yang dihapus, yang diselamatkan, dan seberapa mirip tiap-tiap keyword. Yang dihapus dikasih warna kuning biar lebih greget.

Langkah Menjalankan Script Cek Similarity Gratis

Setelah paham gimana kerja script untuk cek similarity gratis ini, sekarang ente langsung aja eksekusi. Nggak usah bingung-bingung, mending langsung dijalanin aja! Yuk cekicroot croot crooot

Langkah 1: Bikin Daftar Kata Kunci

Pas mau memulai menjalankan script cek similarity gratis ini, tugas pertama yang perlu ente lakuin ialah menyiapkan topik atau kata kunci mau ente targetkan.

Misal, ente mau targetin kata kunci utama tentang “kata kata motivasi”. Dari kata kunci utama tersebut ente perlu melakukan pencarian kata kunci yang punya relevansi. Pake tools kayak Twinword, Dojo atau KeywordSheeter bisa memudahkan pencarian.

Nah, kalo udah dapet hasilnya? Proses selanjutnya, masukkan semua daftar kata kunci ke tabel Excel, dan jangan lupa simpan dengan nama “keywords“.

Langkah 2: Siapin Akun Google Colab

Biar script ini bisa bekerja makin maksimal, ente perlu akun Google Colab. Yang udah punya akun, langsung masuk aja. Yang belum, bisa bikin akunnya dulu. Langkah-langkahnya kayak di gambar, tinggal ikutin aja.

Google Colab -> Menu File -> Klik New Notebook

persiapan akun google colab

Langkah 3: Masukkan Script

Kalo Google Colab udah siap, masukkan script yang udah disiapin. Jangan bingung, tinggal copy-paste aja. Terus, klik tombol play, dan tunggu prosesnya selesai sebelum melanjutkan ke langkah berikutnya.

# Script untuk mengimport semua perpustakaan yang diperlukan

!pip install sentence-transformers

import csv
import numpy as np
from sklearn.cluster import AgglomerativeClustering
from sklearn.metrics.pairwise import cosine_similarity
from sentence_transformers import SentenceTransformer
from openpyxl import Workbook
from openpyxl.styles import PatternFill
from tqdm import tqdm

cek similarity gratis import

Proses import model yang dibutuhkan udah selesai nih, selanjutnya ente perlu upload keyword yang udah ente sedia sebelumnya. Gampang, tinggal ikutin gambar di atas.

# Proses Upload Keyword yang sudah disediakan

from google.colab import files
uploaded = files.upload()

cek similarity gratis upload

Proses upload selesai nih, selanjutnya script perlu membaca semua keyword yang udah di-upload. Gampang, tinggal ikutin gambar di atas.

# Deteksi kata kunci dari file CSV tanpa header

csv_file = "keywords.csv"
with open(csv_file, newline='', encoding='utf-8') as f:
reader = csv.reader(f)
keywords = [row[0] for row in reader]

cek similarity gratis deteksi

Setelah semua keyword udah terdeteksi, tambahkan kode baru lagi untuk mendapatkan hasil penghapusan keyword berdasarkan kemiripannya.

Catatan: Agar hasil lebih maksimal untuk bisa mendeteksi keyword berdasarkan semua jenis bahasa, ente perlu merubah beberapa aturan script. “paraphrase xlm-r-multilingual-v1”. Penjelsan secara spesifik bisa cek di Metatext.

model = SentenceTransformer("paraphrase-xlm-r-multilingual-v1")

def get_embedding(keyword):
keyword_embedding = model.encode([keyword])[0]
return keyword_embedding

# Get embeddings for all keywords with progress bar
print("Generating embeddings...")
keyword_embeddings = [get_embedding(keyword) for keyword in tqdm(keywords)]

# Compute similarity matrix
similarity_matrix = cosine_similarity(keyword_embeddings)

# Ask user for similarity threshold
threshold = float(input("Enter the similarity threshold (0 to 1, default: 0.8): ") or 0.8)

# Perform clustering
clustering = AgglomerativeClustering(n_clusters=None, affinity="precomputed", linkage="average", distance_threshold=1-threshold)
clusters = clustering.fit_predict(1 - similarity_matrix)

# Prepare Excel output
output_filename = input("Enter the output Excel file name (default: keywords_output.xlsx): ") or "keywords_output.xlsx"
workbook = Workbook()
sheet = workbook.active
sheet.title = "Keywords"
header = ["Removed Keyword", "Retained Keyword", "Similarity"]
sheet.append(header)

# Define color formatting
yellow_fill = PatternFill(start_color="FFFF00", end_color="FFFF00", fill_type="solid")

unique_keywords = []

# Process clusters and write results to Excel with progress bar
print("Processing clusters and writing results...")
for cluster_id in tqdm(set(clusters)):
cluster_indices = np.where(clusters == cluster_id)[0]
cluster_embeddings = [keyword_embeddings[i] for i in cluster_indices]
centroid = np.mean(cluster_embeddings, axis=0)
closest_index = min(cluster_indices, key=lambda i: np.linalg.norm(keyword_embeddings[i] - centroid))
retained_keyword = keywords[closest_index]

unique_keywords.append(retained_keyword)

# Write removed keywords with yellow background
for i in cluster_indices:
if i != closest_index:
removed_keyword = keywords[i]
similarity = similarity_matrix[i, closest_index]
row = [removed_keyword, retained_keyword, similarity]
sheet.append(row)
for cell, fill in zip(sheet[sheet.max_row], [yellow_fill, yellow_fill, yellow_fill]):
cell.fill = fill

# Save the Excel file
workbook.save(output_filename)

# Save unique keywords to a new CSV file
with open("unique_keywords.csv", "w", newline='', encoding="utf-8") as f:
writer = csv.writer(f)
for keyword in unique_keywords:
writer.writerow([keyword])

print(f"Unique keywords saved to unique_keywords.csv")
print(f"Results saved to {output_filename}")
print(f"Total unique keywords: {len(unique_keywords)}")
print(f"Total removed keywords: {len(keywords) - len(unique_keywords)}")

Jaga-jaga alias antisipasi jika terjadi error saat menjalankan script, ente-ente semua bisa clomot Backup Script

Waktu script untuk cek similarity gratis ini jalan, ente bakal diminta masukin similarity threshold (ambang batas kemiripan). Secara default, sistem resetnya di 0.8, tapi saran saya, mending masukin aja angka 0.9 biar yang dihapus lebih akurat. Ketik 0.9 terus enter.

cek similarity gratis threshold

Untuk mengakhiri semua proses dan dapetin hasil, masukkan nama sesuai keinginan. Biar nggak bingung, bisa ikutin contoh di gambar.

cek similarity gratis pemberian nama file

Selanjutnya, buat tau hasil dari semua proses yang udah ente lakuin, tinggal klik icon folder di pojok kiri bawah, terus cari file yang namanya “unique_keywords.csv”. Kalo penasaran sama kata kunci apa aja yang udah dihapus, bisa ente lihat di file “katamotivasi.xlsx”.

cek hasil keyword unik

Catatan: Kalo ente mau coba jalanin lagi script dengan daftar keyword yang baru, pastiin isi folder dalam keadaan kosong biar nggak bentrok

Biar Makin yahut plus keyword yang ente dapatin makin unik, ente perlu baca step selanjutnya di tutorial clustering keyword

Jadi, itulah beberapa penjelasan cara kerja dan langkah menjalankan script untuk cek similarity gratis yang bisa ente-ente semua praktekan. Nggak cuma gampang dijalanin, script untuk cek similarity gratis juga bisa ente gunain buat hapus semua kata kunci yang punya kemiripan secara otomatis dan akurat.

Oke deh kalo gitu, mudah-mudahan pembahasan ane kali ini bisa kasih manfaat buat man-teman pembaca setia kumiskiri. selamat berpraktek ria dan selamat mencoba man-teman!

Sumber: Similarity Check Advanced

Baca itu Gak Ada Ruginya

BACA JUGA INI