Pairiwse jaccard similarity using minhash algorithm

273 Views Asked by Sanket Badhe At 19 June 2020 at 06:02

I am working with 200k sentences and I want to find Jaccard similarity using minhash algorithm. but it becomes really slow because of two for loops. could someone suggest me some good implementation?

Below is my current code

from datasketch.minhash import MinHash

def eg1(data1, data2):
    m1 = MinHash()
    m2 = MinHash(enter code here)
    for d in data1:
        m1.update(d.encode('utf8'))
    for d in data2:
        m2.update(d.encode('utf8'))
    return m1.jaccard(m2)

jac_sim = []
for i_doc in range(len(shingles)-1):
    for j_doc in range(i_doc + 1, len(shingles)):
        jaccard_similarity = eg1(shingles[i_doc], shingles[j_doc])
        jac_sim.append(jaccard_similarity)

Original Q&A

There are 1 best solutions below

otmar On 09 August 2020 at 20:06

The problem is that MinHash is calculated many times for the same input. By calculating MinHash signatures only once you should by able to save a lot of time:

signatures = []
for i_doc in range(len(shingles)):
    m = MinHash()
    for d in shingles[i_doc]:
        m.update(d.encode('utf8'))
    signatures.append(m)

jac_sim = []    
for i_doc in range(len(shingles)-1):
    for j_doc in range(i_doc + 1, len(shingles)):
        jaccard_similarity = signatures[i_doc].jaccard(signatures[j_doc])
        jac_sim.append(jaccard_similarity)

Pairiwse jaccard similarity using minhash algorithm

There are 1 best solutions below

Related Questions in PERFORMANCE

Related Questions in TEXT

Related Questions in SIMILARITY

Related Questions in MINHASH

Trending Questions

Popular # Hahtags

Popular Questions