Vjerojatne strukture podataka: Koja je razlika između MinHash i Bloom filtera?


Odgovor 1:

MinHash se primarno koristi za brzu i preciznu procjenu Jaccardove sličnosti dviju stvari (na primjer, dva dokumenta, dva skupa ...).

Bloomov filter učinkovita je struktura podataka koja vam omogućuje brzo obrezivanje elemenata koji nisu dio skupa s mogućnošću da ih neće uspjeti obrezati.

Oboje su vjerojatnosti, ali svrha je vrlo različita.

MinHash je vrlo poznat i vrlo se često koristi u pronalaženju informacija.


Odgovor 2:

Glavni nedostatak filtara cvjetanja za pretraživanje sličnosti je taj što se zasićuju kad se napune, pa ako vaši setovi mogu imati vrlo različite veličine, dobit ćete loše procjene sličnosti za velike.

Slijed minhesha ne zadovoljava, međutim, udaljenost između dva nastavka minhasha uvijek ostaje nepristrana procjena Jackardove sličnosti.

Često se minhaševi ne koriste za izradu skica. Primarni je slučaj za njih stvaranje ključeva za klasteriranje s ključem spremišta vrijednosti, a to je nešto što ne možete učiniti s filtrom procvata, osim ako se ne bavite samo podudaranjima koja su vrlo točna. Više o tome možete pročitati ovdje: MinHashing