YaCy node jsem provozoval cca rok, prvni problem vidim v tom, ze to je v moloch v Jave, ale OK, konzumace zdroju, dejme tomu, ale nejhorsi byla rychlost vyhledavani, ktera byla vylozene spatna. Mozna dle stareho vtipu o Pentiu ze 1+1=3 je sice spatne ale rychle plati i tady, a vysledky YaCy jsou lepsi (minimalne nejsou tak zakaznicky upravovane a filtrovane nejruznejsimi GDPR) ale cekat desitky vterin na vysledek je proste zasadni nedostatek.
Jo, moloch v Javě to je, hladovej hlavně na RAM (umožňuje nastavit limity, ale těch se snadno dobere. Snaží se optimalizovat operace podle loadu stroje, ale ta Java je stejně problém). Jako proof-of-concept dobrý a zdá se osvědčilo, po 17 letech. Asi nějakej rewrite v C či čem by pomohl, P2P protokol vypadá obstojně. Uvidíme, co grid verze.
Hledání v P2P síti chvíli trvá z principu (a reload stránky s výsledky vyhledávání po zhruba 30 vteřinách dává více výsledků), výsledky se kešují na lokálním stroji, lokální vyhledávání umí být svižné, když zrovna YaCy necrawluje.
Dokonalé to není. Na některé use-casy výborné (intranet, místní weby), jako doplnění vyhledávání v Internetu (zvlášť tam, kam jiné vyhledávače nedošáhnou) obstojné, ale člověk si chvíli počká. Při vážnějším použití by se člověk nevyhl dedikovanému stroji či několika virutálům.
Kdo pamatuje astalavista.box.sk, ten měl před pár lety čerstvý refresh s placenou službou hledání v exploitech, CVE a bezpečnostních webech, postavený na privátní instanci YaCy. Na tohle použití (oborový hledač) se asi dá při pár dedikovaných strojích YaCy použít pěkně.
27. 11. 2020, 16:31 editováno autorem komentáře
Kazdy tomu hovori inac. Ak dam tej Jave 1GB RAM a ona ho pouzije tak ja tomu hovorim efektivne vyuzite zdroje. Ona sa totiz pokusa drzat co najvacsiu cast indexu v pamati aby bolo rychle to vyhladavanie. Pozeram ze je to velka vec postavena nad Lucene + Elastic + ... milion dalsich komponentov.
Ak to chcete mensie a rychlejsie staci vam Elasticsearch.
"Pozeram ze je to velka vec postavena nad Lucene + Elastic + ... milion dalsich komponentov."
Co si aspon precist clanek? Yacy neni postavena na Elasticu, ale na Solr. Solr je stejne jako Elastic postavenej na Lucene.
"Ak to chcete mensie a rychlejsie staci vam Elasticsearch."
Elastic ma webcrawler, GUI a podporu DHT?
Elastic je jen databaze. To znamena ze bez dalsich komponent je tak nak realne nepouzitelnej. Proto se taky vetsinou kombinuje s Kibanou a Logstash.
A na co vam je na indexovanie stranok kibana a logstash? Viete na co tie komponenty sluzia?
Na co vam je GUI? Vyhladavaci box mate na stranke.
Elastic ma webcrawler. Plateny a najdete aj zopar open source.
Ja som pozeral nejaku prezentaciu o architekture YACC a tam bol este Elastic takze mozno bola stara ... .