Vlákno názorů k článku Databáze pro 900 milionů obrázků aneb pořádný cluster v Seznamu od Jan Forman - Nebylo by jednodušší použít třeba ScyllaDB či Cassandru...

  • Článek je starý, nové názory již nelze přidávat.
  • 7. 12. 2023 12:25

    Jan Forman

    Nebylo by jednodušší použít třeba ScyllaDB či Cassandru a nad to dát jen frontend?
    Nebo CEPH a ukládat to jako objekty. Klidně jako S3 compatible API ať je to univerzálnější?

    Či je nějaký zásadní důvod, proč zvolit tohle řešení?

  • 7. 12. 2023 13:30

    Uncaught ReferenceError:

    tipuji, že právěže ne. Scylladb si sebou nese velká omezení, které má CQL, škálování také nic moc, failover peklíčko, občas chyby v kódu, divná komunita, se nedivím, že to nepoužili.

    Ceph a 900m souborů? Nebude z toho nadšený, on to uloží, ale jakákoliv správa té haldy zanořených složek bude peklíčko, hlavně budeš muset udržovat stejně někde jinde metadata k souborům, shardovat to do složek podle checksumů a jiné voloviny, ta obrovská fragmentace ti Ceph prostě zatíží.

    Object gateway (ala s3) ti problém správy řeší jen částečně, ale jakékoliv skenování, retence, validace je bolest, zejména v takovémhle množství, opět budeš muset mít nějaký storage na metadata. To se nevyplatí pro malé objekty.