Pro učení se máte pravdu, chcete dva stejně velké kbelíky příkladů. Co jsem já bodem 3 myslel je ověření výsledků. Skutečné procento diagnostikovaných nemocných v USA je pod 10%. Takže můžeme navrhnout jiný algoritmus. Každého označíte za zdravého. Algoritmus bude mít úspěšnost přes 90%.
Zkrátka, na učení se opravdu nepotřebujete náhodný vzorek. Ale pokud chcete tvrdit něco v duchu "na 70% správně určí", tak náhodný a reprezentativní vzorek mít musíte. A také pak musíte výsledky podpořit. Pokud by opravdu ten algoritmus měl úspěšnost 70% a skutečný počet lidí s depresemi byl 10%, pak tenhle algoritmus by diagnostikoval trojnásobné množství pacientů, než kolik jich doopravdy je. Čistě proto, že by diagnostikoval špatně 30% z těch 90% zdravých. Pokud by test provedli na správném vzorku, tak by jim spolehlivost klidně mohla vyjít jako 25% a bylo by na první pohled zjevné, že to není dobrá metoda.
První linux nainstaloval kolem roku 1994 a u něj zůstal. Později vystudoval fyziku a získal doktorát.
Internet Info Root.cz (www.root.cz)
Informace nejen ze světa Linuxu. ISSN 1212-8309
Copyright © 1998 – 2021 Internet Info, s.r.o. Všechna práva vyhrazena.