Ověřeno na vzorku 166 lidí z nichž o 71 se ví, že mají diagnostikované deprese.
1. Ten vzorek není reprezentativní. U takového vzorku je 70% spolehlivost spíše chybou, než optimismem.
2. Automaticky se předpokládá, že ti, kterým nebyla deprese diagnostikována, jsou zdraví. Což je dost zásadní chyba.
3. 71 ze 166 má diagnostikovanou depresi!? To nemůže být náhodný vzorek ani náhodou.
Nijak nezpochybňuji ty závěry. Je klinicky ověřeno, že deprese se projevují i v preferenci barev. Zda je špatným znamením obliba černobílých fotografií nebo naopak přestřelené barvy duhy, to už by ale na diskusi bylo. Naneštěstí s tím vzorkem, co mají, se argumentovat nedá.
ad 3.
To neni relevantni, pokud bych resil rozpoznani treba neceho velmi vzacneho, tak si taky nevezmu vzorek 100k lidi, z nichz jich bude mit danou chorobu/whatever 20, ale pokud mozno vyrovnanejsi pocty. Duleziy je, aby byly reprezentativni prave ty "podvzorky" zdravych lidi a lidi v depresich, jejich pomer reprezentativni byt nemusi.
Kritika velikosti vzorku a nejistoty u tech, kde deprese nebyla diagnostikovana, je ale jasna. 70% je bída, to bych fakt nenazval "pozná".
Nepoznam ziadnu studiu, ale kamaratka tvrdi ze antidepresiva zmenili jej mamu tak ze je kludna ticha ale uz je to uplne iny clovek. Ak strojovu diagnostiku pouzije nejaka farmaceuticka firma a potom bude potencialnym pacientom na celom svete ponukat svoje antidepresiva moze sa stat ze polovica populacie bude kludna a uplne mimo.
Deprese je příliš široký pojem. U někoho je to život ohrožující nemoc, kdy páchají sebevraždy a/nebo vraždy. U někoho se to projevuje jen jako "podzimní melancholická nálada". Nejvíce lidí je pak něco mezi. A pak záleží na doktorovi, nakolik chce hledat vhodné léky. Co znám lidi s depresí, tak to na většině z nich normálně není ani vidět, léky berou jen "v dětské dávce". A normálně řídí auta, protože neberou nic tak silného, aby je to otupilo. Přiznávám, že znám i těžší případy, ale to je jen špička ledovce. Více je těch, které deprese nezabíjí, ale jen ubíjí. Ti jsou po lécích naopak přes den akčnější a v noci se jim lépe spí.
Osobně se také konspirační teorie o farmaceutických firmách nebojím. Ty mi chtějí dodávat své léky co nejdéle a chtějí ve mně stálého a vděčného zákazníka. Čeho se bojím jsou doktoři líní léčit. Psychiatrů ubývá. Navíc si lidé paradoxně váží více těch, kteří se na nic neptají a od kterých během 5 minut odchází s receptem. Představa, že nějaký "algoritmus" nažene do psychiatrických ordinací čtyřnásobek lidí, je dost děsivá. Byl by to kolaps. Vyšetření nejde urychlit (rentgen hlavy nepomůže) a navíc i když tomu říkáme "léky", tak ve skutečnosti to deprese neléčí (to u většiny ani nejde), ale nějak to upravuje chemii v mozku tak, aby se člověk cítil lépe - a to je dost individuální a trvá měsíce i roky najít pro člověka vhodnou kombinaci léků a dávkování tak, aby to zabíralo, ale zároveň to z něj nedělalo chodící mrtvolu. Prostě se bojím, že při tom návalu by to skončilo u "třikrát denně Neurol, pošlete dalšího".
Pro učení se máte pravdu, chcete dva stejně velké kbelíky příkladů. Co jsem já bodem 3 myslel je ověření výsledků. Skutečné procento diagnostikovaných nemocných v USA je pod 10%. Takže můžeme navrhnout jiný algoritmus. Každého označíte za zdravého. Algoritmus bude mít úspěšnost přes 90%.
Zkrátka, na učení se opravdu nepotřebujete náhodný vzorek. Ale pokud chcete tvrdit něco v duchu "na 70% správně určí", tak náhodný a reprezentativní vzorek mít musíte. A také pak musíte výsledky podpořit. Pokud by opravdu ten algoritmus měl úspěšnost 70% a skutečný počet lidí s depresemi byl 10%, pak tenhle algoritmus by diagnostikoval trojnásobné množství pacientů, než kolik jich doopravdy je. Čistě proto, že by diagnostikoval špatně 30% z těch 90% zdravých. Pokud by test provedli na správném vzorku, tak by jim spolehlivost klidně mohla vyjít jako 25% a bylo by na první pohled zjevné, že to není dobrá metoda.
Nejlepsi pro posouzeni spolehlivosti je znat mnozstvi false-positive a false-negative vysledku.
U "algoritmickych" vysetreni je typicky tlak na to co nejvic srazit false-negative, s tim, ze klidne trochu naroste false-positive, kteri se pak vyradi dalsim podrobnejsim vysetrenim. Vyznamnejsi je to, ze proklouzne mnohem mit tech, kteri jsou skutecne nemocni.
Pokud by ale false-positive bylo prehnane velky, tak ta metoda postrada vyznam.
Ja tak nejak cekam ze to "az 70% uspesnost" je dezinterpretace. U takovych statistik se prece zvlast urcuje chyba "nespravne da pozitivni vysledek" a zvlast chyba "nespravne da negativni vysledek", tj. konkretne tenhle je potreba otestovat presnost zvlast na dostatecne velkem vzorku depresivnich, a zvlast na dostatecne velkem vzorku nedepresivnich.
(v pdf odkazovanem z originalniho clanku jsem tohle ale nenasel, nenasel jsem dokonce ani jak casto se ktery model trefoval v konkretnich pripadech, nasel jsem jenom ze jeden model "nasel" prilis malo depresi, druhy prilis moc, a treti skoro spravny pocet)
Ovsem timhle se resi spis problem, ze cloveka s depresi asi nikdo nebude lecit dokud nekdo neprijde vubec s podezrenim na depresi. On si o to nejspis sam nerekne, na to je moc v depresi.
Pak se teprve dostane k nekomu kdo to urci s vetsi presnosti (ma mensi prvni i druhou chybu), i kdyz za vyssi cenu (minimalne to trva delsi dobu), a rozodne o dalsim postupu. Koneckoncu tak to je i s kazdou beznou nemoci - kdyz mi neni dobre, tak si nejdriv sam doma "nejakym hloupym algoritmem" rozhodu, jestli s tim pujdu za doktorem ... (a kdo ma dite tak musi rozhodovat za to dite, i v pripade ze si dite samo nestezuje)
Tak z toho mi vychazi, ze
1) ve 100 lidech meli 37+17=54 depresi (a 46 bez deprese)
2) P[nepozna depresi u cloveka s depresi] = 30%
ale
3) P[nahlasi depresi u cloveka bez deprese] = 50% (23 false alarms na ktere zbylo 46 lidi)
!
Coz je o neco lepsi nez si hodit korunou (a o dost lepsi nez si hodit masli), ale nic moc ...
Tyhle výzkumy nechápu. Když už chci něco dokázat/prokázat a ještě to ke všemu zveřejnit, tak proč to neudělám pořádně? Zde třeba solidní vzorek a pořádné vstupní/počáteční podmínky a přesné zadání, co a kde se chci dozvědět . . .
Mimochodem, když nemám foťák a fotit mě nebaví a nechci každou pitominu dávat na instagram tak mám deprese? To by se taky třeba dalo říct, že když jsem si v životě nekoupil mast (nebo co) na hemeroidy, tak je skrývám? Dost hloupé . . .
To ale píšete o výzkumu a o tom, že chcete něco dokázat/prokázat. Představte si jinou situaci. Jste na vysoké škole, s něčím si hrajete nebo to zkoušíte pro rozsáhlejší výzkum, a jen tak si uděláte malé demo na malém vzorku dat. A když už jste si s tím pohrál, tak se pochlubíte na svém blogísku.
Někde úplně jinde, v různých redakcích v různých částech světa, jsou novináři, kteří mají za úkol psát články začínající slovy "američtí vědci vyvinuli/vynalezli/zjistili". No a jednoho dne takový novinář narazí i na ten váš zápisek. V takovém okamžiku už je pro vás pozdě a další "američtí vědci vyvinuli" se šíří světem.
Ano, chápu co myslíte.. Ale pokud jsou to lidi znalí vědy a vědecké práce, jako že by podle instituce v odkazovaném příspěvku v článku měli být, tak takový výsledek nemohou ani na blogísku prezentovat jako nějaký závěr. A pokud jsou to lidé znalí vědecké práce, jak můžou vůbec takto ledabyle začít nějaký výzkum/průzkum/pokus? Taky si občas něco jen tak namatlám, ale ani za zlaté prase bych to radši ani na blogísek nedal. No, možná mě tam jenom místo "blogísek" mate to "vědci".
Vím, kritizovat je tak snadné, na druhou stranu nevidím důvod proč snižovat laťku, pokud chceme kvalitní závěry.
Jo, ten odkaz na článek jsem přehlídl.
Jenže problém není počet obrázků, problém je počet uživatelů. Upřímě, prošel každý uživatel každý obrázek? Jak závažné měli deprese?
Přiznám se, nečetl jsem článek a ani z časových důvodů nebudu. Ale pokud neseženou dostatečný vzorek pro pokus, tak pak je asi těžko dostatečně prokázat závěry. To si mohli ušetřit čas, udělat to s 15+15 nebo 5 + 5 uživateli a pak to zaokrouhlit na 10ky procent.
No, jeste jsem to necetl (a asi ani cist nebudu), nicmene podarilo se jim najit algoritmus jehoz vystup je prokazatelne korelovany s nejakym ukazatelem z toho dotazniku (ktery interpretovali jako deprese). (To jeste nic nerika o tom, jestli se da rozumne pouzit, rika to jen, ze je lepsi nez hazet si minci, nebo vestit z cajovych listku.) Na takovy zaver staci hodne maly vzorek.
Ostatne tak je to u kazde statistiky. Z matematickeho pohledu byva spravne. Nicmene staci trochu postelovat vstupy, tak ze to vypada jako ze testuji nejaky jev a ve skutecnosti testuji trochu jiny, a razem je vysledne cislo uplne jine a hlavne nic nerika o tom, co se nam snazi podsunout. Nejhorsi na tom je, ze to "postelovani" vstupu casto ani neni umysl, jen zanedbani.
Pocet obrazku je pekny, ale pocet lidi je to oc tu bezi. Protoze soudit depresi na zaklade jedineho obrazku je ocividna hovadina, chce to cely soubor obrazku od daneho uzivatele.
Zaprve by ale meli vyclenit skupinu lidi, na ktere se algoritmus nebude ucit, ale jen testovat uspesnost (coz se mi nepodarilo pri rychlym proleteni vycist, jestli udelali). Pokud jako testovaci vzorek na urceni uspesnosti vyclenili nahodne vybrany obrazky uzivatelu, a ne cely uzivatele, je mozny, ze se misto obecnych znaku deprese algoritmus castecne zameril na typicky projevy konkretnich jednotlivych uzivatelu s depresi. Na jinym vzorku lidi by pak byly vysledky vyrazne horsi...