Zalezi co je cela populace. Jestli je populace programatoru treba 1 milion lidi, ale VSC pouziva 40 000 lidi, a vsichni co pouzivaji VSC hlasovali v odkazovanem pruzkumu, tak je pruzkum zkreslujici klidne o 1000 %, nebo tak nejak.
Coz se vysoce pravdepodobne nestalo, ale for je v tom, ze nevime, jaky vzorek je dostacujici, protoze nevime jakym zpusobem hledali lidi co prispeli do pruzkumu, a nevime co je cela populace. Tudiz nevime, jak moc je pruzkum vypovidajici. Nevime, jestli chyba tech cisel je 1 % nebo 1000 %.
Mimochodem statisticke urady venuji prave tomuhle problemu docela spoustu casu. Aby vybrali dostatecne nahodny vzorek, ktery bude vhodne reprezentovat celou populaci. A na strankach CSU se kdysi dalo docist, ze pro CR (populace 10 M) je rozumny vzorek pro pruzkum neco kolem 3000 lidi, pokud sou ti lide vybrani naprosto nahodne.
U pruzkumu, kde odpoved muze naklikat kazdy kdo jde kolem, je riziko ze se informace o pruzkumu rozsiri mezi uzivateli VSC, ale ti nemluvi s uzivateli emacsu (napr), takze vznikne bias. A vlastne to pisou i na Stackoverflow:
"Since respondents were recruited in this way, highly engaged users on Stack Overflow were more likely to notice the links for the survey and click to begin it." - neboli ti co radeji poskytovali nebo hledali rady, maji v pruzkumu vetsi zastoupeni nez ti co rady nepotrebuji/nedavaji.
Cimz nerikam, ze by pruzkum ze stackoverflow nemel vypovidaci hodnotu. Jen je potreba vedet jak to je.