27. května 2006

Polemika s Cynikem

Cynik si všiml, že jsem provedl konkurenční průzkum kvalit české a slovenské části Wikipedie. Bohužel stále nepochopil základy statitistiky. Obě části mají cca 30 000 článků. Pokud jich prozkoumám 100, tak jich prozkoumám 0,333 %. Pokud jich prozkoumám 10, tak jich prozkoumám 0,033 %. V obou případech je statistická representativnost nulová, neboť 0 * 10 = 0, stejně jako 0 *100 = 0.

Co se týká údajných primitivních a průhledných triků, chtěl bych znovu ocitovat své závěry: "Pokud se zajímáte o kytičky nebo jste fanatik do planetek, je česká část Wikipedie hraničně použitelná. Jinak ne." "Česká a slovenská část Wikipedie jsou jedna za 18 a druhá bez 2 za 20. Jediný rozdíl spočívá v tom, že česká obsahuje více biologických pahýlů, slovenská více astronomických." Tím jsem nechtěl říci, že slovenská část Wikipedie je lepší než česká. Tím jsem chtěl říci, že obě jsou stejně nepoužitelné.

Ale spíše si přečtěte, jak to bylo ve skutečnosti.

7 komentářů:

  1. Opravdu, přečtěte si něco o základech statistiky: rozptyl průměru klesá nepřímo úměrně odmocnině z absolutní velikosti výběru. Podle téže logiky by stačilo vybrat článek jediný.

    OdpovědětVymazat
  2. Místo hraběcí rady raději napište, o kolik je průzkum 30 000 článků na vzorku 10 článků méně přesný než na vzorku 100 článků.

    OdpovědětVymazat
  3. Ježíš, je tak těžké použít selský rozum? Přece čím máme větši množství vzorků, tím vždy je výsledek přesnější. Proč se asi předvolební průzkumy dělají na tisících a ne na deseti lidech?

    OdpovědětVymazat
  4. Je jasné, že použít 100 místo 10 vzorků je o něco přesnější. Jde o to, jak velké je ono něco. Zda má vůbec nějaký význam.

    Nerozumíte předvolebním průzkumům. Struktura vzorku je přesně dána. To u našich průzkumů nebylo.

    OdpovědětVymazat
  5. Aha, takže 10 vzorků pro soubor 20 hodnot je naprosto nedostatečné a nelze "naměřit jiný podíl než 10procentní a jeho násobky".

    Zdá se, že Vy jste matfyz studoval úspěšně. :-)

    OdpovědětVymazat
  6. Průzkum ze 100 vzorků je přibližně 3,16x přesnější než z 10.

    OdpovědětVymazat
  7. No, já bych řekl, že je 10x přesnější. Jenže mně nejde o relativní čísla, nýbrž o absolutní. I 10x přesnější výzkum může být totálně nepřesný.

    OdpovědětVymazat

Kursiva: <i></i>
Tučné písmo: <b></b>
Uvozovky: „“
Odkaz: <a href = ""></a>