Tento text je reakcí na diskussi k článku Polemika s Cynikem.
Máme-li soubor o 30 000 prvcích, může četnost zastoupení prvků nabývat hodnot 1 až 30 0000. Chceme-li zjistit prvek, který se v tomto souboru vyskytuje právě jednou, máme pravděpodobnost, že ho najdeme ve vzorku z 10 prvků 0,033 %, ve vzorku ze 100 prvků 0,333 %. Zvýšení pravděpodobnosti úspěšnosti hledání tím, že počet prvků ve vzorku zvýšíme z 10 na 100, není ani půl procentního bodu. Je tedy zcela zanedbatelné.
Opraveno na základě Gogova článku.
Theorie pravděpodobnosti a mathematická statistika operují s poněkud složitějším aparátem.
OdpovědětVymazatAbychom si problém binarisovali a zjednodušili, představme si, že máme množinu A skládající se z n>0 prvků, a její podmnožinu B o m (0<=m<=n) prvcích.
Pro odhad četnosti této podmnožiny můžeme vzít náhodný výběr k (0<k<=n) prvků množiny A, u nichž zjistíme, že l prvků patří do podmnožiny B (a k-l prvků do ní tudíž nepatří).
Bez důkazu lze přijmout, že nejlepší možný odhad četnosti množiny B je n*l/k.
Jaká je přesnost tohoto odhadu, záleží na velikost k a roste od k=1 po k=n (vždy přesný odhad, spočítali jsme všechny prvky množiny A), a i když je možné přít se o to, co by mělo být měřítkem nepřesnosti, je faktem, že nejčastěji používaná metrika, tzv. standardní odchylka, klesá přibližně s druhou odmocninou k.
Tudíž lze uzavřít, že nepřesnost zjišťování nějaké charakteristiky (ne nutně binární) z náhodného výběru klesá přibližně s druhou odmocninou četnosti tohoto výběru.
Jakékoli úvahy, že v množině 30000 článků umožňuje výběr 10 a 100 stejně representativní zjištění, jsou scestné, pochybné a mathematicky nepodložené.
Neřekl jsem stejné. Řekl jsem 10x lepší. Nicméně dle mého názoru stejně málo representativní.
OdpovědětVymazatJaká je tedy representativnost průzkumu souboru o 30 000 prvcích na vzorku o 100 prvcích a na vzorku o 10 prvcích?
Cca. 3,16x lepší.
OdpovědětVymazatDíky. Vezmu to jako dogma.
OdpovědětVymazat