1. června 2006

Ještě jednou k representativnosti

Tomáš Pecina odborně vyčíslil, že průzkum souboru o 30 000 prvcích na náhodném vzorku o 100 prvcích je 3,162 277 660 168 379 331 998 893 544 432 7x representativnější než takový průzkum provedený na náhodném vzorku o 10 prvcích. To je sice hezké, ale pořád je to jen relativní číslo. Může mi některý z přítomných pánů mathematiků zde nebo na Vrbě vyčíslit, jaká je standardní odchylka (D) pro tvrzení o souboru o 30 000 prvcích založené na náhodném vzorku o 100 prvcích? Pro 10 prvků předpokládám, že to bude 3,162*D.

6 komentářů:

  1. Vysvětlit vám základy aparátu matematické statistiky by si vyžadovalo mnohem větší prostor a úsilí, než které jsou k disposici.

    Doporučoval bych pro začátek určité praktické experimentování, např. s náhodnými výběry ze 100 hodnot 0 nebo 1. Sám uvidíte, že není-li počet nul a jedniček stejný, je i výběr dvou prvků representativnější než výběr jednoprvkový. Je-li nul a jedniček stejně, je ovšem jedno, kolik prvků vyberete.

    OdpovědětVymazat
  2. Hm, to mi tedy mnoho nepomohlo. Nemohl byste tedy učinit vlastní závěry o representativnosti Cynikova a mého výzkumu?

    OdpovědětVymazat
  3. Pánové, Cynik i já, jsme přeci exaktní závěry učinili. Pokud je tedy mám připomenout, tak Cynik napsal: "Celkově tedy musím hypotézu, že cs.wikipedie zaostává za slovenskou, na základě získaných výsledků odmítnout", já: "Česká a slovenská část Wikipedie jsou jedna za 18 a druhá bez 2 za 20. Jediný rozdíl spočívá v tom, že česká obsahuje více biologických pahýlů, slovenská více astronomických."

    Jediný problém je v tom, že ani Cynik ani já jsme nestavili obor přesnosti našich tvrzení, tedy to známé "±". To žádám od Vás, mathematiků; nedostatek erudice v tom směru s klidem přiznám.

    OdpovědětVymazat
  4. Hypothesu musíte formalisovat, např. máte-li z nA (sorry, indexy to neumí) článků ve wikipedii A a nB ve wikipedii nB, z nichž je mA<=nA, resp. mB<=bB, kvalitních, můžete proponovat hypothesu, že zastoupení kvalitních článků ve wikipedii A je vyšší než ve wikipedii B, tzn. mA/nA>mB/nB.

    Tuto hypothesu pak můžete testovat na náhodném výběru kA a kB článků, z nichž zjistíte, že kvalitních je lA, resp. lB.

    Desetkrát větší rozsah výběru Vám pak poskytne značně vyšší věrohodnost Vašeho testu, a jsou-li čísla nA a nB kolem 30 tisíc a Cinikovou kA je 100, není věrohodnost Cinikova výsledku zase tak nízká.

    OdpovědětVymazat
  5. Děkuji za formalisaci. Jaký je tedy výsledek v absolutních číslech?

    OdpovědětVymazat

Kursiva: <i></i>
Tučné písmo: <b></b>
Uvozovky: „“
Odkaz: <a href = ""></a>