13. července 2008

Velký test české části původní wikipedie

Protože wikipedisté neustále tvrdí, že 100 000 stránek české části původní wikipedie znamená, že wiki je použitelná jako standardní encyklopedie, rozhodl jsem se jejich tvrzení otestovat v praxi. Náhodně jsem vybral těchto 10 článků:
  1. Microsoft Office. Předmět článku důvěrně znám. Článek sám přiznává, že je pahýl. Je to pouhý výčet součástí tohoho kancelářského balíku, bez jakéholiv pokusu o vysvětlení synergie. Závěr: Článek je k ničemu.
  2. Inline brusle. Článek sám přiznává, že je nekvalitní. Obsahuje někoholik náhodně vybraných charakteristik této pomůcky, navíc smíchané se sportem, který se jí provozuje. Závěr: Článek je k ničemu.
  3. Tomismus a novotomismus. Ačkoliv článek nepřiznává, že je pahýl, čiší to z něj. Obsahuje pouze několiv vnějškových popisů bez pokusu popsat podstatu jevu. Závěr: Článek je k ničemu.
  4. Seznam československých a českých finalistů na grandslamových turnajích v tenise. Jeden z nekonečných seznamů wiki. Svou funkci jistě plní, ale encyklopedie není pouhá statistika. Závěr: Článek není encyklopedický.
  5. Take This to Your Grave. Ačkoliv se tento text předstírá, že je článek, ve skutečnosti je to opět pouhá suchá statistika, bez jakéhokoliv pokusu o uměleckokritický rozbor tohoto alba. Závěr: Článek je k ničemu.
  6. Jizerka (pravostranný přítok Jizery). Poměrně vyčerpávající popis jednoho potoka. Ještě mapku a byl by článek dokonalý. Závěr: první článek hodný toho jména.
  7. Megalodon. Článek sám sebe označuje za pahýl. Já bych nebyl tak přísný, tento popis vymřelé paryby považuji za dostatečný. Závěr: druhý článek hodný toho jména.
  8. Dave Mattacks. Nesmyslný seznam toho, s kým vším temto umělec nahrával, bez jakéholiv pokusu o zhodnocení jeho kvalit a přínosu pro umění. Závěr: Článek je k ničemu.
  9. Tuhaň. Symetrické přesměrování. Závěr: Není co hodnotit.
  10. Souhvězdí Jižní ryby. Článek sám sebe označuje za pahýl. Je to suchý popis, z čeho se skládá toto souhvězdí. Závěr: Ačkoliv je to pouhá deskripce (nikoliv analysa), takový článek do encyklopedie patří.
Výsledek je jasný. Máte 30 % (± 10 %) chanci, že v české části původní wikipedie narazíte na slušný článek. Musíte se přitom smířit s tím, že se bude jednat o positivistický popis na úrovni 19. století, nikoliv moderní analysu na úrovni Encyclopedie Britannica.

Znovu se tak potvrdilo, že wiki není žádná encyklopedie, nýbrž pouhé strukturované úložiště znalostí.

19 komentářů:

  1. Znovu se tak potvrdilo, že jsem byl ve svém odhadu podstatně blíž než Vy. Tvrdil jste 0,1 - 1 %. Já tvrdil až několik procent, po poznání vašich kritérií jsem říkal, že to bude ještě víc. Najednou jste dospěl k číslu 30%.

    To je číslo dost slušné, představuje kolem 30 tisíc hesel. Já bych byl spokojen i s nižším číslem (důvod níže) a sám považuji za reálné nižší číslo.

    Moderní analysa na úrovni EB je hezká nadsázka. Zkuste si prosím udělat stejný náhodný test u EB.

    A zkuste si ho udělat třeba u dvousvazkové encyklopedie Universum. Má 30 tisíc článků, které se rozsahem nemohou měřit ani s řadou pahýlů na Wikipedii. Jejich úplnost podle mých měřítek je chaboučká, jejich úplnost podle vašich měřítek sporná.

    Nebo jiné porovnání: Ottův slovník má, jak z různých zdrojů zjistila česká Wikipedie, něco mezi 140 a 186 tisíci hesly. Vycházel péčí placených redaktorů po dobu 20 let po osmileté přípravě. Česká Wikipedie dosáhla čísla (podle vás) kolem 30 tisíc slušných hesel péčí dobrovolných přispěvatelů za dobu zhruba šesti let (včetně fáze, kterou bychom mohli přirovnat k oné přípravě u Ottova slovníku).

    Kdybyste měl pravdu a na Wikipedii bylo 30 tisíc slušných hesel, já sám jsem skeptičtější, byl by to podle mého obrovský úspěch Wikipedie. I když sám nesdílím nadšení pro 30 % článků, nechápu, jak by mohlo být toto číslo hodnoceno jako důvod ke kritice.

    I když tento hodnotící soud nesdílíte, prosím, až budete příště psát, že Wikipedie má 100 tisíc pahýlů, uvědomte si aspoň po faktické stránce tento svůj poslední příspěvek. Děkuji.

    OdpovědětVymazat
  2. Poněkud desiterpretujete mé výsledky. Těch 30 % článků je slušných, avšak nikoliv nutně encyklopedických. Co se dá zkazit na Jizerce? Encyklopedie má sloužit jako poučení o složitějších jevech.

    OdpovědětVymazat
  3. Správná interpretace článku je takováto:

    Na cs: je cca 70 000 ± 10 000 pahýlů. Kromě nich je tam cca 30 000 ± 10 000 positivistických přehledů. Je možné, že mezi těmi 30 000 jsou i encyklopedické články, ale určitě je jich méně než 10 000.

    OdpovědětVymazat
  4. Jan Svoboda - ano, tak (a možná ještě opatrněji) to interpretuji i já a považuji takovou interpretaci za vynikající úspěch Wikipedie. Představa, že za šest let čeští wikipedisté zadarmo a dobrovolně napsali 30 tisíc kvalitních přehledových článků a 10 tisíc z nich by se uplatnilo v encyklopedii, je velmi potěšitelná.

    Doufám, že tu svou interpretaci zase nepozměníte. :o)

    OdpovědětVymazat
  5. Vy si nedáte pokoj.

    30 tisíc kvalitních přehledových článků
    Ano, snad. Nicméně když opíšete biologický a zeměpisný atlas, budete jich mít stejně.

    10 tisíc z nich by se uplatnilo v encyklopedii
    Jestli nepřestanete takto odporně lhát, budu Vás opravdu mazat. Už toho mám opravdu dost, vytáčíte mne víc, než jsem ochoten snášet.

    OdpovědětVymazat
  6. Hovořit o "velkém" testu nelze, ani kdyby analysa těch 10 článků byla skutečně velmi podrobná.

    Osobně používám subjektivní test užitečnosti: zatímco en.wiki použiji v průměru několikrát denně a mám z ní pocit, že je velmi úplná a značně věrohodná (tj. nedostatky jsou výjimkou), do cs/sk.wiki se podívám asi tak jednou do týdne až jednou do měsíce, výhradně pro české/slovenské reálie, a výsledkem je pravidelně zklamaní: buď tam článek není vůbec, nebo je to pahýl, anebo je nepřesný, zaujatý nebo v souladu s náboženstvím celoživotního čtenáře Mladé fronty simplexní.

    OdpovědětVymazat
  7. Berte to spíš jako nadsázku.

    Ano, praktické zkušenosti mám totožné.

    OdpovědětVymazat
  8. Malý test Iuridictu. Prošel jsem pět článků. Jsem laik, takže moje hodnocení je také laické a berte ho s nadhledem. Užita funkce náhodný článek.

    1. Poškozování zájmů republiky v cizině. Článek stručný, ale po definiční stránce výstižný. Někde ale ne zcela konkrétní (není třeba vůbec jasné, který komunistický trestní zákon má autor na mysli). Po formální stránce řada překlepů a nesmyslná vazba, používaná ale i jinde, "trestný byl rehabilitován" - znamenala by, že byl tento trestný čin znovu učiněn schopným, platným, očištěným... Závěr Navzdory výhradám článek hodný toho jména.
    2. Caveat emptor Článek znovu stručnější, ale výstižný. U historického právního termínu bych očekával, že se dozvím proč a jak bylo od jeho praxe upuštěno. Přesto znovu závěr: článek hodný toho jména.
    3. Nemo plus iuris ad alium transferre potest quam ipse habet Náhoda, článek bezprostředně související s předchozím. Bohatší obsah, stejná výtka jako před tím. Závěr: článek hodný toho jména.
    4. Doba zvýšeného ohrožení republiky Dobrý a výstižný článek, zatím nejlepší ve srovnání všech čtyř. Jen to, že se až v posledním odstavci za poměrně okrajovými detaily ukončení doby čtenář doví, k čemu tato doba byla stanovena, je malou vadou na kráse. Závěr: Velmi dobrý článek.
    5. Lex Mareš Nejobsáhlejší, nejlépe napsaný článek. Prakticky závěr bez výhrad, článek si dovedu představit i ve větší právnické encyklopedii.

    Statistiku z tohoto "průzkumu" udělat nemůžu, statistická chyba by byla příliš velká, ale náhodné články byly kvalitní až velmi kvalitní.

    K tomu doplním své vlastní stručňoučké hodnocení těch 10 náhodných článků z Wikipedie:
    1 Office: Přehnaně stručné, ale ve spojení s odkazovanými články dostatečné.
    2 Inline brusle: Namátkové, nahodilé, nedostatečné.
    3 Tomismus: Stručné, ale na úrovni malých českých slovníků.
    4 Seznam ...: Prostě seznam, není to článek, v encyklopediích slouží jen jako doplněk k příslušnému článku.
    5 Take This to Your Grave: Ano, chybí tam jakákoli reflexe alba.
    6 Jizerka: Vyčerpávající.
    7 Megalodon: Nevím, co tam odborníkům chybí, pravděpodobně jde o to, o čem jsem psal jako o větší či menší úplnosti.
    8 Mattacks: Zdá se, že je důležitý především hrou s Jethro Tull, tak by tam o tom měla být větší zmínka. Jestli není, článek vyhovuje definicí, až na disproporčnost.
    9 Tuhaň: Není článek.
    10 Jižní ryby: Představeny statistické údaje, ale naprosto chybí jejich zasazení do kontextu.

    V zásadě se tedy shoduji, ale trochu jinak bych to roztřídil: Kvalitní články (třeba krátké) 2, články s úplnou definicí, ale bez důležitých podrobností 5, články špatné 1, nečlánky 2. U Iuridicta by mi to vyšlo asi 3-2-0-0.

    Hlavní rozdíl (pokud pomineme nečlánky) je v tom, že v náhodném výběru Iuridictu jsou kvalitní i ty články, které vyžadují reflexi, která se v náhodném výběru z Wikipedie objevovala výjimečně (asi jen megalodon).

    Výsledek Wikipedie se tak zdá být lepší v absolutních číslech, Iuridicta v relativních. Obě tak mají co dohánět, a proto hodně zdaru :o)

    OdpovědětVymazat
  9. Zajímavé, leč dost zastaralé. Navíc vychází z výběru článků na Iuridictu, takže sice zachytilo několik témat, která obsahuje Iuridictum a Wikipedie ne, ale žádné v opačném směru, což není úplně objektivní. Takové články přitom pochopitelně také jsou.

    OdpovědětVymazat
  10. Když se pozorně začtete do prvního odstavce, zjistíte, že to tak není, a kdyby nějaký článek byl na cs.wiki na Iuridictu chyběl, mohl se do výběru dostat.

    Za domácí úkol zjistěte, kolik ze zmiňovaných článků na wikipedii se od té doby výrazně změnilo.

    OdpovědětVymazat
  11. Na Wikipedii se výrazně změnily články: 1) násilí, 2) daň, 3) obchodní právo, 4) pachatel, 5) parlamentarismus, 6) pomluva, 7) prekluze, 8) soud, 9) základní práva, 10) úřad veřejné moci, tj. polovina hodnocených článků. Vždyť jsem říkal, že je to hodnocení pečlivé, ale zastaralé.

    Jinak omluva za kritiku metodiky, ta byla vymyšlena pěkně.

    OdpovědětVymazat
  12. Ovšem některé texty se změnily k horšímu, příkladně Prekluse, do níž nesmyslně zahrnuli informace, které patří k Promlčení.

    OdpovědětVymazat
  13. To se bohužel stává, na tom není nic překvapivého.

    OdpovědětVymazat
  14. Ne, to by se tedy rozhodně stávat nemělo. Pokud by články kontrolovali lidé s elementárním povědomím o daném oboru, taková nesmyslná editace by nemohla obstát.

    OdpovědětVymazat
  15. Stávat by se to nemělo, ale stává se to. Říkal jsem, že na obou projektech je co zlepšovat.

    OdpovědětVymazat
  16. Ano, tak nějak by to napsala Mladá fronta Včera, Dnes a Zítra.

    OdpovědětVymazat
  17. Pozor, aby vás Urban nesmazal za chat ;o)

    Neuděláte nový srovnávací test? Docela by mne zajímal. Já ho udělat nemůžu, články o tématech, kterým rozumím, na Iuridictu nemáte. :o)

    OdpovědětVymazat

Kursiva: <i></i>
Tučné písmo: <b></b>
Uvozovky: „“
Odkaz: <a href = ""></a>