Proofread na Wikiźródłach

Kiedy w marcu 2009 r. przyszedłem na Wikiźródła, moje pojęcie o tym projekcie było mniej więcej takie, że jest to miejsce w którym publikuje się różnego rodzaju teksty; ustawy, poezję (ale głównie ustawy, bo nie raz kliknąłem na szablon licencji), ale jak, to już niespecjalnie. Efekt tego był taki, że w pierwszym miesiącu mojego aktywnego uczestnictwa w projekcie, masowo przerzuciłem kilkadziesiąt wierszy Kajetana Węgierskiego, po niewczasie (po kilku miesiącach) dopiero zdając sobie sprawę, że bez dokładnego opisu bibliograficznego, wartość tych tekstów jest znikoma. I z tego co widzę, gdyby obecnie przyszła na Wikiźródła osoba z zewnątrz, choćby i z innego projektu, prawdopodobnie nie zaczęła by inaczej.

Jak wobec tego wygląda takie publikowanie tekstu, aby naprawdę mógł się on do czegoś przydać?

Przede wszystkim trzeba zrozumieć, że przynajmniej od pewnego czasu, na Wikiźródłach nie zamieszcza się utworów, ale wydania. Czyli, nie Jan Bielecki, poemat Juliusza Słowackiego, ale Jan Bielecki, poemat Juliusza Słowackiego, konkretne wydanie z 1857 r., nakładem Bolesława Maurycego Wolffa, ze wszystkimi jego wadami i zaletami (np. z ingerencją carskiej cenzury, która wycięła dwa wersy).

Takie wydanie zostaje następnie zeskanowane (w praktyce, po prostu znajdujemy skany w sieci), co istotne – w całości, także z okładkami, kartami tytułowymi, spisem treści itp., a następnie zamieszczone w Wikimedia Commons, repozytorium multimediów. Dzięki temu, osoby pracujące na Wikiźródłach będą mogły później wykonać szczegółową korektę tekstu, mając przed oczami jego oryginał.

Kolejnym etapem jest stworzenie na Wikiźódłach strony indeksu, i rozpoczęcie pracy w systemie distributed proofread. Oznacza to, że każda jedna strona opracowywanego wydania zostaje najpierw poddana OCRowi, a następnie tenże OCR zostaje poddany sprawdzeniu przez przynajmniej dwie osoby. To oczywiście pod warunkiem, że jest dostępny OCR – w jego braku, cała praca wykonywana jest ręcznie, co spowalnia pracę, ale zwiększa pewność, że tekst nie zawiera błędu. Trzeba tu zauważyć, że dla wielu starszych publikacji  wykonywanie OCRu nie ma sensu – pisownia uległa w ciągu lat zmianom na tyle, że poprawienie błędów OCRu zabrałoby więcej czasu, niż przepisanie tekstu przez człowieka.

Ostatnim etapem opracowywania tekstu jest wikizacja, czyli udostępnienie tekstu czytelnikowi. Teoretycznie najprostsza część, w praktyce jest równie pracochłonna, co korekta w systemie proofread, jak się bowiem okazuje, udostępnienie np. tomiku wierszy w sposób, pozwalający na łatwy dostęp i wyszukanie każdego utworu, nie należy do łatwych zadań. Tu kryje się błąd, popełniany niekiedy przez osoby działające w dobrej wierze, lecz nie mające pojęcia o publikacji; zdarza się, że wrzucają na jedną stronę np. całą, liczącą kilkaset stron powieść. Nie zdają sobie sprawy, że opracowanie później takiego tekstu to przynajmniej kilka godzin pracy, i to dla doświadczonego użytkownika.

W praktyce, można przyjąć że pełne opracowanie jednej strony zabiera łącznie do jednej roboczogodziny, mniej w przypadku poezji. Biorąc to pod uwagę, nietrudno się dziwić, że od czasu uruchomienia na polskojęzycznych Wikiźródłach systemu proofread, w pełni zostało opracowanych zaledwie 21 wydań.

Reklamy

1 komentarz

  1. Remedios44 said,

    Kwiecień 5, 2010 @ 8:44 pm

    Zostawiam swój ślad 😉 Pozdrawiam 🙂


%d blogerów lubi to: