O pewnym słowniku

W ostatnim wpisie wspomniałem o Słowniku geograficznym Królestwa Polskiego, zaznaczając że mogą być problemy z prawami autorskimi do tej publikacji. Jak się okazało, wykrakałem całkiem spore problemy, które niemal doprowadziły do usunięcia Słownika z Wikiźródeł.

Zaczęło się stosunkowo niewinnie, od prośby o sprawdzenie, czy aby któryś ze 150 autorów Słownika nie przeżył do 1940 r. – ostatecznie, to nie problem pominąć kilka stron, czy nie?  No cóż, po bliższym zbadaniu okazało się, że w przypadku sześciorga autorów autorskie prawa majątkowe jeszcze nie wygasły (w jednym z przypadków wygasają dopiero w 2032 r.) na pewno. W kolejnych trzydziestu pięciu przypadkach nie udało się ustalić daty śmierci autora, co – biorąc pod uwagę, że wszyscy autorzy znani są z imienia i nazwiska – bardzo skutecznie zablokowało dalsze prace nad Słownikiem. Cóż było robić? Zorganizowaliśmy wielką debatę. Poddane zostały pod rozwagę różne pomysły, przy czym jedynym wyjściem wydawało się usunięcie z Commons wszystkich „niepewnych” stron, a następnie „przeskakiwanie” odpowiednich fragmentów w przestrzeni głównej na Wikiźródłach. Sam byłem za usunięciem Słownika w całości – obawiałem się, że nie starczy nam sił na monumentalne zadanie odsiania z Commons wszystkich problematycznych grafik, a następnie wielokrotne uzupełnianie indeksu.

Pewnie jednak skończyłoby się na potwornie mozolnej pracy na Commons, ale na szczęście przypomniałem sobie o „starych” Wikiźródłach, pełniących obecne rolę inkubatora nowych wersji językowych i właśnie przechowalni dla tekstów, do których wygasły autorskie prawa majątkowe w USA, ale gdzie indziej jeszcze nie. Słownik spełniał warunki publikacji na głównych Wikiźródłach – został w całości wydany przed 1923 r. i tak pojawiła się nadzieja, że coś uda się z tym projektem zrobić bez mordowania skanów i wykonywaniu karkołomnych skoków nad prawnoautorskimi przepaściami. Pomysł udało się zrealizować sprawnie i bez problemów, i tak oto dwa pierwsze tomy Słownika znalazły się wreszcie na stronie, na której bez problemu można nad nimi pracować.

Przy okazji wyszło na jaw, że polskie biblioteki cyfrowe niezbyt ściśle przestrzegają autorskich praw majątkowych, i że zawsze trzeba skrupulatnie sprawdzać stan prawny zamieszczonych materiałów, bo opisy potrafią być bardzo mylące. Słownik geograficzny Królestwa Polskiego jest łatwo dostępny, zarówno w skanach jak i w OCRze, na stronach kilku takich instytucji. Na jednej z nich znajduje się nawet zapewnienie, że opublikowany materiał jest na licencji Creative Commons… Swoją drogą, badając sprawę wdrożenia na Wikiźródłach standardu Dublin Core, kilka tygodni temu trafiłem na forum bibliotekarzy zajmujących się właśnie bibliotekami cyfrowymi. To, co tam wypisywano na temat praw autorskich do tekstów zamieszczonych w tychże bibliotekach (i ich opisywaniu) upewniło mnie, aby polegać przede wszystkim na ustawie.

Oczywiście, na Słowniku nie kończą się wikiźródlane nowości.

Co jakiś czas docierają do mnie – najczęściej podsyłane przez wikimedian – informacje o różnego rodzaju inicjatywach w rodzaju „Biblioteka XYZ przeprowadza wielką digitalizację zbiorów XYZ. Zdigitalizowanych zostanie ponad (tu jakaś budząca szacunek liczba) stron tekstu.” Informacji tej najczęściej towarzyszy sugestia, że moglibyśmy (my, tzn. zespół Wikiźródeł) coś w tej sprawie zrobić, tzn. nawiązać współpracę i opracować co ciekawsze pozycje. Sugestia taka nieodmiennie spotyka się z moją odpowiedzią, że oczywiście, świetnie byłoby nawiązać współpracę itd., ale nie ma komu, bo jest nas za mało. Ostatnio, po kolejnej tego rodzaju propozycji, postanowiłem sprawdzić, ile tak naprawdę działa w projekcie osób, i jakimi dysponujemy siłami.

Zacząłem od strony „Lista aktywnych użytkowników”, która dokumentuje użytkowników działających w projekcie w ciągu ostatnich 30 dni. Wyszło, że było nas 57. Odjąłem dwa boty, pacynkę, zespół SWMT (bardzo cenię ich pracę, ale tu akurat chodzi mi o innego rodzaju wkład), użytkowników jedynie dodających interwiki czy też wykonujących zadania globalne zlecone na Meta i zostały mi 44 osoby. Z tego 16 osób miało w ciągu ostatnich 30 dni więcej niż 30 edycji, a mniej więcej 5-8 w ciągu ostatnich miesięcy udziela się w dyskusjach w Skryptorium czy na kanale IRC, czyli zajmuje się szeroko rozumianą polityką projektu.

Praktyka pokazuje, że takimi siłami możemy opracować ze trzy krótkie publikacje miesięcznie (tak po 80 stron każda), a raz na kilka miesięcy coś większego (Pana Tadeusza, czy Encyklopedię Staropolską). O czymś takim, co marzy się osobom sugerującym – czyli że weźmiemy te kilkaset tysięcy (czy nawet kilka milionów) stron skanów i raz-dwa obrobimy, można zupełnie zapomnieć. Tak na marginesie, zupełnie nie rozumiem, skąd wzięło się przeświadczenie, że najtrudniejszą częścią w opracowaniu tekstu jest skanowanie i wykonanie OCRa. Może tak było kiedyś, gdy skanery były trudno dostępne, a programy do OCRa kiepskie, ale teraz jest zupełnie inaczej – skanów i OCRów mamy pod dostatkiem, za to brakuje osób do korekty i wikizacji.

Jak zwykle, mamy też kilka nowych projektów proofread.

Zygmunt Miłkowski, Do spółobywateli: list otwarty. Obszerny artykuł o tematyce polityczno-społecznej Zygmunta Miłkowskiego, znanego szerzej jako Teodor Tomasz Jeż.

Ave Maria - okładka

ks. Karol Bołoz, Książka do nabożeństwa. Jeden z dwóch modlitewników których opracowywanie rozpoczęliśmy ostatnio na Wikiźródłach. Niestety, jeżeli chodzi o modlitwy i litanie, dotychczas na Wikiźródłach panował niesamowity nieład, sporo też znalazło się tekstów naruszających prawa autorskie. Publikacja kompletnych modlitewników powinna umożliwić uporządkowanie tego działu w projekcie.

Józef Chociszewski, Ołtarzyk polski katolickiego nabożeństwa zawierający najużywańsze modlitwy, pieśni i rozmyślania. Podobnie jak powyższa Książka do nabożeństwa ks. Bołoza, Ołtarzyk polski również znalazł się na Wikiźródłach z myślą o uporządkowaniu projektu.

Bolesław Prus, Antek. Znany utwór znanego autora, w końcu w wersji proofread. Prace nad Antkiem są już stosunkowo zaawansowane, jak się okazało największy problem sprawiają reklamy, zajmujące znaczną część książki, z którymi nie bardzo wiadomo co robić.

Antonina Domańska, Ave Maria. Krótka powiastka historyczna, sądząc z pobieżnej lektury nic szczególnego, ale przynajmniej szybko się opracuje.

Reklamy
%d blogerów lubi to: