次の音は、思わぬところに埋まっている。

思い出したように更新したりしなかったり。

スポンサーサイト 

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

カテゴリ: スポンサー広告

[edit]

Trackgack -- | Comment --

PAGE TOP

電子テキストを公開しているサイトまとめ 

情報砂漠(情報が乏しいというわけでなく、ありすぎているという意)のあちこちに発生しているオアシス(有用情報集積所)の一つとして、電子テクストを公開している場がある。

そもそも著作とかの著作権は、その著者が亡くなってから50年が経過すると消滅し、誰でも自由に利用していいことになっている(日本の場合)。だから、没後50年を過ぎた作者の作品はネットに勝手に公開しても、大概の場合は何も文句を言われることはない。
ということで、ボランティア的にそういった著作権切れテキストを公開するという動きは、インターネットの普及に伴って大きくなってきている。そのデータを利用して、名作や手に入れづらい古書を家にいながら無料で読む、自動読み上げに使う、DS文学全集として売り出す、点字化する、などということができるので、そういう活動は文化を広げる上で多大な貢献をしていると言える。


電子テキストは、主に文字データになっているものと、本をそのままスキャンして画像などで公開しているものとがある。文字データになっているものは機械的読み上げや点字化などが容易で、利用しやすいが、どうしても手作業を必要とする部分があるため、大量にデータをそろえるのが困難である。一方画像で公開する場合、出版された年月が新しいと出版社に権利を訴えられることがある(版面権とか)ので、公開できない本もある。また自動読み上げや加工は困難である。ただし全自動スキャナなんかもあるので、一度に大量の本データを公開することも可能になる。


具体的にどんなサイトがあるのかというと、次のようなサイトがある。

・近代デジタルライブラリー
登録数:14万3千冊分のデータ。
時代:明治、大正、昭和一桁くらいのものが殆ど。
分野:ほぼ全分野網羅。
公開形式:画像。PDF形式でのみダウンロード可。

国立国会図書館の膨大なデータの中から、著作権的に問題のなさそうなものを片っ端からスキャンして、全文公開するという、一つの国家事業。所蔵数もダントツの14万冊越え。ただしちょっと古めのものが多く、例えば芥川龍之介の作品は5冊、2~30篇(重複を除く)くらいしか読めない。文学好きというより学者向きか。


・青空文庫
登録数:作品数にして約8000弱(2009年2月現在)。冊数に直すとおそらく1000を切る。
時代:昭和あたりが多い。比較的新しい作家のものもわりとある。
分野:小説や、有名作家のものが殆ど。1割弱くらいは無名作家のも混ざっている。
公開形式:テキスト、HTML。別サイトでPDF、GIFなどでも公開されている。

文学好きでパソコンをよく触る人ならかなりの人が知っているサイト。誰でもボランティアで入力、校正に参加でき、そのボランティアたちの活動によって日々作品数が増えている。登録されているのは主に夏目、芥川、太宰、宮沢など、教科書的によく知られている作家の小説。ただし入力申し込みをすれば何でも(著作権さえ切れていれば)、入力校正を経て載せてくれるので、参加するボランティアの層が代われば別ジャンルも充実するかも。何せ手作業的部分が大きいので、なかなか網羅的には集まっていない。


上二つが著作権切れテキストの二大情報源。以下は個人とか規模小さめ(失礼)の電子テキスト公開所。なお、青空文庫のファイルを流用しているらしいところは省きました。


・プロジェクト杉田玄白
登録数:100~200作品?(よくわかりませんでした)。
時代:なんか知らんけど新しいものが多い。昭和後期どころか平成も。
分野:外国作品の翻訳を集積。小説や童話をはじめ、ハッカーや画家の著作、はては聖書まで。
公開形式:HTML形式。

各種外国作品を翻訳したものを持ち寄ろうという試み。主催の山形浩生さんは翻訳業もやっているらしい。でもカンディンスキーとかエリック・レイモンドとか、著作権が切れていないはずのテキストもあり、どういう風に運営しているのか、著作権関係をどうしているのかは不明。
(追記:カンディンスキーは1944年没なので著作権切れてるのか。知らなかった。で、残りのはGNUとかコピーレフトの文章の翻訳らしい。)


・うわづら文庫(ブログ版もここここにあり)
登録数:どんぶり勘定で100~200冊分(3サイト合わせて)。
時代:明治、大正が中心。
分野:国文学、国語学、古典などが比較的豊富。
公開形式:画像。PDFで一冊まとめてダウンロード可。

国語学論文集などでも本の画像を公開している岡島さんのサイト。個人とは思えないなかなかマニアックな品揃え。それもそのはず、この岡島昭浩さんというのは大阪大学文学部の教授で、どうもこの手の書籍が手に入れやすい位置にいるらしい。楽しい物語というより研究書的なものが多い。


・網迫「質より量」(新館)
登録数:適当に見積もって50~100冊分。
時代:広範囲。青空文庫に近いラインナップ。
分野:小説多い。あと有名作家の随筆とか。
公開形式:テキスト。一部は校正が行き通っているが、スキャンしたデータをOCR(光学式文字読取装置)で取り込んだだけで手直しをしていないデータもごろごろしている。

質より量と、名前からしてとにかく手広くデータを公開したいという意気込みが伝わってくる網迫さんのサイト。網迫さんは青空文庫のボランティアの一人でもあるものの、青空に飽き足らずこんなサイトを作った模様。テキストデータをもっと増やしたいけど手が足りていないという現状をひしひしと感じさせられて、こちらまでもどかしくなってくる。


・心朽窩旧館 やぶちゃんの電子テクスト集
登録数:ざっとみて100~150作品? 冊数に直すと、多めにみて50弱。
時代:近代寄り。更に古いものや海外作家のものも若干ある。
分野:小説、随筆、俳句がほぼ全て。
公開形式:HTML。字が大きいものの背景が濃いので見づらいものもあり。

全集にも収録されていない作品を公開したりと、なかなか意欲的なテキストを公開しているサイト。管理人はやぶちゃんさん。ちなみになぜか海洋生物分類表もある。

・あほづら文庫
登録数:冊数に直すと約20冊。
時代:というか夏目漱石と押川春浪、それから昭和の随筆集のみ(2009年2月現在)。
分野:前述。
公開形式:テキスト。かなり表記や振り仮名、校正などに自信がある様子。

青空文庫は国語力がないやつばかりだ、校正がなってない、青空のファイルは時代の雰囲気を削いでいる、などといった不満を募らせた方が作ったサイト。夏目漱石全集が目玉。あとは青空への批判がびっしり。なんにしても、テキストの選択肢が増えることは悪いことではないと思う。確かに、一般に公開されているテキストには校正があまり行き届いていないものも多い。特に個人サイトのものは。


・アナキズム図書室
登録数:50作品くらい。10冊分あるかないか。
時代:大逆事件あたりに関連したテキスト中心。
分野:前述。
公開形式:テキスト。

大杉栄や幸徳秋水などの、大正期くらいの無政府主義系文章を集めたサイト。個人的にこういうラインアップは好き。プロレタリアとかも好き。


その他数は少ないものの良質なサイト:

・牧野信一電子文庫(冊数6冊分)
39歳で自殺した作家、牧野信一の全作品を公開。またこの方は「ウラ・アオゾラブンコ」というサイトも開設し、青空の痒いところに手が届く作者の作品リストなどを公開している。

・戸坂潤文庫(冊数5冊分)
哲学者の戸坂潤の全作品を公開。


でもこの二つにあるのは、青空文庫が早く校正を進めれば公開できるテキストでもある。入力したのになかなか校正が進まない、じゃあもう公開しちゃえ、となっているところがある。これもまた青空文庫の限界か。


ちなみにこの前の記事で書いた自分のサイトでも、僅かずつ著作権切れテキスト断片を公開し始めた。青空文庫にも参加してるけど、そっちでは公開しづらそうなものだけ。現在3断片だけなので何もいえない。


FC2 Blog Ranking
スポンサーサイト

カテゴリ: 文藝美術文化

[edit]

Trackback 0 | Comment --

PAGE TOP

トラックバック

トラックバックURL
→http://woshyru.blog117.fc2.com/tb.php/152-1ff57e13
この記事にトラックバックする(FC2ブログユーザー)

PAGE TOP

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。