#100 汉字データベースから始まる、人文学研究の未来

日本に暮らす人々は、昔から多くの汉字に囲まれて生活してきました。例えば現在、中学校卒業までに学習する常用汉字は2,136字あり、パソコンで使うことのできる汉字は数万字にも上っています。また現代ではなじみがないものの、古い文献では広く使われていた汉字もあります。そんな膨大な数の汉字を対象に、その形や意味といった情報を記録する研究を続ける人がいます。文学部研究科教授の池田証壽（いけだ?しょうじゅ）さんです。一体どのような作業を、何を目指して続けているのか。そこには、人文学研究の未来を見据えた挑戦がありました。

【神田いずみ?颁辞厂罢贰笔本科生／文学研究科修士2年】

（取材に応じてくださった池田さん）

约900年前の字书、データベースになる。

池田さんは現在、平安時代や鎌倉時代に書かれた汉字の辞書を対象に研究を進めています。その中から、12世紀の初めに書かれた『類聚名義抄（るいじゅみょうぎしょう）』を見せてもらいました。紙は茶色がかり、ところどころに虫食いの痕が見られます。そこに汉字とその読み方、意味、発音のアクセントが墨で書きつけられています。よく見ると、汉字は同じ偏やつくりを持つものどうしでまとめられ、並べられているようです。このように偏やつくりによって分類、配列した汉字の辞書は「字書」と呼ばれ、平安時代以降、日本で多く作られるようになったことが分かっています。

（写真は天理図書館が所蔵する原本の画像を書籍にした『新天理図書館善本叢書9　類聚名義抄観智院本一仏』（八木書店 2018）の一ページ。
原本は国宝に指定されている）

（こちらは池田研究室所蔵の字书『大広益会玉篇』。1631年に日本で出版された寛永版と呼ばれる増补改订版だが、
オリジナルは543年に中国で出版された『玉篇』にまでさかのぼる）

この『類聚名義抄』には3万2千もの汉字が収録されています。池田さんの目標は、これらの汉字一つ一つを切り出し、汉字の画像やそれが掲載されているページ、その汉字について説明する文章といった情報を整理、蓄積し、コンピュータ上にデータベースを作ることです。さらに他の研究者や学生も利用できるように検索のシステムを構築することも検討しています。

（10世紀の字書『新撰字鏡』のデータベース。一つの行に一つの汉字の情報がまとめられており、例えばA列に掲載箇所、E列に部首、F列に汉字そのものが記載されている。パソコンで使えない汉字の場合は、記号とパーツを使ってその汉字を表現する。例えば100行目F列は、「冖」の下に「天」が組み合わさった汉字であることを示している）

（开発中の検索システム。説明してくれているのは开発の中心を担っている大学院博士课程の刘冠伟さん）

昔の汉字を「一人前」に

池田さんは20年以上、字書のデータベース化に関わり、日本の字書ではすでに『篆隷万象名義』、『新撰字鏡』のデータベースを公開しています。この二つのデータベースには合計約4万もの汉字が収録されています。なぜこの気の遠くなるような作業を進めているのでしょうか。池田さんは自身の研究を「基礎工事をやっている感じです」と例えます。字書のデータベース化によって、研究者は古い字書に書かれた汉字に手軽にアクセスすることができるようになります。すると、汉字研究は大きく発展します。例えば、データベースを活用して異なる時代に作られた字書どうしを比較し、かつて広く使われていた汉字や、汉字の形の変化を追うことができます。

それだけでも学術的意義のあることですが、池田さんはさらに、昔の汉字がかつて広く使われていたことを証明することで、その汉字をパソコンで使えるようになると考えています。文字をコンピュータ上で表すためには、その文字を示す世界共通あるいは日本共通の番号（コード）を定めなければなりませんが、コードの数は有限です。コードを与えるかどうかを決める際に重要な条件の一つが、広く使われていることなのです。現代社会で広く使われる汉字は真っ先にコードを与えられましたが、かつて広く使われていたものの現在ではあまり使用されない汉字は、未だにコードを与えられていません。しかし研究にもコンピュータが不可欠となった現在、昔の汉字をコンピュータ上で表せるかどうかは、汉字研究者のみならず歴史をはじめとする多くの人文学研究者にとって重要なことです。

（日本で定められた文字のコードであるJIS汉字コードの冊子。登録される字が少しずつ増え、現在は約1万字が登録されている）

池田さんは「今の時代は、コンピュータで入力できなければ文字じゃないっていう感じはありますよね。過去に使われた実績があるのに、一人前扱いされていない」と言います。その言葉には汉字への愛着と、汉字研究をはじめとする人文学研究の基盤を整備しようとする意志がありました。

连携が作り出す字书データベース

人文学研究の基礎として期待される字書データベースは、字書に掲載された汉字を画像として記録する作業と、字書に書かれた文章をテキストデータとしてコンピュータ入力する作業を通して進められます。現在一般に使われているものとは異なる形の文字を読み解き、さらにパソコンで使えない汉字を含むデータをコンピュータ入力していくためには、古い字書や情報処理の深い知識と、読解やデータ入力の妥当性に関する議論が必要です。池田さんは研究室の学生と議論を重ね、一つのチームとして協力ながら少しずつ作業を進めています。

（写真左から张馨方さん、池田さん、郑门镐さん、刘冠伟さん。张さんは字体、郑さんは音韵、刘さんは情报処理に详しい）

こうした連携は研究室内に留まりません。汉字で書かれた文献のデータベース化は国内のほか中国、韓国でも進められているため、時に海外に赴いて自身のデータベース化の進捗を報告し、他機関の研究に関する情報を得ることは欠かせません。また、人文学における情報技術活用をテーマとした学会にも参加しています。データベース化という手法を用いた研究は、文学や歴史学など人文学研究の様々な分野で行われています。データベース化とその活用を考える研究者どうしでの情報交換は、専門分野が異なるために難しい部分もありますが、とても有益なものです。字書データベースの構築は、一人の研究者による孤独な作業ではなく、国も分野も超えた専門家どうしの繋がりによって成り立っていました。

（2018年11月に、中国人民大学文学院の王贵元教授の招きで、日本古辞书に関する

集中講義を行った時の写真。池田さんの左の男性が王教授、右の女性は池田研出身の李媛さん（現京都大学））

古い字書に収められた膨大な数の汉字を対象に、データベースを構築することは、一見無謀なようにも見えてしまいます。しかし、それを進める池田さんは、地道な作業の先に汉字研究の発展、さらには人文学研究全体の研究環境の整備を見据えていました。未来の研究の礎を築く「基礎工事」は、データベース化に関わる専門家や学生とともに、少しずつ、かつ確実に進んでいきます。

???????????????????????????

今回绍介した研究は、以下の书籍にまとめられています。

日本汉字学会編『汉字学ことはじめ』日本汉字能力検定協会（2018）

池田証寿　２章「日本古辞书研究からの提言」

麻豆原创

Categories

#100 汉字データベースから始まる、人文学研究の未来