Wikidata:Tools/OpenRefine/Editing/Tutorials/Inverse Listeria

From Wikidata
Jump to navigation Jump to search
This page is a translated version of the page Wikidata:Tools/OpenRefine/Editing/Tutorials/Inverse Listeria and the translation is 97% complete.

ListeriaはSPARQLクエリでウィキの表を生成して、さらにウィキデータとの同期を取れるパワフルなツールです。多くのウィキペディアで緻密な表を表示するのに利用されており、各ウィキペディアで重複作業を行う代わりに一箇所で保守するだけで済みます。しかしながら、それらの表の生成に必要なデータはウィキデータにはまだ無いということが頻繁にあります: これは最初の情報源からインポートする必要があります。このチュートリアルでは手動で保守された表をウィキペディアからウィキデータへインポートする方法を説明しています。

注意

ウィキペディアの表がすべてインポートに適している訳では無いということは注意しておく必要があります。すべてが信頼できて最新である訳ではありません。表内にある情報が信頼できる情報源のものでありインポートによって歪められるものでないかはチェックする必要があります。

表のインポート

このチュートリアルでは、地下鉄システムに関するデータをインポートします。イギリスのウィキペディアにはこうしたシステムをリスト化した印象的な表 があり、これが私たちが使うサンプルになります。

ウェブで見つけた表をインポートする方法のひとつは単純にマウスで選んでコピーしてOpenRefineのクリップボードのインポートエリアに貼り付けることです。これは多くの場合驚くほどうまく行き、ここで実施できます。しかしながら、ウィキペディアの場合、これは重要な情報を破棄してしまう欠点があります:

  • 各セル内の値で提供されている参照はその情報の出自を示しています: こうした情報源を破棄したくないので、代わりにウィキデータにインポートします。
ウィキペディア記事より表のウィキコードをコピー。

このため、私たちは専用のインポートツールを使ってその表からOpenRefineのプロジェクトを作成します。表のあるウィキペディア記事のセクション内でEditをクリック。この表のウィキコードを取得したいので、使っているのがビジュアルエディタでは無く、手動のテキストエディタであることを確認してください。表の全体({|で始まり|}で終わる部分)で、それをOpenRefineのクリップボードのインポートアリアに貼り付けます(ここにあるのは表がひとつだけなので、実際は全Listサブセクションをコピーできます: OpenRefineは表の外にあるものは全て無視します)をコピーします。

インポートのプレビューには少し時間が掛かります: これはウィキリンクとウィキデータ項目の間のリンクを解決するためにOpenRefineがウィキデータにクエリを投げるためです。デフォルトでは、OpenRefineはウィキコード内のテンプレートを無視しますが、私たちの場合、国といくつかの距離がテンプレートを使っていることを示しているのでInclude templates and images as raw wikicodeを選ぶことができます。ウィキテキストがどのウィキペディアから取得されたかを示すことも必要です(この欄はデフォルトでは英語版ウィキペディアを指し示していますが、私たちの場合はこれで合っています)。最後に、インポートを検証します: プロジェクトの作成もやや時間が掛かります(キャッシュがあるので多少は短めでしょう)。

OpenRefineでのウィキデータ編集 - Listeriaからの転置チュートリアル。ウィキテーブル向けのインポートオプション。
OpenRefineでのウィキデータ編集 - Listeriaからの転置チュートリアル。ウィキテーブル向けのインポートオプション。
ファセットで照合の品質をチェック。

いちどプロジェクトを作成すると、他のインポートツールと少し違うのに気がつくでしょう:

  • 既に多くのセルが照合済みです: 一意のウィキリンクを持ったセルで、ウィキデータ項目に関連するページにリンクしています。
  • 新しいカラムが作成され、セル内にある参照から抽出されたURLがあります。これらの参照カラムは抽出元の内容のカラムの右側に置かれています。
元の値の構造と参照。
元の値の構造と参照。

セルが自動的に照合されたとしても、これらのマッチングの品質は必ずチェックしてください。例えば、ウィキリンクが曖昧さ回避ページをポイントすることはよくあり、その場合セルは曖昧さ回避ページに間違ってマッチすることになるでしょう。これらのマッチの品質についてのアイデアを得る単純な方法のひとつは、照合された値で単にカラムをひとつ追加し (Edit columnAdd columns from reconciled column)、instance of (P31)などのようなプロパティやあなたの表(date of official opening (P1619)のような)の内容に関連するものを閲覧することです。ファセットを使ってこれらの値を調べ、その項目がどのように見えるのかという感覚を身につけてください。

データのクリーンアップ

正規表現に一致しない値、フィルターで隔離。

この表のridershipカラムをインポートするとします。このカラムには302.8 (2016)といった値が含まれています: 最初に年から実際の乗降者数を分離して、これをきれいにする必要があります。例えば正規表現でこれを行うことができます。このカラムでよく使われる形式は以下のようなものです: 数量(数字と小数点で構成)、空白、左括弧、年、右括弧。これは正規表現[\d.]+ \(\d{4}\)に一致するでしょう。これは最初からすぐに取得する必要はありません: このカラムでText filterを作成し、Regular expressionを選び、そこであなたの表現を組み立てます。OpenRefineはあなたの表現をリアルタイムでコンパイルしてそれに一致する行を表示します。invertを選んで、表現に一致しない行を見ることもできます。これらは値が提供されていないかもしくはソースが見つからない行です。そのため私たちはインポートからこれらの行を除外することができます。

Pythonで結合セルより数量を抽出。

これで私たちはこれらのセルを捕捉する正規表現を考えだしたので、これを使って内容を2つの部分に分けることもできます。[1]私たちは最初にその部分を抽出できるように、グループを追加しようとしています: ([\d.]+) \((\d{4})\)。最初のグループは数量を捕捉し、2番めのものは年です。これで、私たちは各グループ用に新しいカラムを作成できます。ridershipカラムをクリックして、Edit columnAdd column based on this columnと選びます。表現言語としてPython / Jythonを選んで、次の表現を使います:

import re # これは正規表現モジュールをインポートします
match = re.search(r'([\d.]+) \((\d{4})\)', value) # これは私たちの正規表現に対する値にマッチします
return match.group(1) # これはマッチしたものからキャラクターの最初のグループを抽出します
数量を百万に変換。

カラムに名前(例えばridership_amount(乗降客数)) を付けて確認してください。操作を繰り返します。今回は2つめのグループで2番めのカラムridership_year(乗降年)を作成します。もう終わりですか?まだです。カラムヘッダーが、乗降客が百万単位で表現されていると言っているので、私たちはそれに合わせて値を掛け算する必要があります。これを簡単にやる方法はこのカラム内のセルを変換(Edit cellsTransform)して単に値の最後に"e6"を付けることです(これは数量を百万単位で表す工学的記数法です)。

スキーマの作成

これで私たちのデータはクリーンアップされたので、通常通りウィキデータのスキーマを作成できます。最初のステップは、どのプロパティを使うかを考えることです。Algiers Metro (Q728045)などの地下鉄システムの項目をウィキデータで開いて、"ridership"プロパティで新しい文を追加しようとしてみてください。 ウィキデータはpatronage (P3872)を提案してきます。これはそのプロパティページを確認してみると適切に思えます。このプロパティの用法を見ると乗降客が計測された暦年を示すためにpoint in time (P585)修飾子を使うように提案しています。

WikidataEdit Wikidata schemaとクリックして、これらのプロパティを使ってスキーマを組み立てます。ウィキテーブル・インポートツールのおかげで、私たちはウィキデータの情報源を作成するのに右手にあるカラム内の抽出された参照URLを使うことができます。私たちがこのデータをウィキペディア経由でインポートしたことを記録するのも役に立ちます: そのために私たちは、抽出を実行するのに使った版へのパーマネントリンク(https://en.wikipedia.org/w/index.php?title=List_of_metro_systems&oldid=830817609 など)をWikimedia import URL (P4656)に使うことができます。

OpenRefineでのウィキデータ編集 - Listeriaからの転置チュートリアル。ウィキデータに乗降客の情報を追加するためのシンプルなスキーマ。
OpenRefineでのウィキデータ編集 - Listeriaからの転置チュートリアル。ウィキデータに乗降客の情報を追加するためのシンプルなスキーマ。

もちろん、私たちは別のカラムにも同じようなことをしたり、それをスキーマに追加したりできるため、これらは一度にウィキデータにアップロードできます。例えば、オープン日をdate of official opening (P1619)で追加できるでしょう。スキーマに満足したら、OpenRefineを使ってUpload to Wikidata操作で直接、もしくはQuickStatementsを使っていつものように編集を行うことができます。

OpenRefine Wikidata Inverse Listeria tutorial, 乗降客情報追加時のプレビュー
OpenRefine Wikidata Inverse Listeria tutorial, 乗降客情報追加時のプレビュー

編集履歴

このチュートリアルで説明した操作は以下のJSON編集履歴を使ってプロジェクトに再度適用することができます。もちろん、それは特定の表の構造に特有のものです。

脚注

  1. OpenRefineでの正規表現利用に関する背景はOpenRefineのウィキ上にあります。