Wikidata:Pobieranie bazy danych

From Wikidata
Jump to navigation Jump to search
This page is a translated version of the page Wikidata:Database download and the translation is 91% complete.
Outdated translations are marked like this.

Wikidane oferują kopię dostępnej zawartości do pobrania przez każdego.

Zwróć uwagę, że istnieje wiele innych metod pobierania strukturyzowanych danych, które nie wymagają pobierania zrzutu całej bazy.

Zrzuty bazy danych

Istnieje kilka rodzajów zrzutów dostępnych do pobrania. Należy mieć jednak na uwadze, że tylko JSON oraz RDF są uznawane za stabilne interfejsy. XML takim nie jest, więc może ulec zmianom. Zmiany w formatach danych stabilnych interfejsów są regulowane przez Politykę Stabilnych Interfejsów

<span id="JSON_dumps_(recommended)_">

Zrzuty JSON (zalecane)

Zrzuty JSON zawierające wszystkie elementy Wikidanych w pojedynczej tablicy JSON są dostępne pod adresem https://dumps.wikimedia.org/wikidatawiki/entities/. Elementy tablicy nie są uporządkowane w żadnej konkretnej kolejności, czyli przykładowo element Q2 niekoniecznie wystąpi po elemencie Q1. Tego typu zrzuty są aktualizowane raz na tydzień.

To jest zalecany sposób pobierania zrzutów bazy danych. Szczegółowe informacje na temat ich struktury można znaleźć w dokumentacji struktury JSON.

Porada: Każda instancja danych (element lub właściwość) jest umieszczana w osobnej linijce pliku JSON, więc plik ten może być odczytywany i dekodowany linia po linii jako osobne obiekty JSON.

Pliki używają *kompresji równoległej*, co oznacza, że niektóre narzędzia dekompresujące mogą sobie nie poradzić z ich odczytaniem. Jeżeli używasz systemu Windows, możesz użyć programu Bzip2. Na systemach NIX-owych natomiast można użyć lbzip2. Użycie pbzip2 jest odradzane, ponieważ nie pozwala on na dekompresję plików spakowanych innym narzędziem niż sam pbzip2.

Możesz pobrać stosunkowo nowy zrzut bazy za pomocą sieci torrent. wikidata-20240101-all.json.gz (109,04 GiB) na academictorrents.com ( magnet)

  • JsonDumpReader jest biblioteką PHP do odczytywania takich zrzutów.
  • gitlab.com/tozd/go/mediawiki to biblioteka Go do przetwarzania zrzutów Wikipedii i Wikidanych.
  • WDSub to biblioteka języka Scala do przetwarzania zrzutów JSON z Wikidanych, pozwalająca odfiltrować część danych za pomocą schematów.

Zrzuty RDF

Tradycyjne zrzuty RDF w formatach Turtle oraz NTriples są dostępne pod adresem https://dumps.wikimedia.org/wikidatawiki/entities/. Stosowane przyporządkowania zostały opisane tutaj. Kompletne warianty zostały oznaczone jako all.

Dostarczane są również rzuty oznaczone jako truthy. Zwierają one dane w formacie nt, takim samym jak w przypadku pełnych zrzutów, ale ograniczają się do najlepszych i preferowanych wartości parametrów, niebędących jednocześnie oznaczonych jako przestarzałe. Nie zawierają one żadnych metadanych o przypisach.

Pliki z końcówką -all zawierają wszystkie informacje umieszczone w Wikidanych z wyjątkiem danych o kolejności, które domyślnie nie posiada dają reprezentacji w formacie RDF. Pliki z końcówką -truthy zawierają *najlepsze* dane (dane z najwyższą rangą dla każdej pary obiektu i właściwości) jako krotki RDF bez odnośników i przypisów.

Pliki zrzutów Wikidanych z przestrzeni leksemów (dane językowe) w formacie Turtle oraz NTriples oznaczone są końcówką lexemes.

Aby poznać szczegóły na temat formatu zrzutów RDF, zobacz stronę Format Zrzutów RDF.

Częściowe zrzuty RDF

WDumper to narzędzie niepowiązane z Wikimedia, pozwalająca na tworzenie spersonalizowanych zrzutów RDF, ograniczonych do wybranych rodzajów danych.

Zrzuty XML

Pełne zrzuty XML można znaleźć pod adresem https://dumps.wikimedia.org/wikidatawiki/.

Uwaga: Format danych JSON zagnieżdżonych w zrzutach XML może ulec zmianie bez ostrzeżenia i może stracić kompatybilność między następującymi wersjami. Powinny one być zatem traktowane jako dane binarne. Przede wszystkim jednak zaleca się użycia zrzutów w innych formatach (np. JSON lub RDF), zawierających dane w standaryzowanym formacie.

Przyrostowe zrzuty bazy danych (lub powiększone/zmienione zrzuty) dla Wikidanych są również dostępne do pobrania. Te zrzuty zawierają rzeczy, które zostały dodane w ciągu ostatnich 24 godzin, zmniejszając potrzebę pobierania pełnego zrzutu bazy danych. Są one znacznie mniejsze od pełnych zrzutów bazy danych.

Są dostępne [1].

Archiwalne zrzuty w formatach JSON oraz RDF

Starsze zrzuty w formatach RDF oraz JSON są dostępne pod adresem Internet Archive (Q461):

Model danych

Model danych jest przedstawiony tutaj. Opisuje on podstawowe elementy składowe obiektów Wikidanych.

Format bazy danych

Opis formatu bazy danych jest opisany na tej stronie. (To nie jest format danych w Wikidanych).

Licencja

Te bazy danych mogą służyć do użytku osobistego lub komercyjnego, jako kopie zapasowe lub do wykorzystywania offline. Wszystkie dane strukturalne z głównej przestrzeni nazw i właściwości są dostępne na licencji Creative Commons CC0 License. Tekst z innych przestrzeni nazw jest dostępny na licencji Creative Commons Attribution/Share-Alike License; mogą również obowiązywać dodatkowe warunki. Elementy multimedialne i inne treści są dostępne w ramach innych licencji, których szczegóły znajdują się na ich stronach opisów.

Zobacz też