Help:About data

From Wikidata
Jump to navigation Jump to search
This page is a translated version of the page Help:About data and the translation is 95% complete.

ویکی‌داده یک بنگاه دادۀ آزاد است که هم توسط انسان و هم توسط ماشین قابل خواندن و ویرایش است. ویکی‌داده یکی دیگر از پروژه‌های بنیاد ویکی‌مدیا است، سازمانی ناسودبر که مالک ویکی‌پدیا نیز هست. کانون کار ویکی‌داده بر روی داده‌های ساختار یافته است. هر پروژه برای منظوری ایجاد شده است مثلا ویکی‌انبار برای نگاره‌ها و پرونده‌های رسانه‌ای.

این صفحه برای این نوشته شده است که یک نمای کلی از داده‌های ساخت یافته را برایتان نشان بدهد. اگر از پیش با داده‌های ساخت یافته آشنایی دارید و فقط می‌خواهید با نحوه فرآیند آن در ویکی‌داده آشنا شوید بخش‌های پایین‌تر را بخوانید.

شناخت ویکی‌داده

داده‌های ساخت‌یافته به داده‌هایی گفته می‌شود که به صورتی مشخص سازماندهی و ذخیره شده‌اند تا معنی خاصی بدهند و بین نقاط مختلف داده و یک مجموعه داده ارتباط برقرار کنند.

داده ها چه چیزی هستند؟ چرا داده های ساختاریافته مهم هستند؟

تعریف کردن داده‌ها

داده های بزرگ، داده های آزمایشی، داده های آزاد، فراداده شما ممکن است قبلا بعضی از این اصطلاحات را شنیده باشید.

هر اصطلاح بر پایه درک مشترک با کمی اختلاف بنا شده است. داده‌ها می‌توانند درک ما را نسبت به جهان اطراف‌مان بیفزایند.

داده‌های به عنوان مفهوم‌هایی غیرمادی می‌توانند یک سری اطلاعات اولیه به ما بدهند یعنی اطلاعات از داده‌ها به دست می‌آیند.

دلیل این موضوع به این بر می‌گردد که می‌توان داده‌ها را به صورت مجموعه‌ای از «مقادیر» نشان داد که درباره «چیزهای مختلف» هستند. این کار را هم می‌توانیم به صورت کمی و عددی نشان دهیم و هم به صورت کیفیو به عنوان مثال برای قله اورست می‌توانی بگوییم ۸۰۰۰ متر یک مقداری است که ارتفاع آن را نشان می‌دهد یا برای ماشین می‌توانیم بگوییم سرخ یک مقدار است که رنگ آن را نشان می‌دهد.

همان طور که گفتیم داده‌ها همان اطلاعات نیستند بلکه اطلاعات محصول گردآوری و تحلیل داده‌ها است. به عنوان مثال، "8,848" (داده) یک عدد کاملا بی معنی است حتی اگر ما بدانیم که ارتفاع یک کوه است؛ ما فقط می توانیم بگوییم که "کوه اورست با ارتفاع 8,848 متر" (داده) است اما در صورتی که ما از اندازه گیری های استاندارد ارتفاع آگاه باشیم و زمانی که ارتفاع کوه های دیگر را بدانیم به آسانی می شود که چنین نتیجه گیری هایی را انجام دهیم ما آنگاه می توانیم بگوییم که "کوه اورست بلندترین کوه جهان است."

داده‌ها کجاست؟

داده‌ها دور و بر ما هستند. انواع مختلف منبع‌های داده‌ای وجود دارد شامل تجاری، زیستی، اجتماعی، الخ. حتی این صفحه‌ای که دارد مطالعه می‌کنید یک منبع داده می‌تواند باشد! مثلا داده به زبان انگلیسی باشد شما می‌توانید به زبان فارسی آن را داشته باشید.

اگرچه داده‌ها زیاد هستند ولی باید ضبط شده باشند. اگر داده‌های شما در هیچ کجا ضبط نشده باشد و منبعی نداشته باشید مثل این است که اصلا داده‌ای ندارید. بدون یک ساختار زیرین، داده‌ها بی‌معنی به نظر می‌رسند و نمی‌توانند اطلاعات مفیدی به دست بدهند.

اگر داده‌ها را به گونه‌ای استاندارد دسته‌بندی کنیم می‌گوییم آن‌ها را سازماندهی کرده‌ایم. به این داده‌های رده‌بندی و سازماندهی شده اصطلاحا داده‌های ساخت‌یافته می‌گوییم.

در ویکی‌داده برای اینکه داده‌ها را به آیتم‌ها بیفزایید باید داده‌های ورودی‌‌تان را به شکل مناسب وارد کنید.

ساختار کجاست؟

در وب، ساختار حرف اول را می‌زند. خیلی از ویگاه‌ها با استفاده از HTML ساخته شده اند. HTML یک زبان برنامه‌نویسی تحت وب است که پایه و اساس صفحات وب را بر روی آن بنا شده است.

به کمک این زبان‌های نشانه‌گذاری است که ابزارهایی مثل موتور جستجو، ربات‌ها، خوراک آر اس اس، الخ ساخته می‌شوند. بدون این زبان‌ها هیچ چیز "قابل فهم" نیست. برای مثال کد <title> به ماشین می‌گوید که اسم وبگاه چه هست.

ویکی‌داده به جای اینکه از ساختار و عناصر رایج در صفحات وبگاه‌ها پشتیبانی کند در عوض از ساختاری پشتیبانی می‌کند که بتواند هر نوع دانشی که در ویکی‌پدیا و سایر پروژه‌های ویکی‌مدیا است را ذخیره‌سازی کند.Wikibase نام نرم‌افزاری است که ویکی‌داده به کمک آن کار می‌کند، این نرم‌افزار برای مدیریت مقادیر زیادی از داده‌های ساختاریافته طراحی شده است. برای افزودن ساختار نیازی نیست که ساختار را مستقیما به محتوای ویکی‌پدیا یا سایر پروژه‌های ویکی‌مدیا وارد کنید؛ به دانستن زبان‌های نشانه‌گذاری، شماهای داده، کدنویسی، الخ نیز نیازی نیست بلکه به آسانی می‌توانید از طریق فیلدهای ویکی‌داده، داده‌هایتان را وارد کنید.

از داده‌های ذخیره شده در ویکی‌داده می‌توان برای ایجاد فهرست و جدول در صفحات سایر وب‌گاه‌های ویکی‌مدیا یا وب‌گاه‌های دیگر استفاده کرد.

جدول ۱
داده‌هایی برای کوه‌ها
نام کوه خصوصیت مقدار
Mount Everest height 8,848 m
K2 hauteur 8,611 m
Kanchenjunga height 8,586 m
Lhotse height 27940 ft

ساختار داده‌ها

برای درک اهمیت ساختار اجازه بدهید یک مثال برای شما بزنیم. در جدول ۱ داده‌هایی برای چهار کوه بلند جهان نوشته شده است. اگر بخواهیم بلندی دومین کوه بلند جهان را بدانیم باید به داده‌ها نگاه کنیم و مقدار مورد نظر را بیابیم. اما از این چهار کوه فقط سه تا اطلاعات مربوط به بلندی دارند. در بعضی از جاهای جدول بلندی به صورت hauteur (واژه فرانسوی برای بلندی) نوشته شده و در بعضی جاها بلندی به جای متر بر حسب فوت نوشته شده است.

در اینجا چون اطلاعات دسته‌بندی شده است پردازش آن هم برای انسان و هم برای ماشین آسان است و بدون توجه به شکل ظاهری قادرند به ساختار لایه‌های زیرین آن پی برده و به پرسش مربوط به دومین کوه بلند جهان پاسخ دهند.

مدل دادن به داده‌ها

مجموعه‌های حاوی داده‌های ساخت‌یافته مثل ویکی‌داده باید بر اساس یک «مدل داده» سازماندهی شوند. مدل‌های داده توسط ماشین قابل خواندن هستند یعنی رایانه قادر به خواندن آن است. اگر چه رایانه‌ها قدرتمند هستند ولی از نظر تحلیل حتی ساده‌ترین تحلیل‌ها به پای ما نمی‌رسند. برای نمونه در مثال بالا رایانه‌ها فقط در صورتی متوجه می‌شوند بلندی و ارتفاع یکسان هستند که این موضوع به نوعی به آن‌ها گفته شود.

جدول ۲
داده‌هایی برای کوه‌ها
نام کوه خصوصیت مقدار
Mount Everest continent Asia
K2 continent Asia
Kanchenjunga continent Asia
Lhotse continent Asia

مدل‌های داده بر حسب نیازهای تحلیلی، هدف و چهارچوب دادگان و ویژگی‌های فنی سیستم با هم تفاوت‌هایی دارند. با این وجود همه مدل‌های داده مشخص می‌کنند چه نوع داده‌هایی باید توسط سیستم پشتیبانی شود و ارتباط بین مقادیر چگونه باید فهمیده شود. به عنوان مثال در یک مدل داده می‌توان مشخص کرد که height و hauteur باید به همدیگر وصل شود و یک مفهوم را نشان بدهد یا اندازه‌گیری‌های بر حسب متر به فوت تبدیل شود. مدل داده استفاده شده در ویکی‌داده تعیین می‌کند که داده‌ها چگونه ویرایش شود و چگونه توسط کاربران در سیستم وارد شود. ویکی‌داده یک کار در حال گسترش است و نوع داده‌های جدیدی به مرور زمان افزوده خواهد شد.

مدل داده ضرورتا زبان طبیعی انسانی را به چیزی ترجمه می‌کند که توسط ماشین قابل خواندن باشد. به عنوان مثال در زبان فارسی می‌گوییم:

"کوه اورست بلندترین کوه جهان است"

این فرمت خام و بدون ساختار است

در ویکی‌داده با یک اظهارنظر نشان داده می‌شود که شامل یک جفت خصوصیت-مقدار درباره آیتم است. در این مثال برای زمین

Earth (Q2) (آیتم) highest point (P610) (خصوصیت) Mount Everest (Q513) (مقدار)

علاوه بر این ویکی‌داده برای آیتم کوه اورست یک اظهار نظر به صورت زیر دارد:

Mount Everest (Q513) (آیتم) instance of (P31) (خصوصیت) mountain (Q8502) (مقدار)

از آنجایی که از آیتمها نیز می‌توان به عنوان مقدار در اظهارات استفاه کرد و همه آیتم‌ها یک صفحه برای خودشان در ویکی‌داده دارند پس به نوعی یک سیستم پیوند بین آیتم‌ها درون ویکی‌داده تشکیل می‌شود. از آنجایی که ویکی داده از یک فرمت قابل خواند ن برای ماشین بهره می برد ایم پیوندها سبب می‌شود ماشین بتواند روابط و پیوندهای جدیدی کشف کند. به عنوان مثال در جدول 2 داده‌هایی برای کوه‌ها آورده شده است این بار داده‌ها بر حسب موقعیت جغرافیایی و قاره هستند نه ارتفاع. فرض کنید داده‌های قاره به داده‌های ارتفاع «پیوند شده» بود ما می‌توانستیم با اطمینان زیاد بگوییم و در واقع پیشبینی کنیم که قاره آسیا جایگاه مرتفع‌ترین قله‌های جهان است.

پیوند کردن داده‌ها

ویکی‌داده گذشته از اینکه یک مجموعه از داده‌های ساخت‌یافته است از «داده‌های پیوند شده» نیز پشتیبانی می‌کند. داده‌های پیوند شده به روشی برای انتشار داده‌های ساخت‌یافته گفته می‌شود که به همدیگر پیوند شده‌اند.

در ویکی‌داده، داده‌ها با هم پیوند می‌شوند و منابع داده گوناگون از سرتاسر وب و بیرون از خانواده ویکی‌مدیا در این پیوندها شرکت دارند. به عنوان مثال هم اکنون از پایگاه‌های داده متنوع زیر استفاده می‌شود:

نمونه‌ای از یک اظهارنظر شامل جفت خصوصیت-مقدار
نمونه‌ای از اظهار نظر پیچیده شامل یک جفت خصوصیت-مقدار، گستره‌نما و منبع.

با تکیه بر اصول و روش‌های داده‌های پیوند شده، ویکی‌داده می‌تواند برای پشتیبانی از سایر پروژه‌ها به کار رود.

اصول داده‌های پیوند شده

ویکی‌داده در تمام داده‌ها از یو آر ال به عنوان استانداردی برای پیوند داده‌ها استفاده می‌کند.

مدلی که ویکی‌داده از آن پیروی می‌کند unique data model نام دارد. در این مدل محتوا را می‌توان به صورت RDF برون‌ریزی کرد. RDF فرمتی است برای داده‌های پیوندی، اگر با مفهوم داده‌های پیوندی آشنایی دارید، هر صفحه در ویکی‌داده را می‌توانیم به صورت یک سه‌گانه (triplet) در نظر بگیریم. در این سه‌گانه، آیتم در نقش نهاد، خصوصیت در نقش پیشگو و مقدار در نقش گزاره است.

However, Wikidata statements may also contain elements beyond the subject-predicate-object, such as references and qualifiers (for more information, see Help:Statements). This makes it complicated to fully represent Wikidata's content using the language of RDF—more information on these challenges can be found in the document "Introducing Wikidata to the Linked Data Web".

همکاری برای داده‌ها

اگر دادگان دارید و می‌خواهید آن را به ویکی‌داده بیفزایید Wikidata:Data donation را مطالعه کنید.

استفاده از داده‌ها

The data in Wikidata is published under the Creative Commons Public Domain Dedication 1.0, allowing the free reuse of the data. You can copy, modify, distribute and perform the data, even for commercial purposes, all without asking permission.

See Data access for details about the different ways to programmatically access Wikidata's data.

همچنین ببینید

برای راهنمایی بیشتر صفحه‌های زیر را ببینید:

برای اطلاعات بیشتر و رهنمودها به صفحه زیر بروید:

  • Project chat, for discussing all and any aspects of Wikidata
  • Wikidata:Glossary, the glossary of terms used in this and other Help pages
  • Help:FAQ, frequently asked questions asked and answered by the Wikidata community
  • Help:Contents, the Help portal featuring all the documentation available for Wikidata