सहायता:डेटा के बारे में
विकिडेटा एक मुक्त ज्ञान दस्तावेज़ है जिसे मनुष्य और मशीन दोनों पढ़ सकते हैं। यह मुक्त-सामग्री गैर-लाभ संगठन विकिमीडिया संस्थान द्वारा होस्ट और संचालित किए जाने वाले कई विकि परियोजनाओं में से एक है। इस संगठन को सबसे ज़्यादा विकिपीडिया की वजह से पहचाना जाता है। विकिमीडिया संस्थान के सभी परियोजनाओं का अपना विषय है—जैसे विकिपीडिया ज्ञानकोषीय सामग्री के बारे में है, विकिमीडिया कॉमन्स पर चित्र और दूसरे मीडिया फाइलें पाई जाती हैं, और विकिकोष परिभाषाओं और समानार्थी शब्दों के बारे में लेक्सिकल जानकारी प्रदान करते हैं। विकिडेटा का विषय है संरचित डेटा।
यह पृष्ठ संरचित डेटा का एक अवलोकन होगा। अगर आप संरचित डेटा के बारे में पहले से ही कुछ जानते हैं मगर विकिडेटा पर इसके उपयोग के बारे में जानना चाहते हैं, और साथ में सीखना चाहते हैं कि विकिडेटा पर इस डेटा का उपयोग कैसे किया जा सकता है या फिर आप विकिडेटा पर अपने परियोजना के डेटा से योगदान कैसे कर सकते हैं, कृपया डेटा लिंक करने के सेक्शन पर चले जाएँ।
विकिडेटा को समझना
संरचित डेटा का मतलब है डेटा जिसे व्यवस्थित करके एक विशिष्ट तरीके से रखा जाता है, और इसका विषय अक्सर विषय एनकोड करना तथा किसी डेटासेट के अंदर अलग-अलग डेटा विंदुओं के बीच के संबंध को बनाए रखना।
मगर डेटा असल में है क्या? और हमें सिर्फ संरचित डेटा के बारे में कद्र क्यों है?
डेटा की परिभाषा
बड़ी डेटा, परीक्षणित डेटा, मुक्त डेटा, मेटाडेटा—आप पहले कहीं-न-कहीं इनमें किसी एक या फिर सभी शब्दों से तो अनुकूल हुए होंगे।
हर शब्द का अर्थ ज़रा-सा अलग है मगर ये सभी, डेटा तथा हमारे विश्व को हमसे अनुकूल कराने के इसकी क्षमता के अर्थ पर ही आधारित हैं।
एक विशिष्ट परिभाषा पर जाए तो, डेटा को जानकारी का पिता कहा जा सकता है, यानी कि जानकारी डेटा से पाई या निकाली जा सकती है।
ऐसा इसलिए है क्योंकि जब मूल अर्थ की बात हो, डेटा बस 'चीज़' की कोई एक 'वैल्यू' है। ये वैल्यू संख्या या शब्द हो सकते हैं जैसे कि नाप या मात्रा। ये विशेषणीय भी हो सकते हैं जैसे कि कोई विवरण या तुलना। उदाहरणस्वरूप, हम कह सकते हैं कि "8,848 मीटर (29,029 फुट)" एवरेस्ट पर्वत की ऊँचाई का एक डेटा वैल्यू है, और "लाल" किसी गाड़ी के रंग का डेटा वैल्यू है।
जैसा पहले बताया गया था, जानकारी और डेटा समान नहीं हैं; जानकारी असल में डेटा के संग्रह और विश्लेषण का अंजाम होता है। उदाहरणस्वरूप, '8,848' (डेटा) अपने आप में एक व्यर्थ संख्या है चाहे हमें पता भी लग जाए कि यह एवरेस्ट पर्वत की ऊँचाई है; हम "एवरेस्ट पर्वत की ऊँचाई 8.848 मीटर है और यह दुनिया का सबसे ऊँचा पर्वत है" (जानकारी) तभी कह सकते हैं जब हमें ऊँचाई का मानक नाप और दूसरे पर्वतों की ऊँचाई पता हो। जब डेटा संरचित हो, इस तरह के वाक्य बनाना, जानकारी और आँकड़ें प्राप्त करना, और तथ्य स्थापित करना बहुत आसान हो जाता है—हम इस बारे में बाद में बात करेंगे।
डेटा कहाँ है?
डेटा हर तरफ है। डेटा के कई स्रोत हैं, जैसे वित्तीय, जैविक, और सामाजिक डेटा। इस पृष्ठ पर भी डेटा है! उदाहरणस्वरूप, इस पर शब्दों की कुल संख्या है, तारीख हैं कि इसे कब बनाया गया था और इसपर आखिरी संपादन कब हुई थी, एक विषय है, दृश्यों की एक संख्या है और भाषाओं की संख्या भी है जिनमें यह उपलब्ध है।
हालाँकि सब कुछ ही डेटा का स्रोत है, वह डेटा शायद मौजूद है नहीं है जिसे ठीक से रिकॉर्ड और व्यवस्थित नहीं किया गया है। किसी संरचना के बिना डेटा व्यर्थ है और जानकारी प्रदान नहीं कर पाता।
संरचित से हमारा मतलब है एक विशिष्ट तरीके से वर्गीकृत। संरचित डेटा का मतलब है संगठित और वर्गीकृत डेटा।
संरचना कहाँ है?
वेब पर संरचना ही सब कुछ है। ज़्यादातर वेबसाइट HTML से बनाए जाते हैं, एक मार्कअप भाषा जो वेब पृष्ठ को एक बुनियादी मचान प्रदान करता है।
मार्कअप भाषाओं का इस्तेमाल पृष्ठ के सामग्री को टैग करने और उनपर विवरण जोड़ने के लिए भी किया जाता है ताकि खोज इंजन, बॉट और RSS फीड जैसे एप्लीकेशन इसे आसानी से पढ़ सके और "समझ" सके। उदाहरणस्वरूप, <title>
मशीनों को बताता है कि वेबसाइट का नाम क्या है।
किसी वेब पृष्ठ के साधारण संरचना को समर्थित करने की जगह विकिडेटा विकिपीडिया और दूसरे विकिमीडिया परियोजनाओं पर रखे सभी जानकारी के लिए संरचना प्रदान करता है। विकिडेटा दूसरे विकिमीडिया परियोजनाओं की तरह मीडियाविकि सॉफ्टवेयर पर आधारित है जिसे Wikibase द्वारा बढ़ाया गया है। यह वही सॉफ्टवेयर है जो विकिडेटा को चलाता है और इसे अधिक मात्रा में संरचित डेटा का प्रबंधन करने के लिए बनाया गया है। संरचना सीधे टेबल या सूची के रूप में विकिपीडिया या दूसरे विकिमीडिया साइटों के पृष्ठों पर नहीं जोड़ा जाता है, और विकिडेटा संपादकों को किसी मार्कअप भाषा, डेटा स्केमा, वस्तु नोटेशन, या विशेष सिनटैक्स को सीखने की आवश्यकता नहीं; बल्कि डेटा को विकिडेटा पर एक सदस्य-अनुकूल इनपुट फॉर्म के ज़रिए जोड़ा और संपादित किया जाता है।
विकिडेटा पर रखे सभी डेटा की मदद से कई तरह के स्वचालित अद्यतन होने वाली सूचियाँ या टेबल, या विकिमीडिया साइटों पर तथा बाहर, संरचित पृष्ठ बनाए जा सकते हैं।
पर्वतों के लिए डेटा | ||
---|---|---|
पर्वत | गुणधर्म | वैल्यू |
Mount Everest | height | 8,848 m |
K2 | hauteur | 8,611 m |
Kanchenjunga | height | 8,586 m |
Lhotse | height | 27940 ft |
डेटा की संरचना
सरंचना के एक उदाहरण के तौर पर चलिए टेबल 1 को देखते हैं। इस टेबल पर हमें धरती के चार सबसे ऊँचे पर्वतों के बारे में डेटा प्राप्त होती है। अगर हम किसी विशिष्ट डेटा को जानना चाहे, जैसे दुनिया का दूसरा सबसे ऊँचा पर्वत, हम दिए गए डेटा को देखकर सही वैल्यू पता लगा सकते हैं। मगर चारों में से सिर्फ तीन पर्वतों के वैल्यू ही ऊँचाई हैं, और सिर्फ दो की ऊँचाई मीटर में है। जहाँ हमें यह पता है कि ऊँचाई और 'hauteur' (फ्रांसिसी में 'ऊँचाई') के अर्थ समान है और मीटर से फीट या उल्टा कैसे बदला जा सकता है, किसी बॉट या कंप्यूटर प्रोग्राम जैसे मशीन को यह बात पता न भी हो सकता है।
अगर डेटा को एक ही तरीके से सजाकर रखा जाए तब मनुष्य और मशीन, दोनों के लिए जानकारी को समझकर सवाल का जवाब देने में आसानी होगी, चाहे डेटा को दिखाया किसी भी तरह से जाए।
डेटा को मॉडल करना
विकिडेटा जैसे संरचित डेटा के संग्रहों को एक डेटा मॉडल के अनुसार संगठित किया जाता है। डेटा मॉडल मशीन द्वारा पढ़े जा सकते हैं यानी कि कंप्यूटर इन्हें समझ सकते हैं। जहाँ कंप्यूटर काफी ताक़तवर होते हैं, वे साधारण विचारों के मामले में इतने समझदार नहीं। उदाहरणस्वरूप, एक मशीन को यह नहीं पता होगा कि 'ऊँचाई' और 'hauteur' का अर्थ अलग है अगर उन्हें यह साफ़-साफ़ बताया न जाए कि यह सच है।
-
आयटम: धरती
-
गुणधर्म: उच्चतम बिंदु
-
वैल्यू: एवरेस्ट
पर्वतों के लिए डेटा | ||
---|---|---|
पर्वत | गुणधर्म | वैल्यू |
Mount Everest | continent | Asia |
K2 | continent | Asia |
Kanchenjunga | continent | Asia |
Lhotse | continent | Asia |
डेटा मॉडल विश्लेषण की आवश्यकता, डेटासेट के लक्ष्य और परिकाल्पनिक फ्रेमवर्क तथा सिस्टम के तकनीकी आवश्यकताओं के अनुसार बदलता है। मगर सभी डेटा मॉडल आम तौर पर निश्चित कर देते हैं कि उनके सिस्टम में किस तरह की डेटा समर्थित हैं और वैल्यूओं के बीच किस तरह के संबंध को कंप्यूटर समझ और दिखा सकता है। उदाहरणस्वरूप, डेटा मॉडल यह निश्चित कर सकता है कि 'ऊँचाई' और 'hauteur' को एक बना दिया जा सकता है क्योंकि दोनों का अर्थ समान है, या फिर यह कि फुट के नापों को अपने आप मीटर में बदल दिया जाए। विरिडेटा का डेटा मॉडल उस तरीके को गढ़ता है जिससे सिस्टम में सदस्य डेटा संपादित कर सकते हैं और जोड़ सकते हैं। इसपर काम अब भी चल रहा है और समय के साथ-साथ मॉडल पर नए डेटाटाइप जोड़े जाते हैं।
डेटा मॉडल मनुष्य के साधारण भाषा प्रक्रिया को किसी ऐसी चीज़ में बदल देता है जिसे मशीन समझ पाए। उदाहरणस्वरूप हम हिन्दी में कहते हैं:
- "एवरेस्ट पर्वत दुनिया का सबसे ऊँचा पर्वत है"
यह सामग्री का असंरचित प्रारूप है जिसका उपयोग विकिपीडिया और सभी दूसरे विकिमीडिया साइटों पर किया जाता है।
विकिडेटा पर इसे एक बयान के रूप में दिखाया जाएगा जिसमें एक आयटम पर गुणधर्म-वैल्यू की जोड़ी है। पृथ्वी के मामले में:
Earth (Q2) (आयटम) → highest point (P610) (गुणधर्म) → Mount Everest (Q513) (वैल्यू)
साथ ही विकिडेटा पर एवरेस्ट पर्वत के बारे में एक बयान भी होगा (जो बताता हो कि यह एक पर्वत है):
Mount Everest (Q513) (आयटम) → instance of (P31) (गुणधर्म) → mountain (Q8502) (वैल्यू)
ध्यान रखें कि क्योंकि दूसरे आयटमों को बयानों के वैल्यूओं के रूप में जोड़ा जा सकता है और सभी आयटमों के पास विकिडेटा पर अपना एक पृष्ठ है, इसका मतलब यह है कि सिस्टम के सभी पृष्ठों को बयानों की एक श्रृंखला की मदद से जोड़ा जा सकता है। क्योंकि विकिडेटा का प्रारूप मशीन द्वारा पढ़ा जा सकता है, इस तरह के जुड़ाव से मशीन नए-नए संबंध और आयटम खोज सकता है। उदाहरणस्वरूप टेबल 2 में हमें पर्वतों के लिए नया डेटा दिखा, लेकिन डेटा सिर्फ उनके भौगोलिक स्थान के बारे में है न कि ऊँचाई। मान लेते हैं कि महाद्वीप पर्वत की ऊँचाई के डेटा से जुड़ा हुआ है, हम और भी आत्मविश्वास के साथ इस निष्कर्ष पर आ सकते हैं कि एशिया में विश्व के सबसे ऊँचे पर्वत मौजूद हैं।
डेटा लिंक करना
संरचित डेटा का एक संग्रह होने के साथ-साथ विकिडेटा पर लिंक कई गई डेटा भी समर्थित है। लिंक कई गई डेटा का मतलब है संरचित डेटा को इस तरह से प्रकाशित करना ताकि इससे और इसपर कड़ियाँ बनाई जा सके।
विकिडेटा पर इसका मतलब है कि स्वयंसेवकों द्वारा जोड़े गए डेटा की कड़ी दूसरे डेटासेट्स, डेटाबेसों और डेटा स्रोतों और विकिमीडिया संस्थान के बाहर भी पूरे वेब पर जोड़ी जा सकती है। उदाहरणस्वरूप, विकिडेटा को इस समय Google Books, Canmore (ऐसिहासिक पर्यावरण स्कॉटलैंड डेटाबेसों में से एक), Vatican Library, OmegaWiki, और MusicBrainz जैसे विभिन्न डेटासेट्स और डेटाबेसों के साथ इंटरलिंक किया जा सकता है।
लिंक किए गए डेटा के सिद्धांतों और प्रथाओं का पालन करके विकिडेटा को दूसरे परियोजनाओं से भी समर्थन प्राप्त होता है।
लिंक किए डेटा के सिद्धांत
विकिडेटा के पास अपने सभी आयटमों के लिए लिंक किए गए डेटा के मानक के अनुसार समान संसाधन पहचानकर्ताएँ (URIs)।
जहाँ विकिडेटा के पास अपना एक डेटा मॉडल है, इसकी सामग्री को RDF प्रारूप में निर्यात किया जा सकता है, जो कि लिंक किए गए डेटा के लिए एक प्रसिद्ध और मानक प्रारूप है। विकिडेटा के शब्दों में एक बयान में एक आयटम और एक गुणधर्म-वैल्यू जोड़ी मौजूद है। जो लिंक किए गए डेटा के बारे में कुछ जानते हैं, वो पहचानेंगे कि एक आयटम को एक त्रिक के उद्देश्य के रूप में देखा जा सकता है; गुणधर्म त्रिक का विधेय है; और वैल्यू को विशेष्य के रूप में।
मगर विकिडेटा के बयानों में उद्देश्य-विधेय-विशेष्य के अलावा भी कुछ हिस्से हो सकते हैं जैसे स्रोत और क्वालिफायर (अधिक जानकारी के लिए Help:Statements देखें)। इससे विकिडेटा की सामग्री को पूरी तरह से RDF की भाषा में दिखाना मुश्किल हो जाता है—इन समस्याओं के बारे में अधिक जानकारी "Introducing Wikidata to the Linked Data Web" नामक दरख़्वास्त पर पाई जा सकती है।
डेटा से योगदान करना
अगर आपके पास ऐसे डेटासेट हैं जिन्हें आप विकिडेटा पर जोड़ना चाहेंगे, कृपया Wikidata:Data donation देखें।
डेटा का उपयोग करना
विकिडेटा पर डेटा को क्रिएटिव कॉमन्स सार्वजिक डोमेन समर्पण 1.0 के अंतर्गत प्रकाशित किया जाता है जिससे डेटा का मुक्त रूप से पुनरुपयोग किया जा सकता है। आप बिना किसी से अनुमति लिए डेटा की प्रतिलिपि बना सकते हैं, उसे बाँट सकते हैं और उसका उपयोग कर सकते हैं, चाहे वह वाणिज्यिक प्रयोजनों के लिए ही क्यों न हो।
See Data access for details about the different ways to programmatically access Wikidata's data.
ये भी देखें
संबंधित पृष्ठों के लिए देखें:
अतिरिक्त जानकारी और मार्गदर्शन के लिए, देखें:
- परियोजना चैट, विकिडेटा के हर पहलू के बारे में चर्चा के लिए
- Wikidata:Glossary, इस और दूसरे सहायता पृष्ठों पर प्रयुक्त शब्दों की शब्दावली
- Help:FAQ, विकिडेटा समुदाय द्वारा अक्सर पूछे जाने वाले और सुलझाए जाने वाले प्रश्न
- Help:Contents, विकिडेटा के बारे में उपलब्ध पूरे प्रलेख को सूचीबद्ध करने वाला एक सहायता प्रवेशद्वार