आपके मशीन लर्निंग प्रोजेक्ट के लिए डेटासेट पाने के 4 अनोखे तरीके

अधिकांश डेटा विज्ञान परियोजनाओं के लिए अपर्याप्त डेटा अक्सर बड़ी असफलताओं में से एक है। हालांकि, किसी भी परियोजना के लिए डेटा एकत्र करने का तरीका जानना आपको एक महत्वपूर्ण कौशल है जिसे आपको डेटा वैज्ञानिक के रूप में हासिल करना होगा।

डेटा वैज्ञानिक और मशीन लर्निंग इंजीनियर अब प्रशिक्षण एल्गोरिदम के लिए अधिक डेटा प्राप्त करने के लिए आधुनिक डेटा एकत्रीकरण तकनीकों का उपयोग करते हैं। यदि आप अपने पहले डेटा साइंस या मशीन लर्निंग प्रोजेक्ट को अपनाने की योजना बना रहे हैं, तो आपको डेटा प्राप्त करने में भी सक्षम होना चाहिए।

आप इस प्रक्रिया को अपने लिए कैसे आसान बना सकते हैं? आइए कुछ आधुनिक तकनीकों पर एक नज़र डालें जिसका उपयोग आप डेटा एकत्र करने के लिए कर सकते हैं।

आपको अपने डेटा साइंस प्रोजेक्ट के लिए अधिक डेटा की आवश्यकता क्यों है

मशीन लर्निंग एल्गोरिदम अधिक सटीक, सटीक और भविष्य कहनेवाला बनने के लिए डेटा पर निर्भर करता है। इन एल्गोरिदम को डेटा के सेट का उपयोग करके प्रशिक्षित किया जाता है। प्रशिक्षण प्रक्रिया एक छोटे बच्चे को पहली बार किसी ऑब्जेक्ट के नाम को पढ़ाने की तरह है, फिर जब वे अगली बार इसे देखते हैं तो उन्हें इसे पहचानने की अनुमति देता है।

मनुष्य को एक नई वस्तु को पहचानने के लिए केवल कुछ उदाहरणों की आवश्यकता होती है। मशीन के लिए ऐसा नहीं है, क्योंकि किसी वस्तु से परिचित होने के लिए उसे सैकड़ों या हजारों समान उदाहरणों की आवश्यकता होती है।

इन उदाहरणों या प्रशिक्षण वस्तुओं को डेटा के रूप में आने की आवश्यकता है। एक समर्पित मशीन लर्निंग एल्गोरिथ्म फिर डेटा के उस सेट से गुजरता है जिसे प्रशिक्षण सेट कहा जाता है – और इसके बारे में अधिक सटीक बनने के लिए सीखता है।

इसका मतलब है कि यदि आप अपने एल्गोरिथ्म को प्रशिक्षित करने के लिए पर्याप्त डेटा की आपूर्ति करने में विफल रहते हैं, तो आपको अपनी परियोजना के अंत में सही परिणाम नहीं मिल सकता है क्योंकि मशीन में सीखने के लिए पर्याप्त डेटा नहीं है।

तो, अपने परिणाम की सटीकता में सुधार करने के लिए पर्याप्त डेटा प्राप्त करना आवश्यक है। आइए देखें कुछ आधुनिक रणनीतियाँ जिनका उपयोग आप नीचे प्राप्त करने के लिए कर सकते हैं।

1. सीधे वेब पेज से डेटा स्क्रैप करना

वेब स्क्रैपिंग वेब से डेटा प्राप्त करने का एक स्वचालित तरीका है। अपने सबसे मूल रूप में, वेब स्क्रैपिंग में किसी वेबसाइट पर तत्वों को कॉपी और पेस्ट करना स्थानीय फ़ाइल में शामिल हो सकता है।

हालांकि, वेब स्क्रैपिंग में विशेष स्क्रिप्ट लिखना या सीधे वेबपेज से डेटा को स्क्रैप करने के लिए समर्पित टूल का शामिल है। इसमें सर्पस्टैक जैसे एप्लिकेशन प्रोग्रामिंग इंटरफेसेस (एपीआई) का उपयोग करके अधिक गहराई से डेटा संग्रह भी शामिल हो सकता है।

हालांकि कुछ लोगों का मानना ​​है कि वेब स्क्रैपिंग से बौद्धिक संपदा का नुकसान हो सकता है, यह तभी हो सकता है जब लोग दुर्भावना से ऐसा करें। वेब स्क्रैपिंग कानूनी है और व्यवसायों को अपने ग्राहकों और प्रतियोगियों के बारे में सार्वजनिक जानकारी इकट्ठा करके बेहतर निर्णय लेने में मदद करता है।

संबंधित: वेब स्क्रैपिंग क्या है? वेबसाइट से डाटा कैसे कलेक्ट करें

उदाहरण के लिए, आप कीमतों और उपलब्धता की तुलना करने के लिए ऑनलाइन स्टोर से डेटा एकत्र करने के लिए एक स्क्रिप्ट लिख सकते हैं। हालांकि यह थोड़ा अधिक तकनीकी हो सकता है, आप कच्चे मीडिया जैसे ऑडियो फाइलों और छवियों को वेब पर भी एकत्र कर सकते हैं।

Python's beautifulsoup4 HTML parser लाइब्रेरी के साथ वेब स्क्रैपिंग की एक झलक पाने के लिए नीचे दिए गए उदाहरण कोड पर एक नज़र डालें।

 from bs4 import BeautifulSoup
from urllib.request import urlopen
url = "Enter the full URL of the target webpage here"
targetPage = urlopen(url)
htmlReader = targetPage.read().decode("utf-8")
webData = BeautifulSoup(htmlReader, "html.parser")
print(webData.get_text())

उदाहरण कोड चलाने से पहले, आपको लाइब्रेरी स्थापित करनी होगी। अपनी कमांड लाइन से एक आभासी वातावरण बनाएं और पाइप स्थापित करें beautifulsoup4 चलाकर लाइब्रेरी स्थापित करें।

2. वेब फॉर्म

आप डेटा संग्रह के लिए ऑनलाइन फॉर्म का भी लाभ उठा सकते हैं। यह सबसे उपयोगी है जब आपके पास उन लोगों का लक्ष्य समूह होता है जिनसे आप डेटा इकट्ठा करना चाहते हैं।

वेब फ़ॉर्म भेजने का एक नुकसान यह है कि आप जितना चाहें उतना डेटा एकत्र नहीं कर सकते हैं। यह छोटे डेटा विज्ञान परियोजनाओं या ट्यूटोरियल के लिए बहुत आसान है, लेकिन आप बड़ी संख्या में अनाम लोगों तक पहुंचने के लिए बाधाओं में भाग सकते हैं।

यद्यपि भुगतान किए गए ऑनलाइन डेटा संग्रह सेवाएं मौजूद हैं, वे व्यक्तियों के लिए अनुशंसित नहीं हैं, क्योंकि वे ज्यादातर महंगे हैं – सिवाय इसके कि आप परियोजना पर कुछ पैसा खर्च करने का मन नहीं करते हैं।

लोगों से डेटा एकत्र करने के लिए विभिन्न वेब फॉर्म हैं। उनमें से एक Google फ़ॉर्म है, जिसे आप form.google.com पर जाकर देख सकते हैं । आप संपर्क जानकारी , जनसांख्यिकीय डेटा और अन्य व्यक्तिगत विवरण एकत्र करने के लिए Google फ़ॉर्म का उपयोग कर सकते हैं

एक बार जब आप एक फॉर्म बनाते हैं, तो आपको केवल अपने लक्षित दर्शकों को मेल, एसएमएस, या जो भी उपलब्ध साधनों के माध्यम से लिंक भेजना होता है।

हालाँकि, Google फ़ॉर्म लोकप्रिय वेब रूपों का केवल एक उदाहरण है। वहाँ कई विकल्प हैं जो उत्कृष्ट डेटा संग्रहण कार्य भी करते हैं।

3. वाया सोशल मीडिया

आप फेसबुक, लिंक्डइन, इंस्टाग्राम और ट्विटर जैसे सोशल मीडिया आउटलेट्स के माध्यम से भी डेटा एकत्र कर सकते हैं। सोशल मीडिया से डेटा प्राप्त करना किसी भी अन्य विधि की तुलना में थोड़ा अधिक तकनीकी है। यह पूरी तरह से स्वचालित है और इसमें विभिन्न एपीआई उपकरणों का उपयोग शामिल है।

सोशल मीडिया से डेटा निकालना मुश्किल हो सकता है क्योंकि यह अपेक्षाकृत असंगठित है और इसमें बड़ी मात्रा में है। उचित रूप से व्यवस्थित, इस प्रकार का डेटासेट ऑनलाइन भावना विश्लेषण, बाजार रुझान विश्लेषण और ऑनलाइन ब्रांडिंग से जुड़े डेटा विज्ञान परियोजनाओं में उपयोगी हो सकता है।

उदाहरण के लिए, ट्विटर एक सोशल मीडिया डेटा स्रोत का एक उदाहरण है जहां आप बड़ी मात्रा में डेटासेट को इसके ट्विपी पायथन एपीआई पैकेज के साथ एकत्र कर सकते हैं, जिसे आप पाइप इंस्टॉल ट्विपी कमांड से स्थापित कर सकते हैं।

एक मूल उदाहरण के लिए, ट्विटर मुखपृष्ठ ट्वीट निकालने के लिए कोड का ब्लॉक इस तरह दिखता है:

 import tweepy
import re
myAuth = tweepy.OAuthHandler(paste consumer_key here, paste consumer_secret key here)
auth.set_access_token(paste access_token here, paste access_token_secret here)
authenticate = tweepy.API(myAuth)
target_tweet = api.home_timeline()
for targets in target_tweet:
print(targets.text)

आप इसका उपयोग कैसे करें के बारे में अधिक जानकारी के लिए tweepy प्रलेखन तक पहुंचने के लिए docs.tweepy.org वेबसाइट पर जा सकते हैं। Twitter के API का उपयोग करने के लिए, आपको डेवलपर . twitter.com वेबसाइट पर जाकर एक डेवलपर के खाते के लिए आवेदन करना होगा।

डेटा इकट्ठा करने के लिए फेसबुक एक और शक्तिशाली सोशल मीडिया प्लेटफॉर्म है। यह फेसबुक ग्राफ एपीआई नामक एक विशेष एपीआई एंडपॉइंट का उपयोग करता है। यह एपीआई डेवलपर्स को फेसबुक प्लेटफॉर्म पर विशिष्ट उपयोगकर्ताओं के व्यवहार के बारे में डेटा एकत्र करने की अनुमति देता है। आप इसके बारे में अधिक जानने के लिए Developers.facebook.com पर फेसबुक ग्राफ एपीआई प्रलेखन तक पहुँच सकते हैं।

एपीआई के साथ सोशल मीडिया डेटा संग्रह की एक विस्तृत व्याख्या इस लेख के दायरे से परे है। यदि आप अधिक जानने में रुचि रखते हैं, तो आप उनके बारे में गहराई से ज्ञान के लिए प्रत्येक प्लेटफ़ॉर्म के प्रलेखन की जांच कर सकते हैं।

एपीआई एंडपॉइंट से कनेक्ट करने के लिए स्क्रिप्ट लिखने के अलावा, सोशल मीडिया डेटा स्क्रैपिंग एक्सपर्ट जैसे तीसरे पक्ष के उपकरण एकत्र करता है और कई अन्य भी उपलब्ध हैं। हालाँकि, इनमें से अधिकांश वेब उपकरण एक मूल्य पर आते हैं।

4. आधिकारिक स्रोतों से प्री-मौजूदा डेटासेट का संग्रह

आप आधिकारिक स्रोतों से पहले से मौजूद डेटासेट एकत्र कर सकते हैं। इस पद्धति में आधिकारिक डेटा बैंकों का दौरा करना और उनसे सत्यापित डेटासेट डाउनलोड करना शामिल है। वेब स्क्रैपिंग और अन्य विकल्पों के विपरीत, यह विकल्प तेज़ है और इसके लिए बहुत कम या कोई तकनीकी ज्ञान नहीं है।

इस प्रकार के स्रोतों के डेटासेट आमतौर पर CSV, JSON, HTML, या Excel स्वरूपों में उपलब्ध होते हैं। आधिकारिक डेटा स्रोतों के कुछ उदाहरण हैं विश्व बैंक , UNData और कई अन्य।

कुछ डेटा स्रोत सार्वजनिक डेटा को एक्सेस करने से रोकने के लिए वर्तमान डेटा को निजी बना सकते हैं। हालांकि, उनके अभिलेखागार डाउनलोड के लिए अक्सर उपलब्ध हैं।

आपकी मशीन लर्निंग परियोजना के लिए अधिक आधिकारिक डेटासेट स्रोत

यह सूची आपको अपनी परियोजनाओं में काम करने के लिए विभिन्न प्रकार के डेटा प्राप्त करने के लिए एक अच्छी शुरुआत देनी चाहिए।

इसके अलावा और भी कई स्रोत हैं, और सावधानीपूर्वक खोज आपको अपने स्वयं के डेटा विज्ञान परियोजनाओं के लिए एकदम सही डेटा के साथ पुरस्कृत करेगी।

बेहतर परिणाम के लिए इन आधुनिक तकनीकों को मिलाएं

डेटा संग्रह थकाऊ हो सकता है जब कार्य के लिए उपलब्ध उपकरण सीमित या कठिन समझने के लिए होते हैं। जबकि पुराने और पारंपरिक तरीके अभी भी अच्छी तरह से काम करते हैं और कुछ मामलों में अपरिहार्य हैं, आधुनिक तरीके तेज और अधिक विश्वसनीय हैं।

हालांकि, एक एकल विधि पर निर्भर होने के बजाय, अपने डेटा को इकट्ठा करने के इन आधुनिक तरीकों के संयोजन से बेहतर परिणाम प्राप्त करने की क्षमता है।