Failed to render content. Please refresh the page. Showing plain-text fallback.
"@/components/CTA" से CTA आयात करें
डेटा साइंस साक्षात्कार प्रश्न: डीएस भूमिकाओं के लिए पूरी गाइड (2025)
आखरी अपडेट: 7 फरवरी, 2025
चाबी छीन लेना
- डेटा साइंस साक्षात्कार में सांख्यिकी, मशीन लर्निंग, एसक्यूएल और व्यावसायिक कौशल शामिल हैं
- अवधारणाओं को सरल रूप से समझाने और वास्तविक दुनिया की समस्याओं को हल करने का अभ्यास करें
- मास्टर ए/बी परीक्षण, प्रयोगात्मक डिजाइन और कारण अनुमान
- तकनीकी कौशल और व्यावसायिक प्रभाव दोनों का प्रदर्शन करें
- केस स्टडी और उत्पाद समझ के प्रश्नों के लिए तैयारी करें
🎯 प्रो टिप: डेटा विज्ञान साक्षात्कार डेटा से अंतर्दृष्टि निकालने और व्यावसायिक निर्णय लेने की आपकी क्षमता का आकलन करते हैं। जटिल अवधारणाओं को सरलता से समझाने, व्यावसायिक कौशल दिखाने और एंड-टू-एंड समस्या-समाधान कौशल का प्रदर्शन करने पर ध्यान केंद्रित करें।
डेटा साइंस इंटरव्यू स्ट्रक्चर
डेटा विज्ञान साक्षात्कार में आमतौर पर विभिन्न दक्षताओं का आकलन करने वाले कई राउंड शामिल होते हैं:
साक्षात्कार दौर:
- फ़ोन स्क्रीन: बुनियादी एसक्यूएल, आँकड़े और व्यवहार संबंधी प्रश्न
- तकनीकी साक्षात्कार: कोडिंग, सांख्यिकी, एमएल एल्गोरिदम
- केस स्टडी: व्यावसायिक समस्या-समाधान और प्रस्तुति
- टीम/नेतृत्व: सांस्कृतिक फिट और सहयोग मूल्यांकन
मूल्यांकन क्षेत्र:
- तकनीकी कौशल: एसक्यूएल, पायथन/आर, सांख्यिकी, मशीन लर्निंग
- समस्या-समाधान: विश्लेषणात्मक सोच और कार्यप्रणाली
- व्यावसायिक कौशल: व्यावसायिक प्रभाव और प्राथमिकताओं को समझना
- संचार: गैर-तकनीकी हितधारकों को तकनीकी अवधारणाओं को समझाना
सांख्यिकी और संभाव्यता प्रश्न
बुनियादी सांख्यिकी
1. टाइप I और टाइप II त्रुटियों के बीच अंतर स्पष्ट करें।
हल:
- टाइप I त्रुटि (गलत सकारात्मक): अशक्त परिकल्पना को अस्वीकार करना जब यह सच हो (त्रुटि α)
- टाइप II त्रुटि (गलत नकारात्मक): अशक्त परिकल्पना को अस्वीकार करने में विफल रहना जब यह गलत हो (β त्रुटि)
उदाहरण: स्पैम का पता लगाने में:
- टाइप I: वैध ईमेल को स्पैम के रूप में चिह्नित करना
- टाइप II: अनुपलब्ध स्पैम ईमेल (इसे माध्यम से जाने देना)
शक्ति = 1 - β (झूठी शून्य परिकल्पना को सही ढंग से अस्वीकार करने की संभावना)
2. पी-वैल्यू क्या है और आप इसकी व्याख्या कैसे करते हैं?
हल:
पी-वैल्यू डेटा को देखे गए डेटा के रूप में चरम (या अधिक चरम) के रूप में देखने की संभावना है, यह मानते हुए कि अशक्त परिकल्पना सत्य है।
व्याख्या:
- पी 10 बहुकोलिनियरिटी को इंगित करता है
- सामान्यता के लिए Q-Q प्लॉट
मशीन लर्निंग प्रश्न
एमएल फंडामेंटल
1. पूर्वाग्रह-विचरण ट्रेडऑफ़ की व्याख्या करें।
हल:
- पूर्वाग्रह: धारणाओं को सरल बनाने में त्रुटि (अंडरफिटिंग)
- विचरण: संवेदनशीलता से प्रशिक्षण डेटा तक त्रुटि (ओवरफिटिंग)
- ट्रेडऑफ़: कम पूर्वाग्रह वाले मॉडल में उच्च विचरण होता है, और इसके विपरीत
उदाहरण:
- उच्च पूर्वाग्रह: गैर-रैखिक डेटा पर रैखिक प्रतिगमन
- उच्च विचरण: निर्णय वृक्ष को ओवरफिटिंग करना
समाधान:
- दोनों का आकलन करने के लिए क्रॉस-वैलिडेशन
- विचरण को कम करने के लिए नियमितीकरण (L1/L2)
- दोनों को कम करने के लिए पहनावा के तरीके
2. क्रॉस-वैलिडेशन क्या है और यह महत्वपूर्ण क्यों है?
हल:
क्रॉस-वैलिडेशन मॉडल के प्रदर्शन का आकलन करने और ओवरफिटिंग को रोकने के लिए डेटा को कई बार प्रशिक्षण और सत्यापन सेट में विभाजित करता है।
प्रकार:
- के-फोल्ड सीवी: डेटा को k फोल्ड में विभाजित करें, k-1 पर ट्रेन करें, शेष पर मान्य करें
- लीव-वन-आउट: k=n (प्रत्येक नमूना सत्यापन एक बार सेट किया जाता है)
- स्तरीकृत के-फोल्ड: प्रत्येक तह में वर्ग वितरण बनाए रखता है
महत्व:
- एकल ट्रेन/परीक्षण विभाजन की तुलना में अधिक विश्वसनीय प्रदर्शन अनुमान
- ओवरफिटिंग का पता लगाने में मदद करता है
- सीमित डेटा का अधिकतम उपयोग करता है
विशिष्ट एल्गोरिदम
3. बताएं कि निर्णय वृक्ष कैसे काम करता है।
हल:
निर्णय वृक्ष सजातीय समूह बनाने के लिए सुविधा मानों के आधार पर डेटा को पुनरावर्ती रूप से विभाजित करते हैं।
मुख्य अवधारणाएँ:
- रूट नोड: सभी डेटा के साथ शुरुआती बिंदु
- आंतरिक नोड्स: फीचर थ्रेसहोल्ड के आधार पर निर्णय बिंदु
- लीफ नोड्स: अंतिम भविष्यवाणियां (वर्गीकरण) या मान (प्रतिगमन)
- विभाजन मानदंड: गिनी अशुद्धता (वर्गीकरण), विचरण में कमी (प्रतिगमन)
लाभ: व्याख्या योग्य, मिश्रित डेटा प्रकारों को संभालता है, किसी सुविधा स्केलिंग की आवश्यकता नहीं है
नुकसान: ओवरफिटिंग की संभावना, छोटे डेटा परिवर्तनों के साथ अस्थिर
4. बैगिंग और बूस्टिंग में क्या अंतर है?
हल:
- बैगिंग (बूटस्ट्रैप एकत्रीकरण): यादृच्छिक डेटा सबसेट, औसत भविष्यवाणियों पर कई मॉडल बनाता है। विचरण को कम करता है, ओवरफिटिंग का मुकाबला करता है। उदाहरण: रैंडम फॉरेस्ट।
- बूस्टिंग: मॉडल को क्रमिक रूप से प्रशिक्षित करता है, प्रत्येक पिछली गलतियों पर ध्यान केंद्रित करता है। पूर्वाग्रह को कम करता है, सटीकता में सुधार करता है। उदाहरण: AdaBoost, XGBoost.
मुख्य अंतर:
- बैगिंग: समानांतर, विचरण को कम करता है
- बूस्टिंग: अनुक्रमिक, पूर्वाग्रह को कम करता है
- बैगिंग: स्वतंत्र मॉडल
- बूस्टिंग: त्रुटियों से सीखने वाले आश्रित मॉडल
एसक्यूएल प्रश्न
बेसिक एसक्यूएल
1. कर्मचारी तालिका से दूसरा सबसे बड़ा वेतन खोजें।
समाधान:
'''एसक्यूएल
- विधि 1: सबक्वेरी
SECOND के रूप में अधिकतम (वेतन) का चयन करें उच्चतम वेतन
कर्मचारी से
जहां वेतन