लापता डेटा से निपटने के लिए सामान्य सिद्धांत। लापता डेटा से निपटने के लिए सांख्यिकीय तरीकों का एक बड़ा साहित्य है। यहाँ हम संक्षेप में कुछ प्रमुख अवधारणाओं की समीक्षा करते हैं और कोचरेन समीक्षा लेखकों के लिए कुछ सामान्य सिफारिशें करते हैं यह सोचना महत्वपूर्ण है कि डेटा गायब क्यों हो सकता है सांख्यिकीविद अक्सर यादृच्छिक शब्दों में याद करते हैं और यादृच्छिक नहीं हैं और अलग-अलग परिदृश्यों का प्रतिनिधित्व करने के लिए यादृच्छिक नहीं हैं। डेटा को यादृच्छिक रूप से गायब होने के कारण कहा जाता है, यदि वे अनुपस्थित हैं तो यह तथ्य गायब डेटा के वास्तविक मूल्यों से असंबंधित है उदाहरण के लिए, यदि कुछ गुणवत्ता - जीवन प्रश्नावली डाक प्रणाली में खो गईं, यह उन परीक्षण परिस्थितियों के जीवन की गुणवत्ता से संबंधित होने की संभावना नहीं होगी, जिन्होंने कुछ परिस्थितियों में रूपों को पूरा किया, सांख्यिकीविद यादृच्छिक और बेतरतीब ढंग से याद किए गए आंकड़ों के बीच अंतर रखते हैं, हालांकि एक व्यवस्थित समीक्षा के संदर्भ में भेद महत्त्वपूर्ण डेटा होने की संभावना नहीं है जो यादृच्छिक में गायब हो सकता है महत्वपूर्ण नहीं हो सकता है आधारित विश्लेषण उपलब्ध आंकड़ों पर निष्पक्ष होना होगा, हालांकि मूल डेटा सेट की तुलना में एक छोटे नमूना आकार पर आधारित है। डेटा को यादृच्छिक नहीं माना जाता है, यदि वे अनुपस्थित हैं, तो वास्तव में गायब डेटा से संबंधित है उदाहरण के लिए, में एक अवसाद परीक्षण, प्रतिभागियों को, जो अवसाद के पतन के बाद अंतिम अनुवर्ती साक्षात्कार में शामिल होने की संभावना कम हो सकती है, और नतीजे के आंकड़े गायब होने की अधिक संभावना हो सकती है इस तरह के आंकड़े इस प्रकार अनावश्यक हैं कि उपलब्ध डेटा का विश्लेषण अकेले ही होगा आम तौर पर पक्षपातपूर्ण प्रकाशन पूर्वाग्रह और चुनिंदा रिपोर्टिंग पूर्वाग्रह उन आंकड़ों के आधार पर आगे बढ़ते हैं जो बेतरतीब ढंग से गायब नहीं होते हैं, और पढ़ाई के भीतर व्यक्तियों के त्याग और बहिष्करण अक्सर अच्छा करते हैं। अनुपलब्ध डेटा से निपटने के लिए मुख्य विकल्प हैं। केवल उपलब्ध आंकड़ों का विश्लेषण अर्थात् लापता डेटा की अनदेखी करना 2. प्रतिस्थापन मूल्यों के साथ लापता डेटा पर दोष लगाते हुए, और इन्हें इलाज करना जैसे कि वे देखे गए जैसे अंतिम अवलोकन आगे बढ़ाया जाता है, एक अनुमानित परिणाम यह मानते हुए कि सभी खराब नतीजे थे, प्रतिवर्तन विश्लेषण से पूर्वानुमानित मानों के आधार पर अनुमान लगाते हुए अनुमान लगाते हैं। इस तथ्य के लिए लापता डेटा और लेखांकन के आधार पर अभिप्राय है कि ये अनिश्चितता के साथ अभिप्रेत हैं उदा। कई अभ्यावेदन, 2। सांख्यिकीय मॉडल का उपयोग करते हुए मानक त्रुटि 4. अनुपलब्ध डेटा के लिए अनुमति देने के लिए, उपलब्ध आंकड़ों के साथ अपने रिश्ते के बारे में धारणाएं बनाते हैं। विकल्प 1 उपयुक्त हो सकता है जब डेटा को बेतरतीब विकल्प 2 से 4 में गायब किया जा सकता है, डेटा को गायब करने के प्रयास बेतरतीब विकल्प 2 व्यावहारिक रूप से ज्यादातर परिस्थितियों में व्यावहारिक होता है और इसे व्यवस्थित समीक्षाओं में आमतौर पर इस्तेमाल किया जाता है हालांकि, यह आरोपित मूल्यों और परिणामों में अनिश्चितता को स्वीकार करने में विफल रहता है, आमतौर पर, विश्वास के अंतरालों में जो बहुत संकीर्ण हैं विकल्प 3 और 4 में एक जानकार सांख्यिकीविद् । Cochrane समीक्षा में लापता डेटा से निपटने के लिए चारों सामान्य अनुशंसाएं निम्नानुसार हैं: जब भी संभव हो, संपर्क करें मूल जांचकर्ताओं को लापता डेटा का अनुरोध करने के लिए। उदाहरण के लिए लापता डेटा के साथ सामना करने के लिए इस्तेमाल की जाने वाली किसी भी विधि की मान्यताओं को स्पष्ट करें, कि डेटा को बेतरतीब ढंग से याद किया जाता है, या अनुपलब्ध मानों को एक निश्चित मान जैसे कि खराब नतीजे माना जाता है। अनुष्ठान 9, धारा 9 को देखे गए धारणाओं में उचित बदलावों के लिए संवेदनशील परिणामों का आकलन करने के लिए संवेदनशीलता का विश्लेषण करें। चर्चा अनुभाग में समीक्षा के निष्कर्षों पर लापता डेटा का संभावित प्रभाव डालें। Stata Imputing में कई इम्पेमेंटेशन। यह स्टेटा सीरीज़ में मल्टीपल इम्प्टेंशन के चार हिस्से हैं, इस श्रृंखला के अंतर्गत आने वाले विषयों की सूची के लिए, परिचय देखें। यह खंड आपको दोष की प्रक्रिया के विवरण के बारे में बात करेगा, सुनिश्चित करें कि आपने कम से कम पिछले अनुभाग पढ़ा है, इम्प्रेशन बनाना मॉडल इसलिए आपको यह पता चल गया कि कौन से मुद्दे आपके परिणामों की वैधता को प्रभावित कर सकते हैं.उदाहरण डेटा.इस प्रक्रिया को स्पष्ट करने के लिए, हम एक गढ़े डेटा सेट का उपयोग उन लोगों के विपरीत करेंगे ई उदाहरण खंड, यह डेटा सेट वास्तविक दुनिया डेटा के लिए कुछ समानता के लिए डिज़ाइन किया गया है। महिला बाइनरी। एसर स्पष्ट, तीन मान। मैन्युअल रूप से आदेश दिए गए हैं, चार मूल्यों। एक्सप सतत। वायेज निरंतर. समाप्ति सभी चर के प्रत्येक मूल्य सिवाय महिला को यादृच्छिक रूप से गायब होने का 10 मौका होता है, लेकिन वास्तविक दुनिया में हम यह नहीं जानते कि यह एमसीएआर समय से आगे है, इसलिए हम यह जांचेंगे कि क्या यह एमसीएआर या मार्च एमएनएआर की जांच नहीं की जा सकती अधिसूचना को तय करने में दी गई प्रक्रिया का उपयोग करते हुए डेटा.अनैब संख्यावाराओं के बारे में बताते हैं, शहरी मजदूरी में गलत अनुमानित राशि, स्थानीय मिस्वारों की स्थानीय यादों की संख्या याद आती है। नामक सूची- var प्रदर्शित नई लाइन 3 स्थानीय कोवर्स नर्वलाइन की 3 टीटीई प्रदर्शित करते हैं, वेट टीटेस्ट एनवर का लापता होने से, याद करते हैं। परिणाम के लिए लॉग फाइल देखें। हमारा लक्ष्य सेक्स, नस्ल, शिक्षा स्तर और अनुभव पर मजदूरी वापस करना है, सही जवाब देखने के लिए, खोलें ई फ़ाइल है जो डेटा सेट बनाता है और जनरल कमांड की जांच करती है, जो अभ्यस्त प्रक्रिया के लिए मजदूरी कोड को परिभाषित करता है, निम्न फ़ाइल में पाया जा सकता है। अभद्र प्रक्रिया कई आउटपुट बनाता है हम इस पृष्ठ पर डाला डाला, हालांकि, एक पूर्ण संबद्ध ग्राफ सहित लॉग फ़ाइल यहां पायी जा सकती है। इस आलेख के प्रत्येक अनुभाग में लॉग के संबंधित अनुभाग के लिंक होंगे, इस पृष्ठ पर वापस लौटने के लिए अपने ब्राउज़र में वापस क्लिक करें। मील के आदेशों का उपयोग करने के पहले चरण में मील को आपके डेटा को सेट करना है यह कुछ हद तक svyset tsset या xtset के समान है मील सेट कमांड Stata को बताता है कि यह आपके द्वारा निर्मित अतिरिक्त imputations को कैसे स्टोर करना चाहिए हम विस्तृत प्रारूप का उपयोग करने का सुझाव देते हैं, क्योंकि यह थोड़ा तेज है दूसरी ओर, mlong थोड़ा कम स्मृति का उपयोग करता है। स्टेटा विस्तृत डेटा संरचना का उपयोग करते हैं। Stata मॉल की सीमांत लंबी डेटा संरचना का उपयोग करने के लिए है। चौड़ा बनाम लंबी शब्दावली को नयी आकृति प्रदान करने से उधार लिया गया है और संरचना समान हैं लेकिन, वे समकक्ष नहीं हैं और आप डी कभी भी मील के द्वारा उपयोग की जाने वाली डेटा संरचना को बदलने के लिए नयी आकृति का इस्तेमाल नहीं करता, इसके बजाय, मील कन्वर्ट चौड़े या मील कन्वर्ट मिल्ग ऐड करें, स्पष्ट करें कि आखिरकार परिवर्तन के बाद से डेटा सहेजा नहीं गया है। अधिकांश समय आपको डॉन imputations संग्रहीत कर रहे हैं मील आदेश स्वचालित रूप से प्रत्येक आपत्ति के लिए जो कुछ भी करते हैं लागू करने के लिए कैसे बाहर निकालना लेकिन यदि आप एक तरह से डेटा में हेरफेर करने की ज़रूरत है मैल आप के लिए क्या कर सकते हैं, तो आप के लिए संरचना के विवरण के बारे में जानने की आवश्यकता होगी आपको बहुत ही सावधानी बरतने की ज़रूरत है, यदि आप ऐसी चीजों में रुचि रखते हैं जिसमें शायद ही कभी इस्तेमाल किए गए फ्लॉन्ग और फ़्लॉन्सेप प्रारूप शामिल हैं, यह फ़ाइल चलाते हैं और डेटा ब्राउजर की जांच करते हुए यह पढ़ा जाता है कि डेटा प्रत्येक में कैसा दिखता है प्रपत्र। प्रलेखन चर। मीन आज्ञाओं को तीन प्रकार के चर को पहचानते हैं। इंपुट वैरिएबल वेरिएबल्स हैं जो मील को आरोपित करना या आरोपित करना है। नियमित वेरिएबल्स वेरिएबल्स हैं जो मील पसंद नहीं कर रहे हैं, या तो पसंद द्वारा या क्योंकि वे किसी भी मूल्य es. Passive वेरिएबल्स वेरिएबल्स हैं जो पूरी तरह से अन्य वैरिएबल से निर्धारित होते हैं उदाहरण के लिए, मजदूरी से लॉग मजदूरी निर्धारित की जाती है, या मोटापे के लिए एक संकेतक वजन और ऊंचाई के एक फ़ंक्शन द्वारा निर्धारित किया जा सकता है इंटरैक्शन शर्तें निष्क्रिय वैरिएबल हैं, हालांकि यदि आप स्टेटा की बातचीत सिंटैक्स आपको उनको घोषित करने की ज़रूरत नहीं है क्योंकि ऐसे निष्क्रिय अक्षरों को अक्सर परिवर्तनों के उदाहरणों में गैर-रैखिकता और समस्याएं दिखाई देती हैं, जो दिखाती हैं कि उनका उपयोग कैसे अनुचित रूप से पक्षपातपूर्ण अनुमानों को ले सकता है। यदि एक निष्क्रिय वैरिएबल नियमित चर से निर्धारित होता है, तो यह कोई अभिप्राय की आवश्यकता नहीं होने के बाद निष्क्रिय वेरिएबल को केवल उसी तरह व्यवहार किया जाना चाहिए, यदि वे आरोपित चर पर निर्भर करते हैं। चर को पंजीकृत करने से स्टैटा बताता है कि किस प्रकार का वैरिएबल यह है, यह आवर्तित चर हमेशा पंजीकृत होना चाहिए। जहां varlist को आरोपित करने के लिए चर की वास्तविक सूची द्वारा प्रतिस्थापित किया जाना चाहिए। नियमित वेरिएबल्स को अक्सर पंजीकृत होना नहीं है, लेकिन यह एक अच्छा विचार है। नियमित रूप से पंजीकृत varlist. Passive रजिस्टर रजिस्टर किया जाना चाहिए. mi निष्क्रिय varlist रजिस्टर। हालांकि, निष्क्रिय चर अधिक बार imputing के बाद बनाया जाता है मील निष्क्रिय के साथ ऐसा करें और वे निष्क्रिय स्वचालित रूप से पंजीकृत हो जाएगा। हमारे उदाहरण डेटा में, मादा को छोड़कर सभी चर को आरोपित करने की आवश्यकता है उचित मील रजिस्टर कमांड है। ध्यान दें कि आप अपने varlist के रूप में उपयोग नहीं कर सकते हैं, भले ही आपको अपने सभी चर पर रोक लगाना पड़ता है, क्योंकि उसमें आरोपी संरचना का ट्रैक रखने के लिए मील द्वारा जोड़ा गया सिस्टम चर शामिल होगा। नियमित रूप से महिला को पंजीकरण करना वैकल्पिक है, लेकिन एक अच्छा विचार नियमित रूप से महिला को पंजीकृत करें। विच्छेदन मॉडल की जांच करना। चर के प्रकारों पर आधारित, स्पष्ट अभिप्राय विधियां हैं। स्पष्ट मान, तीन मूल्यों में नक़ल करना। द्विआधारी logit. edu का आदेश दिया गया है, चार मूल्यों ologit. exp निरंतर regress. wage निरंतर वापसी मादा को आरोपित करने की ज़रूरत नहीं है, लेकिन उन्हें दोष के मॉडल में शामिल किया जाना चाहिए क्योंकि यह विश्लेषण मॉडल में है और क्योंकि ये प्रासंगिक होने की संभावना है। अभिशाप के आगे होने से पहले हम अपने प्रत्येक प्रलोभन मॉडल को हमेशा जांचेंगे आरोपित प्रसंग अलग-अलग, मील के आरोपित संदर्भ से बाहर, यह देखने के लिए कि क्या वे एकजुट हो जाते हैं और इन्हें प्रवेश करना संभव है क्योंकि यह सत्यापित है कि वे सही तरीके से निर्दिष्ट हैं। इन मॉडलों में से प्रत्येक को चलाने के लिए कोड है। नोट: जब स्पष्ट चर का आदेश दिया जाता है या कॉरपोरेट के रूप में प्रकट नहीं होता है, तो मैं उन्हें सूचक चर के सेट में विस्तारित करता हूं। जैसा कि हम बाद में देखेंगे, मील छाप का उत्पादन जंजीर कमांड में अलग-अलग मॉडल चलाए जाने वाले आदेश भी शामिल हैं, इस प्रकार एक उपयोगी शॉर्टकट, खासकर यदि आपके पास बहुत से चर का आरोप लगाया जाए, तो यह सुनिश्चित करने के लिए सूअररुन विकल्प के साथ अपनी मील छपाई जंजीर कमांड को सेट करना है यह, और फिर आउटपुट से आदेशों की प्रतिलिपि परीक्षण के लिए अपनी फ़ाइल में कॉपी करें। कॉन्फ़्रेंस समस्याएं.पहली बात यह है कि इन सभी मॉडलों को सफलतापूर्वक चलाया जाता है, कॉमप्लेक्स मॉडल जैसे मोब्लिट आपके पास बड़ी संख्या में स्पष्ट चर, क्योंकि यह अक्सर छोटे सेल आकार की ओर जाता है, समस्या के कारण नीचे पिन करने के लिए, अधिकांश चर को हटा दें, सुनिश्चित करें कि मॉडल जो छोड़ा गया है, उसके साथ काम करता है, और उसके बाद चर एक समय में एक या छोटे में जोड़ देता है समूह तब तक काम नहीं कर रहा है जब तक यह प्रयोग बंद नहीं करता कुछ प्रयोग के साथ आपको समस्या चर या चर के संयोजन की पहचान करने में सक्षम होना चाहिए उस बिंदु पर आपको यह तय करना होगा कि क्या आप श्रेणियों को गठबंधन कर सकते हैं या चर को छोड़ सकते हैं या एक व्यावहारिक मॉडल बनाने के लिए अन्य परिवर्तन कर सकते हैं। भविष्यवाणी.परिपूर्ण भविष्यवाणी नोट करने के लिए एक और समस्या है अभियोग प्रक्रिया केवल पूरी तरह से भविष्यवाणी की गई टिप्पणियों को छोड़ नहीं सकती, जिस तरह से आप लॉगिंग कर सकते हैं, इससे पहले कि आप उन्हें छोड़ सकते हैं, लेकिन ऐसा लगता है कि कई अभद्रता के उद्देश्य को हराने का विकल्प वैकल्पिक बढ़ाना है या सिर्फ आवेग प्रभावित विधियों का विकल्प यह संवर्धित प्रतिगमन दृष्टिकोण का उपयोग करने के लिए मील की जंजीरों को जलाया जाता है, जो बहुत कम वजन के साथ नकली अवलोकन को इस तरह से जोड़ता है कि उनके परिणाम पर एक नगण्य प्रभाव होता है लेकिन सही भविष्यवाणी को रोकने के लिए विवरण के लिए अनुभाग देखें। स्टेटा एमआई दस्तावेज़ीकरण में स्पष्ट डेटा के अभिप्राय के दौरान सही भविष्यवाणी। मिस्स्क्रिप्शन के लिए जाँच करना। आप यह भी मूल्यांकन करने का प्रयास करता है कि मॉडल ठीक से निर्दिष्ट किए गए हैं कि कैसे एक प्रतिगमन मॉडल ठीक से निर्दिष्ट है या नहीं इस आलेख के दायरे से परे है या नहीं, यह निर्धारित करने के लिए एक पूर्ण चर्चा है, लेकिन जो भी उपकरण आपको उपयुक्त मिलते हैं, ये यहां कुछ उदाहरण हैं। रेसिड्यूअल बनाम फिट वैल्यू प्लॉट्स। निरंतर चर के लिए, आरवीएफप्लॉट के साथ आसानी से किए गए अवशिष्ट बनाम वैल प्लॉट्स उपयोगी हो सकते हैं, उदाहरणों में कई उदाहरणों का इस्तेमाल उन समस्याओं का पता लगाने में किया जा सकता है अनुभव के लिए भूखंड पर विचार करें। एक्सप्रेशन मजदूरी rvfplot. Note कैसे कई बिंदुओं को एक साथ क्लस्टर किया जाता है निचली बायीं तरफ रेखा, और कोई अंक नीचे नहीं हैं। यह बाधा को दर्शाता है कि अनुभव शून्य से कम नहीं हो सकता है, जिसका मतलब है कि उचित मूल्य हमेशा अवशेषों के बराबर या उसके बराबर होना चाहिए, या वैकल्पिक रूप से अवशेषों को अधिक होना चाहिए फिट मूल्यों के नकारात्मक के मुकाबले या उससे बराबर यदि ग्राफ़ दोनों अक्षों पर समान पैमाने पर होता है, तो बाधा रेखा 45 डिग्री लाइन होगी यदि सभी बिंदु एक सी के नीचे थे इसके ऊपर की तुलना में एक समान लाइन, यह आपको बताएगा कि कम बन्धे के बजाय चर पर ऊपरी बाध्य है। बाधा रेखा के वाई-इंटरसेप्ट आपको किसी भी मामले की सीमा बताता है, आप दोनों को कम बाउंड और एक हो सकता है ऊपरी बाध्य, उन दोनों के बीच एक बैंड में सभी बिंदुओं को डालना। स्पष्ट मॉडल, रिग्रेस अनुभव के लिए अनुपयुक्त है क्योंकि यह इस बाध्यता को लागू नहीं कर पाता है वही कारण के लिए मजदूरी के लिए यह अनुचित भी है वैकल्पिक रूप से ट्रेंचकिग, 0 0 और अपराह्न में हम उपयोग करेंगे pmm. In इंटरैक्शन्स जोड़ना.इस उदाहरण में, ऐसा लगता है कि चर के बीच संबंध वंश, लिंग, और शहरी ग्रामीण समूहों के बीच भिन्न हो सकते हैं। इस प्रकार एक तरह से मिस्डपॉईसिटीकरण की जांच के लिए मॉडल को इंटरएक्शन शब्द जोड़ना है और देखें कि क्या वे महत्वपूर्ण हो उदाहरण के लिए, हम स्पष्ट मॉडल की तुलना कर लेंगे.अधिक जानकारी के साथ एक्सपर्ट मजदूरी। जिसमें एक इंटरैक्शन शामिल है। अग्रेषण एक्सपी। हम अन्य चर के मॉडल के लिए इसी प्रकार की तुलना चलाएंगे। परिणाम, तो परिणाम के लिए लॉग फ़ाइल देखें एक्सपर्ट मजदूरी edu और शहरी के मॉडल में महत्वपूर्ण बातों में महिला और अन्य चर के बीच का संबंध महत्वपूर्ण हैं, नस्ल या शहरी और अन्य वैरिएबल के बीच कुछ महत्वपूर्ण बातचीत है, लेकिन लगभग सभी के पास नहीं है और यह ध्यान में रखना है कि इस कई गुणांकों के साथ हम कुछ झूठी सकारात्मक को 05 के महत्व के स्तर का उपयोग करने की उम्मीद करते हैं। हम इस प्रकार पुरुषों और महिलाओं को अलग से बांट देंगे इस डेटा सेट के लिए यह विशेष रूप से अच्छा विकल्प है क्योंकि महिला कभी भी गायब नहीं होती अगर यह हो, तो हमें उन लोगों को छोड़ना होगा टिप्पणियां जो महिलाएं गायब हैं क्योंकि उन्हें एक समूह या दूसरे में नहीं रखा जा सकता है। अभद्र आदेश में इसका अर्थ है महिला विकल्प द्वारा जोड़ा जा रहा है जब मॉडल का परीक्षण करना, इसका अर्थ है महिला उपसर्ग द्वारा आदेशों को प्रारंभ करना और महिला को सूची से निकालना भ्रष्टाचार इस तरह के सुधार के आरोपों में सुधार हैं। महिला महिला वेतन आयोग द्वारा मादक महिला मजदूरी व्यय द्वारा मादक महिला मजदूरी व्यय द्वारा महिलाओं के लगीट शहरी विस्तार मजदूरी द्वारा व्यय वेतन में महिला पी wage. pmm खुद को दोष के संदर्भ के बाहर नहीं चलाया जा सकता है, लेकिन क्योंकि यह प्रतिगमन के आधार पर आप इसे परीक्षण करने के लिए नियमित प्रतिगमन का उपयोग कर सकते हैं। इन मॉडलों को फिर से जांचना चाहिए, लेकिन हम उस प्रक्रिया को छोड़ देंगे। मील के लिए मूल वाक्यविन्यास जंजीर is. mi impute chained method1 varlist1 method2 varlist2 regvars. प्रत्येक विधि निम्नलिखित varlist imputing के लिए इस्तेमाल करने के लिए विधि को निर्दिष्ट करता है विधि के लिए संभावनाएं pmm truncreg intreg logit ologit mlogit poisson और nbreg regvars नियमित चर का एक सूची है गलती के मॉडल में संलिप्तता लेकिन अभिप्रेत नहीं, कोई भी नहीं हो सकता है। मूल विकल्प हैं। एनआरसीएड आर सर्ट्रेस ट्रसफाइल प्रतिस्थापित करें। डेटा सेट में जोड़ा जाने वाले आरोपणों की संख्या आर है जिसे बेतरतीब संख्या जनरेटर यदि आप इसे सेट नहीं करते हैं, तो प्रत्येक बार कमांड चलाए जाने पर आप अलग-अलग आरोपण करेंगे। ट्रेसफाइल एक डाटासेट है जिसमें मील छेड़छाड़ की गई आरोपी अभद्र प्रक्रिया के बारे में जानकारी संग्रहीत करेंगे हम हम अभिसरण के लिए जाँच करने के लिए इस डेटासेट। विकल्प जो एक विशेष विधि के लिए प्रासंगिक हैं, कोष्ठक के अंदर विधि के साथ जाते हैं, लेकिन एक अल्पविराम जैसे श्लोक, एग विकल्प के बाद, जो अभ्यस्त प्रक्रिया के लिए प्रासंगिक हैं, अल्पविराम के बाद। हमारे उदाहरण के लिए, आदेश होगा.मी ने जंजीर लगी शहरी नकली शख्सियत की दौड़ में ओलोगिट एड्यू पीएमएम एक्सपर्ट मजदूरी लगाई, महिला के द्वारा 5 रु 0 440 9 को जोड़ दें। नोट करें कि इसमें एक savetrace विकल्प शामिल नहीं है इस लेखन के रूप में, और savetrace का उपयोग एक ही समय में नहीं किया जा सकता है, संभवत: क्योंकि प्रत्येक समूह के लिए एक ट्रेस फ़ाइल की आवश्यकता होती है, स्ताटा इस समस्या से अवगत है और हमें उम्मीद है कि यह जल्द ही बदला जाएगा इस अनुच्छेद के प्रयोजनों के लिए, ट्रेस फाइल का उपयोग करने के लिए समय यदि यह समस्या आपके शोध में आती है, तो हमें काम-के बारे में बात करनी होगी। इम्प्रेशनों की संख्या का चयन करना। अधिकारियों के बीच कुछ मतभेद हैं कि कितने छेड़छाड़ पर्याप्त हैं कुछ लोग लगभग 3-10 सभी परिस्थितियों, स्टाटा दस्तावेज कम से कम 20 सुझाव देते हैं, जबकि व्हाइट, रॉयस्टन, और लकड़ी का तर्क है कि आरोपी की संख्या लापता मूल्यों के मामलों के प्रतिशत के बराबर होना चाहिए, हालांकि, हम किसी भी तर्क से अवगत नहीं हैं कि छेड़छाड़ से कभी भी समस्याएं उत्पन्न होती हैं कि किसी अन्य दोष का असीम लाभ असीमित रूप से शून्य तक पहुंच जाता है। अपने विश्लेषण में आरोपण की संख्या को बढ़ाकर आपके हिस्से पर अनिवार्य रूप से कोई काम नहीं लेता है बस जोड़ने के विकल्प में नंबर को बड़ा करने के लिए दूसरी तरफ, यह हो सकता है कंप्यूटर के लिए बहुत सारे काम करने के लिए बहुत से अभद्रता ने कई शोधकर्ताओं को उन नौकरियों की दुनिया में पेश किया है जो कि चलाने के लिए घंटों या दिन लगते हैं आप आम तौर पर यह अनुमान लगा सकते हैं कि अपेक्षित समय की मात्रा उदाहरणों के लिए आनुपातिक होगी जैसे कि कोई फ़ाइल पांच छिद्रों के साथ चलाने के लिए दो घंटे, शायद दस छेड़छाड़ के साथ चलने में लगभग चार घंटे लगेंगे, इसलिए ये हमारा सुझाव है। पांच आईएम के साथ शुरू करो जो व्यापक रूप से माना जाता है के कम अंत को जोड़ता है। अपने अनुसंधान परियोजना पर काम जब तक आप यथोचित रूप से आश्वस्त नहीं करते हैं कि आपके अंतिम रूप में विश्लेषण किया गया है, तो सब कुछ करने के लिए सुनिश्चित करें कि आप इसे फिर से चला सकते हैं। नोट करें कि कब तक भ्रष्टाचार से अंतिम विश्लेषण तक प्रक्रिया लेता है। विचार करें कि आपके पास कितने समय उपलब्ध हैं और तय करें कि अंगूठे के नियम का उपयोग करते हुए आप कितने छेड़छाड़ कर सकते हैं, यह आवश्यक है कि समय की गड़बड़ी की संख्या के लिए समानुपातिक है यदि संभव हो तो आरोपणों की संख्या लापता आंकड़ों के मामलों के प्रतिशत के बराबर लगभग बराबर क्या आवश्यक है इसका उच्च अंत अनुमान है यदि चीजें गलत होने पर समय की वसूली के लिए समय की अनुमति दें। अपनी फाइल में आरोपण की संख्या को बढ़ाएं और इसे शुरू करें। कुछ और do फ़ाइल चलाते हैं, जैसे अपना पेपर लिखना अध्यापन को जोड़ना आपके परिणामों को काफी नहीं बदलता है और जो संभवतः वे ऐसा करते हैं, अपने आप को भाग्यशाली मानते हैं कि इससे पहले कि प्रकाशन हो चुका है। स्पीडिन इम्प्रेशन प्रोसेस पर जी। कई अभिप्राय ने नौकरियों की दुनिया में कई शोधकर्ताओं को पेश किया है जो आमतौर पर चलाने के लिए घंटों, दिन या सप्ताह भी लेते हैं आमतौर पर यह स्ताटा कोड तेजी से चलाने के लिए अपना समय बिताने के योग्य नहीं है, लेकिन कई अभिप्राय अपवाद हो सकते हैं एसएससीसी सदस्यों पर काम करने के लिए, एसएससीसी सदस्यों के लिए सीखने का मतलब है एसएससीसी एस लिनक्स कम्प्यूटिंग क्लस्टर लिनक्स लिनक्स उतना मुश्किल नहीं है जितना कि आप सोच सकते हैं कि लिनटाट के निर्देशों का इस्तेमाल करना है। बहुविध अभिप्राय में अधिक पढ़ने और डिस्क को लिखना शामिल है अधिकांश स्टेटा आज्ञाएं कभी-कभी इसमें मौजूदा कार्यशील निर्देशिका में अस्थायी फ़ाइलों को लिखना शामिल है आपके डेटा सेट और कार्यशील निर्देशिका दोनों के लिए, आपके लिए उपलब्ध सबसे तेज़ डिस्क स्थान का उपयोग करें सामान्य स्थानीय डिस्क स्थान नेटवर्क डिस्क स्थान की तुलना में तेज़ हो जाएगा, और लिंटाट रैमडिस्क पर एक निर्देशिका जो वास्तव में रैम में संग्रहित होती है स्थानीय डिस्क स्थान की तुलना में तेज़ हो जाएगी दूसरी तरफ, आप स्थायी रूप से डेटा सेट्स को कहीं भी संग्रहित नहीं करना चाहते हैं, लेकिन नेटवो आरक्यू डिस्क स्पेस, ऐसा करने पर विचार करें, निम्न में से कुछ करें। विन्डोज विनस्टेट या आपका पीसी। यह तब लागू होता है जब आप अभिप्रेरित डेटा का उपयोग कर रहे हों, अगर आपके डेटा सेट में काफी बड़ा है, जो अपवाद के बाद धीमी गति से काम करता है, ऊपर प्रक्रिया मदद कर सकती है। कनवर्जेन्स के लिए जांच। एमआईसीई एक पुनरावृत्ति प्रक्रिया है, प्रत्येक पुनरावृत्ति में, मैल ने जंजीर का पहला अनुमान लगाया था, पहले दोनों घूमने वाले आंकड़ों का उपयोग करते हुए, और पिछली यात्रा से आरोपित आंकड़ों का उपयोग करते हुए, तब परिणामस्वरूप वितरण नोटों से नए आरोपित मूल्यों को खींचता है। नतीजतन, प्रत्येक पुनरावृत्ति में पिछले अभद्रता के साथ कुछ आत्मनिर्भरता होती है। पहले पुनरावृत्ति में यह एक विशेष मामला होना चाहिए, मैल ने जंजीर को पहले अनुमानित आंकड़ों पर आधारित कुछ सबसे कम लापता मानों के साथ चर के लिए अभियोग मॉडल का अनुमान लगाया। उस वेरिएबल के लिए आरोपित मूल्यों के बाद, उसके बाद मॉडल के मॉडल को अगले कुछ सबसे कम लापता मूल्यों के साथ अनुमानित मानों और आरोपित मूल्यों का उपयोग करके अनुमान लगाया जाता है। च पहला चर है, और शेष के लिए इसी तरह से उत्पन्न होता है, इस प्रकार पहली बार चलना अक्सर एटिपिकल होता है, और क्योंकि पुनरावृत्तियों को सहसंबद्ध होता है, यह बाद के पुनरावृत्तियों परमाणुओं को भी अच्छी तरह से बना सकता है। इस से बचने के लिए, डिफ़ॉल्ट रूप से मील बांधने की जंजीरों को दस पुनरावृत्तियों के माध्यम से चला जाता है। प्रत्येक आरोपित डेटा आपको दसवीं पुनरावृत्ति के परिणामों को सहेजने का अनुरोध करता है, पहले नौ पुनरावृत्तियों को जला-इन अवधि कहा जाता है सामान्यतया यह पहली बार चलने के प्रभावों के लिए काफी समय बिताने के लिए और प्रक्रिया को एक स्थिर राज्य हालांकि, आपको कनवर्जेन्स की जांच करनी चाहिए और बोरिन विकल्प का उपयोग करके यह सुनिश्चित करने के लिए पुनरावृत्तियों की संख्या में वृद्धि करनी चाहिए। ऐसा करने के लिए, ट्रेस फ़ाइल को जांचें, जिसे मील के आरोपित जंजीर द्वारा बचाया गया है इसमें प्रत्येक आरोपित चर का मतलब और मानक विचलन होता है प्रत्येक चलना ये अलग-अलग भिन्न होंगे, लेकिन उन्हें किसी भी प्रवृत्ति को नहीं दिखाना चाहिए चेक करने का एक आसान तरीका है, लेकिन यह पहले डेटा को फिर से बदलने की आवश्यकता है। हमारा पसंदीदा अभिप्राय मॉडल का उपयोग करता है इसलिए यह किसी ट्रेस फ़ाइल को नहीं बचा सकता है इस प्रकार हम इस समय के लिए निकाल देंगे हम बर्निन विकल्प को 100 में बढ़ा देंगे, इसलिए यह देखने में आसान है कि एक स्थिर ट्रेस क्या दिखता है, हम फिर से नयी आकृति और tsline का उपयोग करेंगे कनवर्गेंस पर्सव्रैस मैल इंपक्शन जंजीर लॉगेट शहरी ब्लोगट रेस ओlogिट एड्यू बीपीएम एक्सपर्ट मजदूरी महिला, 5 आरएसआईड 88 सॅकेट्रेस एक्सट्रैस जोड़ने, बर्निन 100 उपयोग एक्सट्रैस को बदलते हैं, बड़े आकार के एसडी को पुनःस्थापित करते हैं, आईटीआर जेएम टीएससीटी आईओएसटी टीएसलाइन एक्सएमएमआई, शीर्षक का इम्प्रुटेड वैल्यू का मतलब अनुभव नोट प्रत्येक पंक्ति एक अभिप्रेत कथा के लिए ग्राफ निर्यात बंद है, एक्सप्लस टाइटल, टाइटल का मानक विचलन, अनुभव नोट के इम्प्टेंटेड वैल्यू के लिए प्रत्येक पंक्ति एक अभेद्य कथा के लिए है, ग्राफ निर्यात से बदले बहाल है। परिणामी ग्राफ़ कोई स्पष्ट समस्या नहीं दिखाते हैं। यदि आप संकेतों को देखते हैं कि प्रक्रिया को दस बार पुनरावृत्तियों के बाद एकीकृत नहीं किया जा सकता है, बर्नन विकल्प के साथ आरोपित मूल्यों को सहेजने से पहले किए जाने वाले पुनरावृत्तियों की संख्या में वृद्धि हो सकती है यदि अभिसरण कभी भी नहीं होता है अभिशप्त मॉडल के साथ एक समस्या इंगित करता है। Impeded Values. After implying, आप देखते हैं कि अगर imputed डेटा मनाया गया डेटा के समान दिखता है तो दुर्भाग्य से यह निर्धारित करने के लिए कोई औपचारिक परीक्षा नहीं है कि क्या पर्याप्त बंद है बेशक यदि डेटा हैं लेकिन एमसीएआर नहीं, आरोपित डेटा व्यवस्थित रूप से मनाया गया डेटा से अलग होना चाहिए, विडंबना यह है कि कम लापता मूल्यों को आप पर लगाया जाना चाहिए, अधिक भिन्नता आप आरोपित आंकड़ों और मनाया हुआ डेटा के बीच और आरोपण के बीच देखेंगे। बाइनरी और स्पष्ट चर के लिए, आवृत्ति तालिकाओं की तुलना निरंतर चर के लिए, तुलनात्मक साधनों की तुलना करना और मानक विचलन एक अच्छा प्रारंभिक बिंदु है, लेकिन आपको वितरण के संपूर्ण आकार को भी देखना चाहिए, इसके लिए हम कर्नेल घनत्व ग्राफ़ या शायद हिस्टोग्राम को सुझाव देते हैं कि प्रत्येक दोष को अलग-अलग रूप से पूलिंग करने के बजाय अलग-अलग देखें आरोपित मूल्य ताकि आप देख सकें कि उनमें से कोई भी गलत हो गया है। मील एक्सईक्स उपसर्ग प्रत्येक आईएम को बाद के आदेश को लागू करने के लिए स्टेता को बताता है व्यक्तिगत रूप से पठनीय रूप से यह मूल डेटा पर भी लागू होता है, श्वेत अभिप्राय इस प्रकार. मी xeq टैब रेस। आपको मूल आवृत्तियों के लिए छह आवृत्ति तालिकाओं को एक और पांच पाशों में से प्रत्येक के लिए एक देगा। हालांकि, हम मनाया हुआ डेटा की तुलना करना चाहते हैं केवल आरोपित आंकड़ों के लिए, पूरे डेटा सेट नहीं, यह आवश्यक है कि यदि एक प्रतिबंध को टैब के लिए एक कंडीशन की स्थिति में आरोपित किया गया हो, लेकिन मनाया गया डेटा नम्बर या संख्यासूची को जोड़ने के लिए विशेष रूप से imputations. mi xeq 0 टैब रेस मील xeq 1 5 टैब रेस अगर missrace. This दौड़ के मनाया मूल्यों के लिए आवृत्ति तालिकाओं बनाता है और फिर सभी पांच imputations में imputed मूल्यों। यदि आप की जांच करने के लिए चर की एक महत्वपूर्ण संख्या है आप आसानी से उन पर लूप कर सकते हैं। varlist शहरी के var var race edu mi xeq 0 tab var mi xeq 1 5 tab var अगर miss miss. For परिणाम लॉग फ़ाइल देखें। निरंतर चर पर सारांश के आंकड़ों को चालू करना उसी प्रक्रिया का अनुसरण करता है, लेकिन कर्नेल घनत्व ग्राफ़ बनाने से आपको एक जटिलता जोड़नी पड़ती है जो आपको बचाने की आवश्यकता होती है रेखांकन या खुद को देखने का मौका दे दो मुझे ये कहते हैं कि प्रत्येक एक्सप्रेशन के लिए कई आज्ञाएं पूरी हो सकती हैं, बस प्रत्येक पंक्ति में उन्हें एक पंक्ति में एक अर्धविराम के साथ रखिये। यह काम नहीं करेगा अगर आपने सामान्य समाप्ति आदेश बदल दिया हो एक अर्धविराम से सीमांकक नींद कमान स्ताता को एक निर्दिष्ट अवधि के लिए विराम के लिए कहता है, मिलीसेकंड में मापा जाता है। मी xeq 0 घन मीटर मजदूरी 1000 मी xeq 1 5 kdensity मजदूरी अगर मिस वाई 500 नींद। फिर, यह सब स्वचालित हो सकता है। varlist मजदूरी एक्सएम मी xeq 0 sum var mi xeq 1 5 sum var अगर याद आती है तो मेरी ज़िन्दगी 0 घनत्व वाले नींद 1000 मी xeq 1 5 kdensity var अगर याद आती है तो 1000। ग्राफ़ को सहेजना थोड़ा उलझन में है, क्योंकि आपको आवश्यकता है प्रत्येक आक्षेप से एक अलग फाइल नाम देने के लिए दुर्भाग्य से आप मील एक्सएक के भीतर अभिकथन संख्या तक नहीं पहुंच सकते, हालांकि, आप भ्रष्ट संख्याओं पर एक बहुविकल्प लूप कर सकते हैं, फिर उनमें से प्रत्येक पर मी xeq कार्य कर सकते हैं.forval i 1 5 मी xeq i कश्मीर एक्साइज अगर गलतफैक्स ग्राफ निर्यात को बदल दिया जाता है पिछले संस्करण के साथ इस रेटिंग को देता है। varlist मजदूरी एक्सएम मी xeq 0 sum var mi xeq 1 5 sum var अगर याद आती है तो हर मील xeq 0 kdensity var ग्राफ़ निर्यात की जगह बदलता है I 1 5 मी xeq i kdensity var अगर मिस var ग्राफ निर्यात प्रतिस्थापन। परिणाम के लिए, लॉग फ़ाइल देखें। यह सभी परेशानियों में मजदूरी के आरोपित मूल्यों का मतलब मजदूरी के मनाया मूल्यों के औसत से अधिक है और एक्सपी के आरोपित मूल्यों का मतलब मतलब से कम है अवलोकन के मनाए गए मूल्यों के बारे में हमें पता नहीं है कि डेटा एमएआर है लेकिन एमसीएआर नहीं, इसलिए हम अपेक्षाकृत आंकड़ों के माध्यम से मनाए गए आंकड़ों के माध्यम से क्लस्टर होने की उम्मीद की उम्मीद करते हैं। यह एक समस्या है या नहीं, हालांकि, यह संदेह उठाना चाहिए, और यदि इन आरोपित आंकड़ों के साथ अंतिम परिणाम पूर्ण मामलों के विश्लेषण के परिणामों से अलग हैं, तो यह सवाल उठाता है कि क्या फर्क भ्रष्ट मॉडल के साथ समस्याओं की वजह से है। संशोधित 8 23 2012. ए अधूरे बाइनरी डेटा के लिए नई अभिप्राय विधि। मनीववर मीन सबसी ए। एआरसी सुबासी बी। मार्टिन एंथोनी सी। पीटर एल हैमर 1. ए गणितीय विज्ञान विभाग, फ्लोरिडा इंस्टीट्यूट ऑफ टेक्नोलॉजी, 150 डब्लू युनिवर्सिटी ब्लाइव्ड मेलबॉर्न, फ्लोरिडा 32 9 01, यूएसए. बी आरयूटीसीओआर , रुटगेर्स सेंटर फॉर ऑपरेशंस रिसर्च, 640 बार्थोलोमेव रोड, पiscटवे, एनजे 08854, यू.एस. ए.यू. डिपार्टमेन्ट ऑफ मैथमैटिक्स, लंदन स्कूल ऑफ इकोनॉमिक्स एंड पॉलिटिकल साइंसेस, हॉटन स्ट्रीट, लंदन डब्ल्यूसी 2 ए 2 एई, यूके। 17 अक्टूबर 2009 को संशोधित, 28 अगस्त 2010 को संशोधित, 31 जनवरी 2011 को उपलब्ध, ऑनलाइन उपलब्ध 21 मार्च 2011. डेटा विश्लेषण समस्याओं में जहां आंकड़े वास्तविक संख्या के वैक्टर द्वारा प्रतिनिधित्व करते हैं, यह अक्सर ऐसा होता है कि कुछ डेटा-बिंदुों में मूल्यों की कमी होगी, जिसका अर्थ है कि एक या अधिक डेटा-प्वाइंट का वर्णन करने वाले वेक्टर की प्रविष्टियां नहीं देखी गई हैं इस पत्र में, हम लापता द्विआधारी मानों के अभिप्राय के लिए एक नए दृष्टिकोण का प्रस्ताव करते हैं हम जिस तकनीक को लागू करते हैं, वह एंथनी और हैमर 20 06 1 हम व्यावहारिक मशीन सीखने या डेटा विश्लेषण समस्याओं में जो डेटा का विश्लेषण किया जा सकता है, वास्तविक के वैक्टर के होते हैं, सामान्य हथौड़ दूरी के माप और कई अभिप्राय पर आधारित लोगों के साथ हमारी तकनीक का प्रदर्शन प्रयोगात्मक तुलना करते हैं। संख्या यह अक्सर ऐसा होता है कि कुछ डेटा-बिंदुों में मूल्यों की कमी होगी, जिसका अर्थ है कि डेटा-बिंदु का वर्णन करने वाले वेक्टर की एक या अधिक प्रविष्टियां ज्ञात नहीं हैं यह इन गुमों को भरने या इनकार करने की कोशिश करना स्वाभाविक है मूल्य इसलिए है कि काम करने के लिए पूरा डेटा से एक है, उदाहरण के लिए, यह आवश्यक हो सकता है, ताकि आंकड़े सांख्यिकीय या मशीन सीखने की तकनीकों का उपयोग करने के लिए उपयोग किया जा सके। यह एक शास्त्रीय सांख्यिकीय और मशीन सीखने की समस्या है और कई तकनीकों को नियोजित किया गया है । चूंकि वास्तविक जीवन के अनुप्रयोगों में अनुपलब्ध डेटा प्राथमिक ध्यान देने की बजाय उपद्रव है, अच्छे गुणों के साथ दोषपूर्ण पद्धति एक के लिए बेहतर है जिसे जटिल है कार्यान्वित करने के लिए और अधिक कुशल, लेकिन समस्या-विशिष्ट। लापता डेटा को संभालने के लिए कुछ दृष्टिकोणों को केवल उपेक्षा या हटाते हैं जो इस प्रकार के अधूरे शास्त्रीय दृष्टिकोण हैं, सूची-आधारित विलोपन एलडी और जोड़ीदार विलोपन पीडी उनकी सादगी के कारण, वे व्यापक रूप से देखने के लिए उपयोग किए जाते हैं , उदाहरण के लिए 15 और अधिकांश सांख्यिकीय पैकेजों के लिए डिफ़ॉल्ट हो जाते हैं हालांकि, इन तकनीकों के उपयोग से एक बड़ी अवलोकन हो सकती है, जिसके परिणामस्वरूप डेटा सेट हो सकते हैं जो बहुत कम हैं यदि लापता मूल्यों का अंश अधिक है और खासकर यदि मूल डेटा-सेट खुद ही छोटा है। शोधकर्ताओं का सामना करने वाले सबसे चुनौतीपूर्ण फैसले में से एक विश्लेषण के दौरान लापता डेटा को संभाल करने के लिए सबसे उपयुक्त विधि चुनना है, लिटिल और रुबिन 13 बताता है कि भोले या अनपेक्षित छेड़छाड़ के तरीके वे हल करने से ज्यादा समस्याएं पैदा कर सकते हैं सबसे आम डेटा अभिप्राय तकनीक का मतलब अभिप्रेत है जिसे बिना शर्त अर्थ का अभिप्राय भी कहा जाता है, प्रतिगमन अभिप्राय आरआई भी कहा जाता है जैसा कि सशर्त मतलब अभिप्रेत है, गर्म डेक खंडन एचडीआई और एकाधिक अभिकर्मक एमआई हम टिप्पणी करते हैं कि मतलब अभियोग और इसी तरह के तरीकों रूबिन 16 के अर्थ में उचित नहीं हैं और इसलिए, अनुशंसित नहीं हैं ज्यादातर परिस्थितियों में, अनुपस्थित डेटा जैसे कि पूर्ण केस विश्लेषण पद्धति एलडी और पीडी, समग्र एमआई, और लापता-संकेतक विधि पक्षपातपूर्ण परिणाम का उत्पादन करते हैं जैसा कि 5 12 16 18 और 21 में प्रलेखित किया गया है एक अधिक परिष्कृत तकनीक एमआई बहुत बेहतर परिणाम देता है 5 12 16 18 और 21.एमआई 16 एक सांख्यिकीय है तकनीक जिसमें प्रत्येक लापता मूल्य को कई केके मूल्यों से बदल दिया जाता है, विश्लेषण के लिए केके पूर्ण डेटा-सेट का निर्माण होता है इन डेटा-सेट के बीच के अंतर में अनुपलब्ध मूल्यों की अनिश्चितता को प्रतिबिंबित करता है प्रत्येक आरोपित डेटा-सेट मानक पूर्ण-डाटा प्रक्रियाओं द्वारा विश्लेषण किया जाता है, जो वास्तविक और आरोपित मूल्यों के बीच भेद को अनदेखा करते हैं तो केके परिणाम तब ऐसे तरीके से जोड़ दिए जाते हैं कि अभिप्रेरण के कारण परिवर्तनशीलता को शामिल किया जा सकता है जब ठीक से किया जाए इन संयुक्त विश्लेषणों के नतीजे न केवल पैरामीटर के लिए निष्पक्ष आकलेकों को उपज देते हैं, लेकिन लापता डेटा की वजह से शामिल अनिश्चितता को पर्याप्त रूप से शामिल नहीं किया जाता है, यानी इन पैरामीटर के वैरिएन्स के वैध अनुमानों का अनुमान लगाते हैं कि रुबिन 16 ने एमआई का व्यापक उपचार दिया और इसके संभावित उपयोग को संबोधित किया। technique primarily for large public-use data files from sample surveys and censuses The technique is available in standard statistical packages such as SAS, Stata and S-Plus It has become increasingly attractive for researchers in the biomedical, behavioral, and social sciences where missing data is a common problem These methods are documented in the book by Schafer 18 on incomplete multivariate data. In fully parametric models, maximum-likelihood estimates can often be calculated directly from the incomplete data by specialized numerical methods, such as the Expectation Maximization EM algorithm 4 and 14 The EM algorithm is an iterative procedure in which it uses ot her variables to impute a value Expectation , then checks whether that is the value most likely Maximization If not, it re-imputes a more likely value This goes on until it reaches the most likely value Those procedures may be somewhat more efficient than MI because they involve no simulation EM Imputation is available in SAS, Stata, R, and SPSS Missing Values Analysis module. Imputation techniques have become easier to perform with the advent of several software packages However, imputation of missing binary data is still an important practical problem Ibrahim 7 showed that, under the assumption that the missing data are missing at random, the E step of the EM algorithm for any generalized linear model can be expressed as a weighted complete-data log-likelihood when the unobserved covariates are assumed to come from a discrete distribution with finite range Ibrahim s method of weights 7 8 9 11 10 and 6 can be used as a principled approach for imputation of binary data. In this paper, we propose a new approach to the imputation of missing binary values The technique we introduce employs a similarity measure introduced in 1 The Boolean similarity measure has already proven to be of some application in classification problems 19 Here, we use it to help indicate whether a missing value should be 0 or 1, and we compare experimentally the performance of our technique with ones based on the usual Hamming distance measure and MI technique using SAS 17.The framework used here requires data to be represented by binary vectors However, in many applications, the raw data that we work with in a particular situation might be more naturally encoded as a real-valued vector In such cases, the data may be transformed into binary data through a process known as binarization see 2 for example The transformed data-set may then be simplified or cleaned in a variety of ways, by the removal of repeated points, for instance, and the deletion of attributes or coordinates found to be statistic ally insignificant in determining the classification. Section 2 provides details of the Boolean similarity measure that is at the core of our technique and describes the imputation method that derives from this measure Section 3 describes the experiments we performed in order to test this method, and the results are reported in Section 4.IMPUTEITEMS Stata module to impute missing data of binary items. When requesting a correction, please mention this item s handle RePEc boc bocode s456807 See general information about how to correct material in RePEc. For technical questions regarding this item, or to correct its authors, title, abstract, bibliographic or download information, contact Christopher F Baum. If you have authored this item and are not yet registered with RePEc, we encourage you to do it here This allows to link your profile to this item It also allows you to accept potential citations to this item that we are uncertain about. If references are entirely missing, you can add them using this form. If the full references list an item that is present in RePEc, but the system did not link to it, you can help with this form. If you know of missing items citing this one, you can help us creating those links by adding the relevant references in the same way as above, for each refering item If you are a registered author of this item, you may also want to check the citations tab in your profile, as there may be some citations waiting for confirmation. Please note that corrections may take a couple of weeks to filter through the various RePEc services. More services. Follow series, journals, authors more. New papers by email. Subscribe to new additions to RePEc. Author registration. Public profiles for Economics researchers. Various rankings of research in Economics related fields. Who was a student of whom, using RePEc. RePEc Biblio. Curated articles papers on various economics topics. Upload your paper to be listed on RePEc and IDEAS. Blog aggregator for economics research. Cases of plagiarism in Economics. Job Market Papers. RePEc working paper series dedicated to the job market. Fantasy League. Pretend you are at the helm of an economics department. Services from the StL Fed. Data, research, apps more from the St Louis Fed.22 Jun 2014, 14 34.Dear Statalist experts, I am currently handling a questionnaire-derived dataset with mostly categorical nominal and ordinal variables with some missing data MAR in them, where people haven t completed the questionnaire Due to the nature of the purpose of my final model predictive diagnostics , it is important that I have as complete a dataset as possible and hence, I am hoping to fill in the data points using multiple imputation via Stata I tried using MI chained but STATA keeps telling me that I have missing variables within my imputation variables but I thought this problem could be alleviated if I use chained equation i e the iterations should run in a chain loop simultaneously The syntax I ve used looked like the following. mi impute chained mlogit, include Q2 Q69e Q77 noimputed augment Q10, add 3 rseed 23549.but I keep getting these error messages. either r 498 missing imputed values produced This may occur when imputation variables are used as independent variables or when independent variables contain missing values. convergence not achieved convergence not achieved mlogit failed to converge on observed data. As a result, the regression model used to predict the missing value cannot be created I really welcome any input at all in the matter Any insights that could possibly resolve the matter would be greatly appreciated Many thanks. Why are you using noimputed The help says the option is rarely used I would suggest starting nice and simple and then add complexity if you think you need it augment is a little esoteric too if you need it it is because you have perfect predictions, and if so that may be adding to your woes. Also, how much missing data do you have There may be limits to the miracles MI can do if there are huge amounts of MD in several variables. It may just be because I do not have enough experience with it, but I tend to be leery of MI in general It seems like the benefits are often trivial, or that the justification for using it may be in this case I might want to do some checks to see ho w similar the people who didn t complete are to the people who did complete on the parts that both completed.27 Jun 2014, 06 44.Dear Mr Williams and Mr Schechter. Many thanks for replying to my conundrum. The reason I am assuming the missingness as MAR is because we have carried out interviews on a random sample to find out reasons for missing data, to which evidence varied as to why questions were omitted for many it was a matter of accidental omission or there were no specific reason per say Where I do see your argument, I don t think my data is necessarily MNAR either. I know I should be wary of MI but at present, I ve been tasked to proceed with it Unfortunately, the participant-completed questionnaire had been a large one consisting of 100 variables where few missing datapoints had occurred for most of the participants Should I start the regression process now, through listwise deletion I would lose most of my data Hence, I would like as much as possible to impute and retain data The number of missing data varied from 0 9 to 10 across the variables Regarding the rigor of MI as a method, following successful MI, I have proposed a few checks to assess the validity of the imputed dataset in order to ensure that it is logical. I am really open to other options but I need to ensure I ve exhausted all avenues of MI first as been assigned As advised, I have since attempted the imputation model without the additional functions and missingness in the imputation variables is still a problem I think after long discussion with the team, for the time frame given we might need to forgo MI and proceed with the regression model as planned Any suggestions that could help solve the MI problem or any other statistical classification model that could handle missingness in categorical data with dichotomous dependent variables in healthcare research would still be greatly appreciated Meanwhile, I ll keep searching the web for a general idea of the literature Thank you again.27 Jun 2014, 07 21.Based on your description I wouldn t expect you to be having so much trouble, so, without having the data, it is hard to advise you To further simplify things, maybe you could try dichotomizing your mlogit variable and see if it will work then Or, if there are some categories with very sparse counts e g only 4 people gave a response of 7 then see if there are logical ways to combine and reduce the number of categories These are things you might want to do regardless of whether you are using mi or not.09 Jul 2014, 20 07.Hi Joey, The error r 498 missing imputed values produced This may occur when imputation variables are used as independent variables or when independent variables contain missing values suggests that one of the independent variables you are using also has missing values itself You can use the option force to go ahead with the imputation and for the independent variable with missing data only complete cases will be used I hope this helps.
No comments:
Post a Comment