ण्ळ्प्प् ईन ःइन्दि
'प्राकृतिक भाषा प्रसंस्करण' ( 'एनएलपी' ) भाषाविज्ञान, कंप्यूटर विज्ञान, सूचना इंजीनियरिंग (क्षेत्र) | सूचना इंजीनियरिंग, और [का एक उपक्षेत्र है। कृत्रिम बुद्धिमत्ता कंप्यूटर और मानव (प्राकृतिक) भाषाओं के बीच परस्पर क्रिया से संबंधित है, विशेष रूप से बड़ी मात्रा में प्राकृतिक भाषा डेटा को संसाधित और विश्लेषण करने के लिए कंप्यूटर को कैसे प्रोग्राम करना है।
प्राकृतिक भाषा प्रसंस्करण में चुनौतियां अक्सर भाषण मान्यता, प्राकृतिक भाषा समझ, और प्राकृतिक भाषा पीढ़ी को शामिल करती हैं।
इतिहास
प्राकृतिक भाषा प्रसंस्करण की जड़ें 1950 के दशक में हैं। पहले से ही 1950 में, एलन ट्यूरिंग ने "कम्प्यूटिंग मशीनरी एंड इंटेलिजेंस" शीर्षक से एक लेख प्रकाशित किया था, जिसमें प्रस्तावित किया गया था कि अब ट्यूरिंग टेस्ट को बुद्धि की कसौटी के रूप में कहा जाता है, एक ऐसा कार्य जिसमें प्राकृतिक भाषा की स्वचालित व्याख्या और पीढ़ी शामिल है, लेकिन उस समय इसकी अभिव्यक्ति की गई थी कृत्रिम बुद्धिमत्ता से अलग एक समस्या के रूप में।
विधियाँ: नियम, आँकड़े, तंत्रिका नेटवर्क
शुरुआती दिनों में, कई भाषा-प्रसंस्करण प्रणालियों को प्रतीकात्मक तरीकों द्वारा डिजाइन किया गया था, अर्थात, नियमों के एक समूह का हाथ-कोडिंग, एक शब्दकोश देखने के साथ युग्मित: .[2][3] जैसे कि व्याकरण लिखना या विधर्मी नियमों को तैयार करना। उत्पन्न।
मशीन-लर्निंग एल्गोरिदम पर आधारित हाल की प्रणालियों में हाथ से निर्मित नियमों पर कई फायदे हैं:
मशीन लर्निंग के दौरान उपयोग की जाने वाली सीखने की प्रक्रियाएं स्वचालित रूप से सबसे आम मामलों पर ध्यान केंद्रित करती हैं, जबकि हाथों से नियम लिखते समय यह अक्सर स्पष्ट नहीं होता है जहां प्रयास को निर्देशित किया जाना चाहिए।स्वत: सीखने की प्रक्रिया उन अपरिचित इनपुट (जैसे शब्द या संरचनाएं जिन्हें पहले नहीं देखा गया है) और त्रुटिपूर्ण इनपुट (जैसे गलत शब्दों या शब्दों के साथ गलती से छोड़ दिया गया) के लिए मजबूत मॉडल के निर्माण के लिए सांख्यिकीय अनुमान का उपयोग कर सकते हैं। आम तौर पर, हस्तलिखित नियमों के साथ इस तरह के इनपुट को सावधानीपूर्वक संभालना, या, आमतौर पर, हस्तलिखित नियमों की प्रणाली बनाना जो नरम निर्णय लेते हैं, अत्यंत कठिन, त्रुटि-प्रवण और समय लेने वाली है।स्वचालित रूप से नियमों को सीखने के आधार पर सिस्टम को अधिक इनपुट डेटा की आपूर्ति करके अधिक सटीक बनाया जा सकता है। हालाँकि, हस्तलिखित नियमों पर आधारित प्रणालियों को केवल नियमों की जटिलता को बढ़ाकर अधिक सटीक बनाया जा सकता है, जो कि अधिक कठिन कार्य है। विशेष रूप से, हस्तलिखित नियमों के आधार पर प्रणालियों की जटिलता की एक सीमा है, जिसके आगे सिस्टम अधिक से अधिक असहनीय हो जाते हैं। हालांकि, मशीन-लर्निंग सिस्टम में इनपुट के लिए अधिक डेटा बनाने के लिए बस काम करने वाले घंटों की संख्या में इसी वृद्धि की आवश्यकता होती है, आमतौर पर एनोटेशन प्रक्रिया की जटिलता में उल्लेखनीय वृद्धि के बिना।एनएलपी अनुसंधान में मशीन सीखने की लोकप्रियता के बावजूद, प्रतीकात्मक तरीके अभी भी (2020) आमतौर पर उपयोग किए जाते हैं
जब प्रशिक्षण डेटा की मात्रा सफलतापूर्वक मशीन सीखने के तरीकों को लागू करने के लिए अपर्याप्त है, जैसे कि कम संसाधन भाषाओं के मशीन अनुवाद के लिए जैसे कि एपरटियम सिस्टम द्वारा प्रदान किया गया है,एनएलपी पाइपलाइनों में प्रीप्रोसेसिंग के लिए, उदा।, टोकेनाइजेशन, यासिंटैक्टिक पर्स से ज्ञान निष्कर्षण के लिए एनएलपी पाइपलाइनों के उत्पादन को पोस्टप्रोसेसिंग और रूपांतरित करने के लिए।
आम एनएलपी टास्क
निम्नलिखित प्राकृतिक भाषा प्रसंस्करण में सबसे अधिक शोध कार्यों में से कुछ की एक सूची है। इनमें से कुछ कार्यों में प्रत्यक्ष-विश्व अनुप्रयोग होते हैं, जबकि अन्य आमतौर पर उप-कार्य के रूप में कार्य करते हैं जिनका उपयोग बड़े कार्यों को हल करने में सहायता के लिए किया जाता है।
यद्यपि प्राकृतिक भाषा प्रसंस्करण कार्य बारीकी से परस्पर जुड़े हुए हैं, फिर भी उन्हें सुविधा के लिए श्रेणियों में विभाजित किया जा सकता है। एक मोटे विभाजन नीचे दिया गया है।
पाठ और भाषण प्रसंस्करण
- ऑप्टिकल कैरेक्टर रिकग्निशन (OCR)
मुद्रित पाठ का प्रतिनिधित्व करने वाली छवि को देखते हुए, संबंधित पाठ को निर्धारित करें।
- वाक् पहचान
किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, भाषण के पाठ का प्रतिनिधित्व निर्धारित करें। यह भाषण के पाठ के विपरीत है और "एआई-पूर्ण" बोलचाल की भाषा में अत्यंत कठिन समस्याओं में से एक है। प्राकृतिक भाषण में, शायद ही कभी शब्दों के बीच कोई ठहराव होता है, और इस प्रकार भाषण विभाजन भाषण मान्यता का एक आवश्यक उपवाक्य है। अधिकांश बोली जाने वाली भाषाओं में, क्रमिक अक्षरों का प्रतिनिधित्व करने वाली ध्वनियाँ एक दूसरे को सहवर्ती क्रिया में मिश्रित करती हैं, इसलिए वर्णों को असतत करने के लिए एनालॉग सिग्नल का रूपांतरण एक बहुत ही कठिन प्रक्रिया हो सकती है। इसके अलावा, यह देखते हुए कि एक ही भाषा के शब्द अलग-अलग लहजे वाले लोगों द्वारा बोले जाते हैं, वाक् पहचान सॉफ़्टवेयर को अपने पाठ्य समान के संदर्भ में एक-दूसरे के समान व्यापक इनपुट पहचानने में सक्षम होना चाहिए।
- भाषण विभाजन
किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, उसे शब्दों में अलग करें। भाषण मान्यता का एक उपमा और आम तौर पर इसके साथ समूहीकृत।
- लिखे हुए को बोलने में बदलना
एक पाठ को देखते हुए, उन इकाइयों को रूपांतरित करें और एक बोले गए प्रतिनिधित्व का उत्पादन करें। नेत्रहीनों की सहायता के लिए पाठ से भाषण का उपयोग किया जा सकता है| [4]