An automated online assistant providing customer service on a web page, an example of an application where natural language processing is a major component.[1]


'प्राकृतिक भाषा प्रसंस्करण' ( 'एनएलपी' ) भाषाविज्ञान, कंप्यूटर विज्ञान, सूचना इंजीनियरिंग (क्षेत्र) | सूचना इंजीनियरिंग, और [का एक उपक्षेत्र है। कृत्रिम बुद्धिमत्ता कंप्यूटर और मानव (प्राकृतिक) भाषाओं के बीच परस्पर क्रिया से संबंधित है, विशेष रूप से बड़ी मात्रा में प्राकृतिक भाषा डेटा को संसाधित और विश्लेषण करने के लिए कंप्यूटर को कैसे प्रोग्राम करना है।


प्राकृतिक भाषा प्रसंस्करण में चुनौतियां अक्सर भाषण मान्यता, प्राकृतिक भाषा समझ, और प्राकृतिक भाषा पीढ़ी को शामिल करती हैं।

इतिहास

प्राकृतिक भाषा प्रसंस्करण की जड़ें 1950 के दशक में हैं। पहले से ही 1950 में, एलन ट्यूरिंग ने "कम्प्यूटिंग मशीनरी एंड इंटेलिजेंस" शीर्षक से एक लेख प्रकाशित किया था, जिसमें प्रस्तावित किया गया था कि अब ट्यूरिंग टेस्ट को बुद्धि की कसौटी के रूप में कहा जाता है, एक ऐसा कार्य जिसमें प्राकृतिक भाषा की स्वचालित व्याख्या और पीढ़ी शामिल है, लेकिन उस समय इसकी अभिव्यक्ति की गई थी कृत्रिम बुद्धिमत्ता से अलग एक समस्या के रूप में।

विधियाँ: नियम, आँकड़े, तंत्रिका नेटवर्क

शुरुआती दिनों में, कई भाषा-प्रसंस्करण प्रणालियों को प्रतीकात्मक तरीकों द्वारा डिजाइन किया गया था, अर्थात, नियमों के एक समूह का हाथ-कोडिंग, एक शब्दकोश देखने के साथ युग्मित: .[2][3] जैसे कि व्याकरण लिखना या विधर्मी नियमों को तैयार करना। उत्पन्न।

मशीन-लर्निंग एल्गोरिदम पर आधारित हाल की प्रणालियों में हाथ से निर्मित नियमों पर कई फायदे हैं:

मशीन लर्निंग के दौरान उपयोग की जाने वाली सीखने की प्रक्रियाएं स्वचालित रूप से सबसे आम मामलों पर ध्यान केंद्रित करती हैं, जबकि हाथों से नियम लिखते समय यह अक्सर स्पष्ट नहीं होता है जहां प्रयास को निर्देशित किया जाना चाहिए।स्वत: सीखने की प्रक्रिया उन अपरिचित इनपुट (जैसे शब्द या संरचनाएं जिन्हें पहले नहीं देखा गया है) और त्रुटिपूर्ण इनपुट (जैसे गलत शब्दों या शब्दों के साथ गलती से छोड़ दिया गया) के लिए मजबूत मॉडल के निर्माण के लिए सांख्यिकीय अनुमान का उपयोग कर सकते हैं। आम तौर पर, हस्तलिखित नियमों के साथ इस तरह के इनपुट को सावधानीपूर्वक संभालना, या, आमतौर पर, हस्तलिखित नियमों की प्रणाली बनाना जो नरम निर्णय लेते हैं, अत्यंत कठिन, त्रुटि-प्रवण और समय लेने वाली है।स्वचालित रूप से नियमों को सीखने के आधार पर सिस्टम को अधिक इनपुट डेटा की आपूर्ति करके अधिक सटीक बनाया जा सकता है। हालाँकि, हस्तलिखित नियमों पर आधारित प्रणालियों को केवल नियमों की जटिलता को बढ़ाकर अधिक सटीक बनाया जा सकता है, जो कि अधिक कठिन कार्य है। विशेष रूप से, हस्तलिखित नियमों के आधार पर प्रणालियों की जटिलता की एक सीमा है, जिसके आगे सिस्टम अधिक से अधिक असहनीय हो जाते हैं। हालांकि, मशीन-लर्निंग सिस्टम में इनपुट के लिए अधिक डेटा बनाने के लिए बस काम करने वाले घंटों की संख्या में इसी वृद्धि की आवश्यकता होती है, आमतौर पर एनोटेशन प्रक्रिया की जटिलता में उल्लेखनीय वृद्धि के बिना।एनएलपी अनुसंधान में मशीन सीखने की लोकप्रियता के बावजूद, प्रतीकात्मक तरीके अभी भी (2020) आमतौर पर उपयोग किए जाते हैं

जब प्रशिक्षण डेटा की मात्रा सफलतापूर्वक मशीन सीखने के तरीकों को लागू करने के लिए अपर्याप्त है, जैसे कि कम संसाधन भाषाओं के मशीन अनुवाद के लिए जैसे कि एपरटियम सिस्टम द्वारा प्रदान किया गया है,एनएलपी पाइपलाइनों में प्रीप्रोसेसिंग के लिए, उदा।, टोकेनाइजेशन, यासिंटैक्टिक पर्स से ज्ञान निष्कर्षण के लिए एनएलपी पाइपलाइनों के उत्पादन को पोस्टप्रोसेसिंग और रूपांतरित करने के लिए।

आम एनएलपी टास्क

निम्नलिखित प्राकृतिक भाषा प्रसंस्करण में सबसे अधिक शोध कार्यों में से कुछ की एक सूची है। इनमें से कुछ कार्यों में प्रत्यक्ष-विश्व अनुप्रयोग होते हैं, जबकि अन्य आमतौर पर उप-कार्य के रूप में कार्य करते हैं जिनका उपयोग बड़े कार्यों को हल करने में सहायता के लिए किया जाता है।

यद्यपि प्राकृतिक भाषा प्रसंस्करण कार्य बारीकी से परस्पर जुड़े हुए हैं, फिर भी उन्हें सुविधा के लिए श्रेणियों में विभाजित किया जा सकता है। एक मोटे विभाजन नीचे दिया गया है।

पाठ और भाषण प्रसंस्करण

ऑप्टिकल कैरेक्टर रिकग्निशन (OCR)

मुद्रित पाठ का प्रतिनिधित्व करने वाली छवि को देखते हुए, संबंधित पाठ को निर्धारित करें।

वाक् पहचान

किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, भाषण के पाठ का प्रतिनिधित्व निर्धारित करें। यह भाषण के पाठ के विपरीत है और "एआई-पूर्ण" बोलचाल की भाषा में अत्यंत कठिन समस्याओं में से एक है। प्राकृतिक भाषण में, शायद ही कभी शब्दों के बीच कोई ठहराव होता है, और इस प्रकार भाषण विभाजन भाषण मान्यता का एक आवश्यक उपवाक्य है। अधिकांश बोली जाने वाली भाषाओं में, क्रमिक अक्षरों का प्रतिनिधित्व करने वाली ध्वनियाँ एक दूसरे को सहवर्ती क्रिया में मिश्रित करती हैं, इसलिए वर्णों को असतत करने के लिए एनालॉग सिग्नल का रूपांतरण एक बहुत ही कठिन प्रक्रिया हो सकती है। इसके अलावा, यह देखते हुए कि एक ही भाषा के शब्द अलग-अलग लहजे वाले लोगों द्वारा बोले जाते हैं, वाक् पहचान सॉफ़्टवेयर को अपने पाठ्य समान के संदर्भ में एक-दूसरे के समान व्यापक इनपुट पहचानने में सक्षम होना चाहिए।

भाषण विभाजन

किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, उसे शब्दों में अलग करें। भाषण मान्यता का एक उपमा और आम तौर पर इसके साथ समूहीकृत।

लिखे हुए को बोलने में बदलना

एक पाठ को देखते हुए, उन इकाइयों को रूपांतरित करें और एक बोले गए प्रतिनिधित्व का उत्पादन करें। नेत्रहीनों की सहायता के लिए पाठ से भाषण का उपयोग किया जा सकता है| [4]



संदर्भ

🔥 Top keywords: सट्टासुनील छेत्रीक्लियोपाट्रा ७मुखपृष्ठविशेष:खोजभारत के राज्य तथा केन्द्र-शासित प्रदेशपृथ्वीराज चौहानभारत के प्रधान मंत्रियों की सूचीस्वाति मालीवालभारतीय आम चुनाव, 2019ब्लू (2009 फ़िल्म)भारतीय आम चुनाव, 2024नरेन्द्र मोदीभारत का संविधानलोक सभारासायनिक तत्वों की सूचीहिन्दी की गिनतीलोकसभा सीटों के आधार पर भारत के राज्यों और संघ क्षेत्रों की सूचीकबीरभीमराव आम्बेडकरहिन्दीभारतीय राष्ट्रीय कांग्रेसभारतमिस्रमहात्मा गांधीबिहार के लोकसभा निर्वाचन क्षेत्रखाटूश्यामजीमिया खलीफ़ाभारत का प्रधानमन्त्रीमाधवराव सिंधियासंज्ञा और उसके भेदराहुल गांधीप्रेमचंदभारत के राजनीतिक दलों की सूचीभारतीय राज्यों के वर्तमान मुख्यमंत्रियों की सूचीतुलसीदासश्रीमद्भगवद्गीताभारतीय जनता पार्टीबिहार के जिले