پردازش زبان طبیعی چیست؟
پردازش زبان طبیعی شاخه ای از علوم کامپیوتر (یا بصورت دقیقتر هوش مصنوعی) است. پردازش زبان طبیعی این امکان را فراهم می کند که دستگاه های الکترونیکی بتوانند گفتار انسان ها را درک کنند. هیجان انگیز نیست؟ دیگر لازم نیست تایپ کنید. می توانید با کامپیوتر و موبایل صحبت کنید.
پردازش زبان طبیعی، دانشی ترکیبی از زبان شناسی محاسباتی (مدل سازی مبتنی بر قوانین زبان انسانی)، آمار، یادگیری ماشینی و یادگیری عمیق است. این فناوری ها در کنار هم، به کامپیوتر توانایی درک زبان انسانی را می دهند. بنابراین کامپیوترها هم می توانند احساسات گفتاری را درک کنند.
توسط پردازش زبان طبیعی می توان متون را ترجمه کرد، دستورات گفتاری را درک و اجرا کرد یا متن طولانی را خلاصه نویسی کرد. برخی شرکت ها نیز از ربات های تشخیص گفتار در بخش پشتیبانی مشتریان استفاده می کنند. فناوری های مبتنی بر پردازش زبان طبیعی، نقش رو به رشدی در سازمان ها ایفا میکنند که به افزایش بهرهوری کارکنان و سادهسازی فرآیندهای تجاری کمک میکند.
پردازش زبان طبیعی چطور کار میکند؟
زبان انسانی مملو از ابهامات است. بنابراین توسعه نرم افزاری که بتواند زبان انسان را درک کند خیلی پیچیده است. استعاره ها، کنایه ها، اصطلاحات، واژه های هم آوا و … نمونه هایی از این ابهامات هستند. بنابراین فناوری پردازش زبان طبیعی باید برای حل این ابهامات چاره اندیشی کند.
متخصصان پردازش زبان طبیعی از روش های زیر استفاده می کنند:
تشخیص گفتار: وظیفه تبدیل داده های صوتی به متنی را بر عهده دارد. موارد چالش برانگیز در این بخش، نحوه صحبت کردن افراد متفاوت است. سرعت صحبت کردن، لهجه های مختلف، لحن و گویش های متفاوت و حتی رعایت نکردن دستور زبان، چالش های این بخش است.
برچسب گذاری گفتار (برچسب گذاری گرامری): وظیفه تعیین نقش یک کلمه یا بخشی از جمله و کاربرد آن را بر عهده دارد. به عنوان مثال دو جمله زیر را در نظر بگیرید:
- امروز دارا دیر به مدرسه رسید.
- مهدی دارا است.
در جمله ی اول، دارا به عنوان اسم استفاده شده و در جمله دوم بصورت صفت آمده است. منظور از برچسب گذاری تعیین نقش کلمه در جمله است.
ابهام زدایی معنی کلمه: از آنجا که کلمات می توانند معانی مختلفی داشته باشند، باید از طریق فرایند تحلیل معنایی، معنی درست کلمه در متن مشخص شود. به عنوان مثال کلمهی “داد” معانی متفاوتی دارد که هنگام پردازش زبان طبیعی باید مورد ابهام زدایی قرار گیرد.
شناسایی موجودیت های نامگذاری شده: در این بخش، کلمات یا اصطلاحات به عنوان موجودیت های کاربردی نامگذاری می شوند. مثلا: کلمهی “رشت” به عنوان یک موجودیت که نام مکان است شناسایی می شود و کلمهی “مهدی” به عنوان یک موجودیت که نام شخص است شناسایی می شود.
وضوح کلمات هم ارجاع: در برخی موارد دو کلمهی متفاوت به یک موجودیت ارجاع می دهند. بارزترین مثال در این زمینه، شخص یا شیئی است که ضمیری به آن اشاره می کند. به عنوان نمونه “او” = “مهدی”
تجزیه و تحلیل احساسات: سعی می کند کیفیت های ذهنی (نگرش ها، احساسات، کنایه، سردرگمی، سوء ظن) را از متن استخراج کند.
مولد زبان طبیعی: گاهی اوقات به عنوان مخالف تشخیص گفتار توصیف می شود. مولد زبان طبیعی، وظیفهی تولید اطلاعات ساختاریافته به زبان انسان را بر عهده دارد.
ابزارها و رویکردهای پردازش زبان طبیعی
پایتون و ابزار پردازش زبان
زبان برنامه نویسی پایتون، ابزارها و کتابخانه های زیادی برای پردازش زبان طبیعی دارد. بسیاری از این موارد در Natural Language Toolkit یا NLTK یافت می شوند. NLTK شامل کتابخانههایی برای وظایف پردازش زبان طبیعی و کتابخانههایی برای وظایف فرعی، مانند تجزیه جملات، تقسیمبندی کلمات، ریشهیابی، واژهسازی و نشانهسازی است. که به کامپیوتر کمک می کند متن را بهتر درک کند. همچنین شامل کتابخانههایی برای پیادهسازی قابلیتهایی مانند استدلال معنایی و توانایی رسیدن به نتایج منطقی بر اساس حقایق استخراجشده از متن است.
امروزه، مدلهای یادگیری عمیق، سیستمهای پردازش زبان را قادر میسازند که معنای دقیقتری را از حجم عظیمی از دادههای متنی و صوتی خام، بدون ساختار و بدون برچسب استخراج کنند.
موارد استفاده از پردازش زبان طبیعی
تشخیص هرزنامه و فیشینگ: شاید تعجب کنید اما باید بدانید محبوبترین ابزارهای تشخیص هرزنامه و فیشینگ از پردازش زبان طبیعی، استفاده می کنند. استفاده بیش از حد از اصطلاحات مالی، گرامر اشتباه، زبان تهدیدآمیز، الزام به اقدام فوری، نام شرکتها با املای اشتباه و غیره جزء شاخص های تشکیک هستند.
ترجمه ماشینی: نمونه بسیار شناخته شده ترجمه ماشینی، برنامه مترجم گوگل است. این برنامه صرفا یک مترجم کلمه به کلمه نیست. این برنامه توسط الگوریتم های هوش مصنوعی ساختار جمله را درک و آن را ترجمه می کند. ابزارهای ترجمه ماشینی با استفاده از دانش هوش مصنوعی دائما در حال ارتقاء هستند. یک روش ساده برای ارزیابی ترجمه ماشینی به این شکل است که متنی را به زبان مقصد ترجمه می کنیم، سپس همان متن ترجمه شده را توسط همان ابزار به زبان اول ترجمه می کنیم. بدین ترتیب دقت ترجمه قابل بررسی است.
ربات های گفتگو: نمونه ای از این ابزارها، دستیار صوتی هوشمند شرکت اپل با نام Siri و دستیار صوتی هوشمند شرکت آمازون با نام Alexa هستند که می توانند با تشخیص گفتار، اقدام متناسب با درخواست کاربر را انجام دهند. ربات های گفتگو نیز می توانند سرنخ های گفتگوی انسانی را درک کنند و بصورت بهینه به درخواست های مشتریان پاسخ دهند.
تحلیل احساسات کاربران شبکه های اجتماعی: توسط ابزارهای پردازش زبان طبیعی می توان تعاملات بسیار زیادی در شبکه های اجتماعی را بررسی کرد و از آن ها اطلاعات بسیار ارزشمندی استخراج کرد. این اطلاعات می تواند برای مقاصد متفاوتی مثل کمپین های تبلیغاتی و … مورد استفاده قرار گیرد.
خلاصه سازی متن: توسط این تکنیک می توان حجم زیادی از اطلاعات را در اختیار برنامه قرار داد تا آنرا خلاصه سازی کند. این برنامه ها توانایی استدلال معنایی و تولید متن زبان طبیعی را دارند.
تهیه کننده: مهدی کوهستانی
مدیر اجرایی آموزش و مدیر دپارتمان فناوری اطلاعات و ارتباطات
لطفا جهت مشاهده لیست کامل دوره های آموزش برنامه نویسی اینجا کلیک کنید.
لطفا جهت مشاهده برنامه کلاس های آموزش زبان پایتون اینجا کلیک کنید.
مجتمع فنی تهران - نمایندگی گیلان میگوید:
علیرضا نجفی خواه میگوید:
آرزو رضایی فر میگوید: