مروری بر آنالیز داده
قبل از ورود به الگوریتمهای یادگیری ماشین، باید درک عمیقی از تحلیل داده (Data Analysis) داشته باشید. آنالیز داده فرآیندی است شامل جمعآوری، پاکسازی، تبدیل و مدلسازی داده با هدف کشف اطلاعات مفید و پشتیبانی از تصمیمگیری. چرخه تحلیل داده شامل مراحل: شناخت مسئله، جمعآوری داده، پاکسازی (حذف مقادیر گمشده و پرت)، تبدیل (نرمالسازی، استانداردسازی، مهندسی ویژگی)، مدلسازی، ارزیابی و استقرار است. در این بخش از دوره Machine Learning، ابتدا تمام مفاهیم پایهای تحلیل داده را مرور میکنیم – همانهایی که در جلسات قبل با جزئیات یاد گرفتید – اما این بار با تمرکز بر نیازهای خاص الگوریتمهای نظارت شده و نظارت نشده. هدف این است که ذهن شما برای درک این موضوع آماده شود که «هیچ مدل یادگیری ماشینی بدون یک آنالیز داده خوب، نتیجه معتبری نخواهد داد».
مروری بر جبر خطی (برای یادگیری ماشین)
در این بخش، مهمترین مفاهیم جبر خطی که در الگوریتمهای یادگیری ماشین استفاده میشوند را مرور میکنیم. شما قبلاً با ماتریسها، بردارها، عملیات پایه و فضای برداری آشنا شدهاید. اکنون نشان میدهیم که مثلاً رگرسیون خطی به حل معادله (X^T X)^ X^T y ختم میشود – و این یعنی عملیات ماتریس معکوس و ترانهاده. PCA (تحلیل مؤلفههای اصلی) از تجزیه مقدار ویژه (Eigendecomposition) و SVD (تجزیه مقدار مفرد) استفاده میکند. شبکههای عصبی شامل لایههای متراکم با ضرب ماتریس وزنها در ورودی هستند. خوشهبندی K-Means بر اساس فاصله اقلیدسی (که از جبر خطی میآید) کار میکند. در این مرور سریع، با مثالهای کدنویسی از numpy نشان میدهیم که هر مفهوم جبر خطی دقیقاً در کجای دنیای ML به کار میرود – بدون اینکه وارد اثباتهای سنگین شویم.
مروری بر آنالیز داده (۲) – تأکید بر EDA
در دومین مرور آنالیز داده، تمرکز را روی تحلیل اکتشافی داده (EDA) میگذاریم و اینکه چطور مستقیماً به انتخاب الگوریتم یادگیری ماشین کمک میکند. قبل از اینکه هر مدلی بسازید، باید پاسخ این سؤالات را با EDA پیدا کنید: آیا داده من خطی است یا غیرخطی؟ آیا نویز زیاد دارد؟ آیا متغیرها همبستگی بالایی دارند (Multicollinearity)؟ آیا داده نامتوازن (Imbalanced) است؟ EDA با ابزارهای نموداری (pairplot، heatmap همبستگی، boxplot) و آمار توصیفی به شما میگوید که از رگرسیون خطی استفاده کنید یا جنگل تصادفی، از نرمالسازی استفاده کنید یا نه، و آیا نیاز به کاهش ابعاد دارید. در این بخش، یک چکلیست عملی از کارهایی که حتماً قبل از مدلسازی روی هر دیتاستی باید انجام دهید، ارائه میشود. با تکمیل این مرحله، شما آماده وارد شدن به دنیای الگوریتمهای یادگیری ماشین خواهید بود.
بخشهای مختلف هوش مصنوعی
همانطور که در ابتدای دوره اشاره کردیم، هوش مصنوعی شاخههای متعددی دارد: یادگیری ماشین (Machine Learning)، یادگیری عمیق (Deep Learning)، پردازش زبان طبیعی (NLP)، بینایی کامپیوتر (Computer Vision)، سیستمهای خبره و رباتیک. در این دوره، تمرکز اصلی ما بر روی یادگیری ماشین کلاسیک است – یعنی الگوریتمهایی که با دادههای جدولی کار میکنند، نه لزوماً شبکههای عصبی عمیق. یادگیری ماشین خود به سه زیرشاخه تقسیم میشود:
- یادگیری نظارت شده (Supervised Learning): پیشبینی خروجی با داشتن برچسب (رگرسیون و طبقهبندی).
- یادگیری نظارت نشده (Unsupervised Learning): یافتن الگوهای پنهان بدون برچسب (خوشهبندی و کاهش ابعاد).
- یادگیری تقویتی (Reinforcement Learning): یادگیری از طریق تعامل با محیط (در این دوره پوشش داده نمیشود و در دوره مجزایی ارائه خواهد شد).
در ادامه جلسات، تمام الگوریتمهای کلیدی یادگیری نظارت شده و نظارت نشده را از صفر پیادهسازی کرده و با کتابخانه Scikit-learn بهینه میکنیم. هدف این است که شما پس از پایان این بخش، توانایی حل مسائل واقعی کسبوکاری با دادههای جدولی را داشته باشید – مهارتی که بیش از ۸۰٪ نیاز بازار کار در ایران و جهان را پوشش میدهد.
دیدگاه خود را بنویسید