مروری بر آنالیز داده

قبل از ورود به الگوریتم‌های یادگیری ماشین، باید درک عمیقی از تحلیل داده (Data Analysis) داشته باشید. آنالیز داده فرآیندی است شامل جمع‌آوری، پاکسازی، تبدیل و مدل‌سازی داده با هدف کشف اطلاعات مفید و پشتیبانی از تصمیم‌گیری. چرخه تحلیل داده شامل مراحل: شناخت مسئله، جمع‌آوری داده، پاکسازی (حذف مقادیر گمشده و پرت)، تبدیل (نرمال‌سازی، استانداردسازی، مهندسی ویژگی)، مدل‌سازی، ارزیابی و استقرار است. در این بخش از دوره Machine Learning، ابتدا تمام مفاهیم پایه‌ای تحلیل داده را مرور می‌کنیم – همان‌هایی که در جلسات قبل با جزئیات یاد گرفتید – اما این بار با تمرکز بر نیازهای خاص الگوریتم‌های نظارت شده و نظارت نشده. هدف این است که ذهن شما برای درک این موضوع آماده شود که «هیچ مدل یادگیری ماشینی بدون یک آنالیز داده خوب، نتیجه معتبری نخواهد داد».

مروری بر جبر خطی (برای یادگیری ماشین)

در این بخش، مهم‌ترین مفاهیم جبر خطی که در الگوریتم‌های یادگیری ماشین استفاده می‌شوند را مرور می‌کنیم. شما قبلاً با ماتریس‌ها، بردارها، عملیات پایه و فضای برداری آشنا شده‌اید. اکنون نشان می‌دهیم که مثلاً رگرسیون خطی به حل معادله (X^T X)^ X^T y ختم می‌شود – و این یعنی عملیات ماتریس معکوس و ترانهاده. PCA (تحلیل مؤلفه‌های اصلی) از تجزیه مقدار ویژه (Eigendecomposition) و SVD (تجزیه مقدار مفرد) استفاده می‌کند. شبکه‌های عصبی شامل لایه‌های متراکم با ضرب ماتریس وزن‌ها در ورودی هستند. خوشه‌بندی K-Means بر اساس فاصله اقلیدسی (که از جبر خطی می‌آید) کار می‌کند. در این مرور سریع، با مثال‌های کدنویسی از numpy نشان می‌دهیم که هر مفهوم جبر خطی دقیقاً در کجای دنیای ML به کار می‌رود – بدون اینکه وارد اثبات‌های سنگین شویم.

مروری بر آنالیز داده (۲) – تأکید بر EDA

در دومین مرور آنالیز داده، تمرکز را روی تحلیل اکتشافی داده (EDA) می‌گذاریم و اینکه چطور مستقیماً به انتخاب الگوریتم یادگیری ماشین کمک می‌کند. قبل از اینکه هر مدلی بسازید، باید پاسخ این سؤالات را با EDA پیدا کنید: آیا داده من خطی است یا غیرخطی؟ آیا نویز زیاد دارد؟ آیا متغیرها همبستگی بالایی دارند (Multicollinearity)؟ آیا داده نامتوازن (Imbalanced) است؟ EDA با ابزارهای نموداری (pairplot، heatmap همبستگی، boxplot) و آمار توصیفی به شما می‌گوید که از رگرسیون خطی استفاده کنید یا جنگل تصادفی، از نرمال‌سازی استفاده کنید یا نه، و آیا نیاز به کاهش ابعاد دارید. در این بخش، یک چک‌لیست عملی از کارهایی که حتماً قبل از مدل‌سازی روی هر دیتاستی باید انجام دهید، ارائه می‌شود. با تکمیل این مرحله، شما آماده وارد شدن به دنیای الگوریتم‌های یادگیری ماشین خواهید بود.

بخش‌های مختلف هوش مصنوعی

همانطور که در ابتدای دوره اشاره کردیم، هوش مصنوعی شاخه‌های متعددی دارد: یادگیری ماشین (Machine Learning)، یادگیری عمیق (Deep Learning)، پردازش زبان طبیعی (NLP)، بینایی کامپیوتر (Computer Vision)، سیستم‌های خبره و رباتیک. در این دوره، تمرکز اصلی ما بر روی یادگیری ماشین کلاسیک است – یعنی الگوریتم‌هایی که با داده‌های جدولی کار می‌کنند، نه لزوماً شبکه‌های عصبی عمیق. یادگیری ماشین خود به سه زیرشاخه تقسیم می‌شود:

  • یادگیری نظارت شده (Supervised Learning): پیش‌بینی خروجی با داشتن برچسب (رگرسیون و طبقه‌بندی).
  • یادگیری نظارت نشده (Unsupervised Learning): یافتن الگوهای پنهان بدون برچسب (خوشه‌بندی و کاهش ابعاد).
  • یادگیری تقویتی (Reinforcement Learning): یادگیری از طریق تعامل با محیط (در این دوره پوشش داده نمی‌شود و در دوره مجزایی ارائه خواهد شد).

در ادامه جلسات، تمام الگوریتم‌های کلیدی یادگیری نظارت شده و نظارت نشده را از صفر پیاده‌سازی کرده و با کتابخانه Scikit-learn بهینه می‌کنیم. هدف این است که شما پس از پایان این بخش، توانایی حل مسائل واقعی کسب‌وکاری با داده‌های جدولی را داشته باشید – مهارتی که بیش از ۸۰٪ نیاز بازار کار در ایران و جهان را پوشش می‌دهد.

اشتراک گذاشتن این مطلب با دیگران