بررسی رویکرد نزدیکترین همسایه (KNN)

معرفی رویکرد KNNImputer و استفاده از آن برای پیش‌پردازش داده‌ها

KNNImputer یک روش پیشرفته برای جایگزینی مقادیر گمشده (Missing Value Imputation) در داده‌ها است که از ایده الگوریتم K نزدیکترین همسایه استفاده می‌کند. برخلاف روش‌های ساده مثل جایگزینی با میانگین یا میانه (که ساختار داده را نادیده می‌گیرند)، KNNImputer برای هر نمونه‌ای که دارای مقدار گمشده است، K نمونه مشابه (از نظر سایر ویژگی‌ها) را پیدا کرده و سپس مقدار گمشده را بر اساس میانگین (یا میانه) وزنی آن همسایه‌ها تخمین می‌زند.

مراحل کار:

فاصله بین نمونه‌ها را با استفاده از ویژگی‌های موجود (بدون مقادیر گمشده) محاسبه می‌کند.
نزدیکترین K همسایه را انتخاب می‌کند.
مقدار گمشده را از روی مقادیر همان ویژگی در همسایه‌ها (با میانگین موزون بر اساس فاصله) تخمین می‌زند.

مزیت KNNImputer نسبت به روش‌های ساده: روابط بین ویژگی‌ها را حفظ می‌کند و برای داده‌هایی که ساختار خوشه‌ای دارند بسیار دقیق‌تر عمل می‌کند. در در این دوره، شما یاد می‌گیرید چه زمانی از KNNImputer استفاده کنید (داده‌های با ساختار غیرخطی و همبستگی بالا) و چه زمانی روش‌های ساده‌تر کفایت می‌کنند.

معرفی رویکرد KNN در دسته‌بندی اطلاعات

الگوریتم K-Nearest Neighbors (KNN) یکی از ساده‌ترین و در عین حال قدرتمندترین الگوریتم‌های دسته‌بندی نظارت شده است. این الگوریتم بر این اصل ساده استوار است: «هر نمونه جدید به کلاس غالب در میان K نمونه از داده‌های آموزشی که به آن نزدیک‌تر هستند، تعلق دارد».

ویژگی‌های کلیدی KNN:

Non-parametric (ناپارامتریک): هیچ فرضی درباره توزیع داده یا شکل تابع تصمیم ندارد.

Lazy learning (یادگیر تنبل): در مرحله آموزش هیچ مدلی ساخته نمی‌شود – فقط داده‌ها را ذخیره می‌کند. تمام محاسبات در مرحله پیش‌بینی انجام می‌شود.

مبتنی بر فاصله: عملکرد آن به شدت به معیار فاصله (معمولاً اقلیدسی، منهتنی یا مینکوفسکی) و مقیاس ویژگی‌ها وابسته است.

مراحل اجرا:

ذخیره تمام داده‌های آموزشی.
برای نمونه جدید، فاصله آن تا همه نمونه‌های آموزشی را محاسبه کن.
K نمونه با کمترین فاصله را انتخاب کن.
با رأی‌گیری ساده (یا وزن‌دار بر اساس فاصله)، کلاس اکثریت را به عنوان خروجی برگردان.

بیان مزایا و معایب KNN

هر الگوریتمی نقاط قوت و ضعف خود را دارد. شناخت مزایا و معایب KNN به شما کمک می‌کند تصمیم بگیرید آیا این الگوریتم برای مسئله شما مناسب است یا خیر.

مزایا (Pros):
سادگی و فهم آسان: منطق آن به قدری شهودی است که حتی افراد غیرمتخصص هم درک می‌کنند.

عدم نیاز به مفروضات آماری: هیچ فرضی درباره توزیع داده، خطی بودن یا نرمال بودن ندارد.

کارایی روی داده‌های غیرخطی و پیچیده: می‌تواند مرزهای تصمیم بسیار نامنظم و دلخواه را مدل کند.

انعطاف‌پذیری در معیار فاصله: می‌توانید بسته به نوع داده، فاصله مناسب (منهتنی، مینکوفسکی، همبستگی و…) را انتخاب کنید.

کاربرد در هر دو نوع دسته‌بندی و رگرسیون: نسخه KNNRegressor نیز وجود دارد.

تحلیل حاشیه‌نویسی آسان: می‌توانید نشان دهید چرا یک نمونه خاص به یک طبقه نسبت داده شده (با نمایش همسایه‌ها).

معایب (Cons):
هزینه محاسباتی بالا در پیش‌بینی: زیرا برای هر نمونه جدید باید فاصله آن تا همه نمونه‌های آموزشی را محاسبه کند. برای مجموعه داده بزرگ (بیش از چند ده هزار نمونه) کند می‌شود.

حافظه‌بر: تمام داده‌های آموزشی را باید در حافظه نگه دارد.

حساسیت شدید به مقیاس ویژگی‌ها: اگر ویژگی‌ها مقیاس متفاوتی داشته باشند، ویژگی با دامنه بزرگتر بر فاصله غالب می‌شود – حتماً نیاز به نرمال‌سازی یا استانداردسازی (StandardScaler) دارد.

حساسیت به داده‌های پرت و نویز: وجود چند داده پرت می‌تواند تصمیم را به شدت تحت تأثیر قرار دهد.

نفرین ابعاد (Curse of Dimensionality): با افزایش تعداد ویژگی‌ها، همه نقاط از یکدیگر دور می‌شوند و مفهوم «نزدیکی» بی‌معنا می‌شود. KNN در ابعاد بالا (بیش از ۲۰-۳۰ ویژگی) عملکرد ضعیفی دارد مگر اینکه کاهش ابعاد انجام شود.

نیاز به تعیین K بهینه: انتخاب نادرست K می‌تواند منجر به overfitting (K کوچک) یا underfitting (K بزرگ) شود. معمولاً با cross-validation مقدار بهینه پیدا می‌شود.

عدم تفسیرپذیری مستقیم: برخلاف درخت تصمیم که قوانین واضح می‌دهد، KNN به نوعی «جعبه سیاه» است.

نکته نهایی: KNN برای پروژه‌های کوچک تا متوسط (تا چند ده هزار نمونه، با ابعاد کمتر از ۲۰) که داده‌ها تمیز و دارای مقیاس یکسان هستند، انتخاب عالی است. در این دوره شما یاد می‌گیرید با استفاده از GridSearchCV بهترین K و معیار فاصله را برای دیتاست خود پیدا کنید و همزمان مزایا را حفظ کنید و معایب را کاهش دهید.

مرحله قبل: دسته‌بندی داده‌ها و مدل‌های طبقه‌بندی