مفاهیم جبر خطی

جبر خطی ستون فقرات تمام الگوریتم‌های یادگیری ماشین و تحلیل داده است. اگر بخواهید درک عمیقی از رگرسیون، PCA، شبکه‌های عصبی یا حتی فیلترهای همکاری (Collaborative Filtering) داشته باشید، بدون مفاهیم جبر خطی ممکن نیست. در این بخش از دوره، مفاهیم جبر خطی برای هوش مصنوعی را کاملاً شهودی و بدون فرمول‌های پیچیده یاد می‌گیرید. شروع می‌کنیم از تعریف اسکالر (یک عدد)، بردار (آرایه یک بعدی) و ماتریس (آرایه دو بعدی). سپس نشان می‌دهیم که چگونه یک تصویر، متن یا جدول دیتاست به یک ماتریس تبدیل می‌شود. هدف این است که شما ریاضی پشت صحنه را آنقدر خوب بفهمید که بتوانید مدل‌ها را بهینه کنید، بدون اینکه درگیر اثبات‌های خسته‌کننده شوید.

معرفی ماتریس ها و نحوه تبدیل داده ها به آن

یک ماتریس به زبان ساده، جدولی از اعداد است با سطرها و ستون‌ها. در تحلیل داده، هر دیتاست را به صورت یک ماتریس نشان می‌دهیم: سطرها = نمونه‌های داده (مشتریان، محصولات، تصاویر) و ستون‌ها = ویژگی‌ها (سن، درآمد، رنگ پیکسل‌ها). برای تبدیل داده به ماتریس، ابتدا داده خام را تمیز می‌کنیم، مقادیر گمشده را مدیریت می‌کنیم و سپس با کتابخانه numpy در پایتون، آرایه دو بعدی می‌سازیم. مثلاً فرض کنید ۱۰۰۰ مشتری دارید و برای هر مشتری ۵ ویژگی (سن، جنسیت، میزان خرید، تعداد بازدید، امتیاز رضایت) – خروجی یک ماتریس ۱۰۰۰ در ۵ خواهد بود. در این دوره، قدم به قدم یاد می‌گیرید با دستور ()np.array و ()pd.DataFrame هر دیتایی را به ماتریس تبدیل کنید. درک این مفهوم یعنی درک قلب علم داده.

مروری بر انواع ابعاد داده ها

ابعاد داده‌ها (Dimensions) مشخص می‌کند که داده شما چند محور دارد. بیایید از پایین به بالا برویم:
اسکالر (۰ بعدی): فقط یک عدد، مثل 42

بردار (۱ بعدی): لیستی از اعداد، مثل [2, 5, 7]

ماتریس (۲ بعدی): جدول، مثل دیتاست شما با ۱۰ سطر و ۳ ستون

تانسور (۳ بعدی یا بیشتر): مثلاً یک تصویر رنگی با ارتفاع ۱۰۰، عرض ۱۰۰ و ۳ کانال RGB – یک تانسور ۱۰۰×۱۰۰×۳

در یادگیری ماشین و deep learning، با داده‌های با ابعاد بالا سروکار دارید. کتابخانه numpy با ویژگی array.shape به شما ابعاد را نشان می‌دهد. در این بخش، می‌آموزید که چرا به داده ۲ بعدی “جدول” می‌گویند و چگونه یک دنباله متنی یا سری زمانی را در قالب ماتریس‌های سه بعدی مدل کنید. با تمرین، به راحتی ابعاد را تشخیص داده و تبدیل خواهید کرد.

مروری بر عملیات جبر خطی

عملیات جبر خطی پایه‌ای‌ترین ابزارهایی هستند که هر روز یک دیتا ساینتیست از آنها استفاده می‌کند. مهم‌ترین عملیات عبارتند از:
جمع و تفریق ماتریس‌ها: به شرطی که ابعاد یکسان داشته باشند.

ضرب اسکالر در ماتریس: هر عنصر در عدد ثابت ضرب می‌شود.

ترانهاده (Transpose): سطرها و ستون‌ها جابجا می‌شوند (با A.T در numpy).

ضرب نقطه‌ای (Dot Product): اساس محاسبه شباهت بردارها و لایه‌های شبکه عصبی.

ضرب ماتریس در ماتریس: خروجی هر خانه، حاصل ضرب نقطه‌ای سطر اولی در ستون دومی است. در پایتون با np.dot(A,B) یا علامت @ انجام می‌شود.

معکوس و دترمینان: برای حل دستگاه معادلات خطی و برخی الگوریتم‌ها مانند رگرسیون خطی کلاسیک.

در این دوره، شما این عملیات را نه روی کاغذ، بلکه با کدنویسی واقعی و روی دیتاست‌های واقعی اجرا می‌کنید تا ببینید هر کدام کجای مدل‌سازی به کار می‌رود.

معرفی فضای برداری و نمایش نمونه های یک ماتریس در آن

یک فضای برداری، فضایی فرضی است که در آن هر نقطه معادل یک بردار (نمونه داده) است. وقتی یک ماتریس دارید که هر سطرش یک نمونه است، در واقع دارید آن نمونه‌ها را در یک فضای برداری به تعداد ویژگی‌ها (ابعاد فضای برداری) قرار می‌دهید. به عنوان مثال، اگر هر نمونه دو ویژگی داشته باشد (سن و درآمد)، آنگاه فضای برداری شما یک صفحه دوبعدی است که هر نقطه = یک مشتری. نمایش نمونه‌های یک ماتریس در فضای برداری به ما کمک می‌کند مفاهیمی مثل “فاصله” بین نقاط (برای خوشه‌بندی)، “جهت” (برای رگرسیون) و “زیرفضاها” (برای کاهش ابعاد) را درک کنیم. الگوریتم‌هایی مانند PCA دقیقاً به دنبال بهترین فضای برداری با ابعاد کمتر هستند تا اطلاعات اصلی حفظ شود. در این دوره، با مثال‌های بصری و کدنویسی، می‌آموزید که چطور صدها یا هزاران ویژگی را به عنوان یک فضای برداری تصور کنید و بر اساس آن مدل بهتری بسازید.

برای مشاهده برنامه کلاس های آموزش هوش مصنوعی، اینجا کلیک کنید.