پیش پردازش و آنالیز داده

معرفی رویکردهای گوناگون فهم داده و لزوم آن

در دنیای داده‌محور امروز، شناخت داده (Data Understanding) اولین و مهم‌ترین گام در هر پروژه تحلیل داده و یادگیری ماشین است. قبل از اینکه به سراغ مدل‌سازی بروید، باید بدانید با چه داده‌ای سر و کار دارید. رویکردهای گوناگون فهم داده شامل مشاهده بصری، آمار توصیفی، تشخیص الگوها و شناسایی داده‌های پرت است. تحلیل اکتشافی داده (EDA) به شما کمک می‌کند ساختار، توزیع، کیفیت و روابط پنهان بین متغیرها را کشف کنید. چرا این کار اینقدر مهم است؟ چون اگر داده را خوب نشناسید، انتخاب الگوریتم اشتباه می‌کنید، پیش پردازش نامناسب انجام می‌دهید و در نهایت مدلی خواهید داشت که در دنیای واقعی کارایی ندارد. در این دوره، یاد می‌گیرید که چگونه از روش‌های مختلف برای شناخت عمیق داده استفاده کنید و قبل از هر عملیاتی، یک تصویر کامل از داده‌های خود به دست آورید.

معرفی علم آمار و تقسیم‌بندی آن

علم آمار شاخه‌ای از ریاضیات است که به جمع‌آوری، تحلیل، تفسیر و ارائه داده‌ها می‌پردازد. در علم داده، آمار زبان مشترک بین داده و دانش است. علم آمار به دو شاخه اصلی تقسیم می‌شود: آمار توصیفی (Descriptive Statistics) که داده را خلاصه و توصیف می‌کند – مثل میانگین، میانه و واریانس – و آمار استنباطی (Inferential Statistics) که از روی نمونه‌ای از داده، نتیجه‌گیری درباره کل جامعه انجام می‌دهد و شامل آزمون فرضیه‌ها و مدل‌سازی آماری است. در تحلیل داده، شما هم نیاز به توصیف داده دارید (برای گزارش‌دهی و درک اولیه) و هم به استنباط (برای پیش‌بینی و تصمیم‌گیری). یادگیری اصول آمار، نه یک گزینه، بلکه یک ضرورت برای هر کسی است که می‌خواهد در حوزه داده و هوش مصنوعی حرفه‌ای شود.

معرفی آمار توصیفی

آمار توصیفی ابزاری قدرتمند برای درک یک نگاهه (at-a-glance) به داده‌های شماست. این شاخه از آمار سه دسته اصلی اطلاعات را به شما می‌دهد: شاخص‌های گرایش مرکزی (مثل میانگین، میانه و مد) که نشان می‌دهد داده‌ها به چه مقداری تمایل دارند، شاخص‌های پراکندگی (مثل دامنه، واریانس و انحراف معیار) که نشان می‌دهد داده‌ها چقدر از مرکز خود فاصله دارند، و شاخص‌های شکل توزیع (چولگی و کشیدگی) که شکل کلی داده را توصیف می‌کنند. در پایتون، کتابخانه‌های pandas و scipy.stats ابزارهای بسیار خوبی برای محاسبه آمار توصیفی دارند. فرض کنید یک فایل اکسل با ۱۰۰۰ سطر داده مشتری دارید – آمار توصیفی در کمتر از یک ثانیه به شما می‌گوید میانگین سن مشتریان چقدر است، آیا داده‌های پرتی وجود دارد و توزیع درآمدها متقارن است یا چوله. در این دوره، تمام این مفاهیم را با کدنویسی عملی فرا خواهید گرفت.

گشتاورهای آماری

گشتاورهای آماری (Moments) چهار پارامتر اساسی هستند که هر توزیع آماری را به طور کامل توصیف می‌کنند. هر گشتاور جنبه خاصی از داده را اندازه می‌گیرد:

گشتاور اول – میانگین (Mean): موقعیت مرکزی داده را نشان می‌دهد.

گشتاور دوم – واریانس (Variance): پراکندگی داده‌ها حول میانگین را اندازه می‌گیرد (هرچه واریانس بیشتر باشد، داده‌ها پراکنده‌ترند).

گشتاور سوم – چولگی (Skewness): عدم تقارن توزیع را نشان می‌دهد – آیا دم راست بلندتر است (چولگی مثبت) یا دم چپ (چولگی منفی).

گشتاور چهارم – کشیدگی (Kurtosis): پهنای دنباله‌های توزیع را توصیف می‌کند – آیا توزیع نوک تیز است (کشیدگی مثبت) یا پخ و مسطح (کشیدگی منفی).

درک این چهار گشتاور معادل درک زبان ریاضی پشت هر توزیع داده است. در این دوره، یاد می‌گیرید چطور با توابع scipy.stats مثل()skew و ()kurtosis، این گشتاورها را روی داده‌های واقعی محاسبه و تفسیر کنید.

میانگین / میانه

میانگین (Mean) و میانه (Median) دو شاخص اصلی گرایش مرکزی هستند، اما هرکدام داستان متفاوتی از داده روایت می‌کنند. میانگین از تقسیم جمع همه مقادیر بر تعداد آنها به دست می‌آید و به تمام داده‌ها حساس است – به همین دلیل در حضور داده‌های پرت (Outliers) به شدت منحرف می‌شود. مثلاً اگر میانگین درآمد یک محله را محاسبه کنید ولی یک میلیاردر در آن محله زندگی کند، میانگین درآمد کل محله به شدت بالا می‌رود در حالی که وضعیت واقعی مردم عادی را نشان نمی‌دهد. میانه، مقدار وسط داده‌های مرتب شده است، و به داده‌های پرت حساس نیست و نماینده بهتری برای توزیع‌های چوله یا دارای پرت است. قانون سرانگشتی: برای داده‌های متقارن و بدون داده پرت از میانگین استفاده کنید. برای داده‌های چوله یا حاوی داده پرت، از میانه استفاده کنید. در این دوره با مثال‌های واقعی یاد می‌گیرید چگونه این دو شاخص را با numpy و pandas محاسبه و تفسیر کنید.

واریانس

واریانس (Variance) معیاری است برای سنجش پراکندگی داده‌ها حول میانگین. به زبان ساده، واریانس به ما می‌گوید “داده‌ها چقدر از میانگین فاصله دارند؟” فرمول واریانس، میانگین مجذور فاصله هر نقطه از میانگین است – یعنی هرچه داده‌ها از میانگین دورتر باشند، واریانس بیشتر می‌شود. واریانس صفر یعنی همه داده‌ها دقیقاً یکسان هستند. اما مشکل اصلی واریانس این است که واحد آن (مثلاً دلار مربع، کیلوگرم مربع) با واحد داده اصلی مطابقت ندارد – به همین دلیل بیشتر از انحراف معیار (Standard Deviation) استفاده می‌شود که برابر جذر واریانس است و واحد یکسانی با داده دارد. در پایتون، می‌توانید واریانس را با np.var(data) و انحراف معیار را با np.std(data) یا با توابع scipy.stats محاسبه کنید. در این دوره یاد می‌گیرید چطور از این شاخص‌ها برای سنجش ریسک در داده‌های مالی، کیفیت فرآیندهای صنعتی و اعتبارسنجی مدل‌ها استفاده کنید.

چولگی

چولگی (Skewness) یا گشتاور سوم، اندازه‌ای است برای سنجش عدم تقارن توزیع داده‌ها. یک توزیع متقارن (مثل توزیع نرمال) چولگی صفر دارد. اما در دنیای واقعی، بیشتر داده‌ها متقارن نیستند: توزیع درآمد معمولاً چولگی مثبت (Positive Skewness) دارد – یعنی دم سمت راست بلندتر است و میانگین بزرگتر از میانه، چون تعداد کمی افراد خیلی پولدار هستند. برعکس، توزیع نمرات یک آزمون سخت شاید چولگی منفی (Negative Skewness) داشته باشد – یعنی دم سمت چپ بلندتر است و میانگین کوچکتر از میانه، چون تعداد کمی خیلی نمره پایین گرفته‌اند. چولگی شدید (بالای ۱ یا زیر ۱-) نشان می‌دهد داده شما از نرمال بودن فاصله زیادی دارد. در پایتون، تابع scipy.stats.skew(data) چولگی را محاسبه می‌کند. شناخت چولگی به شما کمک می‌کند تصمیم بگیرید آیا نیاز به تبدیل Box-Cox دارید یا کدام الگوریتم برای داده شما مناسب‌تر است.

کشیدگی توزیع

کشیدگی (Kurtosis) یا گشتاور چهارم، شکل توزیع را از نظر نوک تیزی (peakness) و ضخامت دنباله‌ها (tail thickness) توصیف می‌کند. کشیدگی که معمولاً با “کشیدگی اضافی (Excess Kurtosis)” گزارش می‌شود:
توزیع مزوکورتیک (Mesokurtic، کشیدگی ~ ۰): مثل توزیع نرمال – دنباله‌ها متوسط.

توزیع لپتوکورتیک (Leptokurtic، کشیدگی > ۰): دنباله‌ها ضخیم‌تر و نوک تیزتر از توزیع نرمال – یعنی احتمال داده‌های پرت بیشتر است (مثل بازده بازار سهام).

توزیع پلاتیکورتیک (Platykurtic، کشیدگی < ۰): دنباله‌ها نازک‌تر و پهن‌تر – احتمال داده‌های پرت کمتر است (مثل قد افراد).

در پایتون، تابع scipy.stats.kurtosis(data) کشیدگی اضافی را محاسبه می‌کند (مقدار مثبت یعنی ضخیم‌تر از نرمال). کشیدگی بالا یعنی واریانس زیادی توسط داده‌های پرت توضیح داده می‌شود – یک علامت هشدار مهم در تحلیل داده!

همبستگی داده‌ها

همبستگی (Correlation) معیاری برای اندازه‌گیری رابطه خطی بین دو متغیر است. ضریب همبستگی از ۱- تا ۱+ متغیر است:
همبستگی مثبت ( +۱ ): وقتی متغیر x زیاد می‌شود، y هم زیاد می‌شود (مثل سن و تجربه کاری).

همبستگی منفی ( -۱ ): وقتی متغیر x زیاد می‌شود، y کم می‌شود (مثل سرعت خودرو و زمان رسیدن).

همبستگی نزدیک به صفر ( ~۰ ): هیچ رابطه خطی معناداری بین دو متغیر وجود ندارد.

رایج‌ترین نوع همبستگی ضریب پیرسون (Pearson Correlation) است. ماتریس همبستگی دیدن روابط بین تمام جفت‌متغیرها را در یک جدول ممکن می‌کند و برای شناسایی llinearityMultico (وقتی ویژگی‌های ورودی با هم همبستگی بالایی دارند) فوق‌العاده مفید است. در پایتون با ()df.corr به راحتی ماتریس همبستگی محاسبه می‌شود. در این دوره یاد می‌گیرید چطور نقشه حرارتی (heatmap) همبستگی رسم کنید و از آن برای انتخاب ویژگی‌های مناسب برای مدل‌سازی استفاده کنید.

معرفی توزیع‌های آماری و آشنایی با پکیج Scipy

در علم داده، درک توزیع‌های آماری کلید انتخاب روش تحلیل مناسب و ساخت مدل‌های صحیح است. خوشبختانه پکیج scipy.stats به عنوان قدرتمندترین کتابخانه آماری پایتون، ابزارهای کاملی برای کار با ده‌ها نوع توزیع احتمال فراهم کرده است. برای شروع کار با این پکیج ابتدا دستور pip install scipy را در ترمینال یا خط فرمان خود اجرا کنید (اگر از Anaconda استفاده می‌کنید، scipy از پیش نصب شده است). سپس می‌توانید هر توزیعی را با دو خط کد ساده شبیه‌سازی و تحلیل کنید. در ادامه با هفت توزیع پرکاربرد در دنیای تحلیل داده و یادگیری ماشین آشنا می‌شویم. این مطالب نه فقط دانش تئوری، بلکه مهارتی است که هر دیتا ساینتیست برای تحلیل داده‌های واقعی به آن نیاز دارد.

توزیع نرمال

توزیع نرمال (Normal Distribution) یا توزیع گاوسی (Gaussian) مهم‌ترین و رایج‌ترین توزیع آماری در طبیعت و علوم داده است. این توزیع به شکل زنگوله است، متقارن با میانگین (µ) و انحراف معیار (σ) و اکثر داده‌ها حول میانگین متمرکزند – قانون ۶۸-۹۵-۹۹.۷: حدود ۶۸٪ داده‌ها در بازه µ±σ، ۹۵٪ در µ±۲σ و ۹۹.۷٪ در µ±۳σ قرار دارند. در پایتون، با scipy.stats.norm می‌توانید:
norm.pdf(x, mu, sigma): چگالی احتمال را محاسبه کنید.norm.cdf(x, mu, sigma): احتمال تجمعی را به دست آورید.norm.rvs(mu, sigma, size=n): داده تصادفی با توزیع نرمال تولید کنید.نکته کاربردی: بسیاری از الگوریتم‌های یادگیری ماشین (مثل رگرسیون خطی، LDA و آنالیز مؤلفه‌های اصلی) فرض می‌کنند که داده‌ها توزیع نرمال دارند. اگر داده شما نرمال نبود، تکنیک‌هایی مثل Box-Cox transform به کمک شما می‌آیند.

توزیع یونیفرم

توزیع یونیفرم (Uniform Distribution) یا توزیع یکنواخت، ساده‌ترین توزیع آماری است. در این توزیع، همه مقادیر در یک بازه مشخص دقیقاً احتمال یکسان دارند – مثل پرتاب یک تاس سالم که احتمال آمدن هر عدد ۱⁄۶ است. در حالت پیوسته (مثل یک نرم‌افزار که زمان انتظار بین ۰ تا ۱۰ دقیقه یکسان است) از scipy.stats.uniform استفاده می‌شود. در حالت گسسته (مثل تاس) از scipy.stats.randint. توابع اصلی:
uniform.rvs(loc=0, scale=10, size=1000): تولید ۱۰۰۰ عدد تصادفی بین ۰ و ۱۰.uniform.pdf(x, loc=0, scale=10): محاسبه چگالی احتمال.توزیع یکنواخت در شبیه‌سازی، تست فرضیه‌ها و به عنوان پیش‌فرض برای “عدم اطلاعات قبلی” در آمار بیزی کاربرد دارد. در این دوره یاد می‌گیرید چطور از توزیع یکنواخت برای تولید داده‌های مصنوعی و اعتبارسنجی الگوریتم‌ها استفاده کنید.

توزیع برنولی

توزیع برنولی (Bernoulli Distribution) اساس ساده‌ترین نوع آزمایش تصادفی است – فقط دو نتیجه ممکن دارد: موفقیت (Success / 1) یا شکست (Failure / 0). پرتاب یک سکه‌ی سالم (سر = ۱ با احتمال ۰.۵) یک نمونه از توزیع برنولی است. این توزیع یک پارامتر دارد: احتمال موفقیت (p) ، جایی که احتمال شکست برابر ۱-p است. در پایتون با scipy.stats.bernoulli:
bernoulli.rvs(p, size=n): تولید n نمونه از متغیرهای دودویی.bernoulli.pmf(k, p): محاسبه احتمال k (که می‌تواند ۰ یا ۱ باشد).توزیع برنولی نقش اساسی در کلاس‌های مدل‌سازی مختلف ایفا می‌کند و پایه‌ی ساخت بیش از ۸۰٪ الگوریتم‌های طبقه‌بندی را تشکیل می‌دهد. در این دوره نشان می‌دهیم چگونه این توزیع ساده، پشت صحنه مدل‌های پیچیده‌ای مثل Logistic Regression قرار دارد.

توزیع باینومیال

توزیع باینومیال (Binomial Distribution) تعمیم طبیعی توزیع برنولی است: اگر یک آزمایش برنولی (با احتمال موفقیت p) را n بار تکرار کنیم، تعداد موفقیت‌ها از توزیع باینومیال پیروی می‌کند. مثلاً اگر ۱۰ بار سکه بیندازید، توزیع تعداد سکه‌هایی که رو می‌آید یک توزیع باینومیال است با n=۱۰ و p=۰.۵. آماردان‌ها از باینومیال برای مدل‌سازی متغیرهای فرکانس نرخ‌های تبدیل، خطاهای محصولات و رویدادهای رقیق استفاده می‌کنند. توابع اصلی در scipy.stats.binom:
binom.pmf(k, n, p): احتمال دقیقاً k موفقیت.binom.cdf(k, n, p): احتمال k موفقیت یا کمتر.binom.rvs(n, p, size=n): تولید نمونه تصادفی.در حوزه تحلیل داده و بازاریابی، توزیع باینومیال به شما کمک می‌کند بفهمید “اگر ۱۰۰۰ بازدیدکننده با نرخ تبدیل ۲٪ داشته باشید، احتمال بدست آوردن چند فروش چقدر است؟” کاربرد این توزیع در دنیای واقعی بی‌نهایت است

توزیع مالتی نومیال

توزیع مالتی‌نومیال (Multinomial Distribution) تعمیم توزیع باینومیال برای حالتی است که بیش از دو نتیجه ممکن وجود دارد – مثلاً پرتاب یک تاس ۶ وجهی، یا توزیع رنگ چشم (قهوه‌ای، آبی، سبز). این توزیع به طور کامل توسط تعداد آزمایش‌ها (n) و احتمال هر دسته (p₁, p₂, …, pk) مشخص می‌شود. توابع موجود در scipy.stats.multinomial:

multinomial.pmf(x, n, p): احتمال مشاهده تعداد دقیق مشخص در هر دسته.

multinomial.rvs(n, p, size=1): تولید نمونه تصادفی از نتایج.

در حوزه داده کاوی، از توزیع مالتی‌نومیال در طبقه‌بندی متن (مدل Naive Bayes)، تحلیل فروش محصولات و تحلیل رفتار کاربران استفاده می‌شود. در این دوره یاد می‌گیرید چگونه با استفاده از این توزیع، داده‌های طبقه‌بندی شده با بیش از دو برچسب را تحلیل و پیش‌بینی کنید.

توزیع پوآسون

توزیع پوآسون (Poisson Distribution) برای مدل‌سازی تعداد دفعاتی که یک رویداد (تصادفی و مستقل) در یک بازه زمانی ثابت رخ می‌دهد استفاده می‌شود – مثل تعداد تماس‌های ورودی برق به مرکز اورژانس در هر ساعت، تعداد خودروهایی که از یک چراغ راهنمایی در یک دقیقه عبور می‌کنند، یا تعداد خطاهای چاپ در هر صفحه از یک کتاب.

این توزیع فقط یک پارامتر دارد: λ (Lambda) که میانگین تعداد رویدادها در بازه است (واریانس هم برابر λ است).

در scipy.stats.poisson:
poisson.pmf(k, mu): احتمال دقیقاً k رویداد.

poisson.cdf(k, mu): احتمال حداکثر k رویداد.

poisson.rvs(mu, size=100): تولید ۱۰۰ نمونه تصادفی.

وقتی n در باینومیال بزرگ و p کوچک باشد (رویداد نادر)، توزیع باینومیال به توزیع پوآسون نزدیک می‌شود. در این دوره با مثال‌های واقعی نشان می‌دهیم چطور از توزیع پوآسون برای پیش‌بینی تعداد مشتریان در صف و مدیریت منابع استفاده کنید.

توزیع نمایی

توزیع نمایی (Exponential Distribution) زمان بین رویدادهای متوالی در یک فرآیند پوآسون را مدل می‌کند – مثل زمان بین دو تماس ورودی در یک مرکز تماس، یا عمر مفید یک قطعه الکترونیکی تا زمان خرابی. این توزیع یک ویژگی منحصر به فرد به نام خاصیت بی‌حافظگی (Memoryless Property) دارد: احتمال اینکه یک قطعه بیشتر از t ساعت کار کند، به میزان عمر قبلی آن بستگی ندارد.

در scipy.stats.expon:
expon.pdf(x, scale=1/lambda): چگالی احتمال.

expon.cdf(x, scale=1/lambda): احتمال تجمعی.

expon.rvs(scale=1/lambda, size=100): تولید ۱۰۰ نمونه تصادفی.

پارامتر scale برابر با میانگین زمان بین رویدادها (یا ۱⁄λ) است. کاربردها شامل تحلیل قابلیت اطمینان سیستم‌ها، زمان انتظار در صف و تحلیل بقا می‌شود. در این دوره می‌آموزید چطور از توزیع نمایی برای پیش‌بینی خرابی تجهیزات و بهینه‌سازی زمان انتظار استفاده کنید.

معرفی آزمون اثبات توزیع آماری

آزمون اثبات توزیع آماری (Goodness-of-Fit Tests) مجموعه‌ای از روش‌های آماری هستند که مشخص می‌کنند آیا داده‌های شما از یک توزیع نظری خاص (مثل نرمال، پوآسون و…) پیروی می‌کند یا خیر. این آزمون‌ها برای اعتبارسنجی مفروضات مدل‌ها و تعیین بهترین توزیع برازش، ضروری هستند. مهم‌ترین آزمون‌ها عبارتند از:

آزمون کولموگروف-اسمیرنوف (Kolmogorov-Smirnov test): در scipy.stats.kstest(data, ‘norm’) مقایسه می‌کند توزیع تجربی و تئوری تا چه اندازه به هم نزدیکند.

آزمون شاپیرو-ویلک (Shapiro-Wilk test): scipy.stats.shapiro(data) مخصوص آزمون نرمال بودن به خصوص برای نمونه‌های کوچک.

آزمون اندرسون-دارلینگ (Anderson-Darling test): scipy.stats.anderson(data, ‘norm’) حساسیت بیشتری به دنباله‌ها دارد.

این آزمون‌ها یک p-value برمی‌گردانند. اگر p-value از سطح معنی‌داری (معمولاً ۰.۰۵) کمتر باشد، فرض صفر “داده از آن توزیع پیروی می‌کند” را رد می‌کنیم. در این دوره یاد می‌گیرید چطور این آزمون‌ها را اجرا، تفسیر و از آنها برای بهترین انتخاب توزیع در پروژه‌هایتان استفاده کنید.

بررسی آزمون جنسون شنون

فاصله جنسون‑شنون (Jensen‑Shannon Divergence) یکی از قدرتمندترین معیارهای اندازه‌گیری شباهت بین دو توزیع احتمال است. این معیار بهبود یافته واگرایی کولبک-لیبلر (KL divergence) است و مشکلات آن را برطرف می‌کند – همیشه متقارن است، همیشه بین ۰ و ۱ (یا log(۲)) قرار دارد و حتی اگر توزیع‌ها با هم همپوشانی نداشته باشند، مقدار معنی‌داری برمی‌گرداند. اگر مقدار JS مقدار ۰ باشد یعنی دو توزیع کاملاً یکسان هستند و هرچه به ۱ نزدیکتر شود یعنی تفاوت بیشتر است. کاربردهای عملی JS divergence در علم داده عبارتند از:
مقایسه توزیع بازه‌های آموزشی و تستی در مدل‌های یادگیری ماشین (برای جلوگیری از drift).

ارزیابی مدل‌های مولد مانند GANها.

تشخیص تغییر مفهوم در داده‌های جریانی (Concept Drift).

در پایتون، می‌توانید JS divergence را از ماژول scipy.spatial.distance با تابع jensenshannon(p, q) محاسبه کنید.

در این دوره با مثال‌های عملی نشان می‌دهیم چطور از این معیار قدرتمند برای تحلیل تشابه توزیع‌ها و اطمینان از یکسان بودن داده‌های آموزش و تست استفاده کنید.

برای مشاهده برنامه کلاس های آموزش هوش مصنوعی، اینجا کلیک کنید.

مرحله قبل: مفاهیم جبر خطی

مرحله بعد: پکیج های مختلف نمایش داده