تحلیل اکتشافی داده (EDA)

تحلیل اکتشافی داده (EDA) – آمار تفسیری

معرفی آمار تفسیری

آمار تفسیری (Inferential Statistics) یا آمار استنباطی، شاخه‌ای از علم آمار است که با استفاده از داده‌های یک نمونه (نمونه)، نتیجه‌گیری و استنتاج درباره کل جامعه (population) انجام می‌دهد. در حالی که آمار توصیفی به خلاصه‌سازی و نمایش داده می‌پردازد، آمار تفسیری به ما اجازه می‌دهد فرضیه‌ها را تست کنیم، روابط بین متغیرها را تعمیم دهیم و پیش‌بینی انجام دهیم. اجزای اصلی آمار تفسیری شامل:

تخمین پارامترها (با استفاده از فاصله اطمینان)
آزمون فرضیه (تأیید یا رد ادعاهای آماری)
مدل‌سازی پیش‌بینی

در علم داده، شما همیشه به همه داده‌ها دسترسی ندارید (مثلاً نظرات همه مردم ایران درباره یک محصول) – باید با یک نمونه کار کنید و نتایج را به کل جامعه تعمیم دهید. در این بخش از دوره، اصول پایه‌ای آمار تفسیری را یاد می‌گیرید تا بتوانید از داده‌های محدود، نتیجه‌گیری‌های معتبر و قابل اتکا انجام دهید.

معرفی آزمون‌های شبیه‌سازی آماری

آزمون‌های شبیه‌سازی آماری دسته‌ای از روش‌های مدرن هستند که به جای تکیه بر فرمول‌های ریاضی نظری، با استفاده از محاسبات سنگین و تکرار، توزیع نمونه‌گیری یک آماره را شبیه‌سازی می‌کنند. مهم‌ترین این روش‌ها عبارتند از:
Bootstrap: روشی برای تخمین توزیع نمونه‌گیری هر آماره (میانگین، میانه، واریانس، …) با نمونه‌گیری مجدد با جایگذاری از داده‌های اصلی. با این کار می‌توانید فاصله اطمینان و خطای استاندارد را بدون مفروضات نرمال بودن محاسبه کنید.

Permutation Test (آزمون جایگشتی): روشی برای آزمون فرضیه‌ها که با تصادفی‌سازی مکرر برچسب‌ها، توزیع نول را می‌سازد. به خصوص زمانی که مفروضات آزمون‌های کلاسیک (مثل نرمال بودن) برقرار نیست، فوق‌العاده قدرتمند است.

شبیه‌سازی مونت کارلو: تولید داده مصنوعی با پارامترهای مشخص برای ارزیابی عملکرد روش‌های آماری.

در پایتون، کتابخانه‌هایی مثل sklearn.utils.resample برای bootstrap و scipy.stats.permutation_test برای آزمون جایگشتی وجود دارد. این روش‌ها در عصر محاسباتی امروز، به دلیل انعطاف‌پذیری بالا، بسیار محبوب شده‌اند.

A/B testing

A/B testing (آزمون A/B) یکی از کاربردی‌ترین روش‌های آمار تفسیری در صنعت و کسب‌وکار است. در این روش، شما دو نسخه از یک محصول، وب‌سایت، ایمیل یا هر چیز دیگری را به صورت تصادفی به دو گروه از کاربران نمایش می‌دهید – نسخه A (کنترل) و نسخه B (تغییر یافته) – و سپس تفاوت در یک متریک کلیدی (مثل نرخ کلیک، خرید، ثبت‌نام) را ارزیابی می‌کنید.

مراحل اصلی A/B testing:

تعریف فرضیه صفر (هیچ تفاوتی بین دو نسخه نیست)
تعیین اندازه نمونه مورد نیاز
اختصاص تصادفی کاربران به دو گروه
جمع‌آوری داده
اجرای آزمون آماری (معمولاً t-test یا chi-square)
نتیجه‌گیری

A/B testing به شما اجازه می‌دهد تصمیمات مبتنی بر داده و نه حدس و گمان بگیرید. در این دوره یاد می‌گیرید چگونه یک آزمون A/B را طراحی، اجرا و تحلیل کنید – از تعیین حجم نمونه تا تفسیر p-value و محاسبه uplift (افزایش نسبی). ابزارهای پایتون مثل scipy.stats.ttest_ind برای تحلیل نهایی استفاده می‌شوند.

معرفی آزمون‌های از پیش تعریف شده آماری

آزمون‌های از پیش تعریف شده آماری (Classical Statistical Tests) روش‌هایی هستند که بر اساس توزیع‌های نظری (مثل t-student، F، نرمال و…) فرمول‌بندی شده‌اند و برای صدها سال است که توسط آماردانان توسعه یافته‌اند. این آزمون‌ها به دو دسته اصلی تقسیم می‌شوند:

آزمون‌های پارامتری (Parametric): فرض می‌کنند داده از توزیع مشخصی (معمولاً نرمال) پیروی می‌کند. قدرت بالاتری دارند اما مفروضات سخت‌گیرانه‌تر. مثل: T-test، ANOVA، آزمون Z.

آزمون‌های ناپارامتری (Non-parametric): هیچ فرض توزیعی ندارند و بر اساس رتبه‌ها کار می‌کنند. قدرت کمتری دارند اما امن‌تر و مقاوم‌ترند. مثل: Mann-Whitney U test، Wilcoxon، Kruskal-Wallis.

انتخاب آزمون مناسب بستگی به نوع داده (پیوسته یا گسسته)، تعداد گروه‌ها (۲ یا بیشتر)، وابستگی یا استقلال نمونه‌ها، و مفروضات آماری دارد. در این بخش، مهم‌ترین و پرکاربردترین آزمون‌ها را یاد می‌گیرید.

بررسی آزمون T-Test

آزمون T-Test یکی از معروف‌ترین آزمون‌های آماری پارامتری است که برای مقایسه میانگین دو گروه استفاده می‌شود. سه نوع اصلی دارد:

T-test یک نمونه‌ای (One-sample): میانگین یک گروه را با یک مقدار ثابت مقایسه می‌کند. در پایتون: scipy.stats.ttest_1samp(sample, popmean).

T-test مستقل (Independent / Two-sample): میانگین دو گروه مستقل را مقایسه می‌کند (مثلاً آزمون A/B). در پایتون: scipy.stats.ttest_ind(group1, group2). پیشتر باید با levene یا bartlett برابری واریانس‌ها را بررسی کنید (و در صورت نابرابری از equal_var=False استفاده کنید – معروف به Welch’s t-test).

T-test زوجی (Paired): برای مقایسه دو اندازه‌گیری از یک نمونه در دو زمان مختلف (قبل و بعد). در پایتون: scipy.stats.ttest_rel(before, after).

مفروضات T-test: داده‌ها باید مستقل، تقریباً نرمال (مخصوصاً برای حجم نمونه کوچک) و در حالت independent، واریانس‌ها باید همگن باشند. خروجی آزمون شامل statistic (مقدار t) و pvalue است – اگر p-value کمتر از ۰.۰۵ باشد، تفاوت از نظر آماری معنی‌دار است. در این دوره، با مثال‌های واقعی مثل مقایسه نمرات دو کلاس یا نتایج قبل و بعد از یک آموزش، T-test را اجرا و تفسیر می‌کنیم.

بررسی آزمون U-Test (Mann-Whitney U)

آزمون U-Test (Mann-Whitney U test) یک آزمون ناپارامتری است که برای مقایسه دو گروه مستقل به کار می‌رود، بدون این که فرض کند داده‌ها نرمال هستند یا واریانس برابر دارند. این آزمون بررسی می‌کند که آیا یک گروه تمایل به مقادیر بزرگ‌تری نسبت به گروه دیگر دارد یا نه – یعنی توزیع دو گروه را از نظر ترتیب (order) مقایسه می‌کند. به جای میانگین، روی رتبه‌ها (ranks) کار می‌کند.

زمان استفاده از Mann-Whitney U:

داده‌ها به شدت نرمال نیستند (چولگی زیاد، داده پرت فراوان).
حجم نمونه کوچک است.
داده‌ها ترتیبی (ordinal) هستند، نه پیوسته.
مفروضات T-test نقض شده است.

در پایتون، دستور scipy.stats.mannwhitneyu(group1, group2, alternative=’two-sided’) این آزمون را اجرا می‌کند. خروجی شامل statistic (مقدار U) و pvalue است.

نکته مهم: این آزمون تفاوت در میانه (نه میانگین) را بررسی می‌کند. اگر دو توزیع اشکال یکسان داشته باشند، می‌توان آن را معادل مقایسه میانه‌ها در نظر گرفت. در این دوره، با مقایسه حقوق کارمندان دو بخش مختلف شرکت که توزیع نرمال ندارد، U-test را تمرین می‌کنید و یاد می‌گیرید چه زمانی به جای T-test از این روش استفاده کنید.

برای مشاهده برنامه کلاس های آموزش هوش مصنوعی، اینجا کلیک کنید.