تحلیل اکتشافی داده (EDA) – آمار تفسیری
معرفی آمار تفسیری
آمار تفسیری (Inferential Statistics) یا آمار استنباطی، شاخهای از علم آمار است که با استفاده از دادههای یک نمونه (نمونه)، نتیجهگیری و استنتاج درباره کل جامعه (population) انجام میدهد. در حالی که آمار توصیفی به خلاصهسازی و نمایش داده میپردازد، آمار تفسیری به ما اجازه میدهد فرضیهها را تست کنیم، روابط بین متغیرها را تعمیم دهیم و پیشبینی انجام دهیم. اجزای اصلی آمار تفسیری شامل:
- تخمین پارامترها (با استفاده از فاصله اطمینان)
- آزمون فرضیه (تأیید یا رد ادعاهای آماری)
- مدلسازی پیشبینی
در علم داده، شما همیشه به همه دادهها دسترسی ندارید (مثلاً نظرات همه مردم ایران درباره یک محصول) – باید با یک نمونه کار کنید و نتایج را به کل جامعه تعمیم دهید. در این بخش از دوره، اصول پایهای آمار تفسیری را یاد میگیرید تا بتوانید از دادههای محدود، نتیجهگیریهای معتبر و قابل اتکا انجام دهید.
معرفی آزمونهای شبیهسازی آماری
آزمونهای شبیهسازی آماری دستهای از روشهای مدرن هستند که به جای تکیه بر فرمولهای ریاضی نظری، با استفاده از محاسبات سنگین و تکرار، توزیع نمونهگیری یک آماره را شبیهسازی میکنند. مهمترین این روشها عبارتند از:
Bootstrap: روشی برای تخمین توزیع نمونهگیری هر آماره (میانگین، میانه، واریانس، …) با نمونهگیری مجدد با جایگذاری از دادههای اصلی. با این کار میتوانید فاصله اطمینان و خطای استاندارد را بدون مفروضات نرمال بودن محاسبه کنید.
Permutation Test (آزمون جایگشتی): روشی برای آزمون فرضیهها که با تصادفیسازی مکرر برچسبها، توزیع نول را میسازد. به خصوص زمانی که مفروضات آزمونهای کلاسیک (مثل نرمال بودن) برقرار نیست، فوقالعاده قدرتمند است.
شبیهسازی مونت کارلو: تولید داده مصنوعی با پارامترهای مشخص برای ارزیابی عملکرد روشهای آماری.
در پایتون، کتابخانههایی مثل sklearn.utils.resample برای bootstrap و scipy.stats.permutation_test برای آزمون جایگشتی وجود دارد. این روشها در عصر محاسباتی امروز، به دلیل انعطافپذیری بالا، بسیار محبوب شدهاند.
A/B testing
A/B testing (آزمون A/B) یکی از کاربردیترین روشهای آمار تفسیری در صنعت و کسبوکار است. در این روش، شما دو نسخه از یک محصول، وبسایت، ایمیل یا هر چیز دیگری را به صورت تصادفی به دو گروه از کاربران نمایش میدهید – نسخه A (کنترل) و نسخه B (تغییر یافته) – و سپس تفاوت در یک متریک کلیدی (مثل نرخ کلیک، خرید، ثبتنام) را ارزیابی میکنید.
مراحل اصلی A/B testing:
- تعریف فرضیه صفر (هیچ تفاوتی بین دو نسخه نیست)
- تعیین اندازه نمونه مورد نیاز
- اختصاص تصادفی کاربران به دو گروه
- جمعآوری داده
- اجرای آزمون آماری (معمولاً t-test یا chi-square)
- نتیجهگیری
A/B testing به شما اجازه میدهد تصمیمات مبتنی بر داده و نه حدس و گمان بگیرید. در این دوره یاد میگیرید چگونه یک آزمون A/B را طراحی، اجرا و تحلیل کنید – از تعیین حجم نمونه تا تفسیر p-value و محاسبه uplift (افزایش نسبی). ابزارهای پایتون مثل scipy.stats.ttest_ind برای تحلیل نهایی استفاده میشوند.
معرفی آزمونهای از پیش تعریف شده آماری
آزمونهای از پیش تعریف شده آماری (Classical Statistical Tests) روشهایی هستند که بر اساس توزیعهای نظری (مثل t-student، F، نرمال و…) فرمولبندی شدهاند و برای صدها سال است که توسط آماردانان توسعه یافتهاند. این آزمونها به دو دسته اصلی تقسیم میشوند:
آزمونهای پارامتری (Parametric): فرض میکنند داده از توزیع مشخصی (معمولاً نرمال) پیروی میکند. قدرت بالاتری دارند اما مفروضات سختگیرانهتر. مثل: T-test، ANOVA، آزمون Z.
آزمونهای ناپارامتری (Non-parametric): هیچ فرض توزیعی ندارند و بر اساس رتبهها کار میکنند. قدرت کمتری دارند اما امنتر و مقاومترند. مثل: Mann-Whitney U test، Wilcoxon، Kruskal-Wallis.
انتخاب آزمون مناسب بستگی به نوع داده (پیوسته یا گسسته)، تعداد گروهها (۲ یا بیشتر)، وابستگی یا استقلال نمونهها، و مفروضات آماری دارد. در این بخش، مهمترین و پرکاربردترین آزمونها را یاد میگیرید.
بررسی آزمون T-Test
آزمون T-Test یکی از معروفترین آزمونهای آماری پارامتری است که برای مقایسه میانگین دو گروه استفاده میشود. سه نوع اصلی دارد:
T-test یک نمونهای (One-sample): میانگین یک گروه را با یک مقدار ثابت مقایسه میکند. در پایتون: scipy.stats.ttest_1samp(sample, popmean).
T-test مستقل (Independent / Two-sample): میانگین دو گروه مستقل را مقایسه میکند (مثلاً آزمون A/B). در پایتون: scipy.stats.ttest_ind(group1, group2). پیشتر باید با levene یا bartlett برابری واریانسها را بررسی کنید (و در صورت نابرابری از equal_var=False استفاده کنید – معروف به Welch’s t-test).
T-test زوجی (Paired): برای مقایسه دو اندازهگیری از یک نمونه در دو زمان مختلف (قبل و بعد). در پایتون: scipy.stats.ttest_rel(before, after).
مفروضات T-test: دادهها باید مستقل، تقریباً نرمال (مخصوصاً برای حجم نمونه کوچک) و در حالت independent، واریانسها باید همگن باشند. خروجی آزمون شامل statistic (مقدار t) و pvalue است – اگر p-value کمتر از ۰.۰۵ باشد، تفاوت از نظر آماری معنیدار است. در این دوره، با مثالهای واقعی مثل مقایسه نمرات دو کلاس یا نتایج قبل و بعد از یک آموزش، T-test را اجرا و تفسیر میکنیم.
بررسی آزمون U-Test (Mann-Whitney U)
آزمون U-Test (Mann-Whitney U test) یک آزمون ناپارامتری است که برای مقایسه دو گروه مستقل به کار میرود، بدون این که فرض کند دادهها نرمال هستند یا واریانس برابر دارند. این آزمون بررسی میکند که آیا یک گروه تمایل به مقادیر بزرگتری نسبت به گروه دیگر دارد یا نه – یعنی توزیع دو گروه را از نظر ترتیب (order) مقایسه میکند. به جای میانگین، روی رتبهها (ranks) کار میکند.
زمان استفاده از Mann-Whitney U:
- دادهها به شدت نرمال نیستند (چولگی زیاد، داده پرت فراوان).
- حجم نمونه کوچک است.
- دادهها ترتیبی (ordinal) هستند، نه پیوسته.
- مفروضات T-test نقض شده است.
در پایتون، دستور scipy.stats.mannwhitneyu(group1, group2, alternative=’two-sided’) این آزمون را اجرا میکند. خروجی شامل statistic (مقدار U) و pvalue است.
نکته مهم: این آزمون تفاوت در میانه (نه میانگین) را بررسی میکند. اگر دو توزیع اشکال یکسان داشته باشند، میتوان آن را معادل مقایسه میانهها در نظر گرفت. در این دوره، با مقایسه حقوق کارمندان دو بخش مختلف شرکت که توزیع نرمال ندارد، U-test را تمرین میکنید و یاد میگیرید چه زمانی به جای T-test از این روش استفاده کنید.
برای مشاهده برنامه کلاس های آموزش هوش مصنوعی، اینجا کلیک کنید.
دیدگاه خود را بنویسید