الگوریتم های یادگیری ماشین در داده کاوی

به طور کلی الگوریتم های یادگیری ماشین بر 3 دسته هستند؛ اما در برخی موارد می‌توان از ادغام دو یا چند الگوریتم نسبتاً ضعیف یا متوسط، الگوریتم یادگیری ترکیبی جدیدی ساخت که قدرت بسیار بالایی دارد.

الگوریتم های یادگیری تحت نظارت

در این الگوریتم‌ها از داده‌هایی استفاده می‌شود که برای یادگیری از طریق برچسب‌های تطبیقی متغیر‌های ورودی x‌ را به متغیر‌های خروجی y تبدیل می‌کند. مانند تابع ( Y = f (X

یادگیری تحت نظارت:

طبقه‌بندی
رگرسیون

طبقه‌بندی: طبقه‌بندی در حالتی رخ می‌دهد که متغیر خروجی حاصل از اعمال تابع در حالت دسته‌بندی برچسب‌ها قرار داشته باشد.

رگرسیون: رگرسیون زمانی رخ می‌دهد که متغیر خروجی، مقدار واقعی‌ را تخمین بزند.

نمونه‌هایی از الگوریتم های یادگیری تحت نظارت :

رگرسیون خطی
رگرسیون استدلالی
CART
نزدیک‌ترین همسایه K-Nearest Neighbor
Naïve-Bayes

الگوریتم های یادگیری بدون نظارت

مدل‌های یادگیری فاقد نظارت مدل‌هایی هستند که ما تنها مقدار متغیر‌های ورودی را داریم و متغیر خروجی در مدل ما وجود ندارد. داده‌های آموزشی مدل ما (Training Data) فاقد برچسب بوده و به مدل‌سازی ساختار زیربنایی داده‌ها می‌پردازد.

تجمیع

در این اصل، به امکان و احتمال رخ دادن دو پدیده در یک زمان واحد می‌پردازیم. به طور مثال کشف اینکه چه میزان درصد از مشتریان ممکن است در حین خرید سوسیس، نوشابه هم خریداری کنند؟

خوشه‌بندی

خوشه‌بندی به گروه‌ بندی نمونه‌هایی می‌پردازد که از لحاظ برخی خصایص به یکدیگر شباهت دارند و می‌توان با مد نظر قرار دادن این خصایص مشابه آن‌ها را تبدیل به خوشه‌ای کرد که از سایر نمونه‌ها متمایز کرد.

کاهش ابعاد

این اصل در مواردی مورد توجه قرار می‌گیرد که تعداد متغیر‌ها یک مجموعه زیاد بوده اما ما با کاستن ابعاد قادر هستیم تا ضمن انتقال تمامی اطلاعات مهم از هدر رفت منابع جلوگیری کنیم.

بیشتر بخوانید: نظریه ‌های رضایت شغلی

برخی الگوریتم های یادگیری بدون نظارت:

Apriori
K-means
PCA

الگوریتم های یادگیری تقویتی

زمانی که بتوان با تعیین کردن یک نماینده از میان ورودی‌ها، بهترین رفتار را با توجه به وضعیت فعلی نماینده از خود نشان داد.

6 الگوریتم برتر یادگیری ماشین برای مبتدیان

رگرسیون خطی

در این روش ما مجموعه‌ای داده (متغیر ورودی) داریم که خواهان آن هستیم تا رابطه میان متغیر‌های ورودی و خروجی را کشف کنیم و به مقدار کمّی تبدیل نماییم.

رگرسیون استدلالی

پیش‌بینی‌ها در رگرسیون خطی از جنس کمی و مقادیر پیوسته هستند در صورتی که در رگرسیون استدلالی، مقادیر پیش‌بینی شده مقادیری گسسته و کیفی دارند.

این الگوریتم برای روش‌هایی موثر است که در آن خواهان تعیین دو دسته هستیم. در مواردی که احتمال وقوع هر دو اتفاق به یک اندازه و برابر است. یعنی یک نمونه ورودی ما یا می‌تواند در دسته اول قرار بگیرد یا در دسته دوم.

به این تابع ( h(x)= 1/ (1 + ex تابع لجستیک می‌گویند. پس از قراردهی مقدار متغیر ورودی در این تابع می‌توانیم مقدار خروجی را با تبدیل لگاریتم x در این تابع (h(x)= 1/ (1 + e^ -x به یکی از دو دسته موجود مرتبط کنیم.

CART) Classification and Regression Trees)

گره‌های غیرپایانی درخت طبقه‌بندی و رگرسیون به گره‌های داخلی این درخت منصوب می‌شوند. گره‌های برگ این درخت نمایان‌گر خروجی‌ها هستند. برای پیش‌بینی توسط این درخت باید تمامی مسیر‌های موجود بین یک گره داخلی تا یک گره خارجی را بررسی کرد و با توجه به نیاز مسئله مسیر مناسب را برگزید. این درخت به نوعی شبیه یک فلوچارت عمل می‌کند.

بیز ساده یا Naïve Bayes

با توجه به وقوع رخداد‌های قبلی و دانش‌های موجود و عدم اشتراک بین دو رخداد پیش‌بینی‌های محتمل را می‌سنجیم و برآورد می‌کنیم.

P(h|d)= (P(d|h) P(h)) / P(d)

PCA) Principal Component Analysis)

این الگوریتم ابتدا یک خط و سیر کلی از ویژگی‌ها، حداکثر داده‌ها را نمایش می‌دهد. در مرحله دوم سایر مولفه‌هایی که در دسته اول قرار نگرفته‌اند و همبستگی با یک دیگر ندارند در یک دسته قرار می‌گیرند. در دسته بعدی اجزا باقی مانده که در مرحله دوم در دسته‌ای قرار نگرفته با همان شرایط قبلی ادامه به کار می‌دهند.

APRIORI

این الگوریتم برای یافتن الگو در داده‌های تکراری و استخراج آن الگو استفاده می‌شود. به واسطه این الگوریتم مشخص می‌کنیم که با رخ دادن اتفاق X، Y هم به طور همزمان رخ داده است.