نظارت ضعیف

نظارت ضعیف (به انگلیسی: Weak Supervision) شاخه‌ای از یادگیری ماشین است که در آن منابع نویز دار، محدود یا با دقت پایین برای ایجاد سیگنال‌های نظارتی مربوط به برچسب زدن روی حجم انبوهی از دادهٔ آموزش درون یک محیط یادگیری نظارت‌شده اعمال می‌شود.^[۱] این روش هزینه‌های احتمالی‌ای که لیبل زدن به صورت دستی ایجاد می‌کند مانند زمان‌بر بودن را از بین می‌برد. به جای این روش برچسب‌های ضعیف و درک آن که آن‌ها ناقصند اما می‌توانند یک مدل قوی بسازند به‌کارگرفته می‌شوند.^[۲]

به خصوص در پردازش زبان‌های طبیعی که در آن ما الگوهای بسیاری خاص برای داده‌ها داریم که باعث می‌شود یک مدل از پیش آموزش دیده با الگوهای خاص به خوبی عمل نکند، در این مورد نظارت ضعیف به بهبود عملکرد مدل در مورد الگوها کمک می‌کند.^[۳]^[۴]

سطوح نشانه گذاری داده‌ها

در کل سطوح نشانه گذاری داده‌ها را می‌توان به ۳ گروه تقسیم کرد:

داده‌های نشانه‌گذاری شده با کیفیت بالا

در این بخش داده‌ها با کیفیت خوبی نشانه‌گذاری شده‌اند و این نشانه‌گذاری‌ها قابل اعتماد هستند.

با توجه به اندازهٔ مجموعه داده‌ها در این گروه می‌توان از رویکردهای مختلف استفاده کرد؛ مثلاً اگر اندازهٔ مجموعه داده بزرگ باشد می‌توان از رویکرد یادگیری بانظارت و اگر اندازه مجموعه داده کوچک باشد می‌توان از رویکرد یادگیری انتقالی یا یادگیری نیمه نظارتی استفاده کرد.

داده‌های نشانه‌گذاری شده با کیفیت پایین

در این بخش با تکنیک‌های مختلف مثل روش‌های برچسب‌گذاری ضعیف، روش‌های اکتشافی الگو یابی، برچسب‌گذاری خوشه ای و استفاده از مدل‌های از قبل آموزش دیده به عنوان یک پیش‌بینی کننده نویز دار، کیفیت نشانه‌گذاری را بالا می‌بریم و سپس از روش‌های ذکر شده استفاده می‌کنیم.

داده‌های بدون نشانه‌گذاری

در این بخش می‌توان از روش‌های خوشه‌بندی استفاده کرد.

مسئلهٔ دادهٔ آموزش برچسبدار

مدل‌های یادگیری ماشین و تکنیک‌های آن به صورت روبه‌افزایشی قابل‌دسترسی توسط محققان و توسعه‌دهندگان است.^[۵] کاربرد این مدل‌ها در دنیای واقعی اما، بستگی به دسترسی به دادهٔ آموزش با کیفیت بالا دارد. این نیاز به دادهٔ آموزش برچسبدار یک مانع بزرگی برای کار کردن مدل‌های یادگیری ماشین در دنیای واقعی مانند داخل یک سازمان یا صنعت است. این گلوگاه در راه‌های مختلفی خود را بروز می‌دهد. به‌طور مثال:

تعداد ناکافی دادهٔ برچسب‌دار

هنگامی که تکنیک‌های یادگیری ماشین در کاربردی جدید شروع به کار می‌کنند، معمولاً دادهٔ آموزش به اندازهٔ کافی برای اعمال فرایندهای مرسوم نیست.^[۵] هرچند بعضی صنایع این مزیت را دارند که مقدار کافی دادهٔ آموزش آماده دارند. جمع‌آوری دادهٔ آموزش نیاز به گذشت زمان بسیار زیاد و هزینهٔ بالا شود؛ بنابراین آنهایی که چنین نیستند ممکن است با مشکل جدی روبه‌رو شوند.

کمبود متخصص‌های موضوع برای برچسب زدن داده

هنگامی که train کردن داده نیازمند تخصصی دقیق و مرتبط با ویژگی‌های داده‌ها است.^[۵] به‌طور مثال حوزه‌های زیست‌پزشکی یا مسائل امنیتی.

زمان ناکافی برای برچسب زدن و آماده‌کردن

بیشتر زمان پیاده‌سازی یادگیری ماشین روی آماده کردن مجموعه داده صرف می‌شود. هنگامی که یک بخش صنعتی یا یک مطالعهٔ میدانی با مشکلاتی روبه‌رو می‌شود که به‌طور ذاتی مدام در حال دگرگونی‌اند، ممکن است جمع‌آوری و آماده‌کردن سریع دادهٔ کافی امکان‌پذیر نباشد.^[۵] به‌طور مثال این موضوع در مسائل مرتبط با امنیت سایبری واضح‌تر دیده می‌شود.

انواع برچسب ضعیف

برچسب‌های ضعیف برای کاهش هزینه و افزایش کارایی تلاش‌های انسانی‌ای که روی فرایند دستی برچسب زدن داده صرف می‌شود که در سه گروه کلی قرار می‌گیرند:

آمار سراسری روی گروه‌های ورودی: این محیط شامل دسترسی به اطلاعات سراسری روی کیسه‌های نمونه‌ها می‌شود مانند دانستن اطلاعات آماری مثل میانگین از نصف برچسب‌های یک زیرمجموعه داده.
دسته‌بند ضعیف: این روش شامل این فرض است که به تعداد زیادی دسته‌بند ضعیف دسترسی داریم که به‌طور ضعیف با تابع یادگیری اصلی مرتبط هستند. این دسته‌بندها ممکن است برچسب‌زننده‌هارا از یک سکوی جمع‌سپاری (کمک گرفتن از عموم مردم برای مشارکت در یک کار یا پژوهش) یا متخصصان مدل کنند. به‌طور کلی توسعه‌دهندگان ممکن است از منابع موجود (مانند پایه‌های علمی یا مجموعه داده‌های جایگزین یا مدل‌های از قبل آموزش دیده) برای ساختن برچسب‌های مفید استفاده کنند با آنکه ممکن است به‌طور کامل مناسب کار مورد انتظار نباشند.
یادداشت‌های ناقص: نظارت ضعیف ممکن است به عنوان دسترسی به اطلاعات جزئی از هر برچسب تفسیر شود. این اطلاعات جزئی را می‌توان به عنوان یک فرایند فساد درنظر گرفت. در برخی موارد مشاهدات جزئی را می‌توان تبدیل به مجموعه‌ای بالقوه از برچسب‌ها کرد که با این مشاهده همخوانی دارند. این نظارت جزئی یک تعمیم روی یادگیری نیمه نظارتی است که روشی کلاسیک برای حل گلوگاه یادداشت‌گذاری داده‌است.

خارج از این سه محیط محدودیت‌هایی که یادگیری نظارتی ضعیف ممکن است پیش رو داشته باشد با اطلاعات انسانی به عنوان priorها اقدام به رفع آن‌ها می‌کنند.

یادگیری نیمه‌نظارت‌شده

یادگیری نیمه‌نظارت‌شده نوع خاصی از نظارت ضعیف است که بخشی کوچکی از دادهٔ برچسبدار را با مقدار زیادی دادهٔ بدون برچسب هنگام آموزش ترکیب می‌کند. این روش میان یادگیری بدون نظارت (با داده‌های کاملاً بدون برچسب) و یادگیری نظارت‌شده (داده‌های کاملاً برچسبدار) قرار می‌گیرد.

داده‌های بدون برچسب هنگامی که در ترکیب با حجم کمی دادهٔ برچسبدار قرار می‌گیرد می‌تواند بهبود قابل‌توجهی در دقت یادگیری به همراه داشته‌باشد. در اختیار داشتن دادهٔ برچسبدار برای یک مسئلهٔ یادگیری عموماً نیاز به یک عامل انسانی بامهارت یا یک تجربهٔ فیزیکی دارد. هزینهٔ همراه فرایند برچسب زدن کل داده همراه پرهزینه و در عمل دور از دسترس است. از طرفی در اختیار گرفتن دادهٔ بدون برچسب هزینه‌ای ندارد؛ بنابراین یادگیری نیمه‌نظارتی یک موضوع مورد توجه در یادگیری ماشین است و به عنوان مدلی از یادگیری انسانی نیز مورد توجه است.

مجموعه‌ای از $l$ متغیرهای تصادفی مستقل با توزیع یکسان با برچسب‌های متناظر $x_{1},\dots ,x_{l}\in X$ و $y_{1},\dots ,y_{l}\in Y$ نمونهٔ بدون برچسب را درنظر بگیرید. یادگیری نیمه نظارتی این دو بخش را ادغام کرده که این روش کارایی بهتری از به کارگیری جداگانهٔ زیرمجموعه‌های برچسبدار یا بدون برچسب به صورت جدا دارد.

روش‌های به دست آوردن داده‌های برچسب‌گذاری شدهٔ بیشتر^[۳]

روش‌های سنتی

در این روش از کارشناسان خبره می‌خواهیم که داده‌های بیشتری را برچسب‌گذاری کنند

یادگیری فعال

هدف اصلی رویکرد یادگیری فعال، ارائه نقاط داده‌ای است که برای مدل بسیار ارزشمند هستند یا می‌توان گفت که نقاط داده جدیدی را انتخاب می‌کنیم که برای برچسب گذاری لازم است. به عنوان مثال، ما در تجزیه و تحلیل احساسات، احساسات عصبانی داریم که نزدیک به مرزهای تصمیم مدل است و در این مورد، از مجمعه خبرگان می‌خواهیم که فقط جملات شامل احساسات را برچسب‌گذاری کنند. یا فقط می‌توانیم برای این نقاط داده به سمت نظارت ضعیف‌تر برویم تا یادگیری فعال بتواند با نظارت ضعیف تکمیل شود.

یادگیری نیمه‌نظارت شده

هدف اصلی در پشت این رویکرد استفاده از مجموعه داده‌های برچسب‌گذاری‌شده کوچک با مجموعه داده‌های بدون برچسب بزرگ در سطح بالا با فرض معیارهای همواری و فاصله کم داده‌های بدون برچسب است.

یادگیری انتقالی

یادگیری انتقالی رویکردی است که در آن از یک مدل از پیش آموزش دیده برای یادگیری از داده‌های موجود استفاده می‌شود. با استفاده از دانش به‌دست‌آمده از آموزش در مجموعه‌های داده مختلف، اگر شباهت‌هایی بین مجموعه داده‌های آموزش‌دیده قبلی و مجموعه داده هدف وجود داشته باشد، مدل از پیش آموزش‌دیده شده را می‌توان در یک مجموعه داده جدید اعمال کرد. این فرایند امکان استفاده کارآمد از دانش قبلی را فراهم می‌کند و تطبیق مدل‌ها با مجموعه داده‌های جدید را تسهیل می‌کند.

انواع ورودی‌ها در نظارت ضعیف^[۶]

اکتشافی مبتنی بر الگو

در این ورودی کارشناسان خبره الگوها را شناسایی و به عنوان ورودی کمکی قرار می‌دهند

نظارت از راه دور

نظارت از راه دور تکنیکی است که از نقاط داده‌ای استفاده می‌کند که با یک پایگاه دانش خارجی همسو می‌شوند تا برچسب‌ها را تولید کنند. نظارت از راه دور به جای تکیه صرف بر برچسب‌گذاری دستی، از روش‌های اکتشافی برای تخصیص خودکار برچسب‌ها بر اساس همسویی داده‌ها با دانش خارجی استفاده می‌کند.

طبقه‌بندی‌کننده‌های ضعیف

طبقه‌بندی‌کننده‌های ضعیف با استفاده از طبقه‌بندی‌کننده‌هایی که ممکن است برای کار خاص مناسب نباشند، در نظارت ضعیف نقش دارند. در عوض، این طبقه‌بندی‌کننده‌ها به مجموعه داده‌های متفاوتی اعمال می‌شوند و مجموعه‌های داده‌ای را ایجاد می‌کنند که نویز دار و مغرضانه هستند. سپس این مجموعه داده‌ها به عنوان مجموعه آموزشی برای فرایند یادگیری استفاده می‌شود. در حالی که طبقه‌بندی‌کننده‌ها ممکن است به‌صورت جداگانه دقت مطلوبی را ارائه ندهند، مشارکت جمعی آنها به مدل‌های آموزشی برای مدیریت سناریوهای مختلف و بهبود عملکرد کلی کمک می‌کند. با ترکیب طبقه‌بندی‌کننده‌های ضعیف، نظارت ضعیف از منابع مختلف داده برای بهبود فرایند یادگیری استفاده می‌کند.

مولدهای تابع برچسب‌گذاری

مولدهای تابع برچسب‌گذاری ابزارهایی در سیستم‌های نظارت ضعیف مانند Snorkel هستند که امکان ایجاد چندین عملکرد را با استفاده از کد فراهم می‌کنند. این توابع با تخصیص خودکار برچسب‌ها به داده‌ها، نقش مهمی در فرایند نظارت ضعیف بازی می‌کنند. با استفاده از کد قابل برنامه‌ریزی، مولدهای تابع برچسب‌گذاری مقیاس‌پذیری و مدیریت‌پذیری را ارائه می‌دهند و امکان مدیریت کارآمد مجموعه‌های داده بزرگ را فراهم می‌کنند. این ابزارها کاربران را قادر می‌سازد تا عملکردهای برچسب گذاری را بر اساس الزامات خاص تعریف و سفارشی کنند و به انعطاف‌پذیری و اثربخشی رویکردهای نظارت ضعیف کمک می‌کنند.

جستارهای وابسته

منابع

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

Search

نظارت ضعیف

فهرست

سطوح نشانه گذاری داده‌ها

داده‌های نشانه‌گذاری شده با کیفیت بالا

داده‌های نشانه‌گذاری شده با کیفیت پایین

داده‌های بدون نشانه‌گذاری

مسئلهٔ دادهٔ آموزش برچسبدار

تعداد ناکافی دادهٔ برچسب‌دار

کمبود متخصص‌های موضوع برای برچسب زدن داده

زمان ناکافی برای برچسب زدن و آماده‌کردن

انواع برچسب ضعیف

یادگیری نیمه‌نظارت‌شده

روش‌های به دست آوردن داده‌های برچسب‌گذاری شدهٔ بیشتر^[۳]

روش‌های سنتی

یادگیری فعال

یادگیری نیمه‌نظارت شده

یادگیری انتقالی

انواع ورودی‌ها در نظارت ضعیف^[۶]

اکتشافی مبتنی بر الگو

نظارت از راه دور

طبقه‌بندی‌کننده‌های ضعیف

مولدهای تابع برچسب‌گذاری

جستارهای وابسته

منابع

نظارت ضعیف

سطوح نشانه گذاری داده‌ها

داده‌های نشانه‌گذاری شده با کیفیت بالا

داده‌های نشانه‌گذاری شده با کیفیت پایین

داده‌های بدون نشانه‌گذاری

مسئلهٔ دادهٔ آموزش برچسبدار

تعداد ناکافی دادهٔ برچسب‌دار

کمبود متخصص‌های موضوع برای برچسب زدن داده

زمان ناکافی برای برچسب زدن و آماده‌کردن

انواع برچسب ضعیف

یادگیری نیمه‌نظارت‌شده

روش‌های به دست آوردن داده‌های برچسب‌گذاری شدهٔ بیشتر[۳]

روش‌های سنتی

یادگیری فعال

یادگیری نیمه‌نظارت شده

یادگیری انتقالی

انواع ورودی‌ها در نظارت ضعیف[۶]

اکتشافی مبتنی بر الگو

نظارت از راه دور

طبقه‌بندی‌کننده‌های ضعیف

مولدهای تابع برچسب‌گذاری

جستارهای وابسته

منابع

روش‌های به دست آوردن داده‌های برچسب‌گذاری شدهٔ بیشتر^[۳]

انواع ورودی‌ها در نظارت ضعیف^[۶]