Боротьба зі спамом і машинне навчання

Як явище небажана масова розсилка (спам) виникло ще до появи електронної пошти, але саме завдяки інтернету воно прийняло глобальні масштаби. Сучасні методи боротьби зі спамом в корені відрізняються від примітивних поштових фільтрів. У них використовуються технології машинного навчання і методи глибокого аналізу мільярдів листів, що дозволяють вивчати роботу поштових серверів як єдиний процес. Провідну роль в цьому відіграють нові підходи до обробки «великих даних», реалізовані у вигляді набору технологій, специфічних для кожного програмного продукту.

Причини і масштаби спаму

На відміну від паперової кореспонденції, плата за кожне повідомлення в мережі відсутня. Для спамера немає принципової різниці між тим, відправити сто листів або сто тисяч - була б актуальна база адрес електронної пошти. Її можна купити або зібрати роботом по веб-форумах, а далі розсилка не коштуватиме зовсім нічого. Багато листи не дійдуть до одержувача, а більшу частину з отриманих - проігнорують. Однак при разових витратах на БД, мінімальних ризиках і колосальних обсягах, прибуток приносить навіть те мале кількість людей, яке все ж відреагує на розсилку.

Як явище небажана масова розсилка (спам) виникло ще до появи електронної пошти, але саме завдяки інтернету воно прийняло глобальні масштаби

Спам існував завжди, але дійсно масовими розсилки стали тільки за рахунок інтернету.

Виходить, що спам вигідний тим, хто його розсилає і тим, кому тимчасове збільшення продажів важливіше репутації. Наприклад, якщо товар не можна ефективно реалізувати традиційним способом через його низьку якість або незаконного характеру обороту. Найбільше від спаму страждають навіть не рядові користувачі і приватні підприємці, а провайдери та великі організації.

Щодня в світі через поштові сервери проходить понад ста мільярдів листів. Понад дві третини з них складають небажані розсилки. подібну оцінку призводить Symantec і інші провідні компанії у сфері ІБ. На частку США припадає 13,4% всіх спам-розсилок в світі, а Росія займає «друге почесне місце» з результатом 6%.

Еволюція методів боротьби зі спамом

Спочатку боротися зі спамом намагалися за допомогою складання простих фільтрів - «чорних» і «білих» списків ключових слів. У перший потрапляли слова, що характеризують несумлінного відправника, тему масової розсилки або текст рекламного повідомлення. У другій - адреси друзів і знайомих, щоб їхні листи, бува, не потрапили в категорію «спам». Ефективність таких фільтрів була дуже низькою, оскільки спамери постійно міняли теми повідомлень, підставляли неправдиві адреси відправника, використовували заміну окремих букв або просто робили вкладення з картинкою замість тексту.

Ефективність таких фільтрів була дуже низькою, оскільки спамери постійно міняли теми повідомлень, підставляли неправдиві адреси відправника, використовували заміну окремих букв або просто робили вкладення з картинкою замість тексту

Простий відсів за ключовими словами був першою технологією фільтрації.

Тому на зміну грубим методам відсіву прийшли імовірнісні моделі. У них вже не стільки шукалися певні слова, скільки оцінювався шанс приналежності листи до небажаної розсилці відразу за багатьма ознаками. Перші роботи про фільтрації спаму з використанням імовірнісного класифікатора, заснованого на положеннях теорема баєса, з'явилися в дев'яностих роках минулого століття. Такі алгоритми допомагали точніше визначити ризик приналежності листи до небажаної кореспонденції, зіставляючи його текст і метадані з іншими повідомленнями.

Сучасні технології фільтрації спаму

Байєсова фільтрація спаму стала передвісником цілого ряду технологій обробки «великих даних», в яких підвищення якості імовірнісного аналізу досягається за рахунок використання накопичених статистичних даних та іншої взаємопов'язаної інформації. Спамери адаптують методики розсилки до нових способів її відсіву, тому в чистому вигляді жоден алгоритм фільтрації довго не працює. Замість цього провайдери та фірми, що спеціалізуються на захисті даних, розвивають методи машинного навчання.

Саме технології аналізу "великих даних" дозволили знизити частку спаму останнім часом.

Високу оцінку ролі технологій Big Data в розвитку сучасних методів боротьби зі спамом дали Віктор Майер-Шенбергер і Кеннет Кукьер - автори книги «Великі дані. Революція, яка змінить те, як ми живемо, працюємо і мислимо ».

По суті, великі дані призначені для прогнозування. Зазвичай їх описують як частина комп'ютерної науки під назвою «штучний інтелект» (точніше, її розділ «машинне навчання»). Така характеристика вводить в оману, оскільки мова йде не про спробу «навчити» комп'ютер «думати», як люди. Замість цього розглядається застосування математичних прийомів до великої кількості даних для прогнозу ймовірностей, наприклад, що електронний лист є спамом.

Ці системи працюють ефективно завдяки надходженню великої кількості даних, на основі яких вони можуть будувати свої прогнози. Більш того, системи спроектовані таким чином, щоб з часом поліпшуватися за рахунок відстеження найкорисніших сигналів і моделей у міру надходження нових даних. Спам-фільтри розробляються з урахуванням автоматичної адаптації до зміни типів небажаних електронних листів, адже програмне забезпечення не можна ефективно запрограмувати таким чином, щоб блокувати слово «віагра» або нескінченну кількість його варіантів.

Поточні методи інтелектуальної фільтрації використовують одночасно два різних підходи. У першому з них підвищення ефективності ймовірнісної оцінки листів досягається за рахунок додавання в бази даних великої вибірки попередньо відсортованих вручну повідомлень, що відносяться до спаму, і звичайної кореспонденції. У другому випадку ключову роль грає розширений статистичний аналіз з метою виявлення закономірностей в самих розсилках.

Обидва методи застосовуються в технологіях обробки «великих даних», але другий вважається більш перспективним. Він підвищує точність розпізнавання, знижує кількість ручних маніпуляцій і дозволяє швидше реагувати на нові методи нав'язливої ​​реклами.

Візуальне уявлення поштового трафіку у вигляді графа відображає характер листування людей і наочно показує масову розсилку.

У всіх сучасних рішеннях для боротьби зі спамом застосовується багаторівнева фільтрація, що складається, як мінімум, з цих двох етапів. Для оновлення списків використовується статистика, зібрана по всьому світу. Тому відсіювання листів по репутації на основі «чорних» і «білих» списків IP-адрес - один з найефективніших способів блокування розсилки небажаної кореспонденції. Він забезпечує швидку реакцію і низьке навантаження на систему антиспаму. Їй не доводиться приймати і обробляти кожен лист - багато відсіваються ще на етапі з'єднання.

Протистояння спамерів і систем фільтрації повідомлень відноситься до одвічної проблеми щита і меча: вони еволюціонують паралельно під впливом один одного. Однак з появою технологій швидкого виявлення розсилок по статистичному аналізу великих вибірок листів в цій боротьбі намітився переломний етап. Частка спаму в поштовому трафіку стала знижуватися і надалі падає в міру впровадження провайдерами рішень, заснованих на методах Big Data.

За минулий рік кількість спаму в діловій кореспонденції вперше знизилося на три відсотки, або на цілий мільярд рекламних листів в абсолютних значеннях. Попередні підсумки цього року підтверджують подальше очищення поштового трафіку. Чим більше операторів зв'язку та ІТ-відділів компаній будуть використовувати просунуті методи фільтрації спаму, тим важче буде його поширювати. Остаточна перемога відбудеться в той момент, коли розсилку реклами перестануть замовляти через що різко впала результативності.

Новости
Слова жизни
Фотогалерея