Технології обробки величезних обсягів даних і предикативне аналітики, — іноді званої штучним інтелектом, — змінюють світ. Практично всі організації — від Google до супермаркетів та установ охорони здоров’я — за допомогою нових технологій кардинально змінили свою методику роботи, в той час, як традиційна охоронна індустрія все ще використовує старий підхід до питання про запобігання зломів і витоків даних.
В епоху, шкідливого програмного забезпечення (нехитрого за своєю суттю) і більш продуманих, цілеспрямованих хакерських загроз, таких як Stuxnet, захист ресурсів стала справжнім викликом. Один з таких прикладів — нещодавня атака на «Нью-Йорк Таймс». За 4 місяці китайським хакерам вдалося впровадити 45 різних елементів шкідливого ПЗ в медіа-систему компанії. І все це незважаючи на наявність засобів захисту, включаючи регулярно оновлювані антивіруси відомих виробників, які, за інформацією фірми Mandiant, змогли виявити лише один елемент вірусу.
Складно сказати, який недолік системи безпеки послужив причиною цього конкретного злому, але все-таки подія вказує на фундаментальні проблеми, пов’язані з традиційними системами охорони, що не готовими протистояти хакерам. Чим швидше погані хлопці будуть діяти, тим далі відстань, на яку вони зуміють відірватися від своїх переслідувачів. Пошуки загроз і спроби захистити вразливі системи можуть тривати досить довго. При наявності у хакерів часу для планування та реалізації нападу — в доважок до заминка, пов’язаних з розміщенням комплексів захисних заходів, — кіберзлочинці мають можливість піддати небезпеці більшу кількість систем. При більш несприятливих сценаріїв розвитку подій відрив застосовуються заходів безпеки від методик злочинців попросту буде непомітний.
Безпека — наука виявлення і запобігання атак, якийсь комплекс вакцинації від загроз, спрямованих на електронні системи. Це індустрія зашифрованих даних, і індустрія, що вимагає ретельної перевірки цих самих даних. До недавнього часу охоронні системи були обмежені по частині пошуку — для цього були доступні лише невеликі обсяги демаскирующих байтів інформації, ті зразки даних або сигнатури антивірусів, унікальні для специфічних атак. Якщо відповідні дані вдається знайти — поганих хлопців виявлять. Якщо ні — довести провину буде неможливо.
Системи охорони, побудовані таким чином — досить крихкі і ресурсомісткі. Вони — за приказкою — витрачають весь час на пошук байтів розміром з голку в байтах, розмірами з цілий стіг сіна, лише потім, щоб почати все процедуру пошуку загроз заново, коли який-небудь хакер, намагаючись уникнути затримання, дещо змінить ці дані.
Але великі дані і машинне навчання (системи, що розвиваються у міру збільшення даних) можуть зрівняти шанси. Машини потенційно можуть використовуватися для ідентифікації більш ускладнених сигналів і більшої кількості відносин в базах даних, ніж людина здатна аналізувати. До слова, можна згадати про цифрове профайлі, який створюють рекламодавці, збираючи і співвідносячи всілякі інформаційні джерела. Аналогічний підхід можливий і стосовно до питання про безпеку. Сотні, навіть тисячі джерел даних — системні журнали, коди, характер поведінки хакерів, переважні типи обираються мішеней, переважні методи, — всі ці відомості можуть бути дуже корисними.
Замість того, щоб створювати сигнатури для кожного елемента шкідливого ПО, більш доцільним є розробка баз даних всіх шкідливих кодів і всього іншого, що асоціюється з хакерами — аж до серверів, які вони використовують, і того, яким чином вони планують заробити за допомогою своєї злочинної діяльності.
Але навіщо ж зупинятися на досягнутому? Адже рух в заданому напрямку дозволить розкласти на частини шкідливе ПЗ, редукувати його до складових блоків і сформувавши бази даних всіх шкідливих кодів, які тільки існують на сьогоднішній день. Всі еволюціонує, і несподівано з’являється спосіб виявлення нових загроз задовго до того, як вони виявляться на комп’ютері жертви.
Пошуковий робот Google помічає кожну веб-сторінку, можливість обробки великого обсягу даних дозволяє компаніям, що спеціалізуються в сфері мережевої безпеки, діяти схожим чином у відношенні всього безліч погроз, заглядаючи під кожен камінь і шукаючи всілякі зв’язку з раніше мали місце погрозами або інцидентами. І надалі прикладати зусилля доведеться, в свою чергу, вже людями, які пишуть віруси. Тепер, щоб уникнути виявлення, потрібно не просто змінити ряд параметрів — необхідно не допускати повторного використання кодів або серверів. Всякий раз їм доведеться починати з нуля.
З’єднання великих даних і машинного навчання дозволить охоронної індустрії розробити засоби, що ідентифікують загрози ще перш, ніж вони завдадуть шкоди. Це ще один приклад ефективного застосування зазначеного підходу в галузі безпеки. І хоча така ідея не вирішує повністю проблему витончених атак і шкідливого ПЗ, вона, тим не менш, може стати поворотним пунктом.