Szkolenia w chmurze: jak zabezpieczyć sieć neuronową od hakerów


Fot. Getty Images

Nowe technologie dają wspaniałe możliwości, ale czasami są źle kompatybilne. Naukowcy z MIT znaleźli sposób, aby zniwelować wady procesu uczenia się нейросетей w chmurze

Niebezpieczeństwo kradzieży biometrycznych i danych medycznych stała się jedną z przyczyn spowolnienia rozwoju rynku usług w chmurze. Jak zapewniał dostawcy usług, że dane znajdują się w dobrych rękach, zagwarantować ich nietykalność nikt nie może. Naukowcy z Massachusetts institute of technology (MIT) wzięli się rozwiązać ten problem za pomocą technologii sztucznej inteligencji (AI). W proponowanej przez nich systemie GAZELLE zapewnienie bezpieczeństwa danych nie wpływa na szybkość ich przetwarzania.

Ostatnia granica

Rynek publicznych usług w chmurze osiągnie w 2017 roku $154 mld i przekrocza 186 mld usd w 2018 roku, według szacunków firmy Gartner. Ale mógłby rosnąć szybciej, gdyby nie problemy z kierunkiem SaaS (oprogramowanie jako usługa). Istniejące usługi w chmurze pozwalają użytkownikowi samodzielnie zadbać o szyfrowaniu danych, a nawet ubezpieczyć ryzyko w modelu IaaS (infrastruktura jako usługa). Ale takie podejście wymaga zaawansowanej IT wiedza specjalistyczna. Inna opcja — korzystać z usług w chmurze w formie SaaS, kiedy wystarczy tylko przenieść swoje dane do systemu i czekać na wynik. W tym ostatnim przypadku przetwarzania informacji i jej bezpieczeństwo musi zadbać użytkownik. Ale z powodu обострившихся problemów z cyberprzestępczością klienci stali ostrożnie odnosić się do tego modelu, co znacznie spowolniło wzrost całego segmentu SaaS na rynku usług w chmurze.

To pytanie jest szczególnie istotne dla firm, korzystających z technologii AI. Do jego szybkiego uczenia się wymagają dużych komputerowe mocy, aby nie wydawać pieniędzy na własny sprzęt, i wiele firm wolą przenieść obliczenia w chmurze. Na przykład, z tego korzystają medyczne firmy, prowadzący diagnostykę chorób za pomocą AI. Według szacunków firmy Accenture, rynek sztucznej inteligencji w dziedzinie medycyny czeka na wzrost więcej niż 10 razy w ciągu najbliższych trzech lat, w wyniku czego osiągnie $6,6 mld

Sieci neuronowe сверточного typu skutecznie rozpoznają obrazy, więc starają się zastosować do pomocy lekarza w poszukiwaniu oznak choroby na rezonansu magnetycznego (MRI), рентгенограммах itp. Nagromadzenie dużej ilości skanów pozwolił sprawnie nauczyć sieć neuronową, ale jest utrudnione przez prawa dotyczące ochrony danych medycznych. Do tego ataki cybernetyczne coraz częściej skierowane są do uzyskania lub zmiany informacji o pacjentach: w kwietniu 2018 roku wirus WannaCry zaatakował Narodową służbę zdrowia w wielkiej Brytanii (NHS). Dlatego infrastruktura do przetwarzania danych pacjentów wymaga przestrzegania rygorystycznych norm bezpieczeństwa.

Szybka, jak gazela

Większość znanych obecnie metod ochrony informacji znacznie spowalnia pracę sieci neuronowych, w niektórych przypadkach milion razy, ze względu na konieczność stale kodować i dekodować dane. W takich warunkach w chmurze przetwarzanie danych traci swój główny atut — szybkość.

W badaniu MIT, przedstawionym na konferencji bezpieczeństwa usenix association w sierpniu 2018 roku, został przedstawiony system o nazwie GAZELLE, która łączy w sobie dwie typowe technologie: гомоморфное szyfrowanie i protokół zmienionego układu. Ich połączenie pozwalało szkolić sieć neuronową w 20-30 razy szybciej, niż najnowsze modele, a przy tym zmniejsza wymaganą przepustowość sieci na zamówienie.

Mechanizm działania GAZELLE schematycznie można opisać w następujący sposób: zaszyfrowany obraz jest wysyłany na serwer, który produkuje rozpoznawanie za pomocą systemu GAZELLE, wtedy obie strony wymieniają zaszyfrowanej informacji do klasyfikacji obrazu użytkownika. Obraz i dane użytkownika są wysyłane osobno, i system czuwa, aby serwer nie dowiedziałem się nic o pobranych danych, w czasie, gdy użytkownik nie wiedział nic o ustawieniach sieciowych.

Przyjazne technologie

Гомоморфное szyfrowanie pozwala przetwarzać zaszyfrowane informacje i generować zaszyfrowany wynik. Czyli potencjalny haker, перехватив informacje, i tak będzie zmuszony ją rozszyfrować, ale przy tym serwer jest w stanie przeprowadzić operacje, niezbędne do uczenia SI. Użytkownik otrzyma wynik, który łatwo rozszyfruje, tak jak ma odpowiednie klucze. Wydawałoby się — to idealny sposób, aby bezpiecznie trenować нейросети na komputerach zdalnych. Niestety, ten rodzaj szyfrowania gromadzi błędy na każdym kroku obliczeń. Filtrowanie szumów wymaga więcej przetwarzania komputerowego, i w rezultacie szybkość operacji zwalnia. Typowy problem przy szyfrowaniu danych.

Protokół wypaczonego konturu pozwala dwóm uczestnikom systemu przeprowadzić obliczenie, które wymaga od nich podać dane (na przykład, porównać prezentowane przez nich wartości), nie dając uczestnikom informacje na temat danych wejściowych siebie, a także nie zwracając stronę trzecią (arbitra). Ta metoda działa dobrze, gdy ilość obliczeń jest niewielka, ale wymaga zbyt dużej mocy, jeśli trzeba wykonywać wiele operacji. Niestety, szkolenie нейросети — właśnie druga opcja.

Know-how naukowców z Massachusetts institute of technology jest zebranie i przemian tych metod w taki sposób, aby obejść ich nieskuteczność. Praca сверточной sieci neuronowych do rozpoznawania obrazów odbywa się za pomocą гомоморфного szyfrowania, a wymiana danych i obliczenia po stronie użytkownika — za pomocą protokołów zniekształconych krawędzi.

Faktycznie operacji podzielone tak, aby każdy z algorytmów mógł pokazać swoją silną stronę. Rozłożenie obciążenia, system ogranicza гомоморфное szyfrowanie na wykonanie skomplikowanej matematyki na jeden poziom za razem, nie pozwalając gromadzić błędy i zwiększając wydajność systemu.

Trzecim elementem systemu GAZELLE jest moduł GAZELLE Network Inference do wyświetlania wyników przetwarzania neural network. Gdy użytkownik wysyła zaszyfrowane dane w chmurze są rozdzielone między obiema stronami. Do każdej dol dodaje tajny klucz (liczby losowe), który zna tylko posiadająca strona. We wszystkich obliczeniach każda strona zawsze będzie mieć pewną część danych, a także liczby losowe. Po zakończeniu obliczeń obie strony synchronizują swoje dane, i tylko wtedy, gdy użytkownik pobiera z usługi chmura swój tajny klucz i otrzymuje wynik, odejmuje tajny klucz z wszystkich danych, uzyskanych po obróbce. Jeśli haker interweniuje na każdym etapie, z wyjątkiem końcowego, to dostanie tylko zakodowane dane.

Komu to potrzebne

Bez względu na eksperymentalny charakter systemu GAZELLE, być może już w najbliższym czasie zostanie ona zastosowana do ochrony algorytmu uczenia maszynowego, распознающего obecność retinopatii cukrzycowej na zdjęciu oczy. Ten medyczny podejście został zatwierdzony przez amerykańską FDA (odpowiednik Ministerstwa zdrowia w USA) w kwietniu 2018 roku.

Wartość systemu, opracowanego przez naukowców z MIT, w tym, co otwiera drogę do chmury analityczny systemów pracujących z wrażliwymi danymi, na przykład podczas rozpoznawania osób i w sferze finansów. Jeśli GAZELLE pomyślnie przejdzie testy, to jej wpływ na rozprzestrzenianie się technologii rozpoznawania obrazu może być porównywalna z pojawieniem się bezpiecznych protokołów SSL/TLS, które obecnie zapewniają bezpieczne przesyłanie danych przez internet.

redakcja poleca
Okłamuj mnie: jak hakerzy obchodzą biometryczne systemy zabezpieczeń


Posted

in

by

Tags: