التعلم الآلي السري. مكتبة PySyft

هبر ، مرحباً!


تتناول هذه المقالة التعلم الآلي المحفوظ على الخصوصية. سنناقش سبب وكيفية ضمان خصوصية المستخدمين عند التدريب ، على سبيل المثال ، الشبكات العصبية.


معظم المقال عبارة عن إعادة سرد لخطابات ومحاضرات أندرو تراسك. إنه قائد مجتمع OpenMined . هؤلاء هم الأشخاص الذين يوحدهم موضوع الخصوصية في التعلم الآلي. على وجه الخصوص ، يعمل OpenMined على مكتبة PySyft . هذا غلاف فوق PyTorch أو Tensorflow أو Keras للتعلم الآلي الخاص. سنتعرف على PySyft خلال هذه المقالة.


التحفيز


دعونا نرغب في عمل مصنف للأورام البشرية. إذا استطعنا إنشاء مثل هذا المصنف ، فسوف نساعد الملايين من الناس. ثم ، خطوتنا الأولى هي العثور على مجموعة بيانات مناسبة. لاحظ أن هذه البيانات خاصة ، ومن الصعب الوصول إليها. معظم الناس لا يريدون التحدث علانية عن أمراضهم.


سأوضح سبب عدم كفاية إخفاء البيانات. في عام 2007 ، نشرت Netflix 10 ملايين تقييم للأفلام من 500000 مستخدم. كانت مجموعة البيانات هذه جزءًا من مسابقة لإنشاء أفضل نظام توصيات. في ذلك ، تم استبدال أسماء الأشخاص وأسماء الأفلام بمعرفات. ومع ذلك ، تمكن الباحثون من تحديد الأفراد باستخدام البيانات المفتوحة مع IMDb. مزيد من التفاصيل في المقالة الأصلية .


ثم ، تحتاج إلى شيء أكثر من إخفاء الهوية. علاوة على ذلك ، أقنع أنه من الممكن تدريب الشبكات العصبية على البيانات التي لا يمكننا الوصول إليها. ثم سيتم ضمان الخصوصية وسنكون قادرين على بناء مصنف للأورام. بالإضافة إلى ذلك ، سنتمكن من العمل على أمراض أخرى ، مثل الخرف أو الاكتئاب. إذا تعلمنا العمل مع البيانات الخاصة في التعلم الآلي ، فيمكننا حل المشكلات العالمية المهمة.


التنفيذ عن بعد / التعلم الفدرالي


لنفترض أننا Apple لمدة ثانية. نريد أن نجعل خدماتنا أفضل. على سبيل المثال ، نريد تحسين الإكمال التلقائي. بعد ذلك ، نحتاج إلى البيانات: أي الكلمات وفي أي تسلسل يكتبه المستخدمون. يمكننا تنزيل هذه البيانات من أجهزة iPhone و iPad ، وتخزينها على خوادم الشركة ومجموعة البيانات جاهزة. ولكن بعد ذلك ننتهك الخصوصية!


نظرًا لأن البيانات لا تذهب إلى النموذج ، فإن النموذج ينتقل إلى البيانات. هذه هي فكرتنا الأولى. سنرسل الشبكة العصبية إلى المستخدمين ، وسوف نتعلم محليًا من بياناتهم ونحصل على النموذج بأوزان محدثة مرة أخرى. ميزة أخرى من "التنفيذ عن بعد" هي القدرة على التدريب النموذجي الموازي ، أي في وقت واحد على أجهزة مختلفة.


PySyft — python- . , . . , Torch-, .


#  PyTorch  PySyft
import torch as th
import syft as sy

#     PyTorch-
hook = sy.TorchHook(th)

#  "" ,  " " -    .
bob = sy.VirtualWorker(hook, id="bob")

#    x  y     .    .
x = th.tensor([1,2,3,4,5]).send(bob)
y = th.tensor([1,1,1,1,1]).send(bob)

#      . 
z = x + y

#  ,     
bob._objects
# {5102423178: tensor([1, 2, 3, 4, 5]),
#  6031624222: tensor([1, 1, 1, 1, 1]),
#  4479039083: tensor([2, 3, 4, 5, 6])}

#      ,    
z = z.get()
z
# tensor([2, 3, 4, 5, 6])

bob._objects
# {5102423178: tensor([1, 2, 3, 4, 5]), 
#  6031624222: tensor([1, 1, 1, 1, 1])}

tensor.get(). . , - ?


Differential Privacy


, , . , bag-of-words, , {"": " "}. . Differential Privacy — , .
.


. — . , . , , , . . , , . , . .


, - , 50/50. , . . , 60% ''. , . : 35% '', 25% '', 15% '' 25% ''. , 70% '' 30% ''. .


, . , , . , , .


. , . . , ( ).



. 'Remote Execution' , . , . .


. . , Secure multi-party computation Homomorphic Encryption. ?


:


  • Apple , . .
  • — "Differential Privacy". , . .

:



All Articles