深度学习因为其积极影响成为了2017年最流行的流行语之一。深度学习(更准确地应该被称为深层神经网络)试图模拟大脑的活动。自20世纪50年代末以来,神经网络的基本原理已经存在,直到2010年左右,计算机才变得足够强大(数据也变得足够大),而且强大到足以使高度复杂的“深层”神经网络应用于实际。
现如今,这种技术正在彻底改变着自然语言处理和恶意软件检测。深度学习可以想出解决棘手问题的办法,比如,识别可疑的网络行为。这种技术以及相关的系统和工具将在反欺诈和安全应用中发挥越来越大的作用。
与其他形式的机器学习相比,深度学习解决问题时需要的手动编程较少。利用传统机器学习算法中花费最大的部分是被称为特征提取的一个阶段。工程师,分析师或数据科学家需要通过编写代码从机器学习算法的数据中提取有趣的特征,比如,一个人每天做的交易数量,或他或者她正在使用信用卡时离家的距离。分析师必须明确暗示着欺诈或安全漏洞的特征。
深度学习改变了这个方程式,它导入原始交易和用户数据,并应用神经网络技术自动执行这个特征提取的过程。 对于某些问题(如图像识别),人类很难编写出提取这些特征的代码。深度学习为许多领域的创新产品开辟了新的机遇,但它在安全,欺诈和检测滥用方面的表现尤其令人激动。它的一些应用包括:
1.发现不当行为。
用户提供内容的社交网络和其他论坛有时会引发异常行为,例如发布色情或暴力图像的人。有了深度学习,公司可以自动发现禁止的内容,而不需要雇用人手来查看用户报告的图像。这样可以节省资金和时间,而且可以更为积极主动地确保用户不违反公司政策。
2.照片验证:
网络犯罪分子经常创建假照片和ID。他们能够因此获得一个新的身份,从而创建假帐户来欺骗用户共享数据或注册虚假服务。诸如Airbnb等受到这些攻击的影响越来越大。深层神经网络在经过训练后可以识别被操纵过或复制的图像,而且自2015年以来,神经网络在相似的图像识别任务上的表现优于人类。
3.钓鱼邮件:
网络钓鱼—发送看似来自合法发送者(如UPS或银行)的电子邮件的做法—然后欺骗人们点击链接并骗他们打开会窃取私人电脑数据的病毒。我们中的部分人无意中就把个人数据,包括帐号和密码给了这些骗子。经过训练的深度学习系统可以用来识别这些钓鱼邮件,并阻止他们被传送到任何人的收件箱里。
4.垃圾邮件检测:
深度学习可以通过学习垃圾邮件和合法邮件之间的区别来消除各种形式的垃圾邮件。深层神经网络可以理解电子邮件文本中包含的概念还可以,例如,确定电子邮件是否包含推销产品的行为。
5.用户和实体行为分析:
用户和实体行为分析(UEBA)侧重于分析连接组织网络的人以及服务器,帐户,笔记本电脑等实体的行为。 UEBA用于外部违规检测以及识别流氓内部人员(它是通过分析什么是正常行为,例如,用户通常登录的位置以及他们访问的应用程序来识别的)。深度学习减少了UEBA所需的特征工程,而神经网络可以学习那些可能会指示恶意会话的用户行为模式。
6.帐户泄露检测:
像UEBA一样,安全工程师和研究人员开始注意到根据个人用户行为训练循环神经网络的能力。如果该用户的行为与模型充分偏离,则可能表示该帐户已被泄密。
然而,深度学习存在一些问题。首先,它需要大量被标记的数据才能生效。这需要人员挑选数据并将数据输入系统,以便它可以学习识别模式,例如用于钓鱼邮件的虚假标志或电子邮件地址。其次,据估计深度学习非常昂贵。
这就是深度学习直到大约2010年Google开始发布最先进的结果时还是一个新兴领域的原因。它可以做到这一点是因为出现了更便宜,更强大的被称为GPU的处理器(游戏玩家用来渲染令人印象深刻的3-D视觉的显卡)。此外,到2010年,Google等大型公司已经积累了深度学习起作用所需要的大量培训数据。世界数据每两年翻一番为新型机器学习取得成功提供了独特的机会。
幸运的是,你不需要频繁地用一个巨大的数据集来训练深度学习。许多研究团体在开源许可下在网络上发布了预先训练的模型。此外,你可以使用一种称为转移学习的策略,从这些预先训练好的网络开始,并根据自己的数据进行细化。 例如,你可以采用可以识别不同的动物,并能将其细化为景观数据集的经过预先训练的深层神经网络,它只需几百或几千个样本即可获得最高水平表现。
深度学习安全和欺诈检测的潜能仍处于其早期阶段。深度学习可以改变机器学习的数学,在大多数问题上,不仅仅是今天的恶意软件检测,我们都可以使用更少的分析,得到更好的结果。