Careem 利用 AWS 机器学习来改善欺诈预防
2021 年
2019 年,Uber 以 31 亿美元收购总部位于迪拜的 Careem,使其成为中东的首个独角兽企业。作为该地区叫车经济的先驱,Careem 正在扩展其服务,以囊括公共交通、配送和支付,成为一款日常超级应用。
但是,Careem 的规模和知名度(拥有约 5000 万个客户账户)也使其成为欺诈者的主要目标,他们不断寻找可以利用的新漏洞,并通过各种方法来劫持真实账户。
Careem 需要找到方法来检测欺诈并阻止欺诈造成损失,欺诈行为不仅影响公司收入,还损坏品牌声誉。
Careem 选择了 Amazon Web Services(AWS),目前正在用分析和机器学习进行反击,自动识别并阻止欺诈者,预防犯罪行为。
Amazon Neptune 是完全托管的,这对我们来说是一个巨大的优势,因为这意味着我们不再需要那么多人员来参与这个项目,同时也减少了基础设施和维护的潜在成本。”
Kevin O’Brien
高级数据科学家,Careem
发生欺诈者攻击时
Careem 面临着各种不同类型的欺诈,而且犯罪分子总是在寻找新的漏洞,以绕过 Careem 针对已检测到的现有欺诈模式,所采取的特定措施。
过去,应对这些不同类型的欺诈行为,就像一场永无止境的猫捉老鼠的游戏。Careem 必须为每种特定类型的欺诈行为创建规则或机器学习模型。但这种应对方式存在两方面问题。
首先,只有在欺诈行为已经发生并被检测到之后,Careem 才能识别并封锁账户,而此时资金已经损失。
其次,在 Careem 找到检测此类欺诈行为的方法后,欺诈者能够迅速发现,他们会继续寻找新的漏洞加以利用。
更智能的方式
很明显,Careem 需要一种更智能、更快的方法来检测欺诈账户,并在欺诈行为发生之前将其阻止。
Kevin O’Brien(Careem 的高级数据科学家)说:“与其持续创建非常具体的工具,来检测非常具体的欺诈应用场景,我们希望构建一个项目,无论欺诈者发现了什么类型的漏洞,或者试图进行什么类型的攻击,该项目的全面检测机制都能检测到几乎所有用户。”
Careem 选择了图形数据库,来实时检测用户和账户活动中潜在的欺诈模式,并对市场上的几家主要提供商进行了评估。
Careem 的最终选择是 AWS 和 Amazon Neptune 的自动实时分析和监控功能,部分原因在于这是一项托管服务。
O’Brien 说:“Amazon Neptune 是完全托管的,这对我们来说是一个巨大的优势,因为这意味着我们不再需要那么多人员来参与这个项目,同时也减少了基础设施和维护的潜在成本。一切都完全由 AWS 托管。”
由于 Careem 已使用 AWS 来运营所有云计算和数据仓库,因此选择了同一环境来运营防欺诈项目。
同时,与其他图形数据库提供商使用的查询语言(例如 Cypher)相比,Careem 更喜欢支持 Amazon Neptune 的 Gremlin 查询语言。Gremlin 让开发人员可以使用各种编程语言编写查询,包括 Groovy、Java 和 Python。
通过关注身份来检测模式
为了提高其使用 Amazon Neptune 的欺诈检测能力,Careem 除了在特定类型的欺诈行为发生时进行努力应对之外,还开始关注用户的身份。
Amazon Neptune 图形数据库让 Careem 可以在不同的用户和数据点之间建立连接,并识别可能存在欺诈活动的模式。
防欺诈项目的第一版于 2020 年 10 月上线,使用了 Careem 内部来源(例如其数据仓库)的用户数据,数据历史可追溯到 2012。该项目在 Amazon Simple Storage Service(Amazon S3)上提取数据、对数据进行转换并格式化为 CSV 文件,然后上传到 Amazon Neptune。当用户执行新操作(例如使用新设备登录、添加新信用卡、更改电话号码或更改个人资料)时,项目会实时添加这些历史数据。该项目平均每天向 Amazon Neptune 图形中添加或更新数据超过 10 万次。
这会创建与每个用户相关的数据集群,Careem 使用 Python 构建了一个位于 Amazon Neptune 上的简单算法分析引擎,对数据集群进行分析。
当一个账户被标记为可能存在欺诈行为时,如果数据显示该账户历史上是不可信的账户,将自动封锁该账户;如果该账户是值得信赖的或高价值的账户,例如企业客户的账户,则会标记为人工审查。
通过提高准确度来减少损失
自 2020 年 10 月该项目第一阶段实施以来,Careem 已经封锁了成千上万的欺诈性用户账户,而结果令人称赞:在系统自动封锁的用户中,约有 90% 是正确的决定。这意味着 Careem 会在发生欺诈行为之前就封锁这些虚假账户,从而减少损失。
在该项目的第一阶段取得成功之后,Careem 现在正与 AWS 合作开发更新版本,该版本将通过使用 Amazon Neptune ML 中的机器学习功能进一步提高准确性。
通过使用大约 10 倍以上的历史数据,Careem 将能够应用高级深度学习,而不是单纯基于规则的方法,并对系统进行训练,使其能够学会识别图形数据库中欺诈用户的样子。这将大幅提高召回率,使系统能够从其分析的所有用户中,正确检测出更多的欺诈账户,同时将欺诈预测的准确性提高到远远超过 90%。
O'Brien 说:“我们非常有信心该解决方案的第二版将提高我们目前的防欺诈能力。这是我们选择 Amazon Neptune 的另一重要原因。”
关于 Careem
总部位于迪拜的 Careem 是叫车经济的先驱,目前正在扩展其服务,以囊括公共交通、配送和支付。Careem 成立于 2012 年,业务遍及中东、非洲和南亚 14 个国家的 100 多个城市。2019 年,Uber 以 31 亿美元收购 Careem。
AWS 带来的效益
- 安全性与合规性
- 敏捷性和性能
- 可用性
- 创新
使用的 AWS 服务
Amazon Neptune
Amazon Neptune 是一项快速、可靠且完全托管的图形数据库服务,可帮助您轻松构建和运行使用高度互连数据集的应用程序。
Amazon Redshift
借助 Redshift,您可以使用标准 SQL,在数据仓库、运营数据库和数据湖中,查询和合并 EB 级结构化和半结构化数据。
Amazon S3
Amazon Simple Storage Service(Amazon S3)是一种对象存储服务,其可扩展性、数据可用性、安全性和能效均行业领先。
Amazon SageMaker
Amazon SageMaker 通过整合专门为机器学习 (ML) 构建的广泛功能集,帮助数据科学家和开发人员快速准备、构建、训练和部署高质量的机器学习模型。
开始使用
了解有关 Amazon Neptune 的更多信息专为云构建、快速可靠的图形数据库