Discover accelera l'analisi dei dati e il time-to-insights utilizzando AWS

2020

Discover Financial Services fornisce prodotti bancari e di credito per aiutare i clienti a raggiungere i loro obiettivi finanziari, come stabilire un buon credito, pagare un'istruzione universitaria e consolidare il debito. L'azienda fa molto affidamento sui dati e sulla loro analisi, sia internamente che esternamente, per mantenere tale promessa e distinguersi in un settore ultra competitivo. "Disponiamo di molti dati sui clienti," afferma Brandon Harris, direttore della tecnologia di data science presso Discover Financial Services. "Dobbiamo utilizzare questi dati come elemento di differenziazione per fornire costantemente un'esperienza migliore ai clienti."

Negli anni sono nate pratiche di analisi dei dati individuali all'interno dei team e delle unità aziendali di Discover. C'erano in tutto circa 8-10 set di strumenti suddivisi per 12 team. Ogni pratica richiedeva diversi set di abilità e strumenti. Il gruppo dirigente di Discover credeva che l'unione di tali pratiche e team potesse migliorare l'analisi dei dati e creare strumenti coerenti in tutta l'organizzazione.

Il team tecnologico di Discover costruisce di solito nuove soluzioni internamente, preferendo controllare le tecnologie end-to-end e gestire i propri data center. Harris e il suo team hanno avuto il compito di creare una piattaforma centralizzata che permettesse ai data scientist dell'azienda di collaborare in un ambiente comune, un banco da lavoro interno di data science chiamato Air9.

Discover Financial Services crea ambienti in cui i data scientist possono collaborare
kr_quotemark

Amazon EFS è all'altezza delle aspettative in termini di scalabilità e costi e, grazie all'ottimo lavoro svolto dalla community di Kubernetes, il servizio disponeva già di funzionalità di classe di archiviazione".

Brandon Harris
Direttore di Data Science Technology, Discover Financial Services

Costruzione di una piattaforma di data science nativa per il cloud

Uno dei primi principi di design su cui il team di Harris ha concordato per Air9 è stato la forza nella diversità. "Non solo nella diversità dei team e delle loro esperienze, ma anche nell'eterogeneità di approcci e strumenti", afferma Harris. "Non avremmo fornito un approccio unico alla data science per questa community consolidata di analisi dei dati".

Il team di Harris ha stabilito che Kubernetes fosse una buona soluzione per ospitare Air9 perché molti degli strumenti di data science già utilizzati dall'azienda si prestavano per natura alla containerizzazione. Avere container dedicati permetterebbe carichi di lavoro isolati e abiliterebbe gli utenti a installare pacchetti personalizzati e apportare modifiche ai propri ambienti che sarebbero difficili da gestire in un ambiente multi-tenant. Poiché Discover è un cliente di lunga data di Amazon Web Services (AWS) e utente di Amazon Simple Storage Service (Amazon S3), il team ha deciso inoltre di implementare istanzeAmazon Elastic Compute Cloud (Amazon EC2). Utilizzando questo approccio, circa 883 data scientist in più paesi possono ora scegliere la dimensione, il tipo e la quantità dell'istanza Amazon EC2 e fare in modo che l'applicazione monti automaticamente quell'istanza per i propri set di dati.

Miglioramento della scalabilità, dell’archiviazione e del costo con AWS

Una capacità di archiviazione condivisa con archiviazione di file nativi per il cloud completamente gestita era un altro componente cruciale di Air9. "Se hai tutti questi ambienti diversi in esecuzione deve esserci un modo comune per salvare i dati e collaborare", sostiene Harris.

Tuttavia il progetto ha avuto un imprevisto quando il team di Discover ha iniziato a progettare il livello di archiviazione. "I nostri team di analisi dei dati disponevano di set di dati molto grandi nel nostro data warehouse del cloud, ma dovevamo pianificare che avessero un’archiviazione locale per il proprio lavoro, nonché un meccanismo per condividere i dati tra i team", afferma Harris. "Questo livello di archiviazione doveva anche essere molto resiliente e supportare una crescita significativa nel tempo".

Harris e il suo team hanno deciso di sfruttare una soluzione di archiviazione distribuita open source come livello di archiviazione della piattaforma di data science, ma farla funzionare e gestirla è diventato presto dispendioso in termini di costi e tempo. "Quando abbiamo notato che i costi mensili associati all'esecuzione della nostra piattaforma di archiviazione superavano i costi di calcolo, abbiamo capito che qualcosa non andava", afferma Harris. "In definitiva, il costo in eccesso è stato attribuito al fattore di replica per l’archiviazione distribuita, ma il compromesso per la riduzione del costo, ovvero la riduzione del fattore di replica, non ci faceva sentire tranquilli."

Grazie al successo del team con Amazon EC2 sul fronte del calcolo della piattaforma, ha esaminato AWS managed services per l’archiviazione e ha scelto di implementare Amazon Elastic File System (Amazon EFS). Harris afferma: "Amazon EFS è all'altezza della situazione in termini di scalabilità e costi e, grazie all'ottimo lavoro svolto dalla community di Kubernetes, il servizio disponeva già di funzionalità di classe di archiviazione. AWS ci ha anche abilitato ad utilizzare ambienti diversi per diversi tipi di dati, in modo da poter proteggere meglio i tipi di dati più sensibili".

In precedenza ogni team aveva una directory home e una directory del team. Sfruttando Amazon EFS, l'azienda potrebbe facilmente fornire l'accesso condiviso a strumenti, progetti e set di dati di data science per una collaborazione più fluida. Le capacità di archiviazione dei dati a lungo termine, insieme ai bassi costi generali di Amazon S3, hanno permesso a Discover di personalizzare i processi di backup in modo da avere una seconda copia dei dati disponibile per la custodia.

"Utilizziamo Amazon EFS come livello di collaborazione, ma abbiamo anche un archivio e un livello storico per diversi set di dati o per scopi di gestione del ciclo di vita", afferma Harris. “Dobbiamo conservare determinati set di dati per un determinato numero di anni. Amazon S3 e la classe di archiviazione Amazon S3 Glacier ci hanno permesso di archiviare in modo conveniente tutti i dati creati e utilizzati dai nostri data scientist."

Migliorare la collaborazione e il time-to-insights

Oggi Air9 aumenta la produttività e l'efficienza dei data scientist di Discover consentendo loro di eseguire applicazioni di analisi dei dati in una posizione centrale su AWS; di collaborare in un ambiente di archiviazione condiviso, sfruttando origini dati strutturate e non; e di elaborare e archiviare dati da più fonti. Ciò permette ai data scientist di Discover di analizzare i dati per ottenere informazioni dettagliate in modo più rapido e semplice.

La precedente piattaforma dati richiedeva settimane per l'aggiornamento principalmente a causa dei vincoli di archiviazione e della necessità di ridimensionare e far crescere i vecchi cluster di archiviazione quando era necessario ulteriore spazio di archiviazione. Poiché Amazon EFS fa tutto ciò dietro le quinte, il team può ora aggiornare la piattaforma dati in poche ore. La piattaforma abilita anche il self-service, aiutando i data scientist a rimanere produttivi senza influire sull'esperienza dei loro colleghi. "Con il nostro precedente ambiente on-premise non esisteva alcun meccanismo per facilitare queste conversazioni e interazioni tra i nostri data scientist," afferma Harris.

Utilizzando la soluzione AWS, Harris stima che il suo team abbia ridotto del 90% il tempo dedicato alla gestione dell’archiviazione. E affidandosi ad AWS per gestire il servizio e fornire la capacità di ridondanza anziché doverlo progettare e costruire internamente, Discover ha ridotto i costi del 50-60%.

Questi cambiamenti stanno anche aiutando a far progredire gli sforzi complessivi di trasformazione digitale di Discover. "Ci volevano settimane per fornire agli utenti gli strumenti di cui avevano bisogno per svolgere i propri processi," afferma Harris. "Ora possiamo farlo in poche ore in modo che possano iniziare a raccogliere informazioni dettagliate e creare valore per i nostri clienti in maniera quasi immediata."

Per ulteriori informazioni visita aws.amazon.com/efs.

Architetture di riferimento

Architetture di riferimento


Su Discover Financial Services

Discover Financial Services è una società di servizi bancari e di pagamento digitali. Fondata nel 1985 e con sede a nord di Chicago, la missione dell'azienda è aiutare le persone a spendere in modo più intelligente, gestire meglio il debito e risparmiare di più.

Vantaggi di AWS

  • Riduce i tempi di gestione dell’archiviazione del 90% e i costi del 50-60%
  • Dimensiona il calcolo e l'archiviazione on demand
  • L’archiviazione condivisa permette ai data scientist di collaborare di più
  • Personalizza i processi di backup grazie allo spazio di archiviazione illimitato
  • Aggiorna la piattaforma dati in poche ore, e non in settimane
  • I data scientist possono concentrarsi sulle informazioni dettagliate anziché sulla tecnologia

Servizi AWS utilizzati

Amazon Elastic File System

Amazon Elastic File System (Amazon EFS) offre un file system NFS elastico, semplice, scalabile e completamente gestito da utilizzare con servizi AWS Cloud e risorse on-premise. È stato progettato per dimensionare di vari petabyte le risorse on demand senza interrompere le applicazioni, espandendosi e riducendosi automaticamente man mano che si aggiungono e si rimuovono file ed eliminando la necessità di effettuare il provisioning e di gestire la capacità per adeguarsi all'espansione.

Ulteriori informazioni »

Amazon S3

Amazon Simple Storage Service (Amazon S3) è un servizio di storage di oggetti che offre scalabilità, disponibilità dei dati, sicurezza e prestazioni all'avanguardia nel settore.

Ulteriori informazioni »

Amazon S3 Glacier e S3 Glacier Deep Archive

Amazon S3 Glacier e S3 Glacier Deep Archive costituiscono classi di archiviazione nel cloud Amazon S3 sicure, durature ed estremamente economiche per l'archiviazione dei dati e il backup a lungo termine.

Ulteriori informazioni »

Amazon EC2

Amazon Elastic Compute Cloud (Amazon EC2) è un servizio Web che fornisce capacità di elaborazione sicura e scalabile nel cloud. È concepito per rendere più semplice il cloud computing su scala Web per gli sviluppatori. Mediante l'interfaccia di servizio Web intuitiva di Amazon EC2 è possibile ottenere e configurare la capacità in modo semplice e immediato.

Ulteriori informazioni »


Inizia subito

Organizzazioni di tutte le dimensioni in tutti i settori si trasformano e realizzano le loro missioni ogni giorno utilizzando AWS. Contatta i nostri esperti e inizia oggi stesso il tuo percorso verso AWS Cloud.