Download  

Share via email
Comunicato Stampa (PDF)

Logo Cloudera

Il supporto per Spark SQL e MLlib amplia le funzionalità della piattaforma Hadoop per gli sviluppatori e i data scientis

Cloudera, fornitore globale della piattaforma di analisi e gestione dei dati più veloce, semplice e sicura basata su Apache Hadoop e delle più recenti tecnologie open source, annuncia di aver fatto ulteriori passi avanti nel corso dello scorso anno con l’integrazione di Apache Spark all’interno degli ambienti Apache Hadoop, con significativi miglioramenti in termini di fruibilità e interoperabilità. Per ampliare ulteriormente le funzionalità enterprise di questo potente motore per l’elaborazione dei dati, Cloudera ha aggiunto il supporto per Spark SQL e MLlib all’interno delle soluzioni Cloudera Enterprise 5.5 e CDH 5.5 di recente rilascio.

 

Grazie alla sua facilità di sviluppo e all’elaborazione flessibile dei dati, Spark ha acquisito una sempre maggior popolarità all’interno della comunità open source e tra i casi d’uso dei clienti. Si tratta del progetto più attivo all’interno dell’Apache Software Foundation (ASF), con oltre 800 sviluppatori di più di 200 aziende. Il team Cloudera dedicato a Spark ha contribuito attivamente alle funzionalità enterprise di Spark e al processo di integrazione di Spark all’interno di Hadoop per soddisfare le esigenze dei clienti e favorirne l’adozione (consultare l’infografica).

 

”L’adozione di Spark da parte della comunità di sviluppatori e le attività di Cloudera nel corso dello scorso anno per favorire la sua adozione su larga scala sono state a dir poco straordinarie”, ha affermato Doug Cutting, chief architect di Cloudera. “Con la maggior parte dei clienti che utilizzano Spark con Hadoop, abbiamo già fatto notevoli progressi nel promuovere le funzionalità enterprise di Spark per le distribuzioni Hadoop per vari settori e casi d’uso. Con l’aggiunta di Spark SQL e MLlib alla piattaforma Cloudera e una chiara tabella di marcia con il progetto One Platform Initiative, l’adozione di Spark continuerà ad aumentare per casi d’uso in ambito batch, streaming e machine learning”.

 

 

Cloudera e Spark: un anno sotto esame per l’adozione in ambito produzione

 

Nel corso dello scorso anno, Cloudera ha compiuto passi significativi nel processo di maturazione di Spark per affrontare una gamma di casi d’uso di elaborazione dati più ampia, tra cui applicazioni Internet of Things (IoT) end-to-end, un’elaborazione batch più semplice e machine learning nativo.

 

Sempre più clienti desiderano IoT e streaming dei dati in tempo reale per cui per supportare le loro applicazioni hanno bisogno di un motore di elaborazione delle sequenze di livello enterprise. Per rispondere a questa esigenza, Cloudera è stata protagonista dello sviluppo della resilienza di Spark Streaming, garantendo una perdita di dati pari a zero e portandolo agli standard di produzione. Questo miglioramento critico, unitamente all’integrazione di Apache Kafka all’interno della piattaforma, ha permesso ai clienti di Cloudera di creare applicazioni IoT complete all’interno di una piattaforma unificata e ha avuto un impatto drastico sull’adozione di Spark Streaming nel complesso.

 

Per rendere possibile un’elaborazione batch più semplice e potente e aiutare Spark a consolidarsi come motore di esecuzione standard in Hadoop, quest’anno Cloudera ha rilasciato la versione beta di Apache Hive-on-Spark. Strumento preferito per lo sviluppo ETL, l’integrazione di Hive con il motore di elaborazione Spark rappresenta una pietra miliare nel supportare i carichi di lavoro di dati di nuova generazione e l’adozione di Spark come successore di MapReduce.

 

Il progetto One Platform Initiative di Cloudera, annunciato a Settembre, prosegue l’accelerazione dello sviluppo di Spark Apache per l’impresa e all’interno dell’ecosistema Hadoop. Cloudera sta facendo progressi significativi nel potenziamento delle funzionalità di sicurezza, scalabilità, gestione e streaming di Spark e continuerà a concentrarsi su tale sviluppo anche nel prossimo anno.

 

Con il recente di rilascio di Cloudera 5.5, Cloudera ha aggiunto Spark MLlib – portando la semplicità d’uso di Spark e i miglioramenti delle prestazioni alle applicazioni di machine learning all’interno di Hadoop – e Spark SQL – ampliando le funzionalità di Spark a disposizione di sviluppatori e data scientist permettendo di incorporare con semplicità SQL all’interno delle applicazioni Spark. Questa release include anche molti miglioramenti al motore di query Spark come parte di Project Tungsten, andando a migliorare in modo significativo efficienza e velocità. Per assicurare ulteriori funzionalità, le integrazioni create con Hive e il suo metastore assicurano la piena interoperabilità degli schemi di dati con Spark SQL all’interno della piattaforma Hadoop – garantendo che gli utenti corretti abbiano un’esperienza senza problemi con gli strumenti più adatti per il loro lavoro, che si tratti di sviluppo ETL con Hive, sviluppo delle applicazioni con SparkSQL o intelligence interattiva per il business con Impala.

 

Ampliare l’adozione da parte dei clienti

 

Grazie alla più ampia esperienza nel supporto di Spark come parte di Hadoop, Cloudera vanta più clienti che utilizzano Spark su Hadoop di tutti gli altri vendor insieme e alimenta alcuni dei più grandi cluster Spark multi-tenant, tra cui distribuzioni di oltre 800 nodi.

 

Con oltre 170 clienti che utilizzano Spark in una vasta gamma di settori, tra cui finanza, sanità, retail e assicurazioni, Cloudera ha aiutato i clienti nell’adozione di un’ampia gamma di casi d’uso di nuova generazione, tra cui:

 

  • Cox Automotive: uno dei principali fornitori di prodotti e servizi per i concessionari e gli acquirenti di auto, è passato da analitiche orarie a approfondimenti in tempo reale delle campagne pubblicitarie utilizzando Spark Streaming
  • PRGX: il principale fornitore mondiale di servizi di revisione del recupero dei crediti, ha affermato che l’elaborazione dei dati flessibile e performante di Spark è stata una “manna dal cielo” e ha migliorato le prestazioni di 9-10 volte rispetto ai sistemi legacy
  • Online Retailer: ha utilizzato Spark per ridurre del 30% i tempi di elaborazione dei dati e per sfruttare i trend in tempo reale per un maggior coinvolgimento
  • Allstate: uno delle più grandi compagnie di assicurazione degli Stati Uniti, utilizza Cloudera e Apache Spark per combinare oltre 80 anni di dati per modelli di pricing perfezionati
  • RelayHealth: fornitore di soluzioni tecnologiche per la sanità e consociata di McKesson, crea modelli predittivi sui tempi di ricevimento dei pagamenti ai fornitori di servizi sanitari, migliorando il loro flusso di cassa. L’azienda elabora interazioni per i pagamenti in ambito sanitario tra 200.000 medici, 2.000 ospedali e 1.900 sottoscrittori di piani sanitari
  • Barclays: multinazionale di servizi bancari e finanziari, crea un motore di insight che analizza in modo sicuro i dati eterogenei relativi alle transazioni e fornisce approfondimenti pertinenti ai clienti Barclays in un modo facilmente assimilabile.

 

Inoltre, il Cloudera Accelerator Program per Spark ha stimolato decine di applicazioni e integrazioni Spark con i principali strumenti di terze parti, ampliando ulteriormente le funzionalità di Spark per i clienti. Tra i principali partner si annoverano Datameer, Informatica, Oracle, Paxata, Pentaho, Platfora, StreamSets, Syncsort e Talend.