Google Cloud Platform (GCP)- Datproc e Dataflow

di il
3 risposte

Google Cloud Platform (GCP)- Datproc e Dataflow

Buongiorno a tutti!

Ritorno alla carica con domande sul corso che sto seguendo per la via del "Data Analyst"... sono sicuro che col tempo questa "guida" potrà essere utile ad altri iniziati dei database

Sto cercando di capire alcune funzionalità del di GCP quali Dataproc e Dataflow.



Del Dataproc -> Lab di riferimento

"Cloud Dataproc è un servizio cloud veloce, facile da usare e completamente gestito per eseguire cluster Apache Spark e Apache Hadoop in modo più semplice ed economico."
L'assistena mi ha linkato sta roba che non è molto dettagliata e da molta roba per scontata...
So che è un servizio di GCP che tramite l'ausilio di API abilitate durante la creazione di questi "cluster" facilitano la creazione delle applicazioni che gli sviluppatori stanno creando. Punto. Ora domande da ignorante:
- Cosa è un "cluster"?
- Perchè ne creo uno?
-Cosa fa nella pratica?
- Quando ho necessità di crearne uno?
Dice che è un "managed Apache Spark and Apache Hadoop service"... Apache Spark sembra essere un open source per elaborare ed analizzare i
dati, ma con SQL in BigQuery non interrogo il dataset direttamente tramite la Console di Google? sono confuso...



Per il Dataflow peggio ancora. -> Lab di riferimento
Si parte dalla creazione di un Database e poi una tabella (fin qui no probl)
Non mi è chiarissimo che linguaggio sia il seguente (dichiaro variabili, colonne della suddetta nuova tabella) a me sembra DOS...

ride_id:string,point_idx:integer,latitude:float,longitude:float,timestamp:timestamp,
meter_reading:float,meter_increment:float,ride_status:string,passenger_count:integer

Successivamente creo un Bucket nello Storage del database (ok)

Ora vado nella sezione Dataflow e mi chiede di creare un lavoro da template....
Cosa sono la pipeline? (credo siano i collegamenti tra diverse tabelle...?)
Cos'è il file JSON?
Come faccio a capire qual'è il Dataflow più adatto alle mie esigenze?
Ma soprattutto quando clicco su "Run Job" cosa fa nella pratica?
Quando ho necessità di creare uno di questi Dataflow??

So che è robina noiosa e complicata... e lunga da spiegare. Ma c'è qualche santo-genio-skilled che me lo sa spiegare in parole """"semplici""""?

Il mio bagaglio di conoscenza in IT è 0 tutta sta roba è supernuova per me ed è un po contro-intuitiva....

Vi ringrazio di cuore in anticipo a chiunque mi possa dare una mano!

Salui
Lorenzo

3 Risposte

Devi accedere o registrarti per scrivere nel forum
3 risposte