• bàner_de_notícies

Servei

Mecanisme de neteja de dades de Spark Streaming
(I) DStream i RDD
Com sabem, el càlcul de Spark Streaming es basa en Spark Core, i el nucli de Spark Core és RDD, per la qual cosa Spark Streaming també ha d'estar relacionat amb RDD. Tanmateix, Spark Streaming no permet als usuaris utilitzar RDD directament, sinó que abstrau un conjunt de conceptes de DStream. DStream i RDD són relacions inclusives, que es poden entendre com el patró de decoració a Java, és a dir, DStream és una millora d'RDD, però el comportament és similar a RDD.
Tant DStream com RDD tenen diverses condicions.
(1) tenen accions de transformació similars, com ara map, reduceByKey, etc., però també algunes úniques, com ara Window, mapWithStated, etc.
(2) totes tenen accions d'acció, com ara foreachRDD, count, etc.
El model de programació és coherent.
(B) Introducció de DStream a Spark Streaming
DStream conté diverses classes.
(1) Classes de fonts de dades, com ara InputDStream, específiques com DirectKafkaInputStream, etc.
(2) Classes de conversió, normalment MappedDStream, ShuffledDStream
(3) classes de sortida, normalment com ara ForEachDStream
D'acord amb l'anterior, les dades des del principi (entrada) fins al final (sortida) les fa el sistema DStream, la qual cosa significa que l'usuari normalment no pot generar ni manipular directament els RDD, cosa que significa que el DStream té l'oportunitat i l'obligació de ser responsable del cicle de vida dels RDD.
En altres paraules, Spark Streaming té unaneteja automàticafunció.
(iii) El procés de generació de RDD a Spark Streaming
El flux de vida dels RDD a Spark Streaming és aproximat de la següent manera.
(1) A InputDStream, les dades rebudes es transformen en RDD, com ara DirectKafkaInputStream, que genera KafkaRDD.
(2) després, a través de MappedDStream i altres conversions de dades, aquesta vegada s'anomena directament RDD corresponent al mètode de mapa per a la conversió
(3) En l'operació de classe de sortida, només quan l'RDD està exposat, podeu permetre que l'usuari realitzi l'emmagatzematge corresponent, altres càlculs i altres operacions.