Extraire et stocker des Tweets avec Talend

Nativement l’outil Talend, dans sa version Open studio for Big Data ne dispose pas de connecteurs aux applications Twitter. Cet article présente une façon de récupérer et stocker des Tweets en utilisant une application Twitter et des composants Talend personnalisés.

1 – Installation des composants pour Talend

Des composants permettant d’interagir avec des applications Twitter ont été développés par Gabriele Baldasarre, ils sont disponibles au téléchargement ici .

Une fois extraits, les fichiers jar récupérés sont à installer dans Talend (Fenêtre > Préférence > Talend > Composants)

Les composants installés sont les suivants :

tTwitterOAuth permet de s’authentifier à une application twitter

tTwitterInput permet de soumettre une requête à une API Twitter

tTwitterOAuthclose permet de se déconnecter d’une application Twitter

2 – Configuration des composants

Le composant tTwitterOAuth a besoin de quatre informations d’identification à une application Twitter (Consumer Key, Consumer Secret, Access Token et Access Token Secret). Ces informations sont disponibles sur l’onglet « Key and access token » via https://apps.twitter.com/

Pour ne pas avoir à saisir ces informations lors de chaque utilisation du composant, il est préférable de les contextualiser.

Le compostant tTwitterInput permet de définir la requête qui récupèrera les Tweets. Deux sorties sont disponibles pour ce composant : Une sortie structurée où les données sont définies dans le tableau « column mapping » et une sortie non structurée au format JSON.

Le composant permet également de restreindre la requête à un nombre de Tweets défini, d’ajouter des conditions sur la présence d’un mot clé ou encore de choisir une plage de date des Tweets.

Le composant tTwitterAuthClose permet de fermer une connexion ouverte par un composant tTwitterOAuth.

 

3 – Exemple de stockage des Tweets

Dans cet exemple, le job Talend permet de récupérer des Tweets via les composants présentés ci-dessus et de les stocker dans une base MongoDB. Pour chaque ligne JSON en sortie du composant tTwitterInput, une commande MongoDB est exécutée pour ajouter la ligne dans une collection.

Exemple de collection :

 

 

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Captcha *