Le scraping client-side avec Artoo.js
Le Web est une ressource quasi inépuisable de données de tous types. Cependant ces données peuvent prendre différentes formes, des plus accessibles et manipulables aux plus dures à exploiter: tableaux, pagination, HTML mal formé...
Des veilleurs aux chercheurs en passant par de simples curieux, les personnes ayant besoin de ces données n'ont pas toutes les compétences informatiques nécessaires pour les extraire autrement qu'en les copiant à la main, cellule par cellule. Pourtant, si le HTML n'est pas toujours propre, le DOM dans le navigateur est, lui, tout à fait fiable et exploitable. De plus, des bibliothèques comme jQuery permettent aujourd'hui de requêter et de manipuler le DOM de manière très simple. Enfin, les outils de débogage des navigateurs sont devenus de véritables environnements de développement.
Artoo.js, développé au médialab de Sciences-Po Paris, est une bibliothèque JavaScript créée pour aider à scraper les données du Web, directement depuis le confort du navigateur. Il couvre de nombreux usages, depuis la simple extraction des données d'une page Web, à la production de bookmarklets ad-hoc permettant de récupérer les données depuis plusieurs pages d'un même site.
Slides
Commentaires