Devenir un expert en Data Extraction (webscraping)
Hands-on Labs
![]() |
|
Récupérer un prix sur une page web est simple. Mais récupérer 10 millions de produits est loin de l’être ! Les sites changent, protègent leurs données et l'on peut perdre des mois à construire un scraper… En 3 heures, venez découvrir comment gagner du temps en évitant les pièges de la data extraction ! Nous commencerons par une présentation des techniques de webscraping (20min) et nous apprendrons à utiliser le framework Scrapy (10min). Avec cette présentation, nous seront prêt à démarrer le workshop. Ensuite, vous progresserez autour de 7 challenges (2h20). Au menu: la récupération de plusieurs pages, le contournement de protections, le scheduling de scraper et la gestion de proxies! |
|
---|
Fabien est le CTO de Zelros. C’est un passionné de la data depuis 5 ans. Il développe des assistants conversationnels (chatbot) qui aident ses clients à mieux comprendre leurs données et à anticiper le futur ! Stack: AngularJS 2 / Node.js / Python / PostgreSQL / RabbitMQ / Docker C’est aussi un expert en data extraction (webscraping). Il développe le proxy open source Scrapoxy (http://scrapoxy.io): un proxy dédié aux scrapers. Son prochain challenge ? Démarrer un cloud de 300 IPs en moins de 5 minutes. |