TYJ-1671 Devenir un expert en Data Extraction (webscraping) | Devoxx

Devenir un expert en Data Extraction (webscraping)

Hands-on Labs

bigd Big Data, Machine Learning, IA & Analytics

Neuilly 234_234M Lab

Friday from 12:55 til 15:55

Récupérer un prix sur une page web est simple. Mais récupérer 10 millions de produits est loin de l’être ! Les sites changent, protègent leurs données et l'on peut perdre des mois à construire un scraper…

En 3 heures, venez découvrir comment gagner du temps en évitant les pièges de la data extraction !

Nous commencerons par une présentation des techniques de webscraping (20min) et nous apprendrons à utiliser le framework Scrapy (10min). Avec cette présentation, nous seront prêt à démarrer le workshop.

Ensuite, vous progresserez autour de 7 challenges (2h20). Au menu: la récupération de plusieurs pages, le contournement de protections, le scheduling de scraper et la gestion de proxies!

Fabien Vauchelles Fabien Vauchelles

Fabien est le CTO de Zelros. C’est un passionné de la data depuis 5 ans.

Il développe des assistants conversationnels (chatbot) qui aident ses clients à mieux comprendre leurs données et à anticiper le futur !

Stack: AngularJS 2 / Node.js / Python / PostgreSQL / RabbitMQ / Docker

C’est aussi un expert en data extraction (webscraping). Il développe le proxy open source Scrapoxy (http://scrapoxy.io): un proxy dédié aux scrapers.

Son prochain challenge ? Démarrer un cloud de 300 IPs en moins de 5 minutes.

TBA : To be announced / Salle non affectée