Date de la session : 21/08/2021 15h00-18h00
Date de publication : 22/03/2021
Intro
Analyser comment crawler digicamdb.com.
Description
Un fichier JSON contenant la liste des noms des caméras est facilement récupérable depuis la console de développement.
D’ailleurs, on peut remarquer que le nombre d’éléments dans le JSON ne correspond pas au nombre de camera répertoriés sur le site. Le Fujifilm X-S10 est sorti en fin 2020 et est 4028e élément.
Au début, je pensais qu’avec cette liste, j’aurais pu facilement déterminer les URLs.
En partant du principe que le premier espace rencontré serait à remplacer par un _
. Et les espaces suivant sont à remplacer par un -
.
Example :
Fujifilm X-S10 ⇒ fujifilm_
x-
s10
Bien que cette règle fonctionne dans la plupart des cas, j’ai quand même trouvé certains cas où elle ne fonctionne pas.
Deuxième solution plus fiable, utiliser le formulaire qui sert de navigation en haut de la page.
Il suffira de copier chaque valeur du tableau dans le champ du formulaire, et de cliquer sur le bouton de recherche. Attendre le chargement de la page. Récupérer les informations. Recommencer avec la valeur suivante ceci plus de 4 000 fois.
Objectifs
- Crawler digicamdb.com
- Récupérer la liste des URLs des pages
- Définir une méthodologie pour naviguer sur les 4 000 + pages
Code
Le script crawler digicamdb sera créé en s’inspirant des scripts précédant.
Difficultés rencontrées
Rien à voir, mais j’ai décidé de faire des enregistrements d’écrans. Et les transformer en GIF pour les inclure dans les articles coding sessions. Ça rajoute une perte de temps dans la progression vers la finalisation de l’application.
Il faut enregistrer l’écran, éditer la vidéo retirer les moments ennuyeux. Parfois transformer en zoomant, croppant des parties de la vidéo. Après l’export convertir en GIF. Une étape supplémentaire en plus de rédiger l’article 😆.
Points positifs
Pas de point de blocage pour l’instant, c’est encourageant.
Nouvelles problématiques
Coder, écrire un article coding session, et dans un même temps capturer, éditer ma progression sous forme de vidéo/GIF.
Prochaines étapes
Exécuter le script crawler digicamdb.