Données numériques, pages html : et après…

Et si ton CMS partait en vrille ?
dans | dans mon bocal | groummphh | mémoire |

Dimanche matin, je me suis réveillé avec une pensée désagréable, le sentiment que je jouais avec le feu avec mon blog. Ce n’est pas que ces fragments qui le composent soient importants, ils reflètent fidèlement mes interrogations, positions ou idées du moment. En gros, il serait ballot de perdre près de 10 ans de contenu même insignifiant.

L’expérience ne sert manifestement à rien : j’ai déjà perdu le texte de mes premiers livres techniques faute d’archivage intelligent — …dont une saga sur Word3 publiée chez PSI en 1988 —, je ne suis pas encore vacciné, la preuve…!

Bref, je me suis dit qu’il n’était pas inutile de préserver cette masse de billets — nuls ou acceptables — pour ma propre gouverne. Et pour mes gamins si cela peut les intéresser un jour. Ou pas !

Du coup :

  • perdre les illustrations liées à ces billets n’a pas d’importance, les photos sympas et citées existent dans ma propre base sous lightroom. Il suffit de lire l’URL pour retrouver l’image d’autant que toutes ces dernières sont numérotées par année, mois, jour, heure.
  • bon, les copies d’écran des softs hormis leur valeur informative ne sont pas essentielles mais peuvent accessoirement se récupérer par un simple accès FTP. Il suffit ensuite de faire un bête recherche remplacement dans les URL pour les pointer dans un autre dossier.
  • par contre, les textes de mes billets sont dans une base SQL et totalement habillées par du html. Bref, ce sont eux qui sont à extraire individuellement.

Et à convertir en Markdown.

Le Markdown, cela fait une très grosse année que mes billets emploient ce balisage et que je les glisse à chaque fois dans Day One avec des notes plus personnelles.

Du coup, la priorité est de commencer par traiter les billets les plus anciens.

Aussitôt dit, aussitôt démarré…

Comment procéder ?

c’est assez simple en fait. Le hasard fait que je m’interroge à 48 heures de la sortie d’Ulysses 3. Du coup, j’ai crée :

  • un dossier de travail dans Ulysses 3 sur mon Mac, synchronisé avec iCloud
  • chaque billet est copié collé en Markdown dans un fichier separé
  • puis exporté en .markdown dans un dossier séparé dans DropBox
  • du coup, cette version au format texte s’ouvre sans souci sous Byword ou autre

Bien, mais comment récupérer depuis une page .html un fichier texte balisé en Markdown ? C’est ici que je dégaine un service en ligne pondu par Brett qui parse ma page html pour la réécrire en Markdown avec une très efficace gestion des HUDs.

Bien, bien, mais comment être certain de balayer tous les billets…? Et non seulement ceux visibles depuis l’index qui est incomplet, étant passé de pMachine à ExpressionEngine. Nombre de billets n’ont pas de catégorie comme je m’en rends compte à nouveau…!

En employant simplement le permalink avec en suffixe l’information du numéro de billet et non l’URL du billet à destination du ’moteur de recherche (EE emploie plusieurs liens pour les billets, ce qui facilite ma tâche).

Certes, c’est fastidieux (une paille…!) mais cela marche impeccablement. Et j’ai effectivement retrouvé des billets que j’avais oublié de cataloguer. Sans oublier de nombreuses traces sans intérêt pour le lecteur de passage mais qui m’ont amusé. Et des trucs plus tragiques comme un fait divers de 2004 dans mon quartier…

Amusant de se relire et de (re)découvrir les centres dintérêt dalors…
Amusant de se relire et de (re)découvrir les centres d’intérêt d’alors…

Bref une sorte d’archéologie personnelle de mes publications qui n’est pas déplaisante. Je vais bien entendu ajouter les billets de mes alter ego dans ces archives markdownesques.

C’est long ? Oui, et alors !? Ça avance, plus que 4000 billets à traiter…! Je sens que je vais tester un AppleScript…!

note de fin

C’est ici où l’idée d’employer depuis 18 mois Day One est excellent. Plus de 1000 notes parsèment ma base XML et je peux à tout instant exporter en .txt avec du vrai Markdown dedans !

image du monde végétal — close-up
logotype d'urbanbike


Recherche | mode avancé

Sans oublier…!

image
Follow me on App.net