Convertir des documents d’un format à l’autre
Pour faire de l’apprentissage IA sur des documents, on a souvent besoin de convertir d’un format à l’autre (par exemple d’un format MediaWiki
vers un format markdown
).
L’outil Pandoc permet de convertir une multitude de formats vers une multitude de format.
Supposons que j’ai un fichier qui contient le code d’une page Wikipedia. Le texte contenu contient énormément de méta-données qui vont perturber l’apprentissage (liens, renvois, notes, …).
On peut le convertir en texte plat avec la commande suivante :
pandoc -f mediawiki -t plain -o "out.plain.txt" --wrap=preserve "in.wiki.txt"
Pour modifier tous les fichiers Word d’un répertoire d’un coup :
for %i in ("C:\repertoire_entree\*.docx") do pandoc -f docx -t plain --wrap=preserve -o "C:\repertoire_sortie\%~ni.txt" "%~dpni.docx"