Aller au contenu
Cheat Sheet
Logiciels

Convertir des documents d’un format à l’autre

Pour faire de l’apprentissage IA sur des documents, on a souvent besoin de convertir d’un format à l’autre (par exemple d’un format MediaWiki vers un format markdown).

L’outil Pandoc permet de convertir une multitude de formats vers une multitude de format.

Supposons que j’ai un fichier qui contient le code d’une page Wikipedia. Le texte contenu contient énormément de méta-données qui vont perturber l’apprentissage (liens, renvois, notes, …).

On peut le convertir en texte plat avec la commande suivante :

pandoc -f mediawiki -t plain -o "out.plain.txt" --wrap=preserve "in.wiki.txt"

Pour modifier tous les fichiers Word d’un répertoire d’un coup :

for %i in ("C:\repertoire_entree\*.docx") do pandoc -f docx -t plain --wrap=preserve -o "C:\repertoire_sortie\%~ni.txt" "%~dpni.docx"
Convertir les fichiers HEIC en JPEG
[Windows] Rétablir la détection du jack
convertion document markdown service texte

Articles similaires

Comment vérifier que mon client…
Convertir les fichiers HEIC en…
Créer un CBZ avec 7zip
[FFmpeg] Convertir un WAV en…
Récupérer un MP3 depuis YouTube
Lancer 2 instances de FireFox
Configuration VIM
Prévisualiser du markdown dans Notepad++

Catégories

  • Android
  • Calibre
  • Docker
  • Excel
  • Git
  • Google Sheet
  • Knime
  • Linux
  • Logiciels
  • Matériel
  • Non classé
  • Notepad++
  • PHP
  • Power BI
  • Programmation
  • Python
  • Qlik
  • Service
  • Synology
  • Visual Studio Code
  • VSCode
  • Windows
  • Word
  • WordPress

Étiquettes

adb android apache audio calibre convertion css debian docker drivers excel fichiers firefox flask google grep html kobo linux manette markdown mp3 notepad++ office php pip portable privoxy python qlik qliksense qlikview realtek selenium synology tor venv vim virtualenv vscode web windows wordpress xargs youtube

Tags

adb android apache audio calibre convertion css debian docker drivers excel fichiers firefox flask google grep html kobo linux manette markdown mp3 notepad++ office php pip portable privoxy python qlik qliksense qlikview realtek selenium synology tor venv vim virtualenv vscode web windows wordpress xargs youtube
Thème par Colorlib Propulsé par WordPress