WikiToMediatly
Extraction des données Wikipedia vers Mediatly
Lorsque j’ai développé “Mediatly“, pour éviter un site vide et rebutant au lancement, j’ai également développé une application permettant de récupérer les informations provenant de Wikipedia et de les transformer en données utilisables au sein de Mediatly.
Cela m’a permis d’obtenir rapidement environ 1,4 million de fiches de médias dans 10 langues.
Cette aventure n’a pas été une mince affaire. Il a d’abord fallu récupérer les dumps de Wikipedia dans les 10 langues souhaitées, puis convertir les énormes fichiers XML en “pages” dans une DB et ne conserver que les pages relatives à un média. Ensuite, il a été nécessaire de transformer ces articles textuels en équivalent sémantique afin de pouvoir les traiter dans Mediatly. À cette fin, d’innombrables expressions régulières ont été nécessaires afin de trouver les bonnes informations et, ce, dans les différentes langues.
Un autre point problématique a été la vitesse d’exécution. Afin de rendre l’exercice envisageable, les DB ont dû être stockées sur un SSD et chaque langue traitée dans un threat différent. Même ainsi, l’exécution complète de l’opération a nécessité plus de 48 h, les 8 processeurs logiques en pleine charge.
Tags
- Application
- C#
- WPF
- XML
- MySQL
- Regex
- Threads