Mais finalement vu tous les articles sur la "privacy" qu'on peut lire actuellement, je vais balancer mon 0day... et puis je doute obtenir un bug bounty de Microsoft.
Je faisais de la classification d'informations recueillies avec FOCA et j'ai creusé un peu plus que nécessaire dans les metadata des documents récupérés. Dans un premier temps j'ai fait une passe sur les metadata des fichiers PDF avec pdfinfo, puis j'ai fait la même chose sur les images avec exiv2. Et là je me suis dit. Est-ce qu'on ne pourrait pas chopper les données exif des images contenues dans les pdf ???
Rien de plus simple ! Il existe un outil qui s'appelle pdfimages pour extraire les images des pdf. Alors en route.
#!/bin/bash # dependances: # md5deep # poppler-utils -> pdfimages mkdir images for file in *.pdf do echo ${file} pdfimages -j "${file}" ./images/"${file}" #on vire les bouzins n&b find ./images/ -name "${file}*.pbm" -exec rm -f {} \; #ppm find ./images/ -name "${file}*.ppm" -size -300k -exec rm -f {} \; #jpg find ./images/ -name "${file}*.jpg" -size -20k -exec rm -f {} \; #moulinette pour virer les doublons md5deep "./images/${file}"* | sort | while read arg1 arg2 do newsum=$arg1 if [ "$newsum" = "$oldsum" ] then rm "$arg2" fi oldsum="$newsum" done done #doublons inter documents md5deep ./images/* | sort | while read arg1 arg2 do newsum=$arg1 if [ "$newsum" = "$oldsum" ] then rm "$arg2" fi oldsum="$newsum" done
Ce script va extraire les images dans un sous-répertoire, ma première idée était de visualiser les images pour ne pas à me palucher 800 documents à lire. Donc j'ai mis une moulinette qui supprime les images trop petites. A vous de voir la quantité d'images que vous obtenez.
A noter que PDF Creator simule une imprimante virtuelle. J'ai l'impression qu'il fait des miettes d'images minuscules (des milliers). C'est pour cela que j'ai viré les petites images.
Puis enfin je passe le script exif sur les images :
#!/bin/bash # dependance: exiv2 for file in *.jpg do nbLine=$(exiv2 ${file} | grep -c "Exif") if [ "${nbLine}" -ne 0 ] then echo ${file} exiv2 -pt -u "${file}" fi done
Si je prends par exemple un fichier appelé ANSSI_Presentation_PASSI_du_10_sept_2013.pdf, j'obtiens les informations suivantes avec pdfinfo :
pdfinfo ANSSI_Presentation_PASSI_du_10_sept_2013.pdf Creator: Microsoft® PowerPoint® 2010
Et la sortie de mon script :
Exif.Image.0x0302 Ascii 22 Photoshop ICC profile Exif.Image.Software Ascii 37 Adobe Photoshop Elements 8.0 Windows Exif.Image.DateTime Ascii 20 2011:08:09 09:08:37 Exif.Photo.UserComment Undefined 122 CREATOR: gd-jpeg v1.0 (using IJG JPEG v80), quality = 90
Rien de vraiment intéressant, mais une belle preuve de concept montrant qu'Office 2010 ne supprime pas les données Exif des images intégrées dans les documents lorsqu'ils sont enregistrés en PDF. Je n'ai constaté le même résultat avec PDF creator ou PDF distiller. Je n'ai pas non plus tester sur un fichier issu d'Office 2013.
Aucun commentaire:
Enregistrer un commentaire