-
Notifications
You must be signed in to change notification settings - Fork 2
/
Copy pathgenerateNumpyFiles.py
78 lines (63 loc) · 2.49 KB
/
generateNumpyFiles.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
# IMPORT
import os
from PIL import Image
import numpy as np
from tqdm import tqdm
import librosa
import librosa.display
import matplotlib.pyplot as plt
"""
# Classe permettant de convertir notre dataset de fichiers audios en tableaux Numpy
"""
def launchConversion(pathData, pathNumpy, resizeImg, imgSize):
"""
# Permet de lancer la conversion des images en tableau numpy
:param pathData: chemin ou sont le jeu de données
:param pathNumpy: chemin de destination ou on va sauvegarder nos tableaux
:param resizeImg: booleen pour permettre de recouper les images ou non
:param imgSize: on taille les images à une même taille commune
"""
#Pour chaque classe
for soundClasse in os.listdir(pathData):
pathSound = pathData + '\\' + soundClasse
imgs = []
#Pour chaque image d'une classe, on la charge, resize et transforme en tableau
for soundFile in tqdm(os.listdir(pathSound), "Conversion de la classe : '{}'".format(soundClasse)):
imgSoundPath = pathSound + '\\' + soundFile
# Chargement de l'image
y, sr = librosa.load(imgSoundPath)
# Calcul du mel spectro selon notre audio
temp = librosa.feature.melspectrogram(y=y, sr=sr)
librosa.display.specshow(librosa.power_to_db(temp, ref=np.max))
# On convertit en image pour retaille la taille de l'image
canvas = plt.get_current_fig_manager().canvas
canvas.draw()
img = Image.frombytes('RGB', canvas.get_width_height(), canvas.tostring_rgb())
if resizeImg == True:
img = img.resize(size=imgSize)
# On enleve les axes pour n'avoir que l'image
plt.tight_layout(pad=0)
plt.axis('off')
# Decommenter la ligne si vous voulez un aperçu du spectro en image
#plt.show()
data = np.asarray(img, dtype=np.float32)
imgs.append(data)
plt.close()
#Converti les gradients de pixels (allant de 0 à 255) vers des gradients compris entre 0 et 1
imgs = np.asarray(imgs) / 255.
#Enregistre une classe entiere en un fichier numpy
np.save(pathNumpy + '\\ ' + soundClasse + '.npy', imgs)
def main():
"""
# Fonction main
"""
pathNumpy = '.\\numpyFiles'
pathData = '.\\dataset'
resizeImg = True
imgSize = (50, 50)
launchConversion(pathData, pathNumpy, resizeImg, imgSize)
if __name__ == '__main__':
"""
# MAIN
"""
main()