Do not overwrite audio

r9y9 · r9y9 · commit 5f15e351c2ae · 2018-03-03T13:25:01.000+09:00
also fixes a bug for r &gt; 1
diff --git a/generate_aligned_predictions.py b/generate_aligned_predictions.py
@@ -49,6 +49,12 @@ def preprocess(model, in_dir, out_dir, text, audio_filename, mel_filename,
         model.make_generation_fast_()
 
     mel_org = np.load(join(in_dir, mel_filename))
+    # zero padd
+    b_pad = r  # imitates initial state
+    e_pad = r - len(mel_org) % r if len(mel_org) % r > 0 else 0
+    mel_org = np.pad(mel_org, [(b_pad, e_pad), (0, 0)],
+                     mode="constant", constant_values=0)
+
     mel = Variable(torch.from_numpy(mel_org)).unsqueeze(0).contiguous()
 
     # Downsample mel spectrogram
@@ -78,10 +84,10 @@ def preprocess(model, in_dir, out_dir, text, audio_filename, mel_filename,
         frame_positions=frame_positions, speaker_ids=speaker_ids)
 
     mel_output = mel_outputs[0].data.cpu().numpy()
-
     # **Time resolution adjustment**
-    # remove begenning audio used for first mel prediction
-    wav = np.load(join(in_dir, audio_filename))[hparams.hop_size * downsample_step:]
+    mel_output = mel_output[:-(b_pad + e_pad)]
+
+    wav = np.load(join(in_dir, audio_filename))
     assert len(wav) % hparams.hop_size == 0
 
     # Coarse upsample just for convenience
@@ -102,8 +108,6 @@ def preprocess(model, in_dir, out_dir, text, audio_filename, mel_filename,
     timesteps = len(wav)
 
     # save
-    np.save(join(out_dir, audio_filename), wav.astype(np.int16),
-            allow_pickle=False)
     np.save(join(out_dir, mel_filename), mel_output.astype(np.float32),
             allow_pickle=False)