yipjiaqi
/

spgm

Model card Files Files and versions

xet

Community

yipjiaqi commited on Mar 25, 2024

Commit

15787f0

verified ·

1 Parent(s): aff3c90

Delete spgm_train.yaml

Browse files

Files changed (1) hide show

spgm_train.yaml +0 -176

spgm_train.yaml DELETED Viewed

@@ -1,176 +0,0 @@
-# ################################
-# Model: SPGM for source separation
-# https://arxiv.org/abs/2309.12608
-# Dataset : WSJ0-2mix
-# ################################
-#
-# Basic parameters
-# Seed needs to be set at top of yaml, before objects with parameters are made
-#
-seed: 1234
-__set_seed: !apply:torch.manual_seed [!ref <seed>]
-# Data params
-# e.g. '/yourpath/wsj0-mix/2speakers'
-# end with 2speakers for wsj0-2mix or 3speakers for wsj0-3mix
-data_folder:
-# the path for wsj0/si_tr_s/ folder -- only needed if dynamic mixing is used
-# e.g. /yourpath/wsj0-processed/si_tr_s/
-# you need to convert the original wsj0 to 8k
-# you can do this conversion with the script ../meta/preprocess_dynamic_mixing.py
-base_folder_dm:
-experiment_name: SPGM
-output_folder: !ref results/<experiment_name>/<seed>
-train_log: !ref <output_folder>/train_log.txt
-save_folder: !ref <output_folder>/save
-train_data: !ref <save_folder>/wsj_tr.csv
-valid_data: !ref <save_folder>/wsj_cv.csv
-test_data: !ref <save_folder>/wsj_tt.csv
-skip_prep: False
-ckpt_interval_minutes: 15
-# Experiment params
-auto_mix_prec: False # Set it to True for mixed precision
-test_only: False
-num_spks: 2 # set to 3 for wsj0-3mix
-noprogressbar: False
-save_audio: False # Save estimated sources on disk
-sample_rate: 8000
-# Training parameters
-N_epochs: 200
-batch_size: 1
-lr: 0.00015
-clip_grad_norm: 5
-loss_upper_lim: 999999  # this is the upper limit for an acceptable loss
-# if True, the training sequences are cut to a specified length
-limit_training_signal_len: False
-# this is the length of sequences if we choose to limit
-# the signal length of training sequences
-training_signal_len: 9999999999999999
-# Set it to True to dynamically create mixtures at training time
-dynamic_mixing: True
-# Parameters for data augmentation
-use_wavedrop: False
-use_speedperturb: True
-use_rand_shift: False
-min_shift: -8000
-max_shift: 8000
-speedperturb: !new:speechbrain.lobes.augment.TimeDomainSpecAugment
-    perturb_prob: 1.0
-    drop_freq_prob: 0.0
-    drop_chunk_prob: 0.0
-    sample_rate: !ref <sample_rate>
-    speeds: [95, 100, 105]
-wavedrop: !new:speechbrain.lobes.augment.TimeDomainSpecAugment
-    perturb_prob: 0.0
-    drop_freq_prob: 1.0
-    drop_chunk_prob: 1.0
-    sample_rate: !ref <sample_rate>
-# loss thresholding -- this thresholds the training loss
-threshold_byloss: True
-threshold: -30
-# Encoder parameters
-N_encoder_out: 256
-out_channels: 256
-kernel_size: 16
-kernel_stride: 8
-# Dataloader options
-# Set num_workers: 0 on MacOS due to behavior of the multiprocessing library
-dataloader_opts:
-    batch_size: !ref <batch_size>
-    num_workers: 3
-# Specifying the network
-Encoder: !new:speechbrain.lobes.models.dual_path.Encoder
-    kernel_size: !ref <kernel_size>
-    out_channels: !ref <N_encoder_out>
-SBtfintra: !new:speechbrain.lobes.models.dual_path.SBTransformerBlock
-    num_layers: 8
-    d_model: !ref <out_channels>
-    nhead: 8
-    d_ffn: 1024
-    dropout: 0
-    use_positional_encoding: True
-    norm_before: True
-SBtfinter: !new:speechbrain.lobes.models.SPGM.SPGMBlock
-    n_embd: !ref <out_channels>
-    pool: 'att'
-MaskNet: !new:speechbrain.lobes.models.dual_path.Dual_Path_Model
-    num_spks: !ref <num_spks>
-    in_channels: !ref <N_encoder_out>
-    out_channels: !ref <out_channels>
-    num_layers: 4
-    K: 250
-    intra_model: !ref <SBtfintra>
-    inter_model: !ref <SBtfinter>
-    norm: ln
-    linear_layer_after_inter_intra: False
-    skip_around_intra: True
-Decoder: !new:speechbrain.lobes.models.dual_path.Decoder
-    in_channels: !ref <N_encoder_out>
-    out_channels: 1
-    kernel_size: !ref <kernel_size>
-    stride: !ref <kernel_stride>
-    bias: False
-optimizer: !name:torch.optim.Adam
-    lr: !ref <lr>
-    weight_decay: 0
-loss: !name:speechbrain.nnet.losses.get_si_snr_with_pitwrapper
-lr_scheduler: !new:speechbrain.nnet.schedulers.ReduceLROnPlateau
-    factor: 0.5
-    patience: 2
-    dont_halve_until_epoch: 85
-epoch_counter: !new:speechbrain.utils.epoch_loop.EpochCounter
-    limit: !ref <N_epochs>
-modules:
-    encoder: !ref <Encoder>
-    decoder: !ref <Decoder>
-    masknet: !ref <MaskNet>
-checkpointer: !new:speechbrain.utils.checkpoints.Checkpointer
-    checkpoints_dir: !ref <save_folder>
-    recoverables:
-        encoder: !ref <Encoder>
-        decoder: !ref <Decoder>
-        masknet: !ref <MaskNet>
-        counter: !ref <epoch_counter>
-        lr_scheduler: !ref <lr_scheduler>
-train_logger: !new:speechbrain.utils.train_logger.FileTrainLogger
-    save_file: !ref <train_log>
-# If you do not want to use the pretrained separator you can simply delete pretrained_separator field.
-# pretrained_separator: !new:speechbrain.utils.parameter_transfer.Pretrainer
-#     collect_in: !ref <save_folder>
-#     loadables:
-#         encoder: !ref <Encoder>
-#         decoder: !ref <Decoder>
-#         masknet: !ref <MaskNet>
-#     paths:
-#         encoder: yipjiaqi/spgm/encoder.ckpt
-#         decoder: yipjiaqi/spgm/decoder.ckpt
-#         masknet: yipjiaqi/spgm/masknet.ckpt